МАШИННЫЙ ПЕРЕВОД ПАТЕНТНЫХ ДОКУМЕНТОВ

В последние годы энтузиасты высказывали немало надежд по поводу перспективы замены ручного перевода патентных документов машинным переводом. Эти ожидания, совместно со стремлением сэкономить на переводе, привели к тому, что иностранные заявители стали все чаще присылать машинный перевод заявок на русский язык (для непосредственной подачи) или на английский язык (для дальнейшего перевода на русский). В силу объективных причин автор не разделяет оптимизма насчет реалистичности скорой замены переводчика машиной, особенно в сфере патентного перевода. Вместе с тем, некоторые аспекты машинного перевода могут принести пользу и в патентном деле.

 

Ограничения технологий машинного перевода

 

Применение машинного перевода в отношении патентной документации осложняется существенным различием лексико-грамматических принципов, используемых в различных видах патентных документов и даже в различных частях одного и того же документа, например, патентной заявки или искового заявления. В системах машинного перевода на основе правил (Rule-Based Machine Translation, RBMT) это приводит к необходимости применения к документам разного вида или к различным частям одного и того же документа различных словарей и наборов правил, а в системах статистического перевода (Statistical Machine Translation, SMT) – к необходимости формирования и независимого применения различных двуязычных массивов фрагментов текстов и различных статистических моделей перевода, например, по словам (Word-based translation, WBT), по фразам (Phrase-based translation, PBT), по синтаксису (Syntax-based translation, SBT), по иерархическим фразам (Hierarchical phrase-based translation, HPBT) и т.п. При этом автоматический лексико-семантический анализ с целью отнесения всего документа или его части к тому или иному виду и оптимального выбора правил, иерархических моделей и массивов сам по себе является нетривиальной (скорее, даже непосильной) задачей для современной компьютерной лингвистики.

 

Очевидно, что это соображение в целом справедливо и для систем машинного перевода на примерах (Example-based Machine Translation, EBMT), и для систем машинного перевода на корпусах текстов (Corpus-based machine translation, CBMT).

 

Гибридные системы перевода (Hybrid Machine Translation, HMT) представляют собой комбинацию двух или большего количества упомянутых выше технологий, поэтому все сказанное выше относится и к ним.

 

В апреле 2010 г. стартовал проект PLuTO (Patent Language Translations Online, http://www.pluto-patenttranslation.eu/), который осуществлялся специально созданным под него консорциумом, был профинансирован в размере 4,36 млн. евро, действовал в течение трех лет и завершился запуском бета-версии коммерческого онлайн-сервиса IPTranslator (http://iptranslator.com/), обеспечивающего двунаправленный перевод в нескольких языковых парах с английским языком (русский язык заявлен как рабочий, но по факту не поддерживается). Машинный перевод в PLuTO основан на гибридной системе MaTrEx (Machine Translation Using Examples), разработанной в Дублинском городском университете. Технические аспекты проекта описаны в [1–3]. Стоимость машинного перевода этой системой составляет от 7 до 10 евро за страницу (т.е. приблизительно от 0,03 до 0,04 евро за слово). Качество перевода – см. в примере ниже.

 

С 2012 г. Европейское патентное ведомство (EPO) эксплуатирует систему Patent Translate, в основе которой лежит система статистического перевода на движке Google Translate с базой параллельных текстов, предоставленных самим ведомством. Качество перевода в направлении с основных европейских языков (немецкий, испанский, французский) на английский – низкое, а в парах с русским языком – и вовсе безнадежное. Тем не менее, даже в паре с русским языком качество перевода Patent Translate несколько выше, чем качество с перевода непосредственно от Google Translate, что указывает на важность подготовки пар текстов, на которых тренируется система статистического перевода.

 

В 2012 г. автор совместно с основателем бюро переводов «Аргонавт» Олегом Выгодским провел эксперимент на платформе «Аргонавта», предназначенной для автоматического перевода инструкций по эксплуатации телекоммуникационного оборудования: через связку системы памяти переводов Trados и системы машинного перевода на основе правил Promt с подключенными отраслевыми словарями (поставочный патентный словарь и пользовательский словарь по телекоммуникациям самого «Аргонавта») пропустили фрагмент патентного документа (тоже в области телекоммуникаций). Результат не обнадежил.

 

Всемирная организация по интеллектуальной собственности (WIPO) предоставляет возможность воспользоваться одной из внешних систем машинного перевода – от Google, Microsoft и Baidu. Качество перевода – см. в примерах ниже.

 

В WIPO также имеется собственная система статистического перевода WIPO Translate, известная ранее как TAPTA [6], основанная на движке Moses с открытым кодом (http://www.statmt.org/moses/) и тренированная на парах патентных текстов, переведенных людьми. На том же движке Moses основаны системы автоматического перевода некоторых органов ООН (ITU, IMO, FAO и т.д.). Технические аспекты системы описаны в [4–5]. Качество перевода – см. в примере ниже.

 

В последнее время стали появляться сообщения о разработке и запуске в эксплуатацию систем машинного перевода на основе нейронных сетей. Некоторые специалисты выражают завидный энтузиазм относительно перспектив этой технологии. Единственный рабочий пример такой системы – бета-версия нейронного переводчика WIPO, работающая в парах китайский-английский и японский-английский. Система запущена в опытную эксплуатацию и качество перевода пока еще крайне низко, так что пользоваться ею невозможно даже в справочных целях. Поэтому говорить о коммерческом применении нейронных сетей для патентного перевода, мягко говоря, преждевременно.

 

Как использовать машинный перевод

 

На сегодняшний день прямой машинный перевод патентных документов целесообразно применять лишь в ознакомительных целях, чтобы быстро оценить релевантность того или иного источника на неизвестном читателю языке и принять решение о необходимости его ручного перевода.

 

Тем не менее, автор готов поделиться положительным опытом применения параллельного промежуточного машинного перевода патентной заявки с языка, которым переводчик не владел в должной мере. В этом случае был применен промежуточный перевод на английский язык. Далее – реальный пример решения задачи с использованием автоматического параллельного промежуточного перевода.

 

Патентная заявка была опубликована на испанском языке и относилась к области мобильной связи. Постоянный заказчик, зная, что подрядчик не берется переводить заявки с иных языков, кроме английского, предложил использовать в качестве источника текст, полученный с помощью сервиса Google Translate. Автору эта задача показалась интересной с технологической точки зрения, и заказ был принят в работу.

 

Разумеется, переводить патентную заявку непосредственно с автоматически сформированного английского текста было бы безумием. Поэтому в качестве англоязычного источника были одновременно использованы три варианта автоматического перевода с испанского на английский язык – от Google Translate, Microsoft Bing и Baidu. Оказалось, что сопоставление трех параллельных промежуточных переводов при хорошем знании переводчиком технической области, к которой относится изобретение, позволяет достаточно надежно реконструировать смысл исходного текста. Единство терминологии проверялось по исходному испанскому тексту.

 

Далее на примерах показано, как это выглядело на практике.

 

Оригинальный текст на испанском языке

 

Es también objeto de la invención ofrecer un sistema para notificar a un abonado llamado del intento de una llamada realizada por un abonado llamante de prepago en una red de telecomunicaciones, el sistema está formado por medios para recibir, en la red de telecomunicaciones, una llamada del abonado llamante de prepago para el abonado llamado; medios para determinar, en la red de telecomunicaciones, que el abonado llamante de prepago cuenta con crédito insuficiente o nulo de prepago para realizar la llamada; y medios para notificar, la red' de telecomunicaciones al abonado llamado, que un intento de llamada del abonado llamante de prepago ha sido hecha hacia el abonado llamado, cuando los medios para determinar han determinado que el abonado llamante de prepago cuenta con crédito insuficiente o nulo de prepago para realizar la llamada.

 

Следует отметить, что в качестве оригинального текста был использован текст из Patentscope, полученный путем оптического распознавания символов (Optical Character Recognition, OCR), содержащий характерные дефекты распознавания.

 

Перевод Google

 

Another object of the invention to provide a system for notifying a subscriber's call attempt a call placed by a calling subscriber prepayment for a telecommunications network, the system consists of means for receiving, in the network of telecommunications, a call prepaid calling party to the called party; means for determining, in the network of telecommunications, the prepaid calling party has insufficient or no credit for prepaid call Ia; and means for notifying, the network 'telecommunications subscriber call, that an attempt to call the caller prepayment has been made to the called party when the means for determining have determined that the calling subscriber prepaid account with insufficient credit or no prepayment for Ia call.

 

Перевод Bing

 

Is also the subject of Ia invention provide a system to notify a called subscriber of a call attempt conducted by a paid caller of prepayment in a telecommunications network, the system comprises means for receive, Ia telecommunications network, call of the paid subscriber prepaid caller called; means to determine, in Ia telecommunications network, that the calling subscriber of prepaid has insufficient or no credit of prepaid for so-called Ia; and media to notify, Ia network ' of telecommunications to the paid call, a call from the caller of prepaid subscriber attempt has been made to the called subscriber, when the means to determine have determined that calling prepaid subscriber has insufficient or no credit prepaid to perform so-called Ia.

 

Перевод Baidu

 

Object of the invention is to provide a system to notify a called Subscriber to a call made by a Caller Prepaid Subscriber in a Telecommunication Network, the system comprises means for receiving, in the Telecommunications Network, a call from the calling Subscriber prepaid for the called Subscriber to determine; in the Telecommunication Network​That the caller Prepaid Subscriber account with insufficient credit or Prepaid NULL for the call; and Means for notifying the Telecommunications Network 'to the called Subscriber, a call attempt caller Prepaid subscriber has been made to the called Subscriber, to determine when the media have determined that the caller of Subscriber Prepaid account with insufficient credit or prepaid for the null call.

 

Реконструкция на русском языке

 

Другой целью настоящего изобретения является реализация в телекоммуникационной сети системы для уведомления вызываемого абонента о попытке вызова, предпринятой вызывающим абонентом с предварительной оплатой услуг, содержащей средства для приема телекоммуникационной сетью вызова от вызывающего абонента с предварительной оплатой услуг к вызываемому абоненту; средства для проверки телекоммуникационной сетью нулевого или недостаточного для вызова кредита на счете вызывающего абонента с предварительной оплатой услуг; и средства для уведомления телекоммуникационной сетью вызываемого абонента о попытке вызова, предпринятой вызывающим абонентом с предварительной оплатой услуг, в случае определения нулевого или недостаточного для вызова кредита на счете вызывающего абонента с предварительной оплатой услуг.

 

Что было обнаружено в ходе работы:

 

  1. Все варианты автоматического перевода были безобразными; во всех трех вариантах смысл оказался искаженным приблизительно в трех предложениях из четырех, в некоторых предложениях он даже не угадывался.

 

  1. В переводах Google и Bing часть слов на испанском языке не была корректно распознана и перекочевала в английский перевод.

 

  1. Некоторые слова были переставлены или просто выпали из перевода.

 

  1. В переводах Google и Baidu наблюдалось нарушение единства терминологии (например, термины calling/called subscriber произвольно перемежались терминами calling/called party), хотя в испанском оригинале единство терминологии было соблюдено.

 

  1. Критически важным для смысловой реконструкции текста оказалось наличие у переводчика 20-летнего инженерного опыта в области телекоммуникаций.

 

  1. Трудоемкость заказа оказалась приблизительно на 30–50% выше трудоемкости обычного перевода с английского текста заявки среднего качества.

 

  1. Качество целевого перевода (на русский язык) оказалось равным качеству обычного перевода с английского текста заявки среднего качества, т.е. было вполне приемлемым для цели подачи заявки в Роспатент или в ЕАПО.

 

Можно предположить, что сходные результаты были бы получены и при использовании автоматического промежуточного перевода с двух других основных европейских языков – немецкого и французского.

 

Впоследствии тот же текст был для сравнения переведен коммерческой системой машинного перевода PLuTO (http://iptranslator.com/) и системой WIPO Translate (TAPTA). Результаты перевода представлены ниже.

 

Перевод PLuTO

 

It is also a subject of the invention to provide a system to notify a called party the attempt of a appeal by a subscriber calling prepayment in a telecommunications network, The system is FORMED by Means for receiving, in the telecommunications network, a call from the calling subscriber prepayment called for the manure; Means to determine, in the telecommunications network, That the calling subscriber account on credit prepayment Inadequate or no prepayment to carry out the call; and Means to notify, the network 'of telecommunications services to the called party, An attempt to so-called subscriber calling prepayment have been made towards the called party, when the means to determine have determined that the subscriber calling prepayment account on credit inadequate or no prepayment for the call.

 

Несмотря на разрекламированную на сайте IPTranslator «заточенность» PLuTO под патентную тематику, качество перевода этой платной системы в целом не сильно отличается от качества перевода бесплатных Google, Bing или Baidu, а некоторые семантические ошибки в переводе PLuTO совершенно необъяснимы (например, не ясно, откуда в приведенном выше примере взялся термин «manure», что означает «навоз»). При той цене, которую взимает этот сервис, вполне можно найти переводчика-фрилансера, способного обеспечить гораздо более качественный черновой перевод, пригодный для дальнейшего редактирования патентным специалистом.

 

Перевод WIPO Translate

 

A further object of the invention is to provide a system for notifying a called subscriber of a call attempt is performed by a prepaid calling subscriber in a telecommunications network, the system comprises means for receiving, in the telecommunication network, a call from the prepaid calling subscriber to the called subscriber; means for determining, in the telecommunication network, the prepaid calling subscriber has insufficient credit or zero for performing call prepayment; and means for notifying the telecommunications red'the called subscriber, an attempt of the call from the prepaid calling subscriber has been made to the called subscriber, when the means for determining has determined that the prepaid calling subscriber is provided with no or insufficient credit prepaid to make the call.

 

Как видно из примера, WIPO Translate в целом обеспечивает более осмысленный перевод, чем все другие упомянутые системы, сохраняет единство терминологии, но плохо отрабатывает дефекты оптического распознавания символов (в частности, наличие артефактного апострофа после слова «red» в тексте источника привело к ошибке и в текст перевода попал непереведенный испанский термин).

 

Выводы

 

1. В целом, любой прямой машинный перевод патентных документов на сегодняшний день применим исключительно в ознакомительных целях, использовать его в связи с осуществлением юридически значимых действий недопустимо.

 

2. Вместе с тем, применение автоматического параллельного перевода с испанского, немецкого или французского языка на промежуточный английский язык с дальнейшим ручным переводом на русский язык позволяет получить целевой перевод приемлемого качества; при этом:

 

- фактически, речь идет не о переводе промежуточного текста, а о его расшифровке с реконструкцией смысла исходного текста;

 

- следует тщательно очищать исходный текст от дефектов оптического распознавания символов;

 

- необходимо использовать сопоставительный анализ не менее двух, предпочтительно, не менее трех вариантов параллельного промежуточного перевода, а также исходного текста;

 

- переводчик должен иметь ясное понимание технической сути предмета перевода и уверенно владеть отраслевой терминологией;

 

- трудоемкость такого перевода оказывается приблизительно на 50% выше, чем трудоемкость ручного перевода качественного английского исходного текста, но ниже, чем трудоемкость двойного ручного перевода с исходного языка на английский, а затем – с английского на русский.

 

Литература

 

  1. John Tinsley, Andy Way, Paraic Sheridan. PLuTO: MT for Online Patent Translation. // Proceedings of the 9th Conference of the Association for Machine Translation in the Americas (AMTA 2010), Denver, CO, May, 2010.

 

  1. Alexandru Ceausu, John Tinsley, Jian Zhang, Andy Way. Experiments on Domain Adaptation for Patent Machine Translation in the PLuTO project // Proceedings of the 15th Conference of the European Association for Machine Translation (EAMT-2011), pages 21–28, Leuven, Belgium, May, 2011.

 

  1. John Tinsley, Alexandru Ceausu, Jian Zhang. PLuTO: Automated Solutions for Patent Translation // Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, pages 69–71, Avignon, France, April 23–27, 2012.

 

  1. Bruno Pouliquen. Full-text Patent translation at WIPO: scalability, quality and usability. Workshop on Patent and Scientific Literature Translation (PSLT 2015), Miami, October 2015.

 

  1. Marcin Junczys-Dowmunt, Bruno Pouliquen. SMT of German Patents at WIPO: Decompounding and Verb Structure Pre-reordering. 17th Annual Conference of the European Association for Machine Translation (EAMT), 16-18 June 2014, Dubrovnik, Croatia.

 

  1. Bruno Pouliquen, Christophe Mazenc & Aldo Iorio. TAPTA: a User-driven Translation System for Patent Documents Based on Domain-aware Statistical Machine Translation // Proceedings of the 15th Conference of the European Association for Machine Translation (EAMT-2011), pages 5–12, Leuven, Belgium, May, 2011.

 

 




 
Глобальные Технологии
работает на NetCat