14th Декабрь, 2015
Полувековое развитие машинного перевода патентов//Патентная информация сегодня”, 2013, №3
Л.Г.Кравец, Главный редактор журнала “Патентная информация сегодня”, к.ф.н., доцент
В 50-60-х годах прошлого века проведение серьезных лингвистических исследований и появление все более эффективных компьютеров стимулировало многочисленные попытки создания экспериментальных систем машинного перевода (МП). В них, как правило, использовались бинарные алгоритмы, призванные обеспечить МП между теми или иными парами естественных языков. Обострившаяся в те годы конфронтация двух социальных систем привела к тому, что осуществлявшиеся тогда проекты МП были преимущественно направлены на осуществление МП с английского языка на русский и наоборот (1,2).
Создатели первых систем МП ставили перед собой задачу обеспечить перевод, основанный на лингвистических правилах. Такой перевод строился на основе описания двух участвующих в переводе естественных языков. Для этого создавались двуязычные словари и другие базы данных, содержащие морфологическую, грамматическую и семантическую информацию, а также собственно алгоритм перевода, оперировавший этими данными. Качество перевода зависело от глубины описания естественных языков и объемов лингвистических баз данных, что предполагало как проведение все более глубокого исследования языков, так и применение все более совершенной вычислительной техники.
Характеристика первой системы МП патентов
В 1963 г. в Центральном научно-исследовательском институте патентной информации (ЦНИИПИ) была предпринята первая в мире попытка создания специализированной системы, непосредственно направленной на МП патентных документов. Для эксперимента были избраны публикации из официального бюллетеня США “Official Gagette”, представленные первыми пунктами патентных формул. Из-за ограниченных возможностей использовавшейся тогда вычислительной техники тематика переводимых текстов была ограничена двигателями внутреннего сгорания.
Анализ публикаций в “Official Gagette” показал, что подавляющее число понятий, использовавшихся в патентных формулах для описания основных идей изобретений, выражалось с применением двух- и многокомпонентных номинативных словосочетаний с препозитивными определениями. Ведущая роль различных номинативных групп в патентных формулах повлияла на выбор фундаментального принципа построения специального алгоритма МП патентов. Он был назван алгоритмом сегментного анализа. Это название отражает основную идею алгоритма, который обеспечивал деление текста патентной формулы на сегменты, определял их структуру, подбирал эквивалентные структуры в русском языке и вырабатывал информацию о грамматических формах русских слов для синтезирования текста перевода.
Оказалось также, что публикуемый в “Official Gazette” первый пункт патентной формулы представлен, как правило, трудным для восприятия, целостным предложением, насчитывающим до нескольких сотен слов. Поэтому и в данном случае был использован формализованный метод разбивки непрерывного текста на сегменты и придания им формы отдельных предложений.
Для обеспечения качественной автоматизированной переработки многокомпонентных словосочетаний, без которой невозможно правильное определение их лексического значения, было решено использовать в системе МП ЦНИИПИ вероятностный анализ структуры словосочетаний. Он был основан на статистических данных, которые подтвердили достаточно регулярную возможность правильной идентификации того или иного типа структурных и семантических отношений между компонентами словосочетания. Приемлемость вероятностного определения структурных моделей номинативных групп была проверена на выборке около 25000 двух- и многокомпонентных словосочетаний. В итоги труднообозримое многообразие номинативных групп было сведено к конечному набору моделей, отображающих их структуру и состав (3).
Для автоматизированного анализа номинативных групп требовалось, прежде всего, идентифицировать их в переводимом тексте. Обычно в роли левой границы группы выступал артикль или иное слово, выполняющее роль детерминатива. Правая граница определялась базовым существительным номинативной группы. В число препозитивных элементов выступали определяющие слова – прилагательные, причастия, местоимения, порядковые номера (M), существительные (N), наречия (D) и количественные числительные (Nu).
Все выявленные номинативные группы объединялись в конечное число структурных моделей. Структурная модель является категорией, представляющей, прежде всего, два связанных понятия. Во-первых, это дистрибутивная модель – последовательность перечисленных выше индексов классов/подклассов слов, которые включают компоненты номинативных групп; а во-вторых - конструктивная модель- тип синтаксических связей между компонентами группы. Позднее к ним добавилась семантическая модель, представляющая тип обобщенных семантических отношений между компонентами словосочетания (4).
Двухкомпонентные словосочетания имели одну из трех дистрибутивных моделей: MN, NuN и NN. Анализ многокомпонентных словосочетаний оказался значительно более сложным из-за возрастания числа возможных дистрибутивных моделей. Оно приводило к увеличению разнообразия синтаксических отношений между компонентами словосочетания. Например, дистрибутивной модели MNN могли соответствовать конструктивные модели ((xy)z) – internal combustion engine или (x (yz)) – additional fuel pump.
Система МП включала лингвистическую часть и программу ее осуществления на компьютере. Алгоритм состоял из двух больших блоков. Они последовательно осуществляли поиск переводимых слов и словосочетаний в автоматическом словаре, приписывание им грамматической информации, анализ идиом, устранение грамматической омонимии, сегментацию текста, деление длинных предложений на фразы, нахождение предшественников местоименных слов, выработку падежной информации, анализ предикативных элементов и номинативных словосочетаний и синтез русского текста (5).
В качестве альтернативы МП в ЦНИИПИ была тогда же разработана экспериментальная система автоматического индексирования патентных документов на базе вышеперечисленных компонентов МП и англо-русского тезауруса. Она обеспечивала перевод на русский язык не всего текста документа, а только его поискового образа. То есть облегчался не собственно перевод иноязычных документов, а процедура их поиска (6).
Разработка экспериментальной системы МП ЦНИИПИ была в основном завершена в 1966 гг. Многочисленные испытания системы на ЭВМ подтвердили ее работоспособность и возможность гарантировать качество перевода патентных формул в заданных параметрах, существенно превышавших пословный перевод. Система получила тогда высокую оценку в Ежегодном докладе Главного ученого секретаря Президиума Академии наук СССР в числе одного из наиболее важных достижений в области кибернетики в 1966 году [7].
В последующие годы интерес к МП существенно угас из-за отсутствия объективных условий его широкомасштабной практической реализации. Эксперименты выявили множество сложных лингвистических проблем, все еще ожидавших своего решения. Достигнутые к тому времени результаты исследований и существовавшие информационные технологии были пригодны для освоения только таких автоматизированных систем, которые не предполагали сложного лексико-грамматического анализа документов и переработки больших информационных массивов.
Факторы активизации разработки МП
Возрождение интереса к МП состоялось на рубеже 20-21 веков. Этому, помимо небывалого развития информационных технологий, способствовали два главных фактора.
Во-первых, произошел резкий рост потока патентной документации из стран Азии, прежде всего, из Китая, Японии и Кореи, который резко обострил проблему преодоления языковых барьеров. К началу 2012 г. Патентное ведомство Китая обогнало Патентное ведомство США и стало крупнейшим патентным ведомством в мире. В 2011 г. Китай получил 526 412 патентных заявок, по сравнению с 503 582 заявками, полученными США, и 342 610 заявками, полученными Японией. Несмотря на осторожность, которую необходимо проявлять при прямом сравнении цифр, относящихся к подаче заявок на объекты ИС в разных странах, эти тенденции наглядно отражают изменение географии инновационной деятельности (8). Китайские патенты теперь составляют около 20% всех опубликованных за год патентов на изобретения. А с 1 июля 2012 г. они вошли в обязательный минимум патентных документов согласно процедуре РСТ. Патентная документация Кореи присутствует там с 2007 года, не говоря уже о Японии (8).
Во-вторых, завершалось построение единой патентной системы в многоязычном Европейском Союзе. Действующая система, связанная с обязательным переводом европейских заявок на многочисленные языки членов Европейской патентной организации, существенно осложняла и удорожала получение европейского патента. Поэтому на начало 2013 г. намечено формальное утверждение Советом ЕС «унитарного патента» и подписание решения об учреждении Единого патентного суда, которое вступит в силу после его ратификации 13 членами ЕС, включая Францию, Германию и Великобританию. Ожидается, что Европейское патентное ведомство (ЕПВ) выдаст первый унитарный патент в 2014 году (9).
Предполагается, что повышению эффективности обновленной патентной системы Европы в немалой степени будет способствовать расширение использования МП. Сегодня предпочтение отдается системе Patent Translate, которая является результатом сотрудничества ЕПВ и компании Google. В соответствии с соглашением ЕПВ будет использовать технологию МП Google. для перевода патентов на языки 38 обслуживаемых ЕПВ стран. Взамен ЕПВ предоставит доступ к своим многомиллионным массивам патентов, ранее переведенных вручную, что позволит Google оптимизировать свою технологию МП.
Современные методы машинного перевода
Система Patent Translate использует технологию так называемого «статистического машинного перевода», предложенную в 2003 г. Ф. Й. Охом (10). Статистический МП основан на сопоставлении параллельных текстов больших объемов и вычисления наиболее вероятного перевода. Предложения исходного документа последовательно сопоставляются с миллионами ранее переведенных патентных документов. Сообщается, что статистический МП обладает свойством «самообучения», и качество перевода при этом подходе напрямую зависит от объемов используемых для обучения параллельных данных. Системе Patent Translate не требуются грамматические правила и словари. Их заменяют массивы ранее переведенных вручную патентных документов, к которым прилагаются статистические модели их обработки.
В 2007 году появилась система корейско-английского МП полных текстов описаний изобретений и полезных моделей (K2E-PAT). В системе K2E-PAT также применен метод МП, основанный на использовании обширного массива образцов ранее выполненных переводов, включающих как отдельные слова, так и целые предложения. Благодаря наличию образцов обеспечивается постепенное повышение точности машинного перевода.
Сильной стороной K2E-PAT является корейско-английский словарь, обладающий широким тематическим охватом и адаптированный к патентным текстам. Он содержит более 3 млн регулярно пополняемых слов и предложений. Для повышения качества перевода терминология словаря сопровождается словесными толкованиями соответствующих рубрик МПК.
Для ускорения переводческого процесса к системе K2E-PAT подсоединена «переводная память», в которой накапливаются ранее переведенные предложения для последующего использования в машинном переводе. Она особенно полезна при переводе патентных документов, для которых характерны многократно повторяющиеся словесные обороты (11).
Статистический МП, бесспорно, знаменует собой важный шаг в автоматизации перевода патентов. Однако, несмотря на то, что использующие эту технологию системы подвергается постоянному «приспособлению » для работы с патентными текстами, обладающими специфичной лексикой и грамматикой, качество получаемого перевода все еще далеко от совершенства. Статистическое сопоставление текстов без учета их лексико-грамматических особенностей приводит к множеству ошибок. Особую сложность представляет работа системы с патентными формулами (2, 12).
Поэтому в последнее время наметилась тенденция использования гибридных технологий МП. В них, для улучшения качества перевода, статистический МП все более активно прибегает к использованию лингвистических данных. А системы с «классическим» подходом, основанным на лингвистических правилах, в свою очередь, ищут новые способы применения статистических методов в своей технологии.
Гибридная технология предполагает использование статистических методов для построения словарных баз автоматическим путем на основе параллельных текстовых корпусов и формирования нескольких возможных вариантов перевода, как на лексическом уровне, так и на уровне синтаксической структуры предложений выходного языка. Выбор лучшего (наиболее вероятного) варианта перевода осуществляется на основе языковой модели, построенной по корпусу языка, на который осуществляется перевод.
Такой подход позволяет
- сохранить преимущества технологии, основанной на лингвистических правилах (формирование синтаксически связанного и грамматически правильного текста, обеспечение однородности терминологии),
- получить преимущества статистического МП (быстрая обучаемость системы посредством получения данных из участвующих в переводе параллельных текстовых корпусов в автоматическом режиме).
В современных системах МП применяются программы, принцип работы которых основан на технологии Translation Memory. Имеется в виду использование двуязычных баз часто встречающихся предложений. В основе технологии лежит принцип «не переводить один и тот же текст дважды». Технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. В общем массиве текста система находит сегменты, которые уже были однажды переведены, и берет перевод из базы переводов Translation Memory (13).
Китайский патентно-информационный центр ввел в 2008 г. в опытную эксплуатацию систему китайско-английского машинного перевода с применением гибридного метода. Он включает использование
- автоматически или полуавтоматически составляемых двуязычных словарей, подвергаемых последующему ручному редактированию;
- алгоритмической обработки распространенных в патентах устойчивых словосочетаний;
- семантических средств алгоритмического подхода в виде так называемой «иерархической сети понятий»;
- текстовых ресурсов, состоящих из ранее осуществленных вручную переводов патентных документов, например, предложений из китайских и английских членов данного патентного семейства (14).
Сегодня, когда качество МП все еще не может конкурировать с традиционным переводом вручную, все большее внимание привлекает к себе использование МП при патентном поиске иноязычных патентов. Активно исследуется альтернативная возможность поиска азиатских патентов не в уже переведенных на английский язык массивах, а в базах данных на языке оригинала. В упоминавшейся выше системе корейско-английского МП полных текстов описаний изобретений и полезных моделей (K2E-PAT) применяется технология поиска корейских патентов по английским ключевым словам.
С помощью англо-корейского словаря в оригинальные корейские тексты включаются термины на английском языке, облегчающие полнотекстовой поиск по ключевым словам. Эти термины, а также англоязычные заглавия, имена заявителей и поверенных, сохраняются для последующего использования при формулировке поисковых запросов. Аналогичный подход используется в базе данных Patentscope (ВОИС)
Патентное ведомство Китая, совершенствуя вышеназванную систему китайско-английского перевода, также стремится ставить и решать практические задачи адаптации системы МП к патентным реалиям и интегрирования службы машинного перевода с ранее созданными средствами поиска китайских патентов на английском языке, включая перевод запроса на язык документального массива. При этом используется опыт эксплуатации корейской системы МП и базы данных Patentscope.
Заключение
Краткий обзор полувекового развития МП патентов показывает, что теория и практика МП за это время продвинулись далеко вперед, а используемые в нем – тогда и теперь – информационные технологии вообще не поддаются сравнению. Вместе с тем, нельзя не отметить, что главные тенденции развития МП зарождались еще в те далекие годы. Например, система МП ЦНИИПИ строилась, в основном, на лингвистических правилах. Но автоматизированный анализ структуры номинативных словосочетаний, играющих ведущую роль в патентных текстах, уже тогда включал вероятностные оценки, основанные на статистических данных. То есть в системе уже присутствовали элементы популярных сегодня гибридных технологий МП. А параллельно разрабатывавшаяся в ЦНИИПИ система автоматического индексирования патентов обеспечивала возможность замены недостаточно качественного перевода полных текстов иноязычных патентов процедурой их поиска. Все это подтверждает известную истину, что новое – это, зачастую, хорошо забытое старое.
Приложение
Пример перевода экспериментальной системой МП ЦНИИПИ первого пункта формулы патента США № 3.076.446 (5).
3,076,446 Patented Feb. 5, 1963 Rotary internal combustion engine
1. A rotary internal combustion engine comprising an annular stator having air inlet and exhaust gas opening means, an annular rotor disposed within that stator excentrically, a shaft secured to the rotor and supporting the same and extending axially thereof, stationary bearing means supporting that shaft for rotatation, saidrotor provided in its periphery with the plurality of circumferettially equidistantly spaced radial slots, radial vanes slidably mounted within that slots of the rotor and having tips slidably engageable whis the bore of said stator, said vanes defining between each pair therof and between the periphery of the rotorande the bore of the stator a plurality of circumferential chambers, alternate ones of said chembers alternate ones of comprssion shambers only and the other chambers adapted to serve as combustion chambers during the operation of the engine, said rotor provided in the periphery and in one side face
thereof adjacened each compression chamber with a second notch of lesser length radially than the first-named notch, a transfer tube secured to said stator and having opposite ends positioned for communication in sucsession with the first named and second notches during rotation of the rotor, whereby the compressed medium in each compression chamber is transfered through said tube to one of said chambers adapted to serve as a combustion chamber, fuel injection means mounted upon said stator to inlect fuel into each combustion chamber only, and ignition means carried by said stator near said fuel injection means to ignite the fuel in each combustion chamber.
Машинный перевод с помощью системы МП ЦНИИПИ
3076446 роторный двигатель внутреннего сгорания
1.роторный двигатель внутреннего сгорания включает в себя кольцевой статор имеющий воздух-впуск – и отверстие выпускного газа, кольцевой ротор расположенный внутри статора эксцентрически, вал прикрепленный к ротору и поддерживающий тот же и расположенный по оси.
имеется неподвижный подшипник поддерживающий вал – для вращения .
ротор снабжен в его наружной части с несколькими по окружности расположенными радиальными пазами.
имеется радиальные лопасти подвижно установленные внутри пазов ротора и имеющие конец подвижно входящий в зацепление с отверстием статора.
лопасти ограничивают между каждой парой и между наружной частью ротора и отверстия статора несколько circumferential камеры -.
имеется переменные одни камеры – является камер сжатия только и других камер приспособленных чтобы служить камерами сгорания во время действия двигателя.
ротор снабжен в его наружной части и в одной боковой поверхности рядом с каждой камерой сжатия с пазом.
ротор снабжен в его наружной части и в одной боковой поверхности рядом с каждой камерой чтобы служить камерой сгорания с вторым пазом длины lesser радиально чем первый паз.
имеется труба передачи прикрепленная к статору и имеющая противоположные концы расположенные для связи в последовательности с первыми и вторыми пазами во время вращения ротора чем сжатый medium в каждой камере сжатия передана через трубу к одной из камер приспособленных чтобы служить камерой сгорания.
имеется устройство впрыска топлива установленное на статоре для впрыска топлива в каждую камеру сгорания только.
имеется устройство зажигания поддерживаемое статором около устройства впрыска топлива для воспламенения топлива в каждой камере сгорания.
Литература
1. Hutchins J. Historical survey of machine translation in Eastern and Central Europe1 the conference on Crosslingual Language Technology in service of an integrated multilingual Europe, 4-5 May 2012, Hamburg, Germany – www. hutchinsweb.me.uk›Hamburg-2012.pdf
2. List J. Review of machine translation in patents. World Patent Information, 34 (2012) 193-195
3. Кравец Л.Г. Структурный анализ словосочетаний в английских научно-технических текстах//Научно-техническая информация, 1963, №10, с.39-41
4. Кравец Л.Г., Эмдина Ю.М. Автоматизированный анализ английских номинативных групп//Труды 3–й Всесоюзной конференции по информационно-поисковым системам и автоматизированной обработке научно-технической информации, т. 2, М.1967, с. 441-449.
5. Kravets L.G., Vasilevsky A.L. A system for automatic translation of publications from the patent weekly”Official Gazette”.// Information retrieval among patent offices. The 6th Annual meeting of the ICIREPAT, The Hague, October,1966, p.365-379.
6. Экспериментальная система англо-русского автоматического перевода патентных документов. Сборник. Авторы статей: Кравец Л.Г., Василевский А. Л., Дубицкая A.M, Эмдина Ю.М., Поволоцкая С.К., Гиршберг Ю.В., Шендеров В.З., Вишнякова С. М., Рывина E.M, Смиренский В.Б., Лерман С,Е., Эйдус И.Ю., Фишкина В.Л. / / Труды ЦНИИПИ, М., 1970, 132 с.
7. Важнейшие достижения в области естественных и общественных наук в 1966 г.//Доклад Главного ученого секретаря Президиума Академии наук СССР академика Я.В.Пейве – www.ras.ru/FStorage/download.aspx?Id=2ecec61c-2122-430d-9d2f..
8. Global IP Filings Continue to Grow, China Tops Global Patent Filings//Geneva, December 11, 2012PR/2012/726 – www.wipo.int
9. European Patent Office welcomes historic agreement on unitary patent, Munich, 11 December 2012 – www.epo.org
10. Och F.J. Statistical Machine Translation: Foundations and Recent Advances, The Tenth Machine Translation Summit, Phuket, Thailand, http://www.mt-archive.info/MTS-2005
11. YooChan Choi. Korean to English automatic translation (K2E-PAT) and cross lingual retrieval on KIPRIS//WPI-2009-v.31-#2-p.135-136.
12. Gomes L. Google Translate Tangles With Computer Learning., Forbes Magazine, 9/8/2010
13. Hybrid Machine Translation (HMT -www. promt.ru›company/technology/
14. Dan Wang. Chinese to English automatic patent machine translation at SIPO//WPI-2009-v31-#2-p.137-139