15th Декабрь, 2015
МАШИННННЫЙ ПЕРЕВОД В СИСТЕМЕ ПАТЕНТНОЙ ИНФОРМАЦИИ// “Патентная информация сегодня”, 2010, №4
Л.Г.Кравец, Зам. главного редактора журнала “Патентная информация сегодня”, к.ф.н., доцент
Первые попытки машинного перевода патентной документации осуществлялись еще в середине прошлого столетия, вскоре после появления первых компьютеров. В СССР интерес к этой проблеме обострился в связи с началом построения в стране системы патентной информации. Учрежденный в 1962 году Центральный научно-исследовательский институт патентной информации и технико-экономических исследований (ЦНИИПИ) возглавил широкомасштабную работу по комплектованию патентных фондов страны описаниям зарубежных изобретений на микроносителях и оснащению их справочно-поисковым аппаратом (СПА). Поскольку подавляющая часть мирового патентного фонда издавалась на иностранных языках, в ЦНИИПИ был организован перевод на русский язык рефератов или пунктов патентных формул, публикуемых в официальных бюллетенях ведущих зарубежных патентных ведомств. Именно в этих условиях возникла идея подключить к решению данной задачи машинный перевод.
Для этого ЦНИИПИ была создана специальная лаборатория, сотрудники которой предложили в начале 1960-х годов систему машинного перевода публикаций из официального бюллетеня США “Official Gazette”. Оригинальный алгоритм системы осуществлял последовательное членение англоязычного текста на сегменты, структурный анализ содержащихся в них терминологических словосочетаний, характерных для патентных документов, и подбор для них русскоязычных эквивалентов. Это была первая в мире система машинного перевода, непосредственно ориентированная на переработку иноязычных патентных документов, реализованная на ЭВМ и доведенная до стадии экспериментальной эксплуатации (1).
Однако широкого практического применения система не получила. Ее машинный словарь охватывал лишь узкую тематику документов по двигателям внутреннего сгорания. А переводимые тексты – ввиду невысокого качества перевода – нуждались в постредактировании, почти не уступающем по трудозатратам собственно переводу. В ходе экспериментов четко выявились общетеоретические и технические проблемы, без решения которых обеспечение в ближайшие годы машинного перевода приемлемого качества невозможно. Поэтому дальнейшие работы по совершенствованию машинного перевода в ЦНИИПИ были прерваны. А изначально поставленная задача создания русскоязычного СПА к зарубежным патентным фондам была решена посредством ручного перевода информации из официальных источников и подготовки реферативного журнала «Изобретения стран мира», который издается в ИНИЦ «Патент» и по настоящее время. К задаче практического освоения машинного перевода в патентном мире вернулись только спустя несколько десятилетий. Толчком к этому послужили, прежде всего, два обстоятельства.
Машинный перевод в Европейском сообществе
Первое обстоятельство было вызвано тем, что проблема перевода стала в Европе барьером на пути ввода в действие единого патента Евросоюза. В качестве официальных рабочих языков в Европейской патентной организации приняты только английский, французский и немецкий, что ставит в неравные условия прочие страны-члены, не являющиеся носителями этих языков. А перевод патентной документации на все европейские языки делает процедуру получения патента Евросоюза чрезмерно дорогостоящей. В этой связи и появились предположения, что использование тех или иных форм автоматизации перевода в какой-то степени облегчит решение языковой проблемы. Вопросы организации языкового перевода предполагается ввести в качестве составной части в Положение о патенте Евросоюза, которое будет разработано на основе предложений Европейской комиссии. Оно вступит в силу одновременно со специальным разделом об организации перевода. Принятие последнего потребует единогласия всех членов Совета Евросоюза (2).
Однако и по прошествии десятилетий машинный перевод рассматривается в данном случае, чаще всего, с позиций его применения при поиске патентных документов на различных языках. Из поступающих публикаций следует, что целью Европейского патентного ведомства (ЕПВ) является не получение качественного перевода, а использование возможностей автоматизации переводческого процесса для раскрытия технического содержания патентного документа, достаточного для его понимания специалистам из соответствующей предметной области. Для этого в ЕПВ составляются двуязычные словари для перевода текстов с прочих европейских языков на английский. По состоянию на октябрь 2008 года уже имелись словари для перевода патентных документов с немецкого, французского, итальянского и испанского языков. На подходе словари со шведского и португальского языков. С соответствующими патентными ведомствами заключены соглашения о создании в ближайшем будущем словарей с греческого, румынского и голландского языков.
Для адаптации словарей к переводу патентных текстов при их составлении используется лексика Международной патентной классификации (МПК). В случае отсутствия точного эквивалента система машинного перевода выбирает термин, вышестоящий в классификационной иерархии соответствующей тематической рубрики. Выбор английского эквивалента для иноязычного термина также зависит от частоты его встречаемости в документах, отнесенных к той или иной рубрике МПК (3).
Машинный перевод с иероглифических языков
Второе, еще более критическое, обстоятельство, возродившее интерес к машинному переводу, вызвано тем, что все большая часть патентных документов в последние годы стала публиковаться в странах Азии. Продолжающийся быстрый рост количества национальных заявок Китая, а также Японии и Кореи, вызвал озабоченность патентных ведомств Европы, США и ряда других стран, поскольку их пользователи не подготовлены должным образом к работе с документацией на иероглифических языках. В результате, проблема преодоления языковых барьеров специалистами из всех других частей мира приобрела глобальные масштабы.
Машинный перевод в Японии. Первой с обеспечением общедоступности своей патентной документации для прочих стран мира столкнулась Япония, долгое время лидировавшая по количеству ежегодно публикуемых ею патентных заявок. До последнего времени при поиске японских патентов специалисты из других стран могли пользоваться только массивом англоязычных рефератов PAJ (Патентные рефераты Японии), которые Патентное ведомство Японии издает с 1976 года и распространяет через онлайновую службу IPDL независимого от ведомства центра INPIT. К недостаткам этого массива относят: трехмесячный временной лаг между датами публикации поступающих в ведомство патентных заявок и их англоязычных рефератов PAJ, недостаток поисковых реквизитов и сведений о правовом статусе патентных документов и наличие только одной иллюстрации изобретения. Поэтому в распоряжение пользователей в 2008 году представлена новая поисковая система JP-NETe DB, призванная пополнить PAJ недостающими сведениями.
Система JP-NETe DB включает базы данных двух типов: англоязычные рефераты PAJ и полученные с помощью машинного перевода англоязычные рефераты за последние три месяца, которые уходят на публикацию рефератов PAJ. Информация второго типа включает библиографические данные, англоязычный реферат, все иллюстрации, полные сведения о правовом статусе и сведения о цитировании документов за период с 1989 года по настоящее время. Запаздывание опубликования этой информации не превышает одной недели, благодаря чему она опережает рефераты PAJ на 12 недель.
Новая система предлагает две схемы поиска. Упрощенная схема обеспечивает формулировку простых запросов с использованием 26 поисковых терминов, а в «продвинутой» схеме представлено 32 термина. Кроме того, при формулировке поискового запроса можно использовать именные указатели заявителей и изобретателей, список ссылок и др.
Пользователь может получить результаты поиска в трех форматах:
- англоязычный реферат с одной иллюстрацией;
- англоязычный реферат со всеми иллюстрациями (с выводом на экран до 4 иллюстраций одновременно);
- три англоязычных реферата с тремя иллюстрациями.
Первый и второй форматы могут сопровождаться полным перечнем патентных ссылок.
Сведения о правовом статусе подразделяются на четыре части:
- состояние и даты рассмотрения патентной заявки;
- состояние и даты апелляционных процедур;
- регистрационные данные относительно выдачи охранного документа;
- данные о национальной патентной классификации (FI и F-Terms).
Система JP-NETe DB располагает также интересной возможностью переходов между цитируемыми, цитирующими, связанными и справочными патентами, которые способствуют оценке известного уровня техники в ходе патентной экспертизы. Работа над поисковой системой JP-NETe DB продолжается, что позволит в дальнейшем повысить ее эксплуатационные возможности (4).
Машинный перевод в Китае.
В 2007 году в Патентное ведомство Китая поступило 694.153 патентные заявки, что на 21% больше чем в предыдущем году. Это вывело Китай на третье место в мире по данному показателю. Однако сложность китайского языка воздвигает серьезные барьеры на пути иноязычных пользователей, желающих получить доступ к патентной документации Китая. Откликаясь на эту озабоченность и учитывая всемирный интерес к китайской патентной документации, Патентное ведомство Китая, вместе с Китайским центром патентной информации, разработало и ввело в действие 25 апреля 2008 года бесплатную систему, которая обеспечивает поиск на английском языке библиографических данных и рефератов патентных документов Китая, опубликованных на национальном языке. Не решая проблемы машинного перевода, как таковой, эта система позволяет пользователям решить вопрос о целесообразности полного ручного перевода документов, отобранных с ее помощью. Одновременно введена в действие аналогичная система для работы с документацией о промышленных образцах. В системе используется методика распознавания формы и цвета изобразительных элементов. В базе данных системы хранится более 4 млн изображений промышленных образцов.
Недостатки используемых в этих системах некоторых процедур машинного перевода усугубляются иероглифической спецификой китайского языка, которому присуща относительно слабо регламентированная грамматика и сильная зависимость значения слов от конкретного контекста. Все это ставит дополнительные проблемы перед разработчиками компьютерных программ (5). Ввиду множества языковых особенностей высококачественный, полностью автоматизированный перевод с китайского языка остается нереализуемым мифом. Однако Патентное ведомство Китая теперь в состоянии ставить и решать практические задачи адаптации системы машинного перевода к патентным реалиям и его увязки с ранее созданными средствами поиска китайских патентов на английском языке.
Таким образом, в патентно-информационной деятельности сложилась тенденция использования машинного перевода при осуществлении поисковых процедур в многоязычных массивах. При этом осуществляют либо перевод запроса на язык документального массива, либо перевода документов на язык запроса. Китайская служба машинного перевода избегает двусмысленности переводимых запросов и необходимости в предварительном переводе огромных документальных массивов посредством активного повторного использования ресурсов, состоящих из ранее осуществленных вручную англоязычных переводов патентных документов, например, предложений из китайских и английских членов данного патентного семейства.
В течение двух последних десятилетий в Китае накоплены онлайновые патентные базы данных, содержащие англоязычные рефераты и библиографические данные о китайских патентах. Они становятся все более популярными среди иноязычных пользователей, помогая им формулировать свои поисковые запросы. Именно по результатам поиска в этих базах данных возникает потребность в машинном переводе полных текстов китайских патентных документов.
В китайской системе машинного перевода используются семантические средства алгоритмического подхода в виде так называемой «иерархической сети понятий». С ее помощью предложения классифицируются на 57 категорий, что повышает вероятность правильного перевода предложений с различной структурой и разными значениями слов. В системе также используется грамматический анализ специфического патентного текста, механизмы выявление синтаксических ошибок и процедура ручного постредактирования, позволяющая специалистам обновлять используемую терминологию. Разработчики системы утверждают, что в результате обеспечивается скорость перевода не менее 8000 китайских иероглифов в минуту и 85-процентная правильность перевода технических терминов, что позволит иноязычным пользователям устанавливать релевантность информации, содержащейся в китайских патентных документах, и производить среди них недорогостоящий отбор текстовых фрагментов, которые заслуживают более качественного ручного перевода (6).
Заказ машинного перевода можно проводить через ЕПВ. Изготовленный перевод автоматически включается в базы данных ЕПВ для последующего использования. При этом следует иметь в виду, что машинный перевод – даже сопровождаемый постредактированием – не имеет юридической силы и не цитируется экспертом в отчете о поиске. Цитируются только оригиналы документов на китайском языке, а их переводы могут быть помещены в приложение к отчету для сведения. Юридическую силу имеют только переводы из соответствующих патентных ведомств, например, представленные на их сайтах как отдельные документы со специальным кодом публикации. Ручной перевод юридической силой обладает (7).
Машинный перевод в Корее.
Большая работа по преодолению языковых барьеров проводится Патентным ведомством Кореи совместно с Корейским институтом патентной информации (KIPI), который производит и распространяет корейскую патентную информацию, выпускает корейские патентные рефераты (KPA), осуществляет управление онлайновой службой патентно-информационного поиска (KIPRIS), обеспечивая бесплатный доступ к базам данных Патентного ведомства Кореи.
В прошлом издание KPA было единственным англоязычным источником корейской патентной информации. В 2005 году к нему добавились англоязычные поисковые интерфейсы к корейским официальным бюллетеням по патентам / полезным моделям и по товарным знакам / промышленным образцам. В 2007 году появилась система корейско-английского автоматического перевода полных текстов описаний изобретений и полезных моделей (K2E-PAT), а также корейских заявок РСТ в день их опубликования в Патентном ведомстве Кореи. Кроме того, была внедрена технология поиска корейских патентов по английским ключевым словам.
В системе K2E-PAT применен метод машинного перевода, основанный на использовании обширного массива образцов ранее выполненных переводов, включающих как отдельные слова, так и целые предложения. Благодаря наличию образцов обеспечивается постепенное повышение точности машинного перевода. Для ускорения переводческого процесса к системе K2E-PAT подсоединена «переводческая память», в которой накапливаются ранее переведенные предложения для последующего использования в машинном переводе. Она особенно полезна при переводе патентных документов, для которых характерны многократно повторяющиеся словесные обороты.
Сильной стороной K2E-PAT является корейско-английский словарь, обладающий широким тематическим охватом и адаптированный к патентным текстам. Он содержит более 3 млн регулярно пополняемых слов и предложений. Для повышения качества перевода терминология словаря сопровождается словесными толкованиями соответствующих рубрик МПК.
С помощью англо-корейского словаря в оригинальные корейские тексты включаются термины на английском языке, облегчающие полнотекстовой поиск по ключевым словам. Эти термины, а также англоязычные заглавия, имена заявителей и поверенных, сохраняются для последующего использования при формулировке поисковых запросов. В системе K2E-PAT также накоплены переводы полных текстов корейских патентов с 1979 года. Дальнейшее совершенствование системы обеспечивается за счет постоянного повышения качества словарей, семантического усиления поисковых запросов и стандартизации иностранных имен (8).
Заказ перевода через поисковую систему KIPRIS осуществляется одним из трех способов:
- после нахождения документа в базе данных “Patent Search”;
- после нахождения реферата в базе данных KPA;
- через отдельный интерфейс K2E-PAT.
Бесплатный поиск с использованием интерфейса K2E-PAT обеспечивает выдачу на английском языке заглавий документов, фамилий/наименований изобретателей, заявителей и поверенных. Перевод полного текста документа – платный. Перевод текста и его оригинал могут выдаваться параллельно. Это облегчает обнаружение наиболее важных фрагментов документа для их последующего перевода вручную.
По широкому признанию, предпринимаемые в Корее меры обеспечивают читабельность и практическую полезность продукции K2E-PAT для патентных экспертов и информационных работников в стране и за рубежом. И, тем не менее, во избежание ошибок, допускаемых при машинном переводе с корейского языка на английский рекомендуется совместное использование системы машинного перевода K2E-PAT и услуг по ручному переводу тех же текстов. Заказ машинного перевода можно проводить через ЕПВ. В 2010 году здесь должна открыться служба ручного перевода с корейского языка. Дополнительная информация о службе – на сайте www.epo.org/patents/patent-information/east-asian/translation/K2E-PAT.html (9).
Проведенный обзор современного состояния машинного перевода в системе патентной информации позволяет сделать вывод, что – ввиду множества нерешенных семантических проблем – высококачественный, полностью автоматизированный перевод и по прошествии десятилетий остается нереализованной мечтой. Однако занимающиеся этой проблемой специалисты учатся ставить и решать практические задачи адаптации системы машинного перевода к патентным реалиям, рассматривать машинный перевод в более широком плане преодоления языковых барьеров при поиске и последующем изучении иноязычных патентных документов. Целью таких усилий становится не получение качественного перевода, а использование возможностей автоматизации переводческого процесса, чаще всего, для облегчения поиска патентных документов на различных языках и раскрытия технического содержания иноязычного патентного документа, достаточного для его понимания специалистам из соответствующей предметной области.
Для этого изыскиваются различные приемы, реализация которых стала возможной благодаря появлению новых информационных технологий:
- построение представительных двуязычных машинных словарей для перевода текстов (обычно, с прочих языков на английский), насчитывающих миллионы слов и словосочетаний;
- адаптация словарей к переводу патентных текстов посредством использования в них лексики МПК и сопровождения словарных статей словесными толкованиями соответствующих классификационных рубрик;
- обеспечение возможности автоматического выбора термина из вышестоящей классификационной рубрики (в случае отсутствия точного эквивалента), а также выбора английского эквивалента для иноязычного термина с учетом частоты его встречаемости в документах, отнесенных к той или иной классификационной рубрике;
- накопление и использование в процессе машинного перевода обширных массивов образцов переводов, ранее выполненных вручную и включающих как отдельные слова, так и целые предложения, например, предложения из разных описаний одного и того же изобретения, входящее в данное патентное семейство;
- классификация накопленных вариантов переводов по категориям, повышающим вероятность правильного перевода предложений с различной структурой и разными значениями слов и т.д.
Не решая проблемы качественного машинного перевода, как таковой, эти и подобные им методы облегчают не только поиск релевантных патентных документов на других языках, но и отбор тех иноязычных документов либо текстовых фрагментов, которые заслуживают более качественного ручного перевода. А сложнейшие семантические проблемы автоматизированной и высококачественной передачи содержания патентных документов средствами других языков видимо остаются на долю следующих поколений.
Литература
1. Кравец Л.Г., Василевский А.Л., Дубицкая А.М. Экспериментальная система автоматического перевода публикаций из американского патентного еженедельника Official Gazette // Научно-техническая информация, 1967. – сер. 2. – № 1.
2. EU Council agrees on next steps regarding the Community patent (EU patent). // Press release, 8.12.2009 – www.epo.org
3. How good are machine translations for patent searching? //Patent Information News -2008 -#4-www.epo.org.
4. Oda Sh. JP-NETe – An English-language search tool for Japanese unexamined patents//WPI-2009-v.31-#2-p.131-134
5. Barraclough E. China unveils free patent translation tool//MIP-2008-#180-p.20
6. Dan Wang. Chinese to English automatic patent machine translation at SIPO//WPI-2009-v31-#2-p.137-139
7. How do EPO examiners work with Chinese documentation?// Patent Information News 1 | 2010 March 2010 – www.epo.org
8. YooChan Choi. Korean to English automatic translation (K2E-PAT) and cross lingual retrieval on KIPRIS//WPI-2009-v.31-#2-p.135-136.
9. Lost in translation? Get the right type of Korean patent translation for your needs//Patent Information News 1 | 2010 March 2010 5 – www.epo.org