15th Декабрь, 2015
Расширение сферы использования машинного перевода (Патентная информация сегодня, 2013 – №4)
Л.Г.Кравец , Главный редактор журнала “Патентная информация сегодня”, к.ф.н., доцент
Использование машинного перевода при поиске информации в многоязычном массиве. Патентные документы по определенной тематике могут публиковаться в разных странах и на различных языках. Между тем, эксперту патентного ведомства требуется обнаруживать релевантные патенты независимо от того, на каком языке они опубликованы. В результате возникает важная поисковая задача в случаях, когда патентная заявка поступает на одном языке, а документы, определяющие известный уровень техники, опубликованы на других языках.Для преодоления возникающих при этом языковых барьеров в последнее время стали все более широко использовать возросшие возможности машинного перевода (МП). Причем допустимо двоякое применение МП – для перевода на используемый экспертом язык всех входящих в поисковый массив документов или для перевода поискового запроса эксперта на языки всех входящих в поисковый массив документов с целью последующего поиска релевантных документов на языках оригиналов.
Перевод поискового запроса. При осуществлении патентного поиска зачастую используется весьма пространный запрос, формулировка которого требует обращения ко всему тексту патентной заявки. На перевод таких запросов на разные языки может уйти много времени. Поэтому был предложен метод предварительной обработки текста запроса на проведение поиска для определения известного уровня техники, поскольку он ориентирован на выявление всех релевантных документов, способных опорочить новизну подаваемой заявки. При использовании этого метода полный текст патентной заявки воспринимался как поисковый запрос, а цитируемые в ней документы – как релевантные документы, подлежащие автоматизированной идентификации.
Предварительная обработка текста заявки включала стандартные процедуры, применяющиеся в большинстве информационно-поисковых систем: нормализация лексики, усечение словоформ и изъятие общеупотребительных слов. Предполагается, таким путем может быть обеспечена ускоренная настройка системы МП, поскольку изъятие общеупотребительных слов с последующей нормализацией неповторяющихся усеченных словоформ резко сократит используемый в МП словарный запас. Подвергнутый такой обработке запрос затем подлежит машинному переводу и используется в дальнейшем поиске на языках оригиналов. В эксперименте использовались две системы так называемого «статистического» МП: Googletranslate и MaTrEx MT system2. Эксперимент показал, что с помощью предложенного метода время МП сокращается до 23 раз без заметного влияния на качество перевода (1).
Адаптация машинного перевода к потребностям патентного поиска.При оценке патентоспособности заявленного технического решения или установлении факта нарушения патентных прав проводящему информационный поиск специалисту приходится обращаться к поисковому массиву, около 30% которого составляют иноязычные документы. При этом подборка потенциально релевантных патентов, необходимая для обеспечения приемлемой полноты поиска, насчитывает около 50000 патентов. Найденные документы подвергаются оценке с привлечением юристов, работающих во взаимодействии с соответствующими техническими специалистами. Потребность в переводе патентов будет возрастать, особенно под воздействием увеличения количества патентов азиатских стран. Доля патентных заявок из Китая, Японии и Кореи уже превысила 50% мирового потока патентных заявок. Учитывая дороговизну профессионального перевода и ряд других факторов, патентные работники стали обращаться к появляющимся во все большем количестве системам машинного перевода (МП) чтобы ухватить хотя бы суть документа и определить целесообразность его «ручного» перевода. Возможности осуществления МП зависят от того, с использованием каких средств он проводится. Многие из них так или иначе cвязаны cGoogleTranslate(EPOEspacenet, WIPO, Patentscope, QuestelOrbit), другие создали собственные системы (ThomsonInnovation, PatBase, JapanesePatentOffice, KoreanPatentOffice) или пользуются услугами других. Принципиальной особенностью многих систем МП (включая используемую в ЕПВ систему GoogleTranslate) является то, что они обычно предназначены для работы с любыми текстами. Хотя исследования убедительно показали, что системы, предназначенные для применения в конкретной сфере (например, патентной) превосходят по своим показателям системы общего назначения. Другая проблема состоит в том, что разные поисковые инструменты отличаются способами предоставления возможностей перевода, обеспечиваемых системами МП, в которые они интегрированы. Наконец, к патентному работнику, осуществляющему поиск, поступают нуждающиеся в переводе документы, которые обнаружены иными поисковыми системами и различаются своими форматами. Предлагаемая система IPTranslator ориентирована на перевод патентов с английского языка на французский, немецкий, испанский, португальский, китайский, японский и обратно. Она призвана справиться с перечисленными выше проблемами, учитывая и специфические особенности патентных текстов: использование многословных предложений с обилием номинативных фраз и сложной синтаксической структурой. Длинные предложения делятся на более удобные для перевода отрезки. Химические формулы и рисунки изымаются из переводимого текста для их изолированной обработки. Общая патентная сфера подразделяется на тематические сегменты. Для конкретных языков предусмотрены специфические процедуры типа сегментации китайского текста, разбивки сложных слов немецкого языкаи др. Качество МП оценивалось автоматически и «вручную», а также посредством сопоставления параметров разных систем МП.
Отобранным специалистам было предложено сопоставить качество IPTranslator, GoogleTranslate и Systran. В большинстве случаев предпочтение было отдано IPTranslator. В эксперименте было имитировано задание: провести поиск для оценки охраноспособности заявленного изобретения посредством сопоставления их с найденными французскими патентами, переведенными машиной на английский язык. При этом 50% отобранных французских патентов были заведомо релевантными проверяемому изобретению, а другие 50% – нерелевантными. Результаты эксперимента были признаны позитивными, поскольку 67% заключений экспертов оказались верными (2). Для повышения качества МП могут приниматься дополнительные меры. В частности проводящий перевод специалист самостоятельно корректировать или придумывать свои варианты вместо неверных и непереведенных терминов. Для облегчения ориентации в обширных патентных документах возможно выделение цветом нужных фрагментов текста или фраз в оригинале и переводе.
Литература
- Magdy W., Jones G. J. F. An Efficient Method for Using Machine Translation Technologies in Cross-Language Patent Search –www. doras.dcu.ie›…Using_Machine_Translation…in…Patent…
2Tinsley J. et al. IPTranslator: Facilitating Patent Search with Machine Translation – www.amta2012.amtaweb.org›AMTA2012Files/papers/…