Библиография публикаций Л.Г.Кравца за 1962-2009 годы
Четверг, 24th Декабрь, 2015
Способы повышения эффективности патентного поиска
Действия по совершенствованию эффективности патентного поиска предполагают использования новейших методов, средств и организационных форм, которые должны быть направлены на все составляющие поисковых процедур. Далее затрагивается некоторые из аспектов решения этой проблемы, включая расширение базы поиска, комплексное применение различного поискового инструментария, новые метода поиска патентных изображений и организационные вопросы обеспечения качества поиска.
Работа с многоязычным поисковым массивом
Патентные документы по определенной тематике могут публиковаться в разных странах и на различных языках. Между тем, эксперту патентного ведомства требуется обнаруживать релевантные патенты независимо от того, на каком языке они опубликованы. В результате возникает важная поисковая задача в случаях, когда патентная заявка поступает на одном языке, а документы, определяющие известный уровень техники, опубликованы на других языках.
Для преодоления возникающих при этом языковых барьеров в последнее время стали все более широко использовать возросшие возможности машинного перевода (МП). Причем имеется в виду двоякое применение МП – для перевода на используемый экспертом язык всех входящих в поисковый массив документов или для перевода поискового запроса эксперта на языки всех входящих в поисковый массив документов с целью последующего поиска релевантных документов на языках оригиналов. Последний вариант более экономичен, но и его использование связано с определенными трудностями.
При осуществлении патентного поиска зачастую используется весьма пространный запрос, формулировка которого требует обращения ко всему тексту патентной заявки. На перевод таких запросов на разные языки может уйти много времени. Поэтому был предложен метод предварительной обработки текста запроса на проведение поиска для определения известного уровня техники, поскольку он ориентирован на выявление всех релевантных документов, способных опорочить новизну подаваемой заявки. При использовании этого метода полный текст патентной заявки воспринимался как поисковый запрос, а цитируемые в ней документы – как релевантные документы, подлежащие автоматизированной идентификации.
Предварительная обработка текста заявки включала стандартные процедуры, применяющиеся в большинстве информационно-поисковых систем: нормализация лексики, усечение словоформ и изъятие общеупотребительных слов. Предполагается, что таким путем может быть обеспечена ускоренная настройка системы МП. Прежде всего, изъятие общеупотребительных слов с последующей нормализацией неповторяющихся усеченных словоформ резко сократит используемый в МП словарный запас.
Подвергнутый такой обработке запрос затем подлежит МП и используется в дальнейшем поиске на языках оригиналов. В эксперименте использовались две системы так называемого «статистического» МП: Google translate и MaTrEx MT system. Эксперимент показал, что с помощью предложенного метода время МП сокращается до 23 раз без заметного влияния на качество перевода (1).
Специфика поиска патентных изображений
Большинство патентов включает и изобразительный раздел, состоящий из фигур, рисунков и диаграмм, используемый в качестве дополнительного средства отображения особенностей изобретения. Поэтому сегодня в сфере охраны интеллектуальной собственности проявляется большой интерес к исследованиям и экспериментам, касающимся информационного поиска в этой области.
Изучение изображений может оказаться очень важным при попытках проникновения в сущность патентов и установления их релевантности. При патентном поиске порой приходится просматривать тысячи патентов, пользуясь только содержащимися в них изображениями. Этот процесс мог бы быть ускорен с помощью автоматизированных систем поиска патентных изображений.
Еще одним подтверждением важности поиска патентных изображений является тот факт, что изображения, по самой своей сути, не зависят от языка заявителя и не испытывают воздействия происходящих со временем изменений в научной терминологии, воздействующих на качество поиска. К тому же использование при поиске патентных изображений облегчало бы выявление релевантных документов, опубликованных на разных языках, не прибегая ко все еще недостаточно качественному машинному переводу.
Автоматизации поиска патентных изображений с использованием их визуального сходства (см. WPI-2010-v.32-#2-p.84-106) показала неплохие результаты. Однако с его помощью нельзя решать множество задач, когда требуется идентифицировать изображения, отражающие в общем сходные объекты или понятия. То есть, когда изначально требуется установить, что именно обозначает данное изображение.
Поиск патентных изображений, основанный на понятиях, сталкивается с рядом вызовов. Требуется выявлять наглядные изобразительные особенности рисунка и переводить их в воспринимаемые человеком понятия. Главной целью данной работы является исследование возможностей извлечения семантических понятий из сложных патентных изображений с использованием визуальных и текстовых данных
Извлечение понятий из патентного изображения требует разнородной информации, включающей как само изображение, так и описание рисунка. Однако получение такого описания сопряжено с рядом трудностей. Оно может быть неполным, вводящим в заблуждение (например, из-за ссылки на неверный рисунок или его элемент), изложенным на труднодоступном языке и т.п. К тому же оно может касаться отдельных элементов изображения или изображения в целом. Для проводящего поиск специалиста важны обе разновидности информации. В исследовании основное внимание уделялось извлечению общих понятий, особенно важных на начальных стадиях поиска.
Процедура поиска начинается с обработки документов для выделения содержащихся в них изображений и сопровождающих их метаданных. В принципе это можно осуществить посредством автоматической сегментации патентного раздела изобразительной информации на отдельные рисунки. Главной особенностью патентных рисунков является их черно-белое представление, зачастую – в форме диаграмм. Поэтому в данном случае использовался алгоритм, принимавший во внимание только геометрию изображений и распределение в них пикселей (наименьших логических элементов двумерного цифрового изображения).
Генерирование векторной функции включало вычисление геометрического центра тяжести изображения, расчленение его зоны на несколько частей. После этого проводилось генерирование векторной функции посредством подсчета распределения черных точек в каждой части.
Для получения текстовых признаков изображений используются содержащиеся в патентном документе текстовые описания. Они рассматриваются как неупорядоченная совокупность слов (bag-of-words), используемая для построения векторной функции путем подсчета словообразований, наиболее часто встречающихся в текстовых описаниях. Для этого проводится изъятие общеупотребительных слов, а оставшиеся КС, после приписки им весовых коэффициентов, подвергаются индексированию. В построении векторной функции участвуют только те слова, которые преодолели весовой барьер (2).
Дополнение классификационного поиска поиском
по ключевым словам
Идентификация патентов, относящихся к вновь появляющимся междисциплинарным или интегрированным технологиям, затрудняется отсутствием соответствующих рубрик в действующих классификациях либо невозможностью точного определения заявляемых изобретений с помощью рубрик, которые уже существуют. Так, исследуемые в данном случае патенты по компьютерным программам, применяющимся в автомобильном оборудовании, рассредоточены по 44 классам МПК. В таких случаях наиболее предпочтительным считается патентный поиск по ключевым словам (КС). Однако, несмотря на довольно длительную историю, немало аспектов такого поиска все еще проработано недостаточно глубоко. В исследовании решались две задачи:
1) Какие части патентного документа лучше использовать при поиске по КС: заглавия, рефераты, патентные формулы или описания изобретений.
2) Как отбирать КС, обеспечивающие относительно более высокую эффективность идентификации нужных патентов.
При оценке эффективности поиска широко использовались два критерия:
- ошибка 1-го типа, определяемая отношением подлежащих выдаче, но утраченных патентов, к общему количеству подлежащих идентификации релевантных патентов;
- ошибка 2-го типа, определяемая отношением не подлежащих выдаче, но найденных нерелевантных патентов, к общему числу релевантных документов, которые следовало идентифицировать.
В ходе эксперимента было решено сопоставлять эффективность поиска по отобранным в соответствующем отраслевом словаре 33 КС, применяя по отдельности три способа, в которых в качестве объектов поиска использовались соответственно:
- заглавия и рефераты;
- заглавия, рефераты и патентные формулы, которые играют особо важную роль при установлении предметного предела патентных притязаний;
- описания изобретений, представляющие многоаспектную характеристику заявляемого технического решения.
Для проведения эксперимента было отобрано 911 патентов по программному обеспечению автомобильного оборудования. В ходе последующего поиска по КС было установлено:
1. Поиск по одному КС с использованием всех трех способов обеспечивает менее высокие средние показатели полноты и более высокие показатели точности поиска. Это объясняется тщательным отбором КС по требуемой тематике, что одновременно снижает показатели полноты поиска.
2. Среднее значение полноты поиска по одному КС возрастает, когда к заглавиям и рефератам добавляются патентные формулы (с 6,1 до 15,7 %).
3. Среднее значение полноты возрастает еще больше при поиске по описаниям изобретений (38,5%).
4. Средний показатель точности с использование первых двух упомянутых выше способов поиска колеблется не столь значительно (соответственно 89,1-89,4%) и снижается при поиске по описаниям изобретений (80,9%).
Это указывает на то, что эффективность поиска по отдельным КС при использовании заглавий, рефератов и патентных формул оказывается выше, чем поиск только по заглавиям и рефератам или по описаниям изобретений. Отдельное КС не может обеспечить наивысших показателей, как полноты, так и точности идентификации патентов в узкой предметной области. Поэтому возникает потребность применения для этих целей кластеров КС.
Пользуясь вышеприведенными определениями ошибок 1-го и 2-го типа, можно заключить, что если для идентификации патентов используются КС, отвечающие более высоким критериям точности, это обеспечит выдачу меньшего числа нерелевантных документов при одновременной утрате большего числа релевантных документов.
Во всех случаях, при использовании всех КС или КС во всех кластерах показатель ошибки 1-го типа при поиске по заглавиям и рефератам оказывается выше, чем при поиске с добавлением патентной формулы.
Во всех случаях при поиске по заглавиям, рефератам и патентным формулам показатель ошибок 1-го типа оказывается выше показателя ошибок 2-го типа, чем при поиске по описаниям изобретений. Иначе говоря, поиск по описаниям выдаст больше релевантных документов, чем поиск по заглавиям, рефератам и ключевым словам, но в сопровождении множества нерелевантных документов, то есть с более высоким показателем ошибки 2-го типа. Большое количество нерелевантных документов, обнаруживаемое в массиве описаний изобретений, объясняется тем, что там излагается предыстория данного решения, процесс изготовления и использования изобретения, что создает много информационного шума.
Результаты эксперимента показывают, что эффективность стратегии поиска, прежде всего, зависит от критерия точности, используемого при отборе КС. Затем в поисковое предписание могут быть отобраны все КС, которые отвечают установленному критерию точности (3).
Средства обеспечения качества патентного поиска
В компании Novartis, занимающейся биомедицинскими исследованиями, патентный отдел насчитывает 60 сотрудников, из которых 10 проводят непосредственно поиск и анализ информации. Этот коллектив осуществил в последние годы ряд инициатив. направленных на повышение качества патентного поиска. Прежде всего, в группе поиска каждый поисковый отчет подвергается оценке коллегами до его передачи клиенту. Важная роль также отводится диалогу с клиентами, который должен сопровождать поиск на всем его протяжении, вплоть до обсуждения выдаваемого им поискового отчета.
Кроме того, в процессе своей работы группа широко пользуется методикой бенчмаркинга (Benchmarking), включающего в себя два процесса:оценки и сопоставления сходных процессов с целью улучшения собственной работы. При этом применяется как внутренний, так и внешнийбенчмаркинг. В первом случае поисковый запрос формулируется параллельно двумя или более сотрудниками группы с последующим их сопоставлением. Во втором случае результаты своих поисков сопоставляются с результатами аналогичного поиска других организаций
При поиске в области химии и фармацевтики небольших молекул с целью определения патентоспособности объекта поисковый запрос первоначально базируется на конкретном соединении или составе притязаний. Далее, при определении изобретательского уровня, запрос распространяется не только на структурно близкие соединения, но и на «ядерные» субструктуры – с охватом механизма воздействия лекарства и сферы его применения.
Еще одной проблемой, с которой сталкиваются эксперты при определении поисковой стратегии, является обеспечение баланса между показателями точности и полноты поиска. Одним из обходных способов преодоления этой проблемы является параллельное проведение поиска с использование нескольких поисковых систем. Таким образом обеспечивается не только формирование более точного запроса, но и снижаются затраты на проведение многократных поисков.
Эффективность поиска повышается также за счет включения в запрос фамилий/наименований изобретателей и правообладателей с дополнением нужных поисковых терминов. При этом потенциальным источником полезной информации становятся сайты изобретателей и компаний.
Важным способом повышения эффективности поиска является учет показателей прямого и обратного цитирования, которое позволяет выявлять ранее пропущенные сведения, например, соединения с аналогичными концевыми системами или публикации, отличающиеся способом их индексирования в базах данных.
Полезная информация содержится также в базах данных о медикаментах, еще только разрабатываемых компаниями. Базы данных типаThomson Reuters Integrity или Thomson Reuters Partnering содержат сведения о структуре лекарственных средств, виде их воздействия и сфере применения.
Нахождение новых способов повышения качества поиска должно быть неотъемлемой составляющей повседневной работы соответствующего подразделения компании.
Литература
1. Magdy W., Jones G. J. F. An Efficient Method for Using Machine Translation Technologies in Cross-Language Patent Search –
www. doras.dcu.ie›…Using_Machine_Translation…in…Patent…
2.. Vrochidis S. et al. Concept-based patent image retrieval //WРI-2012-v.34-#4-p.292-303.
3. Xie Z., Miyazaki K. Evaluating the effectiveness of keyword search strategy for patent identification//WPI-2013-v.35-#1-p. 20-30
4. Endacott J., Poolman R. Looking for insights – Quality control initiatives for enhancing patent searches//WPI-2013-v/35-#1-p.3-7
Вторник, 15th Декабрь, 2015
Виды анализа и визуализации патентной информации//Патентная информация сегодня, 2008, №1
Л.К.Кравец, Зам. главного редактора журнала “Патентная информация сегодня”, к.ф.н., доцент
Визуализация информации представляет собой разновидность компьютерной графики, предназначенную для представления пользователю данных посредством изображений. Она осуществляется с использованием специальных автоматизированных систем. В последнее время они находят все более широкое применение и в сфере патентной информации.
Технология визуализации обеспечивает наглядное систематизированное представление больших патентных массивов в едином изображении. Обычно это графики, диаграммы или карты, отражающие связи прямого и обратного цитирования между патентами, их текстовое сходство, сотрудничество изобретателей и т.д.
Результаты визуализации полезны для самых различных категорий пользователей. Лица, не обладающие глубокими знаниями в данной предметной области, имеют возможность без существенных затрат времени и средств, получить о ней общее представление. Для экспертов визуализация - дополнительный инструмент углубленного патентного анализа и обоснования предпринимательских решений.
Компьютерные программы визуализации информации обеспечивают систематизацию больших информационных массивов с использованием таких изобразительных средств, как цвет, размер и форма. Тем самым облегчается беглая оценка результатов информационного анализа и принятие решения о том, какую информацию можно опустить, а какая заслуживает более глубокого изучения.
Широкому распространению визуализации способствовало появление все более производительных программ и реализующих их компьютеров. Программы визуализации используют количественные данные для выявления тенденций, которые могут остаться незамеченными при просмотре необработанных текстовых материалов(1).
Системы визуализации патентных данных
На рынке появляются все новые системы автоматизированного поиска и анализа патентной информации. И, если автоматизация поиска, классифицирования, кластеризации и установления связей между тематически сходными патентами получила уже довольно широкое распространение, то визуализация результатов переработки информации, пока еще не столь популярна. Далее характеризуются некоторые из поступивших на рынок систем.
Компания Spore.inc предлагает два основных типа визуализации:
- матричные диаграммы, отражающие содержание и иерархические связи между пунктами патентной формулы, значительно облегчая понимание сущности патента;
- споровидные диаграммы, отражающие группы тематически связанных патентов, идентифицирующие технологические тенденции и возможности заполнения вскрываемых при этом «пробелов» в существующих патентных портфелях.
Компания Matheo предлагает одну из простейших в использовании систем, объединяющую четыре основные типы визуализации, которые можно комбинировать для идентификации различных свойств анализируемых патентов. Программа MatheoPatent 6.1 обеспечивает поиск патентов с использованием ключевых слов, фамилий изобретателей и др., а также последующее визуальное представление получаемых результатов в форме:
- таблиц, в которых слева дается список изобретателей с указанием их национальности и номеров выданных патентов, а справа – перечень патентов;
- диаграмм ежегодного количества патентов, сгруппированных по различным библиографическим данным (изобретатели, даты приоритета и др.);
- матриц, указывающих пересечение различных библиографических данных, благодаря чему можно, например, выявлять группы совместно работающих изобретателей;
- сетей взаимосвязей, например, между изобретателями и компаниями (указав компанию, получаем связанных с ней изобретателей и т.п.)
Система ThemScepe позволяет представлять подборку патентных документов в виде топографической карты, на которой «горы» ассоциируются с часто встречаемыми в документах терминами, расстояние между которыми отражает степень их тематической близости.
Система Aureka, используемая в компании MicroPatent, представляет собой версию ThemScape, адаптированную к патентному анализу. На получаемой с ее помощью топографической карте точками обозначены патенты, расстояние между которыми отражает степень их тематической близости.
Такого рода визуализация результатов патентного поиска облегчает обнаружение как направлений, уже перекрытых существующими патентами, так и тех, что открывают еще не запатентованные предметные области. Подобные сведения могут иметь решающее значение при разработке компаниями своих предпринимательских стратегий(2).
Методы совершенствования патентного картирования
Патентные карты представляют собой один из инструментов информационного анализа с визуализацией или пространственным (2-3 мерным) представлением получаемых результатов. Благодаря этому достигается удобное и наглядное представление сложных взаимосвязей между исследуемыми объектами (например, документацией) и основных тенденций, отражаемых на представленном посредством картирования «ландшафте».
С начала 2000 года наблюдается заметное развитие и распространение методов и средств патентного картирования с использованием его в различных сферах информационного поиска и анализа.
В последнее время появились методы «концептуального» картирования, которые реализованы в коммерческих системах Aureka, STN и OmniVis. В них используется лексический анализ и запретительные списки слов, не учитываемых при статистических подсчетах. Запретительные списки включают неинформативные слова типа the, a, that, then и т.п.
Патентное картирование основано на идее, согласно которой частота встречаемости слова в статье является удобным показателем его важности. Соответственно, алгоритм картирования предусматриивает два шага: сначала в тексте выявляются термины с подсчетом их важности, затем документы картируются в соответствии со значением информативных терминов.
Интуитивно и согласно наблюдениям Г.Луна установлено, что наиболее значимыми и обладающими отличительными свойствами являются слова со средней частотностью. Именно они выражают объединительные («кластерообразующие») понятия, на основе которых осуществляется картирование. Выше их располагаются самые частотные, но неинформативные слова, попадающие в запретительный список, а ниже оказываются малозначительные слова, которые из-за этого также выпадают из дальнейших подсчетов.
В алгоритмах подсчета чаще всего используются две величины: общее число значимых слов в документальном массиве и доля документов, содержащих то или иное значимое слово. Первая величина разграничивает частотные и малоупотребительные слова, а вторая, различает функциональные слова со случайным распределением между документами и содержательные слова, концентрирующиеся в конкретных документах. Термины, чьи показатели подсчета оказываются ниже порога ( либо из-за того, что они встречаются в слишком многих документах, либо потому, что они вообще редко используются) отличительными способностями не обладают и поэтому из последующего анализа исключаются.
Запретительный список обычно применяется изначально, чтобы не засорять подсчеты ненужными словами. Однако, будучи эмпирическим и субъективным, такой список может вводить в заблуждение. К тому же, запретительные списки различаются по объему. В системе Aureka, например, в них насчитывается 1290 английских, французских и немецких слов, а в системе OmniVis - только около 100. Поэтому в рассматриваемых системах допускается последующее редактирование состава запретительных списков пользователями, например, дополнительное включение в список слов, которые представляются пользователю слишком часто встречающимися функциональными словами. В патентных текстах в их числе могут оказаться слова типа exibit, develope или demonstrate.
Однако подобное «потребительское» редактирование запретительного списка может иметь ряд последствий, например, приводить к формированию дополнительных кластеров и изменению общего «ландшафта». Поэтому корректировка списка нуждается в последующей длительной проверке ее целесообразности на практике, в ходе которой вновь создаваемая карта будет сопровождаться той, что формировалась до редактирования списка, с указанием слов, которые были дополнены в список.
Информация вообще и патентная в особенности обычно содержит много разных аспектов, которые можно рассматривать под разными углами зрения – в зависимости от интересов аналитика. Однако патентная карта отражает лишь одну из возможных точек зрения. Для получения других перспектив можно осуществить корректировку запретительного списка (3).
В будущем предполагается шире применять автоматизированное составление запретительных списков. Одним из достоинств такого пути, помимо большей объективности процесса, является получение запретительных списков даже на незнакомых языках.
Литература
1. Viegas F, Wattenberg M. People, patents and visualization. – www.dotank.nyls.edu.
2. Diirsteler J.C. Patent data, analysis and visualization – www.ipminds, blogspot, com/patent analysis.html
3. Blanchard A. Understanding and customizing stopword lists for enhanced patent mapping //WPI – 2007 – v.29 – #4 – c.308 – 316
Вторник, 15th Декабрь, 2015
Совершенствование методов и средств патентного поиска//”Патентная информация сегодня”, 2008, №3
Л.Г.Кравец, зам. главного редактора журнала “Патентная информация сегодня”, к.ф.н., доцент
Последнее десятилетие охарактеризовалось чуть ли не взрывным ростом количества подаваемых в мире патентных заявок. Одновременно отмечено увеличение их объема. Результаты количественной оценки этого явления посредством анализа массива европейских патентных заявок, поданных в период с 1978 по 2005 год, показали, что размер или объем патентной заявки допускает двоякое измерение: по общему количеству страниц или пунктов патентной формулы. Первый показатель отражает объем сведений, с которыми придется иметь дело патентному эксперту, а второй - в определенной степени свидетельствует о размерах предметной области, на которую заявитель намерен распространить свои патентные претензии. Можно полагать, что инфляционный рост этих показателей приведет к увеличению нагрузки на патентных экспертов и, как следствие, к удлинению сроков патентной процедуры и увеличению затрат на услуги патентных экспертов. По крайней мере, об этом свидетельствует анализ заявок, поступивших в ЕПВ в 1995-1997гг. и завершившихся выдачей патентов до конца 2006 года, Он показал, что, чем больше в них пунктов формулы и страниц, тем обычно дольше процедура выдачи патентов и выше затраты ведомства на патентование. Аналогичные данные были получены в отношении патентных заявок в США (1). Указанные обстоятельства требуют новых методов осуществления патентного поиска и более широкого применения в нем современных технических средств.
Совершенствование методов содержательной обработки патентной информации
В настоящее время патентные материалы содержатся в текстовом формате. Осуществляя их поиск, классифицирование, интерпретацию или оценку, пользователь вынужден строить предположения относительно того, насколько поверхностные текстуальные признаки отражают собственно содержание документа. Эта процедура требует затрат и не гарантирует положительного результата. Существует мнение, что альтернативой может стать эксплицитное представление содержания патентного документа с использованием формализованных и недвусмысленных семантических средств. Преимущества такой альтернативы видят в том, что появится возможность непосредственной оценки содержания документа, способствующей его поиску, классификации и интерпретации. Считается, что в конечном итоге это приведет к замене нынешних патентных баз данных патентными базами знаний.
Сторонники такой позиции предлагают систему обработки патентов PATExpert, которая ориентирована на представление именно значения обрабатываемых патентных документов. При этом ставятся две цели: а) выдвинуть на передний план семантическую парадигму обработки патента; б) оснастить пользователей технологиями эффективного доступа к содержанию патентного текста. Для достижения этих целей поставлены четыре задачи: – представление содержания, пригодное для описания изобретений в нескольких областях техники; – создание основанных на семантике технологий, которые пригодны для работы с содержанием патентной документации; – создание технологий, обеспечивающих преобразование нынешних текстовых патентных документов в их содержательное представление; – создание технологий, обеспечивающих эффективный доступ к содержанию патентных документов, представленных в текстуальном формате. Опыт показывает, что составляемые авторами рефераты не отвечают в должной мере потребностям пользователей: получению точного и краткого представления о всех существенных характеристиках патентуемого изобретения. Патентные классификации не обеспечивают многоаспектной систематизации и кластеризации документального массива с учетом разнообразных потребностей пользователей.
Большинство поисковых систем основано на использовании ключевых слов, которое желательно дополнить более глубокими семантическими критериями, возможностями поиска по изобразительным элементам и управления поисковой процедурой, включая многоаспектное ранжирование получаемых результатов. Конечной целью пользователя является извлечение из патентного документа содержательного описания изобретения, которому, в частности, способствует языковый перевод документа. Однако в действительности пользователь зачастую заинтересован не в полном переводе документа, а в определении его соответствия запросу и извлечении сущности данного патента. Необходима также технология лингвистического упрощения оригинального патентного текста при сохранении идентичности его содержания. Метаданные о взаимосвязях патентов или заявок черпаются в основном из библиографического описания документа. Однако пользователю нередко требуются ответы на многоаспектные запросы, охватывающие целый комплекс библиографических элементов, чему способствует предварительная компиляция наиболее популярных сочетаний запрашиваемых элементов. Наконец, пользователи очень нуждаются в автоматизированной оценке значимости (ценности) патента, которая сегодня в основном базируется на текстовых показателях (объем текста, встречаемость нужных ключевых слов и т.п.) Проведенный анализ потребностей пользователя позволяет заключить, что для их качественного удовлетворения нужны технологии, обеспечивающие доступ к содержанию патентного материала. Содержательное представление патента должно: а) абстрагироваться от конкретных терминов и поверхностных лингвистических структур патента; б) сохранять семантические связи между понятиями, необходимые для кластеризации документов и др.; в) охватывать композицию, функции и прочие элементы изобретения и, при необходимости, воссоздавать его общее содержание; г) поддерживать связи между семантическими и лексическими элементами документа, способствующие автоматическому анализу его содержания.
Метод содержательного представления патентов
Одним из средств,реализующих такой метод, является система PatExpert. Она включает семь основных служебных модулей:
-модуль извлечения содержания и метаданных;
-модуль патентного поиска;
-модуль патентного классифицирования и кластеризации;
-модуль перефразировки и улучшения читабельности текста;
-модуль обобщения (резюмирования);
-модуль навигации и визуализации патентного массива;
-модуль оценки патентов и мониторинга данной области техники.
Отдельные модули могут включать по нескольку компонентов. Например, модуль патентного поиска включает системы поиска по ключевым словам, семантического поиска, поиска изображений, поиска по степени сходства и поиска метаданных. Далее приводится краткая характеристика каждого из перечисленных модулей.
Извлечение содержания и метаданных включает несколько стадий и базируется в основном на лингвистическом анализе материала. Первая стадия представляет собой его морфо-синтаксический разбор, вторая – ориентирована на выявлении взаимозависимых элементов текста, а третья – на установление связей, существующих между элементами содержания. Извлечение метаинформации предполагает получение как эксплицитной, так и имплицитной библиографической, правовой, изобразительной и текстовой информации. Имеется в виду, например, изучение фамилий изобретателей и заявителей, чтобы установить – является ли правообладатель частным лицом или организацией. Извлекаемая правовая информация включает сведения о подаче запросов, возражений, выдаче патентов и т.п. Из текста документа извлекается метаинформация о цитировании, связанных компаниях, структуре патентной формулы и др.
Патентный поиск. Специфика этого модуля заключается, во-первых, в его интерактивности, предполагающей обратную связь с пользователем, а во-вторых - в комплексном использовании нескольких поисковых систем. Без вовлечения в процесс поиска пользователя трудно отразить все необходимые аспекты в поисковом запросе, а также выявить все материалы, соответствующие такому запросу. Поэтому пользователю предоставлена возможность: -классифицировать выданные документы и ограничивать последующий поиск требуемой узкой областью; -помечать выделенные документы с учетом их релевантности и соответственно корректировать свой запрос. Использование вышеперечисленных пяти поисковых систем позволяет дополнить полнотекстовой поиск по ключевым словам поиском по семантическим критериям, выявляя, например, состав материала, из которого изготовлен объект, наличие компонентов с определенными функциональными свойствами, назначение изобретения и др. Обеспечиваемый одной из систем поиск по степени сходства особенно полезен при определении патентной чистоты и известного уровня техники. Поиск изображений позволяет сопоставлять графическую информацию с соответствующими текстовыми отрезками.
Патентное классифицирование и кластеризация. Для адаптации процесса классифицирования к классификационным схемам, удобным для пользователя, PatExpert предлагает определенный набор категорий, позволяющих сформировать индивидуальные классификационные рубрики. По желанию пользователя документу можно приписать один или несколько классификационных индексов. В отличие от классифицирования предлагаемая PatExpert технология кластеризации не требует четкой классификационной схемы. Достаточно определить пару кластеров, приписать к ним по нескольку документов и задать перечень критериев кластеризации. Процесс кластеризации может осуществляться как для упорядочения найденных документов, так и как самостоятельная процедура.
Обеспечение удобочитаемости патентного материала. PatExpert предлагает технологию перефразирования как всего документа, так и отдельных его фрагментов, выделяемых в интерактивном режиме. Технология обеспечивает, прежде всего, упрощение лингвистического стиля патентного документа посредством: а) декомпозиции используемой лингвистической структуры в более короткие и простые отрезки; б) слияния и частичного трансформирования отрезков с использованием текстового генератора, действующего согласно заданным критериям.
Обобщение патентного материала. Этот режим предназначен для пользователей, заинтересованных в беглом просмотре патентных материалов при определении их релевантности. Обобщение (составление резюме) осуществляется, по желанию пользователя, на одном из трех официальных языков ЕПВ: английском, французском или немецком. Предусмотрено поверхностное и углубленное обобщение. В первом случае начинают с декомпозиции и упрощения лингвистической структуры текста, после чего выделенные фрагменты оцениваются на предмет их пригодности для включения в резюме - с использованием как содержательных, так и лингвистических критериев. Во втором случае начинают с обращения к базе знаний, после чего обнаруженные там элементы содержания представляются на нужном языке.
Визуализация и навигация. Интерактивная визуализация является важнейшим компонентом современного пользовательского интерфейса, который обеспечивает эффективную работу с большими массивами данных и предоставление дополнительной детализированной информации. Потребность в визуализации особенно отчетливо проявляется при работе с патентными метаданными (библиография, патентная классификация, цитирование, патентные семейства, правовые аспекты); со структурами содержания патентов (взаимозависимость пунктов патентной формулы, взаимосвязи между графическим материалом и текстом) и с текстовыми семантическими связями.
Оценка патентов. Учитывая сложность оценочной процедуры, зависящей от многих факторов, PatExpert не ставит своей целью осуществление фиксированной денежной оценки. Вместо этого пользователю предлагается содействие в выработке самостоятельной оценочной модели с использованием информации, касающейся как инновационного рынка (его размеров, товарооборота и др.), так и собственно изобретения. Информация об изобретении включает: затраты на патентную процедуру, количество изобретателей и заявителей, приписанных классификационных рубрик, пунктов патентной формулы, слов в описании изобретения, наличие возражений и цитирования, а также потребности в инвестировании, завершенность разработки и др. Предлагаемая PatExpert процедура предусматривает как абсолютную, так и относительную оценку. Первая основывается на затратных показателях, связанных с языковым переводом, уплатой пошлин, гонораром поверенному и др., а вторая – на сопоставлении набора показателей избранного пользователем изобретения с аналогичными показателями группы других патентов. Создатели PatExpert считают, что ей присущи три существенно важные характеристики: она является семантически ориентированной, предлагает уникальное сочетание технологий в соответствии с потребностями пользователей и допускает интерактивное участие пользователей во всех осуществляемых системой процессах. Предполагается, что система достигнет полной проектной мощности уже к середине 2008 года (2).
Метод адаптации текста к процедуре обработки.
При таком подходе не система приспосабливается к патентному тексту, подвергая его последующей семантической обработке, а заявителю предлагается адаптировать свой текст к условиям его последующего перевода на другие языки и информационного поиска. При этом исходят из того, что принятая патентными ведомствами процедура реферирования патентных заявок, ориентированная на последующий ручной информационный поиск, уже не соответствует потребностям онлайнового поиска. Составленные заявителями рефераты обычно не отражают в достаточной степени патентные притязания заявителя и возможности применения патентуемого решения. А у экспертов нет времени переписывать такие рефераты заново. Кроме того, эти рефераты обычно призваны скорее отражать содержание основного пункта патентной формулы или основные положения описания изобретения, чем информировать читателя о данном новшестве. Наконец, эти рефераты составляются на языке страны, в которой подается патентная заявка, а при поиске зачастую приходится пользоваться его переводом. Существенная часть затрат на патентную процедуру во многих странах вызвана необходимостью переводить патентную документацию на языки всех стран, где эта патентная процедура осуществляется. Анализ 200 англоязычных рефератов японских международных компаний показал, что 10% рефератов содержали фактические ошибки перевода, а половина рефератов была изложена на плохом английском языке.
Слабость перевода с помощью компьютера особенно ощутима при работе с патентными текстами, изобилующими многословными юридически сформулированными предложениями. Уровень качества перевода становится оптимальным в случае предварительной подготовки текста к машинной обработке и использования качественных словарей. Однако при этом меняются формулировки, используемые в оригинальном патентном документе. С учетом изложенного предполагается обсудить возможность изменения порядка электронной подачи заявок, обусловив его представлением патентной заявки в форме, приспособленной к последующему машинному переводу. Эта идея была впервые изложена в патенте США №6.163.785. При наличии соответствующей компьютерной программы изобретатели могли бы излагать описание своего изобретения с ориентацией на его последующую автоматизированную обработку словесным процессором, соблюдая определенные правила грамматического оформления и написания текста (3).
Развитие средств автоматизированной обработки патентной информации
Патентные ведомства промышленно развитых стран предъявляют все более жесткие требования к заявочной документации, вынуждая заявителей проводить все более тщательный информационный поиск для обоснования их притязаний. Высказываются, например, опасения, что обсуждаемый в США проект Закона о патентной реформе заставит заявителя предъявлять отчеты о поиске, обосновывающие правомерность каждого заявляемого пункта патентной формулы. Оказавшись перед таким вызовом, заявители будут вынуждены обращаться ко всем известным и доступным им средствам информационного поиска, используя как свободный доступ к массивам поисковой системе Google и базам данных патентных ведомств, так и платные услуги коммерческих организаций. С 14 декабря 2006 года функционирует новая система патентного поиска (GSP), охватывающая более 7 млн. патентов США. Запланированы также охват патентных заявок США и РСТ, выдача информации в режиме текущего оповещения, еженедельное обновление поискового массива и др.
Система Google осуществляет индексирование и последующий поиск во всем патентном фонде США за указанный срок, в то время как полнотекстовая база данных Патентного ведомства США охватывает лишь патенты, выданные в 1976 г. и позднее. До этой даты можно проводить поиск только по ограниченному числу реквизитов. Обычная процедура поиска патентов по ключевым словам аналогична той, что применяется по отношению к другим информационным источникам. Однако эффективность поиска можно повысить, обратившись к странице продвинутого поиска (www.google.com/advanced_patent_search). При полнотекстовом поиске возможно применение булевых операторов (and/or/phrase/not logic) в комплексе с поиском по номеру патента, фамилии изобретателя / патентовладельца, индексам патентной классификации США, МПК и датам подачи заявки или выдачи патента. В выдаваемых документах предусмотрено цветовое выделение поисковых терминов. Найденные документы систематизируются в порядке убывания степени их соответствия запросу. Эксперименты показывают, что полнота поиска в Google уступает показателям ряда других систем, а в написании словесных обозначений нередки ошибки. Так, с помощью Google было обнаружено только 1197 патентов компании IBM, в то время как, только в 2005 году она получила около 3000 патентов. Поэтому систему Google рекомендуется использовать в комплексе с другими поисковыми системами. Система Google, пожалуй, наиболее пригодна для проведения предварительного поиска изобретателями, а также представителями компаний, которые смогут на этой основе более квалифицированно формулировать свои задания патентным поверенным. Основанная на сплошном индексировании и доступная любым пользователям, система Goоgle может также использоваться в качестве основы при разработке более утонченных поисково – аналитических систем, упорядочивающих результаты поиска и адаптирующих их к конкретным нуждам пользователей (4).
Современный рынок предлагает все более широкий ассортимент программ автоматизированного осуществления процедур информационного поиска и управления накапливаемыми активами интеллектуальной собственности. В их число входят системы, ориентированные преимущественно на поиск и мониторинг товарных знаков и доменных имен; системы патентного поиска; системы управления активами интеллектуальной собственности и др. Хотя четкого функционального разграничения указанных групп обычно не наблюдается, поскольку информационные службы, особенно – коммерческие, стремятся к диверсификации своих продуктов и услуг. В первой группе систем, ориентированных преимущественно на поиск и мониторинг товарных знаков и доменных имен, можно, например, выделить систему Corsearch Advantage: Watch and Screening and Domain Name Watching (CT Corsearch, Walters Kluwer business). Клиентам предоставлена возможность мониторинга правонарушений в отношении своих товарных знаков и доменных имен с получением еженедельных отчетов в печатной или электронной форме. Отслеживание возможно как в пределах одной страны, так и группы стран: система охватывает более 30 юрисдикций. Во вторую группу систем патентного поиска входит, например, система 37CFR.com (PatentCafe), осуществляющая процедуры патентного поиска, классифицирования и составления отчетов о получаемых результатах с использованием приемов искусственного интеллекта. Поиском охватываются юрисдикции ведущих стран, включая США, Великобританию, Германию, Японию, Канаду и Францию. Наиболее многочисленная третья группа систем управления активами интеллектуальной собственности включает как универсальные системы, призванные управлять активами любых объектов интеллектуальной собственности, так и системы, ориентированные на ее отдельные разновидности. Так, система ANAQUA (Anaqua) предназначена для управления любыми объектами интеллектуальной собственности на протяжении всего их жизненного цикла, начиная, например, с подачи заявки и кончая сбором роялти по лицензионному соглашению. Вторжение в мировую экономику Интернета заставило компании уделять все больше внимания управлению активами средств индивидуализации предпринимательства и, прежде всего, товарных знаков и доменных имен. Активы функционирующих в Интернете организаций могут насчитывать многие тысячи таких объектов. Не удивительно поэтому появление на рынке соответствующих автоматизированных систем управления, предлагаемых компаниями CPA, MarkMonitor, Thomson CompuMark, Verisign и др. Так, компания CPA предлагает систему Domain Name Services and Extranet, которая обеспечивает своим клиентам услуги по регистрации, перерегистрации и аннулированию доменных имен, слияние разрозненных портфелей и их аудит. Процесс управления включает, как правило, процедуры мониторинга с целью выявления и предотвращения угроз нарушения прав интеллектуальной собственности(5).
В современном инновационном мире компания может удерживать конкурентные позиции только при условии постоянного отслеживания предпринимательских и технологических достижений в своей сфере деятельности. Важную роль при этом играет мониторинг последних патентных публикаций, имеющих отношение к профилю деятельности данной организации. С этой целью используются специализированные автоматизированные системы. В их числе система PatProfile Monitor компании INCOM IPS (Германия). Заказчик формулирует тематические параметры своего поискового запроса, которые, при необходимости, могут быть конкретизированы указанием наименования заявителя. Система охватывает все публикации ЕПВ и ВОИС, а также Патентного ведомства Германии. Обновление поискового массива – ежемесячное. Пользователь оповещается о появлении интересующих его публикаций по электронной почте. Оповещение осуществляется в форме лаконичных сообщений, позволяющих оперативно оценивать релевантность новых публикаций. После этого, пользователь определяет необходимость получения развернутого сообщения, включающего какую-то часть или полный текст найденного документа, и направляет свой запрос по адресу www.patwww.de. Услуги PatProfile Monitor обеспечивают: -непрерывное оповещение о последних достижениях в заданном рыночном сегменте; -идентификацию подаваемых конкурентами патентных заявок; -классификацию патентных заявок конкурентов; -отслеживание последующих изменений в правовом статусе выявленных патентных заявок. По запросам пользователей также предоставляется требуемая правовая информация, сведения о патентных семействах и о патентном цитировании. Помимо патентного мониторинга система PatProfile Monitor может выгружать полные тексты найденных патентных публикаций и формировать для пользователя нужную ему тематическую подборку для последующего самостоятельного осуществления библиографического и полнотекстового поиска в накапливаемом поисковом массиве. Система PatProfile Monitor предоставляет в распоряжение пользователей свой Интернет – сервер, который будет осуществлять пополнение и ведение их поисковых массивов с соблюдением требований информационной безопасности и ограничения доступа (6).
Литература
1. Zeebroeck N.van.etal. Patent inflation in Europe//WPI-2008-v.30-#1-p.45-52
2. Wanner L. et al. Towards content –oriented patent document processing //WPI-2008-V.30-#1-p.21-33.
3. O’Keeffe M/Manifesto for better patent searches and more economical patent prpsecution//WPI-2008-v.30-#1-p.1-3.
4. Buntrock R.E. Google tackles patent search//www/infotoday.com
5. Butkiewicz L. Your guide to IP software//MIP-Dec.2007/Jan.2008-p.61-73
6. PATWARE. Pat Prоfile Monitor – www.incom.ips.com
Вторник, 15th Декабрь, 2015
Идентификация зон с повышенной вероятностью столкновения средств индивидуализации предпринимательства в Интернете (Патентная информация сегодня”, 2009, №3)
Л.Г.Кравец, Зам. главного редактора журнала “Патентная информация сегодня”, к.ф.н., доцент
Одной из наиболее сложных и ответственных задач информационно-правового обеспечения индивидуализации предпринимательства в современных условиях является идентификация и предотвращение реальных и потенциальных угроз, которые ожидают их в Интернете: несанкционированного захвата средств индивидуализации, утраты различительной способности или противоправного использования их другими лицами.
Прежде всего, это касается охраны прав владельцев товарных знаков, которые сталкиваются с наименованиями используемых там сетевых адресов – доменными именами, а также с прочими нигде не регистрируемыми словесными обозначениями. Доменные имена, изначально предназначенные для идентификации источника информации, трансформировались в средство, которое – подобно товарным знакам – способствует продвижению на рынок товаров и услуг обладателя адреса. Участились случаи использования доменных имен в качестве новой формы товарных знаков: сетевой адрес с его доменным именем регистрируется первым, а затем трансформируется в товарный знак, распространяя свое действие с одной национальной территории на другую и киберпространство в целом. Тем более что зарегистрировать доменное имя можно быстрее и дешевле.
В свою очередь, доменным именам может угрожать появление заявки на тождественный или сходный до степени смешения товарный знак, поскольку владелец подобного знака зачастую вправе претендовать на владение сходным доменным именем. Еще более вероятно столкновение доменного имени в Интернете со сходными доменными именами других лиц. Захват доменных имен, идентичных или сходных до степени смешения с уже зарегистрированными товарными знаками или доменными именами, получил в последнее время особенно широкое распространение.
В дополнение к конфликтам, так или иначе связанным с действующими системами регистрации товарных знаков и доменных имен, в последние годы получили не менее широкое распространение их столкновения с нигде не зарегистрированными сходными словесными обозначениями. Такие обозначения применяются на веб-сайтах пользователей – в виде ссылок, фреймов и метатегов, а также в предлагаемых поисковыми системами услугах по онлайновой рекламе. Количество жалоб от владельцев товарных знаков по поводу нарушающих их права киберзахватов доменных имен в 2008 году возросло, по сравнению с 2007 годом, еще на 8%, что вызывает озабоченность обладателей товарных знаков и прочих пользователей Интернета (1).
Таким образом, сформировалась новая среда общественных отношений, в которых возникают многочисленные противоправные деяния: гражданско-правовые, административные, уголовные и др. Поэтому задача совершенствования информационно-правового обеспечения процессов выявления и предотвращения рассмотренных выше конфликтных ситуаций становится сегодня все более актуальной.
Вместе с тем, противодействие таким конфликтам невозможно без применения эффективных методов и средств их предварительной идентификации. Необходима всесторонняя информационно-аналитическая поддержка процесса выявления правовых конфликтов на всех этапах жизненного цикла средств индивидуализации предпринимательства – с использованием как сетевых информационных ресурсов, так и корпоративной системы управления средствами индивидуализации (2,3).
Однако располагать требуемыми информационными источниками недостаточно; нужно уметь их рационально использовать. В деятельности крупных юридических и информационных служб зачастую проводится сплошной (тотальный) поиск требуемых сведений во всем глобальном массиве данных. В условиях неуклонного увеличения объемов информационных ресурсов Интернета это может приводить к чрезмерным затратам сил и средств.
Целесообразность оптимизации поисковых процедур
Представляется возможным оптимизировать поисковый процесс, используя обоснованные критерии выделения «зон риска», характеризующихся относительно более высокой вероятностью возникновения охарактеризованных выше конфликтов. Имеется в виду возможность повышения эффективности поисковых систем, как инструмента правового регулирования общественных отношений в Интернете, за счет фокусирования этого инструмента на зонах с повышенной вероятностью правонарушений. Эта задача может быть решена посредством установления оптимальной очередности поисковых процедур с учетом наличия зон с разной вероятностью столкновения средств индивидуализации. Тем самым удастся оптимизировать информационно-правовое обеспечение процедуры выявления конфликтов посредством первоочередного обращения к устанавливаемым таким образом зонам повышенного правового риска с наименьшими затратами сил и средств.
Поиск и выявление рассмотренных выше конфликтов между товарными знаками, доменными именами и прочими используемыми в Интернете словесными обозначениями можно, конечно, проводить сразу во всем глобальном массиве заявленных или уже зарегистрированных средств индивидуализации, а также сходных нерегистрируемых обозначений. На выходе при этом будет получен обширнейший перечень в большей или меньшей степени сходных обозначений. Между тем, известно, что для проводящих такой поиск организаций важны не любые случаи совпадения обозначений. Им необходимо, прежде всего, выделить коммерчески и юридически значимые столкновения, то есть те, что наносят или могут нанести данной компании ощутимый материальный или иной ущерб и поддаются правовому воздействию.
В результате, после завершения исчерпывающего просмотра глобального поискового массива, организации все равно придется обрабатывать полученные результаты и отбирать обозначения, таящие в себе конкретную угрозу материального или иного ущерба. Такие обозначения обычно принадлежат ее реальным или потенциальным конкурентам, а также действующим в данной предметной области киберзахватчикам, стремящимся заработать на развернувшейся в Интернете конкурентной борьбе.
С учетом изложенных факторов в мировой информационно-поисковой практике сложилось правило начинать поиск с нанесения так называемого «поискового нокаута» (knock out search). Имеется в виду проведение на первом этапе ускоренного поиска с обеспечением максимально допустимых показателей его точности. Затем, если попадания «точно в цель» не получилось, проводят более детальный поиск с поэтапным увеличением показателей его полноты.
Основными показателями любой информационно-поисковой системы являются коэффициенты точности и полноты ее выдач. При этом коэффициент точности определяется как процент релевантных (отвечающих тематике запроса) документов в суммарной выдаче, а коэффициент полноты – как процент выданных релевантных документов от общего их числа в поисковом массиве. Для вычисления этих коэффициентов используются следующие формулы:
(1) A=100R/L
(2) E=100R/C
где A – коэффициент точности, R – число релевантных документов в выдаче, L – общее число документов в выдаче; E- коэффициент полноты и C – общее число релевантных документов в поисковом массиве.
Из приведенных формул видно, что между точностью и полнотой информационного поиска существует обратная зависимость. Это означает, что когда в информационно-поисковой системе достигнуто оптимальное соотношение параметров А и Е, дальнейшее увеличение точности информационного поиска возможно только за счет уменьшения его полноты и наоборот.
Приемлемость того или иного коэффициента точности зависит, главным образом, от объема выдачи. Очевидно, что с ростом среднего объема выдачи повышается и минимально приемлемый коэффициент точности. Но средний объем выдачи находится в прямой зависимости от общего объема поискового массива. Таким образом, рост поискового массива, с которым обычно сталкиваются в Интернете, требует увеличения коэффициента точности. Хотя при этом нельзя забывать и о необходимости обеспечения приемлемой полноты информационного поиска.
Сказанное выше подтверждает экономическую целесообразность использования определенной последовательности выявления конфликтов между средствами индивидуализации в необозримых поисковых массивах Интернета. При этом ориентируются, прежде всего, на максимальную точность поиска сходных словесных обозначений – с последующим увеличением, при необходимости, его полноты. Соответственно, можно начинать выявление и предотвращение правовых конфликтов между средствами индивидуализации в Интернете с проведения поиска в тех зонах, где вероятность столкновения товарных знаков, доменных имен и прочих сходных обозначений относительно выше. При этом предполагается, что подобные «зоны правового риска» находятся, как правило, в сферах действия потенциальных или реальных конкурентов.
Выбор методологии определения зон повышенной вероятности правовых конфликтов
В целях подтверждения выдвинутого предположения уместно, прежде всего, обратиться к проводившимся ранее исследованиям статистической закономерности текстов, получившей название «закона Ципфа». Речь идет о закономерности неравномерного рассеяния публикаций по какой-либо тематике на страницах научно-технических журналов.
Основываясь на законе Ципфа, С.Брэдфорд установил, что в относительно небольшом количестве специальных периодических изданий сосредоточено около трети всех публикаций, посвященных какому-либо вопросу. Еще одна треть статей оказывается опубликованной в значительно большем числе тематически родственных журналов другого профиля. А последняя треть рассеяна в огромном числе периодических изданий, в которых появления статей по этому вопросу предвидеть нельзя. Указанная зависимость получила название «закона рассеяния Брэдфорда (4).
Позднее В.З.Шендеров доказал возможность применения закона Брэдфорда для изучения рассеяния выборки патентных документов по рубрикам Международной патентной классификации (МПК). Анализ показал, что эти рубрики можно ранжировать по убыванию их продуктивности – количеству релевантных документов с индексом соответствующей рубрики. Согласно проведенным подсчетам четверть наиболее продуктивных по каждой теме рубрик МПК концентрировала в себе порядка 90% всех релевантных документов (5).
Следуя этой логике, можно допустить аналогичную неравномерность рассеяния средств индивидуализации предпринимательства и, в частности, товарных знаков, обладающих определенными отличительными свойствами, по рубрикам Международной классификации товаров и услуг (МКТУ). При этом объектом исследования становится не тематика документов, а те или иные отличительные особенности обозначений, выступающих в роли товарных знаков.
Обоснованность такого предположения – в сфере изобразительных обозначений - была проиллюстрирована Д.Боуи. Исследуя изобразительные товарные знаки США, он отметил нередкое сходство образов, используемых в товарных знаках одной и той же отрасли. Степень сходства знаков определялась им в зависимости от частоты приписки знакам аналогичных поисковых индексов Международной классификации изобразительных элементов знаков. В результате частота встречаемости сходных поисковых индексов в пределах одного и того же класса МКТУ оказывалась выше, чем во всей совокупности знаков – во всех классах МКТУ (6)
При этом были отмечены противоречивые тенденции. С одной стороны, компании, работающие в одной и той же отрасли, должны, казалось бы, стремиться к возможно более четкой индивидуализации своих товаров, услуг и сайтов. Ведь отличие от других компаний расценивается как одно из их важнейших конкурентных преимуществ и входит в число основных требований охраноспособности средств индивидуализации. С другой стороны, наблюдаются тенденции использования компаниями обозначений, нередко в чем-то имитирующих аналогичные обозначения своих конкурентов. С появлением в отрасли нового популярного товарного знака возникают и соблазны его имитации соперниками. Действующие в одной и той же отрасли компании порой склонны создавать товарные знаки, в чем-то подражающие знакам своих конкурентов.
Д.Боуи объясняет это тем, что изобразительный товарный знак выполняет две функции: во-первых – дифференцировать организации посредством использования разных символов и, во-вторых - утвердить новую организацию в кругу себе подобных, предложив отличительный образ, напоминающий образы других представителей данной отрасли. При этом высказывается мнение, что обе функции важны. Причем по мере развития отрасли та или иная из этих функций может возобладать.
Л.О.Чернейко и Е.А.Данилина также указывают, что на этапе определения основных элементов знака обычно рассматриваются характерные для отрасли символы и обозначения, выражающие идеологию развития конкретной фирмы на рынке, а затем производится стилизация таких привлекательных обозначений для придания будущему товарному знаку индивидуальных черт (7).
Поэтому не случайно и в нормативных установках на создание новых средств индивидуализации наблюдаются аналогичные противоречия. С одной стороны, закон не допускает, например, регистрации товарных знаков, тождественных или сходных до степени смешения с уже существующими знаками, а с другой – в сопровождающих его инструкциях рекомендуется отбирать для регистрации обозначения, хорошо ассоциирующиеся с конкретным производителем, близкие к наименованию своего бизнеса и т.п.
На основе проведенных наблюдений можно сделать ряд предварительных выводов.
- Исследования показывают, что в чем-то сходные статьи, патенты, товарные знаки имеют тенденцию концентрироваться в ограниченном числе журналов или классификационных рубрик, которые ранжируются по степени убывания отнесенных к этим журналам или рубрикам сходных статей, патентов или знаков. Соответственно там же концентрируются и авторы, изобретатели или правообладатели этих объектов.
- Инвертируя это наблюдение, можно заключить, что существует некое ограниченное число журналов и классификационных рубрик, где концентрируются статьи, патенты, товарные знаки, а также соответствующие им авторы, изобретатели и правообладатели. Объективно они являются реальными или потенциальными конкурентами в соответствующих предметных областях, отражаемых в вышеуказанных журналах или классификационных рубриках.
- Степень вероятности столкновения интересов этих авторов, изобретателей и правообладателей возрастает пропорционально степени их концентрации в соответствующих журналах, классификационных рубриках или отраслях. Иначе говоря, чем им «теснее» в той или иной сфере деятельности, тем выше вероятность возникновения там правовых конфликтов. Это, в частности, проявляется в относительно более высокой степени сходства товарных знаков, оказывающихся в пределах одного класса.
Однако правовые конфликты между средствами индивидуализации в Интернете происходят чаще всего в результате смешения словесных, а не исследовавшихся ранее изобразительных элементов. Поэтому в данном случае задача заключается в изучении возможности распространения отмеченных выше тенденций и на словесные обозначения.
Aнализ словесных обозначений
При проведении рассмотренных выше исследований их авторами отбирались, как правило, массивы статей или патентов, предварительно проиндексированных с использованием ключевых слов из тех или иных тезаурусов либо рубрикаторов. А при анализе изобразительных товарных знаков использовались результаты индексирования входящих в них изобразительных элементов.
Подобные приемы для анализа словесных обозначений неприемлемы, поскольку входящие в их состав элементы (буквы, цифры, компоненты словосочетаний и др.) предварительному индексированию не подвергаются. Поэтому поиск в массиве словесных обозначений, используемых в качестве товарных знаков или доменных имен, можно условно приравнять к полнотекстовому поиску в неструктурированном массиве предварительно не проиндексированных документов с использованием ключевых слов. А в качестве поисковых терминов при этом можно использовать ключевые слова (либо их фрагменты), которые детерминируют ту или иную предметную область. Источниками для отбора таких ключевых слов могут быть перечни наименований соответствующих товаров, алфавитно-предметные указатели и т.п.
При проведении эксперимента, направленного на изучении возможности распространения отмеченных выше тенденций и на словесные обозначения, были выбраны две заметно контрастирующие предметные области с целью сопоставления используемых в них товарных знаков: «транспортные средства» (класс 012) и «безалкогольные напитки» (класс 032).
Затем были подобраны две, ограниченные по составу, группы ключевых слов, относительно более часто встречающихся в избранных предметных областях и, следовательно, детерминирующих содержание осуществляемой там деятельности. В перечень ключевых слов, характеризующих предметную область «транспортные средства», в частности, вошли: аuto, аccessories, brake, drive , gas, gear, motor и vehicle, а в перечень ключевых слов, характеризующих предметную область «безалкогольные напитки: beverages , bottled, сola, cooler, drink, energy , frozen , mineral и water.
Далее был осуществлен поиск официально заявленных или уже зарегистрированных товарных знаков, которые содержат в своем составе отобранные ключевые слова. Поисковый эксперимент осуществлялся с использованием системы поиска товарных знаков TESS Патентного ведомства США. При этом учитывались относительно более высокие поисковые характеристики системы и возможность пользоваться ею бесплатно. Поиск проводился в еженедельно пополняемом массиве более 4 млн. товарных знаков США, ожидающих рассмотрения, зарегистрированных или аннулированных.
Задача эксперимента заключалась, прежде всего, в определении различий в распределении найденных товарных знаков между двумя классами МКТУ, которые отражают содержание двух ранее отобранных заметно контрастирующих предметных областей. Результаты поиска показали, что товарные знаки по теме «транспортные средства» заметно преобладают в классе 012 (за исключением знаков с ключевым словом «gas»). Товарные знаки по теме «безалкогольные напитки» столь же заметно превалируют в классе 032, а некоторые из них в классе 012 не представлены вообще.
Кроме того, по ходу поиска требовалось определить характер распределения товарных знаков той или иной тематики по всем классам МКТУ. Для этого исследовались две различающиеся по тематике выборки товарных знаков, полученных в результате поиска в системе TESS с использованием в качестве запросов соответственно ключевых слов “drive” и “cola”.
Из общего массива 6774 товарных знаков с ключевым словом “drive”, зафиксированных на дату поиска в системе TESS, для последующего анализа была отобрана случайная выборка из 100 знаков. Анализ полных данных о каждом из найденных товарных знаков показал, что основная часть обследованных знаков оказалась отнесенной к предметной области, связанной с приборами, инструментами, машинами, станками, двигателями, транспортными средствами, соответствующими НИОКР, ремонтом и установкой оборудования. И такое распределение нельзя считать случайным.
Затем аналогичному анализу были подвергнуты товарные знаки, объединяемые ключевым словом из другой тематической группы - «безалкогольные напитки». Из общего массива 5249 товарных знаков с ключевым словом “cola”, зафиксированных на дату поиска в системе TESS, для последующего анализа была также отобрана случайная выборка из 100 знаков. Анализ показал, что основная часть обследованных товарных знаков относится к предметной области, связанной с безалкогольными напитками, исходными и производными продуктами питания, животными и растительными продуктами.
Таким образом, проведенный поиск подтвердил выдвинутые при постановке эксперимента предположения, что:
а) товарные знаки из той или иной предметной области (определяемой набором соответствующих ключевых слов) концентрируются в ограниченном количестве классов МКТУ, а это повышает вероятность возникновения между ними правовых конфликтов;
б) товарные знаки той или иной тематики распределяются неравномерно даже по ограниченной группе классов МКТУ, ввиду чего эти классы можно ранжировать по убыванию количества отнесенных к ним товарных знаков, а следовательно можно выделять зоны с более и менее высокой вероятностью столкновения словесных обозначений, используемых в средствах индивидуализации предпринимательства.
Подтверждение выдвинутой гипотезы позволяет предложить информационно-поисковую модель, которая обеспечит снижение затрат времени и средств на выявление и предотвращение правонарушений за счет первоочередного поиска и анализа средств индивидуализации предпринимательства конкурентов, чьи товарные знаки и доменные имена обычно оказываются в одной и той же предметной области. Такой подход представляется особенно эффективным при осуществлении регулярного мониторинга уже зарегистрированных корпоративных средств индивидуализации в безбрежном пространстве Интернета. Процесс мониторинга можно сконцентрировать, прежде всего, на выявлении и предотвращении конфликтов между средствами индивидуализации организаций-конкурентов, осуществляющих свою деятельность в той же, что и данная организация, предметной области. Это могут быть:
- фирмы-лидеры, занимающие лидирующие позиции в данном рыночном секторе или определяющие техническую политику в соответствующей подотрасли;
- реальные или потенциальные конкуренты, готовящие выпуск товаров-заменителей;
- лица или организации, стремящимся нажиться на не всегда добросовестной регистрации и последующем использовании средств индивидуализации.
- потенциальные партнеры по совместному предпринимательству;
- кандидатуры на заключение лицензионных соглашений и стратегических союзов, либо на осуществление сделок по слиянию или приобретению компаний.
Однако при оценке «чистоты» обозначения, заявляемого для регистрации в качестве товарного знака или доменного имени, проведение поиска, начиная с конкурентов, уместно лишь на предварительной стадии. В конечном итоге, при необходимости принятия особо ответственных решений придется обеспечивать максимально допустимую полноту поиска в специализированных базах данных.
Литература
1. WIPO reports record number of cybersquatting cases? Calls on ICANN to reduce level of gTLD disputes//WIPR-2009-v.23-#4-p.25-26
2. А.С.Жуков. Информационное обеспечение индивидуализации предпринимательства в Интернете // « Патентная информация сегодня», 2007, №1, с. 14-20.
3. Л.Г.Кравец. Информационная поддержка управления средствами индивидуализации предпринимательства в Интернете// «Патентная информация сегодня», 2008, №3, с.19-22.
4. Bredford S.C. Documentation//London – 1948
5. Шендеров В.З. О рассеянии патентной информации//НТИ - сер.1-1973-№3-с.22-26
6. Bowie J. I. INNOVATION, IMITATION, LEGITIMACY AND DEVIANCE IN THE DESIGN OF GRAPHICAL TRADEMARKS IN THE UNITED STATES, 1884-2003 // THE UNIVERSITY OF ARIZONA – 2005
7. Чернейко Л.О., Данилина Е.А.. Словесные товарные знаки: проблемы разработки и регистрации //М: «Патент», 2006-244с.
Вторник, 15th Декабрь, 2015
МАШИННННЫЙ ПЕРЕВОД В СИСТЕМЕ ПАТЕНТНОЙ ИНФОРМАЦИИ// “Патентная информация сегодня”, 2010, №4
Л.Г.Кравец, Зам. главного редактора журнала “Патентная информация сегодня”, к.ф.н., доцент
Первые попытки машинного перевода патентной документации осуществлялись еще в середине прошлого столетия, вскоре после появления первых компьютеров. В СССР интерес к этой проблеме обострился в связи с началом построения в стране системы патентной информации. Учрежденный в 1962 году Центральный научно-исследовательский институт патентной информации и технико-экономических исследований (ЦНИИПИ) возглавил широкомасштабную работу по комплектованию патентных фондов страны описаниям зарубежных изобретений на микроносителях и оснащению их справочно-поисковым аппаратом (СПА). Поскольку подавляющая часть мирового патентного фонда издавалась на иностранных языках, в ЦНИИПИ был организован перевод на русский язык рефератов или пунктов патентных формул, публикуемых в официальных бюллетенях ведущих зарубежных патентных ведомств. Именно в этих условиях возникла идея подключить к решению данной задачи машинный перевод.
Для этого ЦНИИПИ была создана специальная лаборатория, сотрудники которой предложили в начале 1960-х годов систему машинного перевода публикаций из официального бюллетеня США “Official Gazette”. Оригинальный алгоритм системы осуществлял последовательное членение англоязычного текста на сегменты, структурный анализ содержащихся в них терминологических словосочетаний, характерных для патентных документов, и подбор для них русскоязычных эквивалентов. Это была первая в мире система машинного перевода, непосредственно ориентированная на переработку иноязычных патентных документов, реализованная на ЭВМ и доведенная до стадии экспериментальной эксплуатации (1).
Однако широкого практического применения система не получила. Ее машинный словарь охватывал лишь узкую тематику документов по двигателям внутреннего сгорания. А переводимые тексты – ввиду невысокого качества перевода – нуждались в постредактировании, почти не уступающем по трудозатратам собственно переводу. В ходе экспериментов четко выявились общетеоретические и технические проблемы, без решения которых обеспечение в ближайшие годы машинного перевода приемлемого качества невозможно. Поэтому дальнейшие работы по совершенствованию машинного перевода в ЦНИИПИ были прерваны. А изначально поставленная задача создания русскоязычного СПА к зарубежным патентным фондам была решена посредством ручного перевода информации из официальных источников и подготовки реферативного журнала «Изобретения стран мира», который издается в ИНИЦ «Патент» и по настоящее время. К задаче практического освоения машинного перевода в патентном мире вернулись только спустя несколько десятилетий. Толчком к этому послужили, прежде всего, два обстоятельства.
Машинный перевод в Европейском сообществе
Первое обстоятельство было вызвано тем, что проблема перевода стала в Европе барьером на пути ввода в действие единого патента Евросоюза. В качестве официальных рабочих языков в Европейской патентной организации приняты только английский, французский и немецкий, что ставит в неравные условия прочие страны-члены, не являющиеся носителями этих языков. А перевод патентной документации на все европейские языки делает процедуру получения патента Евросоюза чрезмерно дорогостоящей. В этой связи и появились предположения, что использование тех или иных форм автоматизации перевода в какой-то степени облегчит решение языковой проблемы. Вопросы организации языкового перевода предполагается ввести в качестве составной части в Положение о патенте Евросоюза, которое будет разработано на основе предложений Европейской комиссии. Оно вступит в силу одновременно со специальным разделом об организации перевода. Принятие последнего потребует единогласия всех членов Совета Евросоюза (2).
Однако и по прошествии десятилетий машинный перевод рассматривается в данном случае, чаще всего, с позиций его применения при поиске патентных документов на различных языках. Из поступающих публикаций следует, что целью Европейского патентного ведомства (ЕПВ) является не получение качественного перевода, а использование возможностей автоматизации переводческого процесса для раскрытия технического содержания патентного документа, достаточного для его понимания специалистам из соответствующей предметной области. Для этого в ЕПВ составляются двуязычные словари для перевода текстов с прочих европейских языков на английский. По состоянию на октябрь 2008 года уже имелись словари для перевода патентных документов с немецкого, французского, итальянского и испанского языков. На подходе словари со шведского и португальского языков. С соответствующими патентными ведомствами заключены соглашения о создании в ближайшем будущем словарей с греческого, румынского и голландского языков.
Для адаптации словарей к переводу патентных текстов при их составлении используется лексика Международной патентной классификации (МПК). В случае отсутствия точного эквивалента система машинного перевода выбирает термин, вышестоящий в классификационной иерархии соответствующей тематической рубрики. Выбор английского эквивалента для иноязычного термина также зависит от частоты его встречаемости в документах, отнесенных к той или иной рубрике МПК (3).
Машинный перевод с иероглифических языков
Второе, еще более критическое, обстоятельство, возродившее интерес к машинному переводу, вызвано тем, что все большая часть патентных документов в последние годы стала публиковаться в странах Азии. Продолжающийся быстрый рост количества национальных заявок Китая, а также Японии и Кореи, вызвал озабоченность патентных ведомств Европы, США и ряда других стран, поскольку их пользователи не подготовлены должным образом к работе с документацией на иероглифических языках. В результате, проблема преодоления языковых барьеров специалистами из всех других частей мира приобрела глобальные масштабы.
Машинный перевод в Японии. Первой с обеспечением общедоступности своей патентной документации для прочих стран мира столкнулась Япония, долгое время лидировавшая по количеству ежегодно публикуемых ею патентных заявок. До последнего времени при поиске японских патентов специалисты из других стран могли пользоваться только массивом англоязычных рефератов PAJ (Патентные рефераты Японии), которые Патентное ведомство Японии издает с 1976 года и распространяет через онлайновую службу IPDL независимого от ведомства центра INPIT. К недостаткам этого массива относят: трехмесячный временной лаг между датами публикации поступающих в ведомство патентных заявок и их англоязычных рефератов PAJ, недостаток поисковых реквизитов и сведений о правовом статусе патентных документов и наличие только одной иллюстрации изобретения. Поэтому в распоряжение пользователей в 2008 году представлена новая поисковая система JP-NETe DB, призванная пополнить PAJ недостающими сведениями.
Система JP-NETe DB включает базы данных двух типов: англоязычные рефераты PAJ и полученные с помощью машинного перевода англоязычные рефераты за последние три месяца, которые уходят на публикацию рефератов PAJ. Информация второго типа включает библиографические данные, англоязычный реферат, все иллюстрации, полные сведения о правовом статусе и сведения о цитировании документов за период с 1989 года по настоящее время. Запаздывание опубликования этой информации не превышает одной недели, благодаря чему она опережает рефераты PAJ на 12 недель.
Новая система предлагает две схемы поиска. Упрощенная схема обеспечивает формулировку простых запросов с использованием 26 поисковых терминов, а в «продвинутой» схеме представлено 32 термина. Кроме того, при формулировке поискового запроса можно использовать именные указатели заявителей и изобретателей, список ссылок и др.
Пользователь может получить результаты поиска в трех форматах:
- англоязычный реферат с одной иллюстрацией;
- англоязычный реферат со всеми иллюстрациями (с выводом на экран до 4 иллюстраций одновременно);
- три англоязычных реферата с тремя иллюстрациями.
Первый и второй форматы могут сопровождаться полным перечнем патентных ссылок.
Сведения о правовом статусе подразделяются на четыре части:
- состояние и даты рассмотрения патентной заявки;
- состояние и даты апелляционных процедур;
- регистрационные данные относительно выдачи охранного документа;
- данные о национальной патентной классификации (FI и F-Terms).
Система JP-NETe DB располагает также интересной возможностью переходов между цитируемыми, цитирующими, связанными и справочными патентами, которые способствуют оценке известного уровня техники в ходе патентной экспертизы. Работа над поисковой системой JP-NETe DB продолжается, что позволит в дальнейшем повысить ее эксплуатационные возможности (4).
Машинный перевод в Китае.
В 2007 году в Патентное ведомство Китая поступило 694.153 патентные заявки, что на 21% больше чем в предыдущем году. Это вывело Китай на третье место в мире по данному показателю. Однако сложность китайского языка воздвигает серьезные барьеры на пути иноязычных пользователей, желающих получить доступ к патентной документации Китая. Откликаясь на эту озабоченность и учитывая всемирный интерес к китайской патентной документации, Патентное ведомство Китая, вместе с Китайским центром патентной информации, разработало и ввело в действие 25 апреля 2008 года бесплатную систему, которая обеспечивает поиск на английском языке библиографических данных и рефератов патентных документов Китая, опубликованных на национальном языке. Не решая проблемы машинного перевода, как таковой, эта система позволяет пользователям решить вопрос о целесообразности полного ручного перевода документов, отобранных с ее помощью. Одновременно введена в действие аналогичная система для работы с документацией о промышленных образцах. В системе используется методика распознавания формы и цвета изобразительных элементов. В базе данных системы хранится более 4 млн изображений промышленных образцов.
Недостатки используемых в этих системах некоторых процедур машинного перевода усугубляются иероглифической спецификой китайского языка, которому присуща относительно слабо регламентированная грамматика и сильная зависимость значения слов от конкретного контекста. Все это ставит дополнительные проблемы перед разработчиками компьютерных программ (5). Ввиду множества языковых особенностей высококачественный, полностью автоматизированный перевод с китайского языка остается нереализуемым мифом. Однако Патентное ведомство Китая теперь в состоянии ставить и решать практические задачи адаптации системы машинного перевода к патентным реалиям и его увязки с ранее созданными средствами поиска китайских патентов на английском языке.
Таким образом, в патентно-информационной деятельности сложилась тенденция использования машинного перевода при осуществлении поисковых процедур в многоязычных массивах. При этом осуществляют либо перевод запроса на язык документального массива, либо перевода документов на язык запроса. Китайская служба машинного перевода избегает двусмысленности переводимых запросов и необходимости в предварительном переводе огромных документальных массивов посредством активного повторного использования ресурсов, состоящих из ранее осуществленных вручную англоязычных переводов патентных документов, например, предложений из китайских и английских членов данного патентного семейства.
В течение двух последних десятилетий в Китае накоплены онлайновые патентные базы данных, содержащие англоязычные рефераты и библиографические данные о китайских патентах. Они становятся все более популярными среди иноязычных пользователей, помогая им формулировать свои поисковые запросы. Именно по результатам поиска в этих базах данных возникает потребность в машинном переводе полных текстов китайских патентных документов.
В китайской системе машинного перевода используются семантические средства алгоритмического подхода в виде так называемой «иерархической сети понятий». С ее помощью предложения классифицируются на 57 категорий, что повышает вероятность правильного перевода предложений с различной структурой и разными значениями слов. В системе также используется грамматический анализ специфического патентного текста, механизмы выявление синтаксических ошибок и процедура ручного постредактирования, позволяющая специалистам обновлять используемую терминологию. Разработчики системы утверждают, что в результате обеспечивается скорость перевода не менее 8000 китайских иероглифов в минуту и 85-процентная правильность перевода технических терминов, что позволит иноязычным пользователям устанавливать релевантность информации, содержащейся в китайских патентных документах, и производить среди них недорогостоящий отбор текстовых фрагментов, которые заслуживают более качественного ручного перевода (6).
Заказ машинного перевода можно проводить через ЕПВ. Изготовленный перевод автоматически включается в базы данных ЕПВ для последующего использования. При этом следует иметь в виду, что машинный перевод – даже сопровождаемый постредактированием – не имеет юридической силы и не цитируется экспертом в отчете о поиске. Цитируются только оригиналы документов на китайском языке, а их переводы могут быть помещены в приложение к отчету для сведения. Юридическую силу имеют только переводы из соответствующих патентных ведомств, например, представленные на их сайтах как отдельные документы со специальным кодом публикации. Ручной перевод юридической силой обладает (7).
Машинный перевод в Корее.
Большая работа по преодолению языковых барьеров проводится Патентным ведомством Кореи совместно с Корейским институтом патентной информации (KIPI), который производит и распространяет корейскую патентную информацию, выпускает корейские патентные рефераты (KPA), осуществляет управление онлайновой службой патентно-информационного поиска (KIPRIS), обеспечивая бесплатный доступ к базам данных Патентного ведомства Кореи.
В прошлом издание KPA было единственным англоязычным источником корейской патентной информации. В 2005 году к нему добавились англоязычные поисковые интерфейсы к корейским официальным бюллетеням по патентам / полезным моделям и по товарным знакам / промышленным образцам. В 2007 году появилась система корейско-английского автоматического перевода полных текстов описаний изобретений и полезных моделей (K2E-PAT), а также корейских заявок РСТ в день их опубликования в Патентном ведомстве Кореи. Кроме того, была внедрена технология поиска корейских патентов по английским ключевым словам.
В системе K2E-PAT применен метод машинного перевода, основанный на использовании обширного массива образцов ранее выполненных переводов, включающих как отдельные слова, так и целые предложения. Благодаря наличию образцов обеспечивается постепенное повышение точности машинного перевода. Для ускорения переводческого процесса к системе K2E-PAT подсоединена «переводческая память», в которой накапливаются ранее переведенные предложения для последующего использования в машинном переводе. Она особенно полезна при переводе патентных документов, для которых характерны многократно повторяющиеся словесные обороты.
Сильной стороной K2E-PAT является корейско-английский словарь, обладающий широким тематическим охватом и адаптированный к патентным текстам. Он содержит более 3 млн регулярно пополняемых слов и предложений. Для повышения качества перевода терминология словаря сопровождается словесными толкованиями соответствующих рубрик МПК.
С помощью англо-корейского словаря в оригинальные корейские тексты включаются термины на английском языке, облегчающие полнотекстовой поиск по ключевым словам. Эти термины, а также англоязычные заглавия, имена заявителей и поверенных, сохраняются для последующего использования при формулировке поисковых запросов. В системе K2E-PAT также накоплены переводы полных текстов корейских патентов с 1979 года. Дальнейшее совершенствование системы обеспечивается за счет постоянного повышения качества словарей, семантического усиления поисковых запросов и стандартизации иностранных имен (8).
Заказ перевода через поисковую систему KIPRIS осуществляется одним из трех способов:
- после нахождения документа в базе данных “Patent Search”;
- после нахождения реферата в базе данных KPA;
- через отдельный интерфейс K2E-PAT.
Бесплатный поиск с использованием интерфейса K2E-PAT обеспечивает выдачу на английском языке заглавий документов, фамилий/наименований изобретателей, заявителей и поверенных. Перевод полного текста документа – платный. Перевод текста и его оригинал могут выдаваться параллельно. Это облегчает обнаружение наиболее важных фрагментов документа для их последующего перевода вручную.
По широкому признанию, предпринимаемые в Корее меры обеспечивают читабельность и практическую полезность продукции K2E-PAT для патентных экспертов и информационных работников в стране и за рубежом. И, тем не менее, во избежание ошибок, допускаемых при машинном переводе с корейского языка на английский рекомендуется совместное использование системы машинного перевода K2E-PAT и услуг по ручному переводу тех же текстов. Заказ машинного перевода можно проводить через ЕПВ. В 2010 году здесь должна открыться служба ручного перевода с корейского языка. Дополнительная информация о службе – на сайте www.epo.org/patents/patent-information/east-asian/translation/K2E-PAT.html (9).
Проведенный обзор современного состояния машинного перевода в системе патентной информации позволяет сделать вывод, что – ввиду множества нерешенных семантических проблем – высококачественный, полностью автоматизированный перевод и по прошествии десятилетий остается нереализованной мечтой. Однако занимающиеся этой проблемой специалисты учатся ставить и решать практические задачи адаптации системы машинного перевода к патентным реалиям, рассматривать машинный перевод в более широком плане преодоления языковых барьеров при поиске и последующем изучении иноязычных патентных документов. Целью таких усилий становится не получение качественного перевода, а использование возможностей автоматизации переводческого процесса, чаще всего, для облегчения поиска патентных документов на различных языках и раскрытия технического содержания иноязычного патентного документа, достаточного для его понимания специалистам из соответствующей предметной области.
Для этого изыскиваются различные приемы, реализация которых стала возможной благодаря появлению новых информационных технологий:
- построение представительных двуязычных машинных словарей для перевода текстов (обычно, с прочих языков на английский), насчитывающих миллионы слов и словосочетаний;
- адаптация словарей к переводу патентных текстов посредством использования в них лексики МПК и сопровождения словарных статей словесными толкованиями соответствующих классификационных рубрик;
- обеспечение возможности автоматического выбора термина из вышестоящей классификационной рубрики (в случае отсутствия точного эквивалента), а также выбора английского эквивалента для иноязычного термина с учетом частоты его встречаемости в документах, отнесенных к той или иной классификационной рубрике;
- накопление и использование в процессе машинного перевода обширных массивов образцов переводов, ранее выполненных вручную и включающих как отдельные слова, так и целые предложения, например, предложения из разных описаний одного и того же изобретения, входящее в данное патентное семейство;
- классификация накопленных вариантов переводов по категориям, повышающим вероятность правильного перевода предложений с различной структурой и разными значениями слов и т.д.
Не решая проблемы качественного машинного перевода, как таковой, эти и подобные им методы облегчают не только поиск релевантных патентных документов на других языках, но и отбор тех иноязычных документов либо текстовых фрагментов, которые заслуживают более качественного ручного перевода. А сложнейшие семантические проблемы автоматизированной и высококачественной передачи содержания патентных документов средствами других языков видимо остаются на долю следующих поколений.
Литература
1. Кравец Л.Г., Василевский А.Л., Дубицкая А.М. Экспериментальная система автоматического перевода публикаций из американского патентного еженедельника Official Gazette // Научно-техническая информация, 1967. – сер. 2. – № 1.
2. EU Council agrees on next steps regarding the Community patent (EU patent). // Press release, 8.12.2009 – www.epo.org
3. How good are machine translations for patent searching? //Patent Information News -2008 -#4-www.epo.org.
4. Oda Sh. JP-NETe – An English-language search tool for Japanese unexamined patents//WPI-2009-v.31-#2-p.131-134
5. Barraclough E. China unveils free patent translation tool//MIP-2008-#180-p.20
6. Dan Wang. Chinese to English automatic patent machine translation at SIPO//WPI-2009-v31-#2-p.137-139
7. How do EPO examiners work with Chinese documentation?// Patent Information News 1 | 2010 March 2010 – www.epo.org
8. YooChan Choi. Korean to English automatic translation (K2E-PAT) and cross lingual retrieval on KIPRIS//WPI-2009-v.31-#2-p.135-136.
9. Lost in translation? Get the right type of Korean patent translation for your needs//Patent Information News 1 | 2010 March 2010 5 – www.epo.org
Вторник, 15th Декабрь, 2015
Методы поиска изображений промышленного дизайна (ПИС 2012 №2)
Л.Г.Кравец,Главный редактор журнала “Патентная информация сегодня”, к.ф.н., доцент
В Интернете появилось множество онлайновых библиотек типа ShutterStock® (http://www.shutterstock.com/), FotoSearch® (http://www.fotosearch.com) и прочих информационных массивов, содержащих миллионы различных изображений, которые могут быть использованы в промышленном дизайне. Это обострило необходимость совершенствования методов индексирования и поиска изобразительной информации. Среди ученых преобладают два подхода к поиску изображений: «концептуальный» и «содержательный». Первый из них основан на использовании при поиске текстовых элементов (например, заглавий или ключевых слов), а второй – зрительных элементов искомых изображений. Хотя в последнее время исследования концентрируются больше на втором подходе, основанные только на нем поисковые системы не удовлетворяют, в должной степени, нужд пользователей.
Использование текстового описания изобразительных элементов
Крупнейшие провайдеры информационно-поисковых услуг типа Google Images® (http://images.google.com) and Yahoo!® (http://images.search.yahoo.com/) пользуются текстовыми описаниями встречающихся в сети изображений (заглавиями, аннотациями и т.п.). Однако эти системы не подвергают текстовые описания семантическому анализу и поэтому не могут применяться для поиска концептуально сложных изображений. Большинство изображений сопровождается составленными вручную аннотациями. Однако в них встречается много неточностей, субъективизма и неправильного толкования многозначных слов. Устранению этих недостатков способствовала бы система, способная извлекать семантическое значение изображений посредством автоматизированного анализа текстов. Автоматизированная система, способная вскрывать посредством текстового анализа семантическое значение изображений, облегчила бы снижение неоднозначности ключевых слов. Для этого можно воспользоваться методом семантического индексирования и поиска изображений (SDNA), основанным на лексической онтологии.
Семантическое индексирование изображений.
Предлагается метод вскрытия «семантического ДНК» ( SDNA) с использованием онтологического словаря, основанного на онлайновой версии тезауруса Roget’s Thesaurus.В отличие от обычных словарей, толкующих значения слов, тезаурус группирует слова вокруг выражаемых ими идей. В методике используются 6 уровней онтологической иерархии (от класса слов до частей речи), которые представляют «ДНК последовательности» словесных значений. Одно из достоинств тезауруса – способность идентификации значений слов в разных контекстах. Поэтому слово располагается в иерархической структуре в зависимости от его контекстуальной идеи. Семантическое индексирование изображений начинается с выделения лексем (отдельных слов во всей системе их значений и форм) из аннотаций изображений, представленных пользователями и отбора «семантической ДНК» для определения места каждой лексемы в иерархической структуре тезауруса. Каждая выделенная в тексте лексема подвергается процессу устранения неоднозначности ее смысла посредством определения ее контекстуального значения. Затем проводится оценка сходства ее «семантической ДНК» со всеми вариантами, содержащимися в таблице контекстуальных значений, для отбора наиболее релевантного. После этого определяется весомость «семантической ДНК» в данном изображении.
Семантический поиск.
Процедура поиска разбивается на две стадии. Прежде всего, поисковый запрос подвергается рассмотренному выше семантическому индексированию изображения с припиской каждой лексеме соответствующей «семантической ДНК». Затем производится сопоставление ДНК, состоящее из двух процессов: сопоставления ДНК запроса с ДНК таблицы индексирования для установления весомости их взаимосвязи, а затем – ранжирования изображений, полученных на предыдущей стадии. Далее определяется степень взаимосвязи ДНК конкретной лексемы путем вычисления среднего значения весомости ее ДНК в рассматриваемом изображении. Изображение с высоким показателем весомости считается релевантным поисковому запросу. Эксперименты показали, что – в условиях формирования огромных онлайновых массивов различных изображений – рассмотренный метод семантического индексирования может облегчить проводимый дизайнерами поиск изображений, которые содержат семантические элементы, соответствующие концепции или тематике разрабатываемого ими промышленного дизайна (1).
Информационный поиск зрительных элементов промышленного дизайна
Последние исследования в области моделирования, оцифровки и визуализации 3-мерных объектов повлекли за собой формирование в Интернете различных информационных массивов, начиная с собрания древних скульптур и кончая реестрами промышленных образцов. За этим последовали разработки систем поиска 3-мерных моделей промышленного дизайна.
Особенности поиска трехмерных моделей. По сравнению с текстовым поиском нахождение 3-мерных моделей значительно сложнее. Их поиск с использованием текстовых аннотации во многих случаях не приводит к положительным результатам. Аннотации могут быть субъективными, чрезмерно лаконичными или двусмысленными. В отличие от них методы содержательного поиска 3-мерных моделей на основе анализа конкретных элементов их формы обеспечивают значительно более высокие результаты. Сопоставление формы представляет собой процесс определения сходства элементов двух форм, которое зачастую представляет собой компьютеризированное измерение «расстояния» между ними, дополняемое процессом их индексирования. Существует обширная литература, посвященная компьютерному дизайну, опознанию объектов, геометрическому моделированию, технологии поиска 3-мерных моделей и сопоставления элементов их формы. На концептуальном уровне типичная система поиска 3-мерных форм включает заранее проиндексированную базу данных и программу онлайнового формирования запросов. Каждая 3-мерная модель идентифицируется посредством дескрипторов элементов ее формы. Для эффективного онлайнового поиска в обширном массиве требуется развитая структура индексирования и поисковый алгоритм. Программа онлайнового формирования запросов отбирает нужные дескрипторы и осуществляет поиск сходных моделей в проиндексированной базе данных. Поисковый запрос может быть сформирован по результатам предыдущего поиска; прямого отбора нужного дескриптора; использования имеющейся 3-мерной модели. Оценку методов поиска 3-мерных моделей можно проводить с использованием следующих характеристик: 1) требований представления формы, воспринимаемой данной поисковой системой; 2) реквизитов измерения различия для установления «дистанции» между парами дескрипторов, 3) эффективности поиска, обеспечиваемой автоматизированным индексированием формы модели, 4) различительной способностью дескриптора ухватывать особенности формы; 5) способностью частичного сопоставления не формы в целом, а отдельных ее элементов; 6) надежностью, проявляющейся в невосприятии информационного шума и второстепенных характеристик формы; 7) необходимости осуществления нормализации, поскольку 3-мерные модели изначально имеют произвольную форму, ориентацию и позицию в 3-мерном пространстве.
Методы сопоставления форм.
Основываясь на возможностях дескриптивного представления формы можно подразделить методы ее сопоставления на три взаимосвязанные категории: на те, что основаны на сопоставлении признаков, графов или геометрии. При наличии того и другого во внимание принимается наиболее характерный аспект репрезентации формы. Признаки, в данном контексте, включают геометрические и топологические свойства трехмерных форм, по которым и допускается их разграничение. Для обозначения признаков применяются дескрипторы формы, обозначающие позицию признака в более обширном пространстве. Две формы считаются сходными, если они располагаются в этом пространстве неподалеку. Методы, основанные на сопоставлении признаков, делятся на группы в зависимости от типа используемых признаков. Если методы, основанные на сопоставлении признаков, принимают во внимание исключительно геометрию формы, то методы, основанные на сопоставлении графов, предназначены для вычленения геометрического значения 3-мерной формы с применением графов, указывающих на взаимосвязь различных компонентов формы. Эти методы подразделяются на группы в зависимости от вида используемых графов. Метод, основанный на геометрическом сопоставлении, исходит из необходимости сопоставления сходства форм под различными углами зрения. Несходство двух 3-мерных форм определяется сопоставлением различия ее 2-мерных силуэтов, получаемых под 10 углами зрения. Возможно также использование объемных характеристик и весовых коэффициентов точек измерения 3-мерной формы (2)
Нетрудно заметить, что предлагаемые в методике алгоритмы сопоставления форм не обеспечивают одинаковых результатов в случае применения их к разным типам объектов. Поэтому, здравый смысл подсказывает неизбежность комплексного использования при информационном поиске изображений промышленного дизайна обоих рассмотренных выше подходов.
Литература
1. FADZLI S. A., SETCHI R. A SEMANTIC APPROACH TO TEXT-BASED IMAGE RETRIEVAL USING ALEXICAL ONTOLOGY – www.cardiff.academia.edu/…/A_Semantic_Appro.
2. Veltkamp R.C. et al. Content Based 3D Shape Retrieval – 3D shape retrieval aspects, Shape matching methods, Comparison-www.encyclopedia.jrank.org/…/Content-Based-3…
Вторник, 15th Декабрь, 2015
Расширение сферы использования машинного перевода (Патентная информация сегодня, 2013 – №4)
Л.Г.Кравец , Главный редактор журнала “Патентная информация сегодня”, к.ф.н., доцент
Использование машинного перевода при поиске информации в многоязычном массиве. Патентные документы по определенной тематике могут публиковаться в разных странах и на различных языках. Между тем, эксперту патентного ведомства требуется обнаруживать релевантные патенты независимо от того, на каком языке они опубликованы. В результате возникает важная поисковая задача в случаях, когда патентная заявка поступает на одном языке, а документы, определяющие известный уровень техники, опубликованы на других языках.Для преодоления возникающих при этом языковых барьеров в последнее время стали все более широко использовать возросшие возможности машинного перевода (МП). Причем допустимо двоякое применение МП – для перевода на используемый экспертом язык всех входящих в поисковый массив документов или для перевода поискового запроса эксперта на языки всех входящих в поисковый массив документов с целью последующего поиска релевантных документов на языках оригиналов.
Перевод поискового запроса. При осуществлении патентного поиска зачастую используется весьма пространный запрос, формулировка которого требует обращения ко всему тексту патентной заявки. На перевод таких запросов на разные языки может уйти много времени. Поэтому был предложен метод предварительной обработки текста запроса на проведение поиска для определения известного уровня техники, поскольку он ориентирован на выявление всех релевантных документов, способных опорочить новизну подаваемой заявки. При использовании этого метода полный текст патентной заявки воспринимался как поисковый запрос, а цитируемые в ней документы – как релевантные документы, подлежащие автоматизированной идентификации.
Предварительная обработка текста заявки включала стандартные процедуры, применяющиеся в большинстве информационно-поисковых систем: нормализация лексики, усечение словоформ и изъятие общеупотребительных слов. Предполагается, таким путем может быть обеспечена ускоренная настройка системы МП, поскольку изъятие общеупотребительных слов с последующей нормализацией неповторяющихся усеченных словоформ резко сократит используемый в МП словарный запас. Подвергнутый такой обработке запрос затем подлежит машинному переводу и используется в дальнейшем поиске на языках оригиналов. В эксперименте использовались две системы так называемого «статистического» МП: Googletranslate и MaTrEx MT system2. Эксперимент показал, что с помощью предложенного метода время МП сокращается до 23 раз без заметного влияния на качество перевода (1).
Адаптация машинного перевода к потребностям патентного поиска.При оценке патентоспособности заявленного технического решения или установлении факта нарушения патентных прав проводящему информационный поиск специалисту приходится обращаться к поисковому массиву, около 30% которого составляют иноязычные документы. При этом подборка потенциально релевантных патентов, необходимая для обеспечения приемлемой полноты поиска, насчитывает около 50000 патентов. Найденные документы подвергаются оценке с привлечением юристов, работающих во взаимодействии с соответствующими техническими специалистами. Потребность в переводе патентов будет возрастать, особенно под воздействием увеличения количества патентов азиатских стран. Доля патентных заявок из Китая, Японии и Кореи уже превысила 50% мирового потока патентных заявок. Учитывая дороговизну профессионального перевода и ряд других факторов, патентные работники стали обращаться к появляющимся во все большем количестве системам машинного перевода (МП) чтобы ухватить хотя бы суть документа и определить целесообразность его «ручного» перевода. Возможности осуществления МП зависят от того, с использованием каких средств он проводится. Многие из них так или иначе cвязаны cGoogleTranslate(EPOEspacenet, WIPO, Patentscope, QuestelOrbit), другие создали собственные системы (ThomsonInnovation, PatBase, JapanesePatentOffice, KoreanPatentOffice) или пользуются услугами других. Принципиальной особенностью многих систем МП (включая используемую в ЕПВ систему GoogleTranslate) является то, что они обычно предназначены для работы с любыми текстами. Хотя исследования убедительно показали, что системы, предназначенные для применения в конкретной сфере (например, патентной) превосходят по своим показателям системы общего назначения. Другая проблема состоит в том, что разные поисковые инструменты отличаются способами предоставления возможностей перевода, обеспечиваемых системами МП, в которые они интегрированы. Наконец, к патентному работнику, осуществляющему поиск, поступают нуждающиеся в переводе документы, которые обнаружены иными поисковыми системами и различаются своими форматами. Предлагаемая система IPTranslator ориентирована на перевод патентов с английского языка на французский, немецкий, испанский, португальский, китайский, японский и обратно. Она призвана справиться с перечисленными выше проблемами, учитывая и специфические особенности патентных текстов: использование многословных предложений с обилием номинативных фраз и сложной синтаксической структурой. Длинные предложения делятся на более удобные для перевода отрезки. Химические формулы и рисунки изымаются из переводимого текста для их изолированной обработки. Общая патентная сфера подразделяется на тематические сегменты. Для конкретных языков предусмотрены специфические процедуры типа сегментации китайского текста, разбивки сложных слов немецкого языкаи др. Качество МП оценивалось автоматически и «вручную», а также посредством сопоставления параметров разных систем МП.
Отобранным специалистам было предложено сопоставить качество IPTranslator, GoogleTranslate и Systran. В большинстве случаев предпочтение было отдано IPTranslator. В эксперименте было имитировано задание: провести поиск для оценки охраноспособности заявленного изобретения посредством сопоставления их с найденными французскими патентами, переведенными машиной на английский язык. При этом 50% отобранных французских патентов были заведомо релевантными проверяемому изобретению, а другие 50% – нерелевантными. Результаты эксперимента были признаны позитивными, поскольку 67% заключений экспертов оказались верными (2). Для повышения качества МП могут приниматься дополнительные меры. В частности проводящий перевод специалист самостоятельно корректировать или придумывать свои варианты вместо неверных и непереведенных терминов. Для облегчения ориентации в обширных патентных документах возможно выделение цветом нужных фрагментов текста или фраз в оригинале и переводе.
Литература
- Magdy W., Jones G. J. F. An Efficient Method for Using Machine Translation Technologies in Cross-Language Patent Search –www. doras.dcu.ie›…Using_Machine_Translation…in…Patent…
2Tinsley J. et al. IPTranslator: Facilitating Patent Search with Machine Translation – www.amta2012.amtaweb.org›AMTA2012Files/papers/…
Понедельник, 14th Декабрь, 2015
Полувековое развитие машинного перевода патентов//Патентная информация сегодня”, 2013, №3
Л.Г.Кравец, Главный редактор журнала “Патентная информация сегодня”, к.ф.н., доцент
В 50-60-х годах прошлого века проведение серьезных лингвистических исследований и появление все более эффективных компьютеров стимулировало многочисленные попытки создания экспериментальных систем машинного перевода (МП). В них, как правило, использовались бинарные алгоритмы, призванные обеспечить МП между теми или иными парами естественных языков. Обострившаяся в те годы конфронтация двух социальных систем привела к тому, что осуществлявшиеся тогда проекты МП были преимущественно направлены на осуществление МП с английского языка на русский и наоборот (1,2).
Создатели первых систем МП ставили перед собой задачу обеспечить перевод, основанный на лингвистических правилах. Такой перевод строился на основе описания двух участвующих в переводе естественных языков. Для этого создавались двуязычные словари и другие базы данных, содержащие морфологическую, грамматическую и семантическую информацию, а также собственно алгоритм перевода, оперировавший этими данными. Качество перевода зависело от глубины описания естественных языков и объемов лингвистических баз данных, что предполагало как проведение все более глубокого исследования языков, так и применение все более совершенной вычислительной техники.
Характеристика первой системы МП патентов
В 1963 г. в Центральном научно-исследовательском институте патентной информации (ЦНИИПИ) была предпринята первая в мире попытка создания специализированной системы, непосредственно направленной на МП патентных документов. Для эксперимента были избраны публикации из официального бюллетеня США “Official Gagette”, представленные первыми пунктами патентных формул. Из-за ограниченных возможностей использовавшейся тогда вычислительной техники тематика переводимых текстов была ограничена двигателями внутреннего сгорания.
Анализ публикаций в “Official Gagette” показал, что подавляющее число понятий, использовавшихся в патентных формулах для описания основных идей изобретений, выражалось с применением двух- и многокомпонентных номинативных словосочетаний с препозитивными определениями. Ведущая роль различных номинативных групп в патентных формулах повлияла на выбор фундаментального принципа построения специального алгоритма МП патентов. Он был назван алгоритмом сегментного анализа. Это название отражает основную идею алгоритма, который обеспечивал деление текста патентной формулы на сегменты, определял их структуру, подбирал эквивалентные структуры в русском языке и вырабатывал информацию о грамматических формах русских слов для синтезирования текста перевода.
Оказалось также, что публикуемый в “Official Gazette” первый пункт патентной формулы представлен, как правило, трудным для восприятия, целостным предложением, насчитывающим до нескольких сотен слов. Поэтому и в данном случае был использован формализованный метод разбивки непрерывного текста на сегменты и придания им формы отдельных предложений.
Для обеспечения качественной автоматизированной переработки многокомпонентных словосочетаний, без которой невозможно правильное определение их лексического значения, было решено использовать в системе МП ЦНИИПИ вероятностный анализ структуры словосочетаний. Он был основан на статистических данных, которые подтвердили достаточно регулярную возможность правильной идентификации того или иного типа структурных и семантических отношений между компонентами словосочетания. Приемлемость вероятностного определения структурных моделей номинативных групп была проверена на выборке около 25000 двух- и многокомпонентных словосочетаний. В итоги труднообозримое многообразие номинативных групп было сведено к конечному набору моделей, отображающих их структуру и состав (3).
Для автоматизированного анализа номинативных групп требовалось, прежде всего, идентифицировать их в переводимом тексте. Обычно в роли левой границы группы выступал артикль или иное слово, выполняющее роль детерминатива. Правая граница определялась базовым существительным номинативной группы. В число препозитивных элементов выступали определяющие слова – прилагательные, причастия, местоимения, порядковые номера (M), существительные (N), наречия (D) и количественные числительные (Nu).
Все выявленные номинативные группы объединялись в конечное число структурных моделей. Структурная модель является категорией, представляющей, прежде всего, два связанных понятия. Во-первых, это дистрибутивная модель – последовательность перечисленных выше индексов классов/подклассов слов, которые включают компоненты номинативных групп; а во-вторых - конструктивная модель- тип синтаксических связей между компонентами группы. Позднее к ним добавилась семантическая модель, представляющая тип обобщенных семантических отношений между компонентами словосочетания (4).
Двухкомпонентные словосочетания имели одну из трех дистрибутивных моделей: MN, NuN и NN. Анализ многокомпонентных словосочетаний оказался значительно более сложным из-за возрастания числа возможных дистрибутивных моделей. Оно приводило к увеличению разнообразия синтаксических отношений между компонентами словосочетания. Например, дистрибутивной модели MNN могли соответствовать конструктивные модели ((xy)z) – internal combustion engine или (x (yz)) – additional fuel pump.
Система МП включала лингвистическую часть и программу ее осуществления на компьютере. Алгоритм состоял из двух больших блоков. Они последовательно осуществляли поиск переводимых слов и словосочетаний в автоматическом словаре, приписывание им грамматической информации, анализ идиом, устранение грамматической омонимии, сегментацию текста, деление длинных предложений на фразы, нахождение предшественников местоименных слов, выработку падежной информации, анализ предикативных элементов и номинативных словосочетаний и синтез русского текста (5).
В качестве альтернативы МП в ЦНИИПИ была тогда же разработана экспериментальная система автоматического индексирования патентных документов на базе вышеперечисленных компонентов МП и англо-русского тезауруса. Она обеспечивала перевод на русский язык не всего текста документа, а только его поискового образа. То есть облегчался не собственно перевод иноязычных документов, а процедура их поиска (6).
Разработка экспериментальной системы МП ЦНИИПИ была в основном завершена в 1966 гг. Многочисленные испытания системы на ЭВМ подтвердили ее работоспособность и возможность гарантировать качество перевода патентных формул в заданных параметрах, существенно превышавших пословный перевод. Система получила тогда высокую оценку в Ежегодном докладе Главного ученого секретаря Президиума Академии наук СССР в числе одного из наиболее важных достижений в области кибернетики в 1966 году [7].
В последующие годы интерес к МП существенно угас из-за отсутствия объективных условий его широкомасштабной практической реализации. Эксперименты выявили множество сложных лингвистических проблем, все еще ожидавших своего решения. Достигнутые к тому времени результаты исследований и существовавшие информационные технологии были пригодны для освоения только таких автоматизированных систем, которые не предполагали сложного лексико-грамматического анализа документов и переработки больших информационных массивов.
Факторы активизации разработки МП
Возрождение интереса к МП состоялось на рубеже 20-21 веков. Этому, помимо небывалого развития информационных технологий, способствовали два главных фактора.
Во-первых, произошел резкий рост потока патентной документации из стран Азии, прежде всего, из Китая, Японии и Кореи, который резко обострил проблему преодоления языковых барьеров. К началу 2012 г. Патентное ведомство Китая обогнало Патентное ведомство США и стало крупнейшим патентным ведомством в мире. В 2011 г. Китай получил 526 412 патентных заявок, по сравнению с 503 582 заявками, полученными США, и 342 610 заявками, полученными Японией. Несмотря на осторожность, которую необходимо проявлять при прямом сравнении цифр, относящихся к подаче заявок на объекты ИС в разных странах, эти тенденции наглядно отражают изменение географии инновационной деятельности (8). Китайские патенты теперь составляют около 20% всех опубликованных за год патентов на изобретения. А с 1 июля 2012 г. они вошли в обязательный минимум патентных документов согласно процедуре РСТ. Патентная документация Кореи присутствует там с 2007 года, не говоря уже о Японии (8).
Во-вторых, завершалось построение единой патентной системы в многоязычном Европейском Союзе. Действующая система, связанная с обязательным переводом европейских заявок на многочисленные языки членов Европейской патентной организации, существенно осложняла и удорожала получение европейского патента. Поэтому на начало 2013 г. намечено формальное утверждение Советом ЕС «унитарного патента» и подписание решения об учреждении Единого патентного суда, которое вступит в силу после его ратификации 13 членами ЕС, включая Францию, Германию и Великобританию. Ожидается, что Европейское патентное ведомство (ЕПВ) выдаст первый унитарный патент в 2014 году (9).
Предполагается, что повышению эффективности обновленной патентной системы Европы в немалой степени будет способствовать расширение использования МП. Сегодня предпочтение отдается системе Patent Translate, которая является результатом сотрудничества ЕПВ и компании Google. В соответствии с соглашением ЕПВ будет использовать технологию МП Google. для перевода патентов на языки 38 обслуживаемых ЕПВ стран. Взамен ЕПВ предоставит доступ к своим многомиллионным массивам патентов, ранее переведенных вручную, что позволит Google оптимизировать свою технологию МП.
Современные методы машинного перевода
Система Patent Translate использует технологию так называемого «статистического машинного перевода», предложенную в 2003 г. Ф. Й. Охом (10). Статистический МП основан на сопоставлении параллельных текстов больших объемов и вычисления наиболее вероятного перевода. Предложения исходного документа последовательно сопоставляются с миллионами ранее переведенных патентных документов. Сообщается, что статистический МП обладает свойством «самообучения», и качество перевода при этом подходе напрямую зависит от объемов используемых для обучения параллельных данных. Системе Patent Translate не требуются грамматические правила и словари. Их заменяют массивы ранее переведенных вручную патентных документов, к которым прилагаются статистические модели их обработки.
В 2007 году появилась система корейско-английского МП полных текстов описаний изобретений и полезных моделей (K2E-PAT). В системе K2E-PAT также применен метод МП, основанный на использовании обширного массива образцов ранее выполненных переводов, включающих как отдельные слова, так и целые предложения. Благодаря наличию образцов обеспечивается постепенное повышение точности машинного перевода.
Сильной стороной K2E-PAT является корейско-английский словарь, обладающий широким тематическим охватом и адаптированный к патентным текстам. Он содержит более 3 млн регулярно пополняемых слов и предложений. Для повышения качества перевода терминология словаря сопровождается словесными толкованиями соответствующих рубрик МПК.
Для ускорения переводческого процесса к системе K2E-PAT подсоединена «переводная память», в которой накапливаются ранее переведенные предложения для последующего использования в машинном переводе. Она особенно полезна при переводе патентных документов, для которых характерны многократно повторяющиеся словесные обороты (11).
Статистический МП, бесспорно, знаменует собой важный шаг в автоматизации перевода патентов. Однако, несмотря на то, что использующие эту технологию системы подвергается постоянному «приспособлению » для работы с патентными текстами, обладающими специфичной лексикой и грамматикой, качество получаемого перевода все еще далеко от совершенства. Статистическое сопоставление текстов без учета их лексико-грамматических особенностей приводит к множеству ошибок. Особую сложность представляет работа системы с патентными формулами (2, 12).
Поэтому в последнее время наметилась тенденция использования гибридных технологий МП. В них, для улучшения качества перевода, статистический МП все более активно прибегает к использованию лингвистических данных. А системы с «классическим» подходом, основанным на лингвистических правилах, в свою очередь, ищут новые способы применения статистических методов в своей технологии.
Гибридная технология предполагает использование статистических методов для построения словарных баз автоматическим путем на основе параллельных текстовых корпусов и формирования нескольких возможных вариантов перевода, как на лексическом уровне, так и на уровне синтаксической структуры предложений выходного языка. Выбор лучшего (наиболее вероятного) варианта перевода осуществляется на основе языковой модели, построенной по корпусу языка, на который осуществляется перевод.
Такой подход позволяет
- сохранить преимущества технологии, основанной на лингвистических правилах (формирование синтаксически связанного и грамматически правильного текста, обеспечение однородности терминологии),
- получить преимущества статистического МП (быстрая обучаемость системы посредством получения данных из участвующих в переводе параллельных текстовых корпусов в автоматическом режиме).
В современных системах МП применяются программы, принцип работы которых основан на технологии Translation Memory. Имеется в виду использование двуязычных баз часто встречающихся предложений. В основе технологии лежит принцип «не переводить один и тот же текст дважды». Технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. В общем массиве текста система находит сегменты, которые уже были однажды переведены, и берет перевод из базы переводов Translation Memory (13).
Китайский патентно-информационный центр ввел в 2008 г. в опытную эксплуатацию систему китайско-английского машинного перевода с применением гибридного метода. Он включает использование
- автоматически или полуавтоматически составляемых двуязычных словарей, подвергаемых последующему ручному редактированию;
- алгоритмической обработки распространенных в патентах устойчивых словосочетаний;
- семантических средств алгоритмического подхода в виде так называемой «иерархической сети понятий»;
- текстовых ресурсов, состоящих из ранее осуществленных вручную переводов патентных документов, например, предложений из китайских и английских членов данного патентного семейства (14).
Сегодня, когда качество МП все еще не может конкурировать с традиционным переводом вручную, все большее внимание привлекает к себе использование МП при патентном поиске иноязычных патентов. Активно исследуется альтернативная возможность поиска азиатских патентов не в уже переведенных на английский язык массивах, а в базах данных на языке оригинала. В упоминавшейся выше системе корейско-английского МП полных текстов описаний изобретений и полезных моделей (K2E-PAT) применяется технология поиска корейских патентов по английским ключевым словам.
С помощью англо-корейского словаря в оригинальные корейские тексты включаются термины на английском языке, облегчающие полнотекстовой поиск по ключевым словам. Эти термины, а также англоязычные заглавия, имена заявителей и поверенных, сохраняются для последующего использования при формулировке поисковых запросов. Аналогичный подход используется в базе данных Patentscope (ВОИС)
Патентное ведомство Китая, совершенствуя вышеназванную систему китайско-английского перевода, также стремится ставить и решать практические задачи адаптации системы МП к патентным реалиям и интегрирования службы машинного перевода с ранее созданными средствами поиска китайских патентов на английском языке, включая перевод запроса на язык документального массива. При этом используется опыт эксплуатации корейской системы МП и базы данных Patentscope.
Заключение
Краткий обзор полувекового развития МП патентов показывает, что теория и практика МП за это время продвинулись далеко вперед, а используемые в нем – тогда и теперь – информационные технологии вообще не поддаются сравнению. Вместе с тем, нельзя не отметить, что главные тенденции развития МП зарождались еще в те далекие годы. Например, система МП ЦНИИПИ строилась, в основном, на лингвистических правилах. Но автоматизированный анализ структуры номинативных словосочетаний, играющих ведущую роль в патентных текстах, уже тогда включал вероятностные оценки, основанные на статистических данных. То есть в системе уже присутствовали элементы популярных сегодня гибридных технологий МП. А параллельно разрабатывавшаяся в ЦНИИПИ система автоматического индексирования патентов обеспечивала возможность замены недостаточно качественного перевода полных текстов иноязычных патентов процедурой их поиска. Все это подтверждает известную истину, что новое – это, зачастую, хорошо забытое старое.
Приложение
Пример перевода экспериментальной системой МП ЦНИИПИ первого пункта формулы патента США № 3.076.446 (5).
3,076,446 Patented Feb. 5, 1963 Rotary internal combustion engine
1. A rotary internal combustion engine comprising an annular stator having air inlet and exhaust gas opening means, an annular rotor disposed within that stator excentrically, a shaft secured to the rotor and supporting the same and extending axially thereof, stationary bearing means supporting that shaft for rotatation, saidrotor provided in its periphery with the plurality of circumferettially equidistantly spaced radial slots, radial vanes slidably mounted within that slots of the rotor and having tips slidably engageable whis the bore of said stator, said vanes defining between each pair therof and between the periphery of the rotorande the bore of the stator a plurality of circumferential chambers, alternate ones of said chembers alternate ones of comprssion shambers only and the other chambers adapted to serve as combustion chambers during the operation of the engine, said rotor provided in the periphery and in one side face
thereof adjacened each compression chamber with a second notch of lesser length radially than the first-named notch, a transfer tube secured to said stator and having opposite ends positioned for communication in sucsession with the first named and second notches during rotation of the rotor, whereby the compressed medium in each compression chamber is transfered through said tube to one of said chambers adapted to serve as a combustion chamber, fuel injection means mounted upon said stator to inlect fuel into each combustion chamber only, and ignition means carried by said stator near said fuel injection means to ignite the fuel in each combustion chamber.
Машинный перевод с помощью системы МП ЦНИИПИ
3076446 роторный двигатель внутреннего сгорания
1.роторный двигатель внутреннего сгорания включает в себя кольцевой статор имеющий воздух-впуск – и отверстие выпускного газа, кольцевой ротор расположенный внутри статора эксцентрически, вал прикрепленный к ротору и поддерживающий тот же и расположенный по оси.
имеется неподвижный подшипник поддерживающий вал – для вращения .
ротор снабжен в его наружной части с несколькими по окружности расположенными радиальными пазами.
имеется радиальные лопасти подвижно установленные внутри пазов ротора и имеющие конец подвижно входящий в зацепление с отверстием статора.
лопасти ограничивают между каждой парой и между наружной частью ротора и отверстия статора несколько circumferential камеры -.
имеется переменные одни камеры – является камер сжатия только и других камер приспособленных чтобы служить камерами сгорания во время действия двигателя.
ротор снабжен в его наружной части и в одной боковой поверхности рядом с каждой камерой сжатия с пазом.
ротор снабжен в его наружной части и в одной боковой поверхности рядом с каждой камерой чтобы служить камерой сгорания с вторым пазом длины lesser радиально чем первый паз.
имеется труба передачи прикрепленная к статору и имеющая противоположные концы расположенные для связи в последовательности с первыми и вторыми пазами во время вращения ротора чем сжатый medium в каждой камере сжатия передана через трубу к одной из камер приспособленных чтобы служить камерой сгорания.
имеется устройство впрыска топлива установленное на статоре для впрыска топлива в каждую камеру сгорания только.
имеется устройство зажигания поддерживаемое статором около устройства впрыска топлива для воспламенения топлива в каждой камере сгорания.
Литература
1. Hutchins J. Historical survey of machine translation in Eastern and Central Europe1 the conference on Crosslingual Language Technology in service of an integrated multilingual Europe, 4-5 May 2012, Hamburg, Germany – www. hutchinsweb.me.uk›Hamburg-2012.pdf
2. List J. Review of machine translation in patents. World Patent Information, 34 (2012) 193-195
3. Кравец Л.Г. Структурный анализ словосочетаний в английских научно-технических текстах//Научно-техническая информация, 1963, №10, с.39-41
4. Кравец Л.Г., Эмдина Ю.М. Автоматизированный анализ английских номинативных групп//Труды 3–й Всесоюзной конференции по информационно-поисковым системам и автоматизированной обработке научно-технической информации, т. 2, М.1967, с. 441-449.
5. Kravets L.G., Vasilevsky A.L. A system for automatic translation of publications from the patent weekly”Official Gazette”.// Information retrieval among patent offices. The 6th Annual meeting of the ICIREPAT, The Hague, October,1966, p.365-379.
6. Экспериментальная система англо-русского автоматического перевода патентных документов. Сборник. Авторы статей: Кравец Л.Г., Василевский А. Л., Дубицкая A.M, Эмдина Ю.М., Поволоцкая С.К., Гиршберг Ю.В., Шендеров В.З., Вишнякова С. М., Рывина E.M, Смиренский В.Б., Лерман С,Е., Эйдус И.Ю., Фишкина В.Л. / / Труды ЦНИИПИ, М., 1970, 132 с.
7. Важнейшие достижения в области естественных и общественных наук в 1966 г.//Доклад Главного ученого секретаря Президиума Академии наук СССР академика Я.В.Пейве – www.ras.ru/FStorage/download.aspx?Id=2ecec61c-2122-430d-9d2f..
8. Global IP Filings Continue to Grow, China Tops Global Patent Filings//Geneva, December 11, 2012PR/2012/726 – www.wipo.int
9. European Patent Office welcomes historic agreement on unitary patent, Munich, 11 December 2012 – www.epo.org
10. Och F.J. Statistical Machine Translation: Foundations and Recent Advances, The Tenth Machine Translation Summit, Phuket, Thailand, http://www.mt-archive.info/MTS-2005
11. YooChan Choi. Korean to English automatic translation (K2E-PAT) and cross lingual retrieval on KIPRIS//WPI-2009-v.31-#2-p.135-136.
12. Gomes L. Google Translate Tangles With Computer Learning., Forbes Magazine, 9/8/2010
13. Hybrid Machine Translation (HMT -www. promt.ru›company/technology/
14. Dan Wang. Chinese to English automatic patent machine translation at SIPO//WPI-2009-v31-#2-p.137-139
Понедельник, 14th Декабрь, 2015
The first steps in developing machine translation of patents//World Patent Information – 2013 , №3.
(Scanning with a lot of errors and typos)
Leonid G. Кгavets, candidate оf philologial sciепсе (applied and mathematicai linguistics), assistant professor at the patent iпfоrmatiоп chair,fоrmет head оf а number оf scientific departments at the CNllPl (VNПPI). now – editor-in-chief оf the ‘Patent Informatio Today” mаgaziпе. publislled by the INIC-Раtепt’.
1. Introduction |
ТЬе dramatical1y increased flow оf patent documentation coming recently from Asia – especial1y frоmJарзn, СЬinа and Korea – and building а single patent system in the multilingual European Union have concentrated the pateot world’s attention оп (Ье probIems оС overcoming language barriers with the use оС тасЬinе translation (МТ). Тоdзу, this attention is focused basicaIJy оп the Patent Tr.mslate System, which is the result оС coopCГdtion between the European Patent Office and Google. Under the agreement, the ЕРО will use Google’s шасЬinе translation technology to translate patents into the languages оС (Ье 38 countries tlшt it serves. ln retum, it will provide Google with access to its translated patcnts, enabling Google to optimize its mзcшпе translation teehnology.
Google Translate is based оп а method called statistical т.achiпe translation, developed Ьу F.J. ОсЬ who won the DARPA contest for speed тасЬinе translation in 2003 [1]. It takes а statistica1 approach, comparing the source docuшen! sentence Ьу sentence to millions of рзten! documents previously translated Ьу humans. These зrе used to train the translation engine (о handle technical subject-matter and the specific sty1e an.d format used Сог patent docurnents Тhc service is certainly useful for getting the gist оС а patent written in а foreign language and is helpful for companies attempting to get an infоnnа1 feel for (Ье competilive patent 1andscape. ТЬе Patent Translate, used а! thc ЕРО, is said (о Ье а machine translation service specificaIJy “trained” to handle etaborate раten! vocabulary and grammar. However, as with Google’s general translation too~ the results зrе said to ье still Сзr пот perfect |
A1though machines сan automate certain tasks very well, попе seems уе! to have fully mastered the subtle differences in sentence structure and the potential multiple uses оС а word to Ьауе diffeгent meanings in different contexts. Because GoogJe Translate uses statistical matching to translзte rзthег than а dictionary/grammar ruJes арргоасЬ, translated text сап sometimes include apparent1y nonsensical and obvious errors, such as swapping common terтns for similar but nonequivalent common terms in the otheг language, as wel1 as inverting sentence meaning [2,3].
Ву their very nature patents зrе concemed with new inveotions. ТЬеу wi1l therefore сопtзin new terms, used Ьу inventors to describe their innovations. Consistency оС terrninology is cruciaJ whcn ereating а patcnt specification. And theгe гетаins а very complicated ргоЫет оС trans lating patent claims. ТЬеу use formalistic language with an unusuаПу long sentence structure, required for clear display оС technical and legal aspects of the invcntion, subject to the broadest possibIc lcgal claims. For а machine this is а major problcm to overcome [4]. Meanwhile, attempts to solve some оС these problems began half а century ago in Moscow, а! the Central Research and Development !nstitute оС Patent Information (ТCNПP!), which was entrusted with the processing offoreign patent docurnents. ” was decided to trans1ate into Russian the claims ог abstracts published in offlCia1 buIJetins оС 1eading patent offices. ТЬегеСоге, in рarаПеl with the traditional processing of current patent documentation, the TCNIIP! scientists developed in 1963-1966 an ехрегiшепtзI system to automaticaIJy translate publications from the USPTO “OfficiaI Gazette”. мт development at (Ье ТSNПР! covered а реПod wheo – after the thorough theoretical research and the emergence оС more efficient computers – scveral groups around the world had Ьеgun their attempts 10 create practically operational МТ systems. |
Confrontation bctwccn thc two opposing social syslcms had lcd 10 thc situalion thal, Ьу the time МТ projects were impJemented, they were moslly aimed аl providing translation from Russian iлto English алd vice vеrsз. Опе of шет was the first МТ system specialized for processing patent texts [5,6].
Subsequent sections of this рарет ате devoted to ше солsidеrаtiоп of ше linguistic specificity of patent clairns, mалifеsted in the рredоmiлапсе of nominative word groups. This places special dсmaлds оп Шс МТ algorithm, саllоо оп 10 сапу оиl ше Беgrпепшооп of Ше claims text, Ше identification and алаlуsis of потinаl word groups in the English text алd Ше formation of the equivalent word combinations in ше Russian language. Тhc рарст endБ with а summary ofthc МТ systcm structure as а wholc.
2. Special features of patent claims
lnitia\ attempts to 50Ive the рroЫеm facing TSNllPI Ьу automating Ше word for word translation of patent claims confirmcd the unsuitabi1ity of such ал аррroасЬ [7]. Therefore in was decided 10 develop ал МТ systcm with the abiJity to navigate iл ше origina\ patent documents [8].
Тhorough linguistic алаlуsis of palent claims in the “Official Gazette” showed that the overwhelming majority of the notions алd concepts uscd 10 dеscпЪе the basic idea of ал invention are expresscd Ьу terms which ате потinаl word combinations with prepositive attributes. Тhe пшnbет of such word combinations is practicaJly unlimited, алd therefore по automatic vocabulary was ablc 10 сnvет еУеп ал еSБeпОаl part of such word groups. Тhis рroЫет ЬесотеБ still шоrе сошрliсаted when translating palent texts in which, due 10 their specific character (first communication about new iлventiопs), new and derived tenns ате bound 10 occur. Careful analysis of поminаl word combinations was а prerequisite for improving thc quality of translаtiлg patent claims [9].
Тhe determining role of different nomina\ groups in а patent claim influenccd thc choicc of the fundaшenшl principle and соnstruсtiоп of а specialized МТ algorithm. It was called the algorithm о! segment аrш!уsis. The namе reflects the таin idea of Ше algorithm, which provides ше division of the сlаiшs text оп segments, identifies pattems of these segmcnts, finds equiva\cnt models of the Russian laлguagе, then develops Ше infonnation оп the grarпmаосаl form of Russian words алd synthesizes Ше Russian text in ассотdanсе with this iлfоrmаtion.
Тhc rolc of segment separators was pcrformcd Ьу а пшnbет of words: indisputabIe (e.g., prepositions) алd questionabIe (such as determinatives, unions, participles). lf the separator is controversial, алaJysis of its environment was performed. Thus, the union алd the article were not sерзГdtors ifthey were Ьеtwеел similar dеfinitiолs.
The text of patent claims in the “Official Gazette”, with up to а few hundred words, is designed in the [оrrп of а siлglе sentence, which complicates the understanding of the invention. Тherefore, an attempt was made to develope formalized rules of dividing continuous text iлto segments алd designing them in separate senlences. Нете sentence separators were used 100, followed Ьу the analysis of their environment iл саБе of controversy. When presenting separate раrtБ in the fопn of independenl phrases the participles of absolute participle constructions were converted to finite verbal fо!П1S. А поun от nominal group being а part of the invention (at itemization) was considered 10 Ье suhjects, алd before шет the predicate «imeetsya» ("шете iБ") was inserted.
Тhe analysis of segments was intended prirnarily 10 еБшЫiБЬ the relationships between the words of ше English text. lf thc relationships between the words within the segment are knоwn, it becomes possibIe to detennine the character of relationsbips between the units ofthe equivalent Russian segment [9].
3. Identification and analysis of nominal word groups
High quality work with multicomponent поип pbrases is largely determined Ьу objective criteria of idепtifyiлg their structure, otherw:ise correct clarification of ше lexical meaning of complex entities is impossible. Therefore it was decided to use in the мт system the probability anaJysis ofthe phrases’ structure based оп some statistical data quitc rcgularly identifyiлg the (УРеБ of structural and the corrcsponding semantic re\ationships. Admissibility of probability estimates in identif)ring structural models of multicomponent combinations was tested оп а sample oftechnical tcxts, which contained about 20,000 two-component and about 5000 multicomponent pbrases. Based оп this алаlуsis, ше diversity of поminаl groups reduces 10 а finite set of models that reflect а surnшary of their structure and composition. Тhese structural models helped to identifY some objective signs that quite regularly point 10 the relative degree of stability of relationships between the components of the word combination.
ТЬе automatic analysis of nominal groups in machine translation was preceded Ьу their identification in the text. Usually, the left boundary ofthe group was indicated Ьу an article от апу other word that acts as а deterrninative. Тhe right boundary was defined Ьу the соте поип itself. Тhe role of prepositive eleтents of nominal groups тау ье played Ьу the words iл the following classes: defining words – adjcctives, participlcs, pronouns, ordinal пшnЬеrБ (М), nouns (N), adverbs (о) and саrdiлаl numbers (Nu).
In order to automatically analyze the claims all recorded nominal groups were combined into а fшitе set of structura! models. Structural model is а category, rерrеseпtiлg, first of аll, two related concepts: а) а distribulive том! - ше sequence of the аЬоуе indices of classes/subclasses of words, which include сошропепts of the поminal group, Ь) а coпstrucliиe тodе! - the (уре of syntactic connections between components of Ше group. ТhеБе were later supplemented Ьу а seтantic mode! rерresentiлg the type of generalized semantic reIations between the сошропents ofthe word group [10].
Two-component word combinations had опе of the following three distributive models: МN, NuN and NN. Тhe analysis ofthree- component word соmЫлаtiопs appeared а great deal тоте complicatcd ЬесаUБe of the incrcased number of required versions for analysis. Тhus оп the level of word classes the following 7 distributive models Ьауе Ьеen established:
ММN, DМN, МNN, NМN, NuМN, NuNN and NNN. ln сзse of fourcomponent word combinations the пuшЬет of distributive models amounted 10 15 and 50 оп. Word combinations with the пшnbет of components greзш thал 8 were not analyzed and translated word for word. Since Шеу occurred уету rarely (lеSБ thал 1 % of the toшl питЬет of word combinations) it did not essentia1ly impair ше quality of ше translation.
Тhe increase in the пuшЬет of components raises Ше сошрlехity of а nominative group automated ana1ysis significantly. This was caused Ьу the increasing diversity of syntactic relations. As а result а three-component nominative group rnaу Ьауе different constructive models. Меп алаlyzing а three-component nominative groups with а distributive model МNN it is necessary, аЬоуе аll, 10 СЬООБе а поun, which is consistcnt determiner М. For example, the distributive rnodel МNN сan rnatch ше construclive model (ху)х)
- inteтa! combuslion еnginе от (х (yz») – addilionalfue! ритр.
Prior 10 the operation of the basic ЫосkБ of text ana1ysis, grammatical Ьоmоnyту of words was climinatcd Ьу analyzing ше grammatical characteristics of the surrО\Шdiлg words. For exampJe, а verb cannot Ье directly preccded Ьу 3D article.
4. ТЬе synthesis of the Russian text
ln ассотdanсе with the adopted structure of ше algorithm, the basic inforrnation required 10 оЬtain correct grammatical [оrшs of
Russian equivalents was worked out in the process of.analyzing the English text. Each word form in the English part of t е vocabulary was accompanied Ьу certain grammatical and lexical information which enabIed the algorithm (о operate with the words without having recourse to their particular lexical meaning. The Russian language рап of the vocabulary was represented Ьу stems of the Russian equivalents and Ьу tabIes of inflections helping (о construct the corresponding word foгrns in Фе process of moгphological synthesis. The total volume of the vocabulary used as the basis of accomplishing the experimental translation amounted (о арргохimate у 5000 entries covering the subjeet matter of intemal сотbustion engines.
Лftег the estabIishment of Фе number of components of а given поmiпal word сотЫпаооп its model was compared with Фе corresponding Iist of models having the same number of сотроnents. Each model in the Iist was furnished with the information оп the positions and forms of the Russian words in the equivalent Russian word combination. Simulta'leously some г rrangements ensuring а тоге corгeet сопstructюп of Russian phrases were made.
The information worked out in the bIocks.1analyzing Фе English text was constituted Ьу the following data:
- computer address of the beginning of the Russian vocabulary
item containing Фе stem of the equivalent to Ье retrieved. - class (рап of speech) of the Russian equivalent.
- number. case (for nouns),
- gender/number. case. index showing that а shortened form
exists (for adjectives).
- indication of the transitivity and опе of the three forms of conjugation (for verbs),
- indication of transitivity. for aetive partidples and present participles (verbal adveгbs).
In Фе process of Фе algorithm operation these data were complemented Ьу Фе infoгmation derived from the Russian language рап of the vocabulary.1 For example. the phrase iпtemal coтbustioп eпgiпe. having the structural model ((MN)N) with а тоге stabIe relationship Ьемееп the components MN. wil1 get the Russian equivalents Цdvigаtеl vпutreппego sgoraпiya" and not "vпutreппiy sgoraпie dviatel". Depending оп the size of the patent daims involved (15q-зоо words) the translation time varied Ьемееп 2 and 5 mi'l Топ а computer whose high speed was about ~OOO operations рег second). Machine translation samples of the first paragraph of patent clairns (фе U.S. Patent # 3,076.446 "Rotary intemal combustion engine") is attached (о Фе referenced article [11 !l
5. Сопсlusiоп
The TSNllPI МТ experimental system contained the Iinguistic рап and the program of its implementation оп the computer. The Iinguistic рап of the system comprised ап algorithm, ап automatic vocabulary and Iists and tabIes which were used in the process of the algorithm operation. The basis and the most complicated component of Фе proposed мт system was Фе algorithm which тау Ье regarded as the totality of the rules of processing the information contained in the vocabulary. word lists and tabIes.
The system contained а binary spedalized English-Russian algorithm. focused оп the translation of pubIications of Фе. US weekly ЦОffidаl Gazette". presented Ьу Фе first items of patent claims. They аге characterized Ьуап abundance of difficult (о grasp multicomponent terminological combinations and Ьу а spedfic syntactic structure of unusually long sentences containing up to several hundred words. The algorithm comprised мо large bIocks which accomplished in succession the search of the text words in the automatic vocabulary, assignment of grammatical information (о Фе words not found in the vocabulary. analysis of idioms, elimination of grammatical homonyms, segmentation of the text, division of long sentences into phrases, finding the antecedents of pronominal words. working out ofthe case information, analysis of predicative elements and поmiпаl word combinations and synthesis of the Russian text.
The set of programs based оп the algorithm of automatic translation comprised approximately 20.000 commands. This set included Фе following groups of programs:
- preliminary text processing.
- syntaetical analysis of segments.
- synthesis of Фе Russian text,
- auxiliary programs.
The TCNIIPI machine translation system was in the main developed in 1963 1966. Numerous experiments have confirmed the efficiency ofthe system and the ability (о ensure the quality of translating patent claims in the given parameters. substantially exceeding the word for word translation. Later the system has Ьееп praised in Фе Annual Report of the Chief Sdentific Secretary of Фе Academy of Sdences of the USSR as опе of the most important achievements in the пашгаl and social sdences in 1966 [12].
But the described project could not form the basis for а fullscale patent МТ system in the absence of representative arrays of mасhiпе-геаdаbIе patent documentation and faster computers with much тоге memory. А number of complicated Iinguistic probIems also still waited (о Ье solved. Investigations revealed that the global state of information theory and practice and the existing information technology allowed ргасосal realization of only those automatic systerns that did not propose complex semantic analysis of documents and processing oflarge information bodies. Therefore. the group of Фе TSNIIPI researchers switched to the solution of less ambitious but тоге relevant and ргасосаl tasks [13].
Similar trends Ьесате evident at that оте in some other countries. ‘П 1964 Фе U.S. Academy of Science set up а committee to investigate the feasibility of computer translation. In 1966 the Committee pubIished its героп as the Autoтatic Laпguage Ргоcessiпg Advisory Coттittee (ЛLPАС) Report. After studying the programs in America and Europe and making comparisons of computer translations with translations done Ьу humans it concluded that computer translation was inferior to human translation not only in terms of quality but also cost.
The Committee recommended expenditures in computational Iinguistics-semantics, statistics. quantitative linguistic matters, including expeгiтeпts in translation. with machine aids ог without [5].
Finally the TSNIIPl researchers prepared а detailed description of the improved patent МТ system that was pubIished in The TSNIIPI Papers [14]. Mqreover there was also submitted the accumulated experience in aeveloping the operational мт system and the results of in-depth analysis of мт theory and praetice аll over the world [15]. There is reason (о believe that these works would Ье useful to the next generation of мт developers. ‘П particular the experience gained from the development and subsequent орегаtional testing of Фе TCNIIPI patent claims мт system gives grounds to conclude that currently popular methods of statistical мт should Ье used in сотЫпаОоп with the traditional lexico-grammatical rules which allow (о penetrate into the essence of the compared languages.
References
(1) ОСЬ FJ. Statistical rnachine trans1ation: foundations anд reeent advances, the ten1h machine translation suлunit, Phuket, Thajland, hЩ)’//WWW шt-аrcЬjvе iпfо/МТS-20QS.
[2) Google trащ,1а'е tangles with eomputer learning. Lee Gomes, Forbes Magazine; 9/8/2010.
(3) Google trans1ates "Ivan the TerтibLe" as "Abraham Lincoln" wwwgoogk;Ьk1gпсwsсhШ1псl.соm.
(4) List J. Review ofmacbine trans1ation in p"ents. Wol1d Patent Information 2012;34:193-5. [5] RobertБ АН, Zarechnak М. Muhanical tr.mslatUш- see ··оperзtional systerns” fcom: current trends in linguistics, val. J2. Mouton: Thc Haage-Paris. www. rnt-archivejnfo) Roberts1974.pdf; 1974.
[6] Hutehins J. Нistorical survey of тасЬinе tranо1апоп in &stem and CcntraJ Europe (оее “Opcrational and commercial systems”), In: ТЬе conference оп crosslingual Janguage technology in service of an integrated n1Ultilingual Eumpe, 4-5 Мау 2012, Нamburg, Germany www.hutehinswcb.me. uk)Hatnburg-2012.рdf.
(7) Shvans АМ, Trakblenbcrg ЕА, Bruk ВМ, Purto УА, Fishkina VL. Тhe cxperience of woru (ог word trans1ation of patcnt literature from cl1g1ish [п1о Russian usiug Strela computcr. Scientiflc anд ТсеЬп;саl Jnformatinn 1963;2:42-9. [RussianJ.
[8] Кravets l.G. МасЬinе translation in patent infonnation systenl. lnfonnation оп Ulvспtiопs, val. 12. Moscow: 1Ъс State Committce оп Jnvcntions and Discoveries; 1964. р. 15-18, [RussianJ.
(9) КЛIvets LG. Structural analysis of phrases in english s<:ientiflc anд [сеhnicзl "",ts.
Scienliflcal and Technical Jnformation 1963;10:39-41. (RussianJ.
[1 О] Krave::ts LG. Emdina УМ. Automatic analysis of english noтi”ative gгoups. 1″: Рroceediпgs оС the 3-rd АII-Uпюп confcrcncc оп information retricval systcms апд зutomаted processing ofscicntifte and technica( information, у2, Moscow, 1967, р. 441-9, [Russian].
[11] Кг4Vet.s LG, Vasilevsky AL. А systcm (ог automatic trdЛsla1;оп оС publications Сroт the patent weckly “Оfбciзl Gaиttc”, Jnformation retrieval among patent offices. Тhe 6th Annual meeting uf the JCIREPA Т, Тhe Hague, Octuber, 1966, р. 365-79.
[12] Тhe most important acmevcmcnts in те natural and social scienccs in 1966 (scc “Cybemeries”). Report of the Chief Scientif”u; Secretиy of 1he Academy nf Sciences uf 1he USSR, 1966 www.гas.N!FS10rage/download.aspx’ М=2сссс61 c-2122-43Od-9d2f [RussianJ. [13] Кrзуш LG. Fifty years ofpatcmt infonnation centres in Russ1a. World Patent lпfОl1l1аtюп 2012;34(3):282-5.
[14] Тhc cxpcrimenta1 system of English-Russian automatic transшtioп of patent doauncnts.
Cullectiun пС articles Ьу, КЛIvelS LG, Vasilevsky AL, Dubitskaya АМ, Етдina УМ, Povulotskaya SK, е. aL FisJ,kina//Тhe TSN!1PJ papers. Moskow 1970. р. 132, [RussianJ.
[15] Vasilevsky ЛL, КoгdVets LG, Moskovich УА, Povolotskaya sк.. Samoiluvich МУ, Tarasova GA, et а1. English-Russian automaric trans1ation/т,e ТSNJlPI papers. Moscow 1967. р. 220, [RussianJ.