15th Декабрь, 2015
Совершенствование методов и средств патентного поиска//”Патентная информация сегодня”, 2008, №3
Л.Г.Кравец, зам. главного редактора журнала “Патентная информация сегодня”, к.ф.н., доцент
Последнее десятилетие охарактеризовалось чуть ли не взрывным ростом количества подаваемых в мире патентных заявок. Одновременно отмечено увеличение их объема. Результаты количественной оценки этого явления посредством анализа массива европейских патентных заявок, поданных в период с 1978 по 2005 год, показали, что размер или объем патентной заявки допускает двоякое измерение: по общему количеству страниц или пунктов патентной формулы. Первый показатель отражает объем сведений, с которыми придется иметь дело патентному эксперту, а второй - в определенной степени свидетельствует о размерах предметной области, на которую заявитель намерен распространить свои патентные претензии. Можно полагать, что инфляционный рост этих показателей приведет к увеличению нагрузки на патентных экспертов и, как следствие, к удлинению сроков патентной процедуры и увеличению затрат на услуги патентных экспертов. По крайней мере, об этом свидетельствует анализ заявок, поступивших в ЕПВ в 1995-1997гг. и завершившихся выдачей патентов до конца 2006 года, Он показал, что, чем больше в них пунктов формулы и страниц, тем обычно дольше процедура выдачи патентов и выше затраты ведомства на патентование. Аналогичные данные были получены в отношении патентных заявок в США (1). Указанные обстоятельства требуют новых методов осуществления патентного поиска и более широкого применения в нем современных технических средств.
Совершенствование методов содержательной обработки патентной информации
В настоящее время патентные материалы содержатся в текстовом формате. Осуществляя их поиск, классифицирование, интерпретацию или оценку, пользователь вынужден строить предположения относительно того, насколько поверхностные текстуальные признаки отражают собственно содержание документа. Эта процедура требует затрат и не гарантирует положительного результата. Существует мнение, что альтернативой может стать эксплицитное представление содержания патентного документа с использованием формализованных и недвусмысленных семантических средств. Преимущества такой альтернативы видят в том, что появится возможность непосредственной оценки содержания документа, способствующей его поиску, классификации и интерпретации. Считается, что в конечном итоге это приведет к замене нынешних патентных баз данных патентными базами знаний.
Сторонники такой позиции предлагают систему обработки патентов PATExpert, которая ориентирована на представление именно значения обрабатываемых патентных документов. При этом ставятся две цели: а) выдвинуть на передний план семантическую парадигму обработки патента; б) оснастить пользователей технологиями эффективного доступа к содержанию патентного текста. Для достижения этих целей поставлены четыре задачи: – представление содержания, пригодное для описания изобретений в нескольких областях техники; – создание основанных на семантике технологий, которые пригодны для работы с содержанием патентной документации; – создание технологий, обеспечивающих преобразование нынешних текстовых патентных документов в их содержательное представление; – создание технологий, обеспечивающих эффективный доступ к содержанию патентных документов, представленных в текстуальном формате. Опыт показывает, что составляемые авторами рефераты не отвечают в должной мере потребностям пользователей: получению точного и краткого представления о всех существенных характеристиках патентуемого изобретения. Патентные классификации не обеспечивают многоаспектной систематизации и кластеризации документального массива с учетом разнообразных потребностей пользователей.
Большинство поисковых систем основано на использовании ключевых слов, которое желательно дополнить более глубокими семантическими критериями, возможностями поиска по изобразительным элементам и управления поисковой процедурой, включая многоаспектное ранжирование получаемых результатов. Конечной целью пользователя является извлечение из патентного документа содержательного описания изобретения, которому, в частности, способствует языковый перевод документа. Однако в действительности пользователь зачастую заинтересован не в полном переводе документа, а в определении его соответствия запросу и извлечении сущности данного патента. Необходима также технология лингвистического упрощения оригинального патентного текста при сохранении идентичности его содержания. Метаданные о взаимосвязях патентов или заявок черпаются в основном из библиографического описания документа. Однако пользователю нередко требуются ответы на многоаспектные запросы, охватывающие целый комплекс библиографических элементов, чему способствует предварительная компиляция наиболее популярных сочетаний запрашиваемых элементов. Наконец, пользователи очень нуждаются в автоматизированной оценке значимости (ценности) патента, которая сегодня в основном базируется на текстовых показателях (объем текста, встречаемость нужных ключевых слов и т.п.) Проведенный анализ потребностей пользователя позволяет заключить, что для их качественного удовлетворения нужны технологии, обеспечивающие доступ к содержанию патентного материала. Содержательное представление патента должно: а) абстрагироваться от конкретных терминов и поверхностных лингвистических структур патента; б) сохранять семантические связи между понятиями, необходимые для кластеризации документов и др.; в) охватывать композицию, функции и прочие элементы изобретения и, при необходимости, воссоздавать его общее содержание; г) поддерживать связи между семантическими и лексическими элементами документа, способствующие автоматическому анализу его содержания.
Метод содержательного представления патентов
Одним из средств,реализующих такой метод, является система PatExpert. Она включает семь основных служебных модулей:
-модуль извлечения содержания и метаданных;
-модуль патентного поиска;
-модуль патентного классифицирования и кластеризации;
-модуль перефразировки и улучшения читабельности текста;
-модуль обобщения (резюмирования);
-модуль навигации и визуализации патентного массива;
-модуль оценки патентов и мониторинга данной области техники.
Отдельные модули могут включать по нескольку компонентов. Например, модуль патентного поиска включает системы поиска по ключевым словам, семантического поиска, поиска изображений, поиска по степени сходства и поиска метаданных. Далее приводится краткая характеристика каждого из перечисленных модулей.
Извлечение содержания и метаданных включает несколько стадий и базируется в основном на лингвистическом анализе материала. Первая стадия представляет собой его морфо-синтаксический разбор, вторая – ориентирована на выявлении взаимозависимых элементов текста, а третья – на установление связей, существующих между элементами содержания. Извлечение метаинформации предполагает получение как эксплицитной, так и имплицитной библиографической, правовой, изобразительной и текстовой информации. Имеется в виду, например, изучение фамилий изобретателей и заявителей, чтобы установить – является ли правообладатель частным лицом или организацией. Извлекаемая правовая информация включает сведения о подаче запросов, возражений, выдаче патентов и т.п. Из текста документа извлекается метаинформация о цитировании, связанных компаниях, структуре патентной формулы и др.
Патентный поиск. Специфика этого модуля заключается, во-первых, в его интерактивности, предполагающей обратную связь с пользователем, а во-вторых - в комплексном использовании нескольких поисковых систем. Без вовлечения в процесс поиска пользователя трудно отразить все необходимые аспекты в поисковом запросе, а также выявить все материалы, соответствующие такому запросу. Поэтому пользователю предоставлена возможность: -классифицировать выданные документы и ограничивать последующий поиск требуемой узкой областью; -помечать выделенные документы с учетом их релевантности и соответственно корректировать свой запрос. Использование вышеперечисленных пяти поисковых систем позволяет дополнить полнотекстовой поиск по ключевым словам поиском по семантическим критериям, выявляя, например, состав материала, из которого изготовлен объект, наличие компонентов с определенными функциональными свойствами, назначение изобретения и др. Обеспечиваемый одной из систем поиск по степени сходства особенно полезен при определении патентной чистоты и известного уровня техники. Поиск изображений позволяет сопоставлять графическую информацию с соответствующими текстовыми отрезками.
Патентное классифицирование и кластеризация. Для адаптации процесса классифицирования к классификационным схемам, удобным для пользователя, PatExpert предлагает определенный набор категорий, позволяющих сформировать индивидуальные классификационные рубрики. По желанию пользователя документу можно приписать один или несколько классификационных индексов. В отличие от классифицирования предлагаемая PatExpert технология кластеризации не требует четкой классификационной схемы. Достаточно определить пару кластеров, приписать к ним по нескольку документов и задать перечень критериев кластеризации. Процесс кластеризации может осуществляться как для упорядочения найденных документов, так и как самостоятельная процедура.
Обеспечение удобочитаемости патентного материала. PatExpert предлагает технологию перефразирования как всего документа, так и отдельных его фрагментов, выделяемых в интерактивном режиме. Технология обеспечивает, прежде всего, упрощение лингвистического стиля патентного документа посредством: а) декомпозиции используемой лингвистической структуры в более короткие и простые отрезки; б) слияния и частичного трансформирования отрезков с использованием текстового генератора, действующего согласно заданным критериям.
Обобщение патентного материала. Этот режим предназначен для пользователей, заинтересованных в беглом просмотре патентных материалов при определении их релевантности. Обобщение (составление резюме) осуществляется, по желанию пользователя, на одном из трех официальных языков ЕПВ: английском, французском или немецком. Предусмотрено поверхностное и углубленное обобщение. В первом случае начинают с декомпозиции и упрощения лингвистической структуры текста, после чего выделенные фрагменты оцениваются на предмет их пригодности для включения в резюме - с использованием как содержательных, так и лингвистических критериев. Во втором случае начинают с обращения к базе знаний, после чего обнаруженные там элементы содержания представляются на нужном языке.
Визуализация и навигация. Интерактивная визуализация является важнейшим компонентом современного пользовательского интерфейса, который обеспечивает эффективную работу с большими массивами данных и предоставление дополнительной детализированной информации. Потребность в визуализации особенно отчетливо проявляется при работе с патентными метаданными (библиография, патентная классификация, цитирование, патентные семейства, правовые аспекты); со структурами содержания патентов (взаимозависимость пунктов патентной формулы, взаимосвязи между графическим материалом и текстом) и с текстовыми семантическими связями.
Оценка патентов. Учитывая сложность оценочной процедуры, зависящей от многих факторов, PatExpert не ставит своей целью осуществление фиксированной денежной оценки. Вместо этого пользователю предлагается содействие в выработке самостоятельной оценочной модели с использованием информации, касающейся как инновационного рынка (его размеров, товарооборота и др.), так и собственно изобретения. Информация об изобретении включает: затраты на патентную процедуру, количество изобретателей и заявителей, приписанных классификационных рубрик, пунктов патентной формулы, слов в описании изобретения, наличие возражений и цитирования, а также потребности в инвестировании, завершенность разработки и др. Предлагаемая PatExpert процедура предусматривает как абсолютную, так и относительную оценку. Первая основывается на затратных показателях, связанных с языковым переводом, уплатой пошлин, гонораром поверенному и др., а вторая – на сопоставлении набора показателей избранного пользователем изобретения с аналогичными показателями группы других патентов. Создатели PatExpert считают, что ей присущи три существенно важные характеристики: она является семантически ориентированной, предлагает уникальное сочетание технологий в соответствии с потребностями пользователей и допускает интерактивное участие пользователей во всех осуществляемых системой процессах. Предполагается, что система достигнет полной проектной мощности уже к середине 2008 года (2).
Метод адаптации текста к процедуре обработки.
При таком подходе не система приспосабливается к патентному тексту, подвергая его последующей семантической обработке, а заявителю предлагается адаптировать свой текст к условиям его последующего перевода на другие языки и информационного поиска. При этом исходят из того, что принятая патентными ведомствами процедура реферирования патентных заявок, ориентированная на последующий ручной информационный поиск, уже не соответствует потребностям онлайнового поиска. Составленные заявителями рефераты обычно не отражают в достаточной степени патентные притязания заявителя и возможности применения патентуемого решения. А у экспертов нет времени переписывать такие рефераты заново. Кроме того, эти рефераты обычно призваны скорее отражать содержание основного пункта патентной формулы или основные положения описания изобретения, чем информировать читателя о данном новшестве. Наконец, эти рефераты составляются на языке страны, в которой подается патентная заявка, а при поиске зачастую приходится пользоваться его переводом. Существенная часть затрат на патентную процедуру во многих странах вызвана необходимостью переводить патентную документацию на языки всех стран, где эта патентная процедура осуществляется. Анализ 200 англоязычных рефератов японских международных компаний показал, что 10% рефератов содержали фактические ошибки перевода, а половина рефератов была изложена на плохом английском языке.
Слабость перевода с помощью компьютера особенно ощутима при работе с патентными текстами, изобилующими многословными юридически сформулированными предложениями. Уровень качества перевода становится оптимальным в случае предварительной подготовки текста к машинной обработке и использования качественных словарей. Однако при этом меняются формулировки, используемые в оригинальном патентном документе. С учетом изложенного предполагается обсудить возможность изменения порядка электронной подачи заявок, обусловив его представлением патентной заявки в форме, приспособленной к последующему машинному переводу. Эта идея была впервые изложена в патенте США №6.163.785. При наличии соответствующей компьютерной программы изобретатели могли бы излагать описание своего изобретения с ориентацией на его последующую автоматизированную обработку словесным процессором, соблюдая определенные правила грамматического оформления и написания текста (3).
Развитие средств автоматизированной обработки патентной информации
Патентные ведомства промышленно развитых стран предъявляют все более жесткие требования к заявочной документации, вынуждая заявителей проводить все более тщательный информационный поиск для обоснования их притязаний. Высказываются, например, опасения, что обсуждаемый в США проект Закона о патентной реформе заставит заявителя предъявлять отчеты о поиске, обосновывающие правомерность каждого заявляемого пункта патентной формулы. Оказавшись перед таким вызовом, заявители будут вынуждены обращаться ко всем известным и доступным им средствам информационного поиска, используя как свободный доступ к массивам поисковой системе Google и базам данных патентных ведомств, так и платные услуги коммерческих организаций. С 14 декабря 2006 года функционирует новая система патентного поиска (GSP), охватывающая более 7 млн. патентов США. Запланированы также охват патентных заявок США и РСТ, выдача информации в режиме текущего оповещения, еженедельное обновление поискового массива и др.
Система Google осуществляет индексирование и последующий поиск во всем патентном фонде США за указанный срок, в то время как полнотекстовая база данных Патентного ведомства США охватывает лишь патенты, выданные в 1976 г. и позднее. До этой даты можно проводить поиск только по ограниченному числу реквизитов. Обычная процедура поиска патентов по ключевым словам аналогична той, что применяется по отношению к другим информационным источникам. Однако эффективность поиска можно повысить, обратившись к странице продвинутого поиска (www.google.com/advanced_patent_search). При полнотекстовом поиске возможно применение булевых операторов (and/or/phrase/not logic) в комплексе с поиском по номеру патента, фамилии изобретателя / патентовладельца, индексам патентной классификации США, МПК и датам подачи заявки или выдачи патента. В выдаваемых документах предусмотрено цветовое выделение поисковых терминов. Найденные документы систематизируются в порядке убывания степени их соответствия запросу. Эксперименты показывают, что полнота поиска в Google уступает показателям ряда других систем, а в написании словесных обозначений нередки ошибки. Так, с помощью Google было обнаружено только 1197 патентов компании IBM, в то время как, только в 2005 году она получила около 3000 патентов. Поэтому систему Google рекомендуется использовать в комплексе с другими поисковыми системами. Система Google, пожалуй, наиболее пригодна для проведения предварительного поиска изобретателями, а также представителями компаний, которые смогут на этой основе более квалифицированно формулировать свои задания патентным поверенным. Основанная на сплошном индексировании и доступная любым пользователям, система Goоgle может также использоваться в качестве основы при разработке более утонченных поисково – аналитических систем, упорядочивающих результаты поиска и адаптирующих их к конкретным нуждам пользователей (4).
Современный рынок предлагает все более широкий ассортимент программ автоматизированного осуществления процедур информационного поиска и управления накапливаемыми активами интеллектуальной собственности. В их число входят системы, ориентированные преимущественно на поиск и мониторинг товарных знаков и доменных имен; системы патентного поиска; системы управления активами интеллектуальной собственности и др. Хотя четкого функционального разграничения указанных групп обычно не наблюдается, поскольку информационные службы, особенно – коммерческие, стремятся к диверсификации своих продуктов и услуг. В первой группе систем, ориентированных преимущественно на поиск и мониторинг товарных знаков и доменных имен, можно, например, выделить систему Corsearch Advantage: Watch and Screening and Domain Name Watching (CT Corsearch, Walters Kluwer business). Клиентам предоставлена возможность мониторинга правонарушений в отношении своих товарных знаков и доменных имен с получением еженедельных отчетов в печатной или электронной форме. Отслеживание возможно как в пределах одной страны, так и группы стран: система охватывает более 30 юрисдикций. Во вторую группу систем патентного поиска входит, например, система 37CFR.com (PatentCafe), осуществляющая процедуры патентного поиска, классифицирования и составления отчетов о получаемых результатах с использованием приемов искусственного интеллекта. Поиском охватываются юрисдикции ведущих стран, включая США, Великобританию, Германию, Японию, Канаду и Францию. Наиболее многочисленная третья группа систем управления активами интеллектуальной собственности включает как универсальные системы, призванные управлять активами любых объектов интеллектуальной собственности, так и системы, ориентированные на ее отдельные разновидности. Так, система ANAQUA (Anaqua) предназначена для управления любыми объектами интеллектуальной собственности на протяжении всего их жизненного цикла, начиная, например, с подачи заявки и кончая сбором роялти по лицензионному соглашению. Вторжение в мировую экономику Интернета заставило компании уделять все больше внимания управлению активами средств индивидуализации предпринимательства и, прежде всего, товарных знаков и доменных имен. Активы функционирующих в Интернете организаций могут насчитывать многие тысячи таких объектов. Не удивительно поэтому появление на рынке соответствующих автоматизированных систем управления, предлагаемых компаниями CPA, MarkMonitor, Thomson CompuMark, Verisign и др. Так, компания CPA предлагает систему Domain Name Services and Extranet, которая обеспечивает своим клиентам услуги по регистрации, перерегистрации и аннулированию доменных имен, слияние разрозненных портфелей и их аудит. Процесс управления включает, как правило, процедуры мониторинга с целью выявления и предотвращения угроз нарушения прав интеллектуальной собственности(5).
В современном инновационном мире компания может удерживать конкурентные позиции только при условии постоянного отслеживания предпринимательских и технологических достижений в своей сфере деятельности. Важную роль при этом играет мониторинг последних патентных публикаций, имеющих отношение к профилю деятельности данной организации. С этой целью используются специализированные автоматизированные системы. В их числе система PatProfile Monitor компании INCOM IPS (Германия). Заказчик формулирует тематические параметры своего поискового запроса, которые, при необходимости, могут быть конкретизированы указанием наименования заявителя. Система охватывает все публикации ЕПВ и ВОИС, а также Патентного ведомства Германии. Обновление поискового массива – ежемесячное. Пользователь оповещается о появлении интересующих его публикаций по электронной почте. Оповещение осуществляется в форме лаконичных сообщений, позволяющих оперативно оценивать релевантность новых публикаций. После этого, пользователь определяет необходимость получения развернутого сообщения, включающего какую-то часть или полный текст найденного документа, и направляет свой запрос по адресу www.patwww.de. Услуги PatProfile Monitor обеспечивают: -непрерывное оповещение о последних достижениях в заданном рыночном сегменте; -идентификацию подаваемых конкурентами патентных заявок; -классификацию патентных заявок конкурентов; -отслеживание последующих изменений в правовом статусе выявленных патентных заявок. По запросам пользователей также предоставляется требуемая правовая информация, сведения о патентных семействах и о патентном цитировании. Помимо патентного мониторинга система PatProfile Monitor может выгружать полные тексты найденных патентных публикаций и формировать для пользователя нужную ему тематическую подборку для последующего самостоятельного осуществления библиографического и полнотекстового поиска в накапливаемом поисковом массиве. Система PatProfile Monitor предоставляет в распоряжение пользователей свой Интернет – сервер, который будет осуществлять пополнение и ведение их поисковых массивов с соблюдением требований информационной безопасности и ограничения доступа (6).
Литература
1. Zeebroeck N.van.etal. Patent inflation in Europe//WPI-2008-v.30-#1-p.45-52
2. Wanner L. et al. Towards content –oriented patent document processing //WPI-2008-V.30-#1-p.21-33.
3. O’Keeffe M/Manifesto for better patent searches and more economical patent prpsecution//WPI-2008-v.30-#1-p.1-3.
4. Buntrock R.E. Google tackles patent search//www/infotoday.com
5. Butkiewicz L. Your guide to IP software//MIP-Dec.2007/Jan.2008-p.61-73
6. PATWARE. Pat Prоfile Monitor – www.incom.ips.com