15th Декабрь, 2015
Виды анализа и визуализации патентной информации//Патентная информация сегодня, 2008, №1
Л.К.Кравец, Зам. главного редактора журнала “Патентная информация сегодня”, к.ф.н., доцент
Визуализация информации представляет собой разновидность компьютерной графики, предназначенную для представления пользователю данных посредством изображений. Она осуществляется с использованием специальных автоматизированных систем. В последнее время они находят все более широкое применение и в сфере патентной информации.
Технология визуализации обеспечивает наглядное систематизированное представление больших патентных массивов в едином изображении. Обычно это графики, диаграммы или карты, отражающие связи прямого и обратного цитирования между патентами, их текстовое сходство, сотрудничество изобретателей и т.д.
Результаты визуализации полезны для самых различных категорий пользователей. Лица, не обладающие глубокими знаниями в данной предметной области, имеют возможность без существенных затрат времени и средств, получить о ней общее представление. Для экспертов визуализация - дополнительный инструмент углубленного патентного анализа и обоснования предпринимательских решений.
Компьютерные программы визуализации информации обеспечивают систематизацию больших информационных массивов с использованием таких изобразительных средств, как цвет, размер и форма. Тем самым облегчается беглая оценка результатов информационного анализа и принятие решения о том, какую информацию можно опустить, а какая заслуживает более глубокого изучения.
Широкому распространению визуализации способствовало появление все более производительных программ и реализующих их компьютеров. Программы визуализации используют количественные данные для выявления тенденций, которые могут остаться незамеченными при просмотре необработанных текстовых материалов(1).
Системы визуализации патентных данных
На рынке появляются все новые системы автоматизированного поиска и анализа патентной информации. И, если автоматизация поиска, классифицирования, кластеризации и установления связей между тематически сходными патентами получила уже довольно широкое распространение, то визуализация результатов переработки информации, пока еще не столь популярна. Далее характеризуются некоторые из поступивших на рынок систем.
Компания Spore.inc предлагает два основных типа визуализации:
- матричные диаграммы, отражающие содержание и иерархические связи между пунктами патентной формулы, значительно облегчая понимание сущности патента;
- споровидные диаграммы, отражающие группы тематически связанных патентов, идентифицирующие технологические тенденции и возможности заполнения вскрываемых при этом «пробелов» в существующих патентных портфелях.
Компания Matheo предлагает одну из простейших в использовании систем, объединяющую четыре основные типы визуализации, которые можно комбинировать для идентификации различных свойств анализируемых патентов. Программа MatheoPatent 6.1 обеспечивает поиск патентов с использованием ключевых слов, фамилий изобретателей и др., а также последующее визуальное представление получаемых результатов в форме:
- таблиц, в которых слева дается список изобретателей с указанием их национальности и номеров выданных патентов, а справа – перечень патентов;
- диаграмм ежегодного количества патентов, сгруппированных по различным библиографическим данным (изобретатели, даты приоритета и др.);
- матриц, указывающих пересечение различных библиографических данных, благодаря чему можно, например, выявлять группы совместно работающих изобретателей;
- сетей взаимосвязей, например, между изобретателями и компаниями (указав компанию, получаем связанных с ней изобретателей и т.п.)
Система ThemScepe позволяет представлять подборку патентных документов в виде топографической карты, на которой «горы» ассоциируются с часто встречаемыми в документах терминами, расстояние между которыми отражает степень их тематической близости.
Система Aureka, используемая в компании MicroPatent, представляет собой версию ThemScape, адаптированную к патентному анализу. На получаемой с ее помощью топографической карте точками обозначены патенты, расстояние между которыми отражает степень их тематической близости.
Такого рода визуализация результатов патентного поиска облегчает обнаружение как направлений, уже перекрытых существующими патентами, так и тех, что открывают еще не запатентованные предметные области. Подобные сведения могут иметь решающее значение при разработке компаниями своих предпринимательских стратегий(2).
Методы совершенствования патентного картирования
Патентные карты представляют собой один из инструментов информационного анализа с визуализацией или пространственным (2-3 мерным) представлением получаемых результатов. Благодаря этому достигается удобное и наглядное представление сложных взаимосвязей между исследуемыми объектами (например, документацией) и основных тенденций, отражаемых на представленном посредством картирования «ландшафте».
С начала 2000 года наблюдается заметное развитие и распространение методов и средств патентного картирования с использованием его в различных сферах информационного поиска и анализа.
В последнее время появились методы «концептуального» картирования, которые реализованы в коммерческих системах Aureka, STN и OmniVis. В них используется лексический анализ и запретительные списки слов, не учитываемых при статистических подсчетах. Запретительные списки включают неинформативные слова типа the, a, that, then и т.п.
Патентное картирование основано на идее, согласно которой частота встречаемости слова в статье является удобным показателем его важности. Соответственно, алгоритм картирования предусматриивает два шага: сначала в тексте выявляются термины с подсчетом их важности, затем документы картируются в соответствии со значением информативных терминов.
Интуитивно и согласно наблюдениям Г.Луна установлено, что наиболее значимыми и обладающими отличительными свойствами являются слова со средней частотностью. Именно они выражают объединительные («кластерообразующие») понятия, на основе которых осуществляется картирование. Выше их располагаются самые частотные, но неинформативные слова, попадающие в запретительный список, а ниже оказываются малозначительные слова, которые из-за этого также выпадают из дальнейших подсчетов.
В алгоритмах подсчета чаще всего используются две величины: общее число значимых слов в документальном массиве и доля документов, содержащих то или иное значимое слово. Первая величина разграничивает частотные и малоупотребительные слова, а вторая, различает функциональные слова со случайным распределением между документами и содержательные слова, концентрирующиеся в конкретных документах. Термины, чьи показатели подсчета оказываются ниже порога ( либо из-за того, что они встречаются в слишком многих документах, либо потому, что они вообще редко используются) отличительными способностями не обладают и поэтому из последующего анализа исключаются.
Запретительный список обычно применяется изначально, чтобы не засорять подсчеты ненужными словами. Однако, будучи эмпирическим и субъективным, такой список может вводить в заблуждение. К тому же, запретительные списки различаются по объему. В системе Aureka, например, в них насчитывается 1290 английских, французских и немецких слов, а в системе OmniVis - только около 100. Поэтому в рассматриваемых системах допускается последующее редактирование состава запретительных списков пользователями, например, дополнительное включение в список слов, которые представляются пользователю слишком часто встречающимися функциональными словами. В патентных текстах в их числе могут оказаться слова типа exibit, develope или demonstrate.
Однако подобное «потребительское» редактирование запретительного списка может иметь ряд последствий, например, приводить к формированию дополнительных кластеров и изменению общего «ландшафта». Поэтому корректировка списка нуждается в последующей длительной проверке ее целесообразности на практике, в ходе которой вновь создаваемая карта будет сопровождаться той, что формировалась до редактирования списка, с указанием слов, которые были дополнены в список.
Информация вообще и патентная в особенности обычно содержит много разных аспектов, которые можно рассматривать под разными углами зрения – в зависимости от интересов аналитика. Однако патентная карта отражает лишь одну из возможных точек зрения. Для получения других перспектив можно осуществить корректировку запретительного списка (3).
В будущем предполагается шире применять автоматизированное составление запретительных списков. Одним из достоинств такого пути, помимо большей объективности процесса, является получение запретительных списков даже на незнакомых языках.
Литература
1. Viegas F, Wattenberg M. People, patents and visualization. – www.dotank.nyls.edu.
2. Diirsteler J.C. Patent data, analysis and visualization – www.ipminds, blogspot, com/patent analysis.html
3. Blanchard A. Understanding and customizing stopword lists for enhanced patent mapping //WPI – 2007 – v.29 – #4 – c.308 – 316