Научная статья на тему 'Система извлечения технических функций из патентного массива'

Система извлечения технических функций из патентного массива Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
303
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПАТЕНТ / КОНТЕКСТНО-ЗАВИСИМАЯ ГРАММАТИКА / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / ТЕХНИЧЕСКИЕ ФУНКЦИИ / МОРФОЛОГИЧЕСКАЯ ТАБЛИЦА / PATENT / CONTEXT-SENSITIVE GRAMMAR / PARSING / LINK GRAMMAR / TECHNICAL FUNCTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Коробкин Дмитрий Михайлович, Тюлькина Екатерина Александровна, Фоменков Сергей Алексеевич, Колесников Сергей Григорьевич

В статье представлено описание процесса формирования информационного обеспечения синтеза новых технических решений. Разработанная система осуществляет извлечение технических функций в формате «объект-условие-действие» из патентных документов на основе разработанной модели и контекстно-зависимой грамматики, а также формирует морфологическую таблицу для получения новых технических решений

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Коробкин Дмитрий Михайлович, Тюлькина Екатерина Александровна, Фоменков Сергей Алексеевич, Колесников Сергей Григорьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

System of technical functions extraction from patent databases

The paper presents the description of the formation process of information support the new technical solutions synthesis. The object of the research is a patent database. Subject of research: the possibility of obtaining new technical solutions based on the analysis of patent data. This research was supported by the Russian Fund of Basic Research (grants No. 15-07-09142 A, No. 16-07-00534)

Текст научной работы на тему «Система извлечения технических функций из патентного массива»

Intellectual technologies in architecture development of electronic government

Roman Valer'evich Erzhenin, PhD in economics, General Director, «nauchno-practicheski center gosuchet» ltd

The use of intelligent technologies to support the development of architectural design methodologies can improve the efficiency of the use and design of information management systems in the public administration sector and ensure their rational development strategy.

Keywords: intellectual technologies, e-government architecture, information systems architecture. УДК 004.89

СИСТЕМА ИЗВЛЕЧЕНИЯ ТЕХНИЧЕСКИХ ФУНКЦИЙ ИЗ ПАТЕНТНОГО МАССИВА

Дмитрий Михайлович Коробкин, канд. техн. наук, доцент кафедры САПРиПК,

e-mail: [email protected], Екатерина Александровна Тюлькина, магистрант кафедры САПРиПК,

e-mail: [email protected],

Сергей Алексеевич Фоменков, д-р техн.наук, профессор кафедры САПРиПК,

e-mail: [email protected],

Сергей Григорьевич Колесников, старший научный сотрудник кафедры САПРиПК,

e-mail: [email protected], Волгоградский государственный технический университет

http://www.vstu.ru

В статье представлено описание процесса формирования информационного обеспечения синтеза новых технических решений. Разработанная система осуществляет извлечение технических функций в формате «объект-условие-действие» из патентных документов на основе разработанной модели и контекстно-зависимой грамматики, а также формирует морфологическую таблицу для получения новых технических решений.

Ключевые слова: патент, контекстно-зависимая грамматика, обработка естественного языка, технические функции, морфологическая таблица

Работа выполнена при поддержке РФФИ (проекты №№ 15-07-09142 -а, 16-07-00534-а)

Введение

К настоящему времени в технической сфере скопился большой объем различных устройств и известно большое количество способов их действия и организации. Несмотря на все попытки прийти к идеальному конечному решению, любое изобретение содержит недостатки. Этот факт порождает необходимость создания нового технического решения, устраняющего некоторый недостаток. Чтобы наиболее эффективно произвести устранение недостатка, необходимо владеть максимально полным набором уже известных принципов действия и конструкций технических решений. Вручную перебрать огромный набор информации не представляется возможным. Для решения этой проблемы были созданы CAI-системы (Computer Aided Invention - автоматизированное изобретательство). Эти программные системы, позволяющие создавать новые технические решения, используют готовую базу знаний, состоящую из описания технических концепций, технически значимых эффектов, инженерного справочника и др. Такие базы знаний заполняются вручную экспертом с учетом накопленного опыта и знаний, и эта процедура является длительной и трудоемкой. Авторы работы предлагают наполнять базу знаний автоматически, и в качестве источника данных использовать патентный массив [1,2]. Необходима автоматизация наиболее трудоемкой процедуры данного

процесса - извлечения описания технических функций из патентного массива для информационной поддержки синтеза новых технических решений.

Целью данной работы является повышение эффективности процесса формирования информационного обеспечения синтеза новых технических решений. Объектом исследования является патентный массив. Предмет исследования: возможность получения новых технических решений на основе анализа данных патентов, содержащихся в патентном массиве.

Методика извлечения технических функций и формирования морфологической таблицы

Введем понятие функции технического объекта (ТО) Fn - это производимое ТО

действие, приводящее к реализации интересующей человека потребности, т.е. назначение ТО. Описание функции любого ТО можно представить в виде четверки множеств следующего вида [3]:

Fn =< D, X, H, f П > (1)

где D - множество действий, производимых и приводящих к желаемому результату; X -множество объектов (операндов), на которые эти действия направлены; H - множество особых условий и ограничений выполняемых действий; f П - множество функциональных признаков, позволяющих конкретизировать и иерархически структурировать описание функции.

Из патентов будут извлекаться данные в виде структуры (1).

На основе обзора аналогов разрабатываемой системы, методик обработки текста и систем извлечения фактов, можно сделать вывод, что поскольку системы извлечения фактов не позволяют выделять в тексте информацию в виде технических функций, необходимых для создания новых технических решений, предлагается разработать методику анализа патентных массивов для задач поискового конструирования.

На вход системы поступает файл формата XML, скачанный с USPTO Bulk Downloads [4] и содержащий данные о патентах, выданных американским патентным ведомством за временной промежуток продолжительностью 1 неделя.

После того, как были определены индексы Международной Патентной Классификации (МПК) [5] патентов, содержащихся во входном файле, пользователь выбирает, патенты каких индексов проанализировать на предмет нахождения технических функций. Блок-схема алгоритма извлечения технических функций представлена на рис.1.

Для выполнения синтаксического разбора сегмента патентной формулы задействовано стороннее программное обеспечение - синтаксический парсер текста на естественном английском языке Link Grammar Parser [6], основанный на грамматике связей. Парсер принимает на вход сегменты предложения на естественном языке, и выдает синтаксические связи, найденные в предложении, с разметкой морфологических признаков слов сегмента. Результат разбора представляется в виде деревьев разбора (рис. 2).

Рис. 1. Алгоритм извлечения технических функций из патентов

+-

-----+

+----АН---+---

I I

-Ma---

+------

-+—MVi-

-+—I-

I

----------------MVp--------

+-------Os------+ +----

I +---Ds**x---+ I +-+ I +—AN—+-Mp-+ I

III III

---Jp--------+

----Drf.c------+

+----A---+

I I

a signal.n converter. 11 operable, a to.r farm.v a code, s ward.n of the digital, a data.p

---+

I I

+-

I

—Jp-

| +----------------ищи---------------+

-+----Hp---+ I +---AN—+---AN---+----AN----+

I I I I I I I

in.r accordance.n-u with the cade.n-u ward.n building.n method.n-u

Рис.2. Пример дерева разбора Link Grammar Parser

Для извлечения из деревьев разбора, получаемых на выходе Link Grammar Parser, технических функций согласно модели «объект-условие-действие» (1) была разработана контекстно-зависимая грамматика:

G = (T, N, < S >, R) (2)

где набор терминалов T = {action, object, condition}, набор не-терминалов N = {<S>, <MV>, <O>, <J>, <I>, <A>, <M>}, <S> - начальный не-терминал; R - набор продукционного правил (Таблица 1):

Таблица 1

R грамматика

<S> <MV> <O> | <MV> | action <O> | e

<MV> action <J> | action <I> | action

action <J> action condition <A> condition | action condition condition | action condition <A> condition <M> | action condition condition <M>

<A> condition condition condition

<A> object object object

action <I> action action <MV>

object <M> object object <J>

object <J> object <A> object | object object | object object <M>

condition <M> condition condtion <J>

condition <J> condition condition | condition <A> condition

<O> object | <A> object | <A> object <M> | object <M>

Вывод предложения с помощью данной грамматики означает, что слово, находящееся в предложении в позиции какого-либо терминала, относится соответственно к действию, объекту или условию, в зависимости от типа терминала. Нетерминальные символы, кроме <S>, представляют связи Link Grammar Parser. В грамматике задействованы только связи, относящиеся непосредственно к действию, его объекту и его условиям. Таким образом, из дерева зависимостей, представленного на рис. 2, цепочка языка, порожденного грамматикой (2), может быть выведена следующим образом: <S> ^

^ <MV> <O> ^ ^ action <I> <O> ^ ^ action action <MV> <O> ^ ^ operable to <MV> <O> ^ ^ operable to action <J> <O> ^ ^ operable to action condition condition <M> <O> ^ ^ operable to form in condition condition <J> <O> ^ ^ operable to form in accordance condition <A> condtition <O> ^ ^ operable to form in accordance with condition <A> condition <O> ^ ^ operable to form in accordance with code condition <A> condition <O> ^ ^ operable to form in accordance with code word condition condition <O> ^

^ operable to form in accordance with code word building method <O> ^ ^ operable to form in accordance with code word building method <A> object <M> ^ ^ operable to form in accordance with code word building method object object <M> ^ ^ operable to form in accordance with code word building method object object object <J> ^ ^ operable to form in accordance with code word building method code word object <J> ^ ^ operable to form in accordance with code word building method code word object <A> object ^

^ operable to form in accordance with code word building method code word object object object ^

^ operable to form in accordance with code word building method code word of digital data

Таким образом, компоненты представления технической функции согласно модели «объект-условие-действие», распознанные в данном сегменте предложения, будут следующими:

Действие = operable to form

Объект = code word of digital data

Условие = in accordance with code word building method

На следующем этапе для найденной технической функции определяется обобщенная техническая функция. Для глагола, означающего действие в представлении технической функции согласно модели (1), определяется класс глагола с использованием сборника классов английских глаголов «English Verb Classes and Alternations: A Preliminary Investigation» [7]. Блок-схема алгоритма формулирования обобщенных технических функций на основании классов глаголов выделенных действий представлена на рис.3.

После того, как были определены сами технические функции и обобщённые технические функции, строится морфологическая таблица [8]. Технические функции в виде кортежей «объект-условие-действие» (1) используются при построении морфологической таблицы в качестве альтернатив исполнения обобщённых технических функций. Альтернативы располагаются в строках морфологической таблицы [9]. В столбцах морфологической таблицы находятся обобщённые технические функции.

При построении морфологической таблицы просматриваются все найденные классы глаголов и те глаголы, которые имеют один и тот же класс, записываются в один и тот же столбец морфологической таблицы со своими объектом и условиями. Необходимо отметить, что глагол может иметь более одного класса согласно классификации [7]. В этом случае берётся первый определённый класс. Также глагол может не быть представленным в этой классификации вовсе. Все глаголы, для которых не найдены классы, записываются в последний столбец морфологической таблицы вместе со своими объектом и условиями.

Рис. 3. Алгоритм формулирования обобщенных технических функций на основании классов глаголов выделенных действий

Выходными данными методики анализа патентных массивов для задач поискового конструирования является морфологическая таблица, представленная визуально на экранной форме автоматизированной системы и наглядно отображающая варианты исполнения обобщенных технических функций.

Проектирование автоматизированной системы

Разработка автоматизированной системы анализа патентных массивов для задач поискового конструирования велась в интегрированной среде разработки Eclipse Luna на языке программирования C++. Библиотека Link Grammar Parser была собрана в операционной системе Linux, дистрибутив Ubuntu 14.04, компилятором GCC. Графический интерфейс и функции высокого уровня для работы с данными предоставлены библиотекой Qt 5.0.2. В качестве сервера баз данных использовался PostgreSQL 9.3.6. Классы и функции для подключения к серверу предоставлены библиотекой libpq++.

На рис. 4 представлена диаграмма потоков данных разработанной автоматизированной системы, которая показывает основные этапы обработки исходного патентного массива, входные и выходные данные каждого этапа.

Рис. 4 - Диаграмма потоков данных разработанной системы

Для оценки работы АС анализа патентных массивов для задач поискового конструирования был произведен расчет показателей точности (3), полноты (4) и ускорения (5).

precision =

IRJ

I Rf I

(3)

recall

I Reel I

L^m , (4)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I Seel I , K>

n =■

t

(5)

АС

где Я/ - найденные технические функции - технические функции, которые были найдены автоматизированной системой и отображены в выходной морфологической таблице.

Ягег найденные релевантные технические функции - технические функции, корректно распознанные автоматизированной системой.

Япге1 - найденные нерелевантные технические функции - записанные в морфологическую таблицу, но не являющиеся техническими функциями или распознанные некорректно.

релевантные технические функции в массиве - корректно разобранные технические функции, найденные в массиве вручную экспертом.

(эксп - время, потраченное на выделение технических функций экспертом, мс; /АС- время, потраченное на выделение технических функций автоматизированной системой, мс.

t

эксп

В таблице 2 представлены рассчитанные показатели точности и полноты, в таблице 3 - временные характеристики.

Таблица 2

Оценка показателей полноты и точности

Тестовый XML-файл Rf Rrel Srel precision recall

test 7 utility.xml 96 82 9 105 0,85 0,78

test 15 utility.xml 164 133 23 176 0,81 0,76

test 32.xml 397 301 39 387 0,75 0,77

Таблица 3

Временные характеристики работы АС

Тестовый XML-файл Количество патентов tAC, мс n, раз

test 7 utility.xml 7 21842 987019 45,19

test 15 utility.xml 15 39953 1555068 38,92

test 32.xml 27 174950 3443029 19,68

Полученные показатели полноты и точности связаны с тем, что качество работы АС во многом определяется работой парсера Link Grammar Parser, и на основании назначенных им синтаксических категорий с использованием разработанной грамматики производит отнесение слов предложения к тому или иному компоненту модели «объект-условие-действие» (1). При этом Link Grammar Parser не всегда правильно разбирает предложения патентных формул.

Что касается временных показателей, приведённых в таблице 3, то, безусловно, автоматический разбор патентных формул происходит быстрее ручного. При этом наибольшее ускорение достигается при анализе небольшого числа патентов. Данный результат может быть объяснен тем, что в трех тестовых выборках присутствовали разные патенты, принадлежащие разным индексам МПК и имеющие различную структуру: некоторые - простую и прозрачную для автоматического разбора, например, действие и объект, другие - более сложную структуру с обилием герундиев, множества подряд идущих существительных и их атрибутов. Соответственно, на разбор этих настолько отличных друг от друга по строению предложений парсером тратилось разное количество времени, в то время как человек может с одинаковой скоростью разбирать предложения любой структуры.

Выводы

Авторы считают, что в данной работе новыми являются следующие положения и результаты:

1) методика анализа патентных массивов для задач поискового конструирования, состоящей из следующих алгоритмов: алгоритм первичной обработки патентного массива; алгоритм извлечения технических функций посредством анализа деревьев зависимостей; алгоритм формулирования обобщенных технических функций на основании классов глаголов выделенных действий; алгоритм построения морфологической таблицы на основе информации, излеченной из патентного массива;

2) контекстно-зависимая грамматика для извлечения компонентов технической функции из дерева зависимостей.

Практическая ценность работы заключается в разработанной автоматизированной системе анализа патентных массивов для задач поискового конструирования [10, 11]., которая позволяет получить представление изобретения в виде набора технических функций. Данное представление может быть использовано как образ патента в следующих задачах: поиск патентов аналогов и аналогов заявки среди патентов; метод автоматизированной классификации; метод выявления патентных трендов.

Литература

1. Коробкин Д.М., Фоменков С.А., Давыдова С.В. Поиск описаний физических эффектов в патентном массиве. Вестник компьютерных и информационных технологий. 2016. № 5 (143). С. 3-11.

2. Фоменкова М.А., Коробкин Д.М., Фоменков С.А., Копасов А.Н. Семантический анализ текста для выявления описаний физических эффектов. Известия Волгоградского государственного технического университета. 2016. № 3 (182). С. 91-95.

3. Bagaev, D., 2007. Development of a system model of a technical object. In Systems engineering, No. 5.

4. "U.S. Patent Grant Data/XML v4.3, Documentation identifying the use of XML Tags and Content" www.uspto.gov/sites/default/files/products/Patent_Grant_XML_v4.3.pdf, 4 Dec. 2012.

5. IPC 2015.01 www.wipo.int/classifications/ipc/en/ ITsupport/Version20150101, 21 Mar. 2016.

6. Temperley В., 1999. An Introduction to the Link Grammar Parser. www.link.cs.cmu.edu/link/dict/introduction.html.

7. Levin B., 1993. English Verb Classes and Alternations: A Preliminary Investigation. University of Chicago Press.

8. Polovinkin A.I., 1988. Fundamentals of engineering creativity. Mashinostroenie Publ., Moscow (in Russian).

9. Fantoni, G., Apreda, R., Dell'Orletta, F., Monge, M., 2013. Automatic extraction of function behaviour-state information from patents. In Advanced Engineering Informatics, No. 27, pp. 317-334.

10.Коробкин Д.М., Фоменков С.А., Мармура А.С., Болдырев В.А. Методика предварительной обработки патентного массива для задач извлечения структурированных физических знаний. Известия Волгоградского государственного технического университета. 2016. № 3 (182). С. 40-47.

11. Коробкин Д.М., Колесников С.Г., Фоменков С.А. Методика извлечения практического применения физических эффектов из патентных документов // Информационные технологии в науке, образовании и управлении: Труды межд. конф. IT + S&E16. / под редакцией Е.Л. Гло-риозова. 2016. С. 92-100.

System of technical functions extraction from patent databases

Dmitriy Mihaylovich Korobkin, Candidate of Technical Sciences, Associate Professor, Volgograd State Technical University

Ekaterina Alexandrovna Tyulkina, Graduate student, Volgograd State Technical University

Sergey Alexeevich Fomenkov, Doctor of Science, Professor of the Department, Volgograd State Technical University

Sergey Grigor'evich Kolesnikov, Senior Researcher of the Department, Volgograd State Technical University

The paper presents the description of the formation process of information support the new technical solutions synthesis. The object of the research is a patent database. Subject of research: the possibility of obtaining new technical solutions based on the analysis ofpatent data. This research was supported by the Russian Fund of Basic Research (grants No. 15-07-09142 A, No. 16-07-00534).

Keywords: patent, context-sensitive grammar, parsing, link grammar, technical function.

УДК 539.124;519.23

ИНТЕЛЛЕКТУАЛЬНЫЕ МЕТОДЫ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ПРОЦЕССАХ КОНТРОЛЯ И УПРАВЛЕНИЯ ПОТОКАМИ ИОНИЗИРУЮЩЕГО ИЗЛУЧЕНИЯ

Алексей Федорович Каперко, профессор, профессор, [email protected], Владимир Петрович Кулагин, профессор, руководитель лаборатории,

e-mail:[email protected], Национальный исследовательский университет «Высшая школа экономики»,

http://www.hse.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.