Научная статья на тему 'РАЗРАБОТКА ПРОГРАММНОГО МОДУЛЯ СЕМАНТИЧСКОГО АНАЛИЗА ПАТЕНТНОГО МАССИВА'

РАЗРАБОТКА ПРОГРАММНОГО МОДУЛЯ СЕМАНТИЧСКОГО АНАЛИЗА ПАТЕНТНОГО МАССИВА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
62
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПАТЕНТ / СЕМАНТИЧЕСКИЙ АНАЛИЗ USPTO / AWS / AMAZON COMPREHEND / TWINWORD / DYNAMODB

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Коробкин Д.М., Манукян А.В., Фоменков С.А., Козина С.А.

В ходе проектирования программного модуля был разработан алгоритм парсинга текстов патентов и патентных заявок, алгоритм поиска патентов-аналогов на основе полнотекстового поиска с использованием технологии Amazon Twinword, алгоритм поиска патентов-аналогов на основе ключевых фраз, выявленных с использованием технологии Amazon Comprehend, кластеризации патентного массива. Было разработано программное обеспечение для кластеризации патентного массива и ускорения работы эксперта патентного ведомства за счет поиска ключевых фраз и патентов-аналогов

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Коробкин Д.М., Манукян А.В., Фоменков С.А., Козина С.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPING A SOFTWARE MODULE FOR THE SEMANTIC ANALYSIS OF THE PATENT ARRAY

While designing the software module, the authors developed an algorithm for parsing the texts of patents and patent applications, an algorithm for searching patents-analogues based on full-text search using Amazon Twinword technology, an algorithm for searching patents-analogues based on key phrases identified applying Amazon Comprehend technology, clustering the patent array. The software was developed to cluster the patent array and speed up the patent office examiner’s work by searching for key phrases and patent analogues

Текст научной работы на тему «РАЗРАБОТКА ПРОГРАММНОГО МОДУЛЯ СЕМАНТИЧСКОГО АНАЛИЗА ПАТЕНТНОГО МАССИВА»

Автоматизация и моделирование в проектировании и управлении. 2023. № 2 (20). С. 14-22.

ISSN 2658-3488 print, ISSN 2658-6436 online Automation and modeling in design and management. 2023. № 2 (20). P. 14-22.

Научная статья

Статья в открытом доступе

УДК 004.89

doi: 10.30987/2658-6436-2023-2-14-22

РАЗРАБОТКА ПРОГРАММНОГО МОДУЛЯ СЕМАНТИЧСКОГО АНАЛИЗА

ПАТЕНТНОГО МАССИВА

Дмитрий Михайлович Коробкин10, Арсен Ваганович Манукян2к|, Сергей Алексеевич Фоменков30, Светлана Александровна Козина40

i, 2, з, 4 вОЛГОГрадСкий государственный технический университет, г. Волгоград, Россия

1 dkorobkin80@mail.ru, http://orcid.org/0000-0002-4684-1011

2 rasenl3@mail.ru, http://orcid.Org/0000-0000-0000-0000

3 saf@vstu.ru, http://orcid.org/0000-0001-9907-4488

4 ksvetlan54@gmail.com, http://orcid.org/0000-0003-4049-620X

Аннотация. В ходе проектирования программного модуля был разработан алгоритм парсинга текстов патентов и патентных заявок, алгоритм поиска патентов-аналогов на основе полнотекстового поиска с использованием технологии Amazon Twinword, алгоритм поиска патентов-аналогов на основе ключевых фраз, выявленных с использованием технологии Amazon Comprehend, кластеризации патентного массива. Было разработано программное обеспечение для кластеризации патентного массива и ускорения работы эксперта патентного ведомства за счет поиска ключевых фраз и патентов-аналогов.

Ключевые слова: патент, семантический анализ USPTO, AWS, Amazon Comprehend, Twinword, DynamoDB

Финансирование: Исследование выполнено за счет гранта Российского научного фонда № 23-21-00464, https ://rscf. ru/proj ect/23 -21 -00464/.

Для цитирования: Коробкин Д.М., Манукян А.В., Фоменков С.А., Козина С.А. Разработка программного модуля семантичского анализа патентного массива // Автоматизация и моделирование в проектировании и управлении. 2023. №2 (20). С. 14-22. doi: 10.30987/2658-6436-2023-2-14-22

Original article Open Access Article

DEVELOPING A SOFTWARE MODULE FOR THE SEMANTIC ANALYSIS OF THE PATENT ARRAY

Dmitry M. Korobkin10, Arsen V. Manukyan20, Sergey A. Fomenkov3, Svetlana A. Kozina4

1,2,3,4 y0ig0gra(j state Technical University, Volgograd, Russia

1 dkorobkin80@mail.ru, http://orcid.org/0000-0002-4684-1011

2 rasenl3@mail.ru, http://orcid.Org/0000-0000-0000-0000

3 saf@vstu.ru, http://orcid.org/0000-0001-9907-4488

4 ksvetlan54@gmail.com, http://orcid.org/0000-0003-4049-620X

Abstract. While designing the software module, the authors developed an algorithm for parsing the texts of patents and patent applications, an algorithm for searching patents-analogues based on full-text search using Amazon Twinword technology, an algorithm for searching patents-analogues based on key phrases identified applying Amazon Comprehend technology, clustering the patent array. The software was developed to cluster the patent array and speed up the patent office examiner's work by searching for key phrases and patent analogues.

Keywords: patent, USPTO semantic analysis, AWS, Amazon Comprehend, Twinword, DynamoDB Funding: The research was carried out at the expense of the grant of the Russian Science Foundation No. 23-21-00464, https://rscf.ru/project/23-21-00464/

For citation: Korobkin D.M., Manukyan A.V., Fomenkov S.A., Kozina S.A. Developing a software module for the semantic analysis of the patent array. Automation and modeling in design and management, 2023, no. 2 (20). pp. 14-22. doi: 10.30987/2658-6436-2023-2-14-22.

Введение

Одна из самых больших проблем XXI века, связанная с патентным правом, это загруженность патентного ведомства. Только UPSTO (ведомство по патентам и товарным знакам США) [1] в неделю рассматривает порядка 10 тысяч патентов. И каждому патенту нужно

14 © Коробкин Д.М., Манукян A.B., Фоменков С.А., Козина С.А., 2023

уделить особое внимание, понять: не затронуты ли патентные права другого патента, не является ли патент псевдонаучным, «очевидным», в конечном итоге произвести полную классификацию патента со всеми описаниями и ссылками.

Семантический анализ патентного массива позволяет решить ряд современных проблем:

1. Кластеризация патентного массива (моделирование тем) позволяет выявлять группы связанных (не на основе патентной классификации, а на базе извлеченных из текстов ключевых терминов/фраз) патентов. Данная информация может быть полезная для выявления патентных трендов, ключевых современных технологий и прогноза востребованности технологий в будущем временном периоде.

2. Автоматизация работы эксперта патентного ведомства. На основе полнотекстового запроса (текста патентной заявки) может осуществляться поиск патентов-аналогов. Кроме того, может быть автоматизирован процесс выявления ключевых фраз как в тексте патентной заявки, так и в тексте патента.

Были проведены предпроектные исследования: изучена патентная классификация, структура патента, патентные поисковые системы (Google Patents [2], USPTO [1], Espacenet [3], ФИПС Роспатента [4]).

В работе было проведено сравнение существующих патентных поисковых систем по следующим критериям: поиск по ключевым словам; поиск по метаданным; выделение ключевых слов.

Результаты проведенного сравнительного анализа представлены в табл. 1.

Таблица 1

Результаты сравнения существующих решений

ТаЫе 1

Results of comparison ofexisting solutions

Система Поиск по ключевым словам Поиск по метаданным (патентной классификации) Выделение ключевых слов

Espacenet + + +

USPTO + + -

Google Patents + - +

ФИПС + + -

Несмотря на то, что поиск по ключевым словам присутствует в функционале всех систем, одной из насущных проблем патентного поиска является отсутствие автоматизации труда эксперта патентного ведомства в части поиска ключевых слов/фраз.

Кластеризация патентного массива и определение патентов-аналогов внутри определенного кластера также позволяют автоматизировать труд эксперта патентного ведомства

а) б)

Рис. 1. Процесс работы эксперта патентного ведомства:

а - AS-IS; б - ТО-ВЕ Fig. 1. The process of work of the patent office expert:

a - AS-IS; б - TO-BE

Была поставлена задача исследования - разработка методологии и технологии автоматизации работы эксперта патентного ведомства за счет выявления ключевых фраз в тексте патентов и поиска патентов-аналогов.

Установлены следующие требования к программному обеспечению:

- использование технологии AWS [5];

- применение технологий семантического анализа текста Amazon Comprehend [6], Twinword [7];

- исходные файлы патентов USPTO необходимо хранить в AWS S3 [8];

- извлечение элементов описания патентов должно осуществляться из патентных баз USPTO;

- для хранения элементов описания патентов необходимо использовать систему управления базами данных (СУБД) DynamoDB [9].

Парсинг патентных документов

На первом этапе происходит парсинг патента - извлечение метаданных (даты публикации, названия, классификации, имен авторов, кода и т.д.) для наполнения баз данных (БД) DynamoDB. Извлеченные поля патента (с которыми в дальнейшем и будет производиться обработка): поля рефератов, описаний и формул изобретений, помещаются в хранилище S3 для дальнейших преобразований технологиями Amazon.

Патентный архив представляет собой xml-файл, содержащий в себе патенты за определенный период времени (неделю). В процессе парсинга патентного архива извлекаются и помещаются в корневые директории патентные тексты в формате xml для дальнейшей обработки.

Патентные тексты обрабатываются по следующему алгоритму:

1. Патентный текст проверяется на валидность формата. Если патент валиден, алгоритм продолжается, иначе патент обработке не подлежит.

2. В процессе парсинга проверяется наличие патентных метаданных (даты публикации, названия, классификации, имен авторов, кода и т.д.), если хотя бы одна из метаданных отсутствует, патент признается невалидным (проверка происходит не после парсинга всех метаданных, а после проверки каждого поля), иначе алгоритм продолжается.

3. Патент, прошедший все проверки (валидный), сохраняется по следующей логике: метаданные патента - в DynamoDB, поля патента (рефераты, описания и формулы изобретений) - в корневые директории и далее в хранилище Amazon S3.

Выявление ключевых фраз

Выявление ключевых фраз в тексте патентной заявки и/или патента происходит при помощи технологии Amazon Comprehend - Detect Key Phrases (ACDKP) [10]. В выбранном патенте находятся ключевые слова с их значимостью. Уже на данном этапе это намного облегчает работу эксперта патентного ведомства, так как обычно поиск подобных ключевых фраз их использования в поисковых патентных системах (например, Google patents) экспертом производится вручную.

Кластеризация патентного массива

Кластеризация - задача группировки множества объектов на подмножества (кластеры) таким образом, чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому-либо критерию.

Для кластеризации патентного массива используется технология Amazon Comprehend -Topic Modeling (АСТМ) [11] (тематическое моделирование). Тематическое моделирование-способ построения модели коллекции текстовых документов, которая определяет к каким темам относится каждый из Тематическая модель коллекции текстовых доку-

ментов также определяет какие слова (термины) образуют каждую тему.

Переход из пространства терминов в пространство найденных тематик помогает раз-

решать синонимию и полисемию терминов, а также эффективнее решать такие задачи как: тематический поиск, классификация и т.п.

В нашем исследовании база (более чем 50 тысяч патентов) неявно кластеризуется на 10 топиков (кластеров) с помощью технологии Amazon Comprehend - Topic Modeling. Каждый патент, представленный в виде обработанного txt-файла, соотносится с выбранным в ходе моделирования тем топиком.

Поиск патентов-аналогов на основе полнотекстового запроса осуществляется при помощи технологии Amazon Twinword TextSimilarity [7] (ATTS). Патентный массив после кластеризации обрабатывается с использованием различных подходов. Например, может быть выбрана группа патентов, принадлежащая к определенному топику, и при этом патенты должны иметь принадлежность к топику, превышающую установленное пороговое значение, например, 0,8 (не может превышать 1). Далее из этой группы выбирается один патент и сравнивается со всеми остальными для проверки «сильной» схожести текстов. Также может быть сделана обратная проверка, например, могут быть выбраны патенты, принадлежащие к различным топикам и имеющие принадлежность к этим топикам более чем 0,8 для проверки «слабой» схожести текстов.

Для реализации разрабатываемой программы был выбран язык программирования Python версии 3.7. Для реализации парсинга патентных документов и заявок была выбрана библиотека xml.dom. Для получения доступа к технологиям AWS использовалась библиотека boto3, с помощью которой было реализовано подключение к Amazon сервисам: DynamoDB, Amazon S3, ACDKP, АСТМ, ATTS.

Диаграмма вариантов использования приведена на рис. 2.

!ыорать директорию сохранения i текстов и загрузить патентный д

include

inducts

Рис. 2. Диаграмма вариантов использования программы Fig. 2. Diagram of the use cases of the program

Архитектура программы представлена на рис. 3, где 1 - запись распарсенных патентов в директории; 2 - чтение патентных документов; 3 - запись метаданных распарсенных патентов в DynamoDB; 4 - подключения и проверки DynamoDB; 5 - заполнение хранилища Amazon S3 распарсенными патентами из корневых директорий; 6 - подключение к технологии Amazon; 7 - подключение к технологии Amazon Comprehend; 8 - подключение к технологии Amazon Twinword; 9 - кластеризация патентного массива с помощью технологии Topic Modeling; 10 - выявление ключевых фраз с помощью технологии DetectKeyPhrases; 11 - запись результата работы Topic Modeling в Amazon S3; 12 - запись результата работы DetectKeyPhrases в Amazon S3; 13 - поиск патентов-аналогов с помощью технологии Text Similarity; 14 - запись результата работы Text Similarity в корневые директории.

Программа

Блок проверки работы с DynamoDB

Блок парен нга патентных документов и текстов

5Z

Блок работы с файлами из корневых директорий

блок работы с Topic Modeling

ТУ

Блок работы с DetectKeyPhrases

10

Блок работы с Тел Similarity

ту

5Zi

Блок работы с DynamoDB

Блок работы с Amazon Comprehend

vv

Блок работы с Amazon Twinword

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Блок работы с Amazon

Ж

Блок работы с технологиями Amazon

Рис. 3. Архитектура программного модуля Fig. 3. Architecture of the software module

Для хранения основных характеристик патентов: дата публикации, название, классификация, имена авторов, код, ссылка на патент в хранилище Amazon S3, используется СУБД класса NoSQL в формате ключ-значение - DynamoDB.

На рис. 4 представлен вид таблицы patent в DynamoDB. Работа с DynamoDB осуществляется из публичного облака Amazon как часть пакета AWS.

id ö - author_name(s) date of publicatii

251 {"Christophe Alepee", "Thierry Guiton"} 2020.12.22

1838 {"Jochen Hiemeyer", "Martin Kerstner", "Michael Freitag"} 2020.12.22

3389 {"Stefan Müller} 2020.12.22

3416 {"Li Wang", "Ling Shi", "Song Zhang"} 2020.12.22

4119 {"Hao Chen", "Maowei Yang"} 2020.12.22

4GGG {"Matthew Lucius Colatruglio", "Michael T. Stanhope"} 2019.11.20

4847 {"YoshiniroKojima"} 2019.11.26

5628 {"FuyuKi Sugiura", "Motohiro Nagaya"} 2019.11.26

5749 {"Kim L. Waltor", "Yushan Hu"} 2019.11.26

6207 {"Benoit Prouvost", "Delphine Destal", "Marie-Edith Quereau", "Philippe Mi... 2019.11.26

6633 {"Gregory Patton", "Janine Graham", "Nicole Nichols"} 2019.11.26

7304 {"Churiming-Parker Zhang", "Lixian Liu", "Sylvain Yvon"} 2019.11.26

ipc_class patent'

{ "A61В 17/00", "A61В 17/0023", "A61B 17/00477", "A61B 17/00482", "A61... USIOSbi {"F25B 1/00", "F25B 2339/046", "F25B 2600/02", "F25B 2600/11", "F25B2... US1087

{ "C23C 14/08", "G11C 11/22", "G11C 11/223", "G11C 11/2273", "H01L21/. US 108"

{"H01L2251/5338", "H01L27/1244", "H01L 27/3227", "H01L27/3244". "H... US10Ê

{"G06F 21/6254", "G0SQ 10/10", "G06Q 50/01", "H04L12/4625", "H04L 4... US10£ "

{ "A41D 1/06", "A41D 13/00", "A41D 13/01", "A41D 13/012", "A41D 13/015... U3104

{ "A61B 5/0077", "A61В 5/024", "A61B 5/11", "A61B 5/18", "A61B 5/6893", ... US104:

{ "B23Q 17/0961", "G05B 13/026™, "G05B 19/19", "G05B 2219/45244", "HO... US104K

{ "C08K. 3/16", "C08L 23/10" } US104G

{ "B05D 7/14", "B32B 15/08", "B32B 2435/02", "B65D 41/023", "C08F 283/... U S104

{"A61К 9/19", "C12N 9/1252", "C12Q 1/6848", "C12Q 1/686", "C12Y 207/0.. US104

{"B60Q 3/82", "F21K9/00", "F21S 41/143", "F21S 41/192", "F21S 43/14", ... US104

Рис. 4. Структура БД DynamoDB Fig. 4. DynamoDB database structure

Для хранения извлеченных полей патента (полей рефератов, описаний и формул изобретений) в txt-формате используется хранилище Amazon S3. Выбор данного хранилища в главной степени обусловлен тем, что обработка патентного массива на основе технологий AWS требует доступа к «родному» файловому хранилищу Amazon S3.

Высший слой файлового хранилища Amazon S3 представлен в виде Buckets. В свою очередь Buckets имеют внутри себя различные объекты. В данном случае реализация имеет следующий вид: каждая папка patent.storage внутри Bucket является аналогом патентного документа и включает в себя все обработанные патенты в формате txt. Хранилище обработанных патентов показано на рис. 5. Также хранилище Amazon S3 используется для хранения результатов работы ACDKP и АСТМ (Buckets «key phrases» и «topic.modeling», соответственно).

Objects (999+)

Object are the fundamental entities stored in Amazon Si. Vou tan jse Amazon S3 inventory E ¡-o get a list of all objects in your bucket. For otbe d 0 Copy URL Open Download Delete | Actions ▼ Create folder

Name A Type Last modified

Q .txt txt February 15, 2021, 15:18:04 (UTt>03:00|

0 10.txt txt February 15, 2021, 15:18:04 (UT003:00)

Q tQO.bit txt February 15, 2021, 15:18:04 (UT003:00)

Рис. 5. Хранилище обработанных патентов в Amazon S3 Fig. 5. Storage ofprocessed patents in Amazon S3

Ключевая фраза - это строка, содержащая словосочетание, описывающее определенный объект. Обычно она состоит из существительного и модификаторов. Например, слово «day» - это существительное, а «а beautiful day» - это словосочетание, включающее артикль «а» и прилагательное «beautiful».

Каждая ключевая фраза в Amazon Comprehend имеет оценку, которая указывает на уровень уверенности в том, что данная строка является словосочетанием, содержащим существительное (рис. 6). Данную оценку можно использовать для того, чтобы определить, достаточно ли высок уровень обнаружения того или иного объекта. Операции по обнаружению ключевых фраз могут выполняться с использованием любого из языков, поддерживаемых Amazon Comprehend. При этом необходимо учитывать, что все документы должны быть на одном языке.

Entities Key phrosei Language PII Sentiment Syntax

Analyzed text

p,nenc_code. U5TOB7ia15B2 abstract: The present invention relates to a refuge-rant circuit lor a refrigerator and/or freezer, with at least one body and with at least one cooled interior space arranged In the body, wherein the refrigerant circuit includes at least one evaporator and at least one condenser as well as at (east one compressor, wherein the condenser is partly or completely arranged in s liquid bath that at least partly absorbs the condensation htdi in operation of the refrigerant circuit, aestnption: This application is ¿National Stage Application of PCT/EP2017/00Q31Q, filed Mar 8, 2017, whkh claims priority to German Patent Application Mo. 10 2017 000 257.1 filed Jan 12, 2017 and German Patent Application No. 10 201G 005 2J4.8 hlc-d Mar 1G. 20'b. The present invention relates to a refrigerant circuit for a refrigerator and/or freezer with at least one body and at least one cooled interior space arranged in the body, wherein the refrigerant circuit includes at least one evaporator ana at least one condenser as well 3S at least one comp ressor. Such refrigerant circuits are known from the prior art They serve for cooling the cooled inti'rior space of a refrigerator^r freezer wherein cooling is effected by the evaporator in which the refrigerant evaporates. The heat withdrawn in this way from the cooled interior space usually is discharged to

' Results

Q « w ri < 1 2 5 à 5 6 7 ... 17 > ©

Key phrases v Confidence

the invention 1,00

the compressor 1.00

Рис. 6. Результаты Text Analysis (Key Phrases) Fig. 6. The result of Text Analysis (Key Phrases)

Amazon Comprehend использует скрытую модель обучения на основе распределения Дирихле для определения тем в наборе документов. Он проверяет каждый документ, чтобы определить контекст и значение того или иного слова. Набор слов, которые часто принадлежат к одному и тому же контексту во всем наборе документов, составляет тему. Слово ассоциируется с темой в документе в зависимости от того, насколько распространена эта тема в документе и насколько близка тема к слову. Одно и то же слово может быть связано с раз-

ными темами в разных документах в зависимости от распределения тем в конкретном документе. Например, слово «глюкоза» в статье, в которой говорится преимущественно о спорте, может быть отнесено к теме «спорт», в то время как то же самое слово в статье о «медицине» будет отнесено к теме «медицина». Каждому слову, связанному с темой, присваивается вес, который указывает, насколько это слово помогает определить тему. Вес - это показатель того, сколько раз слово встречается в теме по сравнению с другими словами в теме во всем наборе документов. Результат моделирования темы Amazon Concept показан на рис. 7. По результату можно оценить сходство двух слов, предложений, абзацев или документов, а также получить оценку того, насколько похожи или отличаются два текста.

Например, Amazon говорит о реальном примере использования, данный API был применен при создании первого инструмента семантического исследования ключевых слов, который может быть отсортирован по релевантности. Исследование ключевых слов включает в себя просмотр длинных списков ключевых слов, чтобы найти наиболее релевантные из них. Результат сходства текста Amazon Twinword показан на рис. 8.

topic,term,weight

000,method,0.016401418

000,comprised. 019146329

000, claim,0.021325674

ООО,material,0.007775651

ООО, com posit ion, 0.0047576763

000,group,0.005427S63

000,invention,0.007046096

000, compound,0.004202903 l 000,acid,0.003328046S

000,cell,0.00490938

001,user,0.0239455 : 001,information,0.023247061

001,network,0.013106099 : 001,system,0.0153446505 . 001, base,0.012511535 ' 001,method,0.01442S071 : 001,communication,0.010289393 i 001,computer,0.009094545 : 001,receive,0.010849599

001,content,0.0075957146 : 002,system,0.03701435 > ¡002,vehicle,0.014393139

002,sensor,0.008779963 a)

Рис. 7. Результаты Amazon Comprehend Topic Modeling:

a - термы кластеров; б — патенты, подвергшиеся кластеризации Fig. 7. The result of Amazon Comprehend Topic Modeling:

a — cluster terms; b —patents that have undergone clustering

{'similarity" 0 7703936811034408,

{'similarity' 0 8912862283337145,

{'similarity' 0 5967785286591871,

{'similarity' 0 6410642220816088,

{'similarity' 0 3910770880741828,

{'similarity' 0 315626944456838, '

{'similarity' 0 3482453255650077,

{'similarity" 0 46596123512583165,

Рис. 8. Результат работы Amazon Twinword Text Similarity Fig. 8. The result of work Amazon Winword TextSimilarity

docname,topic,proportion

patent Jd_dynamodb_5/31342.txt,001,0.531576

patent_id_dynamodb_5/31342.txt,005,0.468424

patent Jd_dynamodb_2/9956.txt,009,0.867848

patent_id_dynamodb_2/9956.txt,000,0.084929

patent_id_dynamodb_2/9956.txt,002,0.047223

patentjd_dynamodb_l/690.txt,000,0.457953

patentJd_dynamodb_l/690.txt,002,0.2395

patent_id_dynamodb_l/690.txt,004,0.23198

patent_id_dynamodb_l/690.txt,005,0.020567

patent_id_dynamodb_2/6776.txt,004,0.408577

patentjd_dynamodb_2/6776.txt,002,0.352574

patent_id_dynamodb_2/6776.txt,000,0.206286

patent_id_dynamodb_2/6776.txt,003,0.032563

patent_id_dynamodb_3/16650.txt,009,0.612836

patent_id_dynamodb_3/16650.txt,000,0.263136

patent jd_dynamodb_3/l6650.txt,006,0.124028

patent id dynamodb 5/26888.txt,003,0.443265

6)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Заключение

Актуальность работы обусловлена тем, что семантический анализ патентного массива позволяет решить ряд современных проблем:

- автоматизация работы эксперта патентного ведомства. На основе полнотекстового запроса (текста патентной заявки) может осуществляться поиск патентов-аналогов. Кроме того, может быть автоматизирован процесс выявления ключевых фраз как в тексте патентной заявки, так и в тексте патента;

- кластеризация патентного массива (моделирование тем) позволяет выявлять группы связанных (не на основе патентной классификации, а на базе извлеченных из текстов ключевых терминов/фраз) патентов.

В результате данной работы был разработан программный модуль, обеспечивающий возможность проведения кластеризации патентного массива и позволяющий идентифицировать группы связанных патентов с использованием технологий АСТМ. Также на основе полнотекстового запроса (текст патентной заявки) был проведен поиск патентов-аналогов с использованием технологий ATTS. Процесс определения ключевых фраз как в тексте патентной заявки, так и в тексте патента был автоматизирован с использованием технологий ACDKP.

Теоретическая значимость работы заключается в разработанных алгоритмах парсинга текстов патентов и патентных заявок USPTO; кластеризации патентного массива; извлечения ключевых фраз из патентных текстов; полнотекстового поиска патентов-аналогов.

Практическая значимость работы заключается в разработанном программном модуле семантического анализа патентного массива для задач патентного поиска и кластеризации. В данной работе использовались технологии AWS: семантический анализ текста Amazon Comprehend, Twinword, хранилище AWS S3, СУБД DynamoDB.

Список источников:

1. Patents. USPTO. Available from:

2. Google Patents. Available from: https://patents.

https://worldwide.espacenet.com/ (Accessed 07.11.2022).

4. Федеральный институт промышленной собственности [Электронный ресурс]. URL: https://www.fips. га/ (дата обращения 07.11.2022).

5. Joe Baron, Hisham Baz, Tim Bixler, Biff Gaut, Kevin E. Kelly, Sean Senior, John Stamper. AWS Certified Solutions Architect Official Study Guide: Associate Exam. 2016. Available from: https://www.pdfdrive.com/ aws - certified - solutions -architect-official-study-guide-associate-exam-e38558089.html (Accessed 7.11.2022).

6. Возможности Amazon Comprehend [Электронный ресурс] // aws. URL: https://aws.amazon.com

7. Text Similarity API. aws marketplace. Available from: https://aws.amazon.com/marketplace/pp/B071G93

8. Amazon S3 [Электронный ресурс] // aws. URL: https://aws.amazon.com/ra/s3/ (дата обращения

9. Amazon DynamoDB [Электронный ресурс] // aws. URL: https://aws.amazon.com/ru/dynamodb/ (дата

10. What is Amazon Comprehend? aws. Available from: https://docs.aws.amazon.com/comprehend/latest/

References:

1. Patents. USPTO [Internet] [cited 2022 Nov 07]. Available from: https://www.uspto.gov/patents

Available from: https://patents.google.com/

3. Espacenet - Patent Search [Internet] [cited 2022

espacenet.com/

4. Federal Institute of Industrial Property [Internet]

https://www.fips.ru/

Senior S., Stamper J. AWS Certified Solutions Architect Official Study Guide: Associate Exam [Internet], 2016

pdfdrive. com/aws-certified-solutions-architect-official-study-guide-associate-exam-e38558089. html

6. Opportunities of Amazon Comprehend [Internet], AWS [cited 2022 Nov 07]. Available from: https://aws.amazon.com/ra/comprehend/features/

7. Text Similarity API [Internet], AWS Marketplace [cited 2022 Nov 07]. Available from: https://aws.amazon.

title

8. Amazon S3 [Internet], AWS [cited 2022 Nov 07]. Available from: https://aws.amazon.com/ru/s3/

9. Amazon DynamoDB [Internet], AWS [cited 2022 Nov 07]. Available from: https://aws.amazon.com/ ra/dynamodb/

10. What is Amazon Comprehend? [Internet], AWS [cited 2022 Nov 07]. Available from: https://docs.aws.

11. Topic modeling. aws. Available from: https://docs.aws.amazon.com/comprehend/latest/dg/topic-modeling.html (Accessed 07.11.2022).

Информация об авторах:

Коробкин Дмитрий Михайлович — кандидат технических наук, доцент кафедры «Системы автоматизированного проектирования и поискового конструирования» Волгоградского государственного технического университета, ORCID: 0000-0002-4684-1011

Манукян Арсен Ваганович — магистрант Волгоградского государственного технического университета, ORCID: 0000-0000-0000-0000

Фоменков Сергей Алексеевич - доктор технических наук, профессор кафедры «Системы автоматизированного проектирования и поискового конструирования» Волгоградского государственного технического университета, ORCID: 0000-0001-9907-4488

Козина Светлана Александровна - магистрант Волгоградского государственного технического университета, ORCID: 0000-0000-0000-0000.

amazon. com/comprehend/latest/dg/get-started-api-key-phrases.html

11. Topic Modelling [Internet], AWS [cited 2022 Nov 07]. Available from: https://docs.aws.amazon.com/ comprehend/latest/dg/topic-modeling.html

Information about the authors: Korobkin Dmitry Mikhailovich - Candidate of Technical Sciences, Associate Professor of the Department «Computer-Aided Design and Exploratory Design» of Volgograd State Technical University, ORCID: 0000-0002-4684-1011

Manukyan Arsen Vaganovich - undergraduate of Volgograd State Technical University, ORCID: 0000-0000-0000-0000

Fomenkov Sergey Alekseevich - Doctor of Technical Sciences, Professor of the Department «Computer-Aided

TeclmLal University, ORCID: 0000-0001-9907-4488

Kozina Svetlana Alexandrovna - undergraduate of Volgograd State Technical University, ORCID: 0000-0000-0000-0000.

Вклад авторов: все авторы сделали эквивалентный вклад в подготовку публикации.

Contribution of the authors: the authors contributed equally to this article.

Авторы заявляют об отсутствии конфликта интересов. The authors declare no conflicts of interests.

Статья поступила в редакцию 21.11.2022; одобрена после рецензирования 16.12.2022; принята к публикации 16.03.2023.

The article was submitted 21.11.2022; approved after reviewing 16.12.2022; accepted for publication 16.03.2023.

Рецензент - Малаханов А.А., кандидат технических наук, доцент, Брянский государственный технический университет.

Reviewer - Malakhanov А.А., Candidate of Technical Sciences, Associate Professor, Bryansk State Technical University.

i Надоели баннеры? Вы всегда можете отключить рекламу.