Научная статья на тему 'Проектирование автоматизированной системы реферирования текстов'

Проектирование автоматизированной системы реферирования текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
104
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА / ПОИСКОВЫЙ РОБОТ / РЕЛЕВАНТНОСТЬ / СИНТАКСИЧЕСКОЕ ДЕРЕВО / АВТОМАТИЗИРОВАННОЕ РЕФЕРИРОВАНИЕ / INFORMATION RETRIEVAL SYSTEM / SEARCH ENGINE / RELEVANCE / SYNTAX TREE / AUTOMATED TEXT SUMMARIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Андреева К.А., Шайдуров Р.С.

Рассматривается решение задачи автоматизированного извлечения структурированных данных из неструктурированных или слабоструктурированных текстов, получаемых поисковым роботом информационно-поисковой системы сайтов (ИПС).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF AUTOMATIC TEXT SUMMARIZATION SYSTEM

This article considers the problem of automated extraction of structured data (knowledge) from unstructured or semi-structured text, obtained by search robot of information retrieval system.

Текст научной работы на тему «Проектирование автоматизированной системы реферирования текстов»

Решетнеескцие чтения. 2015

УДК 004.775

ПРОЕКТИРОВАНИЕ АВТОМАТИЗИРОВАННОЙ СИСТЕМЫ РЕФЕРИРОВАНИЯ ТЕКСТОВ

К. А. Андреева1, Р. С. Шайдуров2

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-шаИ: 1ksuandreeva93@gmail.com, 2rostislavshaidurov93@gmail.com

Рассматривается решение задачи автоматизированного извлечения структурированных данных из неструктурированных или слабоструктурированных текстов, получаемых поисковым роботом информационно-поисковой системы сайтов (ИПС).

Ключевые слова: информационно-поисковая система, поисковый робот, релевантность, синтаксическое дерево, автоматизированное реферирование.

DEVELOPMENT OF AUTOMATIC TEXT SUMMARIZATION SYSTEM

K. A. Andreeva1, R. S. Shaydurov2

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: 1ksuandreeva93@gmail.com, 2rostislavshaidurov93@gmail.com

This article considers the problem of automated extraction of structured data (knowledge) from unstructured or semi-structured text, obtained by search robot of information retrieval system.

Keywords: information retrieval system, search engine, relevance, syntax tree, automated text summarization.

На сегодняшний день происходит стремительное увеличение количества неструктурированной текстовой информации, что является причиной трудной доступности целевых знаний, когда в них возникает потребность. Современные ИПС не рассчитаны на решение данной задачи, поскольку они оперируют словами из текста, а не знаниями, содержащимися в нем, что порождает глубокий семантический разрыв между пользователем и ИПС. В связи с этим для более релевантного удовлетворения пользовательских запросов необходима некоторая система извлечения знаний из текстов, позволяющая автоматически выделять смысловую, оценочную и прочие виды информации. Результаты данной работы могут находить применение в различных предметных областях, в том числе в авиационной и ракетно-космической промышленности, предоставляя возможность проведения автоматизированного анализа текстового содержимого с целью извлечения из него конкретных знаний, позволяющих кратко обозначить основную мысль текста и, соответственно, обновить или заполнить базу данных ими.

Задачей проектируемой системы является формирование синтаксического дерева зависимостей для каждого предложения. Под деревом зависимостей предложения подразумевается ориентированный граф, вершинами которого являются ключевые слова, а дугами - связи между ними, обозначающие синтаксическое подчинение (рис. 1) [1].

Синтаксический анализ текста разделяют на глубокий анализ и поверхностный [2; 3]. Задачей глубокого синтаксического анализа является построение

полного синтаксического дерева предложения с максимальной связностью. Поверхностный синтаксический анализ направлен на построение неполной синтаксической структуры текста разной сложности [4]. Для использования проектируемой системы в ИПС проведения поверхностного синтаксического анализа текста более чем достаточно.

мама

суЮьект

раму

мыла

ооъект

Рис. 1. Дерево зависимостей предложения «Мама мыла раму»

Формирование поверхностного синтаксического дерева предложения должно состоять из следующих этапов:

1. Грубое разделение предложения на синтаксические группы в местах употребления союзов и знаков препинания. Например:

«[Япозвонила], и [мне тут же открыли дверь].»

Однако на данном этапе есть ряд своих нюансов. Например, не всегда союзами и знаками препинания разделяются разные смысловые части. Эти проблемы необходимо предусмотреть.

2. Замена ключевых слов в группах на обозначения соответствующих частей речи и удаление остальных «незначительных» слов. Для решения данной задачи необходимо сформировать морфологические категории для разных частей речи. Например:

Программные средства и информационные технологии

Морфологические признаки глаголов

Для упрощения и ускорения данного этапа используются различные синтаксически размеченные языковые корпусы. Одним из лучших синтаксических корпусов русского языка считается «СинТагРус» [5].

3. Соединение полученных на предыдущих этапах синтаксических групп операторами булевой алгебры для установления их связей друг с другом.

4. Определение ролей в каждой синтаксической группе. Для этого могут быть использованы фреймы, индуктивное логическое программирование, принцип максимальной энтропии.

В результате выполнения данных этапов из исходного предложения формируется граф зависимостей, который впоследствии может быть использован ИПС для более эффективного удовлетворения пользовательских запросов (рис. 2).

булок (1-компл)

Рис. 2. Синтаксические зависимости предложения «Съешьте еще этих булок, да выпейте же чаю»

В настоящее время предполагается реализация базового варианта предложенного алгоритма и его интеграция в ИПС, разработанную авторами. В качестве средств реализации будут использоваться языки

программирования Python, Perl, C++. Такая модификация ИПС позволит повысить релевантность информационного поиска.

Библиографические ссылки

1. Смирнов И. В., Шелманов А. О. Семантико-синтаксический анализ естественных языков // Искусственный интеллект и принятие решений. 2013. № 1. С. 43-54.

2. Синтаксический и семантический парсер, основанный на лингвистических технологиях ABBY Compreno / К. В. Анисимович [и др.] // Диалог 2014 : тр. Междунар. конф. 2014.

3. Протасов С. Преимущества грамматики связей русского языка // Диалог 2005 : тр. Междунар. конф. 2005.

4. Синтаксический анализатор системы этап: современное состояние / Л. Л. Иомдин [и др.] // Dialogue : papers from the Annual International Conference. 2012.

5. Синтаксически размеченный корпус русского языка [Электронный ресурс]. URL: http://www. ruscorpora.ru/index.html (дата обращения: 15.08.2015).

References

1. Smirnov I. V., Shelmanov A. O. Semantiko-sintaksicheskij analiz estestvennyh jazykov // Iskusstven-nyj intellekt i prinjatie reshenij. 2013. № 1. S. 43-54.

2. Sintaksicheskij i semanticheskij parser, osnovannyj na lingvisticheskih tehnologijah ABBY Compreno / K. V. Anisimovich, K. Ju. Druzhkin, K. A. Zuev i dr. // Trudy mezhdunarodnoj konferencii "Dialog 2014". 2014.

3. Protasov S. Preimushhestva grammatiki svjazej russkogo jazyka // Trudy mezhdunarodno j konferencii "Dialog 2005". 2005.

4. Sintaksicheskij analizato r sistemy jetap: sovre-mennoe sostojanie. / L. L. Iomdin, V. V. Petrochenkov, V. G. Sizovi dr. // Papers from the Annual International Conference "Dialogue". 2012.

5. Sintaksicheski razmechennyj korpus russkogo jazyka. Available at: http://www.ruscorpora.ru/index.html (accessed: 15.08.2015).

© Андреева К. А., Шайдуров Р. С., 2015

Прошедшее время Настоящее время Будущее время

Несовершенный вид Воспитывались Воспитываются Будут воспитываться

Совершенный вид Были воспитаны Воспитаны Будут воспитаны

УДК 621.391

МОДЕЛИРОВАНИЕ КАНАЛА СВЯЗИ КОМАНДНО-ИЗМЕРИТЕЛЬНОЙ СИСТЕМЫ

КОСМИЧЕСКОГО АППАРАТА

С. Б. Арыков1, А. А. Судьбин1, В. А. Шатров2, С. А. Рябушкин2, А. И. Вильданов2

1ЗАО «СофтЛайн Трейд» Российская Федерация, 115114, г. Москва, Дербеневская набережная, 7

2АО «Информационные спутниковые системы» имени академика М. Ф. Решетнёва» Российская Федерация, 662972, г. Железногорск Красноярского края, ул. Ленина, 52 E-mail: arykov@mail.ru, vitalys@iss-reshetnev.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.