Научная статья на тему 'Извлечение информации из текста с помощью автоматической обработки естественно-языковых запросов'

Извлечение информации из текста с помощью автоматической обработки естественно-языковых запросов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
210
28
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сафонов К.В., Личаргин Д.В., Калинин А.А.

Описываются некоторые принципы работы синтаксического анализатора для обработки запросов на естественном языке в поисковых системах. Рассматриваются некоторые принципы анализа естественного языка и предлагается использовать табличные запросы при работе с поисковыми системами.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сафонов К.В., Личаргин Д.В., Калинин А.А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

TEXT INFORMATION EXTRACTION BY MEANS OF THE AUTOMATIC PROCESSING OF NATURAL LANGUAGE QUERIES

In the article some principles of the syntactic analyzer work for natural language queries processing in searching machines are described. Some principles of natural language analysis are considered, the use of table queries while using a searching machine is offered.

Текст научной работы на тему «Извлечение информации из текста с помощью автоматической обработки естественно-языковых запросов»

Решетневские чтения

УДК 519.682

К. В. Сафонов, Д. В. Личаргин Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск

А. А. Калинин

Сибирский федеральный университет, Россия, Красноярск

ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТА С ПОМОЩЬЮ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ЗАПРОСОВ

Описываются некоторые принципы работы синтаксического анализатора для обработки запросов на естественном языке в поисковых системах. Рассматриваются некоторые принципы анализа естественного языка и предлагается использовать табличные запросы при работе с поисковыми системами.

В работе рассматривается проблема представления информации, а именно текста на естественном языке для запросов поисковых систем. Объектом исследования является мультииерархическая система естественного языка (ЕЯ). Рассмотрим некоторые из возможных реализаций алгоритма поиска строки 84 в тексте 8 тематики Т.

1. Текст рассматривается как множество слов разделенных пробелами, над которыми может распознаваться множество пар, троек, четверок и так далее слов вида Б^) + Б^) + Б("э) + ... , где функция Б от аргумента в виде стандартной словоформы воз -вращает значение в виде множества производных словоформ (морфологических дериват). Б(«слон») = = {«слона», «слону», «слоном», ...}. Данные значения могут объединяться в группу фразеологизма: Б("1) + ... + Р[Б("0 + ... + Б(^)] + Б("У ... . После обнаружения некоторое множество вхождений различных вариантов искомого слова в строку 84 текста 8 осуществляется выборка множества упоминаний слова в тексте 8. Например, {«слон живет», «говорить о слоне», «большой слон»}. Большинство таких упоминаний могут быть иррелевантны запросу. 2. В менее тривиальном случае имеется строка слов для запроса в виде Б("1) + Б("2), ... Б("р).

3. В еще более сложном случае можно задать формулу поиска с особым синтаксисом с использованием символов конкатенации, конъюнкции, дизъюнкции и др.

4. Можно предложить также использовать набор подстановочных таблиц как выборки из реляционной базы данных понятийного пространства естественного языка, например, описанного в работе [1]. Например, таблица запроса, предлагаемая поисковой системой, может иметь вид [{таким образом, в связи с этим, при этом, ...} + {животное{слон, кошка, собака}, мифическое существо{дракон, кентавр, ...}} + + {может, должен, хочет, любит, .} + { есть, поедать, А{рвать, щипать, глотать, искать, ...}, В{охотиться на, рвать, преследовать, ...}} + {А{трава, яблоки, бананы, ...}, В{мыши, овцы, ...}}]. Выборка из такой таблицы может иметь вид [{слон, слониха, слоненок, индийский слон, африканский слон, . } + {обожают, любят, предпочитают} | {часто, обычно} | {много} + + {есть, жевать, уплетать, ...} + ЗАПРОС{растения{...}, плоды{...}}]. Результатом поиска поисковой системы может быть список ОТВЕТ{плоды{фрукты{бананы

{карликовый банан, заостренный банан, ...}}}, трава}. Такой разбор предложения является расширением традиционного грамматического разбора предложения из текста [2-7].

Традиционно в скобочной записи данную структуру записывается как [8 [№ Слон ] [УР [УР ест ] [К бананы] ] ], а запрос на естественном языке (вопрос) «Что ест слон?» - как [8 [№ Слон] [УР [УР ест] [КР X] ] ].

Предлагается представить запись грамматического, семантического и иного разбора предложения в виде леса деревьев над графом семантического разбора предложения или всего текста:

Лес лингвистического разбора <Дерево грамматического разбора<Вводное слово<Значит(1)>, Субъ-ект<Слон(2)>, Предикат<Модальность<Хочет(3 )>, Глагольная часть <Есть(4)>>, Объект<Определитель <Эти(5)>, Именная часть <Бананы(6)>> >, Дерево семантического разбора<Связь-Информация<Значит( 1)>, Сущность-Существо<Слон(2)>, Действие-Отношение <Хочет(3)>, Действие-Объект(Еда)<Есть(4)>, Свойст-во-Нечто<Эти(5)>, Сущность-Объект<Бананы(6)>> >. Одинаковые цифры обозначают тождественные узлы деревьев леса текста на ЕЯ. На деревьях леса предложения или текста на ЕЯ задаются функции, составляющие граф семантической сети над этим лесом.

Аналогичный разбор необходимо провести для семантического, текстологического, стилистического и других срезов мультииерархической системы текста на естественном языке.

Процесс извлечения информации из текстов должен учитывать необходимость нахождения подграфа семантической сети запроса в графе семантической сети текста.

Разработка методов решения рассматриваемой проблемы находится на уровне объединения концепций различных исследований в области грамматики, лексики, морфологии, графики, текстологии, семантики и стилистики языка с точки зрения модели муль-тииерархической системы, многоуровневого леса языка: текста, предложения, слова, семы, кванта смысла [1].

Новизна работы состоит в применении новых методов векторного представления семантики естественного языка [1] к проблеме представления ЕЯ для обработки запросов поисковыми системами и их обоб-

Информационно-управляющие системы

щающему характеру для системы ЕЯ в целом, а также в прикладном преобразовании линейной последовательности слов вопроса в семантическую структуру.

Учет рассматриваемых принципов полезен при построении поисковых систем, системах извлечения данных, а также в системах, использующих ЕЯ-интерфейсы.

Библиографические ссылки

1. Личаргин Д. В. Методы и средства порождения семантических конструкций естественно языкового интерфейса программных систем : дис. ... канд. техн. наук ; опуб. 05.13.17. Красноярск, 2004.

2. Briscoe E. G. Modeling human speech comprehension. Chichester : Ellis Horwood Ltd, 1987.

3. Frederking R. E. Integrated Natural Language Dialogue. A Computational Model. Kluwer Academic Publishers, 1988.

4. Jurafsky D., Martin G. H. Speech and Language Processing. Prentice Hall, 1999.

5. Striegnitz К., Blackburn Р., Erk К. Algorithms for Computational Linguistics. Saarbrcken, MiLCA, 2004.

6. Звегинцев В. А. Язык и лингвистическая теория. М. : Эдиториал УРСС, 2001.

7. Хомский Н. Три модели описания языка // Кибернетика. 1976. № 2. С. 154-232.

K. V. Safonov, D. V. Lichargin Siberian State Aerospace University named after academician M. F. Reshetnev, Russia, Krasnoyarsk

A. A. Kalinin Siberian Federal University, Russia, Krasnoyarsk

TEXT INFORMATION EXTRACTION BY MEANS OF THE AUTOMATIC PROCESSING OF NATURAL LANGUAGE QUERIES

In the article some principles of the syntactic analyzer work for natural language queries processing in searching machines are described. Some principles of natural language analysis are considered, the use of table queries while using a searching machine is offered.

© Сафонов К. В., Личаргин Д. В., Калинин А. А., 2010

УДК 629.78.086:629.76.036.5

С. Н. Соманенко, А. И. Косоруков, И. В. Шевцов

ОАО «Информационные спутниковые системы» имени академика М. Ф. Решетнева», Россия, Железногорск

АВТОМАТИЗАЦИЯ НАЗЕМНОЙ ЭКСПЕРИМЕНТАЛЬНОЙ УСТАНОВКИ ПРОВЕРКИ И РЕГУЛИРОВАНИЯ ПАРАМЕТРОВ МАЛОМОМЕНТНЫХ ЭЛЕКТРОДВИГАТЕЛЕЙ СОЗДАНИЕМ КОМПЛЕКСА КОНТРОЛЬНО-ПРОВЕРОЧНОЙ АППАРАТУРЫ

Разработана контрольно-проверочная аппаратура для автоматизированных испытаний электродвигателей 136.6100-0РЭ, предназначенная для проверки параметров электродвигателей ДБЭ63-25-6,3, ДБ9С/К30КТС1, 3(4)ДБ50-16-4, Д-95, Д-60Г, ДПР42, ДПР52 как при проведении их входного контроля, так и в составе узлов автоматики.

Испытания электродвигателей могут длиться от одного до нескольких часов. При этом необходим постоянный контроль и регулирование параметров для достижения необходимых величин. Это приводит к необходимости введения круглосуточных рабочих смен и постоянной занятости испытательного и измерительного оборудования.

Система контроля параметров электродвигателей представляет собой комплекс, состоящий из персонального компьютера, блока управления электродвигателями и соединительных кабелей, руководства по эксплуатации 136.6100-0РЭ (далее КПА). По сравнению с пультами, построенными на дискретных элементах, данная КПА имеет комплекс преимуществ -более удобное интегрирование модулей в конструкцию КПА.

КПА обеспечивает автоматический и ручной режимы работы, постоянную регистрацию и архивирование всего процесса проведения испытаний в виде файлов. Дискретность регистрации и архивирования не менее 0,25 с (устанавливается пользователем).

КПА обеспечивает выполнение следующих функций:

- обеспечивает подачу и измерение напряжения питания в диапазоне от 0 до 34 В и тока потребления в постоянном режиме до 3 А, пусковом режиме до 10 А;

- выдает на ЭД команды на изменение частоты вращения в соответствии с ТЗ на ЭД;

- обеспечивает контроль параметров телеметрических сигналов по постоянному и переменному току в соответствии с ТЗ, ТУ на ЭД;

- обеспечивает контроль напряжения с датчиков давления и датчиков перепада давления;

i Надоели баннеры? Вы всегда можете отключить рекламу.