Научная статья на тему 'Исследование экспериментального образца программного комплекса информационно-аналитической системы'

Исследование экспериментального образца программного комплекса информационно-аналитической системы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
268
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
экспериментальный образец / метод / алгоритм / запрос / ссылка / естественно-языковые данные / experimental model / method / algorithm / request / reference / natural language data

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Миргалеев А.Т., Соколов А.В., Челышов С.Ю.

Представлены результаты экспериментального образца экспериментально-го образца программного комплекса информационно-аналитической системыпонимания неструктурированной текстовой информации на русском и английском языках.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A study of an experimental sample of the software complex of information-analytical system

The results of the experimental research of an experimental sample, which is the software complex of information-analytical understanding system of unstructured information in Russian and English, are presented.

Текст научной работы на тему «Исследование экспериментального образца программного комплекса информационно-аналитической системы»

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

УДК 004.89, 681.323

Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 - 2013 гг.»,

государственный контракт № 07.514.11.4135.

Миргалеев А.Т., Соколов А.В., Челышов С.Ю.

ИССЛЕДОВАНИЕ ЭКСПЕРИМЕНТАЛЬНОГО ОБРАЗЦА ПРОГРАММНОГО КОМПЛЕКСА ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЫ

Представлены результаты экспериментального образца экспериментального образца программного комплекса информационно-аналитической системы понимания неструктурированной текстовой информации на русском и английском языках.

Ключевые слова: экспериментальный образец, метод, алгоритм, запрос, ссылка, естественно-языковые данные.

Mirgaleev A.T., Sokolov A.V., Chelyshov S.U.

A study of an experimental sample of the software complex of information-analytical system

The results of the experimental research of an experimental sample, which is the software complex of information-analytical understanding system of unstructured information in Russian and English, are presented. Keywords: experimental model, method, algorithm, request, reference, natural language data.

В ходе выполнения НИР «Исследование и разработка программного обеспечения понимания неструктурированной текстовой информации на русском и английском языках на базе создания

26

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

методов компьютерного полного лингвистического анализа» (Шифр «2012-1.4-07-514-0018-001») проведены экспериментальные исследования ЭО ПК ИАС. По результатам экспериментальных исследований составлены протоколы и акт, которые представлены в Министерство образования и науки РФ.

Показано, что ЭО ПК ИАС может функционировать в двух режимах: первого запуска и эксплуатации;

С учётом реализованного алгоритма функционирования модулей ЭО ПК ИАС экспериментальные исследования функционирования программного обеспечения проведены по схеме, представленной на рисунке 1.

Экспериментальные исследования проведены на примере формирования дайджеста и семантической сети по трем вопросам на русском и английском языках.

Установка и настройка общего программного обеспечения предполагает установку библиотек Microsoft .NetFramework версии не ниже 3.5 и СУБД Microsoft SQL Server 2008R2. Установка и настройка программных библиотек Microsoft .NetFramework и СУБД описана в руководстве системного программиста.

Настройка СУБД предполагает установку и организацию функционирования Microsoft SQL Server 2008R2 на каждой из ЭВМ, на которой функционирует ЭО ПК ИАС. При этом перед первым запуском ЭО в СУБД должна быть создана (восстановлена) база данных, поставляемая с ЭО ПК ИАС как исходная, по умолчанию. Серверная составляющая ЭО ПК ИАС необходима, для редактирования основных настроек ЭО ПК ИАС. Запуск серверной составляющей ЭО ПК ИАС осуществляется двойным нажатием правой кнопки мыши по исполняемому файлу приложения NetAnalytic (рисунок 2).

Создание объекта исследования является этапом, определяющим название набора текстовых документов, которые в дальнейшем будут использоваться при формировании дайджеста и семантической сети по ситуациям «Бизнес» и «для английского». Интерфейс окна редактирования объектов вызывается нажатием левой клавиши мыши по пункту «Объекты исследования», в меню «Модуль разметки страниц» (рисунок 3). Кнопкой «+» создается или выбирается (щелчком мыши) объект исследования «Бизнес» и «для английского языка».

27

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

Рис. 1 - Схема экспериментальных исследований ЭО ПК ИАС

28

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

■5 Net Analytic | □ | jl

Модуль разметки страниц Семантические словари Модуль редактирования когнитивной карты предметной области

Рис. 2 - Главное окно приложения ЭО ПК ИАС

"J Net Analytic Разметка страниц Семантические словари Модуль фсрмировани я и корректи| свей онтологий

Объекты исследования Объекты исследования

В- Т est (источников 1)

: Test (источников 1]

В" USA (источников 1]

( (••• News (источников 11

. - Politics (источников 0)

В- Россия (источников 9]

..Россия (источников 9]

□ □□

Рис. 3 - Интерфейс создания/редактирования объектов исследования

Формирований описания разметки источников данных осуществляется с целью попадания в анализируемые текстовые документы «информационного мусора» в виде рекламных сообщений, баннеров, флеш-анимации и проч. Интерфейс окна редактирования источников данных вызывается нажатием левой клавиши мыши по кнопке «Источники загрузки документов», в меню «Разметка страниц». При этом в правой части окна отображаются связанные с выбранным объектом источники данных. Кнопкой «+» осуществляется создание или выбор (щелчком мыши) конкретного источника данных. На рисунке 4 представлено окно с выбранными информационными блоками страницы источника (какой-либо из источников использованных в эксперименте). Процесс формирования описания разметки источников данных описан в руководстве оператора.

29

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

Новый информационный блок

т Заголовок |?1 Текст статьи И Дата

Рис. 4 - Фрагмент интерфейса формирования описания разметки

источников данных

Настройка рубрикатора заключается в создании и корректировки классов (рубрик), к которым относятся загружаемые из ГКС Интернет документы. Рубрикация текстовых документов позволяет осуществлять более точное формирование описаний ситуаций (отчетных документов). Запуск редактора рубрикатора осуществляется двойным щелчком мыши в левой части окна интерфейса по кнопке «Рубрикатор» в меню «Семантические словари». Процесс создания и редактирования рубрикатора описан в руководстве оператора. На рисунке 5 представлен фрагмент интерфейса рубрикатора.

Разметка страниц Семантические словари Модуль формирования и корректировки онтологий

Редактор рубрикатора

Файл

Рубрики Правила

Кинематограф Пера рхичи ость

Компьютер Информационность

Космос Самодетермин ироеанность

Культура Самсорганиза ция

Литература Саморегуляция

Медицина

Наука

Недвижимость

Новости

Образование

Погода

Политика

Почта

Промышленность

Путешествия

Работа

Реклама

Религия

Связь

СМИ

Спорт

Страхование

Строительство

Театр

Телевидение

Терроризм

Техника

Торговля

Транспорт

Финансы

Экологии

Экономика

Энергетика

Рис. 5 - Фрагмент интерфейса рубрикатора

30

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

Настройка тезауруса заключается в создании определенным образом организованного словаря терминов, учитывающего синонимию, гиперонимию, антонимию. Пример фрагмента интерфейса тезауруса приведен на рисунке 6. Запуск редактора тезауруса осуществляется двойным щелчком мыши в левой части окна интерфейса по кнопке «Тезаурус» в меню «Семантические словари». Процесс создания тезауруса описан в руководстве оператора.

Разметка страниц Семантические словари Модуль формирования и корректировки онтологий

Редактор тезауруса

Файл

Термины Гиперонимы

авторитет помощь

агрессия

агрессор

адекватный

акция

альтернатива

альянс

амплуа

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

анархия

анналы

антиглобализация Синонимы

антисемитизм оправдание

антагонизм

априори

аргумент

аристократ

баллотирование

баллотировка

бизнес

биль

бойкот Антонимы

бум критика

вето обвинение

вторжение

выбор

высказывание

глобализа цня

глобальность

голосование

государство

Рис. 6 - Фрагмент интерфейса редактирования тезауруса

Создание онтологии является одним из важнейших этапов функционирования ЭО ПК ИАС. Создание онтологии предполагает наличие у пользователя знаний в конкретной предметной области, которые могут быть описаны в графическом виде (в виде НКК) с использованием концептов и связей. Запуск редактора онтологий осуществляется двойным щелчком мыши в левой части окна интерфейса по кнопке «Онтологии» в меню «Модуль редактирования когнитивной карты предметной области». В появившемся окне в меню «Файл» необходимо выбрать «Создать» если необходимо создать новую онтологию или «Открыть» для использования существующей. Для проведения экспериментальных исследований, для запросов на русском языке предложена созданная ранее онтология «Бизнес», для запросов на английском языке предложена созданная ранее онтология «politics» На рисунках 7, 8 приведены примеры уровней НКК, описывающей бизнес для русского языка и английского, соответственно.

31

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

Рис. 7 - Онтология «Бизнес»

Для корректировки концептов онтологии и связей между ними в ЭО ПК ИАС используются инструменты (панель инструментов в верхней части окна), позволяющие декомпозировать элементы онтологии, изменять их названия, размеры, наличие и типы связей между концептами.

Клиентская составляющая ЭО ПК ИАС необходима для проведения дополнительных настроек ЭО, загрузки и формализации

32

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

источников текстовой информации, подачи запроса на естественном языке, отображения сформированных дайджеста и семантической сети.

Загрузка данных осуществляется после выбора одного или нескольких сформированных источников данных и представляет собой параллельное получение оригиналов текстовых статей из выбранных источников. Одновременно с этим осуществляется автоматическая формализация текста из загружаемых страниц на основе созданной ранее разметки. Для запуска загрузки документов, необходимо в клиентской составляющей администратора ЭО ПК ИАС перейти по ссылке «Данные» и выбрать в выпадающем списке один из сформированных источников данных, после чего нажать левой кнопкой мыши по кнопке «Добавить новую загрузку». На рисунке 9 представлен фрагмент интерфейса окна загрузки данных.

Данные

Поиск

Формализация

Экспериментальный образец информационно-аналитической системы Главная | Настройки | Выход

пользователь: deVslor1@gmail.ccm |dekstor1@grnail.ccm)

Данные

Формаливация естественно-языковых данных, представленных в базах данных.

Веб-страницы, В&& || Файлы |_______________________________________________________________________________________________________________________

wabusiressrews com au,f ▼

| Добавить новую загрузку |

URL Начало Завершение Загружено страниц

gazetarj/bisiress/iew»1 27.02.20134:55:51 10 Остановить

ivatnjsinessnews свт.аи/ 27 02 20134:55 57 5 Остановить

а®снд"Науком", 2013.

ЭО ПК ИАС реализован ври фьмансовой поддержке Муиобрнауки РФ в рамках ФЦП 'Исследования и разработки по приоритетным направлениям развития иаучк-технологичаского комплекса России на 2007—2013 годы".

госкснтракт 07. Ы4 114115. ЧИР 'Исследование и разработка программного обеспечения понимания неструктурироваааюй текстовой —формации на русском и английском языках на базе создания методов компьютерного полюго л*игвистичсского анализа"

Рис. 9 - Фрагмент окна загрузки данных

Экспериментальные исследования программного обеспечения ЭО ПК ИАС проведены на примере понимания текста нескольких вопросов.

«Как открыть свой малый бизнес?»

«Кто составляет бизнес план?»

«Зачем планировать уровень продаж?»

«Сколько составляет налог на прибыль?»

«What rights corporations should have?»

«Why did the British produce the Balfour declaration?»

33

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

«How to Locate a State of Incorporation?»

«What is the influence of politics on business in USA?»

Это осуществлено следующим образом.

Для ввода запроса необходимо в клиентской составляющей пользователя ЭО ПК ИАС в поле ввода ввести на русском языке вопрос «Как открыть свой малый бизнес?». Далее выбрать один из предложенных, во время ввода запроса, вариантов вопроса или оставить свой, и нажать левой кнопкой мыши по кнопке «найти». Интерфейс страницы ввода естественно-языкового запроса представлен на рисунке 10.

Формализация запросов

Формализация запросов, сформулированных на естественном языке

Как открыть свой бизнес | | НэЙТИ

ответственный квартиросъемщик Кто такой возврат подоходного налога Что значит Сколько процентов составляет налог на при&ыль платеж а ПРФ Каков ежегодный минимальный пределы пункта пропуска Каким образом определяются Как открыть свой малый бизнес Что такое декларация пожарной безопасности управления предприятием Что нужно для закон о едином налоге Принят бизенс-пяан Ктосотавяяет

Когда будет принят закон о проблемных задолженностях Где получить МНИ физическому лицу через интернет Кому принадлежит портфолио

Что обозначает понятие диалоговый характер программы

©Фонд'Науком', 1013.

ЭО ПК НАС реализован при финансовой поддержке Минобрнауки РФ в рамках ФЦП 'Исследования и разработки по приоритетным направлениям развития

Рис. 10 - Интерфейс страницы ввода естественно-языкового запроса на русском языке

После нажатия кнопки «Найти» запустится процесс сформированных отчётных документов, соответствующих тематике заданного вопроса. В результате будет сформирован список сниппетов.

Внешний вид интерфейса страницы, содержащей сниппеты, представлен на рисунке 11.

После перехода по ссылке (нажатием левой кнопки мыши), ведущей на описание ситуации, откроется страница, содержащая сформированный дайджест, построенный с учётом тематики вопроса «Для чего составляется бизнес план», сформированную семантическую сеть, по вопросу «Кто составляет бизнес план?».

34

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

Экспериментальный образец информационно-аналитической системы Главная | Настройки | Выход

пользователь: gorLov-aleksandri|imail.ru {gorLov-aleksandri|imail.ru)

Формализация запросов

Формализация запросов, сформулированных на естественном языке

|кто составляет бизнес план [ Найти

Результатов: 24 (0,914 секунд)

Тип запроса: список объектов

1. Малый бизнес {Бизнес)

02/26/2013 23:28:05

Субъект исследования: Малый бизнес

Объект исследования: Бизнес

2. Малый бизнес (Бизнес)

02/26/2013 23:28:05

Субъект исследования: Малый бизнес

Объект исследования: Бизнес

3. Бизнес (Россия)

02/26/2013 19:30:51 Субъект исследования: Бизнес Объект исследования: Россия

мужчин отобрать у стража ..Редакция не несет ответственности девочки поступила на пульт полиции ..Программа полученную информацию ,,,, Фотографии существ отправлены биолопом .,,, на момент не поступила информация

А. Бизнес (Бизнес)

02/27/2013 05:02:15 Субъект исследования: Бизнес Объект исследования: Бизнес концу следующего года

5, Бизнес (Бизнес)

07/77/7013 ОБ:07:1 Б

Рис. 11 - Интерфейс страницы со сниппетами по вопросу «Кто составляет бизнес план?»

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Отображенные дайджест и семантическая сеть, сформированные путем использования разработанных в ходе НИР методов и алгоритмов морфологического, синтаксического, семантического, прагматического анализа неструктурированных данных, формализации естественно-языковых данных, извлечения фактов из массивов естественно-языковых текстовых данных, объединения фактов, формирования и корректировки онтологий, формализации естественно-языкового запроса, формирования семантической сети, формирования описания ситуаций, являются отражением понимания обработанного естественно-языкового массива данных, а следовательно и результатом работы ЭО ПК ИАС, который наглядно представлен на рисунках 12, 13.

Для ввода запроса необходимо в клиентской составляющей ЭО ПК ИАС ввести на русском языке вопрос «Зачем планировать уровень продаж?». Далее выбрать один из предложенных, во время ввода запроса, вариантов вопроса или оставить свой, и нажать левой кнопкой мыши по кнопке «найти». Интерфейс страницы ввода естественно-языкового запроса представлен на рисунке 14.

35

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

Ш

Экспериментальный образец информационно-аналитической системы

Описание ситуации Список описаний

пользователь: gorlov-aleksandriamaiLru {gorLov-aLeksandrgmaiLru)

Описание ситуации

Формирование описаний ситуаций.

Дайджест I Семантическая

Семантическая сеть

Описание ситуации "Россия \ Бизнес (Бизнес)"

Период с 01.02.2013 по 27.02.2013

Дайджест

Бизнес

в России не заниматься бизнесом (Fuiltrust) (Форбс/Бизнес) конструктор инструмент создания (Fuiltrust) (Форбс/Бизнес) приложения заменят сайты - (Fuiltrust) (Форбс/Бизнес) предпринимателей останавливает стоимость (Fuiltrust) (Форбс/Бизнес) Его бизнес консалтинг (FuEltrust) (Форбс/Бизнес) ужесточение правил для олигархов (Fulftrust) (Форбс/Бизнес) Мордашов снизить нагрузку (Fulftrust) (Форбс/Бизнес)

Ходорковский выбрал темой коррупцию (Fuiltrust) (Форбс/Бизнес) Миллиардер променял бизнес (Fuiltrust) (Форбс/Бизнес) к Пятерочка » возвращается в бизнес (Fuiltrust) (Форбс/Бизнес) Адибекян дела с партнерами (Fuiltrust) (Форбс/Бизнес) бизнесъёмкий населённый пункт (Fuiltrust) (Форбс/Бизнес) продукта стать владельцы (Fuiltrust) (Форбс/Бизнес) то возможности вывести на рынок (Fuiltrust) (Форбс/Бизнес)

Рис. 12 - Интерфейс страницы дайджеста по вопросу «Кто составляет бизнес план?»

Рис. 13 - Интерфейс страницы семантической сети по вопросу «Кто составляет бизнес план?»

36

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013.-96 с., ил. ISBN 978-5-4297-0010-6

Ш 9

Формализация запросов

Экспериментальный образец информационно-аналитической системы Главная | Настройки | Вькод

пользователь: gorlov-aleksandr@mail.ru {gorLov-aleksandr@mail.ru)

Формализация запросов

Формализация запросов, сформулированных на естественном языке

Найти |

©Фонд ’Науком", 2013.

ЭО ПК НАС реализован при финансовой поддержке Минобрнауки РФ в рамках ФЦП "Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2013 голы".

Рис. 14 - Интерфейс страницы ввода естественно-языкового запроса на русском языке

После нажатия кнопки «Найти» запустится процесс сформированных отчётных документов, соответствующих тематике заданного вопроса. В результате будет сформирован список сниппе-тов, каждый из которых состоит из:

а) ссылки, ведущей на описание ситуации;

б) даты формирования дайджеста;

в) названия используемой онтологии предметной области «Налогообложение»;

г) названия используемого объекта исследования «Налоги»;

Внешний вид интерфейса страницы, содержащей сниппеты,

представлен на рисунке 15.

После перехода по ссылке (нажатием левой кнопки мыши), ведущей на описание ситуации, откроется страница содержащая:

а) сформированный дайджест, построенный с учётом тематики вопроса «Зачем планировать уровень продаж?»;

б) сформированную семантическую сеть, по вопросу «Зачем планировать уровень продаж?».

Отображенные дайджест и семантическая сеть, сформированные путем использования разработанных в ходе НИР методов и алгоритмов морфологического, синтаксического, семантического, прагматического анализа неструктурированных данных, формализации естественно-языковых данных, извлечения фактов из массивов естественно-языковых текстовых данных, объединения фактов,

37

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

формирования и корректировки онтологий, формализации естественно-языкового запроса, формирования семантической сети, формирования описания ситуаций, являются отражением понимания обработанного естественно-языкового массива данных, а следовательно и результатом работы ЭО ПК ИАС, который наглядно представлен на рисунках 16, 17.

Экспериментальный образец информационно-аналитической системы Главная | Настройки | выход

Формализация запросов

пользователь: gorlov-alsksandriJmaiLnj {gorLcrv-aLeksandr5mail.ru)

Формализация запросов

Формализация запросов, сформулированных на естественном языке

|Сколько процентов составляет налег на прибыль? Найти

Результатов: 9 {0,76 сенунд) Тип запроса: значение

1. Налог на прибыль (Налоги)

Субъект исследования: Налог на прибыль Объект исследования: Налоги

2. Налог на прибыль (Налоги)

Субъект исследования: Налог на прибыль Объект исследования: Налоги

3. Прибыль (Налоги)

Субъект исследования: Прибыль Объект исследования: Налоги

4. Налог (Налоги)

Субъект исследования: Налог Объект исследования: Налоги

5. Налог на имущество (Налоги)

Субъект исследования: Налог на имущество Объект исследования: Налоги

б. Повышение прибыли (Налоги)

Субъект исследования: Повышение прибыли Объект исследования: Налоги

Рис. 15 - Интерфейс страницы содержащей сниппеты по запросу «Сколько составляет налог на прибыль?»

Экспериментальный образец информационно-аналитической системы Глазная | Настройки | Выход

пользователь: gortov-aleksandrl5maU.ru {gorLov-aLeksandr@mail.ru)

Описание ситуации

Формирование описаний ситуаций.

Дайджест Семантическая сеть |___________________________________________________________________________________

Описание ситуации "Россия \ Налоги (Налогообложение)"

Период с 02.10.2010 по 31.01.2013

, Дайджест

Налогообложение

Потеря права применения (Fulltrust) (1 sns.ru/matenals/news/)

Б арсенале компании появятся инструменты (Fulltrust) (1sns.ru/materials/news/)

Порядок дополнен тремя приложениями (Fulltrust) (1 sns.ru/materials/news/) для страхователей налогоплательщиков (Fulltrust) (1 sns.ru/matenals/news/) субъекта Федерации предусмотрено применение системы (Fulltrust) (1sns.ru/materials/news/) налога уплачивается одним платежом (Fulltrust) (1 sns.ru/matenals/news/)

Министерства финансов РФ (Fulltrust) (1sns.ru/materials/news/) в сумме оставшихся двух третей суммы (Fulltrust) (1sns.ru/materials/news/)

Налогообложение \ Закон о едином налоге \ Доход

Введение правила добровольности (Fulltrust) (1 sns.ru/materials/news/) взносы необходимо в размере (Fulltrust) (1sns.ru/materials/news/) его доходы превысят 512 000 рублей (Fulltrust) (1sns.ru/materials/news/)

В арсенале компании появятся инструменты (Fulltrust) (1sns.ru/materials/news/)

Рис. 16 - Интерфейс страницы дайджеста по вопросу «Сколько составляет налог на прибыль?»

сю ■

Описание ситуации Список описаний

38

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

Описание ситуации Список описаний

предполагается ввести в действие новую форму 2013

П pojiecatowarei ный

Порэдокдопотмек тремя приложениями

оптимизировать в кратчайшие

появятся В арсенал е ваш ей компании инструменты

512 000 рублей его доходы превысят

Рис. 17 - Интерфейс страницы семантической сети по вопросу «Сколько составляет налог на прибыль?»

Для ввода запроса необходимо в клиентской составляющей ЭО ПК ИАС ввести на английском языке вопрос «What rights corporations should have?».

Далее выбрать один из предложенных, во время ввода запроса, вариантов вопроса или оставить свой, и нажать левой кнопкой мыши по кнопке «найти». Интерфейс страницы ввода естественноязыкового запроса представлен на рисунке 18.

ш 9

Формализация запросов

Экспериментальный образец информационно-аналитической системы Глазная | Настройки | Выход

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

пользователь: gorbv-alBk5andr@mail.ry {gorbv-aleksarKir@mail.ru)

Формализация запросов

•Формализация запросов, сформулированных на естественном языке

Найти |

©Фоцд "Науком", 2013.

ЭО ПК НАС реализован при финансовой поддержке Минобрнауки РФ в рамках ФЦП "Исследования ч разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2013 голы".

Рис. 18 - Интерфейс страницы ввода естественно-языкового запроса на английском языке (What rights corporations should have?)

39

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

После нажатия кнопки «Найти» запустится процесс сформированных отчётных документов, соответствующих тематике заданного вопроса. В результате будет сформирован список сниппе-тов, каждый из которых состоит из:

а) ссылки, ведущей на описание ситуации;

б) даты формирования дайджеста;

в) названия используемой онтологии предметной области «Business»;

г) названия используемого объекта исследования «Business». Внешний вид интерфейса страницы, содержащей сниппеты,

представлен на рисунке 19.

После перехода по ссылке (нажатием левой кнопки мыши), ведущей на описание ситуации, откроется страница содержащая:

а) сформированный дайджест, построенный с учётом тематики вопроса «What rights corporations should have?»;

б) сформированную семантическую сеть, по вопросу «What rights corporations should have?».

Отображенные дайджест и семантическая сеть являются отражением понимания обработанного естественно-языкового массива данных, а следовательно и результатом работы ЭО ПК ИАС, который наглядно представлен на рисунках 20, 21.

Экспериментальный образец информационно-аналитической системы Главная | Настройки | Выход

пользователь: gorlov-aleksandr@tmail.ru {gorLov-aLeksandr@imail.ru)

Формализация запросов

Формализация запросов, сформулированных на естественном языке

|What ncftts corporations should have Результатов: 40 (0,466 секунд)

Tan запроса: определение

1. Corporations (Business)

02/26/201 3 21:50:23 Субъект исследования: Corporations Объект исследования: Business

The coalition has vowed to ditch the 30 per cent MRRT on the super profits of coaL and iron ore mining companies if it wins the September 14 federal election. .... The company today announced a net profit of S1.2 million for the six months to December 3i, down from S6.7 million in the previous corresponding half year. Revenue came in at S56.6 million, down 2S.6percentonthe half year to December 31, 2011, consistent wibh the company's guidance released in November. ..., In November, the company announced one-off legal costs and a write-off associated with a now-resolved dispute with Gold Ridge Mining would result in a S2.1 million impairment to its half-year profit. ..Managing director Joe Ricciardo said the company was pleased to have met its guidance for the first half of financial year 2013 and was confident of a solid second-half performance. .... The company is expecting improved conditions in the engineering and construction sector in the second half of the year, particularly through opportunities in gold, iron ore and industrial metals.

2. should (Business)

Субъект исследования: should Объект исследования: Business

3. should (Corporations)

Субъект исследования: should Объект исследования: Corporations

4. Corporation rights (Business)

Субъект исследования: Corporation rights Объект исследования: Business

Рис. 19 - Интерфейс страницы содержащей сниппеты по запросу «What rights corporations should have?»

m m

Формализация запросов

40

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

Дайджест |Г Семантическая сеть

Описание ситуации "USA \ Business (Currency)"

Период с 01.09.2011 по 28.02.2013

Дайджест

Currency

"Elections are more problematic than market scares or sentiment shifts as they can't be undone by printing money," Steven Englander, a currency strategist at Clti, wrote in a research note. (Fulftrust) (money.cnn.com)

The Japanese yen, a safe-haven currency, strengthened overnight as investors sought refuge. (Fulftrust) (money.cnn.com)

The money that they send home brings in much-needed foreign currency. (Fulftrust) (bbc.co.uk (business))

Currency \ Forms

Italy's political system encourages the forming of alliances, and a shaky coalition could still emerge, although none of the parties seem willing to negotiate. (Fulltrust) (money.cnn.com)

Количественная оценка ситуации

Контент-анализ

Currency: 75,00%

Forms: 25,00%

Ситуация (качественная оценка): Не установлено

Ситуация (количественная оценка): 1

Исходные документы

Italian election rattles world markets - Feb. 25, 2013 (money.cnn.com)

Рис. 20 - Интерфейс страницы дайджеста по вопросу «What rights corporations should have?»

Сшгепсу

Forms

Рис. 21 - Интерфейс страницы семантической сети по вопросу «What rights corporations should have?»

Для ввода запроса необходимо в клиентской составляющей ЭО ПК ИАС ввести на английском языке вопрос «Why did the British produce the Balfour declaration?». Далее выбрать один из предложенных, во время ввода запроса, вариантов вопроса или оставить свой, и нажать левой кнопкой мыши по кнопке «найти». Интерфейс страницы ввода естественно-языкового запроса представлен на рисунке 22.

После нажатия кнопки «найти» запустится процесс сформированных отчётных документов, соответствующих тематике заданного вопроса. В результате будет сформирован список сниппе-тов, каждый из которых состоит из:

а) ссылки, ведущей на описание ситуации;

б) даты формирования дайджеста;

в) названия используемой онтологии предметной области «British»;

г) названия используемого объекта исследования «British».

41

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

О ■

Формализация запросов

Экспериментальный образ-ец информационно-аналитической системы Глазная | Настройки | Выход

пользователь: gorlov-aleksandr@mail.rij {gorLov-alek5andr@maH.ru)

Формализация запросов

Формализация запросов, сформулированных на естественном языке

1 II най™ I

©Фонд 'Науком', 2013.

ЭО ПК НАС реализован при финансовом поодержке Минобрнауки РФ в рамках ФЦП 'Исследования и разработки по приоритетным направлениям развития научно-технологи веского комплекса России на 2007—2013 годы".

Рис. 22 - Интерфейс страницы ввода естественно-языкового запроса на английском языке

Внешний вид интерфейса страницы, содержащей сниппеты, представлен на рисунке 23.

Экспериментальный образец информационно-аналитической системы Главная | Настройки J Выход

пользователь: gorlov-aleksandnJ>mail. ru (gorlov-aleksandr@maiL ru)

Формализация запросов

Формализация запросов, сформулированных на естественном языке

[Why did the British produce the Balfour declaration | Г Найти

Результатов: 34 {0,483 секунд) Тип запроса: общий вопрос

1. British (British)

Субъект исследования: British Объект исследования: British

1. produce (British)

Субъект исследования: produce Объект исследования: British

3. the British (British)

Субъект исследования: the British Объект исследования: British

4. the British (British)

Субъект исследования: the British Объект исследования: British

5. the Balfour (British)

Субъекг исследования: the Balfour Объект исследования: British

0 ■

Формализация запросов

Рис. 23 - Интерфейс страницы содержащей сниппеты по запросу «Why did the British produce the Balfour declaration?»

После перехода по ссылке (нажатием левой кнопки мыши), ведущей на описание ситуации, откроется страница содержащая:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а) сформированный дайджест, построенный с учётом тематики вопроса «Why did the British produce the Balfour declaration?»;

б) сформированную семантическую сеть, по вопросу «Why did the British produce the Balfour declaration?».

42

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

Отображенные дайджест и семантическая сеть являются отражением понимания обработанного естественно-языкового массива данных, а следовательно и результатом работы ЭО ПК ИАС, который наглядно представлен на рисунках 24, 25.

Описание ситуации

Описание ситуации

_ „ Формирование описаний ситуаций.

Список описании

Дайджест || Семантическая сеть |_____________________________________________________________________________

Описание ситуации "USA \ Business \ British (Corporations)"

Период с 01.02.2010 по 31.01.2013

Дайджест

Corporations \ company

the East of England and the companies set to make their world mark via our (Fuiitrust) (busrnessweekly.co.uk/)

Corporations \ company \ limited company

company Azun Technologies Ltd (Fuiitrust) (businessweekly.co.uk/)

Corporations \ company \ Partnership

s strategy has been unswerving to increase the spread of global markets and saturate them with (Fuiitrust) (busmessweekly.co.uk/) Corporations \ company \ Trust company

East of England renewable energy companies particularly solar plays (Fulttrust) (businessweekly.co.uk/)

Corporations \ corporate law

with its technology and corporate teams leading the way but the region (Fuiitrust) (busi nessweekly.co.uk/)

Количественная оценка ситуации

Контент-анализ

company: 100,00%

Ситуация (качественная оценка): Не установлено

Рис. 24 - Интерфейс страницы дайджеста по вопросу «Why did the British produce the Balfour declaration?»

Формализация запросов

Экспериментальный образец информационно-аналитической системы Главная | Настройки | Выход

пользователь: gorlov-aleksandr@mail.ru (gorLov-aLekaarwir@rrail.ru)

Формализация запросов

Формализация запросов, сформулированных на естественном языке

I )| Най™ I

©Фонд "Науком", 2013.

ЭО ПК ИАС реализован при финансовой поддержке Минобрнауки РФ в рамках ФЦП "Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2013 годы".

Рис. 25 - Интерфейс страницы семантической сети по вопросу «Why did the British produce the Balfour declaration?»

Для ввода запроса необходимо в клиентской составляющей ЭО ПК ИАС ввести на английском языке вопрос «How to Locate a State of Incorporation?». Далее выбрать один из предложенных, во время

43

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

ввода запроса, вариантов вопроса или оставить свой, и нажать левой кнопкой мыши по кнопке «найти». Интерфейс страницы ввода естественно-языкового запроса представлен на рисунке 26.

w ш

Описание ситуации Список описаний

Дайджест | Семантическая сеть

sfrategyhas been inswerurag(оrelease Иге spreadofgobal market andsaftaateIhem with

andl>e companies set to make lien world mark uiaow lie East of Encjand —

- companyAzwiTedi

fEn^andienewabte energy companies -

Рис. 26 - Интерфейс страницы ввода естественно-языкового запроса на английском языке

После нажатия кнопки «найти» запустится процесс сформированных отчётных документов, соответствующих тематике заданного вопроса. В результате будет сформирован список сниппе-тов. Внешний вид интерфейса страницы, содержащей сниппеты, представлен на рисунке 27.

Экспериментальный образец информационно-аналитической системы Глазная | Настройки | Выход

Формализация запросов

пользователь; gorlov-alek5andr@mail.ru (gorLov-alek5andr@mail.ru)

Формализация запросов

•Формализация запросов, сформулированных на естественном языке

[What is the influence of potties on business in USA? 11 НЭЙТИ

Результатов: 232 /0,386 сенунд) Tan запроса: определение

1. politics (Politics)

02/26/2013 21:21:08 Субъект исследования: politics Объект исследования: Politics

donors to Organizing for America President Obama ..., McCain wtio along with Graham is part of a bipartisan gang of..., donors to Organizing for America President Obama

2. politics (USA)

02/27/2013 15:07:57 Субъект исследования: politics Объект исследования: USA

3. politics (USA)

02/27/2013 15:07:57 Субъект исследования: politics Объект исследования: USA

4. politics (Politics)

02/26/2013 21 :tl :08 Субъект исследования: politics Объект исследования: Politics

donors to Organizing for America President Obama ..., McCain who along with Graham is part of a bipartisan gang of..., donors to Organizing for America President Obama

5. Politics IUSA1

Рис. 27 - Интерфейс страницы содержащей сниппеты по запросу «What is the influence of politics on business in USA?»

44

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

После перехода по ссылке (нажатием левой кнопки мыши), ведущей на описание ситуации, откроется страница содержащая сформированный дайджест, построенный с учётом тематики вопроса «What is the influence of politics on business in USA?», сформированную семантическую сеть, по вопросу «What is the influence of politics on business in USA?».

Отображенные дайджест и семантическая сеть являются отражением понимания обработанного естественно-языкового массива данных, а следовательно и результатом работы ЭО ПК ИАС, который наглядно представлен на рисунках 28, 29.

Дайджест || Семантическая сеть |_________________________________________________________________________________

Описание ситуации "USA \ Business (Politics)" s

Период с 01.12.2011 по 28.02.2013 ^

Дайджест

Politics

The road towards democracy proved rocky, however, and post-revolutionary politics have become increasingly polarised between the newly ascendant Islamists on the one hand and liberal and secularforces on the other. (Fulitrust) (bbc.co.uk (business))

Long known for its pyramids and ancient civilisation, Egypt is the largest Arab country and has played a central role in Middle Eastern politics in modern times. (Fulitrust) (bbc.co.uk (business))

In September 2002 a troop mutiny escalated into a full-scale rebellion, voicing the ongoing discontent of northern Muslims who felt they were being discriminated against in Ivorian politics. (Fulitrust) (bbc.co.uk (business))

lathe 1990s Algerian politics was dominated by the struggle involving the military and Islamist militants. (Fulitrust) (bbc.co.uk (business))

Violent unrest - and international pressure - led to the restoration of multi-party politics in the early 1990s. (Fulitrust) (bbc.co.uk (business))

After independence from Britain in 1963, politics was dominated by the charismatic Jomo Kenyatta. (Fulitrust) (bbc.co.uk (business))

South Africa has on several occasions intervened in Lesotho's politics, including in 1998 when it sent its troops to help quell unrest. (Fulitrust) (bbc.co.uk (business))

Politics \ Government

However, rapid population growth and the limited amount of arable land are straining the country's resources and economy, and continuing political turmoil has paralysed government efforts to address the problems. (Fulitrust) (bbc.co.uk (business))

The government responded by ordering cuts to the price of basicfoodstuffs, and repealed the 1992 state of emergency law. (Fulitrust) (bbc.co.uk (business))

Endemic government corruption and poor standards in public services are also chronic sources of popular dissatisfaction. (Fulitrust) (bbc.co.uk (business))

In 2001 the government agreed to a series of demands by the minority Berbers, including official recognition of their language, after months of unrest. (Fulitrust)

(bbc.co.uk (business))

Politics \ Political party

The ruling Kenya African National Union, Kanu, was the only legal political party for much of the 1980s. (Fulitrust) (bbc.co.uk (business))

Рис. 28 - Интерфейс страницы дайджеста по вопросу « What is the influence of politics on business in USA? »

В ходе экспериментальных исследований показано, что понимание текстов на русском и английском языках в ЭО ПК ИАС реализовано за счет следующего:

а) применения алгоритмов формализации запросов, синтезированных на основе метода формализации запросов, сформулированных на естественном русском или английском языках и метода формализации естественно-языковых данных, представленных в базах данных (БД), обеспечивающего извлечение семантически значимой информации из документов;

б) использования алгоритмизированных процедур, обеспечивающих обработку текстовых документов, реализованных на базе:

1) метода извлечения фактов, учитывающего правила морфологии и синтаксиса русского и английских языков;

45

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

Political psty

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

PoS&cs

Government

Рис. 29 - Интерфейс страницы семантической сети по вопросу «What is the influence of politics on business in USA?»

2) метода объединения фактов, представленных в различных текстовых документах на русском и английском языках;

3) метода формирования описаний ситуаций, обеспечивающего сбор и итеративное пополнение данных о ситуации на основе их компьютерного лингвистического анализа и обработки естественноязыкового запроса, а также синтеза дайджеста, содержащего выявленный смысл обработанных текстовых документов, представленных на русском и английском языках;

в) использования онтологической модели представления и обработки знаний, реализованной в ЭО ПК ИАС с использованием метода формирования и корректировки онтологий, позволяющего организовать устранение омонимии, синонимии и многозначности в текстовых данных, используемых для формирования описаний ситуаций и представленных на русском и английском языках;

г) представления пользователю структурированных результатов работы ЭО ПК ИАС с использованием метода формирования се-

46

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 -Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

мантической сети, описывающего связи между фактами, представленными в различных текстовых документах на русском и английском языках, учитывающего неопределенность, время и структуру русских и английских предложений.

Экспериментальные исследования показали, что результаты НИР (алгоритмическое обеспечение ЭО ПК ИАС) могут быть применены в следующих областях:

а) консалтинг - для построения информационных систем, обеспечивающих поддержку принятия решений в логистике, конкурентном анализе;

б) мониторинг - для создания и модификации различного рода систем мониторинга электронных источников информации, а также ИПС, работающих как надстройки над такими системами как Яндекс, Google, Nigma, AVG и т.д., имеющими API-интерфейс к средам программирования;

в) поддержка принятия решений - для обеспечения поиска информации по заданным критериям и генерации вариантов решений;

г) прогнозирование - для сбора ЕЯ информации о текущем состоянии объектов и вычисление характеристик их возможных будущих состояний;

д) обучение - для создания и модификации вопросно-ответных обучающих систем.

Таким образом, можно сделать следующие выводы:

1. Разработана схема проведения эксперимента ЭО ПК ИАС, включающая основные этапы формирования описания ситуаций.

2. На примере формирования описания ситуации при реализации понимания текстов для ряда вопросов, представленных на русском и английском языках, проведены экспериментальные исследования функционирования ЭО ПК ИАС. Показаны основные функциональные возможности, реализуемые ЭО ПК ИАС, соответствующие ТЗ на НИР.

3. Проведены экспериментальные исследования. Задачей экспериментальных исследований являлась проверка работоспособности и практической применимости разработанных в ходе второго этапа НИР теоретических положений. Показано, что реализованные в алгоритмах функционирования ЭО ПК ИАС методы сбора данных, извлечения и объединения фактов, формирования описаний ситуаций, функционируют и способны решать практические задачи пони-

47

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 6 Курск: Науком, 2013. - 96 с., ил. ISBN 978-5-4297-0010-6

мания текстов для ситуационного анализа на основе исходных текстовых данных, представленных на русском и английском языках. Результаты экспериментальных исследований показали, что созданный в ходе НИР ЭО ПК ИАС полностью удовлетворяет требованиям ТЗ в части реализованных функциональных возможностей и технических характеристик.

48

i Надоели баннеры? Вы всегда можете отключить рекламу.