Научная статья на тему 'Реализация задачи семантического анализа в информационно-поисковых системах'

Реализация задачи семантического анализа в информационно-поисковых системах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
282
66
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Котов Э. М., Целых Ю. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Реализация задачи семантического анализа в информационно-поисковых системах»

Таблица 1

№ опыта МПУ, сек. ДЭА, сек. № опыта МПУ, сек. ДЭА, сек. № опыта МПУ, сек. ДЭА, сек.

1 0,282 0,250 18 0,219 0,203 35 0,260 0,203

2 0,297 0,297 19 0,218 0,204 36 0,219 0,203

3 0,234 0,219 20 0,235 0,219 37 0,251 0,219

4 0,235 0,234 21 0,235 0,218 38 0,312 0,312

5 0,250 0,250 22 0,219 0,203 39 0,251 0,218

6 0,234 0,219 23 0,219 0,203 40 0,297 0,297

7 0,233 0,219 24 0,235 0,218 41 0,266 0,250

8 0,235 0,219 25 0,268 0,234 42 0,250 0,250

9 0,266 0,234 26 0,250 0,219 43 0,219 0,218

10 0,233 0,219 27 0,235 0,219 44 0,251 0,219

11 0,234 0,219 28 0,328 0,359 45 0,235 0,234

12 0,218 0,203 29 0,234 0,265 46 0,251 0,219

13 0,219 0,203 30 0,281 0,281 47 0,250 0,250

14 0,250 0,218 31 0,312 0,312 48 0,233 0,250

15 0,235 0,219 32 0,250 0,203 49 0,265 0,235

16 0,298 0,297 33 0,235 0,234 50 0,249 0,234

17 0,219 0,203 34 0,264 0,250

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Замкова Л.И. Разработка программной системы эффективной оплаты счетов / Известия ТРТУ. № 6. 2005.

2. Подиновский В.В., Гаврилов В.М. Оптимизация по последовательно применяемым критериям. 1975.

3. ДанцигДж. Линейное программирование его обобщения и приложения. 1966.

4. ПападимитриуХ, Стайглиц К. Комбинаторная оптимизация. Алгоритмы и сложность. 1985.

Э.М. Котов, Ю.А. Целых

РЕАЛИЗАЦИЯ ЗАДАЧИ СЕМАНТИЧЕСКОГО АНАЛИЗА В ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМАХ

Существующие на сегодняшний день технологии информационного поиска не обеспечивают эффективной реализации поисковых систем в связи с отсутствием сложившихся подходов к реализации задачи семантического анализа текстовой информации [1]. И в существующих поисковых системах традиционно реализуются три задачи лингвистического анализа текстовой информации. А именно:

1. Лексический анализ - задача восприятия текста.

2. Морфологический анализ - задача выявления значения слов.

3. Синтаксический анализ - задача выявления значения членов предложения. Все это, в свою очередь, обуславливает низкую адекватность выдаваемой в

результате поиска информации, причем в больших объемах. Т.е. информационнопоисковые системы (ИПС) реализуют автоматическую индексацию большого количества документов, но им не присуще наличие развитых средств искусственного интеллекта для экспертной оценки смыслового содержания информации. И представляется целесообразным применение аппарата «интеллектуального поиска», что позволит осуществить автоматизацию всех этапов лингвистического анализа.

Поисковые процедуры осуществляют поиск текстовой информации в соответствии с запросом, составленным на естественном языке. Поиск производится в базах предварительно проиндексированных документов. Характерные черты заключаются в следующем:

• осуществляется предварительная обработка запроса на естественном языке путем отбора из многосложного запроса наиболее значимых слов, определяющих объект поиска, субъект поиска и предикат;

• осуществляется комплексный учет синтаксического и семантического соответствия смыслового содержания запроса и результатов поиска;

• ранжирование результатов поиска осуществляется в соответствии с учетом результатов синтаксического и семантического анализа соответствия смыслового содержания запроса и результатов поиска;

• существует возможность расширения запроса со стороны пользователя на основе учета синонимов, однокоренных слов и синтаксиса запроса или текста;

• интеллектуальный поиск с учетом синтаксиса и семантики осуществляется для русскоязычных текстовых документов;

• поиск по ключевым словам осуществляется с учетом морфологии;

• результаты поиска представляются в виде упорядоченного списка наиболее релевантных текстов с выделением лексем слов, присутствующих в запросе, и слов семантического объекта поиска;

• интеллектуальный поиск с учетом синонимов и однокоренных слов осуществляется для русскоязычных текстов, причем для синонимов и однокоренных слов осуществляется учет их синтаксическо-семантического значения.

В связи с этим непосредственно процедура поиска будет состоять из ряда этапов:

1) формализация поискового запроса;

2) предварительный отбор формально релевантных документов;

3) анализ предварительно отобранных документов, как-то:

а) лексический;

б) морфологический;

в) синтаксический;

г) семантический;

4) оценка соответствия смыслового содержания документов, полученных в результате поиска и поискового запроса.

Принимая во внимание перечисленные этапы, в процедуре поиска необходима разработка следующих модулей, являющихся составной частью информационно-поисковой системы:

• модуль синтаксического анализа;

• модуль семантического анализа;

• модуль ведения лингвистических средств;

• лингвистический процессор;

• модуль поддержки системы словарей;

• модуль морфологии.

Ведя рассмотрение приведенных анализов, составляющих предлагаемые модули, возможно сделать следующее заключение:

1) лексический анализ будет сводиться к разборке текста документа на отдельные компоненты:

• абзацы;

• предложения;

• слова;

• типы предложений;

• типы лексических связей;

2) морфологический анализ будет состоять в распознании частей речи каждого слова анализируемого текста, причем каждому слову ставится в соответствие лексико-грамматический класс;

3) синтаксический анализ будет состоять в выделении семантических элементов предложения, что предположительно даст возможность привнести интеллектуальную составляющую в процесс обработки предварительного запроса посредством привлечения к процессу анализа более обобщенных семантических элементов:

• именных групп;

• терминологических целых;

• предикатных основ;

4) семантический анализ будет состоять в выделении информационно-логической основы текста и определении информативности текстовой информации, что необходимо при выявлении и оценке смыслового содержания текста и влечет за собой решение задачи по созданию аппарата экспертной оценки качества информации в связи со сложностью процесса формализации оценки смысла текста.

Стоит отметить, что при реализации семантического анализа представляется обязательным использование экспертных систем и систем искусственного интеллекта.

Рис. 1. Структурная схема лингвистического анализа

Для реализации интеллектуальной ИПС необходимо добавление к перечисленным трем задачам лингвистического анализа, традиционно реализуемым в существующих поисковых системах, задачи по выявлению интегрального содержания текста, т.е. задачи семантического анализа и, в конечном счете, соединения преимуществ автоматического индексирования документов, реализуемого в ИПС,

с экспертной обработкой содержания документов, с целью выявления смысла текста, для применения в системах искусственного интеллекта.

Структурную схему лингвистического анализа можно представить в виде рис. 1.

При успешной реализации подобной интеллектуальной ИПС предположительно будут получены следующие новые возможности:

• возможность проведения процедур поиска с учетом смыслового содержания текстов;

• возможность выполнения функций поиска с учетом синонимов и слов, связанных по тематике;

• возможность обеспечения поиска с учетом семантики запроса и синтеза семантически полного ответа ИПС;

• возможность проведения интегральной оценки семантического смысла проиндексированной текстовой информации.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Luhn H.P. A statistical approach to mechanized encoding and searching of library information / IBM Journal of Research and Development, № 1, pp. 309-317.

Е.Е. Краснощеков

ПРИМЕНЕНИЕ НЕЧЕТКОЙ ЛОГИКИ ПРИ ПОИСКЕ ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

Поиск информации является обязательной функцией любой информационной системы. Сегодня, когда Интернет используется повсеместно, возникает проблема извлечения из него нужной информации, а также избыточности ответов на поисковые запросы. Поэтому необходимо использовать новые инструменты поиска информации, позволяющие решить эти проблемы. Механизм полнотекстового поиска не дает возможности найти информацию, если были допущены ошибки при вводе информации. Поиск на точное соответствие не позволяет найти слово, если в документе оно встречается в другой грамматической форме.

Современные информационно-поисковые системы (ИПС), ориентированные на работу в полнотекстовых базах данных, имеют некоторые отличные архитектурные особенности. По сути, построение индекса есть упрощение исходной информации, хранимой в коллекции документов, до уровня централизованной (или распределенной на небольшом числе компьютеров) коллекции регулярных данных. Тем самым решение задачи поиска информации сводится к давно отработанной задаче поиска информации в мощной, но вполне классической реляционной базе данных. Именно благодаря такому подходу удалось быстро построить работающие ПС, полезность которых ни у кого не вызывает сомнений.

Однако данному подходу присущи принципиальные недостатки, которые вытекают из неполного соответствия поискового индекса самому документу. Практически все существующие ПС обладают следующими недостатками:

1) низкая интеллектуальность поиска документов в коллекции - индекс составляется с помощью простейших программ-роботов, использующих наибыстрейшие (а значит, и самые простые) методы. Индекс составляется для произвольного запроса и, следовательно, не может быть ориентирован заранее на конкретную информацию или предметную область;

i Надоели баннеры? Вы всегда можете отключить рекламу.