Научная статья на тему 'Теоретическое построение интеллектуальной системы поиска в хранилище данных'

Теоретическое построение интеллектуальной системы поиска в хранилище данных Текст научной статьи по специальности «Автоматика. Вычислительная техника»

51
15
Поделиться

Похожие темы научных работ по автоматике и вычислительной технике , автор научной работы — Тиек Ленг,

Текст научной работы на тему «Теоретическое построение интеллектуальной системы поиска в хранилище данных»

Двумя базовыми понятиями агентно-ориентированого подхода служат агент и среда [4]. Часто агент определяется как интеллектуальное искусственное существо ( ). -, .

, ,

.

Рассматриваемый в какой-либо системе агент - это аппаратная или программная сущность, способная действовать в интересах достижения целей, поставленных перед ним владельцем и/или пользователем. Таким образом, в рамках многоагентных систем мы рассматриваем агенты, как автономные компоненты, действующие по определенному сценарию [5]. Каждое предприятие “ответственное” за выполнение определенного этапа проектирования можно представить как некий агент, действующий в рамках цепочки проектирования, а целью этого агента является выполнение определенного этапа проектирования.

Применение идей многоагентных систем и принципов «р^деляй и властвуй» на практике качественно повысит основные показатели современных компаний, увеличивая тем самым их конкурентоспособность и устойчивость. В результате реструктуризации мы получаем систему из ряда специализированных компаний, занимающуюся решением конкретного этапа проектирования. В итоге даже в случае краха одной из компаний, на ее место можно будет найти другую. При этом кризис одной компании вовсе не означает кризис на всех остальных компаниях участвующих вместе с ней в кооперации, а весь процесс проектирования не претерпевает практически никаких изменений.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Федосеева НМ. Проблемы реструктуризации крупных промышленных предприятий (краткие тезисы) - Материалы IV Межрегиональной конференции «Предпринимательство в промышленности: пути развития», 2005.

2. Ивкин И.В. Проблемы кооперации крупных российских предприятий и малого бизнеса -Сборник трудов молодых ученых НГАЭиУ. - Новосибирск: НГАЭиУ, 2000.

3. Прангишвили И.В. Системный подход и общесистемные акономерности // Серия «Системы и проблемы управления». - М.: СИНТЕГ, 2000. - 528 с.

4. Половuhkuh AM. Основы инженерного творчества. - М: Машиностроение, 1988. - 368с.

5. . .

// -альные системы. - Таганрог, 2001, №1. - С. 10-21.

Тиек Ленг ТЕОРЕТИЧЕСКОЕ ПОСТРОЕНИЕ ИНТЕЛЛЕКТУАЛЬНОЙ СИСТЕМЫ ПОИСКА В ХРАНИЛИЩЕ ДАННЫХ

С ростом количества производимой и потребляемой информации всё большую актуальность приобретает проблема её поиска. В огромных массивах информации вручную найти требуемое очень сложно, особенно если информация не

, 90-

бизнес поисковых систем Yahoo, Google и им подобных интернет-корпораций. Уникальность данного явления в том, что алгоритмы и средства поиска в сети Интернет не общедоступны и неочевидны, в результате чего мы имеем ситуацию по-исковиков-монополистов. В то же время, вопросы поиска информации сильно интересуют крупные организации, хранящие множество часто несистематизирован-

ных документов. В случаях потребности организации поиска у них есть два выбора - лицензировать готовый поисковый движок (search engine) и произвести его адаптацию за соответствующую сумму или заняться созданием своего собственного, что сопровождается достаточно масштабными исследовательскими и инженерными работами [1].

В международной лаборатории ELDIC хранится большое количество библиотечной информации. Автоматически желательно каким-либо образом с удобством для пользователя производить поиск по этой библиотеке. В связи с этим были разработаны различного рода электронные библиотеки, которые решали проблему публикации электронной литературы. Чтобы повысить эффективность использования этих библиотек был разработан специальный программный комплекс, решающий задачи поиска и каталогизации информации.

Особенностью данной разработки является возможность обращения к внешним источникам данных какими могут являться, например, библиотеки других институтов и исследовательских лабораторий. Для этого в этом программном комплексе есть специальный механизм - внутреннее хранилище информации, позволяющее обеспечивать локальный доступ к данным, ранее полученным из внешних , -зируется (рис.1) по определённым признакам, в частности - по информационной наполненности элемента библиотеки. Менее информационно наполненные объекты будут относиться к справочно-методической информации, более наполненные -к подробным руководствам по какой-либо теме. Разделение информации по категориям может проводиться как в автоматическом, так и в автоматизированном режиме с помощью объекта-катадогизатора, предоставляющего интерфейс оператора для обработки приходящей извне информации, при этом позволяющий проводить

.

Внешние источники

Рис.1. Приём данных в хранилище

Для того обеспечения уникальности предоставляемой информации, которую можно получить со стороны поисковой системы из двух источников - внешнего (данные которого в дальнейшем уйдут в хранилище) и самого хранилища, служит специальный механизм организации поиска, отсылающий запрос пользователя как во внешние источники, так и во внутренние (рис.2), и при этом агрегирующий полученные ответы в предоставляемый пользователю отчёт о выполнении запроса. Запрос во внешние хранилища достаточно тривиален и не требует организации поиска с нашей стороны - просто составляется соответствующая источнику данных строка запроса и отсылается на выполнение [2].

Поисковые

механизм

Справочник *.Ие1р

гф

Информация

Рис.2. Поиск данных в хранилище

Эффективная организация поиска подразумевает предварительную обработку запроса. Существует 4 категории обработки текстовой информации в данном ключе:

♦ Лексический анализ заключается в определении национального языка изложения, разборе текстовой информации на отдельные слова, в определении типа предложения, лексических выражений (бранных, жаргонных слов) и т.д. Эта категория довольно проста для реализации и не требует каких-либо особых средств и усилий [3].

♦ Морфологический анализ представляет собой автоматическое распознавание частей речи каждого слова текста. Развитая морфологическая структура русского языка позволяет выполнить эту задачу практически со

. -ритм работает с точностью около 85%, что обусловлено лексической многозначностью английского языка.

♦ Синтаксический анализ заключается в автоматическом выделении семантических элементов предложения - именных групп, терминологических

, . -ность процесса обработки текстовой информации на основе обеспечения работы с более обобщенными семантическими элементами.

♦ Семантический анализ заключается в определении информативности текстовой информации и выделении информационно-логической основы

.

оценку смыслового содержания текста. Данная задача трудно поддается формализации вследствие необходимости создания совершенного аппарата для экспертной оценки качества информации [4].

, , -сти абсолютно полный языковой анализ запросов, поэтому используется лишь не:

♦ лексический анализ - в запросе необходимо выделить отдельные слова и их категории;

♦ морфологический анализ - необходимо определить часть речи, к которой принадлежит анализируемое слово и, по возможности, использовать словарь синонимов с целью увеличить релевантность поиска, заменив реже используемые слова более популярными с таким же смыслом;

♦ семантический анализ - предполагает решение задачи путем использования семантических признаков.

В настоящее время не существует определенного подхода к реализации задачи семантического анализа текстовой информации, из-за особой сложности проблемы и недостаточной проработкой научного направления создания систем искусственного интеллекта [5]. Поэтому существующие информационные технологии не обеспечивают эффективной реализации поисковых систем.

Заключение

Разработанная система позволяет повысить эффективность поиска за счёт разумной обработки большого информационного поля, при этом сохраняется гибкость внедрения системы - число внешних хранилищ заранее не определено. При малом количестве недостатков система достаточно совершенна для апробации в .

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Черный А.И. Введение в теорию информационного поиска. - М.: Наука, 1975. - 235 с.

2. В. Jansen, A. Spink. Real Life, Real Users, and Real Needs: A Study and Analysis of User Queries on the Web. Information Processing and Management. 2000, Vol. 36, no.

3. Tong L., Changjie, Z. Jie, Web Document Filtering Technique Based on Natural Language Understanding. Int’l J. Computer Processing of Oriental Languages, 2001, Vol. 14, no. 3.

4. Integrating Applications on the Semantic Web http://www.w3.org/TR/rdf-schema/

5. Басканова Т.Ф., Ланкин ЮЛ. Нейросетевые алгоритмы самостоятельной адаптации // Научная сессия МИФИ-99. Всероссийская научно-техническая конференция "Нейроинформатика-99". Сборник научных трудов. В 3 частях. 4.1. - М.: МИФИ, 1999. - С.17-24.