ОРГАНИЗАЦИЯ ИНТЕЛЛЕКТУАЛЬНОЙ МУЛЬТИАГЕНТНОЙ ПОИСКОВОЙ СИСТЕМЫ
Д. А. Игнатьев
Сибирский университет потребительской кооперации, 630087, Новосибирск, Россия
УДК 681.5
Рассмотрен подход к организации мультиагентной поисковой системы для специализированного портала на основе бионического подхода к интеллектуальному анализу текстовых источников.
Ключевые слова: поисковая машина, эффективность поиска, аддитивный интеллектуальный поиск, адаптивный поиск, оценка полноты и точности поиска, мультиагентная интеллектуальная поисковая машина, коэффициент репрезентативности выборки, конъюнктивный запрос.
An approach to the organization multiagent search system for educational portal based bionic approach to intellectual analysis textual sources.
Key words: search engine, search performance additive intelligent search, an adaptive search, assessment of the completeness and accuracy of search, multi-agent intelligent search engine index representativeness of the sample, conjunctively request.
Введение. С развитием Web-технологий такой термин, как поисковая машина включает в себя все больше смысловой значимости. Он использовался для обозначения таких служб, как Yahoo, „Рамблер", „Яндекс" и др., обеспечивающих удобный и точный поиск необходимой информации в глобальной сети.
Глобальные масштабы информатизации ресурсов в сочетании с высокой децентрализацией требуют разработки поисковых машин с высокими коэффициентами точности, полноты и репрезентативности, для которых среда информационного портала была бы естественной. При этом перед разработчиком, независимо от предполагаемой ее архитектуры, встают две основные проблемы, от эффективности которых кардинально зависит качество создаваемой системы:
1) проблема эффективности семантического анализа текста, непосредственно несущего информационную нагрузку на источник;
2) проблема организации эффективности поиска в информационной среде.
В данной статье рассматриваются эти проблемы для дальнейшего применения мультиагентной системы, осуществляющей аддитивный интеллектуальный поиск в текстовом источнике (под агентом понимается пользователь, непосредственно имеющий регистрацию в базе портала).
"
ковой машины, поиск в мультиагентной системе не является полным перебором, а наполняется информационным содержимым просматриваемых документов и сопоставляет ее с
автоматически задаваемыми параметрами поиска на основе данных аутентифицирован-ного агента.
Такие свойства гипертекстовой среды, как корреляция семантически связанных гиперссылками документов, соотнесение их аутентифицированному агенту позволяют организовать адаптивный поиск на основе анализа агента портала (его статус, специализацию, интересы и т, д.) и принять на его основе решения о дальнейшей направленности поиска. Автоматический анализ семантического содержания документов представляет собой весьма серьезную проблему, требующую собственных методов решения. Поэтому в предлагаемых моделях он реализован достаточно условно.
Ряд моделей ориентирован на применение алгебраического представления семантики документа и последующего анализа степени релевантности на основе нейросетевой обработки данных. Это не говорит об ограничении на использование именно этих методов анализа текста, В предлагаемом подходе подсистема обработки текста и анализа релевантности документов может быть реализована с помощью различных методов, С точки зрения общей эффективности разрабатываемой поисковой машины важной является результирующая точность оценок релевантности содержимого документов,
1. Общая характеристика поисковых систем WWW, Рассмотрим классические модели построения поисковых машин, в них преимущественно используется механизм индексации данных. Идея индексации заключается в следующем: обладающая относительно низкой регулярностью информация, представленная в виде гипертекстового массива, конвертируется в индекс — сжатый высокорегулярный экстракт исходных данных. Дальнейший поиск производится уже не в гипертексте, а в предварительно созданном индексе.
Индекс составляется безотносительно к отдельному запросу и рассчитан на многократное использование. Обновление индекса производится независимо от обслуживания запросов с целью отражения в нем изменений в исходной гипертекстовой модели. Проблема поиска информации в подобных системах, таким образом, делится на две части:
1) автоматическое составление индекса;
2) поиск в индексе релевантных документов,
В рассматриваемых системах индекс является не чем иным, как реляционной базой данных, что позволяет применить уже существующие технологии работы с базами данных, Можно сказать, что в классических системах проблема поиска информации в информационной среде частично сведена к проблеме поиска в обычной реляционной базе данных. Тем не менее, и здесь остаются две проблемы, требующие нетривиальных решений, а именно:
— составление эффективного индекса текстового документа, адекватно отражающего семантику документа,
— автоматическое определение степени релевантности документа на основе соответствия между индексом и запросом пользователя.
Существующие поисковые механизмы и здесь включают в себя технологии, разработанные ранее для общетематических информационных хранилищ.
Таким образом, для узкоспециализированного портала применяются поисковые механизмы, успешно работающие в средах, для которых они создавались (глобальные — индексирование для среды WWW и перебор — в монотематических средах), но не дают желаемых результатов в образовательных порталах.
Кратко рассмотрим 8 широко распространенных поисковых машин, имеющих классическую, базирующуюся на индексации организацию. Основное внимание будет уделено следующим аспектам работы этих систем:
1) методы навигации в гипертекстовой среде при составлении индекса;
2) форма представления запроса;
3) метод вычисления релевантности документа,
1. Alta Vista (http://www.altavista.digital.com), Одна из наиболее популярных поисковых машин. Сбор данных для индексации производится специальной программной компонентой-роботом, который периодически просматривает содержимое информационной среды. Предусмотрена некоторая оптимизация просмотра WWW в отслеживании частоты изменения Web-страниц (HTML-документов). Для часто модифицируемых документов индекс обновляется чаще, чем индекс документов, изменения в которых происходят редко. Частичное обновление индекса — раз в сутки.
Индексирование базируется на полном тексте документа, первые несколько строчек которого используются в качестве резюме. Автор Web-страницы имеет возможность самостоятельно указать ключевые слова с помощью конструкции МЕТА языка HTML. Эти слова будут автоматически включены в индекс документа при его обновлении.
Запрос в Alta Vista может содержать логические выражения, фразы, либо задавать поиск с учетом регистра. Результаты поиска предъявляются пользователю в виде ранжированного списка найденных URL-адресов и резюме соответствующих документов. Кроме того, указываются размер и время последней модификации найденного документа. Ранжирование документов производится на основе эвристической функции, отдающей предпочтение документам, содержащим ключевые слова в названии или в первых строках документа.
2. Excite (http://www.excite.com). Аналогично предыдущей поисковой машине, имеет программу-робота, предназначенного для просмотра Web-серверов и новостей в системе телеконференций Usenet. Индексация производится на основе полного текста документов. Система индексации выделяет термины и генерирует краткое резюме документа. Общий объем информации составляет около 50 млн документов. Запрос к этой системе может содержать собственные имена и логические выражения. Результат поиска в виде набора адресов URL и резюме документов может быть ранжирован по двум критериям:
— по степени соответствия запросу пользователя (релевантность);
— по сайтам, т. е. по WWW-еерверам, содержащим релевантные документы.
При этом результирующий список содержит сайты, ранжированные по количеству хранящихся на них релевантных документов. Идея последнего способа ранжирования основана на наличии корреляции между физическим размещением документов на серверах и их тематическим содержанием.
3. HotBot (http://hotbot.com). Содержит робота-сборщика информации, называемого Slurp. Сканирование среды WWW осуществляется с помощью сети параллельно работающих рабочих станций, на основе алгоритмов поиска на графе. Программа-робот выделяет из текущего документа все гиперссылки и составляет расписание, которое распределяет выборку документов по рабочим станциям с учетом популярности серверов, на которых находятся соответствующие документы.
Создатели WWW-документов имеют возможность регистрировать их в поисковой машине. Индексация базируется на полном тексте документа. Применятся взвешивание терминов, составляется краткое резюме документов. Индекс представляет собой распреде-
ленную базу данных, расположенную на нескольких рабочих станциях. Это позволяет одновременно обрабатывать несколько запросов пользователей.
Форма запроса позволяет вести поиск по собственным именам, отдельным терминам, фразам и логическим выражениям. Кроме того, имеется возможность ограничить поиск заданными областями (доменами). Ранжирование результата поиска производится по совокупности факторов, таких как длина документа, частота и место появления в нем терминов запроса,
4. InfoSeek Guide (http://www.infoseek.com). Одна из популярных поисковых машин, примечательная тем, что, помимо стандартных HTML-документов, позволяет вести поиск в документах формата PDF (Printed Document File), который наряду с PstSeript и LaTex является одним из стандартов для публикации научных статей. Кроме того, с помощью данной системы возможен поиск в UseNet groups и Web FAQs.
Идентификация проводится по всему тексту документа. Индексная база данных является распределенной. Запрос пользователя поддерживает фразы, собственные имена, поиск с учетом регистра. Кроме того, возможен поиск графической информации, осуществляемый по заголовкам рисунков. Критерием ранжирования найденных документов служит близость расположения терминов запросов к заголовку документа.
5. Lycos (http://www.lvcos.com). Для сканирования среды WWW используется программа-робот, применяющая алгоритм эвристического поиска на графе. Содержащиеся в документе гиперссылки заносятся в специальный список для дальнейшего их раскрытия. Очередность раскрытия (т. е. выборки документов) определяется эвристиками, аналогично классической процедуре эвристического поиска на графе при решении задач искусственного интеллекта. Эвристическая функция включает в предпочтение домашние страницы (Home page) организаций или удельных пользователей. Последние содержат страницы, большое количество ключевых слов, отражающих интересы представителя домашней страницы. Авторы Web-страниц имеют возможность явно зарегистрировать свою информацию в данной системе.
В отличие от большинства систем, в которых индексированию подвергается полный текст документа, Lycos индексирует только заглавия, заголовки и подзаголовки HTML и Gopher документов. В случае, когда число индексируемых терминов превышает 100, для индексации оставляют только 100 терминов. Селекция 100 лучших терминов определяется схемой tf * idf. Кроме того, подсистема индексации заносит в индекс первые 20 строк документа, размер документа в байтах и общее количество содержащихся слов. Запрос в Lycos не поддерживает в явном виде логических выражений, представлен только оператор „НЕ", однако позволяет указывать, помимо единичных терминов, их группы.
В последнем случае может быть указано число терминов, достаточное для признания
"
при числе, равном общему количеству терминов в запросе, получается эквивалент логи-
"
чаетичное совпадение слов, что обеспечивает инвариантность поиска относительно словоформ, а также позволяет учитывать при поиске наличие однокоренных слов с близким значением. Ранжирование найденных документов производится на основе суммы весов индексирующих терминов.
6. OpenText (http://opentext.com). Для сканирования среды WWW система использует классический алгоритм обхода графа, базирующийся на двух списках. В первом содержатся гиперссылки ранее неисследованных документов, во втором — гиперссылки
документов, уже подвергшихся индексации. При работе программа-робот „раскрывает" текущую ссылку из первого списка, индексируя соответствующий документ и извлекая из него возможные гиперссылки. Далее, если извлеченные гиперссылки еще не содержатся ни в одном из двух списков (т.е. соответствующие документы еще не известны системе), они заносятся в первый список для последующего раскрытия. Индексация базируется на полном тексте документа. Возможна непосредственная регистрация документов в системе, Форма запроса содержит произвольные логические выражения, поиск по собственным именам, специальным символам и фразам,
7, Web Crawler (http://webcrawer.com). Сканирующий среду WWW робот базируется на алгоритме поиска в ширину на графе. Интересной особенностью способа сканирования среды WWW является то, что индекс составляется не непосредственно при нахождении данного документа роботом. Вместо процедуры индексирования робот отыскивает и заносит обнаруженные URL-адреса в специальную базу данных, В дальнейшем подсистема индексации индексирует документы, циклически извлекая гиперссылки из пополняемой роботом базы данных. При этом используется эвристика, согласно которой первыми извлекаются документы, принадлежащие разным серверам.
Принцип, лежащий в основе данной эвристики, звучит как „один документ, но с каж-
"
рование проводится по всему тексту документа. Для взвешивания терминов применяется отношение частоты появления терминов в документе к их весу, определенному для заданной предметной области в соответствии с методом tf * idf. Наибольший вес при этом приобретают термины, многократно встречающиеся в документе, однако редко встречающиеся в данной предметной области.
Несмотря на то, что способ вычисления релевантности документа запросу базируется на алгебраической модели, форма запроса к поисковой машине полностью поддерживает логические выражения и поиск по фразам. Известно, что алгебраическая модель принципиально способна реализовать логические операторы при вычислении степени релевантности документа. Список найденных документов ранжируется по вычисленной степени релевантности документов.
Наличие алгебраической модели позволило реализовать дополнительную форму запроса — запрос похожего документа. Для этого пользователь указывает документ-образец, а система производит поиск документов, максимально близких к образцу по содержанию. Технически это реализуется следующим образом. Документ-образец представляется в виде вектора в пространстве терминов. Далее, поиск близких документов производится путем сравнения представляющих их векторов с векторами образца,
8, World Wibe Web Worm (WWWW, http://www.goto.com). Последняя из рассматриваемых систем этого класса, WWWW, выделяется своей примитивностью. Архитектура системы состоит всего из двух компонентов: универсального локатора ресурсов и поискового ядра.
Универсальный локатор ресурсов детектирует новые HTML-документы с помощью метода поиска в глубину на графе. Для индексирования используются лишь заголовки, подзаголовки и сопутствующий гиперссылкам текст (anchor text). В качестве индексной
базы данных используется обычный текстовый файл. Форма запроса поддерживает опе-
""
запросу, точные данные отсутствуют. Отмечается плохое качество работы данной поисковой машины. Основной причиной этого предполагается слишком слабый метод индек-
сации документов, учитывающий только информацию из заголовков, которые не могут достаточно хорошо выражать содержание документа.
Таким образом, общей чертой классических поисковых систем является использование промежуточного представления данных — индекса, составляемого программой-роботом, автоматически сканирующим среду порталов в основном по принципу исчерпывающего поиска. Обработка запросов пользователей осуществляется независимо от операции составления индекса с помощью кластера высокопроизводительных рабочих станций, способных „просмотреть" обширный индекс за доли секунды.
По сути, построение индекса есть упрощение исходной информации, хранимой в среде WWW, до уровня централизованной (или распределенной на небольшом числе мощных компьютеров) коллекции регулярных данных. Тем самым, решение задачи поиска информации в ГИС сводится к давно отработанной задаче поиска информации в мощной, но вполне классической реляционной базе данных (пусть с добавлением некоторых нюансов, таких как вычисление степени релевантности документа по индексу). Именно благодаря этому удалось быстро построить работающие поисковые машины, полезность которых ни у кого не вызывает сомнений.
Однако данному подходу присущи принципиальные недостатки, которые, очевидно, вытекают из несоответствия централизованной архитектуры поисковой машины и децентрализованного характера среды портала, в которой проводится поиск. Практически все классические поисковые машины обладают следующими недостатками:
1, Низкая интеллектуальность поиска документов в информационной среде портала — индекс составляется с помощью программы-робота, сканирующего информационное пространство портала в автоматическом режиме. Как правило, для этого используются классические алгоритмы поиска на графе, ориентированные на полный перебор всех вершин (т, е, документов). Фактически это полный перебор, поскольку целью является составление исчерпывающего индекса, потенциально содержащего всю информацию об информационной среде портала.
Таким образом, при сканировании информационной среды отсутствуют сведения о том, какая информация будет впоследствии представлять интерес. Конкретного запроса для подсистемы индексации просто не существует. Не имея сведений о типе требуемой информации, которые могли бы направить поиск, существенно ограничив его и сделав его интеллектуальным, ничего не остается, как решать данную задачу полным перебором, что неэффективно.
Имеющие место эвристики типа ориентации на выборку документов с разных серверов или адаптация частоты сканирования к частоте обновления Web-страницы, по сути, опираются на физический уровень информационной среды портала, содержащий мало информации об уровне информационном, что делает его неспособным оказать серьезную помощь в ориентации поиска,
2, Упрощенность процедуры вычисления степени релевантности документа на основе
"
и, следовательно, не может быть ориентирован заранее на конкретную информацию или предметную область. Из универсальности индекса с необходимостью вытекает его низкая точность при отработке конкретного запроса.
Сжатие информационного содержимого документа в индекс, каким бы сложным методом оно не проводилось, неминуемо приводит к потере части информации, что принци-
пиально снижает общность и точность поиска по сравнению с поиском, опирающимся на непосредственное сравнение полного содержимого документа с запросом пользователя,
3, Отсутствие распределенности вычислений между клиентом и поисковым сервером. Все необходимые для работы поисковой машины операции выполняются на стороне поискового сервера, клиентская машина пользователя фактически остается незагруженной. Функции поисковой машины сводятся только к вводу запроса, его пересылке на поисковый сервер и получению результатов поиска, В остальное время вычислительная мощность пользовательского компьютера никак не используется.
Такая несбалансированность вычислений ведет к перегрузке поискового сервера, который вынужден отрабатывать запросы тысяч обращений к нему одновременно. Следствием этого являются большие аппаратные затраты. Типичная поисковая машина требует для своей работы кластер высокопроизводительных рабочих станций, что делает проблематичным существование персональных поисковых машин (в данной статье это является доминантной проблемой),
Кроме того, вследствие необходимости отработки централизованной поисковой маши"
время, временной интервал, отводимый на обработку одного запроса, становится очень малым. За это время даже кластер сверхвысокопроизводительных рабочих станций принципиально не успеет реализовать высокоинтеллектуальную и, следовательно, алгоритмически сложную операцию вычислений релевантности документа, поскольку ее необходимо повторить для всех элементов индекса.
Кроме того, монополистическая поисковая машина исключат персонификацию — процесс подстройки системы под интерфейс и предпочтения пользователя, В результате опять же страдают удобства работы с системой и точность поиска,
4, Ограничение на объем хранимого индекса. Поскольку современные масштабы информации делают принципиально невозможным хранение исчерпывающего его описания в отдельном локализованном хранилище данных, индекс в принципе не может содержать полную информацию обо всех документах портала. Невозможно создать и хранить полную копию информационной среды портала на отдельной машине или небольшой группе машин. Результатом является неизбежная потеря общности и точности поиска.
Следствием перечисленных недостатков является общее низкое качество поиска, производимого классическими поисковыми машинами, В качестве примера, подтверждающего
"
на классических поисковых машинах.
Таблица показывает результаты поиска для вышеприведенных и некоторых других классических поисковых машин. Запрос формировался в трех вариантах:
1) дизъюнктивный запрос — требовались документы, содержащие один термин из двух;
2) конъюнктивный запрос — требовались документы, содержащие оба термина;
3) в виде фразы — оба термина должны быть расположены рядом, т, е, должны образовывать фразу,
В таблице приведены результаты запросов трех типов, прочерк означает, что данный тип запроса не поддерживает поисковая машина. Максимальное количество документов выдала система InfoSeek (боле трех миллионов). Минимальное число документов выдала поисковая машина WWWWorm (всего 4999),
Как и ожидалось, число найденных документов уменьшается при переходе от дизъюнктивного запроса к конъюнктивному запросу, а далее, к фразовому запросу. Исключение
Таблица 1
Результат отработки запроса классическими ПС
Название ИМ Дизъюнктивный запрос Конъюнктивный запрос Запрос по фразе
Alta Vista 200000 30000 100
Excite 134669 29287 29287
HotBot 3646449 61830 17630
InfoSeek Guide 3111835 427 100
Lycos 29881 26 _
OpenText 481846 2541 6
WebCrawler 158751 864 6
WWWWorm 4999 2 _
Galaxy 6351 20 _
Magellan 17658 17658 _
373 категории 1 категория _
Yahoo 18344 сайтов 3 сайта 101 сайт
IBM InfoMarket 100 _ _
MetaCrawler 29 32 34
составила система Excite, выдавшая одинаковое число документов при конъюнктивном и фразовом запросах.
Как видно из таблицы, списки, выдаваемые поисковыми машинами на дизъюнктивных и конъюнктивных запросах, очень велики. Это не говорит о том, что все эти документы релевантные. Фразовый запрос, напротив, выдает малое количество документов, явно не исчерпывающих всю имеющуюся в информационной среде портала полезную информацию.
Это связано с применяемыми методами индексации. Для фразового поиска нужен полный исходный текст документа, а, как было отмечено, классические поисковые машины хранят в своем индексе только короткий отрывок документа — первые несколько строк и заголовки. Для всех поисковых машин характерно содержание большой доли нерелевантных документов даже в первой десятке ранжированного выходного списка. Кроме того, документы, представляющие большой интерес, оказались далеко не первыми.
Таким образом, невысокая точность отработки запроса и ранжирования документов приводит к необходимости последующего ручного поиска в выданном списке. Необходимо учитывать, что размеры списка зачастую очень велики. Типичным случаем является список из тысяч и миллионов документов. Таким образом, следует вывод, что классические поисковые машины оставляют пользователю едва ли не большую долю поисковой работы, требующей временных затрат и интеллектуальных усилий.
На основе всего вышеизложенного, основополагающей проблемой является недостаточный уровень точности и полноты, а следовательно, и репрезентативности выборки для конъюнктивного запроса и запроса по фразе в локальных поисковых машинах, т, е, недостаточный уровень интеллектуальной персональной выборки мультиагентной поисковой машины в специализированном портале для конкретного агента (зарегистрированного пользователя),
Отсюда вытекает задача: создание модели мультиагентной интеллектуальной поисковой машины, ориентированной на, локальное применение в специализированных пор-
талах с высоким коэффициентом репрезентативности выборки для конъюнктивного запроса.
Для осуществления поставленной задачи предлагаем создать поведенческую модель агентов, осуществляющих выбор и реализацию последовательности действий, доступных им, направленных на достижение собственных целей. Таким образом, основная цель мультиагентной системы декомпозируется во множестве различных подцелей. Отдельный агент пытается найти подобранную информацию, соответствующую именно его узким интересам, но все преследуют единую цель — получить список выборки по запросу с наивысшим коэффициентом репрезентативности, соответствующим индивидуальному запросу, как с точки зрения смысловой нагрузки, так и семантики,
2. Общий алгоритм работы мультиагентной поисковой системы. Представим общий алгоритм работы мультиагентной локальной поисковой машины, являющийся основой для комплекса разрабатываемой математической модели с точки зрения бионического подхода.
Информационная среда может быть рассмотрена как аналог природной среды биологической экосистемы, в которой находится популяция особей — агентов, „питающихся" информацией. Таким образом, в электронной информационной среде в роли энергоресурса — пищи для существ — выступает информация, структурными единицами которой являются отдельные документы,
В контексте построения мультиагентной поисковой системы основная задача заключается в выявлении нужной пользователю информации (документов) из общего многообразия документов, не являющихся полезными. Количество энергии, приписанное конкретному документу, связано с его релевантностью, В общем случае это неубывающая функция
от величины — степени релевантности документа,
"
щения гиперссылки представленной выборки. Каждый агент имеет интегральный пока"
показывает, насколько он удовлетворен результатом. Извлечение каждого документа агентом изменяет его энергию. Изменение в энергии определяется энергетической стоимостью документа, которая складывается из двух составляющих:
— собственная энергетическая ценность документа, определяемая на основе степени релевантности извлеченного документа,
— плата за использование сетевых ресурсов (каналов связи, рабочего времени сервера, где находится извлекаемый документ, общего времени извлечения документа) — эта величина всегда имеет отрицательное значение.
Релевантные документы имеют положительную энергию, энергия нерелевантных документов приравнена к нулю. Аналогично биологическим процессам, документы, энергия которых не удовлетворяет агентов, т, е, становится меньшей или равной нулю, перестают быть необходимыми для агентов и помечаются определенным маркером с ссылкой на конкретного агента, т, к, для иных агентов этот документ может быть еще энергоемким.
Аналогично биологическим организмам, агенты при понижении уровня энергии стремятся возобновить прежние запасы путем изыскательного обращения к новым документам с целью найти наиболее энергоресурсные (т, е, с самым высоким уровнем репрезентативности) ; чт0 является наиболее целесообразным поглощению по порядку всей представленной выборки.
Таким образом, па техническом уровне происходят следующие операции:
1) Инициализация, Создается и в дальнейшем пополняется популяция п числа агентов. Каждому агенту аг (1=1,... ,п) присваивается тачальное значение энергии Ег, равное случайной величине, равномерно распределенной в интервале [О, Е тах], где Е — максимальная энергия агента,
2) Обработка запроса агента аг, Предоставить агенту процессорное время для выполнения поиска. Используя предоставленное время, агент анализирует содержимое текущего для него документа с^- и устанавливает гиперссылку в данном документе для перехода на следующий документ с1к, Боты размещаются на некоторых начальных документах,
3) Извлечь из информационной среды документ й^, размещение которого определяется гиперссылкой Определить степень релевантности ^документа с1к, Определить изменение энергии ДЕ, агента аг на основе функции энергетической стоимости ДЕ(г,с) документа, зависящей от степени релевантности гк документа сЦ и затрат ск на его извлечение из среды. Сообщить агенту аг изменение энергии
Е'г = Ег + ДЕг, ДЕг = ДЕ (Гк ,Ск).
Установить для агента текущий документ с1к с целью помещения на него соответствующего маркера,
3.1, Инициализация, Создается начальная популяция, состоящая из числа и' ботов. Каждому боту а'г, (г = 1,..., и') присваивается начальное значение энергии Е'г, равное случайной величине, равномерно распределенной в интервале [0,Е'тах], где Е — максимальная энергия агента,
3.2, Выбрать из популяции текущего бота аг, Предоставить боту процессорное время для выполнения поиска. Используя предоставленное время, бот анализирует содержимое текущего для него документа в' ^ и устанавливает гиперссылку 1 в данном документе для перехода на следующий документ в'к. Боты размещаются на некоторых начальных документах,
3.3, Извлечь из информационной среды документ адрес которого определяется ссылкой Уук. Определить степень релевантноети г'к документа в'к. Определить изменение энергии ДЕ '¿бота а'г на основе функции энергетической стоимости ДЕ' г = ДЕ' (г'к ,<С к) документа, зависящей от степени релевантности г'к документа в'к и затрат с'к на его извлечение из среды. Сообщить боту а'г изменение энергии,
Е "г = Е 'г + ДЕ 'г,
ДЕ 'г = ДЕ'(г'к ,с'к).
Установить для агента текущий документ в'к с целью помещения на новый документ,
3.4, Анализ выживания бота. Если модифицированная энергия бота Е''г ^ 0, бот уничтожается, его код снимается с выполнения, освобождается занимаемая оперативная память, бот исключается из популяции, переход к п, 3,8,
а'г ДЕ'г
можна дополнительная обучающая информация) для адаптации на основе встроенного в поисковую машину алгоритма обучения,
3,6, Репродукция, Если модифицированная энергия бота Е'''г ^ 0, бот репродуцируется, создает свою копию, которая, после возможного применения процедуры мутации,
помещается в популяцию ботов. Энергия бота-родителя и бота-потомка распределяется
поровну, т.е. устанавливается равной —-. Потомок стартует с документа в'на котором находится родитель при репродукции,
3.7, Формирование популяции. Выживший бот а'г возвращается в рабочую популяцию,
3.8, Логическое условие поиска. Если текущий размер популяции п' = 0, или выполняется внешний критерий остановка поиска, то завершение работы алгоритма, В противном случае, переход к п, 3,2,
4) Анализ условия присвоения маркера. Если модифицированная энергия агента Е'г ^
0
и документы со схожими тегами. Если модифицированная энергия агента Е'г ^ 0, устанавливается маркер с наивысшим рейтингом на последние просмотренные документы и документы со схожими тегами,
5) Обучение, Агент аг использует полученное изменение энергии ДЕг (также возможна дополнительная обучающая информация) для адаптации на основе встроенного в поисковую машину алгоритма обучения.
Стоит отметить, что поисковый запрос некоторого агента является нулевой точкой, которая в режиме реального времени отслеживает динамически изменение количества энергии,
В общем случае, функция релевантности документов в представленной модели имеет сложную форму, в частности, имеет несколько максимумов. Рассмотрим сложную функцию репрезентативности, имеющую два максимума,
В качестве меры расстояния между векторами запроса и документа выбрана гауссонда от образуемого векторами угла. Каждый эталонный документ, задаваемый эталонным вектором в0 , задает один максимум функции релевантности, В рассматриваемом случае запрос представлен двумя эталонными векторами д0, д0 и параметр ом а для гауссопды,
Гауссонда как кривая, быстро убывающая при отклонении аргумента от экетремально-
"
позволяет ужесточить поиск, при котором релевантными будут считаться только документы, находящиеся в непосредственной близости от эталонных документов, С учетом сказанного, усложненная функция релевантности документа р (в^^) имеет следующий вид
( 1 ( агссов
р = кп *
V
а
(вд?Г|2 _
' + е
1 (агссов(в д0) \ \
2 а
\
/
/
кп х к
значений р (в,ф) к диапазону [0; 1],
Иными словами, релевантными считаются только документы, расположенные в двух компактных областях, центры которых определяются двумя эталонными векторами документов д0, д0. Размер областей определяется параметрами а и порогом релевантности го. Параметр а в данном случае является одинаковым для обоих эталонов, В общем слу-
а
рн ¡личных для каждого эталона.
2
е
1 '
В 0.08 0. 6 о.г« /озг о « 0. 18 0. se 0. M 0. 72 0 8 0. sa о. к
Рис. 1. Примеры кривых поиска
Значения функции р (d,Q) лежат в диапазоне [0;1], Величина го в этой модели не равна О. Значение г0 го диапазона r0 G [0; 1] определяется при генерации гипертекстовой модели, исходя из задаваемой доли релевантных документов R.
Таким образом, при разработке поисковой машины с использованием механизмов представленной математической модели можем представить графически модель, в которой одна ось — уровень репрезентативности, а другая — вероятность репрезентативности. На рис. 1 представлены кривые, изменяемые в процессе нескольких аналогичных запросов поисковой машине одним агентом.
На графике наглядно представлено, что при повторении идентичных запросов вероятность более репрезентативного ответа возрастает.
Заключение. Проанализировав поставленную задачу и создав математическую модель, планируется разработать поведенческую модель-алгоритм работы поисковой машины дня специализированных порталов, что в дальнейшем поможет решить поставленную задачу, а именно создание модели мультиагентной интеллектуальной поисковой машины с высоким коэффициентом репрезентативности выборки дня копьюпктивпых запросов.
Список литературы
1. Божич В. И., Костюхип A.A., Кравцов A.A. Мультиах'снтный поиск релевантных документов. М.: Информ. цивилизация XXI век, 2006.
2. Колмогоров А.Н., Фомин C.B. Элементы теории функций и функциональнохх) анализа. М.: Наука, 1976.
Игнатьев Денис Алексеевич студент СибУПК, e-mail: [email protected]
Дата поступления 20.02.2015