Научная статья на тему 'Мультиагентный поиск релевантных документов'

Мультиагентный поиск релевантных документов Текст научной статьи по специальности «Математика»

CC BY
170
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЕДАГОГИКА ВЫСШЕГО ОБРАЗОВАНИЯ / ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ / ГЛОБАЛЬНАЯ СЕТЬ / ТЕХНОЛОГИЯ ПОИСКА В ИНТЕРНЕТЕ / АЛГОРИТМ ПОИСКА ИНФОРМАЦИИ / ПОИСКОВАЯ СИСТЕМА / МУЛЬТИАГЕНТНАЯ ПОИСКОВАЯ СИСТЕМА / ГИПЕРТЕКСТ / РЕЛЕВАНТНОСТЬ ДОКУМЕНТА

Аннотация научной статьи по математике, автор научной работы — Божич Владимир Иванович, Савченко Маргарита Борисовна

В данной работе предлагается мультиагентная поисковая система (МПС), которая производит поиск HTML-документов с учетом конкретного запроса пользователя с целью извлечения необходимой информации. Рассматривается возможность управления поиском релевантных HTML-документов на основе их информационного содержимого без необходимости сканировать всю гипертекстовую среду WWW.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Мультиагентный поиск релевантных документов»

В.И. Божич, М.Б. Савченко МУЛЬТИАГЕНТНЫЙ ПОИСК РЕЛЕВАНТНЫХ ДОКУМЕНТОВ

Информационная глобальная среда WWW предоставляет широкие возможности в плане оказания влияния на формирование общественного мнения, принятие политических, экономических и военных решений, а также в образовательной деятельности [1, 2]. Использование глобальной сети WWW возможно по двум направлениям: как источник необходимой информации и как средство ее распространения с целью принятия управленческих решений. Для эффективного использования сети необходим поисковый робот-каталогизатор, предназначенный для решения следующих задач:

- поиска информации по ключевым словам и ссылкам;

- отбора и каталогизирования собранной информации;

- контент-анализа текстов;

- ситуационного и сценарного анализа на основе массива собранных данных с целью организации семантических атак.

В данной работе предлагается мультиагентная поисковая система (МПС) [3], которая производит поиск HTML-документов с учетом конкретного запроса пользователя с целью извлечения необходимой информации. Рассматривается возможность управления поиском релевантных HTML-документов на основе их информационного содержимого без необходимости сканировать всю гипертекстовую среду WWW. Содержимое HTML-документов, просматриваемых в текущий момент, используется для принятия решения о направлении дальнейшего поиска. В основе целенаправленного поиска используется и два допущения по организации гипертекстовой среды:

1) наличие положительной корреляции между содержимым документов, связанных гиперссылкой;

2) наличие связи между контекстом HTML-документа, в котором находится гиперссылка, и содержимым документа, адресуемого данной гиперссылкой.

Для пояснения указанных допущений заметим, что создатели Web-страниц помещают рядом с гиперссылкой текст, поясняющий какая информация стоит за данной гиперссылкой. Очевидно, что «содержимое - пояснения» коррелированно с текстом документа, к которому данное пояснение относится. Также следует принять во внимание факт, что при создании HTML-документа WWW-среды формируются гиперссылки на другие документы, в той или иной степени относящиеся к создаваемым документам. В общем случае, степень релевантности документов, связанных гиперссылками, должна быть коррелированна.

Указанные выше свойства WWW-среды обосновывают возможность построения алгоритмов, повышающих эффективность поиска информации на основе анализа содержимого HTML-докуметов. Если некоторый документ является релевантным, то гиперссылки, выходящие из этого документа, имеют тенденцию указывать так же на релевантные документы и наоборот. Следовательно, если ввести две случайных величины R и R', определяемых степенями релевантности документов, связанных гиперссылками /,-,, данное утверждение может быть выражено как r(R,R')>0.

В целом, первое допущение позволяет утверждать, что насыщенные требуемым информационным содержанием документы имеют тенденцию ссылаться друг на друга, формируя кластеры - области информационного пространства, содержащие релевантные документы. Второе допущение обосновывает возможность предсказания и выбора гиперссылок, указывающих на релевантные документы. Предсказание полезности гиперссылки может быть сделано на основе анализа ее контекста. Рассмотренные допущения о статистических свойствах, присущих организации WWW-среды, служат основой эффективности мультиагентного поиска.

Информационная среда WWW может быть рассмотрена как «искусственная жизнь» по аналогии с природной биологической системой, в которой находится популяция особей - агентов, «питающихся» информацией. В роли «пищи» для программных существ - агентов выступает информация, структурными единицами которой являются отдельные HTML-документы. Агенты могут свободно передвигаться между HTML-документами, используя для перемещения гиперссыл-

ки. Каждый агент имеет интегральный показатель успешности своего выживания - собственную энергию, представленную скалярной величиной для оценки успешной деятельности агента. Извлечение агентом каждого HTML-документа изменяет его энергию. Изменение энергии определяется информационной стоимостью документа, которая складывается из двух составляющих:

1) собственная информационная ценность HTML-документа. Она определяется степенью релевантности извлеченного документа;

2) плата за использование сетевых ресурсов (каналов связи; рабочего времени WWW-сервера, где находится извлекаемый HTML-документ; общего времени извлечения документа). Данная величина всегда имеет отрицательное значение.

Релевантные документы имеют положительную энергию, энергия нерелевантных документов приравнена к нулю. По аналогии с биологическими организмами агенты «погибают» (устраняются из памяти компьютера и рабочей популяции), если их энергия истощается, т.е. становится меньшей или равной нулю. Агент, энергия которого превышает некоторый уровень, становится родителем и дает нового агента - потомка. По аналогии с делением клеток энергия между родителем и его потомком делится пополам; потомок стартует с того же документа, что и родитель.

В контексте построения МПС «искусственная жизнь» гипертекстовой среды WWW определяется основной задачей, которая заключается в выявлении нужной пользователю информации (HTML-документов) из общего многообразия документов, не являющихся полезными. При этом количество энергии, приписанное конкретному документу, связано с его релевантностью. В общем случае это неубывающая функция, зависящая от величины - степени релевантности документа.

Реализующий приведенную модель «искусственной жизни» гипертекстовой среды WWW алгоритм работы мультиагентного поиска состоит в следующем.

1. Инициализация. Создается начальная популяция, состоящая из n агентов. Каждому агенту ai (i = 1,...,n) присваивается начальное значение энергии Ei, равное случайной величине, равномерно распределенной в интервале [0;Emax], где Emüx - максимальная энергия агента. Агенты размещаются на некоторых начальных документах.

2. Выбор из популяции текущего агента . Предоставить агенту процессорное время для выполнения поиска. В пределах выделенного времени агент анализирует содержимое текущего для него HTML-документа dj и устанавливает гиперссылку j в данном документе для перехода на следующий документ dk.

3. Извлечь из WWW-среды документ dk, URL которого определяется гиперссылкой ljk.. Определить степень релевантности г^ документа dk. Определить изменение энергии ЛЕ, агента а, на

основе функции энергетической стоимости АЕ С документа, зависящей от степени релевантности Гк документа ¿4 и затрат ск на его извлечение из среды. Сообщить агенту а, изменение энергии: Е' = Ef + ЛЕ. ■ Л/'.; = АЕ. Установить для перемещения агента новый текущий документ dk.

4. Обучение. Агент а, использует полученное изменение энергии AEh а также дополнительную обучающую информацию для адаптации в среде.

5. Анализ успешности работы агента. Если модифицированная энергия агента Е' < О, агент уничтожается: его код снимается с выполнения, а занимаемая им оперативная память освобождается; агент исключается из популяции. Переход к п. 8.

6. Репродукция. Если Е' > Лтах. агент репродуцируется: создает свою копию, которая помещается в популяцию агентов. Энергия агента-родителя и агента-потомка распределяется поровну. Потомок стартует с документа dk, на котором находился родитель.

7. «Выживший» агент üiвозвращается в рабочую популяцию.

8. Если текущий размер популяции n = 0, или выполняется внешний критерий останова поиска, завершение работы алгоритма, в противном случае, переход к п.2.

Приведем пояснения к пунктам приведенного алгоритма. Следует отметить, что термин «нахождение» агента на некотором документе означает, что данный документ является для него текущим, т.е. определяет точку производимого агентом поиска в гипертекстовой среде. Каждый

агент содержит адрес (URL) своего текущего документа. «Перемещение» агента между документами среды заключается в смене текущего документа dj на новый документ dk, адресуемый выбранной агентом гиперссылкой.

Алгоритм мультиагентного поиска рассматривает гипертекстовую коллекцию данных в виде ориентированного графа, вершины которого соответствуют документам коллекции d, ребра -гиперссылкам lj между документами.

В п.1, в качестве стартовых документов агентам присваиваются указанные пользователем релевантные документы или документы, имеющие отношение к релевантным. Если таковые не известны, в качестве начальных документов могут быть приняты произвольные документы, полученные в результате предварительного поиска стартового множества документов посредством классической поисковой системы.

Выбор текущего агента (п.2) возможен различными способами. В предлагаемых моделях агенты получают процессорное время по очереди; однако, возможен выбор для исполнения случайного агента или выбор с учетом энергии агента.

Задачей агента (п.3) является определение гиперссылки для извлечения следующего документа. Целью анализа текста документа является определение гиперссылок, «перспективных» для перехода - URL, с высокой вероятностью адресующих релевантные документы. Способ анализа документов определяется внутренней архитектурой агентов.

Функция энергетической стоимости документа для любых ранее извлеченных документов принята равной 0 (считается, что нахождение ранее извлеченного документа не влияет на состояние агента). В общем случае, она определяется формулой:

AEi;, Es с пш АЕ = Es(p (i, с, где

r - степень релевантности оцениваемого документа;

c - обобщенная стоимость затрат на извлечение оцениваемого документа из коллекции;

Es(r) - функция, которая ставит в соответствие документу со степенью релевантности r его собственную информационную ценность;

q - выражение, представляющее запрос пользователя;

p(d,Q) - функция релевантности, ставящая в соответствие содержимому HTML-документа d степень его релевантности r по отношению к запросу Q.

Стоимость c извлечения документа из среды принята равной постоянной величине для документов, впервые извлеченных из WWW-среды и равной 0 для документов, которые были извлечены ранее и содержатся в специальном кэше документов. Функция Es(r) в общем случае является неубывающей функцией от степени релевантности документа, так же равной 0 для ранее извлекавшихся документов. Степень релевантности г документа d вычисляется на основе его содержимого и поискового запроса q. V = р Q .

Функция релевантности р (d,Q) может вычисляться двумя способами: автоматически, или на основе оценок пользователя. В первом случае, вычисление p(d,Q) производится на основе некоторой эвристики, ставящей число - степень соответствия документа запросу пользователя и тексту документа. При втором способе, пользователь может самостоятельно оценивать предъявленные ему документы. Возможен комбинированный вариант.

Указанное в п.4 действие по обучению агента имеет место для сложных агентов, наделенных механизмами адаптации. Простые агенты, поведение которых определяется небольшим набором адаптивных параметров, могут игнорировать этот пункт. Их настройка может быть произведена через эволюционное обучение посредством селекции (выживания) агентов с высокой энергией, а так же механизмов репликации, заложенных в общий алгоритм работы.

При репликации (п.6), агент создает свою точную копию, имеющую идентичную структуру, состояние и набор значений адаптивных параметров. Процедура мутации, имеющая место при репликации агентов, заключается в случайном изменении значений адаптивных параметров агентов с помощью аддитивного гауссового шума. Вероятность внесения некоторого изменения в параметр уменьшается с ростом величины данного изменения, что позволяет сохранить преемственность (близость значений параметров) между родителем и его потомком.

В процессе выполнения алгоритма извлеченные документы с высокой степенью релевантности ранжируются и выдаются пользователю в виде списка. Останов алгоритма (п. 8) может происходить при вырождении популяции, по внешней команде от пользователя или тайм-ауту.

В соответствии с приведенным общим алгоритмом мультиагентного поиска агент, в целях своего выживания, становится «заинтересован» в успешном нахождении релевантных документов. Успешность работы агента определяется двумя факторами, связанными с приведенными выше допущениями о свойствах организации WWW-среды:

- месторасположением агента в информационной среде;

- способностью агента правильно выбирать гиперссылку для последующего перехода.

Первый фактор во многом определяется местом «рождения» агента в информационной

среде WWW. Агенты, которые появились в области информационной среды, насыщенной релевантными документами, имеют преимущество над остальными. Отметим, что моделируемый процесс эволюции создает тенденцию к миграции агентов в информационно насыщенные области среды.

Второй фактор полностью определяется «интеллектом» агента, который должен на основе некоторого алгоритма проанализировать содержимое документа и выбрать необходимую гиперссылку. Кроме того, агент может использовать получаемые им изменения в энергии как стимулирующие сигналы, указывающие на успешность предпринятых им действий. На основе этих сигналов возможна организация адаптации поведения агента собственными алгоритмами обучения. Последние связаны с внутренней архитектурой агента, которая может варьироваться в широких пределах, и не зависит от общего алгоритма работы МПС.

Как отмечалось, основной предпосылкой, обуславливающей возможность использования содержания документов WWW-среды для обеспечения эффективного поиска, являются сделанные допущения о статистических свойствах структуры гиперссылок. Приведем дополнительные предпосылки, обосновывающие данный алгоритм и возможность его эффективной работы - возможность введения семантического пространства документов, т.е. пространства, расстояние в котором связано с близостью содержания документов.

Помимо данного пространства, в среде WWW существует и более «осязаемое» информационное пространство документов и гиперссылок, расстояние в котором определяется гиперссылками между документами (наиболее близко расположенными считаются документы, которые непосредственно ссылаются друг на друга через гиперссылку.) Для агентов этот уровень организации WWW-среды является физическим, поскольку они существуют и перемещаются именно в пространстве HTML-документов и гиперссылок.

Сущностью двух выше сделанных допущений является коррелированность этих пространств документов. Это означает, что топология пространства гиперссылок связана с пространством семантическим и, по сути, определяется им, так как создатели HTML-документов устанавливают гиперссылки исходя из семантики документов.

Задача агентов является обратной по отношению к задаче создателей документов: если первые создают гиперссылки на основе семантики документов, то вторые должны извлечь семантически близкие к запросу документы на основе гиперссылок.

Информация, заложенная в гиперссылки как элементе организации структуры WWW-среды должна быть полезной при поиске релевантных документов. Обучение агента заключается в усвоении закономерностей взаимодействия пространства гиперссылок и семантического пространства документов. Основываясь на обнаруженных статистических свойствах гиперссылок и реле-вантностей документов, связанными между собой гиперссылками, агент может эффективно извлекать из гипертекстовой среды релевантные документы.

Разработанный алгоритм учитывает результаты исследований по моделированию жизнедеятельности колоний биологических микроорганизмов, проводимые сообществом по моделированию «искусственной жизни» (Artificial Life Community) [4]. Для моделей этого класса должно быть

наличие некоторой электронной среды - аналога естественной среды обитания биологических организмов. Аналогично природной среде, электронный эквивалент содержит определенные ресурсы, необходимые для выживания колонии электронных организмов. К таковым относится жизненное пространство, в роли которого обычно выступает память ЭВМ [4] или пища (энергия) [5, 6]. Кроме того, в моделях среды может быть введена метрика, определяющая расстояния между объектами в электронном мире [7]. В таких «мирах» виртуальные организмы обладают способностью к миграции. Практически во всех моделях искусственной жизни электронные организмы наделены способностью к эволюционной адаптации, целью которой является их выживание и репродукция. Тот или иной алгоритм обучения, заложенный в электронных существах, ведет к эволюции системы в целом, где могут появиться такие интересные эффекты, как коллективное взаимодействие или паразитизм [4]. Эволюционные процессы, протекающие в таких моделях, сходны с эволюцией в представленной мультиагентной системе. По существу, колонии электронных организмов и являются мультиагентными системами, отличие последних заключается в прикладном применении.

Предлагаемая мультиагентная поисковая система может быть рассмотрена как система моделирования жизнедеятельности адаптивных организмов, средой обитания которых выступает гипертекстовая информационная среда WWW. Основная цель выживания поисковых агентов напрямую связана с решением прикладной задачи - нахождением релевантных документов.

Приведенный выше общий алгоритм поиска, по сути, является алгоритмом эволюционной адаптации, уничтожающим плохих особей и увеличивающим процент успешных особей в популяции за счет репликации. Фактически, каждая особь популяции (агент) может работать полностью независимо. Селекция, уничтожение и репликация лучших особей осуществляется независимо от остальных, на основе постоянных порогов энергий: нулевом пороге для уничтожения агента и пороге равном Emax для его репликации. Это отличает данный алгоритм от известных алгоритмов селекции, для которых используется операция проверки всех особей популяции с целью уничтожения худших особей в системе.

Алгоритм обладает рядом преимуществ: высокая степень распараллеливания алгоритма, который может успешно выполняться сразу на большом количестве машин, состав которых может динамически меняться. Такие свойства алгоритма ориентированны на его реализацию в варианте с мобильными агентами, в полной мере раскрывающими возможности мультиагентного поиска.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Божич В.И., Горбатюк Н.В. Интеллектуальная система компьютерного обучения // Новости искусственного интеллекта. 2000. № 3. С. 102-111.

2. Божич В.И., Горбатюк Н.В., Савченко М.Б. Компьютерное образование, как фактор изменения информационно-психологической безопасности личности // Известия ТРТУ. «Психология и педагогика». 2005. № 5 (49). С. 232-240.

3. Кононенко Р.Н., Божич В.И. Модель мультиагентной поисковой системы Internet на основе нейро-сетевых агентов // VI Всероссийская конференция "Нейрокомпьютеры и их применение" (НКП 2000) 16-18 февраля 2000: Сб. науч. тр. М., 2000. С. 245-249.

4. Ray T.S. Artificial Life II // Proc. of the Santa Fe Institute Studies in the Sciences of Complexity V. X. / C. Langton et al. eds.: Addison-Wesley, 1992. 331 p.

5. Menczer F., Belew R.K. Latent Energy Environments // Adapting Individuals in Evolving Populations: Models and Algoritms / ed. by R.K. Belew, M. Mitchell. Reading (MA): Addison Wesley, 1996. ( SFI Studies in the Sciences of Complexity; V. XXIII ).

6. Menczer F., Belew R.K. Latent Energy Environments: A Tool for Artificial Life Simulations: Technical Report. S. 93-301. San Diego (CA): University of California, 1993. 13 p.

7. Brown C.T. An Introduction to avida, an Auto-Adaptive Genetic System : SURF technical report. Caltech, 1993.

i Надоели баннеры? Вы всегда можете отключить рекламу.