Научная статья на тему 'Экспертная система семантического поиска релевантных данных и формирования адаптивных Web-страниц'

Экспертная система семантического поиска релевантных данных и формирования адаптивных Web-страниц Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
683
84
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Почанский Олег Михайлович

Рассматривается подход к решению задачи семантического поиска релевантных данных в сети Интернет и построения адаптивных Web-страниц на основе создания универсального программного объекта. Итоговый результат, соответствующий требованиям и интересам пользователя, формируется экспертной системой в виде персонализированного рейтинга Web-документов, который зависит от значений социального индекса.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Почанский Олег Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Expert system for search of relevant information and synthesis of adaptive Web-pages

This paper represents the decision of problem of relevant data search using the expert system. It‘s main goal is to search information, interesting to the user, and displaying it in the form of a document consisting of adaptive Web-pages.The results of modeling are presented.

Текст научной работы на тему «Экспертная система семантического поиска релевантных данных и формирования адаптивных Web-страниц»

No. 387. 629 p. 14. Application of the Single Failure Criterion: Safety Series / International Atomic Energy Agency. Vienna: IAEA, 1990. No. 50-P-1. 134 p. 15. Герасименко К.Е. Методы непрерывного контроля и диагностирования оборудования управляющих систем безопасности энергоблоков АЭС по функции защит / К.Е. Герасименко // Радюелектронш i комп'ютерш системи. 2010. №3 (44). С. 152-156. 16. Герасименко К.Е. Использование непрерывных функций в элементах оборудования защит АЭС для диагностирования неисправностей типа «несрабатывание по требованию» / К.Е. Герасименко // Радь оелектронт i комп'ютерш системи. 2011. №1 (49). С. 29-33. 17. БондаренкоМ.Ф., КривуляГ.Ф., Рябцев В.Г., Фрадков С.А., Хаханов В.И. Проектирование и диагностика компьютерных систем и сетей. К.: НМЦ ВО. 2000. 306 с. 18. Хаханов В.И., Литвинова Е.И., Чумаченко С.В., Гузь О.А. Логический ассоциативный вычислитель // Электронное моделирование. 2011. № 1(33). С. 73-89. 19. Hahanov V., Wajeb Gharibi, Litvinova E., Chumachenko S. Information analysis infrastructure for diagnosis // Information an international interdisciplinary journal. 2011. Japan. Vol.14, № 7. Р. 2419-2433.

Поступила в редколлегию 01.06.2012 Герасименко Константин Евгеньевич, заведующий отделом информационно-управляю -щих систем ЧАО СНПО "Импульс". Научные интересы: техническая диагностика цифровых систем управления объектами с повышенными требованиями к безопасности и надежности. Адрес: Украина, 93405, Северодонецк, пл. Победы, 2, тел. 60194. E-mail: [email protected]._

УДК 004.853 О.М. ПОЧАНСКИЙ

ЭКСПЕРТНАЯ СИСТЕМА СЕМАНТИЧЕСКОГО ПОИСКА РЕЛЕВАНТНЫХ ДАННЫХ И ФОРМИРОВАНИЯ АДАПТИВНЫХ WEB-СТРАНИЦ

Рассматривается подход к решению задачи семантического поиска релевантных данных в сети Интернет и построения адаптивных Web-страниц на основе создания универсального программного объекта. Итоговый результат, соответствующий требованиям и интересам пользователя, формируется экспертной системой в виде персонализированного рейтинга Web-документов, который зависит от значений социального индекса.

1. Введение

Под экспертной системой понимают компьютерную интеллектуальную систему, которая эмулирует способность эксперта к принятию решений [1]. Главными преимуществами экспертных систем являются: повышенная доступность (для обеспечения доступа к экспертным знаниям могут применяться любые подходящие компьютерные средства); постоянство (экспертные знания никуда не исчезают); возможность получения экспертных знаний из многих источников (с помощью экспертных систем могут быть собраны знания многих экспертов и привлечены к работе над задачей, выполняемой одновременно и непрерывно); быстрый отклик (при использовании современного аппаратного и программного обеспечения экспертная система может реагировать быстрее и эффективнее, чем эксперт-человек); возможность использования в качестве интеллектуальной базы данных (экспертные системы могут применяться для доступа к базам данных с помощью интеллектуального способа доступа).

Следовательно, разработка экспертной системы для организации эффективного поиска информации является перспективным вариантом решения таких задач, как синтез динамических адаптивных Web-страниц на основе создания универсального программного объекта, реализующего поиск и интеллектуальный анализ данных сети Интернет по предлагаемым методам и критериям [2].

Выделим наиболее существенные моменты, относящиеся к распределению функций поисковой экспертной системы:

- функции эксперта выполняет программный модуль А, реализующий алгоритм поиска информации по социальному индексу, который тесно связан с текущими тематическими интересами пользователя (социальный критерий);

- функции инженера по знаниям выполняет программный модуль В, реализующий алгоритмы выделения значимой информации и оценки Web-документов по их структурным характеристикам (методы обработки);

- координацию работы программных модулей А и В выполняет специализированный программный модуль С, который отвечает за индексирование и обработку Web-ресурсов, найденных в сети Интернет;

- полученные в результате поиска релевантные отфильтрованные данные (явно выраженные знания) поступают в базу знаний экспертной системы, представленную онтологией с заранее определенной структурой.

В данной работе предлагается вариант экспертной поисковой системы, построенной по принципу организации программ, основанных на знаниях, который рассмотрен в [3] с учетом отмеченной выше специфики распределения функций.

2. Формирование базы знаний экспертной поисковой системы

В общем случае под базой знаний понимают особого рода базу данных, предназначенную для оперирования знаниями (мета-данными) [3]. Полноценные базы знаний содержат в себе не только фактическую информацию, но и правила вывода, допускающие автоматическую обработку информации. Как правило, они предназначены для поиска способов решения определенной проблемы из некой предметной области, основанных на записях базы знаний и на пользовательском описании ситуации. Таким образом, любая экспертная система или программа-агент так или иначе взаимодействует с определенной базой знаний, описывающей предметную область.

Рассмотрим процесс организации и текущей модификации базы знаний для системы эффективного поиска Интернет-ресурсов в рамках заданной тематики.

Построение любой базы знаний невозможно без формирования постоянных источников поступления информации. В разрабатываемой экспертной системе поиска в качестве основного источника поступления новых Web-страниц по заданной тематике была предложена специально разработанная настройка над браузером пользователя, называемая плагином. Кроме того, на начальном этапе в качестве дополнительного источника информации предлагается использовать тематические каталоги поисковых систем Яндекс, Mail.ru и Yahoo, что позволяет сформировать основу информационной подпитки разрабатываемой экспертной системы поиска непосредственно уже на первом шаге введения ее в эксплуатацию. При этом исключаются возможные проблемы с корректным выводом релевантных результатов по запросу пользователя из-за отсутствия Web-страниц по запрашиваемой им тематике.

Кроме того, база знаний системы должна накапливать данные, поступающие из внешних источников (Web-страниц) таким образом, чтобы обеспечить вывод необходимой пользователю информации в соответствии с составленным им запросом. При этом главным показателем эффективности работы выполняемого поиска является вывод наиболее близкого релевантного результата в виде списка, состоящего из нескольких Web-страниц, соответствующих тематике сформированного запроса. Этому могут способствовать грамотно спроектированные специализированные правила логического вывода в рамках заданной модели базы знаний разрабатываемой экспертной системы поиска [2]. В математическом смысле выполнение поискового запроса - это одна из форм логического вывода (например, возможность вывести из множества разнородных данных некоторый компактный результат поиска).

Основная задача правил логического вывода базы знаний рассматриваемой экспертной поисковой системы состоит в обработке и структуризации информации, поступающей из сети Интернет. Для этого на этапе анализа Web-документов базу знаний экспертной системы поиска целесообразно разбивать на различные уровни обобщения в рамках исследуемой тематики, достигая при этом выделения узкоспециализированных источников информации. Это позволит получить релевантный результат поиска, основываясь только на определении предметной области сформированного пользователем запроса. Правила вывода можно составить по каждой из тематик, выделенных экспертом для базы знаний разрабатываемой экспертной поисковой системы. При этом фактически под тематикой Web-страницы подразумевается определенный интерес пользователя, указанный им при регистрации в системе.

Предлагаемый вариант организации базы знаний тематических Интернет-ресурсов приведен на рис. 1. Эта база знаний имеет трехуровневую структуру, с которой взаимодействуют соответствующие правила логического вывода. Опишем назначение каждого из уровней:

Уровень 1. Обобщенное понятие - содержит данные, отвечающие за описание основных признаков разделения экспертом источников данных по их тематикам.

Уровень 2. Тематика источника - содержит данные, характеризующие принадлежность Web-ресурса к определенной тематике (при этом вводится ограничение на принадлежность любого Web-ресурса только одной тематике).

Уровень 3. Содержание источника - содержит данные, описывающие структурные характеристики Web-страниц заданного источника информации.

Правила логического вывода участвуют в процессе формирования итогового результата в виде списка Web-страниц, удовлетворяющих запросу пользователя. Сама база знаний экспертной системы поиска основывается на данных, выявленных при анализе Интернет-ресурсов и его семантического описания, составленного согласно стандарту Dublin-core. При этом источники информации поступают из плагина и тематических каталогов в виде ссылок на Web-ресурсы, которые затем обрабатываются с учетом особенностей предложенной структуры базы знаний.

Рис. 1 Структура базы знаний системы Наполнение базы знаний реализуется с помощью онтологии, которая хранится в виде специального файла с расширением owl, близким по своей структуре к XML-файлу. Под онтологией в данном случае понимаются записанные на особом языке (Ontology Web Language (OWL)) правила и способы описания значений и отношений терминов. Главным ее преимуществом является способность устанавливать синонимию различных терминов. Как только хоть один автор укажет, что два термина являются синонимами, программы-агенты получают возможность конвертировать незнакомые теги (специальные выражения, применяемые для описания онтологии в языке OWL) в известную им систему координат. Это придает дополнительную гибкость технологиям Semantic Web [2], поскольку разработчикам не потребуется обновлять базу знаний после появления новых терминов или онтоло-гий - они всегда смогут конвертировать термины, исходя из их связей с другими понятиями, самостоятельно обучаясь использованию неизвестных ранее тегов.

В базовой версии онтология рассматриваемой модели базы знаний экспертной системы поиска состоит из трех основных терминов: User (Пользователь), Interests (Интересы пользователя) и WebSource (Название страниц, на которые заходил пользователь).

Принцип работы рассматриваемой базы знаний заключается в следующем:

- данные, полученные после регистрации пользователя в экспертной системе поиска, поступают в термины User и Interests. При этом в первом хранится общая информация о нем (ФИО, возраст, email и т.д.), а во втором содержится перечень его интересов (выбранных из предложенного списка при регистрации). Эти термины связаны между собой свойством hasInterests, благодаря которому элементы Interests могут рассматриваться как часть термина User;

- в термин WebSource данные поступают из плагина, который закачивается пользователем при регистрации в экспертной системе поиска (или из тематического каталога). Они представляют собой ссылки на Web-страницы, которые посетил пользователь, а также данные, полученные при анализе их HTML-кода (значимую информацию электронного документа), и атрибут ValuableInformation. Этот атрибут, в свою очередь, состоит из списка элементов, характеризующих его содержание. Термин WebSourse связан с термином User свойством hasVisitWebSourse по аналогии с термином Interests;

- после накопления данных, полученных от пользователей экспертной системы поиска, они могут быть выведены из базы знаний в виде итогового результата в соответствии со сформированным запросом.

Остановимся на термине WebSourse более подробно, поскольку он содержит ключевые объекты базы знаний - Web-документы. Они представляют собой отдельную онтологию, которая имеет заданную экспертом определенную классовую структуру и формируется следующим образом:

- классовая структура онтологии формируется разработчиком на основании проведенных экспериментальных исследований и экспертных данных для термина WebSourse с учетом свойств, определяемых для каждого исследуемого Web-документа;

- экземпляры классов состоят из Web-страниц, которые автоматически классифицируются системой на основании заданных свойств каждого из классов;

- в процессе работы системы для каждого из классов онтологий формируется список ключевых слов, соответствующих их тематике;

для каждой Web-страницы определяется список значений ее структурных характеристик, который интегрируется в сформированную онтологию (рис. 2).

/Семантическое описание (Dublin соге)\

Dubl¡n_Core Ф Trite Ф Creator 9 Subject V Abstract Туре Format Identiter Language

Объединение

Рис. 2. Онтология Web-документов Полученная онтология Web-документа объединяется со своим семантическим описанием, составленным в соответствии со стандартом Dublin Core автором Web-документа. В случае его отсутствия генерируется семантическое описание с пустыми значениями.

Сформированная по описанному алгоритму база знаний будет способствовать быстрому и эффективному выводу релевантных результатов поиска в виде списка Web-докумен-тов в соответствии с запросом пользователя и с учетом его интересов в рамках заданной предметной области. Это выполняется благодаря использованию современных технологий Semantic Web (OWL, Dublin Core) с помощью предложенной структуры ее организации и построения.

3. Алгоритм поиска релевантной информации с применением социального

индексирования Web-документов

В соответствии со своим назначением рассматриваемая экспертная поисковая система должна формировать релевантные результаты в соответствии с текущими требованиями и интересами пользователя. Выполнение этой задачи основано на применении описанных в [2] методов поиска, использующих критерий социального индексирования и оценивание структурных характеристик Web-документа. Рассмотрим подробнее особенности применения этих характеристик поиска в экспертной поисковой системе.

Алгоритм работы метода поиска релевантной информации с применением социального индексирования Web-документов реализуется следующим образом:

- формируются данные об интересах пользователей, полученные на основе заполнения регистрационной формы при работе с экспертной системой поиска;

- накопление данных по разным тематикам выполняется с помощью плагина экспертной системы поиска, который с разрешения пользователя передает информацию о том, какие страницы он посещает и соответствуют ли они его текущим интересам. Полученные данные обрабатываются и передаются в базу знаний;

- пользователь с помощью программы плагина оценивает степень соответствия Web-документа его интересам;

- путем обработки поступающих данных от плагинов пользователей рассчитываются значения социального индекса, которые присваиваются каждому Web-документу;

- на основании полученных значений рассчитывается одна из частей персонализированного рейтинга (вторая часть вычисляется критериями качества информации) популярности Web-документов среди пользователей с близкими интересами, который учитывается при выводе списка релевантных результатов (Web-документы с более высоким рейтингом выводятся в начале списка);

- реализуется проверка на соответствие мета-данных анализируемого Web-документа его реальной тематике (имеет ли он популярность у пользователей с интересами в рамках заданной предметной области). Если источник информации не проходит проверку, экспертная система считает его нерелевантным и не выводит в качестве итогового результата (по желанию пользователя возможен вывод данных источников информации в конце списка);

- на основании социальной значимости каждого Web-документа (его социального индекса) формируется отдельный список наиболее востребованных источников информации по различным тематикам среди пользователей с близкими интересами.

Структурные характеристики - основные критерии оценки качества информации, применяемые разрабатываемой экспертной системой поиска. Значение каждой структурной характеристики Web-документа определяется по средствам интеграции с различными Web-сервисами, а также программного анализа Web-документов. Алгоритм применения данных критериев для вывода релевантных результатов по запросу пользователя реализуется следующим образом:

- пользователь во время формирования поискового запроса к экспертной системе указывает диапазон возможных значений структурных характеристик искомых Web-доку-ментов (по умолчанию заданы средние значения);

- на основании полученных значений структурных характеристик Web-документов вычисляется общая оценка качества для каждого из источников информации, которая составляет вторую часть персонализированного рейтинга популярности Web-документов среди пользователей с близкими интересами;

- после того как экспертная система поиска выдаст итоговый результат в виде списка релевантных Web-документов, их порядок может быть изменен путем применения различного типа сортировки по одной или нескольким структурным характеристикам источников информации;

- в случае изменения пользователем диапазона допустимых значений структурных характеристик Web-документов возможен пересчет итоговых результатов.

Таким образом, итоговый результат, соответствующий требованиям и интересам пользователя, формируется экспертной системой в виде персонализированного рейтинга Web-

документов, который зависит от значений социального индекса и общей оценки значимости и определяется по следующей формуле:

PRi ^rajCSli2) + ю2(dCOptimal)^), (1)

где i - номер анализируемого Web-документа, i = 1, m (m - общее количество исследуемых Web-документов); PRi - персонализированный рейтинг i -го Web-документа; Sli -значение социального индекса i -го Web-документа; d(Optimal)i - общая оценка значимости i -го Web-документа; ю^ - весовые коэффициенты с диапазоном значений, которые устанавливаются пользователем экспертной системы поиска и определяют степень значимости каждого из критериев (по умолчанию имеют равнозначные значения - 0,5 и 0,5 соответственно). Следовательно, пользователь может влиять на итоговый результат работы экспертной системы поиска.

Таким образом, в соответствии с (1) определяется итоговое значение персонализированного рейтинга Web-документа, на основании которого формируется список релевантных результатов экспертной системы поиска в соответствии с запросом пользователя. Это осуществляется путем сравнения значений персонализированного рейтинга Web-документов, которые удовлетворяют запросу пользователя. Чем выше данное значение, тем выше позиция документа в списке релевантных значений.

Опишем основные этапы реализации схемы формирования экспертной системой релевантных результатов по запросам пользователя (с учетом его актуальных интересов):

- заполнение базы знаний Web-страницами из сети Интернет и описание семантических связей в рамках близких предметных тематик в форме онтологий;

- регистрация пользователя поиска с помощью Web-формы в экспертной системе поиска (заполнение идентификационных данных, создание социального профиля и указание своих тематических интересов) и установка плагина, встраиваемого в браузер для оценивания социальной значимости информационного источника;

- загрузка пользователем любой Web-страницы из сети Интернет через браузер, в который встроен плагин экспертной системы поиска;

- формирование критериев социальной значимости Web-страницы на основании оценки пользователя с учетом его интересов и сохранение данных о ней в базе знаний системы;

- вычисление социального индекса Web-страницы (с использованием критериев ее социальной значимости и информации из базы знаний системы);

- определение пользователем весовых коэффициентов и задание возможных значений диапазона структурных характеристик с помощью Web-формы, которая может быть представлена в виде динамического списка, состоящего из элементов описанных выше параметров. Ее реализация возможна на этапе практической разработки модели экспертной системы поиска;

- формирование значений обобщенных критериев качества информации и описание найденных Web-страниц в соответствии с запросом пользователя, представляемых в виде Xml-файлов. При этом анализируемые параметры электронных документов образуются из их семантических описаний (по стандарту Dublin Core), представленных в виде отдельных Rdf-файлов, а также данных, выявленных на этапе заполнения базы знаний;

- определение значений степени близости между найденными Web-страницами и обобщенными критериями качества информации;

- формирование общей оценки качества Web-страниц на основании их удаленности от возможных значений диапазона структурных характеристик источника информации, составленных пользователем экспертной системы;

- вычисление персонализированного рейтинга Web-страницы, зависящего от значений ее социального индекса и критериев качества информации, на основании которого формируется список релевантных результатов поиска разрабатываемой экспертной системы.

Таким образом, экспертная система позволяет пользователю получать ранжированную релевантную информацию из сети Интернет в соответствии с его текущими интересами. Это способствует повышению качества результатов поиска необходимых электронных документов по требуемой предметной области и позволяет сократить временные затраты на их последующую обработку. 62

4. Формирование адаптивных Web-страниц по результатам семантического

Рассмотрим метод формирования динамических Web-страниц путем выделения значимой информации из Web-ресурсов сети Интернет по запросу пользователя. Данный метод основывается на взаимодействии пользователя с плагином экспертной системы поиска и предусматривает поэтапную реализацию следующих операций:

- поиск необходимого источника информации для формирования персонализированной динамической Web-страницы (выполняется путем формирования пользователем запроса к экспертной системе, а также с помощью других сторонних Web-сервисов или простого серфинга в сети Интернет при условии установки специализированного плагина экспертной системы поиска);

- обработка и выделение значимой информации из Web-документа. Пользователь по средствам плагина дает оценку используемому источнику информации, после чего происходит проверка наличия электронного документа в хранилище значимой информации. В случае положительного результата происходит считывание информации из базы знаний. При ее отсутствии выполняется обработка Web-страницы методом выделения значимой информации с последующей записью в хранилище экспертной системы поиска;

- построение персонализированной адаптивной Web-страницы пользователя. Полученная значимая информация от электронного документа интегрируется в адаптивную Web-страницу. При этом, если у пользователя ее еще нет, то сначала задается структура адаптивной Web-страницы (предлагаемый шаблон приведен на рис. 3) и задается адрес страницы, после чего в нее могут заноситься данные.

При ее отсутствии выполняется обработка Web-страницы методом выделения значимой информации с последующей записью в хранилище экспертной системы поиска [3].

Для определения расстояния между шаблоном и каждым из блоков анализируемого Web-ресурса (с учетом предварительной нормализации величин) используется следующая формула:

где i - номер блока анализируемого Web-ресурса; dE¡ - евклидово расстояние для ¡ -го блока анализируемого Web-ресурса; ю^з - весовые коэффициенты для характеристик ¡ -го блока произвольного Web-ресурса; Tg - значение, соответствующее количеству тегов, которые отвечают за форматирование текста; Tg(max) - максимально возможное значение, соответствующее количеству тегов, которые отвечают за форматирование текста среди всех анализируемых Web-ресурсов; Sp - значение, соответствующее количеству специальных символов для вставки текста в Web-страницу; Sp(max) - максимально возможное значение, соответствующее количеству специальных символов для вставки текста в Web- страницу для всех анализируемых Web-ресурсов; Sm - значение, соответствующее количеству произвольных символов в тегах форматирования электронного документа; Sm(max) - максимально возможное значение, соответствующее количеству произвольных символов в тегах форматирования электронного документа для всех анализируемых Web-ресурсов.

Остановимся на описании шаблона адаптивной Web-страницы, синтезируемой на основе интеллектуального анализа информационных ресурсов сети Интернет. От правильности выбора его структуры во многом зависит качество формирования контента в рамках единого персонализированного информационного ресурса с актуальными данными, которые должны генерироваться в соответствии с текущими интересами пользователя.

В соответствии с рис. 3 основными элементами структуры шаблона являются:

- заголовок (содержит имя адаптивной Web-страницы, которое задает пользователь в момент ее создания по средствам плагина экспертной системы поиска);

- список доступных Web-документов (отвечает за вывод поименованного перечня всех источников со значимой информацией, добавленных в персонализированную Web-страницу

поиска

(2)

в соответствии с актуальными интересами пользователя по средствам плагина экспертной системы поиска);

- значимая информация, полученная от Web-документа (содержит контент выбранного пользователем Web-документа, обработанного с помощью метода извлечения значимой информации;

- служебная информация (корректируется с помощью функциональных кнопок «Обновление», «Дублирование», «Удаление»; «Обновление» - отвечает за обновление информации, хранимой на персонализированной Web-странице, путем ее синхронизации с электронным документом, из которого она была получена.

Заголовок

Список доступных Web-документов Значимая информация, полученная от Web-документа

Служебная информация

Рис. 3. Шаблон персонализированной адаптивной Web-страницы пользователя Общая схема возможных взаимодействий данного плагина с пользователем в рамках экспертной системы поиска приведена на рис. 4. Стрелки соответствуют рассмотренным выше этапам таких взаимодействий.

Рис.4. Схема взаимодействия плагина экспертной системы с пользователем

Остановимся подробнее на процессе интеграции значимой информации из Web-ресурса сети Интернет, в состав которого входит электронный документ, представляющий определенный интерес для пользователя, с адаптивной персонализированной Web-страницей, сгенерированной в процессе работы с плагином экспертной системы поиска по описанному выше методу:

- с помощью метода извлечения значимой информации весь контент Web-страницы, отмеченный пользователем с помощью плагина, делится на структурные блоки (рис. 5). При этом в адаптивную Web-страницу попадает только блок со значимой информацией, остальные блоки классифицируются системой как шум;

- индексирование Web-ресурса происходит по средствам анализа его навигационного меню. Для этого на этапе организации хранилища значимой информации данные каждой

страницы Web-ресурса записываются в соответствующий атрибут ValuableInformation термина WebSourse онтологии базы знаний экспертной системы поиска;

-моделирование структуры и содержания адаптивных персонализированных Web-стра-ниц. Формируются порядок и формат вывода полученных Web-данных в результате обработки страниц Web-ресурсов, которые могут представлять интерес для пользователя. Данные берутся из хранилища значимой информации базы знаний экспертной системы поиска.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Структурный блок

Адаптивная Web-страница

Структурный блок

)

Шум

Структурный блок

Рис. 5. Схема выделения значимой информации из анализируемых Web-ресурсов

Если все действия были выполнены корректно, то, в конечном счете, пользователь получит разработанный специально для него информационный ресурс с интересующей его информацией в заданном им формате. Это даст ему возможность составлять свой тематический источник информации на основании данных, присутствующих на его персонализированном Web-ресурсе.

Рассмотренная система была реализована в виде поискового программного агента Social Search.

5. Тестирование экспертной поисковой системы

Для оценки качественных характеристик разработанной экспертной системы поиска и синтеза адаптивных Web-страниц на основе Web-ресурса Social Search было выполнено тестирование процедур поиска релевантной информации в сети Интернет для различных типов запросов. Кроме разработанного поискового агента Social Search, в тестовом эксперименте были задействованы поисковые системы Google, Infostream и экспертные системы Similarity/closeness-based resource browser, Digg, Personal Searcher. Результаты эксперимента приведены в таблице.

Анализируемая система Средняя Наличие Поиск с уче-

скорость собственных том семанти-

поиска, c критериев ки

оценки запроса

Google Search 1 +

Infostream 4 +

Similarity/closeness-based resource 5 +

browser

Personal Searcher * 15 +

Digg * 2 +

Social Search 3 + +

Из полученных результатов следует, что экспертная система на основе разработанного программного агента Social Search уступает по скорости работы универсальной поисковой системе Google, но выигрывает у нее в качественном плане, благодаря учету семантики запроса и персонализации релевантного результата, ориентированного на социальную значимость для конечного пользователя. В то же время, по сравнению со специализированными системами (Similarity/closeness-based resource browser, Digg), Social Search показывает, в среднем, такую же скорость поиска, при этом имея более предпочтительную функциональность на этапе фильтрации итогового результата в соответствии с текущими интересами пользователя. Экспертная специализированная система Personal Searcher существенно уступает разработанной экспертной системе по скорости работы и поиску с учетом семантики запроса. В специализированной системе мониторинга медиаресурсов Infostream отсутствует возможность пользователя влиять на позицию Web-страницы в списке релевантных результатов (в отличие от предложенной системы).

6. Выводы

Научная новизна полученных результатов состоит в следующем:

- предложена структура экспертной поисковой системы, которая позволяет не только обеспечивать нахождение необходимых Web-документов с применением семантических методов обработки и социальных критериев, но и обосновывать полученные результаты. Система использует специальный плагин для взаимодействия с пользователями и обмена между ними информацией в соответствии с их интересами;

- предложена схема формирования базы знаний экспертной поисковой системы. Сформированная по такой схеме база знаний будет способствовать быстрому и эффективному выводу релевантных результатов поиска в виде списка Web-документов в соответствии с запросом пользователя и с учетом его интересов в рамках заданной предметной области;

- предложена модель формирования адаптивных Web-страниц, основанная на взаимодействии пользователя с плагином экспертной поисковой системы.

Практическая значимость. Результаты тестирования системы подтверждают возможность и целесообразность ее практического использования при построении адаптивных Web-страниц, учитывающих социальный профиль пользователей.

Перспективным представляется развитие предложенного подхода для создания гибридных систем интеллектуального анализа информационных ресурсов сети Интернет.

Список литературы: 1. Джарратано Д., Райли Д. Экспертные системы: принципы разработки и программирование / М.: ООО "И. Д. Вильямс", 2007. 1152 с. 2. Почанский О.М. Социальное индексирование Web-документов для семантического поиска // Искусственный интеллект. 2012. №1. С. 112-122. 3. Гаврилова Т.А., Хорошевский В. Ф. Базы знаний интеллектуальных систем / Спб: Питер, 2000. 384 с.

Поступила в редколлегию 12.06.2012

Почанский Олег Михайлович, аспирант кафедры искусственного интеллекта ХНУРЭ. Научные интересы: методы искусственного интеллекта, семантический поиск в системах интеллектуальной обработки данных. Адрес: Украина, 61166, Харьков, пр. Ленина, 14.

i Надоели баннеры? Вы всегда можете отключить рекламу.