Целых Александр Николаевич - Технологический институт федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге; e-mail: [email protected]; 347928, г. Таганрог, пер. Некрасовский, 44; тел.: 88634310642; заместитель руководителя по информатике; кафедра прикладной информатики; д.т.н., профессор.
Чичерина Карина Сергеевна - e-mail: [email protected]; тел.: +79515275815; кафедра прикладной информатики; аспирантка.
Tselykh Alexander Nicolaevich - Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”; email: [email protected]; 44, Nekrasovsky, Taganrog, 347928, Russia; phone: +78634310642; deputy head of informatics; the department of applied information science; dr. of eng. sc.; professor.
Chicherina Karina Sergeevna - e-mail: [email protected]; phone: +79515275815; the department of applied information science; postgraduate student.
УДК 519.14
Э.М. Котов
МЕТОДЫ АНАЛИЗА ГИПЕРССЫЛОК ПРИ ИНФОРМАЦИОННОМ ПОИСКЕ В ГЛОБАЛЬНОЙ СЕТИ
Проведены исследования методов анализа гиперссылок, выделены два основных класса ранжирования на основе связей: методы глобального анализа - ранжирование, независящие от запроса, и методы локального анализа - ранжирование, зависящие от запроса. Дано описание и характеристика алгоритма PageRank в основу которого заложена модель случайного блуждания по веб-графу, которая используется для вычисления веса страницы (коэффициент PageRank) как вероятности ее достижимости и алгоритма HITS-поиска документов по заданной теме на базе гиперссылок, в основе которого лежит идентификация двух наборов страниц, которые могут быть важными: страницы-«авторитеты» и страницы-«концентраторы». Выявлены различия данных двух подходов к анализу гипер-.
Информационный поиск; ранжирование результатов поиска; анализ гиперссылок.
E.M. Kotov
METHODS OF THE ANALYSIS OF HYPERLINKS BY INFORMATION RETRIEVAL IN A GLOBAL NETWORK
This article describes a methods of the analysis of hyperlinks, two basic classes of ranging on the basis of communications are allocated: methods of the global analysis - ranging independent of inquiry and methods of the local analysis-ranging depending on inquiry. The description and the characteristic of algorithm PageRank in which basis is given the model of casual wandering under the web-graph who is used for calculation of weight of page (factor PageRank) is put in pawn as probabilities of its approachibility and algorithm HITS-search of documents in the set theme on the basis of hyperlinks in which basis identification of two sets of pages which can be important lays: pages "Hub" pages and pages "Authority" pages. Distinctions of the given two approaches to the analysis of hyperlinks are revealed.
Information retrieval; ranging of results of retrieval; the analysis of hyperlinks.
На сегодняшний день, наряду с возможностью иметь доступ к огромному объему информации, практически любого характера, возникает ряд проблем, связанных с извлечением адекватной информации из столь больших массивов, организацией поиска и классификации информационных ресурсов. Механизм, реали-
зованный в большинстве информационно-поисковых систем (ИПС), построенный на основе совпадения ключевых слов запроса и документа, оказывается малоэф-, , -ных документов, которые, в свою очередь, могут являться чрезмерно большими .
Анализ гиперссылок значительно увеличивает релевантность результатов , , той или иной степени используют различные методы анализа гиперссылок.
Статическая часть глобальной сети, состоящая из html-документов и гиперссылок между ними может быть представлена в виде направленного графа, в котором каждый узел является веб-страницей, а каждое направленное ребро - ги пересылкой. Совокупность таких узлов и направленных ребер называется веб-графом [1]. Ссылки в веб-графе не распределены случайным образом.
В основу методов анализа гиперссылок положено одно либо несколько из следующих допущений:
1) гиперссылка со страницы A на страницу B - это своего рода рекомендация автора страницы A - так называемое «допущение о рекомендательное™»;
2) если страница A и страница B связаны ги пересылкой, они могут быть посвящены одной и той же теме, т.е. с большей вероятностью они относятся к одной и той же тематике нежели к разным - так называемое «допущение о тематической
»;
3) текст, связанный с анкерным тэгом (<a>) гиперссылки, описывает целе-
, - «
».
Методы анализа гиперссылок используются для косвенной оценки качества документов. Схемы ранжирования на основе связей можно разделить на два класса:
♦ методы глобального анализа (ранжирование, не зависящее от запроса), например метод, использующий алгоритм PageRank.
♦ ( , ), -пример метод использующий алгоритм HITS.
Ранжирование, не зависящее от запроса, служит для определения «истинно» . PageRank .
Л. Пейджем [2, 3] и использован для ранжирования в ИПС Google.
В основу данного алгоритма заложена модель случайного блуждания по веб, (
PageRank) .
Выполняется вычисление коэффициента PageRank каждой страницы, присваивая каждой ссылке на страницу весовой коэффициент, пропорциональный , . -лающейся страницы, используются ее коэффициенты PageRank рекурсивно, причем первоначальные значения PageRank задаются произвольно. В итоге страница
PageRank, -
ким коэффициентом PageRank.
PageRank -
:
d - - , -
делах от 0,1 до 0,2; n - количество страниц (число узлов) в графе G; C(b) - количе-
( ) b.
(1)
Для вычисления PR(a) требуется ре курс ивная процедура, которая продолжает, PageRank
один раз и не зависят от конкретных запросов, что в итоге позволяет эффективно отличить высококачественные страницы глобальной сети от низкокачественных.
Пусть есть n страниц T={T1, Т2, ..., Tn}, которые ссылаются на данный документ (веб-страницу А) , a C(A) - общее число ссылок с веб-страницы А на другие документы. Пусть d - это вероятность того, что пользователь, пересматривая какую-нибудь страницу из множества Т, перейдет на страницу А по ссылке, а не дру. -ния адреса из случайной страницы будет составлять 1 - d, а коэффициент PageRank (1).
PageRank -
рования всех документов, соответствующих условиям запроса, как с учетом, так и без учета критерия ранжирования, зависящего от запроса.
PageRank . ,
PageRank - ,
от запросов пользователей. Предположим следующее утверждение - «результат ранжирования должен зависеть от запроса».
, , , который изменяет качество и адекватность выбранного множества страниц для данного запроса пользователя. Основная идея состоит в том, чтобы создать граф для каждого конкретного запроса, называемый графом соседей, и выполнить по этому графу анализ гиперссылок.
Алгоритм поиска документов по заданной теме на базе гиперссылок (hyperlink-induced topic search - HITS) был предложен Дж. Кляйнбергом. HITS является , , могут быть важными: страницы-«авторитеты» и страницы-«концентраторы» [4]. У страниц «авторитеты» и «концентраторы» есть взаимно укрепляющие отноше-
- -« » -« », -« » --« ». : - , -
( ), -рошие концентраторы - страницы, ссылающиеся на нужные страницы (хорошие ). HITS -
онного пространства лучших «авторов» (первоисточников) и «посредников» (до, ). -шим посредником, если она содержит ссылки на ценные первоисточники, и наоборот, страница является хорошим первоисточником, если она упоминается хо.
На основе ранжированной выборки по запросу пользователя формируется стартовое множество S документов. Путем использования входящих и исходящих ссылок на документы из S строится расширенное множество T докум ентов, находящихся на расстоянии одного ребра от стартовых узлов в веб-графе.
Простой учет количества входящих и исходящих ссылок на документы не ,
T. -
ражает следующий алгоритм:
1. Пусть N - множество узлов в графе соседей.
2. Для каждого узла u из N a(v) является весом авторитетности.
3. Для каждого узла u из N h(v) является весом концентрации.
4. u N 1.
5. Повторяется цикл до достижения сходимости.
6. Для всех узлов и из N рассчитывается, по формуле (2), вес авторитетности:
а^ )= £ Н (). (2)
и,^У
7. Для всех узлов и из N рассчитывается, по формуле (3), вес концентрации:
НМ = X а (и,). (3)
V ^и,
8. После каждой итерации выполняется нормализация весов.
Пусть А - квадратная матрица смежности подмножества веб-графа, в которой каждой странице соответствует одна строка и один столбец. Элемент Ау равен единице, если существует гиперссылка со страницы г на страницу у, и нулю - в противном случае. Тогда формулы (2) и (3) запишем следующим образом (4):
Н —— А а , . _ (4) а —— А Н ,
после взаимном подстановки получаем:
—— ——
h — AA7 h, (5)
—— a —— A Ah .
Введем ЛН - собственное значение матрицы ААТ и Ла - собственное значение матрицы АТА, и получим уравнения для собственных векторов:
7 1 T 7 h = — AA h ,
А
7 1 AT А 7 (6)
a = — A Ah .
А
Отметим следующие следствия: 1) результат итеративного вычисления стремится к стационарному значению, определенному структурой графа; 2) для вычисления результата можно применять любой метод вычисления собственного вектора стохастической матрицы.
Существует ряд ограничений модели HITS, рассматриваемых в работе [5]:
1. -
может сильно изменить конечный результат.
2. .
3. Взаимное усиление между хостами. Происходит, когда ряд документов относительно одного хоста указывает на единственный документ относительно второго хоста.
4. Динамически генерируемые ссылки.
5. , .
6. . , -
ширен, чтобы включать окружающие связи, и в результате страницы, не относящиеся к начальному вопросу, включены в граф, и как следствие происходит смещение темы.
Выделим существующие различия между рассмотренными методами PageRank и HITS:
2Зб
1. Алгоритм PageRank вычисляет веса для всех веб-страниц (которые были
) -. HITS - ,
результате выполнения определенного запроса пользователя.
2. Алгоритм HITS находит как «авторитеты», так и «концентраторы», PageRank - только «авторитеты».
3. Алгоритм PageRank требует нетривиальных вычислений, HITS - простой
, .
Наиболее эффективными признаками для увеличения качества поиска являются признаки, основывающиеся на анализе ссылочной структуры веб-ресурсов, но в коллекциях, не обладающих данной структурой, можно получить улучшение качества поиска с использованием других признаков, подсчитываемых для целого документа или некоторых его атрибутов.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Manning C.D., Raghavan P., Schutze H. Introduction to information retrieval // Cambridge University Press. - 2008. - 544 p.
2. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine, Proc. Seventh World Wide Web Conf., Elsevier Science. - New York, 1998.
3. Page L. et al. The PageRank Citation Ranking: Bringing Order to the Web, Stanford Digital Library Technologies, Working Paper 1999-0120, Stanford Univ., Palo Alto, Calif., 1998.
4. Kleinberg J.M. Authoritative Sources in a Hyperlinked Environment. Journal of the ACM 46,
5, 1999. - P. 604-632.
5. Bhart K., Henzinger M. Improved Algorithms for Topic Distillation in a Hyperlinked Environment. In Proceedings of ACM SIGIR’98 (Melbourne, Australia), 1998.
Статью рекомендовал к публикации д.т.н., профессор В.П. Карелин.
Котов Эдуард Михайлович - Технологический институт федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге; e-mail: [email protected]; 347928, г. Таганрог, пер. Некрасовский, 44; тел.: 88634371743; кафедра прикладной информатики; .
Kotov Eduard Michaylovich - Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”; e-mail: [email protected]; 44, Nekrasovsky, Taganrog, 347928, Russia; +78634371743; the department of applied information science; senior instructor.
УДК 519.14
A.B. Боженюк, H.C. Опенько
ИССЛЕДОВАНИЕ И АНАЛИЗ МЕТОДОВ ПРИНЯТИЯ РЕШЕНИЙ НА ОСНОВЕ НЕЧЕТКОЙ ИНФОРМАЦИИ*
Описываются методы принятия решений на основе построения и обоснования механизмов нечеткого логического вывода. Данная задача является актуальной, потому что имеет широкое практическое применение. Рассматриваются основные схемы нечеткого вывода на основе методов Мамдани и Сугено, описываются их недостатки. Рассмотрен метод выбора решений на основе истинности правила modus ponens. Построена модель принятия решений на основе степени истинности правила modus ponens, использованная
*
Работа поддержана РФФИ, проект № П-0І-000ІІа.
2З7