Научная статья на тему 'Методы анализа гиперссылок при информационном поиске в глобальной сети'

Методы анализа гиперссылок при информационном поиске в глобальной сети Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
430
70
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННЫЙ ПОИСК / РАНЖИРОВАНИЕ РЕЗУЛЬТАТОВ ПОИСКА / АНАЛИЗ ГИПЕРССЫЛОК / INFORMATION RETRIEVAL / RANGING OF RESULTS OF RETRIEVAL / THE ANALYSIS OF HYPERLINKS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Котов Эдуард Михайлович

Проведены исследования методов анализа гиперссылок, выделены два основных класса ранжирования на основе связей: методы глобального анализа ранжирование, независящие от запроса, и методы локального анализа ранжирование, зависящие от запроса. Дано описание и характеристика алгоритма PageRank в основу которого заложена модель случайного блуждания по веб-графу, которая используется для вычисления веса страницы (коэффициент PageRank) как вероятности ее достижимости и алгоритма HITS-поиска документов по заданной теме на базе гиперссылок, в основе которого лежит идентификация двух наборов страниц, которые могут быть важными: страницы-«авторитеты» и страницы-«концентраторы». Выявлены различия данных двух подходов к анализу гиперссылок.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS OF THE ANALYSIS OF HYPERLINKS BY INFORMATION RETRIEVAL IN A GLOBAL NETWORK

This article describes a methods of the analysis of hyperlinks, two basic classes of ranging on the basis of communications are allocated: methods of the global analysis − ranging independent of inquiry and methods of the local analysis-ranging depending on inquiry. The description and the characteristic of algorithm PageRank in which basis is given the model of casual wandering under the web-graph who is used for calculation of weight of page (factor PageRank) is put in pawn as probabilities of its approachibility and algorithm HITS-search of documents in the set theme on the basis of hyperlinks in which basis identification of two sets of pages which can be important lays: pages "Hub" pages and pages "Authority" pages. Distinctions of the given two approaches to the analysis of hyperlinks are revealed.

Текст научной работы на тему «Методы анализа гиперссылок при информационном поиске в глобальной сети»

Целых Александр Николаевич - Технологический институт федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге; e-mail: [email protected]; 347928, г. Таганрог, пер. Некрасовский, 44; тел.: 88634310642; заместитель руководителя по информатике; кафедра прикладной информатики; д.т.н., профессор.

Чичерина Карина Сергеевна - e-mail: [email protected]; тел.: +79515275815; кафедра прикладной информатики; аспирантка.

Tselykh Alexander Nicolaevich - Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”; email: [email protected]; 44, Nekrasovsky, Taganrog, 347928, Russia; phone: +78634310642; deputy head of informatics; the department of applied information science; dr. of eng. sc.; professor.

Chicherina Karina Sergeevna - e-mail: [email protected]; phone: +79515275815; the department of applied information science; postgraduate student.

УДК 519.14

Э.М. Котов

МЕТОДЫ АНАЛИЗА ГИПЕРССЫЛОК ПРИ ИНФОРМАЦИОННОМ ПОИСКЕ В ГЛОБАЛЬНОЙ СЕТИ

Проведены исследования методов анализа гиперссылок, выделены два основных класса ранжирования на основе связей: методы глобального анализа - ранжирование, независящие от запроса, и методы локального анализа - ранжирование, зависящие от запроса. Дано описание и характеристика алгоритма PageRank в основу которого заложена модель случайного блуждания по веб-графу, которая используется для вычисления веса страницы (коэффициент PageRank) как вероятности ее достижимости и алгоритма HITS-поиска документов по заданной теме на базе гиперссылок, в основе которого лежит идентификация двух наборов страниц, которые могут быть важными: страницы-«авторитеты» и страницы-«концентраторы». Выявлены различия данных двух подходов к анализу гипер-.

Информационный поиск; ранжирование результатов поиска; анализ гиперссылок.

E.M. Kotov

METHODS OF THE ANALYSIS OF HYPERLINKS BY INFORMATION RETRIEVAL IN A GLOBAL NETWORK

This article describes a methods of the analysis of hyperlinks, two basic classes of ranging on the basis of communications are allocated: methods of the global analysis - ranging independent of inquiry and methods of the local analysis-ranging depending on inquiry. The description and the characteristic of algorithm PageRank in which basis is given the model of casual wandering under the web-graph who is used for calculation of weight of page (factor PageRank) is put in pawn as probabilities of its approachibility and algorithm HITS-search of documents in the set theme on the basis of hyperlinks in which basis identification of two sets of pages which can be important lays: pages "Hub" pages and pages "Authority" pages. Distinctions of the given two approaches to the analysis of hyperlinks are revealed.

Information retrieval; ranging of results of retrieval; the analysis of hyperlinks.

На сегодняшний день, наряду с возможностью иметь доступ к огромному объему информации, практически любого характера, возникает ряд проблем, связанных с извлечением адекватной информации из столь больших массивов, организацией поиска и классификации информационных ресурсов. Механизм, реали-

зованный в большинстве информационно-поисковых систем (ИПС), построенный на основе совпадения ключевых слов запроса и документа, оказывается малоэф-, , -ных документов, которые, в свою очередь, могут являться чрезмерно большими .

Анализ гиперссылок значительно увеличивает релевантность результатов , , той или иной степени используют различные методы анализа гиперссылок.

Статическая часть глобальной сети, состоящая из html-документов и гиперссылок между ними может быть представлена в виде направленного графа, в котором каждый узел является веб-страницей, а каждое направленное ребро - ги пересылкой. Совокупность таких узлов и направленных ребер называется веб-графом [1]. Ссылки в веб-графе не распределены случайным образом.

В основу методов анализа гиперссылок положено одно либо несколько из следующих допущений:

1) гиперссылка со страницы A на страницу B - это своего рода рекомендация автора страницы A - так называемое «допущение о рекомендательное™»;

2) если страница A и страница B связаны ги пересылкой, они могут быть посвящены одной и той же теме, т.е. с большей вероятностью они относятся к одной и той же тематике нежели к разным - так называемое «допущение о тематической

»;

3) текст, связанный с анкерным тэгом (<a>) гиперссылки, описывает целе-

, - «

».

Методы анализа гиперссылок используются для косвенной оценки качества документов. Схемы ранжирования на основе связей можно разделить на два класса:

♦ методы глобального анализа (ранжирование, не зависящее от запроса), например метод, использующий алгоритм PageRank.

♦ ( , ), -пример метод использующий алгоритм HITS.

Ранжирование, не зависящее от запроса, служит для определения «истинно» . PageRank .

Л. Пейджем [2, 3] и использован для ранжирования в ИПС Google.

В основу данного алгоритма заложена модель случайного блуждания по веб, (

PageRank) .

Выполняется вычисление коэффициента PageRank каждой страницы, присваивая каждой ссылке на страницу весовой коэффициент, пропорциональный , . -лающейся страницы, используются ее коэффициенты PageRank рекурсивно, причем первоначальные значения PageRank задаются произвольно. В итоге страница

PageRank, -

ким коэффициентом PageRank.

PageRank -

:

d - - , -

делах от 0,1 до 0,2; n - количество страниц (число узлов) в графе G; C(b) - количе-

( ) b.

(1)

Для вычисления PR(a) требуется ре курс ивная процедура, которая продолжает, PageRank

один раз и не зависят от конкретных запросов, что в итоге позволяет эффективно отличить высококачественные страницы глобальной сети от низкокачественных.

Пусть есть n страниц T={T1, Т2, ..., Tn}, которые ссылаются на данный документ (веб-страницу А) , a C(A) - общее число ссылок с веб-страницы А на другие документы. Пусть d - это вероятность того, что пользователь, пересматривая какую-нибудь страницу из множества Т, перейдет на страницу А по ссылке, а не дру. -ния адреса из случайной страницы будет составлять 1 - d, а коэффициент PageRank (1).

PageRank -

рования всех документов, соответствующих условиям запроса, как с учетом, так и без учета критерия ранжирования, зависящего от запроса.

PageRank . ,

PageRank - ,

от запросов пользователей. Предположим следующее утверждение - «результат ранжирования должен зависеть от запроса».

, , , который изменяет качество и адекватность выбранного множества страниц для данного запроса пользователя. Основная идея состоит в том, чтобы создать граф для каждого конкретного запроса, называемый графом соседей, и выполнить по этому графу анализ гиперссылок.

Алгоритм поиска документов по заданной теме на базе гиперссылок (hyperlink-induced topic search - HITS) был предложен Дж. Кляйнбергом. HITS является , , могут быть важными: страницы-«авторитеты» и страницы-«концентраторы» [4]. У страниц «авторитеты» и «концентраторы» есть взаимно укрепляющие отноше-

- -« » -« », -« » --« ». : - , -

( ), -рошие концентраторы - страницы, ссылающиеся на нужные страницы (хорошие ). HITS -

онного пространства лучших «авторов» (первоисточников) и «посредников» (до, ). -шим посредником, если она содержит ссылки на ценные первоисточники, и наоборот, страница является хорошим первоисточником, если она упоминается хо.

На основе ранжированной выборки по запросу пользователя формируется стартовое множество S документов. Путем использования входящих и исходящих ссылок на документы из S строится расширенное множество T докум ентов, находящихся на расстоянии одного ребра от стартовых узлов в веб-графе.

Простой учет количества входящих и исходящих ссылок на документы не ,

T. -

ражает следующий алгоритм:

1. Пусть N - множество узлов в графе соседей.

2. Для каждого узла u из N a(v) является весом авторитетности.

3. Для каждого узла u из N h(v) является весом концентрации.

4. u N 1.

5. Повторяется цикл до достижения сходимости.

6. Для всех узлов и из N рассчитывается, по формуле (2), вес авторитетности:

а^ )= £ Н (). (2)

и,^У

7. Для всех узлов и из N рассчитывается, по формуле (3), вес концентрации:

НМ = X а (и,). (3)

V ^и,

8. После каждой итерации выполняется нормализация весов.

Пусть А - квадратная матрица смежности подмножества веб-графа, в которой каждой странице соответствует одна строка и один столбец. Элемент Ау равен единице, если существует гиперссылка со страницы г на страницу у, и нулю - в противном случае. Тогда формулы (2) и (3) запишем следующим образом (4):

Н —— А а , . _ (4) а —— А Н ,

после взаимном подстановки получаем:

—— ——

h — AA7 h, (5)

—— a —— A Ah .

Введем ЛН - собственное значение матрицы ААТ и Ла - собственное значение матрицы АТА, и получим уравнения для собственных векторов:

7 1 T 7 h = — AA h ,

А

7 1 AT А 7 (6)

a = — A Ah .

А

Отметим следующие следствия: 1) результат итеративного вычисления стремится к стационарному значению, определенному структурой графа; 2) для вычисления результата можно применять любой метод вычисления собственного вектора стохастической матрицы.

Существует ряд ограничений модели HITS, рассматриваемых в работе [5]:

1. -

может сильно изменить конечный результат.

2. .

3. Взаимное усиление между хостами. Происходит, когда ряд документов относительно одного хоста указывает на единственный документ относительно второго хоста.

4. Динамически генерируемые ссылки.

5. , .

6. . , -

ширен, чтобы включать окружающие связи, и в результате страницы, не относящиеся к начальному вопросу, включены в граф, и как следствие происходит смещение темы.

Выделим существующие различия между рассмотренными методами PageRank и HITS:

2Зб

1. Алгоритм PageRank вычисляет веса для всех веб-страниц (которые были

) -. HITS - ,

результате выполнения определенного запроса пользователя.

2. Алгоритм HITS находит как «авторитеты», так и «концентраторы», PageRank - только «авторитеты».

3. Алгоритм PageRank требует нетривиальных вычислений, HITS - простой

, .

Наиболее эффективными признаками для увеличения качества поиска являются признаки, основывающиеся на анализе ссылочной структуры веб-ресурсов, но в коллекциях, не обладающих данной структурой, можно получить улучшение качества поиска с использованием других признаков, подсчитываемых для целого документа или некоторых его атрибутов.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Manning C.D., Raghavan P., Schutze H. Introduction to information retrieval // Cambridge University Press. - 2008. - 544 p.

2. Brin S., Page L. The Anatomy of a Large-Scale Hypertextual Web Search Engine, Proc. Seventh World Wide Web Conf., Elsevier Science. - New York, 1998.

3. Page L. et al. The PageRank Citation Ranking: Bringing Order to the Web, Stanford Digital Library Technologies, Working Paper 1999-0120, Stanford Univ., Palo Alto, Calif., 1998.

4. Kleinberg J.M. Authoritative Sources in a Hyperlinked Environment. Journal of the ACM 46,

5, 1999. - P. 604-632.

5. Bhart K., Henzinger M. Improved Algorithms for Topic Distillation in a Hyperlinked Environment. In Proceedings of ACM SIGIR’98 (Melbourne, Australia), 1998.

Статью рекомендовал к публикации д.т.н., профессор В.П. Карелин.

Котов Эдуард Михайлович - Технологический институт федерального государственного автономного образовательного учреждения высшего профессионального образования «Южный федеральный университет» в г. Таганроге; e-mail: [email protected]; 347928, г. Таганрог, пер. Некрасовский, 44; тел.: 88634371743; кафедра прикладной информатики; .

Kotov Eduard Michaylovich - Taganrog Institute of Technology - Federal State-Owned Autonomy Educational Establishment of Higher Vocational Education “Southern Federal University”; e-mail: [email protected]; 44, Nekrasovsky, Taganrog, 347928, Russia; +78634371743; the department of applied information science; senior instructor.

УДК 519.14

A.B. Боженюк, H.C. Опенько

ИССЛЕДОВАНИЕ И АНАЛИЗ МЕТОДОВ ПРИНЯТИЯ РЕШЕНИЙ НА ОСНОВЕ НЕЧЕТКОЙ ИНФОРМАЦИИ*

Описываются методы принятия решений на основе построения и обоснования механизмов нечеткого логического вывода. Данная задача является актуальной, потому что имеет широкое практическое применение. Рассматриваются основные схемы нечеткого вывода на основе методов Мамдани и Сугено, описываются их недостатки. Рассмотрен метод выбора решений на основе истинности правила modus ponens. Построена модель принятия решений на основе степени истинности правила modus ponens, использованная

*

Работа поддержана РФФИ, проект № П-0І-000ІІа.

2З7

i Надоели баннеры? Вы всегда можете отключить рекламу.