Научная статья на тему 'Тематический краулинг на основе алгоритма hits'

Тематический краулинг на основе алгоритма hits Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
391
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБХОД ВЕБ-ГРАФА / ВЕБ-КРАУЛЕР / ТЕМАТИЧЕСКИЙ ВЕБ-КРАУЛЕР / АЛГОРИТМ HITS / ОЦЕНКА КАЧЕСТВА В ИНФОРМАЦИОННОМ ПОИСКЕ / ЭКСПЕРИМЕНТ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Блеканов Иван Станиславович, Бондаренко Дмитрий Сергеевич

Описаны принципы функционирования сфокусированного Веб-краулера, его алгоритм обхода Веб-пространства, в качестве которого используется модифицированный алгоритм Клеинберга HITS. Приведены примеры и оценки эффективности результатов его работы как в локальном Веб-пространстве (в рамках одного домена), так и в региональном (по русскоязычному Веб-пространству). А также его сравнение со стандартным Веб-краулером

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The paper presents the functional principles of operation of a focused Web-crawler, its algorithm of traversal of Web-space, based on a modified version of Kleinberg's HITS algorithm. Examples and estimations of the new Web-crawler performance over both local (within a domain) and regional (Russian) Web-spaces are given along with a detailed comparison with the standard Web-crawler results

Текст научной работы на тему «Тематический краулинг на основе алгоритма hits»

Последующий анализ алгоритма показал, что причина его некорректности - использование атомарной инструкции Fetch&Increment(x) внутри операции завершения, увеличивающей значение переменной x и возвращающей ее старое значение. При использовании аналогичной инструкции, возвращающей новое значение, некорректных поведений системы не обнаруживается.

В ходе исследования была проведена автоматическая верификация «оконного» алгоритма поддержки транзакционной памяти, описанного в [5], в результате чего в нем была найдена ошибка. Опубликованное в [5] аналитическое формальное доказательство корректности этого алгоритма также оказалось ошибочным. Анализ контрпримера, найденного системой Spin в ходе верификации, позволил выявить причину некорректности «оконного» алгоритма и исправить его.

Последующая верификация исправленного алгоритма не выявила в нем ошибок, поэтому он может быть рекомендован к реализации в многоядерных процессорах.

Результаты проведенного исследования были признаны авторами «оконного» алгоритма в их новой статье [6], которая содержит исправленный алгоритм с предложенной модификацией.

Данная работа иллюстрирует необходимость использования процедур автоматической формальной верификации алгоритмов транзакционной памяти наряду с аналитическим доказательством их корректности. С помощью таких процедур могут быть найдены тонкие ошибки, которые проявляются редко и только в некоторых специальных случаях, поэтому они очень трудны для анализа. Но именно этим такие ошибки и опасны, т. к. могут проявиться в какой-либо критической программе и привести к сбою вычислений.

СПИСОК ЛИТЕРАТУРЫ

1. Карпов, Ю.Г. Model checking. Верификация параллельных и распределенных программных систем [Текст] / Карпов Ю.Г.- СПб.: БХВ, 2009.

2. Guerraoui, R. On the Correctness of Transactional Memory: [Текст]Ж. Guerraoui, M. Kapalka//Proc. 13 th ACM SIGPLAN symp. On Principles and Practice of Parallel Programming. - 2008. - P. 175-184.

3. Herlihy, M.P. Transactional Memory: Architectural Support for Lock-free Data Structures. [Текст] / M.P. Herlihy, J.E.B. Moss//Proc. 20th ACM Int'l symp. on Computer Architecture (ISCA'93). - 1993. - P. 289-300.

4. Hol/.mann, G. Spin Model Checker. The Primer and Reference Manual [Текст] / G. Holzmann.- Addison-Wesley, 2003. - 608 p.

5. Imbs, D. Software Transactional Memories: An Approach for Multicore Programming [Текст] / D. Imbs, M. Raynal. - PaCT 2009. LNCS. - 2009. - Vol. 5698. - P. 26-40.

6. Imbs, D. Software Transactional Memories: An Approach for Multicore Programming [Текст] / D. Imbs, M. Raynal//The journal of Supercomputing. -09 Feb. 2010 -Springer.

УДК 025.4.03

И.С. Блеканов, Д.С. Бондаренко ТЕМАТИЧЕСКИЙ КРАУЛИНГ НА ОСНОВЕ АЛГОРИТМА HITS

Все системы поиска информации в Веб-пространстве условно делятся на два класса по признаку наличия собственного индекса, хранящего информацию о документах, опубликованных в сети. Например, Google и Яндекс имеют собственный индекс, тогда как Quintura (http://www.search.quintura.ru/), Grokker (http:// www.grokker.com/), Metacrawler (http://www. metacrawler.com/) и многие другие своего индек-

са не имеют и перенаправляют запросы пользователя в прочие системы (одну или несколько), но выполняют дополнительную обработку результатов и помогают пользователю формировать запрос. Для построения индекса существенной части Веб-пространства поисковая система должна иметь систему сетевых агентов (веб-краулеры), отслеживающих появление новых (и обновление старых) публикаций в Веб-пространстве и

сохраняющих индексную информацию об этих документах в индексе системы поиска. В связи с быстрым ростом Веб-пространства [5, 4] проблема построения алгоритма его обхода (как первичного, так и с целью обновления индекса) является очень сложной и актуальной.

В данной статье предлагается алгоритм обхода Веб-пространства, целью которого является посещение в первую очередь наиболее авторитетных, полезных документов. Для этого предлагается использовать модифицированный алгоритм Клеинберга HITS (в свое время был конкурентом алгоритму PageRank - базе для Google), который в относительно небольшой тематически сфокусированной части Веб-пространства может найти страницы двух типов: авторитетные и индексные. В предлагаемом алгоритме авторитетные страницы сразу же включаются в индекс, а индексные используются для расширения поиска новых авторитетных страниц. Также оценивается качество поиска данного алгоритма обхода Веб-пространства в сравнении со стандартным алгоритмом в совокупности с ранжированием его результатов.

Принципы и алгоритм работы системы

Проведенное в 1999 г. Кумаром и Броде-ром исследование [2] на примере 200 млн Вебстраниц выявило, что естественной моделью представления структуры Веб-пространства является ориентированный Веб-граф G(V,E) [2], в котором вершины v£ V соответствуют вебстраницам, а дуги (направленные ребра) e(u, v), u, v £ V, e £ E - соединяющим страницы гиперссылкам. Расстояние d(u, v) между узлами и и v в графе без учета весов ребер равно наименьшему числу гиперссылок, по которым можно пройти из и в v. В рамках этой модели задача анализа структуры связей между страницами - это задача анализа структуры графа. Исследование Веб-графа (обход Веб-пространства) - это процесс поиска узлов и ребер графа, начиная с некоторого начального подмножества узлов (в рамках нашей терминологии узлы - это Веб-страницы, а ребра -гиперссылки, соединяющие Веб-страницы). За выполнение данной процедуры отвечает Веб-краулер (сетевой агент).

По своей сути, Веб-краулер - программа, написанная на языке высокого уровня, взаимодействующая с окружающей средой посредством сетевых протоколов, например, интернет-протокола

HTTP. Задачей сетевых агентов является обход Веб-графа определенным образом с целью сбора информации или понимания структуры и полезности каких-либо Веб-страниц. А также передача собранной информации для анализа другим приложениям поисковых систем.

Веб-краулеры упрощают поиск информации в Веб-пространстве и повышают его качество и эффективность. Как правило, поисковые системы использует некоторое множество сетевых агентов, которые собирают Веб-страницы, извлекая из них контент (содержание) и индексируя его [7]. Полученные сетевыми агентами результаты обхода Веб-графа обрабатываются поисковой системой на предмет выявления наиболее подходящих результатов для заданного пользователем поиска. Например, поисковая машина Google дополнительно использует алгоритм PageRank, предназначенный для ранжирования результатов поиска. В процессе ранжирования для каждой Веб-страницы вычисляется вес, страницы с наибольшими весами получают высокий рейтинг в результатах поиска.

В данной статье реализованы две модели Веб-краулеров: стандартная и сфокусированная. Стандартная модель Веб-краулера выполняет классический обход Веб-графа по всем найденным узлам, начиная с некоторого заданного множества узлов [1]. В результате своей работы он формирует коллекцию из найденных Вебстраниц. Сфокусированная модель Веб-краулера использует алгоритм Клеинберга HITS в качестве алгоритма обхода Веб-пространства. В результи-рущую коллекцию Веб-страниц для такой модели попадают только приоритетные по HITS.

В основе алгоритма Клеинберга HITS лежит понятие значимости страницы. Наиболее значимыми Веб-страницами в рамках заданной темы принято считать авторитетные страницы (authorities), на которые ссылаются другие страницы, относящиеся к данной теме. Это свойство позволяет выявить индексные страницы (hubs). Авторитетные страницы - это страницы, на которые ссылаются индексные страницы, а индексные страницы - это страницы, которые ссылаются на авторитетные страницы. Вместе оба типа значимых страниц образуют отношение взаимного усиления, т. е., на хорошую авторитетную страницу ссылается много хороших индексных страниц, и хорошая индексная страница ссылается на хорошие авторитетные страницы. Целью алгорит-

ма HITS является поиск наиболее качественных авторитетных и индексных страниц в подмножестве So Веб-графа G(V, E). Качественность Вебстраниц оценивается числовыми величинами.

Подмножество So Веб-графа строится, например, путем посылки запроса о поисковой машине по ключевым словам, и берутся первые n результатов. В ходе анализа подграфа So каждой Вебстранице сопоставляются два веса: x - AP-вес, показывающий качество страницы как авторитетной, и y - HP-вес, показывающий качество страницы как индексной. Изначально весам присваивается максимальное значение, равное единице, и для каждой страницы p задается пара неотрицательных весов (x <p>, y<p>), где x <p>, y<p> - веса для авторитетной и для индексной страниц, соответственно.

К весам Веб-страниц применяются две операции I и O. С помощью заданных весов {x <p>} и |y<p>} операция I вычисляет AP-вес для страницы

p следующим образом [6]: xKp> ^ X y<q> ,

q:( p,q )вЕ

а операция O вычисляет HP-вес для страницы p: y<p> ^ X x<q> . Операции I и O образуют

q:( p, q)^E

упомянутый выше процесс отношения взаимного усиления авторитетной страницы относительно индексной, и наоборот. Поэтому для нахождения стационарных значений AP и HP весов необходимо применить операции I и O в итерационном процессе. После каждой итерации получен-

ные веса нормируются, т

. е. X (х < p> )2 = 1

peSs

X (y <p > )2 = 1. В результате работы алгоритма

peSs

получаем набор как авторитетных, так и индексных Веб-страниц. Далее этот набор фильтруется, и из него выбираются c ~ 5 - 10 Веб-страниц с наибольшими AP-весами и с страниц с наибольшими HP-весами. Так определяются качественные авторитетные и качественные индексные Веб-страницы.

В работе Клеинберга [6] обосновывается быстрая сходимость итерационного процесса операций I и O. Там указано, что для того, чтобы двадцать наивысших значений AP-весов и HP-весов становились стабильными, достаточно около двадцати итераций.

В данной статье использовалась модифицированная реализация HITS в качестве алгоритма

обхода и выбора дальнейшего пути сканирования Веб-графа сфокусированным Веб-краулером. То есть, на каждом шаге получения новых узлов Веб-краулером применялся алгоритм HITS к новому полученному множеству узлов и старому (уже обработанному) множеству. Из полученного набора Веб-страниц качественные авторитетные страницы записывались в индекс, а по качественным индексным продолжался поиск новых авторитетных. В результате обхода Веб-пространства сфокусированный краулер на основе алгоритма HITS выдаст тематическое сообщество авторитетных страниц. В работе [3] тематическим сообществом называют множество Веб-страниц, в котором каждая страница имеет больше ссылок на другие страницы сообщества, чем на страницы вне сообщества.

Эксперимент

В ходе эксперимента оценивались результаты тематического краулера на основе алгоритма HITS, полученные после обхода Веб-графа. И сравнивались с отранжированными по HITS результатами, которые получились в результате обхода того же графа стандартным Веб-краулером.

Под стандартным Веб-краулером здесь подразумевается реализация краулера с классическим сценарием поведения: нахождение большого числа страниц (в данной реализации - с помощью рекурсивного обхода всех встречающихся Вебстраниц) и затем ранжирование с помощью HITS полученных результатов в конце (в отличие от сфокусированного, где это выполняется на каждой итерации).

Эффективность работы Веб-краулеров проверялась в локальном Веб-пространстве (в рамках одного домена, в качестве которого был выбран сайт Википедия - http://ru.wikipedia.org/) и региональном (по русскоязычному Веб-пространству). Для эксперимента из запросов РОМИП-2007 были выбраны два запроса:

1) «Нобелевская премия». Описание: Соответствующая запросу страница должна содержать подробную информацию о Нобелевской премии. Полезной является информация об истории создания премии, создателе, научных областях, по которым присуждается премия, ее лауреатах. Упоминание о присуждении Нобелевской премии конкретному человеку не является исчерпывающим ответом на запрос.

и

2) «Квантовый компьютер». Описание: Релевантная страница должна содержать подробную информацию о квантовых компьютерах: историю создания, принципы работы, перспективы развития и т. п. Частично релевантной будет считаться страница с упоминанием о каком-либо достижении или событии в развитии квантовых компьютеров.

По этим запросам строится начальное множество Веб-узлов, с которого начали свою работу Веб-краулеры. Например, начальным множеством узлов для локального Веб-пространстве являлся ответ Википедии на выбранный запрос. Стартовое множество для регионального Веб-пространства строилось следующим образом: посылался выбранный запрос на поисковые системы Яндекс и Google, и выбирались первые десять результатов каждой системы. В итоге получилось четыре множества Веб-страниц (по два множества на каждый выбранный запрос), с которых стартуют сфокусированный и стандартный краулеры.

Результатом работы двух Веб-краулеров на выбранных стартовых множествах является набор Веб-страниц. По этим результатам строится тестовая коллекция. Производится экспертная оценка элементов построенной коллекции, т. е. из описаний запросов, полученных из РОМИПа, выполняется бинарная классификация каждого элемента тестовой коллекции «релевантен/не релевантен» по отношению к выбранному запросу.

Для оценки эффективности разработанного тематического Веб-краулера на основе метода алгоритма HITS в данной статье использовались наиболее популярные критерии: полнота; точность (precision); 11-точечный график полноты/точности, измеренный по методике TREC (11-point matrix (TREC)) [8-10]. Если а - количество документов, найденных системой и релевантных с точки зрения экспертов, b - количество документов, найденных системой, c - количество релевантных документов, не найденных системой, но нерелевантных с точки зрения экспертов, то метрики вычисляются следующим образом:

полнота (recall) - это отношение найденных релевантных документов к общему количеству

a

релевантных документов r =- .

a + c

точность (precision) - это отношение найденных релевантных документов к общему коли-

a

честву найденных документов p =-.

a + b

В дополнение к этим метрикам приближенно оценивалась вычислительная производительность каждого Веб-краулера.

Итоги эксперимента

По запросу «Нобелевская премия» в региональном Веб-пространстве тематический краулер на основе алгоритма HITS нашел множество, состоящее из 117 авторитетных Веб-страниц. Первые 10 качественных авторитетных страниц: http://wikimediafoundation.org/ http://de.wikipedia.org/wiki/Nobelpreis http://ja.wikipedia.org/wiki/%E3%83%8E%E3%8 3%BC%E3%83%99%E3%83%AB%E8%B3%9E http://fr.wikipedia.org/wiki/Prix_Nobel http://ur.wikipedia.org/wiki/%D9%86%D9%88% D8%A8%D9%84_%D8%A7%D9%86%D8%B9%D8 %A7%D9%85

http://mg.wikipedia.org/wiki/Loka_Nobel http://fi.wikipedia.org/wiki/Nobel-palkinto http://no.wikipedia.org/wiki/Nobelprisen http://nl.wikipedia.org/wiki/Nobelprijs http://nds.wikipedia.org/wiki/Nobelpries По этому же запросу стандартный Веб-краулер в том же пространстве построил множество из 150 000 страниц. В результате ранжирования по HITS этих Веб-страниц получилось, как и в случае сфокусированного краулера, 117 страниц, первые 10 из которых: http://www.mediawiki.org/ http://wikimediafoundation.org/ http://ru.wikipedia.org/wiki/%D0%9D%D0%BE% D0%B1%D0%B5%D0%BB%D0%B5%D0%B2%D1% 81%D0%BA%D0%B0%D1%8F_%D0%BF%D1%80 %D0%B5%D0%BC%D0%B8%D1%8F http://de.wikipedia.org/wiki/Nobelpreis http://ja.wikipedia.org/wiki/%E3%83%8E%E3%8 3%BC%E3%83%99%E3%83%AB%E8%B3%9E http://fr.wikipedia.org/wiki/Prix_Nobel http://ur.wikipedia.org/wiki/%D9%86%D9%88% D8%A8%D9%84_%D8%A7%D9%86%D8%B9%D8 %A7%D9%85

http://mg.wikipedia.org/wiki/Loka_Nobel http://fi.wikipedia.org/wiki/Nobel-palkinto http://no.wikipedia.org/wiki/Nobelprisen В результате работы двух краулеров получили тестовую коллекцию из 118 Веб-страниц. На этой коллекции для тематического Веб-краулера метрика точности p' ~ 0,93, для отранжиро-ванных результатов стандартного Веб-краулера p'12 ~ 0,93 График зависимости полноты от точности показан на рис. 1.

Рис. 1. 11-точечный график полноты/точности для запроса «Нобелевская премия» в региональном Веб-пространстве (-) тематический Веб-краулер; (-) стандартный Веб-краулер

Для Википедии (Веб-пространства в рамках одного домена) по тому же запросу «Нобелевская премия» сфокусированный краулер нашел 95 Веб-страниц с метрикой точностир' ~ 0,9, среди которых 10 наилучших авторитетных: http://www.mediawiki.org/ http://wikimediafoundation.org/ http://de.wikipedia.org/wiki/Nobelpreis http://pl.wikipedia.org/wiki/Nagroda_Nobla http://it.wikipedia.org/wiki/Premio_Nobel http://fr.wikipedia.org/wiki/Prix_Nobel http://mg.wikipedia.org/wiki/Loka_Nobel http://fi.wikipedia.org/wiki/Nobel-palkinto http://nl.wikipedia.org/wiki/Nobelprijs http://no.wikipedia.org/wiki/Nobelprisen Стандартный краулер после ранжирования выдал 100 Веб-страниц и точность р'22 ~ 0,02. Первые 10 авторитетных Веб-страниц с наивысшими весами:

http://www.mediawiki.org/ http://wikimediafoundation.org/ http://km.wikipedia.org/wiki/%E1%9E%9C%E1% 9E%B 7%E1%9E%82%E1%9E%B8%E1%9E%97%E 1%9E%B8%E1%9E%8C%E1%9E%B6 http://eu.wikipedia.org/wiki/Wikipedia http://ur.wikipedia.org/wiki/%D9%88%DB%8C% DA%A9%DB%8C%D9%BE%DB%8C%DA%88%DB %8C%D8%A7

http://wa.wikipedia.org/wiki/Wikipedia

http://gn.wikipedia.org/wiki/Vikipet%C3%A3

http://nah.wikipedia.org/wiki/Huiquipedia

http://ay.wikipedia.org/wiki/Wikipidiya http://bar.wikipedia.org/wiki/Wikipedia 11-точечный график полноты/точности показан на рис. 2.

По запросу «Квантовые компьютеры» в региональном Веб-пространстве тематический крау-лер на основе алгоритма Клеинберга получил 45 авторитетных Веб-страниц и коэффициент точно-стиp" ~ 0,73. Первые 10 наилучших:

http://id.wikipedia.org/wiki/Komputer_kuantum http://ru.wikipedia. org/w iki/%D0%9A %D0%B2% D0%B0%D0%BD%D1%82%D0%BE%D0%B2%D1 %8B%D0%B9_%D0%BA%D0%BE%D0%BC%D0% BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80 http://www.mediawiki.org/ http://wikimediafoundation.org/ http://simple.wikipedia.org/wiki/Quantum_ computer

http://de.wikipedia.org/wiki/Quantencomputer http://cs.wikipedia.org/wiki/Kvantov%C3%BD_ po%C4%8D%C3%ADta%C4%8D

http://ja.wikipedia.org/wiki/%E9%87%8F%E5%A D%90%E3%82%B3%E3%83%B3%E3%83%94%E3 %83%A5%E3%83%BC%E3%82%BF

http://no.wikipedia.org/wiki/Kvantedatamaskin http://hu.wikipedia.org/wiki/Kvantumsz%C3%A1m %C3%ADt%C3%B3g%C3%A9p

Стандартный Веб-краулер по результатам ранжирования получил 48 Веб-страниц и коэффициент точностиp" ~ 0,71. Первые 10 наилучших авторитетных страниц:

Рис. 2. 11-точечный график полноты/точности для запроса «Нобелевская премия» в локальном Веб-пространстве (-) тематический Веб-краулер; (-) стандартный Веб-краулер

http://www.mediawiki.org/ http://wikimediafoundation.org/ http://id.wikipedia.org/wiki/Komputer_kuantum http://es.wikipedia.org/wiki/Computaci%C3% B3n_cu%C3%A1ntica

http://no.wikipedia.org/wiki/Kvantedatamaskin http://cs.wikipedia.org/wiki/Kvantov%C3%BD_ po%C4%8D%C3%ADta%C4%8D

http://ko.wikipedia.org/wiki/%EC%96%91%EC% 9E%90 %EC%BB%B4%ED%93%A8%ED%84%B0

http://it.wikipedia.org/wiki/Computer_quantistico http://nl.wikipedia.org/wiki/Kwantumcomputer http://en.wikipedia.org/wiki/Quantum_computer Зависимость полноты от точности принимает следующие значения, показанные на рис. 3.

В локальном Веб-пространстве, на примере Википедии, по запросу «Квантовые компьютеры» тематический Веб-краулер нашел 41 Вебстраницу с коэффициентом точности р'' ~ 0,71. Первые 10 наиболее качественных:

Рис. 3. 11-точечный график полноты/точности для запроса «Квантовые компьютеры» в региональном Веб-пространстве (-) тематический Веб-краулер; (-) стандартный Веб-краулер

http://id.wikipedia.org/wiki/Komputer_kuantum

http://www.mediawiki.org/

http://wikimediafoundation.org/

http://tph.tuwien.ac.at/~oemer/qcl.html

http://www.qubit.org

http://www.nature.com/nature/journal/vaop/ ncurrent/pdf/nature08121.pdf http://www.wikimatrix.org/ http://opa.yale.edu/news/article.aspx?id=6764 http://www.newscientist.com/article/dn17736-codebreaкing-quantum-algorithm-run-on-a-silicon-chip.html

http://jquantum.sourceforge.net/jQuantumApplet.html Стандартный Веб-краулер по тому же запросу после ранжирования выдал 73 Веб-страницы с коэффициентом точности р'' ~ 0,0. Первые 10 наилучших авторитетных страниц: http://sv.wikipedia.org/wiki/ http://pt.wikipedia.org/wiki/ http://it.wikipedia.org/wiki/ http://www.wikipedia.org http://www.wikipedia.org/

http://wikimediafoundation.org/wiki/Donate/Now/ en?utm_source=donate&utm_medium=sidebar&utm_ campaign=spontaneous_donation

http://creativecommons.org/licenses/by-sa/3.0/ http://wikimediafoundation.org/wiki/Terms_of_Use http://bh.wikipedia.org/wiki/%E0%A4%B5%E0% A4%BF%E0%A4%95%E0%A4%BF%E0%A4%AA%E 0%A5%80%E0%A4%A1%E0%A4%BF%E0%A4%AF %E0%A4%BE

http://ps.wikipedia.org/wiki/%D9%88%D9%8A% DA%A9%D9%8A%D9%BE%DB%90%DA%89%D9 %8A%D8%A7

Зависимость полноты от точности принимает следующие значения, проиллюстрированные на рис. 4.

Целью данного исследования была оценка эффективности работы и качества поиска разработанного авторами тематического крауле-ра на основе алгоритма HITS по сравнению со стандартным Веб-краулером с учетом ранжирования его результатов по HITS, а также исследование поведения обоих Веб-краулеров в локальном (на примере Википедии) и глобальном Веб-пространствах.

Тематический краулер на основе алгоритма HITS показал лучшую метрику точности (p'n и 0,93,p'21и 0,9,p; и 0,73,p'1и 0,71) во всех проведенных опытах в сравнении со стандартным Веб-краулером (p'12 и 0,93, p'22 и 0,02, p^; и 0,71, p22 и 0,0). В региональном Веб-пространстве по двум запросам тематический краулер нашел более релевантное множество Веб-страниц, чем отранжированное по HITS множество, выданное стандартным Веб-краулером (рис. 1, 3). В свою очередь, стандартный Веб-краулер показал плохие результаты в Википедии (рис. 2, 4). В результирующее множество попадали только нерелевантные Веб-страницы. В локальном Веб-

Рис. 4. 11-точечный график полноты/точности для запроса «Квантовые компьютеры»

в локальном Веб-пространстве (-) тематический Веб-краулер; (-) стандартный Веб-краулер

Итерации Веб-краулера

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 5. Скорость роста количества Веб-страниц на каждой итерации Веб-краулера (-) тематический Веб-краулер; (-) стандартный Веб-краулер

пространстве тематический краулер зачастую выдавал Веб-страницы, релевантные запросу. Его результирующее множество состояло из тематически близких страниц.

В ходе работы стандартного Веб-краулера наблюдается экспоненциальный рост Веб-страниц на каждой его итерации, уже на четвертой итерации насчитывалось 150-200 тысяч страниц. Обработка таких результатов, безусловно, негативно влияет на производительность. Тематический краулер на основе алгоритма HITS отличился и в этом компоненте, на каждой его итерации рост

Веб-страниц стремится к некоторой асимптоте (рис. 5). Результатом этого является увеличение производительности.

В дальнейшем планируется расширить эксперимент, сравнив тематический краулер на основе алгоритма Клеинберга, анализирующий гиперссылочную структуру Веб-пространства, и сфокусированный краулер на основе TF-IDF алгоритма [7], анализирующий содержание каждой Веб-страницы, и объединить TF-IDF и HITS алгоритмы и оценить эффективность поиска Веб-краулера, основанного на таком принципе.

СПИСОК ЛИТЕРАТУРЫ

1. Arasu, A Searching the web [TeKCT]/A. Arasu, J. Cho, H. Garcia-Molina [et al.]//ACM Transactions on Internet Technology. -Aug. 2001.-№ 1 (1).-P. 2-43.

2. Broder, A. Graph structure in the Web: Experiments and models [TeKCT]/A. Broder, R. Kumar, F. Maghoul [et al.]//In WWW9. -Amsterdam. -Elsevier Science. -May 2000. -P. 309-320.

3. Gibson, D. Inferring Web communities from link topology [TeKCT]/D. Gibson, J. Kleinberg, P. Raghavan// Proc. 9th ACM conf. on Hypertext and Hypermedia.

1998.-ACM, NY. -P. 117-133.-P. 225-234.

4. Huberman, B.A. Growth dynamics of the worldwide web. [TeKCT]/ B.A. Huberman, L.A. Adamic//Nature,

1999.-P. 131.

5. Kahle, B. Preserving the Internet [TeKCT]/B. Kahle// Scientific American, Mar. 1997.-P. 82-83.

6. Kleinberg, J. Authoritative sources in a hyperlinked environment [TeKCT]/J. Kleinberg//In Proc. of the 1998

ACM-SIAM symp. on Discrete Algorithms.-ACM Press, NY., 1998.

7. Manning, C An Introduction to Information Retrieval [Текст]/С. Manning, P. Raghavan, H. Schutze// Cambridge University Press, Apr. 2009.-P. 443-481.

8. Program to evaluate TREC results using SMART evaluation procedures: Documentation [Электронный pecypc]/http://www-nlpir.nist.gov/projects/trecvid/trecvid. tools/trec_eval

9. The 12 Text Retrieval conf. (TREC 2003). Appendix 1. Common Evaluation Measures [Электронный pecypc]/http://trec.nist.gov/pubs/trec12/appendices/ measures.ps

10. Zobel, J. How reliable are the results of large-scale information retrieval experiments? [Текст]Л. Zobel// In Research and Development in Information Retrieval.-1998.-P 307-314.

i Надоели баннеры? Вы всегда можете отключить рекламу.