Научная статья на тему 'Оценка эффективности методов поиска тематических сообществ в Веб-пространстве'

Оценка эффективности методов поиска тематических сообществ в Веб-пространстве Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
270
74
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
TF-IDF ВЗВЕШИВАНИЕ / ОБХОД ВЕБ-ГРАФА / ВЕБ-КРАУЛЕР / ТЕМАТИЧЕСКИЙ ВЕБ-КРАУЛЕР / АЛГОРИТМ КЛЕИНБЕРГА HITS / ОЦЕНКА КАЧЕСТВА В ИНФОРМАЦИОННОМ ПОИСКЕ / ЭКСПЕРИМЕНТ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Блеканов Иван Станиславович, Бондаренко Дмитрий Сергеевич

Описано и проведено сравнение трех методов поиска тематических сообществ в Веб-пространстве: метода, использующего информацию только о тексте документа при помощи TF-IDF взвешивания; метода, использующего информацию о гиперссылочной структуре документов при помощи алгоритма HITS; метода, основанного на совместном использовании алгоритма HITSи взвешивания TF-IDF. Рассмотрены принципы функционирования сфокусированных Веб-краулеров, алгоритмы обхода Веб-пространства которых основаны на данных методах. Поставлен эксперимент, в котором оценивается качество поиска информации каждого Веб-краулера в английских и русских коллекциях и выявляется наиболее эффективныйWeb-space, basedon a modifiedversion of Kleinberg's HITSalgorithm. Examples andestimations of the new Web-crawler performance over both local(within a domain) andregional(Russian) Web-spaces are given along with a detailedcomparison with the standardWeb-crawler results

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оценка эффективности методов поиска тематических сообществ в Веб-пространстве»

значения достигалось выравнивание ошибок первого и второго рода, т. е. находилась ошибка EER (equal error rate); вычитанием ее из значения 100 % находился процент корректного распознавания. В поставленном эксперименте процент корректного распознавания составил 85,5 %.

Предложена модульная конструкция системы распознавания, основанная на архитектуре, состоящей из «блоков конкурирующих методик».

Система апробирована на базе Color FERET. Полученные результаты, соотнесенные с аналогичными показателями, содержащимися в [4], говорят о достаточно высокой эффективности

модели, показанной в эксперименте. Предложенная архитектура позволяет достаточно полно использовать информацию, содержащуюся в двух сравниваемых фотографиях. Блоковый характер дает возможность гармонично объединять методики разных типов: текстурные и использующие другие принципы (свертки, 2-Б инварианты).

Представленная модель не противоречит принципу «распознаем как человек» [3]. Следует отметить, что методики, из которых компонуются блоки, универсальны; алгоритмы могут применяться не только для сравнения и идентификации лиц, но и для сравнения и поиска в базе любых образов.

СПИСОК ЛИТЕРАТУРЫ

1. Стокман, Д. Компьютерное зрение [Текст]/Д. Стокман, Л Шапиро.-М.: БИНОМ. Лаборатория знаний, 2006.-752 с.

2. Бри. мок, Д. Распознавание человека по изображению лица и нейросетевые методы [Электронный ресурс]/Д. Брилюк, В. Старовойтов. http://neuroface. narod.ru/files/preprint_neuroface.rar

3. Пентланд, А.С. Распознавание лиц для интеллектуальных сред [Электронный ресурс]/А.С. Пентланд, Т. Чаудхари//Открытые Системы.-2000.-№ 03. http://www.osp.ru/os/2000/03/

4. Tan, X Face recognition from a single image per person: A survey [Текст]/Х. Tan, S. Chen, Z. Zhou [et al. ]//Pattern Recognition-Sept. 2006.-Vol. 39 (9). -P. 1725-1745.

5. Tan, X Recognition from a Single Sample per

Person with Multiple SOM Fusion [TeKCT]/X. Tan, J. Liu, S. Chen//Lecture Notes in Computer Science.-2006.-Vol. 3972/2006.-P. 128-133.

6. Struc, V. Using Regression Techniques for Coping with the One-Sample-Size Problem of Face Recognition [TeKCT]/V. Struc, R. Gajsek, F. Mihelic, N. Pavesic// Electrotechnical review. 2009.-Vol. 76.-№ 1-2. -P. 7-12.

7. Su, Y Adaptive Generic Learning for Face Recognition from a Single Sample per Person [TeKCT]/Y. Su, S. Shan, X. Chen [et al.]//CVPR 2010: 23rd IEEE Conf. on Computer Vision and Pattern Recognition.-San Francisco, USA. June 13-18, 2010.-P. 2699-2706.

8. Beymer, D. Face Recognition From One Example View [TeKCT]/D. Beymer, T. Poggio//Computer Vision, IEEE International Conf. 23 June 1995.-P. 500-507

УДК 025.4.03

И.С. Блеканов, Д.С. Бондаренко

ОЦЕНКА ЭФФЕКТИВНОСТИ МЕТОДОВ ПОИСКА ТЕМАТИЧЕСКИХ СООБЩЕСТВ В ВЕБ-ПРОСТРАНСТВЕ

В течение последнего десятилетия наблюдается экспоненциальный рост числа Веб-документов в информационном Веб-пространстве. Только в открытой (индексированной) части Веб на сегодняшний день насчитывается более 20 млрд документов и более 200 млн Веб-сайтов, не говоря уже о скрытой (неиндексированной) части, в которой эти показатели больше в несколько раз [12].

Сложность задачи поиска в Веб-пространстве привела к появлению целого класса подходов к поиску, учитывающих различные особенности Веб-пространства, что расширило спектр возможностей поисковых систем. Большинство таких систем имеют систему Веб-краулеров [4], необходимых для построения индекса существенной части Веб и отслеживающих появление новых и обнов-

ление старых документов в нем. В силу быстрого роста Веб-пространства [7, 12] проблема построения алгоритма, по которому Веб-краулер его обходит как первично, так и с целью обновления индекса, является очень сложной и актуальной.

В данной статье предлагается алгоритм обхода Веб-пространства, цель которого - посещение в первую очередь наиболее полезных документов. Для этого предлагается совместное использование алгоритма HITS [8], который учитывает гиперссылочную структуру документов, и TF-IDF [10] взвешивание, учитывающее информацию о тексте документа. Оценивается также качество поиска данного алгоритма обхода Веб-пространства и сравнивается с существующими алгоритмами [1, 3].

Принципы и алгоритм работы системы. Известно, что естественной моделью представления Веб-пространства является ориентированный Веб-граф [5], в котором вершины соответствуют Веб-страницам, а дуги - соединяющим страницы гиперссылкам. Под обходом Веб-пространства (исследование Веб-графа) понимают процесс поиска информационных источников и гиперссылок, начиная с некоторого начального подмножества Веб-страниц. За выполнение данной процедуры отвечает Веб-краулер (поисковый робот).

Задача поисковых роботов - обход Веб-графа определенным образом с целью сбора информации или понимания структуры и полезности каких-либо Веб-страниц [4]. А также передача собранной информации для анализа другим приложениям поисковых систем. Веб-краулеры упрощают поиск информации в Веб-пространстве, повышая его качество и эффективность.

В настоящей статье рассматривается тематический поисковый робот с разными алгоритмами обхода Веб-пространства:

тематический Веб-краулер на основе TF-IDF взвешивания [3];

на основе алгоритма HITS [1]; на основе совместного использования алгоритмов HITS и TF-IDF.

Одна из главных задач тематического Веб-краулера - поиск и добавление в коллекцию документов, в первую очередь, наиболее значимых информационных источников, что обеспечивает коллекцию высокого качества [4]. Результатами обхода Веб-пространства вышеперечисленными алгоритмами являются тематические сообщества [6] значимых Веб-страниц.

В данном исследовании значимые источники информации в Веб-пространстве определяются анализом гиперссылочной структуры найденных Веб-краулером документов, используя алгоритм Клеинберга HITS [8], и текста документа, используя алгоритм взвешивания TF-IDF [10] с учетом взаимного положения слов [2]. Наиболее значимыми по HITS Веб-страницами в рамках заданной темы принято считать авторитетные страницы, на которые ссылаются другие информационные источники, относящиеся к данной теме. Данное свойство позволяет выявить индексные страницы (hubs). Другими словами, для каждого источника информацииp ставится в соответствие пара неотрицательных весов (x<p>, y<p>), где x<p>, y<p> - веса для авторитетной и для индексной страниц соответственно. В работе Клеинберга [8] значение весов как авторитетных, так и индексных источников информации, вычисляется с помощью заданных весов {х<р>}, {y<p>} и итеративного применения операций

x<p>^ X y<9>, (1)

Vq:q^ p

у <p>^ £ x<q> . (2)

Vq: p^q

Таким образом, на хорошую авторитетную страницу ссылается много хороших индексных страниц, а хорошая индексная страница ссылается на хорошие авторитетные страницы. Целью алгоритма HITS является поиск наиболее качественных авторитетных и наиболее качественных индексных информационных источников.

Алгоритм TF-IDF использует информацию о частоте встречаемости слов запроса в тексте Веб-страниц. Как правило, частота определяется отношением числа вхождения слова (термина) t в документ d к общему количеству слов в d. Данная оценка лежит в основе такого популярного метода вычисления оценки меры релевантности как

tf - idfd = tfd • if (3)

где t - термин документа (слово запроса); d - текущий документ; tfd - число вхождения термина . '' N

t в документ d; idft — log— (df - множество до-

df, '

кументов, содержащих термин t; N - множество всех документов).

Характеристика tf - idftd при своей простоте обеспечивает хорошее качество поиска. Не-

достатком такого метода является то, что в нем недооцениваются длинные документы из-за содержания в них большого количества слов. Для решения такой проблемы в данной статье используется другая формула вычисления TF-IDF веса:

TF - IDF =

= TFfactor * IDFfactor * NormalizationFactor, (4)

где TFfactor =1 + ln(1 + lnf)) (TTFfactor = 0 в случае tftd = 0)

IDFfactor = log

N +1

и NormalizationFactor 1

0,8 + 0,2-

длина документа (в байтах)

средняя длина документа (в байтах)

Обоснованность выбора данной формулы описана в исследованиях [10].

Однако использование формулы (4) приводит к потере информации о порядке следования слов в тексте информационного источника, что нарушает его смысл. Чтобы обойти данную проблему, в работе используется алгоритм отбора устойчивых словосочетаний (пары слов) [2] в тексте документа. Формируется следующий алгоритм обработки запросов:

1. Из запроса выделяется множество всевозможных пар слов (каждая пара сочетает два слова из слов запроса).

2. Из сформированного множества пар с помощью алгоритма, описанного в исследовании [2], отбираются «настоящие» словосочетания, которые добавляются к множеству слов запроса в виде отдельных терминов.

3. Осуществляется поиск и взвешивание документов по формуле (4).

4. Результаты поиска ранжируются по убыванию веса документа.

Данный алгоритм обработки запросов, как показали исследования [2], увеличивает качество информационного поиска.

В статье проверяется качество поиска информации нового алгоритма обхода и выбора дальнейшего пути сканирования Веб-пространства, основанного на совместном использовании алгоритмов HITS и обработки запросов (с учетов их взвешивания по формуле (4)). То есть на каждом шаге получения новых источников информации тематическим Веб-краулером применялся алгоритм взешивания TF-IDF (4), который на множестве

всех найденных документов выделяет подмножество Веб-страниц с ненулевыми TF-IDF весами. Далее, для данного подмножества информационных источников применялся алгоритм Клеинберга HITS. Из полученного набора Веб-страниц качественные авторитетные страницы записывались в индекс, а по качественным индексным продолжался поиск новых авторитетных. В результате обхода Веб-пространства по описанному алгоритму тематический Веб-краулер выдает тематическое сообщество [6] авторитетных страниц.

Эксперимент. В эксперименте решалась классическая задача информационного поиска. Оценивались результаты поиска информации созданного авторами тематического Веб-краулера на основе совместного использования алгоритма HITS и алгоритма взвешивания текста документов TF-IDF, полученные после обхода Веб-графа. Производилось сравнение с результатами поиска, которые получились в результате обхода того же графа уже существующими моделями тематических Веб-краулеров, построенных с использованием алгоритмов HITS и TF-IDF по отдельности [1, 3].

Эффективность поиска информации трех реализованных моделей поисковых роботов проверялась в русскоязычной и англоязычной частях Веб-пространства. Для эксперимента были выбраны по пять запросов из тестовых коллекций РОМИП и TREC (табл. 1) [11, 13]. По данным запросам строилось начальное множество гиперссылок в модуле очереди выбранной модели Веб-краулера. Так, например, начальное множество гиперссылок для русскоязычной части Веб-графа строилось следующим образом: каждый запрос из российской тестовой коллекции РОМИП в табл.1 посылался информационно-поисковой системе Google, и выбиралось 10 первых ее результатов. Аналогичным образом строилось стартовое множество гиперссылок и для англоязычной части Веб-пространства на тестовой коллекции TREC. Таким образом, были образованы 10 начальных множеств, с которых запускается каждая из трех созданных моделей тематических Веб-краулеров. Поиск информации каждого Веб-краулера останавливается по истечению 5 итераций (число итераций выбиралось исходя из экономии времени и имеющихся ресурсов).

Результатом работы трех тематических поисковых роботов на выбранных стартовых множествах являются наборы Веб-страниц, образующих тематические сообщества. По данным результатам

Таблица 1

Запросы из тестовых коллекций РОМИП и TREC

№ Тестовая коллекция Тестовая коллекция

запроса РОМИП TREC

1 Армия России Art museums

2 Гимн Франции Solar flares

3 История рентгенологии International trade

4 Кельтская музыка Planet Mars

5 Нейтронная бомба Space exploration

составлялась тестовая коллекция. Производилась экспертная оценка элементов построенной коллекции, т. е. из описаний запросов, полученных из РО-МИПа и TREC, независимыми экспертами (группа студентов СПбГУ факультета ПМ-ПУ) выполнялась бинарная классификация каждого элемента тестовой коллекции «релевантен/не релевантен» по отношению к выбранному запросу.

Для оценки эффективности разработанного тематического Веб-краулера на основе совместного использования алгоритма HITS и взвешивания TF-IDF в данном эксперименте использовались наиболее популярные метрики [9, 11, 13]: полнота; точность; R-точность; точность на уровне 5 и 10 документов; средняя точность системы; 11-точечный график полноты/точности, измеренный по методике TREC.

Результаты эксперимента. В каждой модели Веб-краулера выбиралось пятьдесят первых найденных документов по каждому запросу из РОМИПа и TREC. По полученным результатам были составленны тестовые коллекции (табл. 2).

На построенных тестовых коллекциях сначала проверялся тематический Веб-краулер на основе TF-IDF взвешивания. Для него эффектив-

ность поиска тестировалась в два этапа: определялось качество поиска для русских и английских тестовых коллекций. По данной модели поискового робота наилучшие результаты в русскоязычных коллекциях были получены по запросу «Нейтронная бомба», средняя точность которого равна 0,45, R-точность - 0,5, точность на уровне пяти первых документов - 0,8, точность на уровне десяти первых документов - 0,9, точность на уровне всех найденных документов за пять итераций Веб-краулера - 0,22 (табл. 3).

В свою очередь, эта же модель Веб-краулера в коллекциях, составленных по запросам из TREC, показала несколько лучший результат поиска информации по сравнению с русскоязычными коллекциями (табл. 3). Так, наилучшие значения метрик были получены по запросу «Planet Mars»: показатель средней точности равен 0,43, R-точности - 0,52, точность на уровне пяти первых документов - 0,8, точность на уровне десяти первых документов - 0,7, точность на уровне всех найденных документов - 0,28.

При оценке значений метрик видно, что тематический поисковый робот на основе TF-IDF взвешивания выполняет поиск в английской тестовой

Таблица 2

Составленные коллекции по запросам из РОМИП и TREC

Запрос Общее количество документов в коллекции Количество релевантных документов в коллекции

Армия России 85 10

Гимн Франции 93 20

История рентгенологии 77 14

Кельтская музыка 86 17

Нейтронная бомба 102 20

Art museums 97 19

Solar flares 95 18

International trade 75 16

Planet Mars 109 25

Space exploration 98 18

Таблица 3

Значения метрик по запросам из коллекций TREC и РОМИП для методов поиска тематических сообществ в Веб-пространстве

Тематический Веб-краулер на основе

TF-IDF взвешивания

Метрики Армия России Гимн Франции История рентгенологии Кельтская музыка Нейтронная бомба

Кол. рел. док. 3 6 4 2 11

Recall 0,3 0,3 0,29 0,12 0,55

AvgPrec 0,06 0,21 0,12 0,04 0,45

R-precision 0,2 0,3 0,29 0,12 0,5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

precision(5) 0 0,6 0,2 0,4 0,8

precision(lO) 0,2 0,6 0,4 0,2 0,9

precision(50) 0,06 0,12 0,08 0,04 0,22

Art Solar International Planet Space

museums flares trade Mars exploration

Кол. рел. док. 5 10 7 14 6

Recall 0,26 0,56 0,44 0,56 0,33

AvgPrec од 0,3 0,24 0,43 0,16

R-precision 0,16 0,56 0,44 0,52 0,28

precision(5) 0,6 0,4 0,4 0,8 0,2

precision(lO) 0,3 0,6 0,5 0,7 0,4

precision(50) ОД 0,2 0,14 0,28 0,12

Тематический Веб-краулер на основе

алгоритма HITS

Метрики Армия России Гимн Франции История рентгенологии Кельтская музыка Нейтронная бомба

Кол. рел. док. 5 13 6 И 15

Recall 0,5 0,65 0,43 0,65 0,75

AvgPrec 0,24 0,4 0,17 0,42 0,45

R-precision 0,3 0,5 0,29 0,53 0,55

precision(5) 0,4 0,6 0,2 0,6 0,6

precision(lO) 0,3 0,6 0,4 0,8 0,7

precision(50) 0,1 0,26 0,12 0,22 0,3

Art Solar International Planet Space

museums flares trade Mars exploration

Кол. рел. док. 13 13 10 23 12

Recall 0,68 0,72 0,63 0,92 0,67

AvgPrec 0,26 0,46 0,22 0,49 0,26

R-precision 0,42 0,56 0,13 0,48 0,39

precision(5) 0,0 0,8 0,4 0,4 0,2

precision(lO) 0,3 0,6 0,2 0,4 0,3

precision(50) 0,26 0,26 0,2 0,46 0,24

Тематический Веб-краулер на основе совместного использования

алгоримов HITS и TF-IDF

Метрики Армия России Гимн Франции История рентгенологии Кельтская музыка Нейтронная бомба

Кол. рел. док. 10 20 14 17 20

Recall 1,0 1,0 1,0 1,0 1,0

AvgPrec 0,59 0,66 0,57 0,73 0,73

R-precision 0,5 0,6 0,5 0,59 0,6

precision(5) 0,6 0,8 0,6 1,0 0,8

precision(lO) 0,5 0,7 0,6 0,8 0,8

precision(50) 0,2 0,4 0,28 0,34 0,4

Art Solar International Planet Space

museums flares trade Mars exploration

Кол. рел. док. 19 18 16 25 18

Recall 1,0 1,0 1,0 1,0 1,0

AvgPrec 0,66 0,67 0,65 0,65 0,57

R-precision 0,63 0,61 0,56 0,6 0,5

precision(5) 0,6 0,8 0,6 1,0 0,8

precision(lO) 0,7 0,7 0,6 0,6 0,5

precision(50) 0,38 0,36 0,32 0,5 0,36

коллекции лучше, чем в русской. В ходе эксперимента было также выявлено, что в обеих коллекциях данная модель краулера находит релевантные документы на уровне 10-20 документов и имеет хорошее значение точности (например, по запросу «Нейтронная бомба» precision(10) = 0,9). На большем уровне найденных документов качество поиска значительно ухудшается. Например, значение точности для первых пятидесяти документов колеблется от 0,06 до 0,28, а значения полноты для некоторых запросов 0,12.

Вторая система поиска информации в Веб-пространстве, которая оценивалась введенными метриками по составленным тестовым коллекциям, основывалась на алгоритме Клеинберга HITS. Для русскоязычного Веб-пространства данная модель тематического Веб-краулера показала лучшие значения метрик по запросам «Кельтская музыка» и «Нейтронная бомба». Показатели всех метрик по каждому запросу из РОМИП подробно представлены в табл. З.

Для запросов из TREC данный метод поиска информации показал лучшие значения средней точности (равной 0,49) по запросу «Planet Mars». А для запроса «Solar flares» показатели таких метрик как R-точность, точность на уровне пяти первых документов, точность на уровне десяти первых документов, были наивысшими по отношению к другим запросам из англоязычной части Веб-пространства.

Значение полноты и точность модели Веб-краулера на основе алгоритма HITS выше, чем у модели, основанной на TF-IDF взвешивании. Например, в 80 % случаев данная модель на первой позиции своих результатов выдает релевантный документ.

Последними оценивались результаты поиска информации для тематического Веб-краулера, который учитывает как информацию о тексте, найденных документов, так и информацию о гиперссылочной связи между ними. Как и для других моделей поисковых роботов, данная модель проверялась на тестовых коллекциях из запросов РОМИП и TREC. В отличие от предыдущих двух моделей краулеров, данная модель показывала наилучшие показатели по всем метрикам и тестовым коллекциям (табл. З).

Чтобы получить более подробную информацию об изменении точности в зависимости от требований к полноте, чем единую метрику в виде одной цифры, в эксперименте строился 11-точечный график полноты/точности, измеренный по методике TREC для русской и английской тестовых коллекций (рис. 1, 2).

Графики показывают, что качество поиска информации в Веб-пространстве для поискового робота, основанного на алгоритме HITS и взвешивании TF-IDF, лучше для обоих видов коллекций - график данной модели Веб-краулера находится выше графиков остальных моделей. Для коллекций, составленных из запросов РОМИП и TREC, наблюдается некоторое уменьшение точности, вызванное, скорее всего, флуктуацией. Качество поиска Веб-краулера, основанного на алгоритме Клеинберга, оказалось эффективней, чем поисковый робот, учитывающий только информацию о тексте документа. По всем моделям Веб-краулеров наблюдается наибольший прирост качества поиска при малых значениях полноты. Другими словами, увеличение количества релевантных документов наблюдается в начале выдачи результатов системы, что является полезным качеством с точки зрения пользователя.

Цель данного эксперимента - оценка качества поиска тематического Веб-краулера на основе совместного использования алгоритмов HITS и TF-IDF, сравнив его с моделями Веб-краулеров, построенными с использованием алгоритмов HITS и TF-IDF, по отдельности.

Из поставленного эксперимента можно сделать следующие выводы.

Разработанная модель тематического поискового робота показала наилучшее качество поиска относительно двух других моделей. В рамках поставленного эксперимента значения всех оценок качества информационного поиска для данной модели Веб-краулера были наивысшими.

Тематические Веб-краулеры на основе алгоритма Клеинберга и на основе взвешивания TF-IDF эффективней ищут информацию в тестовых английских коллекциях в то время, как разработанная модель поискового робота обладает примерно одинаковым качеством поиска информации и в русских, и в английских коллекциях.

4

0,8

¡5 0,6 U

О X

т о

I- 0,4

0,2 0

II—1

н 1—<►

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Полнота

Рис. 1. 11-точечный график полноты/точности Рис. 2. 11-точечный график полноты/точности

по запросам из РОМИП для трех моделей по запросам из TREC для трех моделей

тематических Веб-краулеров тематических Веб-краулеров

( —п.—I) Веб-краулер на основе TF-IDF; ( ♦ ) Веб-краулер на основе HITS;

( —Д........) Веб-краулер на основе алгоритма TF-IDF и HITS взвешивания

Множество объединений релевантных документов, найденных моделью Веб-краулеров на основе алгоритма HITS и моделью на основе взвешивания TF-IDF, является подмножеством множества релевантных документов, найденных разработанной моделью поискового робота. Данный факт говорит о хорошей полноте созданной системы поиска информации в Веб-пространстве.

Как показал эксперимент, качество поиска информации Веб-краулерами на основе TF-IDF взвешивания самое худшее. Данный факт объясняется тем, что содержание большого количества слов запроса в документе не всегда влияет на его релевантность. К таким документам в тестовых коллекциях относились различные форумы, новостные порталы и рекламные Веб-страницы.

СПИСОК ЛИТЕРАТУРЫ

1. Блеканов, ИХ. Тематический краулинг на основе алгоритма HITS [Текст]/И.С. Блеканов, Д.С. Бонда-ренко//Научно-технические ведомости СПбГПУ-2010. -№ 3(101).-С. 111-118.

2. Губин, М.В. Исследование качества информационного поиска с использованием пар слов [Текст]/ М.В. Губин//1п Труды RCDL-2003.-2003.-C. 186-191.

3. Некрестьянов, И.С. Тематико-ориентированные методы информационного поиска [Текст]/И.С. Некрестьянов. -СПб.: Изд-во СПбГПУ, 2000.-С. 88.

4. Arasu, A. Searching the web [Текст]/А. Arasu, J. Cho, H. Garcia-Molina [et al.]//ACM Transactions on Internet Technology.-Aug. 2001.-Vol. 1.-№ 1.-P. 2-43.

5. Broder, A. Graph structure in the Web: Experiments and models [Текст]/А. Broder, R. Kumar, F. Maghoul, [et al.]//In WWW9.-May 2000.-Amsterdam.-Elsevier Science.-Vol. 33.-№1-6.-P. 309-320.

6. Gibson, D. Inferring Web communities from link topology [Текс^/D. Gibson, J. Kleinberg, P. Raghavan// Proc. 9th ACM Conf. on Hypertext and Hypermedia.-ACM Press.-NY-1998.-P. 225-234.

7. Kahle, B. Preserving the Internet [Текст]/В. Kahle// Scientific American.-Mar. 1997.-P. 82-83.

8. Kleinberg, J. Authoritative sources in a hyperlinked environment [Текст]Л. Kleinberg//Proc. 9th ACM-SIAM Symp. on Discrete Algorithms.-1998.-Extended version in Journal of the ACM 46(1999).-ACM Press.-NY.-Vol. 46.-№ 5.-P. 604-632.

9. Manning, C. An Introduction to Information Retrieval [Текст]/С Manning, P. Raghavan, H. Schutze.-Cambridge, England: Cambridge University Press.-Apr. 2009.-P. 544.

10. Singhal, A. A case study in web search using trec algorithms [Текстам.. Singhal, M. Kaszkiel//Proc. of the 10th International Conf. on World Wide Web.-2002.-ACM Press: Hong Kong.-P. 708-716.

11. Российский семинар по Оценке Методов Информационного Поиска [Электронный ресурс].-2003.-Режим доступа: http://romip.ru/, свободный.-Загл. с экрана.

12. Most Reliable Hosting Company Sites [Электронный ресурс].-Режим доступа: http://news.netcraft.com/, свободный.-Загл. с экрана.

13. Text Retrieval Conference (TREC) [Электронный ресурс].-2000.-Режим доступа: http://trec.nist.gov/, свободный.-Загл. с экрана.

i Надоели баннеры? Вы всегда можете отключить рекламу.