-►
Проблемы передачи и обработки информации
УДК 004.738.52
Н.В. Неелова
модель определения первичного контента среди множества web-документов
По оценкам специалистов «Яндекс» более 30 % документов в Интернете неуникальны. Это снижает эффективность поиска нужной информации пользователем и создает трудности для поисковых систем, обусловленные увеличением индексных баз за счет избыточной информации, что, в свою очередь, приводит к росту затрат на обслуживание и хранение данных, а также требует большей ресурсной подготовки. Современные направления, связанные с оценкой релевантности и схожести документов [1, 2], позволяют сформировать множество web-документов с оценкой дубли или нечеткие дубли. Тем самым обозначая сопутствующую проблему детектирования дублей - определение первичного контента, ссылка на который будет показываться пользователю при формировании поисковой выдачи.
Существующие методы определения авторства. Можно указать несколько направлений, влияющих на выбор документа, который будет представлен пользователю в поисковой выдаче: авторство, авторитетность документа, тематич-ность и полнота раскрытия тематики всего web-ресурса, популярность web-ресурса.
Основной параметр выделения первичного web-документа среди копий - авторство. Для определения текстового оригинала разработано несколько методов [3, 4], основанных на человеческом вмешательстве, что неприемлемо для обработки больших объемов информации. Д.В. Хмелевым [5] и последователями [6] предложен способ определения авторства текстов, основанный на формальной математической модели последовательности букв текста как реализации цепи А.А. Маркова. Исследования показали, что наиболее точные результаты дает определение частоты пар букв в их естественных последо-
вательностях в тексте. Однако в работе [7] был предложен способ, основанный на сложностном подходе, позволяющем эффективно измерять близость словаря анонимного произведения к словарю автора, давшего более точный результат. Современные подходы идентификации авторства [8] базируются на модели представления текстовой информации и выделения определенных информативных групп характеристик текста.
Все рассмотренные методы представляют собой вероятностную оценку принадлежности неавторизованного текста известным авторам по матрицам переходных характеристик корпусов текстов, определенных авторов, либо путем идентификации автора с помощью разновидностей искусственных нейронных сетей и аппарата опорных векторов.
В случае определения авторства в рамках web-документов поименованных и проверенных авторов как таковых не существует. Однако строить предположение об авторстве можно на основе иных текстов сайта рассматриваемого документа. Таким образом, ниже предлагается описание модели определения вероятности авторства рассматриваемого web-документа по отношению к текстовой составляющей всего сайта.
Метод оценки авторства web-документов. Обозначим через В' = [В '1, В '2, ..., В 'я} обрабатываемое множество дублей, каждый такой дубль является web-документом, принадлежащим соответственно сайтам А1, А2, ..., Ап, при этом сайты не пересекаются А1 ф Д, и каждый имеет помимо рассматриваемого документа другие страницы Д. = [Д1,2, ..., В.га}. На каждой странице присутствует своя текстовая информация В... Ал-
V
горитм определения авторства выглядит следующим образом.
1. На сайте A каждого документа D . отбирается l страниц с текстовой составляющей, которые объединяются в обучающие тексты B. = Bt1 и Bi2 и... и Бй . Количество страниц отбирается исходя из требуемого объема обучающей выборки - 100 тыс. букв. Если средний объем текста составляет 3 тыс. букв, то требуется около 30 страниц (для полноценного сайта характерно гораздо большее число страниц).
2. Так как текстовые составляющие рассматриваемых документов являются копиями, обозначим их через Б' = B'j = Б\ =... = Б\. Тогда запись объединения текстов сайта и рассматриваемого текста примет вид BB' = B i и Б'.
3. Рассчитывается длина сжатых текстов BB' и Bt с помощью функции сжатия f , в качестве которой предлагается использовать алгоритм rarw версии 2.00, показавший наилучшие результаты [6].
4. Для каждого документа Dопределяется разность между длинами, рассчитанных сжатых текстов: fa(Б',D\ ) = |f (BtB' )|-|fr(Bt)|.
5. Чем меньше полученная разность, тем больше вероятность того, что текст B' на странице D 'i является авторским по отношению к ресурсу At.
Принцип цитируемости. Для выделения одного документа среди множества дублей можно использовать принцип цитируемости. Но он имеет ряд ограничений: не учитывается тематика и значимость цитирующего ресурса. В современных поисковых системах используется ссылочный поиск и статическая ссылочная популярность (PageRank в Google, вИЦ в Яндексе, ИЦ в Апорте), позволяющая поисковым системам справиться с примитивным текстовым спамом и учитывающая указанные ограничения. Взвешенный индекс цитирования (как и другие ссылочные факторы ранжирования) рассчитывается из ссылочного графа [9]:
n PR
PR = (1 - d) + d,
i-1
(1)
где РЯ - PageRank рассматриваемой страницы; d - коэффициент затухания, означающий вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок; РЯ -PageRank 1-й страницы, ссылающейся на страницу; С. - общее число ссылок на г-й странице.
Алгоритмы, применяемые в современных поисковых системах, являются скорее лишь ва-
риантами (1), сохранившими идею, изменив вид формулы. Но качество и количество ссылок напрямую влияют при выделении страницы среди множества копий.
Полнота тематики информационного ресурса. Еще один фактор ценности документа -возможность получения большей информации по теме рассматриваемого документа, что говорит о наличии тематически близких web-документов на сайте.
Введем понятие тематической ценности документа V. В данном контексте ценность документа V будет иметь прямую зависимость от тематической принадлежности всего сайта к тематике рассматриваемого документа:
V !
!C0SÄ, TD ) = W\W
,1 * Г»
(2)
|*А| |"D|
где Ta и Td соответственно обозначение вектора тематичности сайта и рассматриваемого документа.
N-мерный вектор тематичности строится как вектор весов слов. N - число слов в словаре коллекции. Вес каждого слова j в документе D. рассчитывается по формуле:
Ри = c°unt ii
IDF.,
(3)
где count.. - число вхождений слова в документ, IDF - обратная частота слова в коллекции. После расчета веса каждого слова в документе вектор нормируется:
Р. =
и
IР2
(4)
Аналогичным образом строится вектор и для всего сайта, при этом текст сайта получается объединением текстов всех входящих в него документов.
Таким образом, модель определения тематической ценности документа можно представить в следующем виде:
1) определяется словарь коллекции, в которой отсутствуют редкие и стоп-слова, т. е. IDF слов, формирующих словарь, лежит в диапазоне значимых слов [10];
2) строится ^-мерный вектор тематичности TD для рассматриваемого документа Д £ Д., используя формулы (2) и (3);
3) строится ^-мерный вектор тематичности TA для всего сайта A. = [Da, Dt2, ..., D m }, используя формулы (2) и (3);
k=1
4) с помощью формулы (1) устанавливается близость векторов TD и T^ . Чем ближе вектора, тем выше тематическая ценность рассматриваемого документа V. .
Дополнительные оценки ценности ресурса. В качестве дополнительной оценки ценности сайта также можно рассматривать его юзабилити, «метку чистоты», время появления D .
Под «меткой частоты» будем понимать вероятность того, что сайт не участвует в краже контента. Предположим, что сайт участвовал в определении авторства n раз, все испытания были независимыми, т. к. рассматривались разные страницы сайта A При этом событие «авторский контент» наступило в m из них. Следовательно, частота появления данного события - это отношение m/n. Согласно теории вероятности при увеличении числа испытаний частота m/n делается все ближе и ближе к определенной величине p, которая будет в рассматриваемом случае показателем чистоты сайта. Таким образом, «метка чистоты» будет определена системой:
pt — 1, если Д. ни разу не участвовал
в проверке авторства; ' т
Pi =—, если Д хоть раз участвовал п
в проверке авторства.
В качестве критерия юзабилити A и D можно предложить использовать поведенческие показатели: среднюю посещаемость сайта GA и страницы Gd , среднее время пребывания посетителя на сайте TA и на странице TD, средний показатель отказа сайта FD . Также для оценки важно ввести возраст страницы aged. Для оценки юзабилити страницы используем функцию
fu (aged , GA , GD , TA , TD , FD ) ^ U (A , D ) . Показатель юзабилити будет лежать в промежутке [0;1].
Наиболее удобный сайт соответствует единице,
менее популярный - нулю.
Возрастной показатель страницы aged также можно использовать как отдельный параметр для уточнения авторства. Та страница, чей возраст больше, имеет наибольшую вероятность авторства. В качестве нормировки данного показателя
age (D )
используем формулу age - (Д) =--—'-,
(aged (D))max
т. е. отношение возрастного показателя рассматриваемой страницы к максимальному возрастному показателю во множестве рассматриваемых документов.
Также во множестве рассматриваемых документов могут встретиться «добросовестные» ресурсы, указывающие авторство статьи. Для этого каждой проверяемой странице в соответствие ставится маркер M, показывающий, сколько раз в рассматриваемом множестве сослались на данный источник. Для нормировки результата каждый маркер делится на количество страниц в кластере n:
M'(D.) = ^
n -1
Итоговая формула определения первичного контента. Основываясь на логических соображениях и степени влияния каждого из перечисленных факторов, составлена интегральная оценка (5) определения первичного документа во множестве дублей. Корректирующие коэффициенты позволяют задать степень влияния каждого фактора:
F(Д) = (¿Л + к2 ■ age'„)х
f (5)
х (1 + ¿з ■ PRa) ■ kV4 ■ kU5 ■ kM ■ p,,
где fa - показатель авторства документа D.; age'd - возрастной нормированный показатель документа Д; PRa - показатель цитируемости документа D ; V - тематическая ценность документа Д ; U - показатель юзабилити документа Д ; M - маркер источника документа D.; p. - «метка чистоты» документа D; kx, k2, k3, k4, k5, k6 - некие коэффициенты.
Документ, получивший наибольшее значение по данной формуле, будет считаться первичным контентом и выдаваться пользователю при запросе. Общая схема определения первичного web-документа представлена на рис. 1.
Поиск оптимальных коэффициентов. Для подбора коэффициентов (5) в данной статье использован итерационный метод Ньютона. Процесс подбора коэффициентов заключался в первоначальной установке значений функции определения авторства с помощью экспертных оценок, далее устанавливались начальные коэффициенты, вычислялась функция для всех точек и находился средний абсолют по разности вычисленных значений и значений экспертов. В процессе подбора коэффициентов видоизменена формула (5) и введены дополнительные коэффициенты, позволившие приблизить результат к экспертным оценкам, т. е. улучшить его. С помощью MS Excel, используя инструмент «Поиск
решений», получена следующая формула определения авторства:
F (D ) = (0,021063--1-+
а f + 0,113003
J а '
+0,043212 • aged + 0,001- V) • (1 + 0,304832 • PRa) х
х(1,006625)и+0,04412 • (1,001324)"+а07873 х
xexp(pt • 1,057178) - 0,06919
Область значения функции - [0;1]. Выведенная формула дала отклонение от экспертных оценок в среднем на 0,0378. Найденный результат в рамках данной работы достаточен, и получение меньшей ошибки неактуально.
Практические результаты. Для оценки раз-
работанного алгоритма написана программа, рассчитывающая показатель ^ (Д). В качестве тестовой коллекции подготовлено 10 групп по 15 текстов, в каждой из которых был свой уникальный контент, но каждый текст в группе обладал разными уровнями тематичности ресурса, показателя посещаемости, возраста документа. Так как определить со стопроцентной вероятностью документ, который должен являться первичным, нельзя, предложено оценивать качество работы полученного алгоритма путем сопоставления результатов ранжирования по формуле (5) и результатов ранжирования всех рассматриваемых текстов в каждой группе с помощью шкалы рангов, построенной по экспертным оценкам.
Рис. 2. Качество поиска первичного контента при разных порогах (-♦-) средний процент; (--■--) количество совпадений
Результаты вычислений, рассчитанные для 10 групп текстов при разных порогах совпадения со шкалой экспертов представлены на рис. 2.
Оптимальный результат по количеству совпадений в 70 % при среднем проценте совпадений со шкалой рангов 67,3 % наблюдается при пороге 40 %. Также следует отметить, что наивысший ранг получают документы, вероятность авторства которых по отношению к сайту высокая, или документы, популярность которых выше других, что соответствует логике выбора первичного документа.
В статье предложен метод определения первичного документа, показавший хорошую эффективность, о чем свидетельствует показатель совпадений в 70 % со шкалой экспертов. Использование разработанного метода возможно не только в рамках поисковых систем, но и как самостоятельное направление по оценке авторства коротких текстов, полноты тематики и расчета популярности того или иного ресурса.
список литературы
1. Rinaldi, A.M. An ontology-driven approach for semantic information retrieval on the web [Text] / A.M. Rinaldi // ACM Transactions on Internet Technology. -NY, USA: ACM, 2009. - Vol. 9. -№ 3.
2. Budanitsky, A. Evaluating WordNet-based measures of lexical semantic relatedness [Text] / A. Budanitsky, G. Hirst // Computational Linguistics. -Cambridge, MA, USA: MIT Press, 2006. -Vol. 32. -№ 1. -P. 13-47.
3. Милов, Л.В. От Нестора до Фонвизина. Новые методы определения авторства: Научное издание [Текст] / Л.В. Милов, Л.И. Бородкин, Т.В. Иванова [и др.]; под ред. Л.В. Милова. -М.: Прогресс, 1994.
4. Holmes, D.I. The Evolution of Stylometry in Humanities Scholarship [Text]/ D.I. Holmes // Literary and Linguistic Computing. -Oxford University Press, 1998. -Vol. 13. - № 3. -P. 111-117.
5. Хмелёв, Д.В. Распознавание автора текста с использованием цепей А.А. Маркова [Текст] / Д.В. Хмелёв // Вестн. МГУ Сер. 9. Филология. -2000. -№ 2. -С.115-126.
6. Кукушкина, О.В. Определение авторства текста с использованием буквенной и грамматической информации [Текст] / О.В. Кукушкина, А.А. Поликарпов,
Д.В. Хмелев // Проблемы передачи информации. -2001. -Т. 37. -№ 2. -С. 96-08.
7. Хмелёв, Д.В. Сложностной подход к задаче определения авторства текста [Текст] / Д.В. Хмелёв // Тр. и матер. Междунар. конгресса Русский язык: исторические судьбы и современность. -М.: МГУ, 2001. -С. 426-427.
8. Романов, А.С. Идентификация автора текста с помощью аппарата опорных векторов [Текст] / А.С. Романов, Р.В. Мещеряков // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. Диалог-2009. -М.: РГГУ, 2009. -Вып. 8 (15). -С. 432-437.
9. Page, L. The PageRank Citation Ranking: Bringing Order to the Web [Text] / L. Page, S. Brin, R. Motwani [et al.] // Technical Report. -Stanford University, 1998.
10. Неелова, Н.В. Функция удаления нейтральных слов при вычислении нечетких дублей лексическим методом Джаккарда [Текст] / Н.В. Неелова // Интеллектуальные и информационные системы: Матер. Всерос. науч.-техн. конф. -Тула: Изд-во Тульского гос. ун-та, -2009 -C. 149-151.