«Информативность частотных характеристик ^-грамм текстовых фрагментов интернет-сайтов для поисковых систем» В.А. Строцев
Поиск информации в Интернет-среде уже невозможно представить без использования поисковых систем. В настоящее время в них реализуются разнообразные алгоритмы и принципы поиска, при этом процесс совершенствования таких систем реализуется уже с 1994 года (с момента открытия первого проекта каталога сайтов для организации доступа к информационным ресурсам сети - сайт Yahoo.com). Тем не менее, пользователи не всегда удовлетворены результатами обращения к ним. Ряд интересных фактов, связанных с взаимоотношением пользователей и поисковых систем приведены на сайте [1]: пользователи бросают поиски после 12 минут бесплодных попыток; около 75% пользователей разочаровываются при поиске информации в Интернете.
Отметим, что качество предоставляемых пользователю ответов в существенной мере зависит от сформированного запроса. Однако в силу ряда обстоятельств пользователь не всегда в состоянии достаточно точно сформулировать запрос и количество полученных им ответов становится большим. В этих ситуациях дополнительным признаком отбора релевантных ответов может являться принадлежность текстовых документов к той или иной неявной группе. Неявность группы проявляется в том, что принадлежность текста к ней определяется не прямым сравнением с эталонными (ключевыми) словами, а по соответствию смысловым признакам, формулировка которых в искомом тексте отсутствует. Например, пользователь хочет найти описание сказочного персонажа -летающей собаки с именем «Фалькорн». Он точно знает, что это персонаж художественного произведения, автора и название которого он не помнит. По ключевым словам «Фалькорн», «летающая собака» число ссылок очень велико и их просмотр утомителен (возможно займёт более 12 минут, что неминуемо классифицирует эту попытку обращения к поисковой системе как неуспешную). При добавлении ключевых слов «художественное произведение» или «сказка» ситуация существенно не улучшается, поскольку в самом произведении (сайте, содержащем искомую информацию) этих слов может и не быть. Дополнительный отслеживаемый признак позволил бы значительно сократить число сайтов-результатов поиска, отсекая информацию просто о летающих собаках.
Такая оценка принадлежности текстовых фрагментов интернет-сайтов к выбранной неявной группе может быть реализована на основе аппарата теории математической лингвистики [2], которая изучает закономерности лингвистических объектов.
Относительно рассматриваемого направления следует выделить работы, в которых для решения практических задач применяется устойчивость частот отдельных символов и их сочетаний заданной длины N (#-грамм). Так в работе В. Канвара и Дж. Тренкла [3] был предложен метод определения языка документа, основанный на сравнении частот N грамм текста с их частотами для различных языков. В работе [4] ^граммы уровня символов применены для семантической классификации незнакомых собственных имён, а в статье [5] анализируется содержание и применение ^грамм как средства фиксации языковых реалий и показывается соотношение моделей ^грамм, формальной грамматики и теории случайных марковских процессов. Делается вывод о широких возможностях таких моделей для автоматического анализа печатных текстов. Следует отметить, что в теории поиска как физических, так и информационных объектов также широко применяются марковские модели [6] - [10]. Но до их применения следует сначала оценить информативность соответствующих признаков.
Однако информативность частотных характеристик ^грамм текстовых фрагментов интернет-сайтов для формирования дополнительного признака их принадлежности к неявным группам для совершенствования поисковых систем ещё не рассматривалась.
Целью работы является оценка возможности применения частотных характеристик #-грамм текстовых фрагментов интернет-сайтов для совершенствования поисковых систем на основе исследования их информативности.
Постановка задачи
Пусть определён корпус текстовых документов (фрагментов текстов, являющихся содержанием страниц интернет-сайтов) общим объёмом М знаков, распределённых по V темам (неявным группам). Суммарные объёмы фрагментов, относящихся к каждой п-ой
___ N ___
теме (п = IV ) известны, и соответственно равны тп, ^ тп = М. Значения тп, п = 1,У
п=1
являются значительными для оценки частотных характеристик каждого общего текста темы (неявной группы).
Требуется оценить информативность частотных характеристик текстовых фрагментов интернет-сайтов для формирования дополнительного признака их принадлежности неявным группам для совершенствования поисковых систем.
Разработка методики исследования
На подготовительном этапе для выбранного языка составляются возможные последовательности значащих символов системы письменности длиной не более N ^,
I = 1,1 (Щ. К незначащим символам можно отнести цифры, знаки пунктуации, пробелы и т.п. Если число значащих символов системы письменности обозначить через О, то число возможных последовательностей значащих символов длиной не более N для этой системы письменности определяется по выражению:
N
I(N) = ^Пп. (1)
п=1
Функциональная зависимость в выражении (1) представлена только от N поскольку реального механизма влияния на О не имеется.
Для каждой п-ой неявной группы подсчитывается число использований ^грамм ^ :
V (&).
Тогда групповые частоты определяются по выражениям вида:
Рп (£") = IV)п () , п = , I = ЩЩ. (2)
Е, (?■)
2=1
Применение выражения (2) подразумевает знание (подсчёт) числа использований всех I(М) последовательностей. Однако поскольку в приложениях используется
ограниченное число наиболее употребительных ^грамм I < I(^) (для идентификации языка текста в соответствии с [3] - не более 300), то вычисления по выражению (2) требуют использование неоправданно больших ресурсов (для О = 26 величина I(^ для N = 3,4,5 принимает значение I(3) = 18 278, I(4) = 475 254, I(5) = 12 356 630).
Более «экономным» с вычислительной точки зрения является применение относительных частот вида
р'м;' )=^^, п=Ту, ,=. (3)
тп
Проверка гипотезы о возможности такой замены приведена в экспериментальной части статьи.
Более того, поскольку наиболее употребительные ^граммы в каждой неявной группе могут породить различные наборы последовательностей, а для реализации
сравнительных процедур, как правило, требуется использование соотносимых наборов, то
для определения отсортированного по убыванию набора I Ы-грамм фЫ, 1 = 1,I для
заданного корпуса текстовых документов требуется выполнение процедуры следующего вида:
фЫ = ШЕ ГШЫ(Т Уп (^ )) , ф2 = а1Б .ЩаХ (Т Уп (Л )) ,
г , ( } п=1 ЛЫ*ФЫ ’ п=1
фы=агв тах(£п,л)) ф=аг§,шах)(Е^п(#,ы))
г=1,7 (Ы X П=7 ,••• , Лм\фы п=1
,-ы ,ы п=1 Л ^ф ,
ЛЫ *ф лЫ ф,
ЛЫ Ф
(4)
Тогда с учётом (4) относительные частоты соотносимых наборов Ы-грамм могут быть получены по выражениям:
рЖ ) =
п'^ ] т„
, п = 1, V, ] = 1, I.
(5)
Пусть некоторый /-ый текстовый фрагмент интернет-сайта требуется отнести к одной из V неявных групп. Объём этого фрагмента составляет т\ знаков. Тогда
относительные частоты соотносимых наборов Ы-грамм для этого фрагмента вычисляются по выражениям:
яЖ) =
V (ФЫ) . 7Т
1 = 1, I,
(6)
где V\ (фЫ ) - число использований Ы-граммы фЫ в /-ом текстовом фрагменте.
По полученным значениям относительных частот (5) и (6) можно организовать процедуру сравнения и оценки принадлежности /-го текстового фрагмента интернет-сайта к одной из V неявных групп.
Одним из наиболее простых способов её организации является:
1. Расчёт выборочных коэффициентов корреляции Пирсона [11], с. 128:
гЫ ( рп, ?,*)) = ■
1 'Т^рп (Ф1 ) • 9 *(ФЫ) -Т Р*(фФ) Т 9 *(ф)
1=1 1=1 1=1
(7)
!-Е (Ф ))2 -I Т рЖ)
2
1=1
.1=1
I •! (Ж ))2 -[Т^Ф)
1=1
=1
п = 1^ .
2. Принятие решения о принадлежности текстового фрагмента Ф/ к одной из неявных групп Тп, п = 1У в соответствии с правилом:
Ф/ е п = агвтахг1п (Рn,91 )) .
(8)
Естественно, что могут решаться и другие задачи, например, проверка статистической гипотезы о значимости коэффициентов корреляции, равенстве их между собой и т. д.
2
Результаты исследования
Проведём экспериментальное исследование в соответствии с разработанной методикой. В качестве источника фрагментов текстов, являющихся содержанием страниц интернет-сайтов, выберем англоязычный сайт [12], на котором представлены материалы
по различным темам. Выберем четыре темы: «Computers & Internet», «Music and Movies», «Pets and Animals» и «Politics and Government» и поставим им в соответствие значение n в порядке перечисления. Примем значение N , равное 3 (в работе [3] N принимает значения от 1 до 5).
Для сформированного корпуса: Q = 26, V = 4, m1 = 11192104, m2 = 7 737 926,
I (3)
m3 = 10 862 615, m4 = 3 767 664, M = 33 560 309, (£3) = 21 071 631,
i=1
I(3) I (3) I(3)
£v2(£3) = 14 041 628, £>3(£) = 19980 994, JV4(£) = 7 077 912. i=1 i=1 i=1
Для оценки качества последовательностей были рассчитаны выборочные парные
коэффициенты корреляции между различными парами множеств Vn (£N ), i = 1,1}, n = 1, V , rnni (I), n1 = 1, V -1, n2 = n1 +1, V, представленные в таблице № 1.
Таблица № 1
Выборочные парные коэффициенты корреляции____________
I Г12( 1) Г1З( 1) 'S r1 Г2З( 1) Г24( 1) ГЗ4( 1)
18278 Q,9972Q7 Q,996Q13 Q,996548 Q,997745 Q,997745 Q,99587Q
1QQQ Q,997Q75 Q,996412 Q,995821 Q,997653 Q,997667 Q,995686
5QQ Q,997169 Q,9958Q1 Q,9964Q3 Q,997733 Q,997743 Q,99561Q
4QQ Q,997216 Q,995784 Q,996374 Q,997793 Q,997772 Q,99556Q
3QQ Q,997221 Q,995759 Q,996347 Q,9978Q2 Q,997769 Q,995478
2QQ Q,997191 Q,995767 Q,996212 Q,997962 Q,997769 Q,99547Q
1QQ Q,997Q39 Q,995454 Q,995897 Q,997966 Q,997692 Q,995265
Максимальное относительное отклонение
8rmax = max
Пі =1,V-1,
^ max rn„ (I) - min r„n (I) ^
-^I n1n2 ієІ~ п1п2 ^ '
max rnn (I)
“I Пі Пл ^
ІЄІ
•100%,
I = {18278,1000, 500, 400, 300, 200,100}, при уменьшении I с I = I(3) = 18 278 до I = 100 составило 0,096%.
Таким образом, косвенно подтверждается гипотеза о возможности существенного ограничения числа рассматриваемых наиболее употребительных Ы-грамм I при решении прикладных задач.
Для оценки принадлежности произвольного 1-го текстового фрагмента Ф1 на тему «СотрШеге & ШетеЪ> к одной из неявных групп Тп, п = 1,4 и исследования информативности частотных характеристик Ы-грамм положим, что
чПФФЫ ) = Р*(Ф? ) + ^ [0,*-Р*(ФЫ )], і = и, (9)
где N^[0,*-р*п(фф)] - обозначение і-ой случайной величины, распределённой по нормальному закону с нулевым математическим ожиданием и средним квадратичным
Р*(ФЫ )
отклонением (СКО) s^pn^f ), s - параметр вариации, se
0,
З
Отметим, что при моделировании частотных характеристик Ы-грамм текстовых фрагментов относительно выражения (2) в соответствии с подходом, определяемым выражением (9), значения выборочных коэффициентов корреляции, рассчитанные по выражению, соответствующему (7), оказались равны аналогичным выборочным коэффициентам упрощённой модели (выражение (3)).
Пл =n +1,V
21
Результаты оценки вероятности неправильного решения о принадлежности текстовых фрагментов с частотными характеристиками Ы-грамм, полученных по выражению (9), для различных значений * и I при числе реализаций моделирования случайных величин равном 100 (100 различных фрагментов) и процедуре принятия решения (7), (8), представлены в таблице №2.
Таблица №2
Оценки вероятностей неправильного решения о принадлежности текстовых ____________________________фрагментов _______________
I s < 0,05 s = 0,10 s = 0,15
18278 Q,QQ Q,Q1 Q,Q5
1QQQ Q,QQ Q,Q1 Q,Q6
5QQ Q,QQ Q,Q2 Q,14
4QQ Q,QQ Q,Q1 Q, 11
3QQ Q,QQ Q,Q1 Q,14
2QQ Q,QQ Q,Q2 Q,16
1QQ Q,QQ Q,Q3 Q,21
Из анализа таблицы видно, что текстовые фрагменты надёжно классифицируются при величинах СКО составляющих практически до 10% от значений относительных частот соответствующих N-грамм. При этом уменьшение числа рассматриваемых отсортированных по убыванию относительной частоты N-грамм существенно сказывается только для величин СКО превышающих 10% от значений относительных частот этих N-грамм.
Заключение
Использована закономерность математической лингвистики: каждый из символов встречается в тексте с определенной частотой и обладает особыми валентностями, т. е. лингвистическими способностями сочетаться с другими символами [2]. Отметим, что рассматриваемая методика обладает большой общностью в отношении систем письменности, поскольку не опирается только на алфавитные системы.
Выводы:
1. Частотные характеристики N-грамм текстовых фрагментов интернет-сайтов обладают достаточной степенью информативности для совершенствования поисковых систем на их основе.
2. Существует неравномерное распределение зависимости информативности частотных характеристик N-грамм текстовых фрагментов интернет-сайтов от неявных групп (в условиях рассмотренного примера более различимыми оказались пары тем «Computers & Internet»-«Pets and Animals», «Computers & Internet»-«Politics and Government» и «Pets and Animals»-«Politics and Government», т.е. важной задачей является выбор и описание соответствующей неявной группы.
Литература
1. Я мыслю, следовательно, раскручиваю // Исследования и статистика в области интернета, интернет рекламы и продвижения сайта. [Электронный ресурс]: http://digits.ru (дата обращения: 20.12.2012).
2. Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. Учеб. пособ. М.: Высш. шк. 1977. - 383 с.
3. Cavnar W. B., Trenkle J. M. N-Gram-Based Text Categorization // In Proceedings of Third Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, NV, UNLV Publications. 1994.
4. Нехай И.В. Применение N-грамм и других статистик уровня символов и слов для семантической классификации незнакомых собственных имён // Международная
конференция по компьютерной лингвистике. [Электронный ресурс]: http://www.dialog-21.ru/digests/dialog2012/materials/pdf/150.pdf (дата обращения: 20.12.2012).
5. Гудков В.Ю., Гудкова Е.Ф. N-граммы в лингвистике // Вестник Челябинского университета. - 2011. - №24 (2З9). Филология. Искусствоведение. - Вып. 57. - С. б9 - 71.
6. Строцев А.А. Иващенко И.Л. Синтез оптимального управления многопозиционной информационной системой при поиске группы динамических объектов // Известия высших учебных заведений. Радиоэлектроника. - 2005. - Т.48. -№10. - С. З7-45.
7. Строцев А.А. Совместное оптимальное управление поиском и наблюдениями за условно детерминированными динамическими объектами в импульсной многоканальной измерительно-поисковой системе // Известия высших учебных заведений. Радиоэлектроника. - 2004. - Т.47. - №9. - С. 22-29.
8. Строцев А.А. Оптимизация поиска и наблюдений многоканальной импульсной радарной станции в составе многопозиционной комплексной измерительно-поисковой системы // Автоматика и вычислительная техника. - 2004. - №З. - С. 12-21.
9. Развитие PageRank II [Электронный ресурс]: http://ornitos.blogspot.ru (дата обращения: 20.12.2012).
10. Грищук Т. В. Получение характеристической обсервации скрытой марковской модели // Наукові праці ВНТУ. - 2007. - № 1.
11. Третьяк Л.Н. Обработка результатов наблюдений. Оренбург: ГОУ ОГУ, 2004. -
171 с.
12. ArticleCity.com // Free Articles For Reprint. [Электронный ресурс]: http://www.articlecity.com (дата обращения: 20.12.2012).