Научная статья на тему 'Байесовский подход к оцениванию факторов, влияющих на положение сайта в результатах поискового запроса'

Байесовский подход к оцениванию факторов, влияющих на положение сайта в результатах поискового запроса Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
342
70
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОЦЕНИВАНИЯ ПОРЯДКА / СОКРАЩЕНИЕ ПРИЗНАКОВОГО ОПИСАНИЯ / БАЙЕСОВСКИЙ ПОДХОД / ОТБОР ПРИЗНАКОВ / ПРИНЦИП МАКСИМАЛЬНОГО ПРАВДОПОДОБИЯ / ORDER ESTIMATION / REDUCTION OF FEATURE DESCRIPTION / BAYESIAN APPROACH / FEATURE SELECTION / MAXIMUM LIKELIHOOD PRINCIPLE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Красоткина О. В., Нгуен Т. Ч., Поленова Е. А., Моттль В. В.

Рассматривается задача построения модели регрессии с регулируемой селективностью в приложении к задаче оценивания порядка сайта в результате поискового запроса, основными особенностями которой являются малый объем обучающего множества, ранговая природа целевой переменной и богатое признаковое описание. Для оценки параметров регрессионной модели предлагается использовать байесовский подход, в котором критерий максимального правдоподобия строится на основании иерархической модели генеральной совокупности. Предложенный критерий обладает способностью подавлять факторы, несущественные для решаемой задачи. Корректность полученной модели подтверждается экспериментами на модельных и реальных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Красоткина О. В., Нгуен Т. Ч., Поленова Е. А., Моттль В. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF SELECTIVE REGRESSION MODEL FOR PROBLEM OF ORDER ESTIMATION OF SITES IN RESULT OF WEB SEARCH QUERY

This paper presents building regression model with supervised selectivity to be applied for problem of order estimation of sites in result of web search query. Its basic characteristics are small number of observations but big number of descriptive features. Bayesian approach, where maximum likelihood criteria is set up based on the hierarchic model of general set of objects, is proposed for estimating the regression coefficients of the model. The suggested criteria can eliminate redundant factors and keep meaningful ones to determine the positions of sites within the framework of given web search query. The specific model has been tested and confirmed by simulation and real data.

Текст научной работы на тему «Байесовский подход к оцениванию факторов, влияющих на положение сайта в результатах поискового запроса»

by the logistic regression for the estimation of decision rule parameters.The pattern recognition procedure derived from this approach uses the general principle of the dynamic programming and has linear computational complexity in contrast to polynomial computational complexity in general kind of pattern recognition procedure.

Keywords: pattern recognition, bayesian approach, logistic regression, concept drift, Bellman functions

Krasotkina Olga Vyacheslavovna, candidate of physical and mathematical sciences, docent, [email protected], Russia, Tula, Tula State University.

Turkov Pavel Anatolevich, postgraduate, [email protected], Russia, Tula, Tula State University

Mottl Vadim Vyacheslavovich, doctor of technical sciences, professor, [email protected], Russia, Moscow, Computer Centre of RAS

УДК 519.688

БАЙЕСОВСКИЙ ПОДХОД К ОЦЕНИВАНИЮ ФАКТОРОВ, ВЛИЯЮЩИХ НА ПОЛОЖЕНИЕ САЙТА В РЕЗУЛЬТАТАХ

ПОИСКОВОГО ЗАПРОСА

О.В. Красоткина, Т.Ч. Нгуен, Е.А. Поленова, В.В. Моттль

Рассматривается задача построения модели регрессии с регулируемой селективностью в приложении к задаче оценивания порядка сайта в результате поискового запроса, основными особенностями которой являются малый объем обучающего множества, ранговая природа целевой переменной и богатое признаковое описание. Для оценки параметров регрессионной модели предлагается использовать байесовский подход, в котором критерий максимального правдоподобия строится на основании иерархической модели генеральной совокупности. Предложенный критерий обладает способностью подавлять факторы, несущественные для решаемой задачи. Корректность полученной модели подтверждается экспериментами на модельных и реальных данных.

Ключевые слова: оценивания порядка, сокращение признакового описания, байесовский подход, отбор признаков, принцип максимального правдоподобия.

Введение

Сегодня основным инструментом доступа к информации в интернете являются поисковые системы, которые принимая запрос пользователя, возвращают упорядоченный список web-страниц, содержащих необходимую для пользователя информацию. Каждая поисковая система имеет

свой собственный очень сложный и постоянно совершенствующийся алгоритм ранжирования, который является ее коммерческой тайной. Очевидно, что чем выше находится сайт в рейтинге поисковой системы по определенным запросам, тем больше посетителей будет у ресурса и, конечно, любой владелец сайта стремится, чтобы его ресурс занимал как можно более высокие позиции в выдаче поисковиков. Работа над содержимым сайта с целью повышения его рейтинга в результатах поискового запроса называется его продвижением. Специалисты по продвижению сайтов в процессе работы сталкиваются с тремя основными проблемами. Во-первых, современные алгоритмы ранжирования зависят не только от наполнения веб-станиц, но и от поискового запроса, поэтому зачастую методика продвижения, сработавшая с одним ресурсом, может не дать результата с другим. Во-вторых, так как процесс индексирования сайтов поисковой системой осуществляется с некоторой периодичностью, то до момента очередной индексации специалист не может видеть, как его усилия по продвижению повлияли на позицию сайта. В-третьих, среди огромного количества признаков, характеризующих пару запрос-документ, необходимо выбрать такие, изменение которых способно повлиять на позицию сайта максимальным образом. Целью данной работы является разработка математического аппарата, который позволит создать инструмент, позволяющий восстанавливать формулу ранжирования поисковой системы для конкретного поискового запроса и определять факторы, наиболее влияющие на положение сайта в поисковой выдаче.

В литературе задача восстановления ранжирующей формулы поисковой машины исследовалась довольно глубоко. Все известные подходы к этой задаче делятся на два класса: методы, основанные на совместном анализе результатов нескольких запросов, так называемые списковые методы (list- wise methods) и методы, основанные на анализе пар объектов (pairwise methods). Методы первой группы [1, 2], как правило, демонстрируют низкое качество при попытке применять их для конкретных запросов. Фактически, они пытаются воспроизвести полный алгоритм ранжирования поисковой машины, что благодаря постоянному совершенствованию поисковых алгоритмов оказывается сделать все сложнее. Кроме того, списковые методы не позволяют оценить какие именно признаки важны для ранжирования сайтов в рамках конкретного поискового запроса. Алгоритмы, анализирующие пары объектов, основаны на переходе из признакового пространства представления объектов в пространство, образованного парами объектов, и применении в данном пространстве существующих методов машинного обучения, таких как, например, метод опорных векторов [3, 4]. Однако, несмотря на очевидные преимущества этих методов, они практически бесполезны в задаче поискового продвижения сайтов, так как не обладают способностью указывать характеристики сайтов, релевантные для конкретного запроса, и имеют низкую обоб-

щающую способность в случае малых выборок. В последнее время в литературе делаются попытки ввести в методы оценивания ранговой регрессии некоторую регуляризацию, например, используя известную методику штрафных функций Lasso [5]. Слабые стороны этого похода обусловлены недостатками самого штрафного критерия Lasso: подавлением коррелированных регрессоров в итоговой модели и склонностью к излишнему отбраковыванию признаков.

В данной работе предлагается байесовская концепция восстановления регрессионной зависимости в случае, когда выходная переменная представлена в порядковой шкале. Основная идея байесовской концепции обучения заключается в использовании параметрического семейства априорных распределений объектов в линейном пространстве признаков вместе с априорными распределениями параметров решающей функции, что приводит к эффекту селективности признаков. В роли параметра семейства априорных распределений выступает неотрицательная переменная, названная параметром селективности обучения.

Квази-вероятностная модель регрессионной зависимости для случая преставления целевой переменной в порядковой шкале

В данной работе предлагается вероятностная модель генеральной совокупности, на основании которой из байесовского подхода к задаче обучения естественным образом вытекает концепция метода опорных векторов для случая зависимой переменной, представленной в порядковой шкале. Модель была названа квази-вероятностной поскольку она основана на так называемых несобственных плотностях распределения [6]. Пусть

есть векторное пространство X с векторами признаками x = {xi}" , принадлежащими этому пространству. В качестве модели генеральной совокупности будем рассматривать параметрическое семейство распределений

x ,x a,Cjопределенное на парах объектов и связанное с направлением

a в пространстве X, определяющим отношение порядка для любой пары объектов

.T ,

x,x" a,Cj =

1, аТ (х, х ) <-1,

exp{—Сат (х, х )),аТ (х, х ) > -1.

Это семейство призвано выражать предположение о том, что случайные векторы признаков объектов главным образом распределены в соответствии с отношением порядка, но могут и нарушать порядок, причем степенью возможности подобного нарушения управляет параметр С. Будем далее предполагать, что в распоряжении наблюдателя имеется обучающая

совокупность X = •х £ образованная независимыми векторами х , с

V У j=\

определенным над ними отношением порядка (ху -<хк) для

к > /, /,к = 1..^ . Тогда условное распределение обучающей совокупности представимо в виде произведения плотностей для отдельных пар переменных. При том возможны две стратегии обучения полная и сокращенная.

При полной стратегии в условном распределении обучающей совокупно, V NN

сти участвуют все пары объектов Ф( х]Ухка,С) = ППр(х],хка,С),а

/=1 к=/+1

при сокращенной только пары, представляющие соседние объекты

Ф (х /1 а, С) = П р (х / _1, X/1 а, С).

/=2

Другим ключевым предположением в предлагаемой вероятностной модели является суждение об априорном распределении а ) компонент направляющего вектора а

а\г )=(У (2лг )//2ехР (_а2/( 2г)).

Кроме того, будем предполагать, что величины обратные дисперсиям

имеют априорное гамма- распределение

y(i/ r1 a PMV r )a"lexp (-p/ r ).

Тогда, совместная априорная плотности распределения дисперсий 1/ r примет вид

n

G(1/ri,...,1/r | a,p) = n[(Vrj)a1 exp(-p(1/r,))].

¿=i

Для наделения критерия свойством отбрасывания нерелевантных признаков, выберем параметры гамма распределения следующим образом а = 1 + 1/ (2ц) и Р = 1/ (2ц). Структурный параметр ц будем называть параметром селективности, а полученную в итоге иерархическую модель - моделью порядковой регрессии с управляемой селективностью. Если ц^ 0, то априорные случайные значения дисперсий 1/r будут одинаковыми ^ 1/Г =... = 1/ rn =1, а при увеличении ц, независимые положительные величины 1/ r могут существенно различаться, так как D(1/ r.) увеличивается быстрее, чем E(1/ r.). Принцип максимизации совместной апостериорной плотности

P ( a, r\X, C, ц) к Ф( X, a, C a\r ) G ( r| ц)

в случае сокращенной стратегии обучения приводит к критерию

N-1

C X, +(1/2 )X( a fir ) + (V2 )Xln Г +(У2ц)Еln Г + (1/2ц)Х/ Г ^ mm

7=1 ,=1 ,=1 ,=1 ,=1 (a;r,5)

г

a

(x7+1 - x, ) + S; -1 > 0;5, > 0.

n

n

n

<

В случае полной стратегии критерий оказывается полностью аналогичным.

Процедура оценивания параметров модели порядковой регрессии с регулируемой селективностью

Будем минимизировать данный критерий методом Гаусс а-Зай деля

по двум группам переменных (я,г). Пусть [a{k\r{k)^ - очередное приближение к точке минимума. Следующее значение вектора дисперсий можно получить, приравняв к нулю частные производные критерия максимального правдоподобия по каждой компоненте вектора

Для получения очередного значения вектора коэффициентов а{к+1) необходимо найти минимум критерия максимального правдоподобия по этой переменной в предположении, что вектор дисперсий фиксирован.

Введем обозначения аЛ - aj9 xj f = j - При

сделанных обозначениях критерий для нахождения очередного приближения направляющего вектора будет иметь вид

N-1

äTä + C^Sj —» min,

j=1

äT (xJ+l - ) + 8f -1 > 0; > 0.

Для его оптимизации удобнее перейти к двойственной форме задачи, записанной относительно множителей Лагранжа

(1/2)А,тНА, + /TA,H>-min,

{>j N-1

*=1 J 1J=1

Для решения данной оптимизационной задачи использовали усечённый метод Ньютона, который Чарелле и Кеерти предложили в [8]. В

этом случае, вычислительная сложность данного метода - 0\М2). Для

подбора значения структурных гиперпараметров \х воспользуемся критерием скользящего контроля.

Экспериментальное исследование

В ходе экспериментального исследования исследовали поведение модели порядковой регрессии с регулируемой селективностью на тестовых и модельных данных. Сравнивали предложенную в работе регрессионную модель с регулируемой селективностью с редким штрафным методом (Lasso)[5] и с квадратным штрафным методом (Ridge) [3,9]. Для оценки

191

эффективности используем критерии Mean Average Precision (MAP)[5], Normalized Discounted Cumulative Gain NDCG@(1^10)[5], который используется для отражения способности алгоритма правильно упорядочивать объекты, и показатель, отражающий способность алгоритма верно отбирать признаки. Тем больше величины этих показателей, чем выше эффективность.

Экспериментальное исследование на модельных данных

Исследование качества работы алгоритма проводилось на тестовых данных, полученных в соответствии с моделью линейной регрессии. Все признаки распределены по нормальному закону с нулевым математическим ожиданием и единичной дисперсией х ~ А'(0,1). Присутствующие в

модели коэффициенты регрессии также генерировались в соответствии с нормальным законом распределения. Для каждого объекта было найдено значение зашумленной линейной комбинации признаков с коэффициента-

n

ми регрессии у х а + , где k - коэффициент, регулирующий со-

i=\

отношении дисперсии шума и дисперсии не зашумленной линейной комбинации, варьировавшийся в диапазоне от 5 до 20%. Затем объекты были упорядочены по возрастанию значений у , j = 1,...,N и в таком порядке подавались на вход алгоритма. Все эксперименты выполнялись на обучающей выборке из 20 объектов, контрольная совокупность составляла 980 объектов. В ходе экспериментов варьировалось общее число признаков, измеренных на объектах от 100 до 500. Таким образом, в выборке число признаков значительно превосходит число наблюдений. Причем, в скрытой модели только два признака являлись релевантными. Это фактически означает, что только 2 коэффициента регрессии отличны от 0, а остальные являются нулевыми, что исключает соответствующие признаки модели.

В табл. 1 приведены значения показателя Normalized Discounted Cumulative Gain NDCG@(1^10)[5] и показателя (MAP)[5], которые для всех трех методов сравнимы.

Для оценивания эффективности отбора признаков использовался следующий показатель

ratio = min аа1|, |аа2|)/max <а.|, i = 3,..., n).

Тем больше величина ratio, чем выше способноть отбора признаков, и наоборот. Величина ratio каждого из методов на модельных данных показана в табл. 2.

Таблица 1

Оценка эффективности методов на модельнных данных

NDCG NDCG NDCG NDCG NDCG NDCG NDCG NDCG NDCG NDCG MAP

@1 @2 @3 @4 @5 @6 @7 @8 @9 @10

p = 100

Ridge 0.967 0.908 0.898 0.888 0.883 0.882 0.882 0.871 0.862 0.856 0.786

Lasso 0.981 0.979 0.981 0.980 0.981 0.980 0.982 0.983 0.981 0.982 0.941

SR 1 1 1 1 1 0.998 0.997 0.994 0.994 0.992 0.971

p = 200

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ridge 0.433 0.567 0.610 0.635 0.627 0.629 0.627 0.633 0.648 0.658 0.758

Las so 0.967 0.967 0.967 0.972 0.971 0.964 0.964 0.962 0.955 0.960 0.916

SR 0.883 0.917 0.937 0.941 0.944 0.947 0.948 0.947 0.940 0.944 0.919

p = 500

Ridge 0.483 0.508 0.558 0.557 0.553 0.547 0.541 0.549 0.548 0.550 0.722

Las so 0.850 0.859 0.864 0.873 0.872 0.873 0.864 0.868 0.860 0.859 0.859

SR 0.617 0.617 0.648 0.667 0.677 0.689 0.694 0.708 0.712 0.719 0.800

Таблица 2

Способность отбора признаков методов на модельнных данных

Ridge Lasso Наш метод

p = 100 3.819 23.75 138.354

p = 200 2.424 12.116 27.533

p = 500 2.970 5.278 10.301

Из табл. 2 видно, что предложенный в работе метод демонстирует способность лучше отбирать призкаки, чем существующие в литературе методы.

Экспериментальное исследование на реальных данных Реальные данные были взяты из сайта http: //research.microsoft.com/en-us/um/beijing/projects/letor//letor3download.aspx, которые содержат данные по 6 запросам, каждый из которых содержит 20 сайтов с измеренными на них 70 признаками. Подсчитанные на всех запросах значения показателя Normalized Discounted Cumulative Gain NDCG@(1^10) являются очень близкими для различных методов, что говорит о том, что порядок сайтов в результатах поискового запроса восстанавливается методами в одинаковой степени. Для оценивания способности метода отбирать релевантные регрессоры мы используем экспертные данные [10], согласно которым на положение сайта в результатах поискового запроса в наибольшей степени влияют признаки, описывающие модель языка и признак BM25, представляющие собой оценку релевантности сайта результатам поискового запроса (табл.3). Номера этих признаков 21-40. На рисунке представлен значения признаков для данных 2004_hp, оцененные всеми методами. Видим, что модель гребневой регрессии оставляет в модели слишком много признаков, модель Lasso отобрала только 4 релевантных признака из 20, предложенный в работе метод селективной по-

193

рядковой регрессии отобрал 17 из 20 релевантных признаков, что означает наилучшую среди рассмотренных методов селективность. Рисунок иллюстрирует способность отбора признаков на данных.

Таблица 3

Оценка эффективности методов на реальных данных

NDCG NDCG NDCG NDCG NDCG NDCG NDCG NDCG NDCG NDCG МАР

@1 @2 @3 @4 @5 @6 @7 @8 @9 @10

2003 td

Ridge 0.32 0.37 0.355 0.363 0.366 0.362 0.358 0.352 0.355 0.357 0.265

Las so 0.34 0.34 0.34 0.351 0.355 0.347 0.342 0.343 0.343 0.340 0.251

SR 0.3 0.37 0.356 0.369 0.368 0.365 0.361 0.355 0.355 0.356 0.264

2004 hp

Ridge 0.573 0.687 0.713 0.741 0.759 0.768 0.771 0.771 0.772 0.772 0.671

Las so 0.667 0.767 0.796 0.809 0.818 0.823 0.823 0.823 0.827 0.827 0.745

SR 0.573 0.693 0.728 0.753 0.770 0.786 0.788 0.788 0.789 0.789 0.681

2004 np

Ridge 0.56 0.7 0.724 0.766 0.772 0.782 0.786 0.791 0.795 0.795 0.675

Las so 0.587 0.74 0.767 0.773 0.782 0.787 0.797 0.803 0.807 0.811 0.695

SR 0.56 0.7 0.724 0.766 0.772 0.782 0.787 0.791 0.795 0.795 0.675

2004 td

Ridge 0.307 0.307 0.313 0.303 0.306 0.300 0.295 0.292 0.294 0.291 0.206

Las so 0.36 0.38 0.353 0.353 0.338 0.327 0.317 0.319 0.315 0.311 0.228

SR 0.293 0.313 0.312 0.304 0.305 0.301 0.295 0.292 0.297 0.295 0.204

Ridge Lasso Our method

Л4|-1-1-1-1-1-1-

о шазошяаго

Способность отбора признаков методов на данных 2004_Нр Заключение

В статье рассматривается модель порядковой регрессии для задачи восстановления ранжирования сайтов в рамках конкретного поискового запроса. Предложены две стратегии обучения полная, опирающаяся на информацию об упорядоченности всех объектов обучающей выборки и сокращенная, использующая информацию только о соседних в рамках порядковой шкалы объектах. Предложенная модель не только позволяет восстанавливать целевую переменную, представленную в порядковой шкале,

194

но и позволяет отбирать признаки сайтов, которые с наибольшим весом влияют на их позицию в запросе. Достоинством метода является то, что он позволяет отбросить неинформативные признаки, не используя переборные стратегии, непосредственно в процессе восстановления искомой регрессионной зависимости.

Список литературы

1. Learning to rank using gradient descent / J.C. Burges ^t al] // Proc. International Conference on Machine Learning ( ICML '05). P. 89-96.

2. Learning to rank: from pairwise approach to listwise approach / Z. Cao [at all] // Proc. International Conference on Machine Learning (ICML '07). P. 129- 136. 2007.

3. Optimizing search engines using clickthrough data / Joachims T. [et al] // Proc. ACM Conference on Knowledge Discovery and Data Mining(KDD '02). P. 133-142. 2002.

4. Adapting ranking SVM to document retrieval / [Z. Cao et al] // Proc. of the 29th Int. conference on research and development in information retrieval. ACM, NY, USA. P. 186-193

5. Sparse Learning-to-Rank via an Efficient Primal-Dual Algorithm / HanjiangLai // IEEE Transactions on Computers. Vol. 99. PrePrints. February. 2012

6. Де Гроот М. Оптимальные статистические решения. М.: Мир,

1974.

7. Chu Wei and Sathiya Keerthi S.. New approaches to support vector ordinal regression // Proc. of the 22 Int. Conference on Machine learning (ICML '05). ACM, New York, USA. P. 145-152.

8. Chapelle O. and Keerthi S.S., Effcient algorithms for ranking with SVMs. Information retrieval journal. Vol. 13. N 3. P. 201- 215, 2010.

9. Herbrich R, Graepel T, Obermayer K. Large margin rank boundaries for ordinal regression. In: Smola, Bartlett, Schoelkopf, Schuurmans Advances in Large Margin Classifers, MIT Press, Cambridge, MA.

10. Microsoft Research Asia, LETOR: A Benchmark collection for learning to rank for information retrieval.

Красоткина Ольга Вячеславовна, канд. физ.-мат. наук, доц., [email protected], Россия, Тула, Тульский государственный университет.

Нгуен Тронг Чин, асп., nguyentrongtinh [email protected], Россия, Тула, Тульский государственный университет,

Поленова Елена Александровна, асп., [email protected], Россия, Тула, Тульский государственный университет,

Моттль Вадим Вячеславович, д-р техн. наук, проф., [email protected] , Россия, г. Москва, ВЦ РАН

APPLICATION OF SELECTIVE REGRESSION MODEL FOR PROBLEM OF ORDER ESTIMATION OF SITESINRESULT OF WEB SEARCH QUERY

O. V. Krasotkina, T. T. Nguyen, E.A. Polenova, V. V. Mottl

This paper presents building regression model with supervised selectivity to be applied for problem of order estimation of sites in result of web search query. Its basic characteristics are small number of observations but big number of descriptive features. Bayesian approach, where maximum likelihood criteria is set up based on the hierarchic model of general set of objects, is proposed for estimating the regression coefficients of the model. The suggested criteria can eliminate redundant factors and keep meaningful ones to determine the positions of sites within the framework of given web search query. The specific model has been tested and confirmed by simulation and real data.

Key words: order estimation, reduction of feature description, Bayesian approach, feature selection, maximum likelihood principle.

Krasotkina Olga Vyacheslavovna, candidate of physical and mathematical sciences, docent, [email protected], Russia, Tula, Tula State University.

Nguen Trong Tinh, postgraduate, [email protected], Russia, Tula, Tula State University,

Polenova Elena Aleksandrovna, postgraduate, [email protected], Russia, Tula, Tula State University,

Mottl Vadim Vyacheslavovich, doctor of technical sciences, professor, vmottl@yandex. ru, Moscow, Computer Centre of RAS

i Надоели баннеры? Вы всегда можете отключить рекламу.