УДК 004.7:004.4 В.В. Силич
Модель выбора рекламных объявлений веб-сайтов в системе поисковой рекламы
Предлагается метод организации системы поисковой рекламы, основанный на теории нечетких множеств, для выбора рекламных объявлений сайтов, релевантных поисковому запросу пользователя, при соблюдении ограничений рекламодателя. Подробно рассматриваются алгоритмы и результаты работы системы при использовании соответствия ключевых слов в качестве основного фактора ранжирования.
Введение
В настоящее время поиск информации в Интернете становится всё более сложным делом, так как по последним данным объёмы сети превышают 20 млрд документов, а темпы роста составляют более 10 млн новых страниц в день [1]. При этом если ещё 10 лет назад можно было найти интересующую информацию, просматривая тематические каталоги сайтов, то сейчас даже не всегда понятно, какой составить запрос для ввода в поисковые машины. Так или иначе, только поисковые системы в данное время позволяют охватить наибольшую часть Интернета и осуществлять поиск в нём.
Однако современные информационно-поисковые системы (ИПС) далеко не всегда способны удовлетворить информационные потребности пользователей. Одной из причин является то, что в результатах поиска, как правило, содержится большое количество ресурсов, не относящихся к первоначальной тематике запроса. Это происходит потому, что подавляющее большинство поисковых машин не учитывают семантику и контекст запроса пользователя. Они могут при помощи сложнейшего алгоритма за секунды найти необходимые ключевые слова в миллионах документах, однако неспособны сопоставить эти данные с контекстом и смыслом самого запроса. Таким образом, дальнейшее совершенствование систем поиска в Интернете связано, прежде всего, с усилением семантической составляющей поиска, что позволит пользователям находить более релевантные документы, а не просто страницы, содержащие искомые ключевые слова.
Существуют различные подходы к решению этой проблемы, однако из них можно выделить два основных направления: поиск с использованием «машинного» и «ручного» труда. Первый подход основывается на контент-анализе, при котором с помощью операций классификации и кластеризации каждому документу в индексе поисковой машины присваивается своя категория и набор ключевых слов. Соответственно после ввода поискового запроса и выдачи результатов поиска пользователю предлагается или уточнить его запрос при помощи выбора дополнительных ключевых слов (ИПС (}шп1;ига, Каг1юо), или ограничить результаты поиска той или иной категорией (ИПС №£та, СЛг^у) [2]. Несомненным преимуществом этого подхода является то, что он выполняется полностью в автоматическом режиме — без вмешательства человека. Однако эффективность зачастую оставляет желать лучшего, так как при этом подходе фактически используется поиск только по отдельным ключевым словам и практически не учитывается их связь и контекст употребления в документе. В противовес этому подходу появились такие поисковые машины, как Нак1а и Роте^гее!;, которые учитывают поисковый запрос целиком, пытаясь автоматизированно установить семантику и смысл самого запроса, однако, в силу очевидной сложности методов, результаты работы этих систем ещё далеки от приемлемых [3].
Другим методом решения указанной проблемы является подход, использующий «ручной» труд пользователей. При этом в результатах поиска учитываются предпочтения других пользователей, которые ранее отметили те или иные сайты релевантными данному запросу. Данная модель позволяет значительно повысить качество результатов поиска, так как смысл запроса и самого документа устанавливается человеком, однако имеется ряд серьёзных недостатков. В частности, для эффективной работы необходим колоссальный объём накопленных пользовательских предпочтений, ведь фактически для каждого поискового запроса должны быть сопоставлены свои предпочтительные результаты поиска. Также существует возможность обмана системы за счёт действий злоумышленников, старающихся повысить
в результатах поиска позиции своих сайтов, нерелевантных искомому запросу. В итоге такая система «пользовательских» результатов поиска может эффективно использоваться лишь при узконаправленном тематическом поиске, где возможное количество результатов невелико и ограничено.
Таким образом, в настоящее время практически не существует эффективных механизмов, позволяющих найти в сети искомую информацию, учитывая семантику самого запроса. Для улучшения результатов поиска существующей поисковой системы предлагается использование системы поисковой рекламы, которая предоставляет механизм платного размещения рекламных объявлений на страницах сайта, а также обеспечивает контекстную информацию, соответствующую информационным потребностям пользователя, с учётом семантики его запросов и предпочтений.
Система поисковой рекламы
В общем виде система поисковой рекламы представляет собой программный комплекс, обеспечивающий показ рекламных объявлений в соответствии с поисковыми запросами пользователя, а также историей его сетевой активности [4]. При поступлении поискового запроса система производит поиск соответствующих запросу объявлений с учетом ряда ограничений рекламодателя. Поскольку каждое такое объявление содержит помимо текста ещё и ссылку на рекламируемый сайт или веб-страницу, то фактически эти «спонсорские сайты» являются дополнительными результатами поиска по отношению к стандартной выдаче поисковой системы. Рекламные результаты зачастую могут быть более релевантными поисковому запросу пользователя, так как их соответствие этому запросу задаётся самими владельцами этих сайтов, а не просто «машинным» алгоритмом. При этом подходе отсутствует один из самых больших минусов «пользовательских» результатов поиска, описанных выше: так как переход по спонсорским ссылкам является платным для рекламодателей, то им просто экономически невыгодно создавать нерелевантные объявления. Рекламодатели наоборот всячески стремятся максимально полно и корректно отобразить соответствие спонсорских объявлений соответствующей тематике и ключевым словам. Таким образом, использование системы контекстной рекламы на поисковом портале позволяет дополнительно расширить результаты поиска за счёт рекламных результатов, соответствующих контексту запроса пользователя.
Предлагается следующая организация системы. Имеется ряд пользователей поисковой системы, каждый из которых характеризуется набором поисковых запросов, которые он вводил в системе, и историей сайтов, которые посещал или выбирал из результатов поиска. Существует также ряд рекламодателей с множеством рекламных объявлений и соответствующих им ограничений. Каждое рекламное объявление представляет собой ссылку на сайт и его краткое текстовое описание или графический баннер. Для каждого объявления задаётся набор ключевых фраз (словосочетаний на естественном языке, которые вводит пользователь в поисковую систему), стоп-фраз и список категорий, которым соответствует рекламируемый сайт. Для того чтобы объявление было показано пользователю, оно должно соответствовать или его текущему поисковому запросу (и не содержать стоп-фраз), или тематике текущей веб-страницы, или истории его сетевой активности. При этом каждое рекламное объявление имеет собственные ограничения, накладываемые рекламодателем, которые также должны быть соблюдены для показа этого объявления.
Выборка и ранжирование рекламных объявлений
При организации системы поисковой рекламы одной из основных задач, которые возникают ещё на стадии проектирования, является то, каким образом из множества спонсорских объявлений системы будет выбрано то подмножество объявлений, которое окажется релевантно конкретному поисковому запросу пользователя. При этом выбранное множество объявлений (порядка 7-10 штук) должно также учитывать историю запросов и историю посещённых пользователем сайтов, а также ограничения на показ самих объявлений. Эти ограничения выдвигаются самим рекламодателем и могут быть связаны со стоимостью показа/перехода по объявлению, ограничениями на суммарное количество показов объявления в день и т.д. Рассмотрим один из способов решения данной задачи на примере системы поисковой рекламы, основанной на текстовых объявлениях с размещением рекламы в результатах поиска на основе ключевых фраз.
Искомое множество подходящих рекламных объявлений (релевантных запросу, а также дополнительным факторам и ограничениям задачи) можно определить как нечеткое. Следовательно, для решения поставленной задачи следует применить аппарат, используемый в теории нечетких множеств и нечеткой логики.
Обозначим все множество рекламных объявлений системы через О = {о;}. В терминах теории нечетких множеств представим совокупность подходящих объявлений системы (релевантных запросу и дополнительным факторам) как нечеткое множество Ор = {< о,ц0р(о) >}, где о является элементом универсального множества или универсума О, а м.0р(°) — функция принадлежности. Из этого множества необходимо выбрать некоторое количество наиболее подходящих объявлений Оп, которые будут показаны в результатах поиска. Для этого определим Оп как подмножество множества Ор а-уровня [5]:
Ора = {о е О | Цор(о) > а}, \/о е О ,
где а £ [0,1] и выбирается в соответствии с опытными данными системы.
Для представленных множеств будет справедлива следующая запись:
Оп с Ора сОр с О .
При этом мощность множества Оп не может быть больше максимального количества показываемых в системе объявлений МоЬ, т.е.
I Оп |< ЫоЬ ,
где выбирается в соответствии с опытными данными системы и варьируется в целочисленном интервале [7,10], т.е. ЫоЬ е [7,10].
Чтобы выбрать искомые 7-10 объявлений для показа в системе (подмножество Оп), будет достаточно выбрать из Ор это количество объявлений с максимальными значениями функции принадлежности.
Таким образом, для каждого объявления нужнр определить значение функции принадлежности множеству подходящих объявлений, т.е. степень того, насколько объявление соответствует информационным потребностям данного пользователя и ограничениям рекламодателя. Выделим основные признаки (факторы), по которым будет определяться принадлежность объявления множеству Ор:
1) соответствие поискового запроса ключевым фразам объявления;
2) соответствие тематики текущей страницы тематике объявления;
3) наличие поискового запроса в истории запросов данного пользователя в системе;
4) соответствие категории сайта, связанного с объявлением, списку категорий сайтов, выбранных пользователем из результатов поиска;
5) соответствие категории сайта, связанного с объявлением, списку категорий сайтов, посещенных пользователем;
6) стоимость показа объявления;
7) частота показа объявления.
На рис. 1 приведена схема зависимости степени принадлежности объявления множеству подходящих объявлений от различных факторов.
Рис. 1. Факторы, влияющие на принадлежность объявления множеству подходящих объявлений По каждому признаку к = 1,т, определяется степень соответствия объявлений мно-
жеству Ор, т.е. формируется своя функция М-с* (°) принадлежности объявлений множеству подходящих объявлений. Можно рассматривать признаки как критерии, по которым оценивается, насколько объявление является подходящим. Тогда интегральная оценка будет определяться на основе методов свертывания критериев. Существуют различные методы свертывания. В случае «жесткой» постановки задачи («все или ничего») используются правила агрегации конъюнктивного или дизъюнктивного типа, которым соответствуют операции min или шах, выполняемые над функциями принадлежности частных критериев. Если же стратегией интегральной оценки является компромисс, то используются различные операции осреднения [6].
В данном случае критерии (признаки) дополняют друг друга, причем важность их различна, поэтому принадлежность объявлений множеству Ор будем находить по формуле выпуклой комбинации нечетких множеств [6]:
тп т
йор(°)= MGjt(o), =1, fc=i fe=i
где wh — вес k-то признака. Веса признаков определяются с использованием метода «парных сравнений».
Соответствие запроса ключевым фразам объявления
Функции принадлежности по различным признакам строятся разными способами. Рассмотрим формирование функции принадлежности по признаку «Соответствие поискового запроса ключевым фразам объявления» как самого важного, т.е. имеющего наибольший вес.
Рассматриваемый признак сам является составным, т.е. принадлежность объявления множеству Ор по данному признаку, при отсутствии в поисковом запросе стоп-фраз объявления, складывается из степеней соответствия поискового запроса fz каждой из ключевых фраз. В случае нахождения в поисковом запросе fz хотя бы одной из стоп-фраз множества {/ак¡}, это объявление признаётся нерелевантным и исключается из дальнейшего рассмотрения. В противном случае следует анализ поискового запроса на соответствие ключевым фразам. Обозначим множество подходящих объявлений, определяемых по /-той ключевой фразе, т.е. по соответствию fz и fk¡, через О^ . Тогда множество подходящих объявлений 01к , определяемое по всем ключевым фразам, зададим как объединение множеств Ощ :
°/к = О/а, иО^ и...,
т.е. функция принадлежности определяется с помощью операции шах:
ц0/к(о) = тах|10^(о).
Для определения функции \л0гк (о) необходимо для каждого объявления сравнить поисковый запрос fz и ключевую фразу /^(ог). Функцию (о), отражающую степень соответствия запроса ключевой фразе, зададим аналитически следующим выражением:
(°) = тах
1 п
О ,-Pil п ¿г,
k=i
Щ
где п — количество слов запроса /г; — коэффициент, определяющий степень совпадения й-го слова ключевой фразы ^^ и запроса; — коэффициент, определяющий степень соответствия порядка слов ключевой фразы по отношению к запросу. Коэффициенты е^ и р; определяются по следующим формулам:
еЫ =
1, если к-е слово фразы есть в запросе полностью, 0,9, если к-е слово фразы есть в запросе не полностью, -0,2, если й-го слова фразы fkj нет в запросе;
1, если порядок слов совпадает с порядком слов в запросе,
0,99, если порядок слов fkj совпадает с инверсным порядком слов в запросе,
0,95, если порядок слов fkj не совпадает с порядком слов в запросе.
В результате, применяя данные выражения для каждой из ключевых фраз объявления, можно рассчитать степень соответствия объявления текущему поисковому запросу по критерию «Соответствие поискового запроса ключевым фразам объявления». Аналогичным образом определяются функции принадлежности множества подходящих объявлений по другим признакам.
Апробация модели
На основе предложенной модели был создан прототип системы поисковой рекламы под рабочим названием «Рекламолог». Данная система является частью регионального томского поискового портала «Поисколог» и обеспечивает рекламные результаты для каждого из его поисковых сервисов. Внешний вид результатов мета-поиска регионального поискового портала, а также рекламных ссылок представлен на рис. 2.
Web Каталог сайтов I RSS-ленты 1 Словари 1 Мультимедмя 1 ta» »-г,и
?-?б-А13стеру | Реия.элюд&телю
пластиковые окна| 11 Найти |
Результаты поиска 1 - 10 ш 85 Реклама
Недь«**имостъ е Томске. Агентство нгдь«*ч1яйсстм : Пчэстикрвые окна.
Общая площадь дома: 200 м.кв. материал - красный кирпич: все коммуникации, пластиковые огам, качественная Наш сайт поможет подобрать
черновая отделка, гараж в комплексе с домом. 1эт. ... . окна и найти мастеров для
http://www.re3tty.tonKk.nl/ [ G:1 ] установки. Выбор. Цены
- http://>wtfw.irr.ги
ТСК "Сола*" НОВИНКА!! Пластиковые окна
Торгово-строительные и ... наиболее популярные сегодня пластиковые оюм. ... Пластиковые окна Lux - : Как выбрать пластиковые окна?
лучшее, что представлено на сегодняшний день среди ... ; Обзоры по выбору пластиковых
http://w«w.!0ldi-t5k.ru/todex,php?page.new_plast_window[r:1 ] о«он н окон из других
материалов.
окна сок продажа соков компания сок ; http://oknanum.pp.ru
Пластиковые ОКНА СОК действительно уникальны тем, что, будучи значительно дешевле
http://latest-info.tonsk.ru/2795.html [ L:1 ] 10 »"Фов « в«»оти»е»ях овнах И!
: Пластиковые окна ПВХ-узнайте
Рис. 2. Внешний вид системы мета-поиска и системы поисковой рекламы
В ходе апробации созданной системы был проведён ряд тестов системы поисковой рекламы на адекватность выдаваемых результатов. Рассмотрим результаты тестирования системы по признаку «Соответствие поискового запроса ключевым фразам объявления». В ходе тестирования в систему вводились типовые поисковые запросы и ряд объявлений с ключевыми фразами, содержащими слова из введенных поисковых запросов. С помощью системы для каждого запроса определялись значения функций принадлежности объявлений по соответствию ключевых фраз поисковому запросу, а также соответствующие ранги объявлений. Затем для сравнения определялись ранги объявлений экспертным путем. Для этого использовался метод парных сравнений, предложенный Т. Саати [7].
При использовании метода парных сравнений для рассматриваемой совокупности объектов формируется матрица парных сравнений W = ||wÉ;-1|, i, j = 1,п , содержащая степени превосходства объектов друг над другом. Превосходство wtj i-ro объекта над j-тыы измеряется в баллах от 1 до 9 (1 — нет превосходства, 9 — максимальная степень превосходства) [7]. Для согласованности этих значений выполняется следующее выражение:
wij = 1 /и>ц .
На основе матриц вычисляется вектор приоритетов объектов. Для этого определяются собственные векторы матриц, которые затем нормализуются. Компонента собственного вектора матрицы определяется по формуле геометрического среднего
Компонента нормализованного вектора приоритетов xt находится по формуле
xi = ai X ai ■
/ ;=i
В данном случае с помощью матриц парных сравнений эксперты оценивали степени превосходства объявлений с точки зрения соответствия их ключевых фраз поисковому запросу. Полученные на основе обработки матриц векторы приоритетов использовались для определения рангов объявлений, которые сравнивались с рангами, присвоенными системой поисковой рекламы.
В качестве примера в табл. 1 приведены значения функции принадлежности М-оЛ (°) объявлений с различными ключевыми фразами и соответствующие ранги г?уз, рассчитанные системой поисковой рекламы для поискового запроса «пластиковые окна», а также приоритеты объявлений полученные на основе матрицы парных сравнений, и соответствующие им ранги г;ехр . Сама матрица парных сравнений приведена в табл. 2.
Таблица 1
Ранги объявления, полученные системой и экспертами
Код Ключевая фраза объявления Результаты, полученные системой Результаты, полученные экспертом
Иод«>,) гт ч гехр '(
01 Пластиковые окна 1 1 0,257 1
02 Пластиковые окна 0,99 2 0,203 2
03 Пластиковые окна КВЕ 0,89 3 0,158 3
04 Пластиковые стеклопакеты 0,395 6,5 0,089 7
05 Пластиковые окна в рассрочку 0,79 4 0,108 4
06 Деревянные окна 0,395 6,5 0,088 6
07 Окно 0,45 5 0,097 5
Таблица 2
Матрица парных сравнений
Код 02 02 03 04 05 06 07
01 1 2 7 5 9 5 4
02 1/2 1 6 4 8 4 3
03 1/7 1/6 1 5 7 8 9
04 1/5 1/4 1/5 1 1/5 1 1/2
05 1/9 1/8 1/7 5 1 3 5
06 1/5 1/4 1/8 1 1/3 1 1/3
07 1/4 1/3 1/9 2 1/5 3 1
Для оценки степени согласованности рангов, рассчитанных системой и полученных экспертным путем, использовался дисперсионный коэффициент конкордации. Его значение для каждой из полученных совокупностей ранжировок, соответствующих определенному запросу, оказалось не ниже уровня 0,75. Таким образом, тестирование системы подтвердило адекватность построенной модели.
Заключение
В целом использование вышеописанного подхода при создании алгоритма поиска подходящего объявления в системе поисковой рекламы позволяет в рамках одной модели совмещать самые разные факторы, от которых зависит релевантность объявлений поисковым запросам и различного рода ограничениям. При этом каждому из факторов может быть определён свой весовой коэффициент, что позволяет легко корректировать степень влияния этих факторов на конечный результат. Использование аппарата нечетких множеств позволяет формализовать такие нечеткие понятия, как подходящие объявления, объявления, соответствующие поисковому запросу пользователей, и т.д.
На основе полученных моделей был создан прототип системы поисковой рекламы. Результаты работы системы были апробированы экспертным путём при помощи метода парных сравнений.
Литература
1. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа / Д.В. Ландэ. - М. : Диалектика, 2005. - 272 с.
2. Колисниченко Д.Н. Поисковые системы и продвижение сайтов в Интернете / Д.Н. Колисниченко. - М. : Вильяме, 2007. - 272 с.
3. Люгер Дж. Ф. Искусственный интеллект: стратегии и методы решения сложных проблем. Издание 4. - М. : Вильяме, 2003. - 864 с.
4. Ашманов И.С. Продвижение сайта в поисковых системах / И.С. Ашманов, A.A. Иванов. - М. : Вильяме, 2006. - 304 с.
5. Леоненков A.B. Нечеткое моделирование в среде MATLAB и fuzzyTECH / A.B. Лео-ненков. - СПб. : БХВ-Петербург, 2003. - 736 с.
6. Дюбуа Д. Теория возможностей. Приложения к представлению знаний в информатике: пер. с фр. / Д. Дюбуа, А. Прад. - М. : Радио и связь, 1990. - 288 с.
7. Саати Т. Аналитическое планирование. Организация систем / Т. Саати, К. Керне. -М. : Радио и связь, 1991. - 224 с.
Силич Василий Викторович
Аспирант каф. автоматизации обработки информации ТУСУРа Тел.: (3822) 55 34 08, 8 905 990 44 63 Эл. почта: acid@ms.tusur.ru
V.V. Silich
Model of web sites advertisement selection in search advertisement system
The method of search advertisement system organization, based on the fuzzy sets theory, for the selection of advertisements, under limitation set by advertiser, on the sites relevant to users query, is proposed. The algorithms and system performance results for ranking based primarily on keywords matching are shown in details.