Кластеризация пользователей рекламной сети по социально-демографическим признакам

Анохин Павел Андреевич

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

УДК 004.85 ББК Ч 600.65

П.А. АНОХИН

КЛАСТЕРИЗАЦИЯ ПОЛЬЗОВАТЕЛЕЙ РЕКЛАМНОЙ СЕТИ ПО СОЦИАЛЬНО-ДЕМОГРАФИЧЕСКИМ ПРИЗНАКАМ

Ключевые слова: интернет-реклама, прогнозирование кликов, машинное обучение, социально-демографические признаки, регрессия, кластеризация.

Рассмотрены проблемы использования социально-демографической информации о пользователях при прогнозировании кликов в рекламной сети методами машинного обучения. Предложены варианты предварительной подготовки социально-демографических факторов для максимизации извлекаемой из них информации о кликах, среди которых использовались построение регрессии и кластеризация пользователей. Произведено сравнение предложенных вариантов с использованием метрики, основанной на правдоподобии обученной модели.

P.A. ANOKHIN

USER CLUSTERING BASED ON SOCIODEMOGRAPHIC FACTORS

Key words: internet advertisement, clicks prediction, machine learning, sociodemographic factors, regression, clustering.

The present article considers the problems of exploiting the sociodemographic data about users in predicting clicks in a banner system via machine learning methods. Several variants of pre-processing sociodemographic data to maximize retrievable information about clicks are proposed, among which are: regression model and user clistering. Comparison of those is done using a metric based on the likelihood of the trained models.

Баннерная система - комплекс программ, осуществляющих решение задачи выбора объявлений для показа в интернете. Для баннерных систем актуальной является задача адекватного прогнозирования их Click Through Rate (CTR) объявлений, т.е. отношения количества кликов к количеству показов.

Фактический CTR можно считать мерой интереса пользователей к рекламным объявлениям, поэтому способность его прогнозировать означает также способность выбирать наиболее подходящие объявления из множества доступных. Следует отметить, что релевантность объявления интересам пользователя - не единственный критерий отбора, поскольку объявления разнятся еще и по стоимости клика. В связи с этим крайне важно прогнозировать настоящий CTR, а не просто некоторую монотонную функцию от него, чего было бы достаточно для ранжирования объявлений по релевантности.

Ввиду необходимости работы в реальном времени, а также большого количества разнообразных факторов, влияющих на этот прогноз, для баннерных систем типично использование методов машинного обучения.

Можно выделить несколько групп факторов, влияющих на прогноз CTR, в зависимости от их природы и физического смысла. Во-первых, существуют факторы-идентификаторы, например: страница, для показа на которой выбирается объявление; алгоритм, предложивший объявление к показу; категория тематики объявления. Во-вторых, статистические факторы, отражающие накопленную за продолжительное время историю поведения пользователей в рекламной сети в различных разрезах, например: сколько было показов и кликов по объявлениям данной тематики на данной странице. В-третьих, реле-вантностные факторы: например, насколько текст объявления релевантен тексту страницы.

Помимо названных групп факторов представляется важным учитывать социально-демографическую информацию о пользователе.

Задача ставится следующим образом. Пусть социально-демографическая информация о пользователе представлена набором вероятностей. Например, если показатель (пол, возраст, доход и т.д.) принимает одно из N значений, то нам доступен

вектор (рь рдг), где рг равно вероятности, что значение показателя есть г. Кроме

того, имеется информация о тематике объявления. Необходимо научиться методами машинного обучения извлекать из этих данных максимум информации о СТЯ при обучении на логе показов и кликов пользователей в рекламной сети.

где яг, сг - показы и клики в г-й корзине; Рг - прогноз СТЯ в г-й корзине; Р0 - средний СТЯ в сети; 110,11т - логарифмы правдоподобия простой модели и исследуемой модели, соответственно.

В качестве движка машинного обучения выбран ММпхпй [1], а в качестве целевой функции - 11р (1), т.е. прирост логарифма правдоподобия модели по отношению к модели, всегда прогнозирующей Р0, нормированный на количество кликов.

Оказалось, что качество прогноза модели, обученной с использованием набора вероятностей в качестве факторов, достаточно низко (11р = 0,11). Это объясняется тем, что построение решающего дерева путем разбиения диапазонов значений вероятностей на отрезки проблематично: сложность такого дерева слишком быстро растет с количеством факторов.

Рассмотрены различные подходы, способные улучшить качество прогноза.

Один из них - построение регрессии, восстанавливающей зависимость СТЯ от социально-демографических данных при фиксированной тематике.

где а, Ьг, сг, - параметры регрессии; р = (р1, ., рN - вектор вероятностей; £ - логи-

стическая функция; е << Р0.

Поиск регрессии производился в классе функций (2). В качестве факторов использовались средний СТЯ тематики, значение регрессии и параметры регрессии для данной тематики.

Преимущество данного подхода заключается в том, что движок машинного обучения получает на вход предварительно подготовленные факторы, более явным образом скоррелированные с СТЯ. Недостаток же его в трудности построения регрессии, поскольку количество показов и кликов в корзинах может быть довольно мало.

Данный подход показал рост 11р до 0,14.

Альтернативный подход заключается в кластеризации пользователей по социально-демографическим данным и сборе статистической информации для каждой пары (тематика объявления, кластер пользователей).

Кластер задается центром - фиксированной точкой в пространстве социальнодемографических факторов. Каждая точка этого пространства принадлежит тому кластеру, центр которого является ближайшим к ней согласно выбранной метрике.

где р = (рь ., рдт), q = (дь ., длг) - векторы; й(р, д) - расстояние между ними.

Был произведен выбор множества центров кластеров, описывающих группы людей, предположительно обладающих в силу социально-демографических свойств некоторой общностью интересов и особенностей поведения (например, молодые женщины со средним уровнем дохода). Для определения ближайшего центра использовалась метрика (3). В качестве факторов для обучения использовалась статистика по каждой паре (тематика объявления, кластер пользователей), а также номера кластеров пользователей. В случае, если накопленная статистика по паре была мала, использовалось сглаживание от глобальной статистики, т. е. от Р0 [2].

(1)

/(р) = £ а + £(Ь,р,- + ср + 41о§(рг + е)) ,

(2)

(3)

Таким образом, этот метод позволяет свести проблему к хорошо известной и успешно решаемой задаче использования для прогноза факторов-идентификаторов и статистических факторов.

Был поставлен эксперимент, продемонстрировавший рост llp до 0,21.

В связи с наибольшей результативностью данного метода, а также с его сравнительной простотой и наглядностью используемых факторов, к примеру, по сравнению с методом, использующим регрессию, метод с кластеризацией был выбран для внедрения.

В будущем планируется работа по автоматизации кластеризации пользователей, что, по-видимому, может привести к дальнейшему росту качества прогноза.

Литература

1. Анохин П.А. Социально-демографические факторы в прогнозировании CTR в рекламной сети // Труды 55-й научной конференции МФТИ: Всерос. науч. конф. «Проблемы фундаментальных и прикладных естественных и технических наук в современном информационном обществе», науч. конф. «Современные проблемы фундаментальных и прикладных наук в области физики и астрономии», Всерос. молодежной науч. конф. «Современные проблемы фундаментальных и прикладных наук». Инновации и высокие технологии. М.: МФТИ, 2012. С. 18-19.

2. Matrixnet: Low Level of Search Quality. 2009 [Электронный ресурс]. URL: http://com-pany.yandex.com/technologies/matrixnet.xml (дата обращения: 13.02.2013).

3. Click-Through Rate Estimation for Rare Events in Online Advertising. 2011 / W. Xuerui, L. Wei, C. Yingetal. [Электронный ресурс]. URL: http://labs.yahoo.com/files/ctr_book_chapter_0.pdf

АНОХИН ПАВЕЛ АНДРЕЕВИЧ - аспирант, Московский физико-технический институт (государственный университет), Россия, Москва ([email protected]).

ANOKHIN PAVEL ANDREEVICH - post-graduate student, Moscow Institute of Physics and Technology (State University), Russia, Moscow.

УДК 330.341.1:51 ББК 65.011в6

И.Т. АРТЕМЬЕВ, Э.И. АРТЕМЬЕВ, С.О. ИВАНОВ

РАЗВИТИЕ ТЕОРИИ ЛОМАНЫХ ОДНОФАКТОРНЫХ ПРОИЗВОДСТВЕННЫХ ФУНКЦИЙ

Ключевые слова: производственная функция, математическое моделирование, функция прибыли.

Показано, что в ряде случаев методы высшей математики при исследовании эффективности производства наглядно иллюстрируются графическими методами. Рассмотрены постановка и решение задачи о предельном продукте и законе убывающей задачи одноресурсной фирмы в случае, когда соответствующие функции интерпретируются ломаными линиями.

I.T. ARTEMYEV, E.I. ARTEMYEV, S.O. IVANOV THE DEVELOPMENT OF THE THEORY OF UNIVARIATE PRODUCTION FUNCTION

Key words: mathematic modeling, profit function, production function.

This arcticle shows that in some cases methods of high mathematics for researches effi-cientcy of production are illustrated by graphic methods. The formulation and solution of the problem of the marginal product and the law of diminishing problem of a one-resource company in the case when the corresponding functions are interpreted by broken lines are considered.

Функцию, выражающую зависимость между стоимостью выпускаемой продукции и стоимостью суммарных затрат на ее производство, называют однофакторной производственной функцией [2]. Предполагается, что производственная функция удовлетворяет двум аксиомам [2]:

1. Хотя бы на части ее определения, называемой экономической областью E, эта функция неубывающая. В этой области производная E'(x), называемая предельным продуктом, неотрицательна.

Кластеризация пользователей рекламной сети по социально-демографическим признакам Текст научной статьи по специальности «Экономика и бизнес»

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Анохин Павел Андреевич

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Анохин Павел Андреевич

USER CLUSTERING BASED ON SOCIODEMOGRAPHIC FACTORS

Текст научной работы на тему «Кластеризация пользователей рекламной сети по социально-демографическим признакам»