ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ
УДК 004.85 ББК Ч 600.65
П.А. АНОХИН
КЛАСТЕРИЗАЦИЯ ПОЛЬЗОВАТЕЛЕЙ РЕКЛАМНОЙ СЕТИ ПО СОЦИАЛЬНО-ДЕМОГРАФИЧЕСКИМ ПРИЗНАКАМ
Ключевые слова: интернет-реклама, прогнозирование кликов, машинное обучение, социально-демографические признаки, регрессия, кластеризация.
Рассмотрены проблемы использования социально-демографической информации о пользователях при прогнозировании кликов в рекламной сети методами машинного обучения. Предложены варианты предварительной подготовки социально-демографических факторов для максимизации извлекаемой из них информации о кликах, среди которых использовались построение регрессии и кластеризация пользователей. Произведено сравнение предложенных вариантов с использованием метрики, основанной на правдоподобии обученной модели.
P.A. ANOKHIN
USER CLUSTERING BASED ON SOCIODEMOGRAPHIC FACTORS
Key words: internet advertisement, clicks prediction, machine learning, sociodemographic factors, regression, clustering.
The present article considers the problems of exploiting the sociodemographic data about users in predicting clicks in a banner system via machine learning methods. Several variants of pre-processing sociodemographic data to maximize retrievable information about clicks are proposed, among which are: regression model and user clistering. Comparison of those is done using a metric based on the likelihood of the trained models.
Баннерная система - комплекс программ, осуществляющих решение задачи выбора объявлений для показа в интернете. Для баннерных систем актуальной является задача адекватного прогнозирования их Click Through Rate (CTR) объявлений, т.е. отношения количества кликов к количеству показов.
Фактический CTR можно считать мерой интереса пользователей к рекламным объявлениям, поэтому способность его прогнозировать означает также способность выбирать наиболее подходящие объявления из множества доступных. Следует отметить, что релевантность объявления интересам пользователя - не единственный критерий отбора, поскольку объявления разнятся еще и по стоимости клика. В связи с этим крайне важно прогнозировать настоящий CTR, а не просто некоторую монотонную функцию от него, чего было бы достаточно для ранжирования объявлений по релевантности.
Ввиду необходимости работы в реальном времени, а также большого количества разнообразных факторов, влияющих на этот прогноз, для баннерных систем типично использование методов машинного обучения.
Можно выделить несколько групп факторов, влияющих на прогноз CTR, в зависимости от их природы и физического смысла. Во-первых, существуют факторы-идентификаторы, например: страница, для показа на которой выбирается объявление; алгоритм, предложивший объявление к показу; категория тематики объявления. Во-вторых, статистические факторы, отражающие накопленную за продолжительное время историю поведения пользователей в рекламной сети в различных разрезах, например: сколько было показов и кликов по объявлениям данной тематики на данной странице. В-третьих, реле-вантностные факторы: например, насколько текст объявления релевантен тексту страницы.
Помимо названных групп факторов представляется важным учитывать социально-демографическую информацию о пользователе.
Задача ставится следующим образом. Пусть социально-демографическая информация о пользователе представлена набором вероятностей. Например, если показатель (пол, возраст, доход и т.д.) принимает одно из N значений, то нам доступен
вектор (рь рдг), где рг равно вероятности, что значение показателя есть г. Кроме
того, имеется информация о тематике объявления. Необходимо научиться методами машинного обучения извлекать из этих данных максимум информации о СТЯ при обучении на логе показов и кликов пользователей в рекламной сети.
где яг, сг - показы и клики в г-й корзине; Рг - прогноз СТЯ в г-й корзине; Р0 - средний СТЯ в сети; 110,11т - логарифмы правдоподобия простой модели и исследуемой модели, соответственно.
В качестве движка машинного обучения выбран ММпхпй [1], а в качестве целевой функции - 11р (1), т.е. прирост логарифма правдоподобия модели по отношению к модели, всегда прогнозирующей Р0, нормированный на количество кликов.
Оказалось, что качество прогноза модели, обученной с использованием набора вероятностей в качестве факторов, достаточно низко (11р = 0,11). Это объясняется тем, что построение решающего дерева путем разбиения диапазонов значений вероятностей на отрезки проблематично: сложность такого дерева слишком быстро растет с количеством факторов.
Рассмотрены различные подходы, способные улучшить качество прогноза.
Один из них - построение регрессии, восстанавливающей зависимость СТЯ от социально-демографических данных при фиксированной тематике.
где а, Ьг, сг, - параметры регрессии; р = (р1, ., рN - вектор вероятностей; £ - логи-
стическая функция; е << Р0.
Поиск регрессии производился в классе функций (2). В качестве факторов использовались средний СТЯ тематики, значение регрессии и параметры регрессии для данной тематики.
Преимущество данного подхода заключается в том, что движок машинного обучения получает на вход предварительно подготовленные факторы, более явным образом скоррелированные с СТЯ. Недостаток же его в трудности построения регрессии, поскольку количество показов и кликов в корзинах может быть довольно мало.
Данный подход показал рост 11р до 0,14.
Альтернативный подход заключается в кластеризации пользователей по социально-демографическим данным и сборе статистической информации для каждой пары (тематика объявления, кластер пользователей).
Кластер задается центром - фиксированной точкой в пространстве социальнодемографических факторов. Каждая точка этого пространства принадлежит тому кластеру, центр которого является ближайшим к ней согласно выбранной метрике.
где р = (рь ., рдт), q = (дь ., длг) - векторы; й(р, д) - расстояние между ними.
Был произведен выбор множества центров кластеров, описывающих группы людей, предположительно обладающих в силу социально-демографических свойств некоторой общностью интересов и особенностей поведения (например, молодые женщины со средним уровнем дохода). Для определения ближайшего центра использовалась метрика (3). В качестве факторов для обучения использовалась статистика по каждой паре (тематика объявления, кластер пользователей), а также номера кластеров пользователей. В случае, если накопленная статистика по паре была мала, использовалось сглаживание от глобальной статистики, т. е. от Р0 [2].
(1)
/(р) = £ а + £(Ь,р,- + ср + 41о§(рг + е)) ,
(2)
(3)
Таким образом, этот метод позволяет свести проблему к хорошо известной и успешно решаемой задаче использования для прогноза факторов-идентификаторов и статистических факторов.
Был поставлен эксперимент, продемонстрировавший рост llp до 0,21.
В связи с наибольшей результативностью данного метода, а также с его сравнительной простотой и наглядностью используемых факторов, к примеру, по сравнению с методом, использующим регрессию, метод с кластеризацией был выбран для внедрения.
В будущем планируется работа по автоматизации кластеризации пользователей, что, по-видимому, может привести к дальнейшему росту качества прогноза.
Литература
1. Анохин П.А. Социально-демографические факторы в прогнозировании CTR в рекламной сети // Труды 55-й научной конференции МФТИ: Всерос. науч. конф. «Проблемы фундаментальных и прикладных естественных и технических наук в современном информационном обществе», науч. конф. «Современные проблемы фундаментальных и прикладных наук в области физики и астрономии», Всерос. молодежной науч. конф. «Современные проблемы фундаментальных и прикладных наук». Инновации и высокие технологии. М.: МФТИ, 2012. С. 18-19.
2. Matrixnet: Low Level of Search Quality. 2009 [Электронный ресурс]. URL: http://com-pany.yandex.com/technologies/matrixnet.xml (дата обращения: 13.02.2013).
3. Click-Through Rate Estimation for Rare Events in Online Advertising. 2011 / W. Xuerui, L. Wei, C. Yingetal. [Электронный ресурс]. URL: http://labs.yahoo.com/files/ctr_book_chapter_0.pdf
АНОХИН ПАВЕЛ АНДРЕЕВИЧ - аспирант, Московский физико-технический институт (государственный университет), Россия, Москва ([email protected]).
ANOKHIN PAVEL ANDREEVICH - post-graduate student, Moscow Institute of Physics and Technology (State University), Russia, Moscow.
УДК 330.341.1:51 ББК 65.011в6
И.Т. АРТЕМЬЕВ, Э.И. АРТЕМЬЕВ, С.О. ИВАНОВ
РАЗВИТИЕ ТЕОРИИ ЛОМАНЫХ ОДНОФАКТОРНЫХ ПРОИЗВОДСТВЕННЫХ ФУНКЦИЙ
Ключевые слова: производственная функция, математическое моделирование, функция прибыли.
Показано, что в ряде случаев методы высшей математики при исследовании эффективности производства наглядно иллюстрируются графическими методами. Рассмотрены постановка и решение задачи о предельном продукте и законе убывающей задачи одноресурсной фирмы в случае, когда соответствующие функции интерпретируются ломаными линиями.
I.T. ARTEMYEV, E.I. ARTEMYEV, S.O. IVANOV THE DEVELOPMENT OF THE THEORY OF UNIVARIATE PRODUCTION FUNCTION
Key words: mathematic modeling, profit function, production function.
This arcticle shows that in some cases methods of high mathematics for researches effi-cientcy of production are illustrated by graphic methods. The formulation and solution of the problem of the marginal product and the law of diminishing problem of a one-resource company in the case when the corresponding functions are interpreted by broken lines are considered.
Функцию, выражающую зависимость между стоимостью выпускаемой продукции и стоимостью суммарных затрат на ее производство, называют однофакторной производственной функцией [2]. Предполагается, что производственная функция удовлетворяет двум аксиомам [2]:
1. Хотя бы на части ее определения, называемой экономической областью E, эта функция неубывающая. В этой области производная E'(x), называемая предельным продуктом, неотрицательна.