6. Koenen K. C., Amstadter A. B., Nugent N. R. Gene-environment interaction in posttraumatic stress disorder: An update // Journal of traumatic stress. - 2009. - Vol. 22. №. 5. - Pp. 416-426.
7. Ahmed-Leitao F. et al. Posttraumatic stress disorder, social anxiety disorder and childhood trauma: Differences in hippocampal subfield volume // Psychiatry Research: Neuroimaging. - 2019. - Vol. 284. - Pp. 45-52.
8. Czeh B., Lucassen P. J. What causes the hippocampal volume decrease in depression? // European archives of psychiatry and clinical neuroscience. - 2007. - Vol. 257. № 5. - Pp. 250-260.
9. Bluhm R. L. et al. Alterations in default network connectivity in posttraumatic stress disorder related to early-life trauma // Journal of psychiatry & neuroscience: JPN. -2009. - Vol. 34. №. 3. - P. 187.
10. Ellenbogen M. A. et al. Stress and selective attention: The interplay of mood, cortisol levels, and emotional information processing // Psychophysiology. - 2002. - Vol. 39. №. 6. - Pp. 723-732.
11. Preston S. D. et al. Effects of anticipatory stress on decision making in a gambling task // Behavioral neuroscience. - 2007. - Vol. 121. №. 2. - P. 257.
12. Kalin N. H. et al. Asymmetric frontal brain activity, cortisol, and behavior associated with fearful temperament in rhesus monkeys // Behavioral neuroscience. - 1998. -Vol. 112. №. 2. - P. 286.
13. Buss K. A. et al. Right frontal brain activity, cortisol, and withdrawal behavior in 6-month-old infants // Behavioral neuroscience. - 2003. - Vol. 117. №. 1. - P. 11.
14. Davidson R. J., Fox N. A. Frontal brain asymmetry predicts infants' response to maternal separation // Journal of abnormal psychology. - 1989. - Vol. 98. №. 2. - P. 127.
15. Schore A. N. Dysregulation of the right brain: a fundamental mechanism of traumatic attachment and the psychopathogenesis of posttraumatic stress disorder //Australian & New Zealand Journal of Psychiatry. - 2002. - Vol. 36. №. 1. - Pp. 9-30.
УДК 004.424
doi:10.18720/SPBPU/2/id21 -360
Паклин Николай Борисович1,
канд. техн. наук, доцент; Кацко Игорь Александрович1, д-р экон. наук, профессор; Кремянская Елена Владимировна^,
канд. экон. наук, доцент
МОДЕЛИРОВАНИЕ LTV ПОДПИСЧИКА САЙТА С ИСПОЛЬЗОВАНИЕМ LOW-CODE ПЛАТФОРМЫ LOGINOM
1 Россия, Москва, РЭУ им. Г.В. Плеханова, Paklin.NB@rea.ru;
2 3
' Россия, Краснодар, ФГБОУ ВО «Кубанский ГАУ им. И.Т.
Трубилина»,
2 3
ingward@mail.ru, kreml3010@mail.ru
Аннотация. Настоящая статья посвящена разработке методики оценки стоимости жизни клиента (LTV — Life Time value), посещающего определенный сайт. Для упрощения процесса ETL (Extraction, Transformation, Loading) предлагается
использование low-code подхода, реализованного в аналитической платформе Loginom. В качестве базовой модели прогнозирования профиля клиента используется модель регрессии Кокса. Предлагаемый подход оценки LTV подписчика сайта при обновлении данных позволяет получить хорошо интерпретируемый прогноз профиля каждого клиента и встроить модель в конвейер таргетирования.
Ключевые слова, оценка, LTV, ETL, регрессия Кокса, прогнозирование, профиль клиента.
Nikolay B. Paklin \
Associate Professor, Candidate of Technical Sciences;
Igor A. Katsko2, Doctor of Economics, Professor;
Elena V. Kremyanskaya 3, Associate Professor, Candidate of Economic Sciences
MODELING THE LTV OF A SITE SUBSCRIBER WITH USING THE LOW-CODE LOGINOM PLATFORM
1 Plekhanov Russian University of Economics, Moscow, Russia,
Paklin.NB@rea.ru;
"Kuban State University named after I. T. Trubilin", Krasnodar, Russia,
2 3
ingward@mail.ru, kreml3010@mail.ru
Abstract. This article is devoted to the development of a methodology for estimating the cost of living of a client (LTV - Life Time value) visiting a certain site. To simplify the ETL process (Extraction, Transformation, Loading), it is proposed to use a low-code approach implemented in the Loginom analytical platform. The Cox regression model is used as the basic model for predicting the client's profile. The proposed approach of evaluating the LTV of a site subscriber when updating data allows you to quickly get a new forecast of each client's profile and embed the model in the targeting pipeline.
Keywords, estimation, LTV, ETL, Cox regression, forecasting, client profile.
Введение
Настоящая статья посвящена решению одной из задач персонализированного маркетинга — разработке методики оценки стоимости жизни клиента, посещающего определенный сайт, для формирования индивидуальных продуктов и услуг, предотвращающих отток клиентов, что значительно дешевле привлечения новых клиентов [1-7, 10, 11, 15, 17, 18, 20]. Около 90 % времени в процессе построения модели, от сбора данных до использования, занимает процесс ETL (Extraction, Transformation, Loading) [5, 11]. Для упрощения процесса моделирования предлагается использование low-code подхода (не требующего кодирования), реализованного в аналитической платформе Loginom, включающей такие возможности объектно-ориентированного и функционального моделирования как наследование и подмодели [12].
Анализ событий, развивающихся во времени рассматривается во многих областях человеческой деятельности. Данные подобного рода изучаются в медицине, экономике, технике, биологии, демографии, страховании, промышленности [8, 9]. Последние годы интерес к подобного рода исследованиям возник в e-маркетинге [17, 18, 20]. Накопление больших объемов информации на сайтах различных маркетплейсов (платформ электронной коммерции) сегодня привело к пониманию возможности использования данных для повышения прибыли, путем выделения для распространения рекламы целевой аудитории, которая удовлетворяет определенным механизмам (таргетирование). Привлечение новых клиентов может в 5-10 раз стоить дороже, чем удержание существующих, кроме того вероятность продать новым клиентам чем существующим свои товары и услуги в несколько раз ниже [17, 18].
В последнее время при рассмотрении алгоритмического маркетинга возник (вернулся) повышенный интерес к базовым (параметрическим) статистическим моделям, которые строятся на интуитивно понятных предположениях. В нашем случае, для прогнозирования профиля клиента предлагается использование моделей выживаемости [18, 19].
1. Обзор существующих решений
Анализ клиентской базы с целью выявления оттока клиентов, прогнозирования поведения клиентов предполагает рассмотрение скрытого истощения совокупности клиентов или оценку роли маркетинга [18, 20].
Обычно модели, характеризующие отток клиентов (истощение клиентской базы) не отражают влияние роли маркетинга и наоборот модели маркетинговых воздействие не учитывают отток клиентов.
Включение в структуру модели истощения ковариат, зависящих от времени позволяет объединить модель истощения совокупности клиентов и модель оценки роли маркетинга в одну схему, что кроме всего прочего позволит маркетингу влиять на выживаемость клиентов [17].
Сегодня считается, что метрика LTV — жизненная ценность клиента самый важный показатель для практического использования, которая позволяет сегментировать клиентов для встраивания в конвейер таргети-рования. LTV формируется на основе среднего чека, частоты покупок, валовой маржи, коэффициента оттока (основные KPI). Фактически можно сформулировать многокритериальную задачу о максимизации прибыли при изменении влияния указанных показателей KPI на ценность клиента [7].
Рассмотрение методики прогнозирования LTV в ритейле, сфере питания, сфере услуг и е-маркетинге приводит к различным нормам при-
были и используемым показателям. Так для оценки LTV подписчика сайта требуется ввести нижеследующие термины и понятия.
^ Подписчик — пользователь конкретного сайта, идентифицируемый по PID.
^ Стрим — поток данных, генерируемый в отношении подписчика (отправка писем), а также поток данных, формируемый действиями самого подписчика (открытие письма, клик и т. д.).
^ Дата актуальности — по отношению к стриму, поток данных, совершенный до даты (не включая день даты актуальности). Например, на дату актуальности «01.02.2021» рассматриваются весь поток данных подписчиков, полученный по 31.01.2021 включительно.
> Не-кликер — подписчик относится на дату актуальности к сегменту «Не-кликер», если он не произвел ни одного клика.
> Кликер — подписчик относится на дату актуальности к сегменту «Кликер», если он произвел хотя бы один клик.
> LTV — совокупная ценность подписчика сайта, выраженная в числе кликов. По умолчанию под ней понимается будущая ценность, то есть LTV для некоторого будущего промежутка времени. Может принимать дробные значения.
С учетом введенных понятий прогнозируемая совокупная ценность i-го подписчика LTVtl в момент времени t зависит от ожидаемого числа
кликов Clicki и вероятности остаться активным подписчиком P{ к периоду t:
LTVi = Clicki • P!. (1)
Общая ценность i-го подписчика (в рамках веб-сайта) определяется как сумма по всем периодам:
LTV = ¿11 LTVi (2)
где Ki - ожидаемое «время жизни» клиента.
Значения Clicki, Pf, Ki оцениваются на исторических данных.
Известно несколько подходов к оценке выживаемости клиентов — логистическая регрессия (используемая для линейно разделимых классов), деревья решений (используемая для линейно не разделимых классов) [3, 7, 11]. Однако, несмотря на то, что «не существует истинной модели объектов реального мира» [10], мы считаем, что следует опираться на содержательные теории (модели), реализующие понимание механизма прогнозирования выживаемости (оттока) клиентов. Возникновение эффекта «понимания» непосредственно связано с ростом уровня аналитической культуры населения. Приемлемый уровень аналитической культуры, который позволяет говорить о принятии идеи управления на осно-
ве данных (data driven) лежит между полным неприятием использования данных и «датаизмом» (абсолютизацией данных в процессах принятия решений, исключающей участие человека) [16]. Важным фактором, позволившим осознать это, является тренд интерпретируемости моделей машинного обучения (Machine Learning — ML), который практически свел сложные модели ML к линейным (в локальной области), что являются лейтмотивом прикладной статистики [6]. Таким образом, тренд машинного обучения, появившийся 1960-е годы на волне статистической идеи бутстреп-метода (идеи размножения выборки для получения устойчивых оценок) почти через 60 лет опять вернулся к интерпретируемым статистическим моделям (возможно еще одно подтверждение больших циклов Кондратьева, но уже в анализе данных) [4].
В рассматриваемом контексте настоящая статья посвящена использованию при прогнозировании LTV (customer lifetime value) подписчика сайта классической модели — регрессии Кокса, традиционно, относящейся в статистике к методам выживаемости [8, 9, 19]. С ориентацией предобработки (ETL — процесса) на Low-code платформу Loginom (https://loginom.ru/platform).
2. Разработанная методика
Методика оценивает будущую совокупную ценность каждого подписчика сайта (LTV) в кликах. Данная оценка представляет собой потенциал, который имеется у подписчика, и формируется на индивидуальном уровне подписчика на основе его прошлых данных и статистических либо machine learning моделей. Этот потенциал может быть реализован только при условии воздействия на подписчика путем отправки ему электронных писем. Предполагается, что интенсивность воздействия (частота отправки и количество писем) будет сохранена примерно на прежнем уровне. Методика подразумевает построение и последующей использование отдельных моделей, рассчитывающих прогнозные LTV для сегментов «Кликер» и «Не-кликер». Для каждого сайта необходимо строить собственные модели. Модели требуется актуализировать (перестраивать) каждый месяц с учетом новых данных.
Рис. 1. Сегментация подписчиков сайта
Оценка LTV для сегмента кликеров производится на 12 месяцев вперед с разбивкой по месяцам. Оценка LTV для сегмента не-кликеров производится только на 1 месяц вперед. Как только не-кликер совершит свой первый клик, со следующего месяца он получит оценку LTV на 12 месяцев, так как будет отнесен к другому сегменту.
Прогнозируемая совокупная ценность i-го подписчика LTVtl в момент времени t зависит от ожидаемого числа кликов Clicklt и вероятности остаться активным подписчиком Р/ к периоду t:
LTVj = Click] ■ Pj. (3)
Общая ценность i-го подписчика (в рамках веб-сайта) определяется как сумма по всем периодам:
LTV =¿=1LTV; , (4)
где Ki — ожидаемое «время жизни» клиента.
Значения Click't, Р/, Ki оцениваются на исторических данных.
При описанном подходе формируется двумерный вектор возможных ошибок при оценке LTV:
E = e e2). (5)
где ej — ошибка, связанная с прогнозированием вероятности оставаться активным подписчиком до периода t - Pt, e2 — ошибка, связанная с прогнозированием количества кликов в период t.
Клиентский капитал CC есть общая сумма всех будущих совокупных ценностей всех подписчиков веб-сайта:
CC = ^п1=1 LTVi. (6)
Из клиентского капитала CC вероятно, следует вычитать подписчиков, которые отписались, а также подписчиков, от которых длительное время нет стрима.
Влияние ошибок ослабевает на агрегированном уровне оценки клиентского капитала и увеличивается на детализированном уровне оценки LTV отдельного подписчика.
2.1. Low-code платформа Loginom
Алгоритм для сегмента «Кликер»
Расчет состоит из двух шагов: построение модели и получение прогнозов.
Шаг «Построение модели»
Для построения модели требуется сформировать обучающую выборку. Выделим два временных периода — период накопления (sample window) и и период наблюдения (performance window), в котором фиксируется период времени до события (time-to event). Период наблюдения равен 12 месяцам. Тогда прогнозы LTV будут формироваться на 12 месяцев вперед. Этот период можно сокращать или увеличивать, но рекомендуется брать именно 12 месяцев. Анализ данных показал, что только 15 % подписчиков проявляют активность после года, поэтому расширять период длиннее 12 месяцев не имеет объективных причин.
Date of relevance 1 Date of relevance 2
Accumulation period
Observation period
Start subscriber ac- Subscriber profile Subscriber profile
tions as of date 1 as of date 2
Рис. 2. Сегментация подписчиков сайта
Рис. 3. Сценарий предобработки исходных файлов
Рис. 4. Подмодель «Слияние»
Рис. 5. Подмодель «Сэмплинг»
Формирования профиля подписчика
Алгоритм сегментации
Исходная выборка делится на 6 сегментов. Если подписчик принадлежит одновременно нескольким сегментам б1,...,85, ему назначается последний сегмент, в котором сработало правило.
Если подписчик не попал ни в один сегмент s1,...,s5, то он признается «нормальным», и ему присваивается сегмент main.
Рис. 6. Сегментация подписчиков 2.2. Модель оценки выживаемости клиента
Как было сказано выше анализ событий, развивающихся во времени имеет давнюю историю, прежде всего, в медицине, и был разработан для оценки продолжительности жизни в том числе, подвергшихся цензуре справа (когда нет возможности проследить продолжительность их жизни за пределами измерения). Статистическая идеология анализа выживаемости позволяет оценить продолжительность выживаемости как в случае цензуры, так и без нее. В анализе выживаемости вводится функция надежности (выживаемости):
£ (*) = Р(Т > *) = ехр(-Н (*)),
где Н^) = -[ ^2^ — функция совокупного риска, » 0
Ъ(г) = —— — функция интенсивности (отказа). )
Логарифм функции риска, рассматриваемый как линейная функция ковариат и логарифма базового риска, зависящего от времени, имеет название модели пропорциональных рисков Кокса (регрессии Кокса):
ln(h(t / x)) = ln(b,(t)) + ±b (x - x)
i=1
Для сегмента «Кликер» используется класс статистических моделей выживания регрессия Кокса с набором независимых ковариат. (survival analysis [21]).
Анализ событий, развивающихся во времени, рассматривается во многих областях человеческой деятельности. Данные подобного рода изучаются в медицине, экономике, технике, биологии, демографии, страховании, промышленности. В последние годы растет популярность регрессии Кокса как инструмента анализа развивающихся во времени событий.
3. Эксперимент
3.1. Характеристика данных
Методика разрабатывалась и апробировалась на данных по двум сайтам.
Особенности наборов данных:
1. Среди подписчиков присутствуют боты с аномально интенсивным поведением.
2. После явного отписывания клиента, его поток данных в ряде случаев может не прекращаться. Это может быть связано с попытками реактивации подписчика.
3. В определенный момент подписчику прекращает идти поток писем, соответственно, его поведение становится для исследователя неизвестным. Есть общее правило, что письма перестают отправляться после 60-дневного бездействия подписчика.
3.2. Результаты применения разработанной методики
Матрицы ценности
Для формирования стратегий рассылок рекомендуется сводить прогнозы в матрицы ценности с измерениями Дней с последнего действия — LTV прогнозный (матрица частот, табл.1) и LTV исторический — LTV прогнозный (матрица сопряженности, табл. 2).
Таблица 1
Количество дней с последнего действия - LTV прогнозный (кликеры)
Дней с последнего действия ЬТУ Прогноз Итого:
0 от 0 до 2 от 2
до 4 5 665 15 794 19 324 40 783
от 4 до 334 30 970 6 461 5 226 42 657
от 334 32 580 4 658 4 582 41 820
Итого: 69 215 26 913 29 132 —
Таблица 2 Матрица сопряженности LTVисторический - LTVпрогнозный (кликеры)
LTV исторический Прогноз Итого:
0 от 0 до 2 от 2
< 2 31 846 9 067 198 41 111
от 2 до 6 26 155 10 702 5 293 42 150
от 6 11 214 7 144 23 641 41 999
Итого: 69 215 26 913 29 132 —
Для выбора границ интервалов измерений матрицы рекомендуется использовать метод разбиения с выбором примерно равного числа подписчиков, попадающих в каждый интервал.
На основании этих матриц для сегмента кликеров можно отбирать сегменты подписчиков, обладающих наибольшим потенциалом, как активных, так и «спящих», то есть кандидатов для реактивационных рас-сылок.
В сегменте «не-кликеров» для рассылок рекомендуется отбирать Л подписчиков из списка, упорядоченного по убыванию вероятности клика. Параметр N определяется исходя из доступных ресурсов для рас-сылок и других ограничений.
Параллельно рекомендуется формировать небольшую тестовую группу с подписчиками, отобранными случайным образом либо по каким-то экспертным правилам. По итогам каждого месяца проводить сравнение среднего числа кликов в контрольной и тестовой группах, фиксируя разницу как прирост, который дают предсказательные модели (А/В -тестирование).
Заключение
В настоящей статье был предложен алгоритм анализа клиентской базы на основании использования метрики LTV — жизненной ценности клиента, которая позволяет сегментировать клиентов для встраивания в конвейер таргетирования. Модель позволяет учитывать роль маркетинга с использованием ковариат, зависящих от времени, делать прогноз выживаемости клиента и влиять на него. Существенным отличием от известных моделей является комплексное использование ETL — процесса в Low-code в платформе Loginom (без использования, например, библиотеки Python, Pandas) и регрессии Кокса из библиотеки Lifelines (Python). Несмотря на полученные хорошие результаты моделирования (при необходимости), в рамках предлагаемой методики, вполне возможно использование ансамбля моделей, использующих все известные подходы: регрессию Кокса, деревья решений и логистическую регрессию.
В ходе проведенного исследования были получены следующие выводы.
1. Модели для сегментов «Кликеров» и «Не-кликеров» рекомендуется актуализировать ежемесячно, первого числа каждого месяца.
2. Для оптимизации вычислений рекомендуется делать инкремент-ный расчет и хранить только текущий и два предыдущих профиля подписчиков, а сгруппированные клики по месяцам и количество отправленных писем по месяцам — сохранять всю историю.
3. Для построения моделей для обоих сегментов («Кликер», «Не-кликер» необходимо иметь три профиля: профиль на последнюю актуальную дату — для получения прогнозов; профиль на дату 12 месяцев назад — для формирования обучающей выборки модели сегмента «Кли-кер»; профиль на дату 1 месяц назад — для формирования обучающей выборки модели сегмента «Не-кликер».
4. При наличии прошлого профиля и новых стримов, путем инкре-ментного расчета можно получить новый профиль, что сокращает объем вычислений.
5. Для сравнения прогнозов и исторических данных рекомендуется использовать профили с лагом два месяца.
Список литературы
1. Брайтон С., Куц Дж. Анализ данных в науке и технике. - М.: ДМК Пресс, 2021. - 542 с.
2. Волкова В.Н. Моделирование систем и процесов / В.Н. Волкова, Г.В. Горелова, В.Н. Козлов и др. - М.: «Юрайт», 2016. - 450 с.
3. Груздев А.В. Прогнозное моделирование в IBM SPSS Statistics, R и Python: метод деревьев решений и случайный лес. - М.: ДМК Пресс, 2018. - 642 с.
4. Зыков Р. Роман с Data Science. Как монетизировать большие данные. - СПб.: Питер, 2021. - 320 с.
5. Кацко И.А., Паклин Н.Б. Практикум по анализу данных на компьютере: Учеб. пособие для вузов. - М.: КолосС, 2009. - 278 с.
6. Кацко И.А., Бондаренко П.С., Горелова Г.В. Теория вероятностей и математическая статистика. - М.: Кнорус, 2020. - 800 с.
7. Кацов И. Машинное обучение для бизнеса и маркетинга. - СПб.: Питер, 2019. - 512 с.
8. Кокс Д., Оукс Д. Анализ данных типа времени жизни. - М.: Финансы и статистика, 1988. - 191 с.
9. Кокс Д. Теоретическая статистика. - М.: Мир, 1978. - 560 с.
10. Нильсен Э. Практический анализ временных рядов: прогнозирование со статистикой и машинное обучение. - СПб.: Диалектика, 2021. - 544 с.
11. Паклин Н., Орешков В. Бизнес-аналитика. От данных к знаниям. - СПб.: Питер, 2012. - 706 с.
12. Рамбо Дж., Блаха М. UML 2.0 Объектно-ориентированное моделирование и разработка. - 2-е изд. - СПб.: Питер, 2007. - 544 с.
13. Рассел С., Норвиг П. Искусственный интеллект: современный подход, 4-е изд., том 1. Решение проблем: знания и рассуждения. - СПб.: Диалектика, 2021. - 704 с.
14. Плас Дж. Python для решения сложных задач: наука о данных и машинное обучение. - СПб.: Питер, 2021. - 576 с.
15. Уэйд Р. Аналитика в Power BI с помощью R и Python. - М.: ДМК Пресс, 2021. - 338 с.
16. Харари Ю.Н. Homo deus. Краткая история будущего. - М.: Синдбад, 2018. -496 с.
17. Schweidel D., Knox G. Incorporating Direct Marketing Activity into Latent Attrition Models. // Marketing Science. Vol. 32, No. 3 (May-June 2013). - Pp. 471-487.
18. Junxiang Lu. Modeling Customer Lifetime Value Using Survival Analysis -An Application in the Telecommunications Industry. [Electronic source] // SUGI 28. Data Mining Techniques. Paper 120-28. - URL: https://support.sas.com/resources/papers/proceedings/proceedings/sugi28/120-28.pdf (date of access: 21.08.2021).
19. Lifelines. - URL: www. https: https://lifelines.readthedocs.io/en/latest/ (date of access: 21.08.2021).
20. Fader P.S., Hardie B. G. S., Shang Jen. Customer-Base Analysis in a Discrete Time Noncontractual Setting. // Marketing Science. - 29(6). - 2010. - Pp. 1086-1108. D0I:10.2139/ssrn.1373469.
21. Survival analysis. - URL: https://en.wikipedia.org/wiki/Survival_analysis (дата обращения: 10.08.2021).