ПРИМЕНЕНИЕ МАШИННОГО ОБУЧЕНИЯ В МАРКЕТИНГОВОЙ КАМПАНИИ В ФАКТОРИНГОВОМ БИЗНЕСЕ

Доржиев А.С.

УДК 331.101.5

А.С. ДОРЖИЕВ

ПРИМЕНЕНИЕ МАШИННОГО ОБУЧЕНИЯ В МАРКЕТИНГОВОЙ КАМПАНИИ В ФАКТОРИНГОВОМ БИЗНЕСЕ

Российский рынок факторинга имеет динамичный рост, что способствует появлению большего числа игроков. Участники вынуждены искать новые IT-решения, чтобы сохранять свои позиции в высококонкурентной среде. Представлена модель на основе методов машинного обучения, с помощью которой факторинговые организации смогут более эффективно проводить маркетинговые кампании по поиску потенциальных клиентов. При тестировании предложенная модель позволила достичь двукратного увеличения конверсии маркетинговой кампании.

Ключевые слова: машинное обучение, бинарная классификация, случайный лес, маркетинговые кампании.

The Russian factoring market has dynamic growth, which contributes to the emergence of a larger number ofplayers. Participants are forced to look for new IT solutions in order to maintain their positions in a highly competitive environment. This article presents a machine learning model that will help factoring organizations to conduct marketing campaigns forfinding leads more effectively. During testing, the proposed model allowed us to achieve a two-fold increase in the conversion of the marketing campaign.

Keywords: machine learning, binary classification, random forest, marketing campaigns.

Введение

Поиск клиентов является одной из важных задач для множества компаний. Современные отделы продаж используют таргетированную рекламу, предлагают технологии умных онлайн-контрактов [14], а также проводят маркетинговые кампании (МК) для привлечения потенциальных клиентов. Чтобы увеличить конверсию продаж, бизнес прибегает к использованию различных аналитических моделей для принятия решений, в том числе и на основе современных ^-решений [6].

Данное исследование посвящено задаче поиска клиентов на рынке факторинга методами машинного обучения.

Предлагаемая модель бинарной классификации помогает анализировать возможных клиентов и определять, кому в действительности может быть интересен факторинг. Выбирая топ лучших из возвращаемого моделью списка клиентов, ранжированного по вероятности успеха продажи данного банковского продукта, можно контактировать сразу с теми, кому в большей степени факторинг будет интересен. Таким образом, модель позволяет сосредоточить ресурсы факторинговой компании исключительно на ценных лидах, взаимодействуя с ними в первую очередь. Внедрение предлагаемой модели позволило добиться увеличения конверсии МК в два раза.

О факторинге

Факторинг представляет собой финансовый инструмент, который позволяет решить проблему возможных кассовых разрывов компании при совершении закупочных сделок [3]. Множество компаний сталкиваются с проблемой выбора порядка оплат за поставленные товары или предоставленные услуги. Некоторые находят решение в виде рассрочки, коммерческих кредитов или авансовых платежей [7]. Однако подобные решения могут привести как к потерям контрагентов из-за невыгодных условий сотрудничества, так и к проблемам, связанным с оборотными средствами самой компании. Избежать подобных трудностей позволяет факторинг, который представляет собой уступку дебиторской задолженности за денежное вознаграждение [4]. Между поставщиком и компанией, предлагающей факторинг (фактором), заключается договор, по которому последний вместо покупателя, которому нужна отсрочка платежа, предоставляет поставщику денежные средства сразу после отгрузки товара. Размер первого транша, который поставщик получает от фактора, варьируется от 70 до 95% от суммы поставки. Позже покупатель погашает задолженность уже перед фактором в установленные сроки. После того как фактор получил денежные средства от покупателя, остаток от суммы поставки за вычетом комиссии за услуги фактор направляет поставщику. Размер такой комиссии определяется как процент от суммы поставки и обычно варьируется от 0,5 до 4%, но в зависимости от условий договора и уровня благонадежности его участников фактор может изменить плату за свои услуги [9].

Привлечение факторинга дает ряд преимуществ компании на рынке и позволяет не снижать объемы поставок из-за нехватки оборотных средств при высоком спросе на производимый продукт, а также работать с контрагентами разных размеров, тем самым увеличивая сеть своих клиентов и предлагая каждому гибкие и комфортные условия оплаты поставок [4].

Российский рынок факторинга стремительно растет [2]. При этом множество компаний только знакомятся с этим финансовым инструментом, однако уже сейчас отмечается, что отечественный рынок факторинговых услуг является высококонцентрированным, с достаточно большим количеством участников [2]. Причиной может служить рост числа отраслей, в которых компании прибегают к использованию данного финансового инструмента.

Наличие такого стремительно развивающегося рынка способствует еще большему росту числа игроков, которые могут предоставлять факторинг. Конкурентная среда заставляет участников искать новые технологии, решения, методы для достижения более высоких результатов деятельности [10].

Как и в других сферах экономики, здесь также возможно применение современных ^-решений. Далее будет представлено, как с помощью анализа больших данных и машинного обучения факторинговые фирмы могут увеличить эффективность своих МК для привлечения новых клиентов.

Постановка задачи и описание данных

Цель данной работы заключается в разработке модели, которая позволи-

ла бы увеличить конверсию МК факторинговой организации. Для анализа и построения модели взяты результаты нескольких предыдущих МК, в которых была собрана информация о взаимодействии с двумя тысячами потенциальных клиентов. В качестве целевой переменной, значение которой необходимо спрогнозировать для каждого клиента, выступает его класс: профильный или непрофильный. Профильной обозначается компания, которой факторинг может быть интересен. В противном случае компания считается непрофильной. Полученные классы оказались несбалансированными: профильные занимали около 70% от всех компаний в исходной выборке. Таким образом, для планируемой модели стояла задача правильно классифицировать новые компании при последующих мероприятиях по поиску потенциальных клиентов.

Для компаний из исходного списка были подготовлены следующие дополнительные данные:

• сумма и количество входящих и исходящих платежей;

• наличие платежей от крупных торговых сетей;

• вид деятельности (код и наименование ОКВЭД);

• данные бухгалтерского баланса;

• отчет о финансовых результатах;

• отчет о целевом использовании денежных средств;

• отчет об изменениях капитала;

• отчет о движении денежных средств;

• количество плательщиков и получателей платежей.

В итоге конечные данные представляли собой таблицу, в первом столбце которой указана сама компания (на-

звание и ИНН), в последнем - целевой признак, обозначающий класс компании («профильный» или «непрофильный»). В остальных столбцах перечислены значения признаков из списка выше.

Подготовка данных для моделей машинного обучения состояла из следующих частей:

1. Замена пропущенных значений числовых признаков на 0.

2. Замена пропущенных значений категориальных признаков на дополнительную категорию "Unknown".

3. Кодирование категориальных данных.

4. Нормализация и стандартизация числовых данных.

Обработку пропущенных значений в данных можно выполнять несколькими способами. Наиболее распространенными являются замены пропущенных значений данного признака на его среднее значение и медианное значение.

В данном проекте подразумевается, что при очередной подготовке списков потенциальных клиентов для проведения МК данные для модели будут каждый раз новыми и, как следствие, новыми будут средние и медианные значения. Такое отличие между данными для обучения модели и новыми данными, на которых необходимо получить прогноз, может негативно сказаться на работе модели. Поэтому было принято решение заменять пропущенные числовые значения именно на 0, чтобы уравнять условия манипулирования данными как в случае обучения модели, так и в случае ее использования на новых данных.

Чтобы иметь возможность настраивать и проверять выбранный алгоритм машинного обучения, допол-

ненные данные были поделены на три части: для обучения, валидации и тестирования [5]. Обучающая выборка является самой большой. Ее объем составляет 60% от исходных данных. Остальные 40% поровну делятся на валидационную и тестовую выборки. В каждой выборке классы представлены в том же соотношении, что и в исходной.

Построение модели машинного обучения

Анализ данных и создание модели машинного обучения осуществлены в программном инструменте Jupyter Notebook на языке программирования Python 3.7. В качестве основного алгоритма был выбран «случайный лес», который представляет собой ансамбль из «решающих деревьев».

Принцип работы «случайного леса» заключается в том, что одновременно строятся несколько «решающих деревьев», для каждого из которых выделяется своя подвыборка из данных для обучения [8]. При этом каждая подвыборка содержит и уникальное количество признаков из исходных данных. «Решающие деревья» пытаются разбить данные в своей подвы-борке, исходя из значений признаков. В конечном счете каждое «дерево» определяет свои правила фильтрации и разделения данных по известным классам, что и является результатом работы «решающего дерева». Таким образом, агрегируя прогнозы «решающих деревьев», можно сформировать итоговый прогноз, который и будет являться результатом работы «случайного леса» [8].

Оценить работу бинарного классификатора с положительными и отри-

цательными классами можно с помощью анализа его ответов, которые разделяют на несколько групп, а именно: истинно положительные (TP), истинно отрицательные (TN), ложнополо-жительные (FP), ложноотрицатель-ные (FN). Истинно положительными или истинно отрицательными считаются ответы, которые классификатор распознал правильно - как положительные или отрицательные соответственно. Ложными - в противном случае.

С помощью данных групп ответов можно построить кривую ROC (Receiver Operating Characteristic) для оценки работы прогнозной модели. ROC отражает изменение отношения доли истинно положительных ответов среди всех ответов, классифицируемых как положительные, к доле отрицательных ответов, неправильно отнесенных к положительным, при изменении порога правила разделения классов [1]. Для численной оценки работы модели используется значение AUC (Area Under Curve), которое является площадью под графиком данной кривой. При безошибочной классификации площадь ROC кривой будет равняться единице. Плохой считается классификация, успех которой равен подбрасыванию монеты, т.е. способная дать 50% правильных ответов (метрика ROC-AUC равна 0,5).

При создании моделей машинного обучения может также возникнуть проблема переобучения, которая заключается в том, что модель фактически запоминает данные, а не старается выделить общие закономерности в них [8]. По этой причине она демонстрирует наилучшие показатели точности на обучающих данных и наихудшие на

новых, которые ей не знакомы. Решить данную проблему можно путем перекрестной проверки, при которой весь набор данных для обучения делится на несколько подвыборок одного размера, одна из которых будет использоваться для тестирования, чтобы оценивать работу алгоритма, а остальные - для обучения. Процесс повторяется несколько раз, при этом каждая из выборок используется как тестовая ровно один раз [5]. В итоге финальная оценка работы алгоритма рассчитывается как среднее оценок по каждой тестовой подвыборке.

Также в процессе создания модели важно определить оптимальные гиперпараметры для алгоритма машинного обучения. Основными гиперпараметрами «случайного леса» являются число «решающих деревьев», критерий разбиения выборки, минимальное число объектов в листе, максимальная глубина «дерева» [13]. Варьируя их значения, можно значительно улучшить прогнозную силу алгоритма классификации. В данном исследовании подбор оптимальных параметров произведен с помощью пакета Нурегор^ Процесс подбора состоит из нескольких этапов. В начале нужно задать пространство значений гиперпараметров модели машинного обучения, а также определить количество итераций поиска и описать

оптимизационную функцию [12]. Эта функция принимает на вход пространство значений гиперпараметров алгоритма, выполняет обучение модели на тренировочных данных, а также проверяет и оценивает ее работу, используя методы перекрестной проверки. На выходе функция возвращает значение, равное разности между средним значением (ц) и стандартным отклонением (о) суммы метрик АиС на обучающих и валидационных данных. Выходное значение функции, как отражено в формуле, необходимо взять со знаком минус, так как методы библиотеки Hypeгopt ищут минимум функции оптимизации:

^ = (-1) • (ц(АиС1га1п + АиСта1) -- о(ЛиС1гаЬ + АиСта1)).

Описанная формула позволяет связать значения метрик на этих двух наборах данных, сделать результаты оценки модели более стабильными и тем самым избежать факта переобучения.

Далее Hypeгopt проводит перебор указанных гиперпараметров «случайного леса», анализируя выходное значение оптимизационной функции. После 50 итераций поиска удалось определить оптимальные значения гиперпараметров, при которых достигается наибольшая точность прогнозной модели (табл. 1).

Таблица 1

Оптимальные гиперпараметры

Гиперпараметр Значение

Число «решающих деревьев» 100

Критерий разбиения выборки Энтропия

Минимальное число объектов в листе 25

Максимальная глубина «дерева» 3

После того как оптимальные гиперпараметры определены, необходимо отсечь лишние признаки, которые не влияют на итоговый результат. Процесс отбора также состоит из нескольких частей. На первом этапе выбирается топ-10 наиболее важных признаков с помощью встроенного метода feature_importance в РуШоп-реализации алгоритма «случайного леса» [13]. Данный метод позволяет получить готовую таблицу, в которой приведены сами признаки и значения, отражающие влияние этих признаков на прогноз модели. По этой таблице и определяется топ-10 наиболее важных признаков.

Затем модель строится на найденном топ-10. Фиксируется начальное значение метрики на этих признаках. Далее в модель поочередно добавляются оставшиеся признаки и анализируется изменение наблюдаемой метрики. В случае если ее новое значение больше того, которое получено в начале, то добавленный признак сохраняется в модели, иначе - исключается из нее. В итоге получаем только те признаки, которые позволяют классификатору добиться наибольшей точности.

Таким образом, первоначальная версия модели на полном наборе признаков с гиперпараметрами по умолчанию достигла значения ROC-AUC, равного 0,68. Обучение алгоритма с найденными оптимальными гиперпараметрами дало существенный прирост в точности: ROC-AUC стал равным 0,77. Финальная версия, в которой, помимо использования оптимальных гиперпараметров, осуществлен также и отбор ключевых признаков, достигла максимального значения точности в рамках данного исследования: 0,78.

Результаты внедрения модели

Основная цель модели состоит в том, чтобы при анализе потенциальных клиентов иметь возможность на раннем этапе выявлять среди них только те компании, которым факторинг может быть интересен. Такие клиенты являются релевантными. Представленная модель позволяет исключать нерелевантных клиентов из маркетинговых программ и концентрировать ресурсы и время на более ценных лидах.

Анализ применимости модели осуществлялся на отложенной тестовой выборке, состоящей из 370 компаний, для которых также известны результаты МК, которая была проведена до внедрения рассмотренной модели машинного обучения. Успешность МК оценивается с помощью величины конверсии, которая является отношением количества продаж к размеру выборки.

Модель «случайного леса» помогла классифицировать клиентов данной выборки. В качестве выходных данных модели можно получить значения условной вероятности отнесения компаний к классу релевантных клиентов [8]. Эти данные сортируются по уменьшению указанной вероятности, что позволяет из полученного ранжированного списка выбрать топ-10%, -20%, -30% клиентов.

Результаты моделирования взаимодействия исключительно только с представителями указанных топ-выборок приведены в табл. 2. Для сравнения результатов МК, проводимых до и после внедрения рассматриваемой прогнозной модели, введена величина Uplift, которая показывает, во сколько раз конверсия при использовании модели больше, чем без нее.

Таблица 2

Конверсия на разных топ-выборках

Топ клиентов, % Uplift

10 3,3

20 2,2

30 1,7

Как видно из табл. 2, представленная модель на основе «случайного леса» позволила увеличить конверсию продаж в среднем в два раза.

Выводы

Таким образом, анализ данных и машинное обучение позволяют создавать полезные инструменты и для рынка факторинга [11]. В рамках данного исследования была представлена модель для определения ре-

левантных лидов, которая позволяет факторинговым компаниям не тратить время и ресурсы на потенциальных клиентов, которые в силу формата своего бизнеса или возможностей не заинтересованы в факторинге. Как показали результаты тестирования, внедрение модели позволит проводить маркетинговые кампании более эффективно, акцентируя внимание только на тех, кому действительно может быть интересен данный вид финансовых услуг.

ЛИТЕРАТУРА

1. Анализ данных в экономике. Теория вероятностей, прикладная статистика, обработка и визуализация данных в Microsoft Excel: учеб. М.: Кнорус, 2018. 87 с.

2. Антон Мусатов. ВТБ Факторинг: «Рынок факторинга в России вырастет в три раза» // ВТБ Факторинг. URL: https://www.forbes.ru/brandvoice/vtb/414495-anton-musatov-vtb-faktoring-rynok-faktoringa-v-mssii-vymstet-v-tri-raza (дата обращения: 20.12.2020).

3. Глущенко Т.Е., Буш В.Г., Ходаринова Н.В. Факторинг как инструмент учета и управления дебиторской задолженностью современного предприятия // Экономика и предпринимательство. 2019. № 1. С. 915-920.

4. Косов М.Е. Факторинг как инструмент финансирования малого и среднего бизнеса// Финансовая аналитика: проблемы и решения. 2019. Т. 12, № 1. С. 57-71.

5. Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python. М.: ДМК Пресс, 2016.

6. Никонов А.А., Стельмашонок Е.В. Анализ внедрения современных цифровых технологий в финансовой сфере//Научно-технические ведомости Санкт-Петербургского государственного политехнического университета. Серия «Экономические науки». 2018. Т. 11, № 4.

7. Панова Е.А. Применение факторинга малыми и средними предприятиями и влияние на него развития информационных технологий // Государственное управление: электронный вестник. 2020. № 80.

8. Рашка С. Python и машинное обучение. М.: ДМК Пресс, 2017.

9. Факторинг. Краткий путеводитель для российских компаний // Центральный банк Российской Федерации. URL: https://www.cbr.ru/Content/Document/File/96402/factoring.pdf (дата обращения: 20.12.2020).

10. Caniato F., Henke M, Zsidisin G.A. Supply chain finance: Historical foundations, current research, future developments. 2019.

^ш

11. HungJ.L, He W, ShenJ. Big data analytics for supply chain relationship in banking // Industrial Marketing Management. 2020. Т. 86. P. 144-153.

12. Hyperopt Documentation // Hyperopt. URL: https://hyperopt.github.io/hyperopt/ (дата обращения: 10.03.2021).

13. Random Forest Classifier // Scikit Learn. URL: https://scikit-learn.org/stable/modules/ generated/sklearn.ensemble.RandomForestClassifier.html (дата обращения: 10.03.2021).

14. Zheng K, Zhang Z, Gauthier J. Blockchain-based intelligent contract for factoring business in supply chains // Annals of Operations Research. 2020. P. 1-21.

ПРИМЕНЕНИЕ МАШИННОГО ОБУЧЕНИЯ В МАРКЕТИНГОВОЙ КАМПАНИИ В ФАКТОРИНГОВОМ БИЗНЕСЕ Текст научной статьи по специальности «Экономика и бизнес»

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Доржиев А.С.

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Доржиев А.С.

APPLICATION OF MACHINE LEARNING IN A MARKETING CAMPAIGN OF A FACTORING BUSINESS

Текст научной работы на тему «ПРИМЕНЕНИЕ МАШИННОГО ОБУЧЕНИЯ В МАРКЕТИНГОВОЙ КАМПАНИИ В ФАКТОРИНГОВОМ БИЗНЕСЕ»