Научная статья на тему 'МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ИДЕНТИФИКАЦИИ ПОТЕНЦИАЛЬНО УХОДЯЩИХ АБОНЕНТОВ НА ПРИМЕРЕ ТЕЛЕКОММУНИКАЦИОННОЙ КОМПАНИИ TELE2'

МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ИДЕНТИФИКАЦИИ ПОТЕНЦИАЛЬНО УХОДЯЩИХ АБОНЕНТОВ НА ПРИМЕРЕ ТЕЛЕКОММУНИКАЦИОННОЙ КОМПАНИИ TELE2 Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
453
76
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕКОМЕНДАТЕЛЬНАЯ СИСТЕМА / МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ / ЭЛЕКТРОННАЯ КОММЕРЦИЯ / УХОДЯЩИЕ АБОНЕНТЫ / НАИВНЫЙ БАЙЕСОВСКИЙ КЛАССИФИКАТОР / ДЕРЕВО РЕШЕНИЙ / ГРАДИЕНТНЫЙ БУСТИНГ ДЕРЕВЬЕВ РЕШЕНИЙ / СЛУЧАЙНЫЙ ЛЕС / ТЕЛЕКОММУНИКАЦИОННАЯ КОМПАНИИ / KNIME ANALYTICS PLATFORM / RECOMMENDATION SYSTEM / MACHINE LEARNING MODELS / E-COMMERCE / OUTGOING SUBSCRIBERS / NAïVE BAYESIAN CLASSIFIER / DECISION TREE / GRADIENT BOOSTING OF THE DECISION TREE / RANDOM FOREST / TELECOMMUNICATIONS COMPANY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кремкова Дарья Дмитриевна, Сафонов Иван Андреевич

Статья посвящена анализу доработок рекомендательной системы, используемой в телекоммуникационной сфере. В материале рассматриваются тенденции развития современных систем, формирующих рекомендации для увеличения аудитории в электронной коммерции. С использованием моделей машинного обучения, таких как наивный Байесовский классификатор, дерево решений, градиентный бустинг деревьев решений, случайный лес, на платформе Knime Analytics Platform был проведен анализ данных об использовании абонентских услуг клиентами. Авторами были изучены способности моделей к предсказанию уходящих абонентов. На основании полученных данных была доказана эффективность применения некоторых моделей машинного обучения для выявления абонентов, готовых уйти от оператора связи, и предложения им специальных услуг, способных повлиять на их окончательное решение и уменьшить отток аудитории телекоммуникационной компании.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кремкова Дарья Дмитриевна, Сафонов Иван Андреевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MACHINE LEARNING MODELS FOR IDENTIFYING POTENTIAL OUTGOING SUBSCRIBERS USING THE EXAMPLE OF THE TELECOMMUNICATIONS COMPANY TELE2

The article is devoted to the analysis of improvements to the recommendation system used in the telecommunications sector. The article discusses the trends in the development of modern systems that form recommendations for increasing the audience in e-Commerce. Using machine learning models such as the naive Bayesian classifier, decision tree, gradient boosting of the decision tree, random forest, the Knime Analytics Platform analysed data on the use of subscription services by customers. The authors studied the models’ abilities to predict outgoing subscribers. Based on the data obtained, we have proved the effectiveness of using some machine learning models to identify subscribers who are ready to leave the Telecom operator. We offer them special services that can influence their final decision and reduce the outflow of the telecommunications company’s audience.

Текст научной работы на тему «МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ИДЕНТИФИКАЦИИ ПОТЕНЦИАЛЬНО УХОДЯЩИХ АБОНЕНТОВ НА ПРИМЕРЕ ТЕЛЕКОММУНИКАЦИОННОЙ КОМПАНИИ TELE2»

оригинальная статья

УДК 004.048(045)

© Кремкова Д. Д., Сафонов И. А., 2020

Модели машинного обучения для идентификации потенциально уходящих абонентов на примере телекоммуникационной компании Те1е2

Дарья Дмитриевна Кремкова, студентка факультета прикладной математики и информационных технологий, Финансовый университет, Москва, Россия Darya D. Kremkova, student, Faculty of Applied Mathematics and Information Technology, Financial University, Moscow, Russia darja-kremkova@mail.ru

Иван Андреевич Сафонов, студент факультета прикладной математики и информационных технологий, Финансовый университет, Москва, Россия Ivan A. Safonov, student, Faculty of Applied Mathematics and Information Technology, Financial University, Moscow, Russia ivan_safonov3@mail.ru

аннотация

Статья посвящена анализу доработок рекомендательной системы, используемой в телекоммуникационной сфере. В материале рассматриваются тенденции развития современных систем, формирующих рекомендации для увеличения аудитории в электронной коммерции. С использованием моделей машинного обучения, таких как наивный Байесовский классификатор, дерево решений, градиентный бустинг деревьев решений, случайный лес, на платформе Knime Analytics Platform был проведен анализ данных об использовании абонентских услуг клиентами. Авторами были изучены способности моделей к предсказанию уходящих абонентов. На основании полученных данных была доказана эффективность применения некоторых моделей машинного обучения для выявления абонентов, готовых уйти от оператора связи, и предложения им специальных услуг, способных повлиять на их окончательное решение и уменьшить отток аудитории телекоммуникационной компании. Ключевые слова: рекомендательная система; модели машинного обучения; электронная коммерция; уходящие абоненты; наивный Байесовский классификатор; дерево решений; градиентный бустинг деревьев решений; случайный лес; телекоммуникационная компании; Knime Analytics Platform

Для цитирования: Кремкова д. д., сафонов И. А. Модели машинного обучения для идентификации потенциально уходящих абонентов на примере телекоммуникационной компании Tele2. Научные записки молодых исследователей. 2020;8(5):54-64.

Научный руководитель: Сахнюк П.А., кандидат технических наук, доцент, доцент кафедры «Бизнес-информатика», Финансовый университет, Москва, Россия / Scientific supervisor: Sakhnyuk P.A., Candidate of Technical Sciences, Associate Professor, Department of Business Informatics, Financial University, Moscow, Russia.

original paper

Machine Learning Models for Identifying Potential outgoing subscribers Using the Example of the Telecommunications Company Tele2

abstract

The article is devoted to the analysis of improvements to the recommendation system used in the telecommunications sector. The article discusses the trends in the development of modern systems that form recommendations for increasing the audience in e-Commerce. Using machine learning models such as the naive Bayesian classifier, decision tree, gradient boosting of the decision tree, random forest, the Knime Analytics Platform analysed data on the use of subscription services by customers. The authors studied the models' abilities to predict outgoing subscribers. Based on the data obtained, we have proved the effectiveness of using some machine learning models to identify subscribers who are ready to leave the Telecom operator. We offer them special services that can influence their final decision and reduce the outflow of the telecommunications company's audience. Keywords: recommendation system; machine learning models; e-Commerce; outgoing subscribers; naïve Bayesian classifier; decision tree; gradient boosting of the decision tree; random forest; telecommunications company; Knime Analytics Platform

For citation: Kremkova D. D., Safonov I. A. Machine learning models for identifying potential outgoing subscribers using the example of the telecommunications company Tele2. Nauchnye zapiski molodykh issledovatelei = Scientific notes of young researchers. 2020;8(5):54-64.

Введение

Рыночные отношения - основа существования мирового сообщества, трансформация которой побуждает к исследованиям закономерностей данного развития. При этом бизнес повсеместно растет и развивается, о чем свидетельствует увеличение товарооборота между странами, как, например, рост на 12% товарооборота между Россией и государствами - членами Евразийского экономического союза в 2019 г.1

Поскольку конкуренция во всех сферах производства товаров и услуг достаточно сильна, то за каждого потребителя приходится бороться. Покупатели становятся избирательнее в своем выборе, чаще сравнивают предложения из-за высокой доступности информации о товарах и услугах разных производителей, обращают внимание на сопутствующие бонусы. Старые методы привлечения, такие

1 Национальный проект. Международная кооперация и экспорт. URL: http://static.government.ru/media/files/5DAcgA dCvmlURPFBTU 26DnVCXwMAklOu.pdf (дата обращения: 20.12.2019).

как реклама через массовую рассылку, телевидение или интернет, больше не работают в современных реалиях. Конверсия от указанных методов снижается год за годом, а затраты несоизмеримо растут, что приводит к неоправданному повышению показателя customer acquisition cost (CAC), т.е. стоимости привлечения клиента, для разных видов бизнеса. Особенно остро данная проблема проявляет себя в сферах массового потребления, не занимающихся производством и реализацией товаров высшей категории. Для них важно, чтобы стоимость нового клиента была низкой, поскольку от этого зависит цена товара на рынке. Следовательно, производители вынуждены искать новые способы оказания воздействия на потенциальных и существующих потребителей. Компании стараются привлечь и удержать клиента путем персонализации предложений, т.е. способности оптимизировать послания для определенных клиентов. Под «посланиями» подразумеваются как легко реализуемые вещи, например обращение к клиенту по имени и отчеству, так и сложные функции, помогающие предугадать

желания покупателей. «Определенные клиенты» -это сегменты, которые разбиты по схожести поведения или похожести каких-либо параметров. Путем персонализации решаются такие задачи бизнеса, как снижение стоимости привлечения новых клиентов и уменьшение затрат, связанных с удержанием уже имеющейся аудитории потребителей. Вдобавок, персональные предложения формируют лояльное отношение к бренду и товару, поскольку компании предлагают своим клиентам то, что им необходимо. Потребитель готов покупать у той организации, которая проявляет о нем некую форму заботы, что в итоге ведет к увеличению среднего чека и, как следствие, прибыли предприятия. О такой тенденции приверженности к персонализации свидетельствует исследование, проведенное в 2017 г. американской компанией Epsilon2. Выяснилось, что 80% респондентов из 1000 в возрасте 18-64 лет указали, что они с большей вероятностью будут иметь дело с брендами, которые предоставляют персонализированные предложения. 90% потребителей признались в предпочтениях персонализированных обращений. Следовательно, первая задача организаций в этой области - обеспечить формирование и доставку до конечного пользователя персональных предложений с помощью информационных технологий. Данный вид поддержки возможно обеспечить с помощью решений в таких областях, как Data Mining, Machine Learning, рекомендательные системы на основе коллаборативной или контентой фильтраций и другие [1].

Актуальность данной работы основана на исследовании одного из методов совершенствования индустрии электронной коммерции, а именно рекомендательных систем3. Они представляют собой инструменты автоматической генерации предложений по услугам на основе изучения персональных потребностей клиентов. Основные методы, используемые в данных решениях, - это колла-боративная и контентная фильтрации, которые позволяют генерировать предложения, основываясь не только на персональном треке запросов

2 Компания EpsiLon. «New EpsiLon research indicates 80% of consumers are more LikeLy to make a purchase when brands offer personalized experiences». URL: https://us.epsiLon.com/ pressroom/new-epsiLon-research-indicates-80-of-consumers-are-more-LikeLy-to-make-a-purchase-when-brands-offer-personaLized-experiences (дата обращения: 21.12.2019).

3 Хабр. Введение в машинное обучение. URL: https://habr.

com/ru/post/448892/ (дата обращения: 10.02.2020).

потребителя, но и треках пользователей из единого с ним кластера или группы. Существует ряд проблем, связанных с разработкой алгоритмов для данных систем. Общими для любых сфер являются задачи, связанные с масштабируемостью при добавлении данных о новых потребителях, а также вопросы по рекомендациям для вновь пришедших пользователей, у которых еще нет собственного трека запросов. Также существует необходимость выявления нелояльных клиентов, готовых сменить фирму при появлении более оптимального предложения у конкурентов. Их удержание способно сохранить значительную часть прибыли компании, но в то же время затраты на такую деятельность могут быть неоправданно высокими. Поэтому алгоритмы рекомендательных систем должны быть заточены под их автоматическое выявление и генерацию предложений по удержанию. Особенно остро данный вопрос стоит в сфере телекоммуникаций, где переход между операторами связи с недавних пор перестал являться сложным процессом, строго ограниченным технической частью по таким параметрам как, например, локализация.

Объектом данного исследования стали рекомендательные системы для сферы телекоммуникаций, которые представляют собой вид специального математического и программного обеспечения систем анализа, оптимизации, управления, принятия решений и обработки информации.

Предметом исследования являются модели машинного обучения, использующие структуры данных о пользователях мобильной связи и алгоритмы выбора релевантных рекомендаций для кластера пользователей, способных потенциально сменить оператора. Состояние пользователя, характеризуемое степенью его лояльности к компании и намерением продолжать сотрудничество или сменить поставщика услуг, в дальнейшем будет определяться как статус пользователя: лоялен или готов уйти.

Цель работы - проанализировать существующие решения рынка рекомендательных систем и разработать концепцию альтернативы, способной прогнозировать статус пользователя и выбирать актуальные типы рекомендаций для клиентов из разных кластеров, определенных по статусу.

рынок рекомендательных систем

На начальном этапе исследования был проведен анализ существующих алгоритмов, поддерживающих персонализацию, а также решений в области

рекомендательных систем и принципов их работы. Наиболее приближенными по требуемому функционалу и возможностям можно назвать рекомендательные системы от Яндекс и Netflix. Первая является отечественной разработкой, которая функционирует начиная с 2014 г.4 Технология получила название Диско (от discovery) и нашла свое применение в сервисах с крупными каталогами объектов - в Музыке, Радио, Маркете и Видео. Генерация предложений при использовании данных из систем-источников производится по одному из трех подходов. Первый связан с анализом контента и основан на выявлении связей определенного объекта с производителем, брендом, страной распространения, целевой группой, группой товаров или иных характеристиках. Такой подход применим к тем потребителям, которые уже имеют свой трек в системе. Второй подход основан на анализе групп пользователей из Крипты, сгруппированных по возрасту, полу, местоположению или роду занятий. В данной ситуации делается допущение, что схожие пользователи будут интересоваться одинаковыми объектами в сервисах. Метод распространен не только среди устоявшихся пользователей сервиса, но и применим для так называемого холодного старта. Рекомендательная система генерирует предложения для новых пользователей, даже с учетом того, что они еще не известны сервису. Последний метод связан с персональными оценками пользователей потребляемого контента, товаров или услуг. Такой подход не только учитывает связь пользователей между собой и связи объектов по характеристикам, но и позволяет выделить нетривиальные закономерности между разрозненными группами на основе оценок потребителей. Построение рекомендательной системы из комбинации трех подходов стало возможным с применением формы машинного обучения с учетом множества факторов ранжирования - Матрикснет5.

Успешное применение рекомендательных систем и их постоянное развитие позволяет Яндексу улучшать свои сервисы и создавать новые за счет роста выручки: 2017 г.- +24%, 2018 г.- +36%, 2019 г.- +39%.

4 Компания Яндекс. Технологии. Рекомендательная технология Диско. URL: https://yandex.ru/company/technologies/ disco/ (дата обращения 23.12.2019).

5 Компания Яндекс. Технологии. Матрикснет. URL: https:// yandex.ru/company/technologies/matrixnet (дата обращения 23.12.2019).

Вторая рассматриваемая рекомендательная система - решение от Netflix, представляющее собой комбинированный движок на основе коллабо-ративной и контентой фильтраций. Данная система предполагает поиск закономерностей как между схожими пользователями, так и между похожими объектами сервиса. Потребители разделяются в кластеры на основе анализа профилей, запросов и выбранного контента, т.е. разделяются на определенные подмножества со схожими критериями [2]. Затем формируются пулы рекомендаций для пользователей с максимальным количеством совпадений на основе взаимных предложений. Система Netflix способна комбинировать предложенные системой рекомендации для нивелирования недостатков каждого из подходов, как, например, накрутка оценок злоумышленниками, изменение предпочтений пользователей с течением времени или проблем с холодным стартом.

Данное гибридное решение позволило повысить точность рекомендаций системы Netflix на 10,06% по сравнению с предыдущей версией, использовавшей только алгоритмы коллаборативной фильтрации. На сегодняшний день компания постоянно совершенствует данную систему и даже организовала премию с грантом по лучшей доработке данной рекомендательной системы.

рекомендательная система оператора связи Tele2

Рассмотренные решения сочетают в себе канон-ные технологии, используемые в рекомендательных системах. Такой опыт успешного применения технологий говорит о возможности применения рекомендаций в разных сферах. Применительно к телекому, такие системы способны помочь в области принятия решений относительно оптимизации использования тарифов из пакетов минут, смс и гигабайтов как для абонентов, так и для операторов связи. Одной из первых компаний в России, которая запустила такого рода решение для своих клиентов, стала Tele26. Рекомендательная система МИА отвечает за переконфигурацию пакетов интернета и минут на линейке тарифов «Мой Онлайн+» в разных регионах России7. При использовании данного решения производится анализ потраченного

6 Компания Tele2. О компании. URL: https://tele2.ru/about/ company/about-company (дата обращения: 10.01.2020).

7 Компания Tele2. Умный тариф подстроится под вас. URL: https://mia.tele2.ru/ (дата обращения: 12.02.2020).

пакета относительно доступного в рамках тарифа. Например, в Москве в данный тариф входят 800 минут и 30 ГБ за 700 руб. в месяц. Работа МИА заключается в нахождении по истечению периода использования, для данного случая - месяца, отношений фактических расходов к возможным. Рассчитываются удельные веса по гигабайтам интернета и минутам мобильной связи. Далее включается цикл калибровки для приведения к относительно равному отношению весов для двух составляющих тарифа. То есть с шагом в 50 минут и 5 Гб система старается уравнять полученные удельные веса, считая такую ситуацию оптимальной в плане использования тарифного плана. В некоторых случаях расчет происходит относительно средних показателей нескольких предшествующих месяцев, в случае если веса за один месяц оказались одинаковыми или была низкая активность абонента. Система предлагает рекомендации пользователю по перераспределению минут и Гб внутри тарифа, при этом его стоимость остается неизменной. Клиенты вправе принять предложенные изменения или отказаться от них. С точки зрения потребителя такие рекомендации дают возможность перераспределить пакеты минут и Гб в рамках оплаченной суммы без необходимости докупать дополнительные пакеты минут или интернета, если происходит постоянный перерасход одной из составляющих тарифа. Для оператора Те1е2 рекомендательная система помогает снизить затраты на обеспечение связи для абонентов за счет оптимизации их тарифных планов, а также дополнительно увеличить прибыль из-за перехода некоторых абонентов на тариф дороже и появления новых, которые хотят попробовать уникальную функциональность. Относительно узкая специализация данной системы говорит о необходимости ее распространения на другие тарифы из линейки оператора, а также об увеличении функционала системы, которая позволит генерировать рекомендации в соответствии с требуемыми условиями.

В целях развития и улучшения рекомендательной системы Те1е2 был предложен двухэтапный алгоритм по выявлению клиентов, которые потенциально могут уйти от оператора, а также по генерации для данных абонентов рекомендаций, направленных на удержание. Доработанная МИА позволит организации вовремя реагировать на изменения в поведении пользователей и формировать им предложения иных тарифов, дополнительных фич и специаль-

ных условий. Это увеличит лояльность абонентов к оператору и позволит переформировать тарифный пакет под собственные нужды. Первый этап алгоритма будет выявлять пользователей, которые могут уйти от компании TeLe2. При этом совсем не важно, меняет ли человек оператора или просто прекращает пользование данным номером. На вход будут подаваться обезличенные данные об абонентах, включая их тарифный план, фактические расходы по пакетам и стоимость тарифов. В ходе машинного обучения на обучающем множестве должны выявляться скрытые зависимости между фактическими и возможными затратами пользователей, которые остались и уже ушли. Далее при работе с реальными данными абоненты будут классифицироваться как те, кто останется, и те, кто готов уйти. Второй этап алгоритма основан на принципах коллаборативной и контентной фильтраций, а также на математических расчетах отношений плановых и фактических затрат. Анализу будут подвергаться связи между схожими пользователями, зависимости между объектами, а также превышения и недобор реальных потраченных пакетов минут, смс, Гб. Применение алгоритма позволит формировать рекомендации, возможно, в форме ассоциативных правил, для тех пользователей, которые были выявлены как потенциально уходящие на предыдущем этапе. Сформированные предложения позволят удержать часть аудитории, так как система будет учитывать их реальные потребности и сразу предлагать решение их проблем, которые могут быть связаны с перерасходами по тарифам, высокими финансовыми затратами при низкой активности или использованием совершенно не тех опций, которые нужны абоненту.

Применение машинного обучения для идентификации уходящих абонентов

Предметом рекомендаций для сотрудников компании TeLe2 будет являться возможный уход абонента от оператора сотовой связи. После такого заключения работники должны приложить усилия, чтобы не потерять клиента.

Для анализа был получен датасет у сотового оператора TeLe2 (рис. 1, 2).

В таблице 10 000 строк и 24 столбца:

1. № абонента - порядковый номер абонента. Используется для связи с реальными телефонными номерами абонентов (MSISDN - MobiLe Subscriber Integrated Services DigitaL Number).

№ Потребление Потребление Доступно Доступно Тариф в Стоимость Траты за Потребление Потребление Доступно минут

абонента Регион минут в августе ГБ в августе минут в августе ГБ в августе августе тарифа в августе август минут в сентябре ГБ в сентябре в сентябре

Рис. 1. Часть 1 полученного датасета сотового оператора Tele2

Источник: составлено на основе данных ООО «Т2 Мобайл».

Достулна ГБ Тарифа Стоимость тарифа Траты аа Потребление Потребление Доступно минут Доступно ГБ Тарифа Стоимость тарифа Траты та Состояние

в сентябре сентябре в сентябре сентябрь минут е октябре ГБ б октябре в октябре в октября октябре в октябре октябрь присутствия абонента

30 Мой онлайн» 700 880.5 1363 -1 800 30 Мой онлайн» 700 1074,5 1

30 Мой онлайн» 700 881 1465 33 800 30 Мой онлайн» 700 1090,5 1

30 Мой онлайн» 700 758 315 39 800 30 Мой онлайн» 700 85S 1

30 Мой онлайн» 700 987 1368 2 3 800 30 Мой онлайн» 700 1076 1

Рис. 2. Часть 2 полученного датасета сотового оператора Tele2

Источник: составлено на основе данных ООО «Т2 Мобайл».

2. Регион - субъект Российской Федерации, в котором был зарегистрирован данный абонент. В нашем случае деление всего на 2 региона: объединенные Москва и Московская область и Воронежская область.

3. Потребление минут в августе - количество использованных минут в данном месяце.

4. Потребление ГБ в августе - количество использованных ГБ интернета в данном месяце.

5. Доступно минут в августе - количество минут в пакете активного тарифа в данном месяце.

6. Доступно ГБ в августе - количество ГБ интернета в пакете активного тарифа в данном месяце.

7. Тариф в августе - используемый (активный) тариф в данном месяце.

8. Стоимость тарифа в августе - плата за активный тариф в данном месяце.

9. Траты за август - сумма всех расходов за данный месяц, включая оплату минут, ГБ и SMS сверх базового пакета тарифа и дополнительных сервисов (VAS).

10. Потребление минут в сентябре - количество использованных минут в данном месяце.

11. Потребление ГБ в сентябре - количество использованных ГБ интернета в данном месяце.

12. Доступно минут в сентябре - количество минут в пакете активного тарифа в данном месяце.

13. Доступно ГБ в сентябре - количество ГБ интернета в пакете активного тарифа в данном месяце.

14. Тариф в сентябре - используемый (активный) тариф в данном месяце.

15. Стоимость тарифа в сентябре - плата за активный тариф в данном месяце.

16. Траты за сентябрь - сумма всех расходов за данный месяц, включая оплату минут, ГБ и SMS

сверх базового пакета тарифа и дополнительных сервисов (VAS).

17. Потребление минут в октябре - количество использованных минут в данном месяце.

18. Потребление ГБ в октябре - количество использованных ГБ интернета в данном месяце.

19. Доступно минут в октябре - количество минут в пакете активного тарифа в данном месяце.

20. Доступно ГБ в октябре - количество ГБ интернета в пакете активного тарифа в данном месяце.

21. Тариф в октябре - используемый (активный) тариф в данном месяце.

22. Стоимость тарифа в октябре - плата за активный тариф в данном месяце.

23. Траты за октябрь - сумма всех расходов за данный месяц, включая оплату минут, ГБ и SMS сверх базового пакета тарифа и дополнительных сервисов (VAS).

24. Состояние присутствия абонента - показатель ухода абонента от оператора или приостановки обслуживания сим-карты. 0 значит, что абонент ушел или приостановил обслуживание, а 1 - обратное.

Для анализа данных и выдачи рекомендательных предложений выбраны четыре алгоритма: наивный Байесовский классификатор, деревья решений, градиентный бустинг деревьев решений и «случайный лес». Алгоритмы могут анализировать как строковые значения (названия тарифов и регион), так и целочисленные, и хорошо подходят для решения поставленной задачи. Используемые алгоритмы достаточно просты и легко объяснимы, в будущем их можно будет использовать как базовый уровень для более сложных методов машинного обучения. Поскольку полученный у компании Tele2 датасет достаточно специфичен, для решения поставлен-

ной задачи невозможно использовать некоторые типы из распространенных алгоритмов машинного обучения. Например, k-means или k-medoids не подойдут для исследуемого набора данных, так как они плохо работают с многомерными данными. Также не представляется возможным использовать различные виды регрессии, такие как линейная или логистическая, из-за наличия нечисловых переменных в используемом наборе данных.

Первый подход использует наивный Байесовский (naive Bayes) классификатор [3, с. 255]. Хотя этот алгоритм и считается одним из простых, он часто работает не хуже, а то бывает и лучше сложных алгоритмов. Байесовская модель вычисляет количество строк на значение атрибута в классе для номинальных атрибутов и гауссово распределение для числовых8. Созданная модель может быть использована для прогнозирования классовой принадлежности неклассифицированных данных. Вероятностью класса в этом случае считается произведение вероятности на атрибут и вероятности самого атрибута класса. В свою очередь, вероятностью для номинальных значений - число повторений значения класса с заданным значением, деленное на число общих повторений значения класса. А вероятность численного значения вычисляется путем предположения нормального распределения по каждому признаку.

Второй подход состоит из деревьев решений (decision tree) [4, с. 73]. В случае деревьев решений целевой (предсказываемый) атрибут должен быть номинальным, т.е. только называющим. Другие атрибуты, используемые для принятия решений, могут быть как номинальными, так и числовыми. При работе алгоритма числовое разделение является только двоичным (два результата), а номинальное разбиение - либо двоичным, либо иметь столько же исходов, сколько и номинальные значения. Алгоритм может быть запущен в нескольких потоках и, таким образом, использовать мультиплексоры или ядра.

Третьим алгоритмом является градиентный бустинг деревьев решений (gradient boosted decision trees)9. Метод использует очень мелкие деревья

8 Knime. Naive Bayes. URL: https://hub.knime.com/knime/ spaces/Examples/latest/04_Anal.ytics/04_Qassification_and_ Predictive_Modeliing/03_Exampl.e_for_Leaming_a_Naive_ Bayes_Model (дата обращения: 25.03.2020).

9 Neurohive. Градиентный бустиг - просто о сложном. URL:

https://neurohive.io/ru/osnovy-data-science/gradientyj-busting/ (дата обращения: 15.03.2020).

регрессии и специальную форму бустинга - мета-алгоритм машинного обучения, применяющийся для уменьшения смещения, а также дисперсии -для построения ансамбля деревьев [5, с. 253]. По умолчанию дерево строится с использованием двоичных разбиений для числовых и номинальных атрибутов (более поздние могут быть изменены на многоходовые разбиения). Встроенная обработка пропущенных значений пытается найти наилучшее направление для пропущенных значений, проверяя каждое возможное направление и выбирая то, которое дает наилучший результат, т.е. наибольший выигрыш.

Последним из четырех подходов будет случайный лес (random forest) [6, c. 88]. Случайный лес состоит из выбранного количества деревьев решений. Каждая из моделей дерева решений изучается на другом наборе строк (записей) и другом наборе столбцов (описывающих атрибутов). Наборы строк создаются путем начальной загрузки и имеют тот же размер, что и исходная входная таблица. Для каждого узла дерева решений новый набор атрибутов определяется путем взятия случайной выборки размером корень из m, где m - общее количество атрибутов. Основная идея заключается в том, что для каждого разбиения нужно попытаться найти недостающие значения во всех возможных направлениях, затем используется то, которое дает наилучшие результаты, т.е. наибольший выигрыш. Если во время обучения отсутствуют пропущенные значения, то направление разделения, за которым следует большинство записей, выбирается как направление для пропущенных значений во время тестирования.

Машинное обучение на данных абонентов TeLe2 проводилось в сервисе Knime Analytics Platform - бесплатная и открытая платформа для анализа данных10. В данной платформе процесс программирования логики осуществляется через создание потока работ (workflow), который состоит из узлов (nodes), выполняющих ту или иную функцию [7].

Для машинного обучения загружены исходные данные в формате csv через File Reader. Затем в трех узлах String Manipulation округлены значения трат (расходов) абонентов за август, сентябрь

10 Хабр. Обзор Knime AnaLytics PLatform - open source системы для анализа данных. URL: https://habr.com/ru/ post/320500/ (дата обращения: 15.03.2020).

Рис. 3. Модели дерева решения, наивного Байесовского классификатора, градиентного бустинга деревьев решений и случайного леса

Источник: составлено авторами по данным телекоммуникационной компании.

и октябрь и в String to Number преобразованы из строковых в числовые. Missing Value помог заменить пропущенные значения на 0. В узле Column Filter скрыты дублирующие, коррелирующие или избыточные параметры. Ими являются доступные минуты и Гб и абонентская плата во всех месяцах (available minutes in August, available GB in August, fare cost in August, available minutes in September, available GB in September, fare cost in September, available minutes in October, available GB in October, fare cost in October). После осуществилось деление данных на тестовое и тренировочное множества в пропорциях 30/70 случайным образом в Partitioning.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Naive Bayes Learner использует тренировочное множество для классификации по колонке «Состояние присутствия абонента» с максимальным количеством уникальных номинальных значений для атрибута в количестве 2, так как состояние абонента имеет только два значения: готов остаться или готов уйти от оператора. Naive Bayes Predictor предсказывает состояние присутствия абонента, используя ранее обученную модель и тестовое множество. В завершение используем Scorer для визуализации матрицы ошибок (confusion matrix) (рис. 4) и ROC-кривую (рис. 5). Модель наивного Байесовского классификатора представлена на рис. 3.

Decision Tree Learner использует тренировочное множество для классификации по колонке «Состояние присутствия абонента» с помощью коэффициента Джини (Gini index) - метрика ка-

С Curve (local)

ft

cm

ROC Curve (local)

Состояние присутствия абонента\Pre... 1 0

1 2943 34

0 0 23

Correct classified: 2966 Wrong classified: 34

Accuracy: 98,867 % Error: 1,133 %

Cohen's kappa (к) 0,57

Рис. 4. Матрица ошибок модели наивного Байесовского классификатора

Источник: Knime Analytics Platform исследование модели авторов.

чества, которая применяется при оценке предсказательных моделей в задачах бинарной классификации в условиях сильной несбалансированности классов целевой переменной. Количество ветвей равно четырем. Decision Tree Predictor предсказывает состояние присутствия абонента, используя ранее обученную модель и тестовое множество. В завершение воспользуемся Scorer для визуализации матрицы ошибок (confusion matrix) (рис. 6).

Gradient Boosted Trees Learner (deprecated) использует тренировочное множество для классификации по параметру «Состояние присутствия абонента». В настройках дерева указаны количество уровней в размере четырех, количество моделей - четыре, скорость обучения -0,1. Gradient Boosted Trees Predictor (deprecated) предсказывает состояние присутствия абонента, употребляя ранее обученную модель и тестовое множество. В завершение используем Scorer для

Рис. 5. ROC-кривая модели наивного Байесовского классификатора

Источник: Knime AnaLytics PLatform исследование модели авторов.

Состояние присутствия абонента \Predi... 1 0

2976 1

0 23

Correct classified: 2 999 Accuracy: 99,967 %

i (к)

Wrong dashed: 1

Error: 0,033 %

Cohen's k

Рис. 6. Матрица ошибок модели дерева решений

Источник: Knime AnaLytics PLatform исследование модели авторов.

Рис. 7. Матрица ошибок модели градиентного бустинга деревьев решений

Источник: Knime AnaLytics PLatform исследование модели авторов.

визуализации матрицы ошибок (confusion matrix) (рис. 7) и ROC-кривую11 (рис. 8).

Random Forest Learner использует тренировочное множество для классификации по параметру

11 Knime. From modeLing to scoring: Confusion Matrix and CLass Statistics. URL: https://www.knime.com/bLog/from-modeLing-to-scoring-confusion-matrix-and-cLass-statistics (дата обращения: 05.04.2020).

«Состояние присутствия абонента». В настройках дерева указаны критерий разделения по коэффициенту Джини, ограничение в количестве уровней, равное трем, минимальный размер узла - 2, количество моделей - 3. Random Forest Predictor предсказывает состояние присутствия абонента, используя ранее обученную модель и тестовое множество. В завершение используем Scorer

Рис. 8. RoC-кривая модели градиентного бустинга деревьев решений

Источник: Knime Analytics Platform исследование модели авторов.

для визуализации матрицы ошибок (confusion matrix) (рис. 9).

Анализируя результаты машинного обучения, можно прийти к выводу, что модель градиентного бустинга деревьев решений слишком точна (100%), а такая точность не позволит определять сомневающихся пользователей, т.е. false positive или false negative. Дополнительно это говорит о переобученности модели12. Кроме того, абсолютная точность моделей машинного обучения потенциально потребует больших вычислительных мощностей. В нашем случае это существенно, так как в рамках работы рассматривается выборка только в 10 тысяч строк и с 24 параметрами, а в компании Tele2 больше 40 млн абонентов. Следовательно, решение позволяет с высокой точностью определить статус абонента на обучающей выборке, но абсолютно неприменимо к реальным данным. Модели деревьев решений и случайного леса имеют тоже весьма большую точность (99,967 и 99,97% соответственно). Модель наивного Байесовского классификатора показы-

12 Хабр. Методы оценки качества прогноза. URL: https://habr. com/ru/post/19657/ (дата обращения: 05.04.2020).

вает наименьшую точность из представленных моделей (98,867%).

Выводы

Таким образом, проведенное исследование показало наличие неизученных возможностей машинного обучения, технологии которого могут быть применены в самых различных сферах общественной деятельности. В эпоху цифровой трансформации понимание принципов искусственного интеллекта и машинного обучения важно для успешного ведения бизнеса, поскольку работа с данными затрагивает внешнюю и внутреннюю среды любой организации или продукта. Их использование в сфере телекоммуникационных технологий отличается широким спектром возможных предсказаний по абонентской части и информационно-технологической части.

Согласно выводам, полученным в ходе исследования, можно сказать об успешном выполнении поставленных задач по изучению рекомендательных систем, исследованию существующих решений, обеспечивающих персонализацию в разных сферах взаимодействия с клиентом, анализу текущего состояния рекомендательной системы МИА одной из

0 (Predicted) 1 (Predicted)

0 (Actual) 23 0 100.00%

1 (Actual} 1 2976 99.97%

95.83% 100.00%

Overall Statistics

Overall Accuracy Overall Error Cohen's Kappa (к) Correctly Classified Incorrectly Classified

99.97% 0.03% 0.979 2999 1

Рис. 9. Матрица ошибок модели случайного леса

Источник: Knime Analytics Platform исследование модели авторов.

ведущих телекоммуникационных компаний России Те1е2. Одним из основных результатов можно считать создание моделей машинного обучения на платформе Ктте, которые способны предсказать возможный уход абонента от данного оператора.

Следовательно, можно с уверенностью сказать об успешном достижении поставленной цели по предложению концепции развития рекомендательной системы МИА, новые модели машинного обуче-

ния будут анализировать отток клиентов компании сотового оператора Те1е2. Данная доработка позволит сформировать базу для поддержки принятия решений в отношении абонентов как в автоматическом, так и ручном режимах, что позволит бизнесу быстро реагировать на изменение в поведенческих привычках конечных пользователей и в конечном итоге сформировать доверительные отношения между компанией и ее клиентурой.

Список источников

1. Stuart J. Russell, Norvig P. Artificial intelligence: a modern approach. 3rd edition. Pearson Education Limited; 2010. 1152 p.

2. Бурков А. Машинное обучение без лишних слов. СПб.: Питер; 2020. 192 с.

3. Бринк Х., Ричардс Дж., Феверолф М. Машинное обучение. СПб.: Питер; 2017. 336 с.

4. Nils J. Nilsson Introduction to machine learning. Stanford, 2005. 188 p.

5. Вьюгин В. В. Математические основы теории машинного обучения и прогнозирования. М.; 2013. 387 с.

6. Мюллер А., Гвидо С. Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными. М.: Вильямс; 2017. 480 с.

7. Silipo R. KNIME beginner's luck: a guide to KNIME Data Mining software for beginners. KNIME Press; 2016. 384 p.

References

1. Stuart J. Russell, Peter Norvig. Artificial intelligence: a modern approach. 3rd ed. Pearson Education Limited; 2010. 1152 p.

2. Burkov A. Machine learning without unnecessary words. St. Petersburg: Piter; 2020. 192 p. (In Russ.).

3. Brink Henrik, Richards Joseph, Fetherolf Mark. Real-World Machine Learning. Manning Publications Co.; 2016. 264 p.

4. Nils J. Nilsson Introduction to machine learning. Stanford; 2005. 188 p.

5. Vyugin V.V. Mathematical foundations of the theory of machine learning and forecasting. Moscow; 2013. 387 p. (In Russ.).

6. Müller Andreas C., Guido Sarah. Introduction to Machine Learning with Python: A Guide for Data Scientists. Moscow: Williams; 2017. 480 p. (In Russ.).

7. Silipo Rosaria. KNIME beginner's luck: A guide to KNIME Data Mining software for beginners. KNIME Press; 2016. 384 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.