СЕГМЕНТАЦИЯ КЛИЕНТОВ ТЕЛЕКОММУНИКАЦИОННОЙ КОМПАНИИ НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ ПРОФИЛЯ ПОЛЬЗОВАТЕЛЯ
CUSTOMER SEGMENTATION
FOR A TELECOMMUNICATION COMPANY BASED ON WAVELET TRANSFORM CLUSTERING OF A CUSTOMER'S PROFILE
Бачинин Ю.Г. - к. ф.-м. н., доцент кафедры Информатики, Российский экономический университет имени Г.В. Плеханова
Вейнберг P.P. - старший преподаватель кафедры Информационных систем в экономике и менеджменте, Российский экономический университет имени Г.В. Плеханова
Романов В.П. - д. т. н., профессор кафедры Информационных систем в экономике и менеджменте, Российский экономический университет имени Г.В. Плеханова
Bachinin Y.G. - Cand. Sc. (Physics and Mathematics), Assistant Professor, Department for Computer Science, Russian Plekhanov University of Economics
Veynberg R.R. - Senior Lecturer, Department for Information Systems in Economics and Management, Russian Plekhanov University of Economics
Romanov V.P. - Doctor Sc. (Engineering), Professor, Department for Information Systems in Economics and Management, Russian Plekhanov University of Economics
Аннотация
В данной статье рассматривается применение метода кластеризации (k-means и AHC) к профилю потребления телекоммуникационных услуг однородных групп пользователей, собранного на основе данных прошлых периодов активности клиентов (c помощью макроса для MS Excel - XLSTAT). Также в статье рассматривается применение вейвлет-разложения искомой информации по функции Хаара, с помощью инструментальных методов программного продукта Matlab, полученная информация анализируется и сравнивается с исходной.
Abstract
This article discusses the use of clustering method (k-means and AHC) to profile the consumption of telecommunication services single-family user groups, based on data collected using last periods of client activity (using MS Excel macros - XLSTAT). The article also examines the application of the wavelet decomposition of the required information, based on the Haar functions, with the help of instrumental methods of Matlab; the information is analyzed and compared with the original ones.
Ключевые слова: вейвлет-функция; вейвлет-разложение; кластеризация; метод средних значений; профиль потребления; телекоммуникационные услуги.
Key words: wavelet function; wavelet decomposition; clustering; average method; customer profile; telecommunication services.
Рынок телекоммуникационных услуг регулярно пополняется новыми услугами: услуги для физических лиц (SMS, голосовые сообщения, MMS, мобильный интернет и т.д.), для малого бизнеса, партнерские программы для корпоративных клиентов, VTP-клиентов и прочих юридических лиц, содержащих большое количество условий и предложений в рамках каждой категории. Чтобы успешно конкурировать с другими провайдерами мобильной связи важно знать своих потребителей и иметь представление о желаниях и потребностях имеющихся текущих и потенциальных клиентов, необходимо разделить клиентов на сегменты, каждый из которых будет соответствовать определенному уникальному для его сегмента профилю потребления. [1] Профайл клиента - это атрибуты клиента, такие как, например, возраст, пол, доход и образ жизни (так называемые априорные характеристики), либо данные потребления им телекоммуникационных услуг (истории активности).
Сегментация - это процесс деления клиентов на однородные группы на основе обобщенных для каждого сегмента атрибутов,) извлеченных из общей базы данных, с помощью ретроспективных исторических наблюдений, или на основе экспертных суждений, накопленного опыта. Имея данные по сегментации и профили потребления, маркетологи и менеджеры способны принять решение о том, какие маркетинговые действия (или стратегические шаги) следует предпринять для каждого сегмента, а затем выделить необходимые ресурсы для имеющихся сегментов с целью удовлетворения конкретных потребностей входящих в этот кластер клиентов. В данной
статье нами были изучены и проанализированы данные о клиентах компании МТС, крупнейшего телекоммуникационного игрока на рынке услуг потребительской связи. Компания МТС является одним из лидеров телекоммуникационной отрасли Российской Федерации. Наряду с «Большой тройкой» (Билайн и Мегафон) - она занимает около 82% всего рынка мобильных услуг и мобильной связи (сюда входят как прямые услуги сотовой связи (голосовые), так и Интернет-серфинг и другие VAS услуги (Value Added Services -услуги, приносящие дополнительный доход - все неголосовые услуги и услуги, не связанные с передачей CSD-данных (Circuit Switched Data) и факсов, включая такие распространённые, как SMS, MMS, GPRS и пр.). [2] Компания МТС имеет следующую структуру корпоративных клиентов: малый, средний и крупный бизнес. Каждый раз, когда происходит процесс регистрации вызова внутри сети МТС, информации о вызове сохраняется в виде записи в базе данных. Число записей, которые создаются и хранятся на сервере, огромны, клиентами МТС генерируется более 20 миллионов записей в день, что соответствует сотням миллионов операций и профайлов активности для описания важных характеристик каждого вызова. Как минимум, каждая запись вызова включает в себя моменты начала и завершения разговора, телефонный номер, дату и время вызова и продолжительности звонка. Также подобные записи транзакций ведутся в рамках активности клиента при потреблении не только CSD, но и VAS услуг. [3]
В структурированном виде составляющие тарифной политики компании МТС можно представить в следующем виде (рисунок 1).
Рис. 1. Составляющие тарифной политики компании МТС
В рамках данной статьи мы будем рассматривать только левую часть рисунка 1 (VAS). Исходя из информации, хранящейся в базе данных по клиентам МТС, активности каждого клиента в процессе использования телекоммуникационной услуги и калькулятора тарифов на сайте МТС, были выделены следующие критерии, характеризующие каждого уникального потребителя (помесячно): звонки по домашнему региону, звонки внутри сети, звонки на стационарные телефоны, звонки на мобильные телефоны (не МТС), междугородний роуминг, международный роуминг, объем CMC трафика, объем ММС трафика, объем использования мобильного интернета, использование мобильного контента.
По данным ежеквартального отчета консалтинговой компании DSS, имеются данные для группы «Малый бизнес»: основываясь на месячной статистике активности клиентов этой группы (выборка была проведена на основе фокус-группы из 10 компании, численностью персонала до 50 человек) [4],данные по группе «Средний бизнес» (от 50 до 250 сотрудников на каждом предприятии), из всей совокупности было отобрано 10 компаний, «Крупный бизнес», - 10 предприятий, с количеством сотрудников более 250.
Имеется таблица с аналогичными данными, но уже по 100 предприятиям:
к В С D [ F G
1 Имя компании Подсмашнему региону Внутри сети На стационарные ге.пе^снь На мо&ильные телефоны (не МТС] Межгарод Международный роуминг
2 company 1 0,1508 0,2512 0,2515 0,1012 0,1312 0,1214
3 company! 0,148! 0,2411 0,2416 0,1113 0,1212 0,1114
4 company 3 0,1512 0,2412 0,2511 0,1112 0,1316 0,121В
5 company 4 0,1424 0,2413 0,2412 0,1012 0,1311 0,1217
Б company 5 0,1485 0,2414 0,2512 0,1014 0,1212 0,1114
1 Companys 0,1524 0,2415 0,2455 0,1064 0,1217 0,1214
8 company 7 0,1485 0,2416 0,2415 0,1115 0,1212 0,1119
5 сотрапуй 0,1551 0,2511 0,2414 0,1119 0,1315 0,1124
10 company) 0,148? 0,2412 0,2414 0,1122 0,1222 0,1236
Рис. 2. Данные о потреблении услуг по 100 предприятиям (фрагмент)
Проведем кластерный анализ методом иерархической кластеризацией, с помощью программы XLSTAT (макрос для MS Excel). Общая схема процедуры иерархической кластеризации, в ее теоретическом виде, представляет собой последовательность из 6-ти шагов. Процесс иерархической кластеризации заканчивается, когда все
объекты будут объединены в несколько классов или в один единственный класс. Процедура может быть также прервана на некотором шаге, когда индекс различия превысит некоторый пороговый уровень. В нашем случае разбиение на классы производилось с параметром: автоматическое. Программа автоматически делит компании на три кластера, в зависимости от потребления ими услуг, результаты анализа приведены таблицах 1-3.
Таблица 1. Центры кластеров
Кла сте ры По домашн ему региону Внутри сети На стациона рные телефон ы На мобильны е телефоны (не МТС) Межго род Междунар одный роуминг
1 0,149 0,243 0,245 0,108 0,126 0,118
2 0,316 0,111 0,345 0,026 0,126 0,150
3 0,236 0,053 0,233 0,025 0,153 0,353
Таблица 2. Расстояние между центрами кластеров
Расстояние между центрами кластеров 1 2 3
1 0 0,251 0,326
2 0,251 0 0,253
3 0,326 0,253 0
Таблица 3. Центральные объекты кластера (компании)
Компании По домашне му региону Внутр и сети На стационарн ые телефоны На мобильн ые телефон ы (не МТС) Межгор ОД Международн ый роуминг
Комп. 6 0,152 0,242 0,246 0,106 0,122 0,121
Комп. 11 0,316 0,110 0,346 0,022 0,121 0,149
Комп. 23 0,242 0,053 0,233 0,026 0,153 0,353
Нетрудно заметить, что показатели по центральным объектам имеют почти 100 процентную корреляцию и соответствие с регрессионными уравнениями:
Company 6 = b,152a+0,242b+0,246c+0,106d+0,122e+0,121f =
1 .г (a,b,c,d,e,f)
Company 11 = 0,316a+0,110b+0,346c+0,022d+0,121e+0,149f = J ": (a,b,c,d,e,f)
Company 23 = 0,242a+0,053b+0,233c+0,026d+0,153e+0,353f = (a,b,c,d,e,f)
Таким образом, все компании входящие в кластер 1, с центром в компании 6, относятся к сегменту малый бизнес. Данное замечание справедливо и по отношению к другим кластерам (с центрами в компаниях 11 и 23), но к сегментам средний и крупный бизнес соответственно.
Таблица 4. Кластеры, их центры и компании, входящие в
кластер
Class 1 2 3
Objects 35 45 20
Sum of weights 35 45 20
Within-class variance 0,000 0,001 0,000
Minimum distance to centroid 0,007 0,006 0,006
Average distance to centroid 0,010 0,016 0,012
Maximum distance to centroid 0,014 0,138 0,036
Company 1 company 10 company 20
Company 2 company 11 company 21
Company 3 company 12 company 22
Company 4 company 13 company 23
Companys company 14 company 24
Company 6 company 15 company 25
Company 7 company 16 company 26
Companys company 17 company 27
company9 company 18 company 28
Company 45 company 19 company 29
Company 46 company 30 company 40
Company 47 company 31 company 41
Company 48 company 32 company 42
Company 49 company 33 company 43
Company 50 company 34 company 44
Company 51 company 35 company 65
Для перепроверки результатов проведем кластеризацию k-means ^-средних). С помощью программного продукта JMP 9 удалось
получить графическое изображение кластеров в проекции 2Б и 3Б:
.л ВЗр1о1 ЗО
Также были выявлены показатели по всем 3-м кластерам (рисунок 4). Они показывают общие тенденции в потреблении конкретной услуги для каждого отдельного кластера и среднее потребление услуг по конкретному кластеру.
3 Cluster Means
Рис. 4. Показатели по потреблению услуг
В связи с большими объемами обрабатываемой информации о клиентах, как уже было сказано выше: «клиентами МТС генерируется более 20 миллионов записей в день. Что соответствует сотням миллионов операций и профайлов активности для описания важных характеристик каждого вызова...», предлагается использовать вейвлет-преобразование исходных данных о клиенте и его активности, с получением результатов без существенной потере информации. [4] Вейвлет-анализ является инструментом, разбивающим данные на составляющие с разными частотами, каждая из которых потом изучается с разрешением, подходящим по масштабу. [5] Дискретное разложение ряда записывается с помощью 2-х функций: функции масштабирования и вейвлет-функции.
Нами было выполнено разложение данных о клиенте с помощью вейвлет-функции Хаара до максимального уровня (по столбцам и по строкам - по услугам и по компаниям-потребителям услуг) и анализ полученных результатов, их кластеризация и сравнение с исходными данными. На первом этапе нами было произведено сжатие строк
матрицы с размерностью 100 х 6 (до третьего уровня). Соответственно было получено 8 групп компаний (по 13 в каждой), и была проанализирована их активность по потреблению каждой из услуг. Далее матрица 100 * 6 была сжата и по группам и по компаниям, то есть в результате получилось матрица с размерностью 13 X 3.
Затем данные были снова разбиты на кластеры (рисунок 5):
0,40,2- Ф а" |1 -0,4-■0,6= 0 3 0 2 0'
! ■3 1 1 1 ■2 1 ■1 0 Рпп 1 1 !
Рис. 5. Кластеризация матрицы 13 * 3
Сжатие по вейвлетам Хаара показало интересные результаты в плане дальнейшей кластеризации полученных данных, объединения их в более сгруппированные кластеры, имеющие минимальное стандартное отклонение, без потери первоначальных характеристик.
В работе показана возможность устойчивой сегментации клиентов телекоммуникационной компании на три кластера и возможность сжатия информации о клиентах, по крайней мере на порядок, без нарушения разбиения клиентов на кластеры. Включение предлагаемой методологии в практику деятельности компании обеспечит существенное повышение ее эффективности и привлекательности.
Библиографический список
1. Graham I., Service Oriented Business Rules Management Systems// TriReme International Ltd, 2005.
2. Harmon P. Business Rules //Business Process Trends, 2007 - №1.
3. Morgan T. Business Rules and Information Systems: Aligning IT with Business Goals. — Addison Wesley, 2002. — 384 p.
4. Romanov V., Veynberg R., Poluektova A. Customer-Telecommunications Company's Relationship Simulation Model (RSM), Based on Non-Monotonic Business Rules Approach and Formal Concept Analysis Method//SpringSim'11 Program Book, 2011.
Контактная информация:
117997 Российская Федерация, г. Москва, Стремянный пер., 36 Тел.: +7 (499) 958-24-10. E-mail: veynberg@rambler.ru E-mail: victorromanov1@gmail.com E-mail: bachyur@gmail.com
Contact links:
Stremyanny per. 36, 117997, Moscow, Russian Federation Tel.: +7 (499) 958-24-10. E-mail: veynberg@rambler.ru E-mail: victorromanov1@gmail.com E-mail: bachyur@gmail.com