Научная статья на тему 'Сегментация клиентов телекоммуникационной компании на основе кластерного анализа вейвлет-преобразования профиля пользователя'

Сегментация клиентов телекоммуникационной компании на основе кластерного анализа вейвлет-преобразования профиля пользователя Текст научной статьи по специальности «Экономика и бизнес»

CC BY
88
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЕЙВЛЕТ-ФУНКЦИЯ / WAVELET FUNCTION / ВЕЙВЛЕТ-РАЗЛОЖЕНИЕ / WAVELET DECOMPOSITION / КЛАСТЕРИЗАЦИЯ / CLUSTERING / МЕТОД СРЕДНИХ ЗНАЧЕНИЙ / AVERAGE METHOD / ПРОФИЛЬ ПОТРЕБЛЕНИЯ / CUSTOMER PROFILE / ТЕЛЕКОММУНИКАЦИОННЫЕ УСЛУГИ / TELECOMMUNICATION SERVICES

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Бачинин Ю.Г., Вейнберг Р.Р., Романов В.П.

В данной статье рассматривается применение метода кластеризации (k-means и AHC) к профилю потребления телекоммуникационных услуг однородных групп пользователей, собранного на основе данных прошлых периодов активности клиентов (c помощью макроса для MS Excel XLSTAT). Также в статье рассматривается применение вейвлет-разложения искомой информации по функции Хаара, с помощью инструментальных методов программного продукта Matlab, полученная информация анализируется и сравнивается с исходной.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Бачинин Ю.Г., Вейнберг Р.Р., Романов В.П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CUSTOMER SEGMENTATION FOR A TELECOMMUNICATION COMPANY BASED ON WAVELET TRANSFORM CLUSTERING OF A CUSTOMER’S PROFILE

This article discusses the use of clustering method (k-means and AHC) to profile the consumption of telecommunication services single-family user groups, based on data collected using last periods of client activity (using MS Excel macros XLSTAT). The article also examines the application of the wavelet decomposition of the required information, based on the Haar functions, with the help of instrumental methods of Matlab; the information is analyzed and compared with the original ones.

Текст научной работы на тему «Сегментация клиентов телекоммуникационной компании на основе кластерного анализа вейвлет-преобразования профиля пользователя»

СЕГМЕНТАЦИЯ КЛИЕНТОВ ТЕЛЕКОММУНИКАЦИОННОЙ КОМПАНИИ НА ОСНОВЕ КЛАСТЕРНОГО АНАЛИЗА ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ ПРОФИЛЯ ПОЛЬЗОВАТЕЛЯ

CUSTOMER SEGMENTATION

FOR A TELECOMMUNICATION COMPANY BASED ON WAVELET TRANSFORM CLUSTERING OF A CUSTOMER'S PROFILE

Бачинин Ю.Г. - к. ф.-м. н., доцент кафедры Информатики, Российский экономический университет имени Г.В. Плеханова

Вейнберг P.P. - старший преподаватель кафедры Информационных систем в экономике и менеджменте, Российский экономический университет имени Г.В. Плеханова

Романов В.П. - д. т. н., профессор кафедры Информационных систем в экономике и менеджменте, Российский экономический университет имени Г.В. Плеханова

Bachinin Y.G. - Cand. Sc. (Physics and Mathematics), Assistant Professor, Department for Computer Science, Russian Plekhanov University of Economics

Veynberg R.R. - Senior Lecturer, Department for Information Systems in Economics and Management, Russian Plekhanov University of Economics

Romanov V.P. - Doctor Sc. (Engineering), Professor, Department for Information Systems in Economics and Management, Russian Plekhanov University of Economics

Аннотация

В данной статье рассматривается применение метода кластеризации (k-means и AHC) к профилю потребления телекоммуникационных услуг однородных групп пользователей, собранного на основе данных прошлых периодов активности клиентов (c помощью макроса для MS Excel - XLSTAT). Также в статье рассматривается применение вейвлет-разложения искомой информации по функции Хаара, с помощью инструментальных методов программного продукта Matlab, полученная информация анализируется и сравнивается с исходной.

Abstract

This article discusses the use of clustering method (k-means and AHC) to profile the consumption of telecommunication services single-family user groups, based on data collected using last periods of client activity (using MS Excel macros - XLSTAT). The article also examines the application of the wavelet decomposition of the required information, based on the Haar functions, with the help of instrumental methods of Matlab; the information is analyzed and compared with the original ones.

Ключевые слова: вейвлет-функция; вейвлет-разложение; кластеризация; метод средних значений; профиль потребления; телекоммуникационные услуги.

Key words: wavelet function; wavelet decomposition; clustering; average method; customer profile; telecommunication services.

Рынок телекоммуникационных услуг регулярно пополняется новыми услугами: услуги для физических лиц (SMS, голосовые сообщения, MMS, мобильный интернет и т.д.), для малого бизнеса, партнерские программы для корпоративных клиентов, VTP-клиентов и прочих юридических лиц, содержащих большое количество условий и предложений в рамках каждой категории. Чтобы успешно конкурировать с другими провайдерами мобильной связи важно знать своих потребителей и иметь представление о желаниях и потребностях имеющихся текущих и потенциальных клиентов, необходимо разделить клиентов на сегменты, каждый из которых будет соответствовать определенному уникальному для его сегмента профилю потребления. [1] Профайл клиента - это атрибуты клиента, такие как, например, возраст, пол, доход и образ жизни (так называемые априорные характеристики), либо данные потребления им телекоммуникационных услуг (истории активности).

Сегментация - это процесс деления клиентов на однородные группы на основе обобщенных для каждого сегмента атрибутов,) извлеченных из общей базы данных, с помощью ретроспективных исторических наблюдений, или на основе экспертных суждений, накопленного опыта. Имея данные по сегментации и профили потребления, маркетологи и менеджеры способны принять решение о том, какие маркетинговые действия (или стратегические шаги) следует предпринять для каждого сегмента, а затем выделить необходимые ресурсы для имеющихся сегментов с целью удовлетворения конкретных потребностей входящих в этот кластер клиентов. В данной

статье нами были изучены и проанализированы данные о клиентах компании МТС, крупнейшего телекоммуникационного игрока на рынке услуг потребительской связи. Компания МТС является одним из лидеров телекоммуникационной отрасли Российской Федерации. Наряду с «Большой тройкой» (Билайн и Мегафон) - она занимает около 82% всего рынка мобильных услуг и мобильной связи (сюда входят как прямые услуги сотовой связи (голосовые), так и Интернет-серфинг и другие VAS услуги (Value Added Services -услуги, приносящие дополнительный доход - все неголосовые услуги и услуги, не связанные с передачей CSD-данных (Circuit Switched Data) и факсов, включая такие распространённые, как SMS, MMS, GPRS и пр.). [2] Компания МТС имеет следующую структуру корпоративных клиентов: малый, средний и крупный бизнес. Каждый раз, когда происходит процесс регистрации вызова внутри сети МТС, информации о вызове сохраняется в виде записи в базе данных. Число записей, которые создаются и хранятся на сервере, огромны, клиентами МТС генерируется более 20 миллионов записей в день, что соответствует сотням миллионов операций и профайлов активности для описания важных характеристик каждого вызова. Как минимум, каждая запись вызова включает в себя моменты начала и завершения разговора, телефонный номер, дату и время вызова и продолжительности звонка. Также подобные записи транзакций ведутся в рамках активности клиента при потреблении не только CSD, но и VAS услуг. [3]

В структурированном виде составляющие тарифной политики компании МТС можно представить в следующем виде (рисунок 1).

Рис. 1. Составляющие тарифной политики компании МТС

В рамках данной статьи мы будем рассматривать только левую часть рисунка 1 (VAS). Исходя из информации, хранящейся в базе данных по клиентам МТС, активности каждого клиента в процессе использования телекоммуникационной услуги и калькулятора тарифов на сайте МТС, были выделены следующие критерии, характеризующие каждого уникального потребителя (помесячно): звонки по домашнему региону, звонки внутри сети, звонки на стационарные телефоны, звонки на мобильные телефоны (не МТС), междугородний роуминг, международный роуминг, объем CMC трафика, объем ММС трафика, объем использования мобильного интернета, использование мобильного контента.

По данным ежеквартального отчета консалтинговой компании DSS, имеются данные для группы «Малый бизнес»: основываясь на месячной статистике активности клиентов этой группы (выборка была проведена на основе фокус-группы из 10 компании, численностью персонала до 50 человек) [4],данные по группе «Средний бизнес» (от 50 до 250 сотрудников на каждом предприятии), из всей совокупности было отобрано 10 компаний, «Крупный бизнес», - 10 предприятий, с количеством сотрудников более 250.

Имеется таблица с аналогичными данными, но уже по 100 предприятиям:

к В С D [ F G

1 Имя компании Подсмашнему региону Внутри сети На стационарные ге.пе^снь На мо&ильные телефоны (не МТС] Межгарод Международный роуминг

2 company 1 0,1508 0,2512 0,2515 0,1012 0,1312 0,1214

3 company! 0,148! 0,2411 0,2416 0,1113 0,1212 0,1114

4 company 3 0,1512 0,2412 0,2511 0,1112 0,1316 0,121В

5 company 4 0,1424 0,2413 0,2412 0,1012 0,1311 0,1217

Б company 5 0,1485 0,2414 0,2512 0,1014 0,1212 0,1114

1 Companys 0,1524 0,2415 0,2455 0,1064 0,1217 0,1214

8 company 7 0,1485 0,2416 0,2415 0,1115 0,1212 0,1119

5 сотрапуй 0,1551 0,2511 0,2414 0,1119 0,1315 0,1124

10 company) 0,148? 0,2412 0,2414 0,1122 0,1222 0,1236

Рис. 2. Данные о потреблении услуг по 100 предприятиям (фрагмент)

Проведем кластерный анализ методом иерархической кластеризацией, с помощью программы XLSTAT (макрос для MS Excel). Общая схема процедуры иерархической кластеризации, в ее теоретическом виде, представляет собой последовательность из 6-ти шагов. Процесс иерархической кластеризации заканчивается, когда все

объекты будут объединены в несколько классов или в один единственный класс. Процедура может быть также прервана на некотором шаге, когда индекс различия превысит некоторый пороговый уровень. В нашем случае разбиение на классы производилось с параметром: автоматическое. Программа автоматически делит компании на три кластера, в зависимости от потребления ими услуг, результаты анализа приведены таблицах 1-3.

Таблица 1. Центры кластеров

Кла сте ры По домашн ему региону Внутри сети На стациона рные телефон ы На мобильны е телефоны (не МТС) Межго род Междунар одный роуминг

1 0,149 0,243 0,245 0,108 0,126 0,118

2 0,316 0,111 0,345 0,026 0,126 0,150

3 0,236 0,053 0,233 0,025 0,153 0,353

Таблица 2. Расстояние между центрами кластеров

Расстояние между центрами кластеров 1 2 3

1 0 0,251 0,326

2 0,251 0 0,253

3 0,326 0,253 0

Таблица 3. Центральные объекты кластера (компании)

Компании По домашне му региону Внутр и сети На стационарн ые телефоны На мобильн ые телефон ы (не МТС) Межгор ОД Международн ый роуминг

Комп. 6 0,152 0,242 0,246 0,106 0,122 0,121

Комп. 11 0,316 0,110 0,346 0,022 0,121 0,149

Комп. 23 0,242 0,053 0,233 0,026 0,153 0,353

Нетрудно заметить, что показатели по центральным объектам имеют почти 100 процентную корреляцию и соответствие с регрессионными уравнениями:

Company 6 = b,152a+0,242b+0,246c+0,106d+0,122e+0,121f =

1 .г (a,b,c,d,e,f)

Company 11 = 0,316a+0,110b+0,346c+0,022d+0,121e+0,149f = J ": (a,b,c,d,e,f)

Company 23 = 0,242a+0,053b+0,233c+0,026d+0,153e+0,353f = (a,b,c,d,e,f)

Таким образом, все компании входящие в кластер 1, с центром в компании 6, относятся к сегменту малый бизнес. Данное замечание справедливо и по отношению к другим кластерам (с центрами в компаниях 11 и 23), но к сегментам средний и крупный бизнес соответственно.

Таблица 4. Кластеры, их центры и компании, входящие в

кластер

Class 1 2 3

Objects 35 45 20

Sum of weights 35 45 20

Within-class variance 0,000 0,001 0,000

Minimum distance to centroid 0,007 0,006 0,006

Average distance to centroid 0,010 0,016 0,012

Maximum distance to centroid 0,014 0,138 0,036

Company 1 company 10 company 20

Company 2 company 11 company 21

Company 3 company 12 company 22

Company 4 company 13 company 23

Companys company 14 company 24

Company 6 company 15 company 25

Company 7 company 16 company 26

Companys company 17 company 27

company9 company 18 company 28

Company 45 company 19 company 29

Company 46 company 30 company 40

Company 47 company 31 company 41

Company 48 company 32 company 42

Company 49 company 33 company 43

Company 50 company 34 company 44

Company 51 company 35 company 65

Для перепроверки результатов проведем кластеризацию k-means ^-средних). С помощью программного продукта JMP 9 удалось

получить графическое изображение кластеров в проекции 2Б и 3Б:

.л ВЗр1о1 ЗО

Также были выявлены показатели по всем 3-м кластерам (рисунок 4). Они показывают общие тенденции в потреблении конкретной услуги для каждого отдельного кластера и среднее потребление услуг по конкретному кластеру.

3 Cluster Means

Рис. 4. Показатели по потреблению услуг

В связи с большими объемами обрабатываемой информации о клиентах, как уже было сказано выше: «клиентами МТС генерируется более 20 миллионов записей в день. Что соответствует сотням миллионов операций и профайлов активности для описания важных характеристик каждого вызова...», предлагается использовать вейвлет-преобразование исходных данных о клиенте и его активности, с получением результатов без существенной потере информации. [4] Вейвлет-анализ является инструментом, разбивающим данные на составляющие с разными частотами, каждая из которых потом изучается с разрешением, подходящим по масштабу. [5] Дискретное разложение ряда записывается с помощью 2-х функций: функции масштабирования и вейвлет-функции.

Нами было выполнено разложение данных о клиенте с помощью вейвлет-функции Хаара до максимального уровня (по столбцам и по строкам - по услугам и по компаниям-потребителям услуг) и анализ полученных результатов, их кластеризация и сравнение с исходными данными. На первом этапе нами было произведено сжатие строк

матрицы с размерностью 100 х 6 (до третьего уровня). Соответственно было получено 8 групп компаний (по 13 в каждой), и была проанализирована их активность по потреблению каждой из услуг. Далее матрица 100 * 6 была сжата и по группам и по компаниям, то есть в результате получилось матрица с размерностью 13 X 3.

Затем данные были снова разбиты на кластеры (рисунок 5):

0,40,2- Ф а" |1 -0,4-■0,6= 0 3 0 2 0'

! ■3 1 1 1 ■2 1 ■1 0 Рпп 1 1 !

Рис. 5. Кластеризация матрицы 13 * 3

Сжатие по вейвлетам Хаара показало интересные результаты в плане дальнейшей кластеризации полученных данных, объединения их в более сгруппированные кластеры, имеющие минимальное стандартное отклонение, без потери первоначальных характеристик.

В работе показана возможность устойчивой сегментации клиентов телекоммуникационной компании на три кластера и возможность сжатия информации о клиентах, по крайней мере на порядок, без нарушения разбиения клиентов на кластеры. Включение предлагаемой методологии в практику деятельности компании обеспечит существенное повышение ее эффективности и привлекательности.

Библиографический список

1. Graham I., Service Oriented Business Rules Management Systems// TriReme International Ltd, 2005.

2. Harmon P. Business Rules //Business Process Trends, 2007 - №1.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Morgan T. Business Rules and Information Systems: Aligning IT with Business Goals. — Addison Wesley, 2002. — 384 p.

4. Romanov V., Veynberg R., Poluektova A. Customer-Telecommunications Company's Relationship Simulation Model (RSM), Based on Non-Monotonic Business Rules Approach and Formal Concept Analysis Method//SpringSim'11 Program Book, 2011.

Контактная информация:

117997 Российская Федерация, г. Москва, Стремянный пер., 36 Тел.: +7 (499) 958-24-10. E-mail: veynberg@rambler.ru E-mail: victorromanov1@gmail.com E-mail: bachyur@gmail.com

Contact links:

Stremyanny per. 36, 117997, Moscow, Russian Federation Tel.: +7 (499) 958-24-10. E-mail: veynberg@rambler.ru E-mail: victorromanov1@gmail.com E-mail: bachyur@gmail.com

i Надоели баннеры? Вы всегда можете отключить рекламу.