Научная статья на тему 'Метод количественной оценки качества кластеризации как часть интеллектуального анализа данных потребителей телекоммуникационных услуг связи'

Метод количественной оценки качества кластеризации как часть интеллектуального анализа данных потребителей телекоммуникационных услуг связи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
67
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / DATA MINING / КЛАСТЕРИЗАЦИЯ / КОЭФФИЦИЕНТЫ КЛАСТЕРИЗАЦИИ / СЕДЛОВАЯ ТОЧКА / ТЕЛЕКОММУНИКАЦИИ / TELECOMMUNICATION / CLUSTERING / COEFFICIENT OF CLUSTERING / ELBOWCRITERION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Вейнберг Р.Р.

В статье описывается применение метода оценки качества разби-ения на кластеры с помощью изгиба (седловой точки) а также иссле-дование и сравнение коэффициентов оценки качества кластеризациина основе данных использования услуг телекоммуникационной связи

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHOD OF QUANTIFYING CLUSTERINGQUALITYAS PART OF DATA MININGTELECOMMUNICATION SERVICES CONSUMERS

This article describes appliance of methods to assess quality of thepartition clusters using elbow criterion as well as research and comparisonassessing clustering quality, based on the use of services in telecommunications(user consumption).

Текст научной работы на тему «Метод количественной оценки качества кластеризации как часть интеллектуального анализа данных потребителей телекоммуникационных услуг связи»

МЕТОД КОЛИЧЕСТВЕННОЙ ОЦЕНКИ КАЧЕСТВА КЛАСТЕРИЗАЦИИ КАК ЧАСТЬ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ПОТРЕБИТЕЛЕЙ ТЕЛЕКОММУНИКАЦИОННЫХ УСЛУГ СВЯЗИ.

METHOD OF QUANTIFYING CLUSTERING QUALITY AS PART OF DATA MINING TELECOMMUNICATION SERVICES CONSUMERS.

Вейнберг Р.Р. — кандидат экономических наук, доцент кафедры информационных систем в экономике и менеджменте Российского экономического университета имени Г.В. Плеханова.

Veynberg R.R. — Cand. Sc. (Economics), Associate Professor of Information systems in economy and management department, Russian Plekhanov University of Economics.

Аннотация

В статье описывается применение метода оценки качества разбиения на кластеры с помощью изгиба (седловой точки) а также исследование и сравнение коэффициентов оценки качества кластеризации на основе данных использования услуг телекоммуникационной связи.

Abstract

This article describes appliance of methods to assess quality of the partition clusters using elbow criterion as well as research and comparison assessing clustering quality, based on the use of services in telecommunications (user consumption).

Ключевые слова: интеллектуальный анализ данных, кластеризация, коэффициенты кластеризации, седловая точка, телекоммуникации.

Keywords: data mining, clustering, coefficient of clustering, elbow criterion, telecommunication.

Задача проверки кластеризации связана с определением и оценкой правильности разбиения и выбора количества кластеров. Алгоритм кластеризации предназначен для параметризации кластеров и обеспечения наилучшего соответствия. Тем не менее, наилучшее соответствие

365

не всегда является эффективным решением. Количество кластеров может оказаться неправильным, или же формы кластеров могут не соответствовать фактическим группам в имеющихся данных. В наихудшем варианте данные вообще невозможно сгруппировать. Можно выделить два основных способа определения надлежащего количества кластеров в данных:

• Начать с достаточно большого количества кластеров и последовательно уменьшать их количество путем объединения кластеров с одинаковыми свойствами;

• Объединять в кластеры данные для различных значений центров кластеров с и проверять правильность полученных кластеров, используя методы проверки.

Для применения второго способа необходимо разработать методы проверки. В литературе предлагаются различные методы проверки, тем не менее, ни один из них не является идеальным [5,7]. Поэтому в настоящей статье используется совокупный ряд параметров, характеризующих оценку качества кластеризации: PC, CE, PI, 8!, XB, DI и ADI.

Обратите внимание на то, что коэффициент распределения (РС) и классификационная энтропия (СЕ) эффективны только для кластеризации с нечетким разбиением. Для нечетких кластеров индекс Данна (DI) и альтернативный индекс Данна (ADI) являются ненадежными. Это связано с преобразованием результатов, полученных с помощью метода четкого разбиения. Помимо вышеназванных коэффициентов, для определения оптимального количества кластеров в их графическом представлении, используется понятие под названием «критерий изогнутости». Критерий изогнутости (метод седловой точки) представляет собой общее правило выбора требуемого количества кластеров. Согласно критерию изогнутости, необходимо выбрать такое количество кластеров, чтобы добавление других кластеров не приводило к добавлению соответствующей информации [5,6]. При графическом представлении метода проверки кластеров по числу кластеров, первые кластеры будут добавлять больше информации (из-за большей дисперсии), но в какой-то момент прирост информации снизится, приводя к изогнутости (изгибу) графика. К сожалению, этот изгиб не всегда можно однозначно идентифицировать. Для того чтобы продемонстрировать работу критерия изогнутости, в качестве входных данных для алгоритмов кластеризации используются значения характеристик, представляющие поведение клиентов (данные по 12-ти

366

характеристикам). Для проведения экспериментов, из 5000 клиентов МТС случайным образом были выбраны 1000 клиентов. Большее количество клиентов привело бы к проблемам, связанным с вычислениями. Сначала оценивался алгоритм К-средних.

Значение коэффициента распределения для всех кластеров равняется 1, а классификационная энтропия — всегда «NaN №тЬег)>>. Это связано с тем, что эти две меры предназначены для методов нечеткого разбиения, а в данном случае алгоритм К-средних используется для четкого разбиения. На рисунке 1 показаны значения индексов распределения, разделения и Се-Бени. Еще раз отметим, что ни один из индексов не является надежным, если он будет использоваться в одиночку.

По этой причине показаны все индексы проверки. Оптимальный результат может отличаться при использовании разных методов проверки. Это означает, что оптимальное количество кластеров может быть выявлено при сопоставлении всех результатов.

Рис. 1. Значения индексов распределения, разделения и Се-Бени для алгоритма К-средних

361

Для того чтобы определить оптимальное количество кластеров, лучше всего рассматривать разбиения, содержащие небольшое число кластеров, когда различие между значениями методов проверки является минимальным.

Из рисунка 1 видно, что для Р1 и SI количество кластеров может быть ограничено 4. Для индекса Се-Бени (ХВ) ситуация является более сложной. Изгиб можно обнаружить при с = 3, с = 6, с = 9 или с = 13, в зависимости от определения и параметров изгиба.

На рисунке 2 показаны более информативные графики. Индекс Данна и альтернативный индекс Данна подтверждают, что для алгоритма К-средних оптимальное количество кластеров должно быть ограничено 4.

для алгоритма К-средних

Результаты всех методов проверки для используемых методов кластеризации в рамках критерия изогнутости приведены в соответствующем диссертационном исследовании, в связи с ограниченностью объемов данной статьи [5,7].

Обобщим результаты в таблице1 и 2 при с = 4 и с = 6 для всех используемых методов кластеризации.

Из таблиц 1 и 2 видно, что РС и СЕ бесполезны для методов четкой кластеризации К-средних и К-медоид. На основе значений трех наиболее часто используемых индексов (распределения, Се-Бени и Данна) можно сделать вывод, что наилучшие результаты демонстрирует алгоритм Гаф-Гева при с = 4 и алгоритм Густафсона-Кесселя при с = 6.

368

Таблица 1.

Результаты использования методов проверки для с = 4

PC CE PI SI XBI DI ADI

K-средних 1 NaN 1.1571 0.0002 5.0034 0.0034 0.0002

K-медоид 1 NaN 0.2366 0.0001 да 0.0084 0.0002

FCM 0.2800 1.3863 0.0002 42.2737 1.0867 0.0102 0.0063

GK 0.3983 1.0009 1.5930 0.0007 1.4183 0.0039 0.0039

GG 0.4982 1.5034 0.0001 0.0001 1.0644 0.0029 00030

Таблица 2.

Результаты использования методов проверки для с = 6

#

PC CE PI SI XBI DI ADI

K-средних 1 NaN 1.2907 0.0002 3.9253 0.0063 0.0001

K-медоид 1 NaN 0.1238 0.0001 да 0.00 0.0008

FCM 0.1667 1.7918 0.8903 19.4613 0.9245 0.0102 0.0008

GK 0.3044 1.4293 0.0001 0.0001 0.9203 0.0029 0.0007

GG 0.3773 1.6490 0.1043 0.0008 1.0457 0.0099 0.0009

#

Библиографический список

1. Вейнберг Р.Р. Моделирование процесса выявления предпочтений потребителей телекоммуникационного предприятия. Шаг в нау-ку-2013: статьи докладов победителей конкурса грантов науч.-исслед, работ аспирантов и молодых ученых. — М.: Изд-во РЭУ им. Г.В. Плеханова, 2013.

2. Вейнберг Р.Р. Развитие коммуникационных технологий в Российской Федерации: перспективы и трудности. Инновационное развитие российской экономики: III Междунар. науч.-практ, конференция Ч. 1. — М.: МЭСИ, 2010.

3. Вейнберг Р.Р. Методы и модели формирования предпочтений потребителей телекоммуникационных услуг. Шаг в науку-2012: статьи докладов победителей конкурса грантов науч.-исслед. работ аспирантов и молодых ученых. — М.: Изд-во РЭУ им. Г.В. Плеханова, 2012.

369

4. Вейнберг Р.Р. Применение интеллектуального анализа данных при проведении профилирования клиентов телекоммуникационного предприятия. Инициативы XXI века, 2012. — № 04.

5. Попов А.А. Лабораторный практикум по учебной дисциплине информационные системы в экономике. Известия Российского экономического университета им. Г.В. Плеханова. 2012. № 4 (9). С. 063-214.

6. Veynberg R.R., Romanov V.P., Poluektova A. Customer-Telecommunications Company's Relationship Simulation Model (RSM), Based on Rules Approach and Formal Concept Analysis Method. SpringSim'11: Spring Simulation Multiconference, 3-7 April 2011, Boston, MA, USA. — Boston, 2011.

7. Вейнберг Р.Р. Моделирование процессов выявления и формирования предпочтений потребителей телекоммуникационного предприятия: Дис. канд. экон, наук. Москва, 2013. 214 с. Машинопись.

Контактная информация:

117997 Российская Федерация, г. Москва, Стремянный пер., 36, Тел.: +7 (495) 958-24-10. e-mail: veynberg@rambler.ru

# Contact links: #

Stremyanny per. 36, 117997, Moscow, Russian Federation Tel.: +7 (495) 958-24-10. e-mail: veynberg@rambler.ru

370

i Надоели баннеры? Вы всегда можете отключить рекламу.