Научная статья на тему 'СРАВНИТЕЛЬНЫЙ АНАЛИЗ ДВУХ МЕТРИК КЛАСТЕРИЗАЦИИ ДАННЫХ О ПОТРЕБЛЕНИИ КОНТЕНТА'

СРАВНИТЕЛЬНЫЙ АНАЛИЗ ДВУХ МЕТРИК КЛАСТЕРИЗАЦИИ ДАННЫХ О ПОТРЕБЛЕНИИ КОНТЕНТА Текст научной статьи по специальности «Математика»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
контент / оценка качества / анализ данных / кластеризация / KMeans / агломеративная кластеризация / scikit-learn / AgglomerativeClustering / метод ближайших соседей / kNN / pandas / numpy / content / quality assessment / data science / clustering / KMeans / agglomerative clustering / scikit-learn / nearest neighbor method / kNN / pandas / numpy

Аннотация научной статьи по математике, автор научной работы — Мосин Владимир Геннадьевич, Козловский Владимир Николаевич

В статье исследуются характеристики двух методов определения оптимального числа кластеров. Первый метод хорошо известен, он основан на индексе Рэнда и состоит в вычислении матриц принадлежности. Второй метод предлагается впервые, он основан на вычислении дистанций между центроидами на обучающей и тестовой выборке.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Мосин Владимир Геннадьевич, Козловский Владимир Николаевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARATIVE ANALYSIS OF TWO METRICS OF THE CLUSTERING OF CONTENT CONSUMPTION DATA

The article examines the characteristics of two methods for determining the optimal number of clusters. The first method is well known; it is based on the Rand index and consists in calculating membership matrices. The second method is proposed for the first time, it is based on calculating the distances between centroids on a training and test sample.

Текст научной работы на тему «СРАВНИТЕЛЬНЫЙ АНАЛИЗ ДВУХ МЕТРИК КЛАСТЕРИЗАЦИИ ДАННЫХ О ПОТРЕБЛЕНИИ КОНТЕНТА»

Mosin Vladimir Gennadievich, candidate of physical and mathematical sciences, docent, yanbacha@yandex. ru, Russia, Samara, Samara State Technical University,

Kozlovsky Vladimir Nikolaevich, doctor of technical sciences, professor, head of the department, [email protected], Russia, Samara, Samara State Technical University

УДК 005.6

DOI: 10.24412/2071-6168-2024-2-609-610

СРАВНИТЕЛЬНЫЙ АНАЛИЗ ДВУХ МЕТРИК КЛАСТЕРИЗАЦИИ ДАННЫХ О ПОТРЕБЛЕНИИ

КОНТЕНТА

В.Г. Мосин, В.Н. Козловский

В статье исследуются характеристики двух методов определения оптимального числа кластеров. Первый метод хорошо известен, он основан на индексе Рэнда и состоит в вычислении матриц принадлежности. Второй метод предлагается впервые, он основан на вычислении дистанций между центроидами на обучающей и тестовой выборке.

Ключевые слова: контент, оценка качества, анализ данных, кластеризация, KMeans, агломеративная кластеризация, scikit-learn, AgglomerativeClustering, метод ближайших соседей, kNN, pandas, numpy.

1. Введение. Кластеризация данных — это процесс разделения набора данных на группы (кластеры) объектов, которые обладают схожими характеристиками или свойствами. Кластеризация позволяет выявить скрытые закономерности, структуры и отношения в данных, а также упростить их анализ и интерпретацию [5 - 7].

Хорошо известно, что определение оптимального числа кластеров является важнейшим этапом в процессе кластеризации, так как маленькое количество кластеров может недооценить сложность данных, в то время как слишком большое число кластеров может привести к переобучению [3].

1.1. Теоретическая часть. Для определения качества кластеризации используются так называемые метрики кластеризации.

1. Индекс силуэта (Silhouette Score). Измеряет, насколько каждый объект хорошо согласуется с кластером, к которому он был отнесен, и насколько отличается от соседних кластеров.

2. Индекс Дэвжа-Болдуэна (Davies-Bouldin Index). Используется для измерения среднего степени различия между кластерами. Чем меньше значение, тем лучше кластеризация.

3. Индекс Данна (Dunn Index). Измеряет отношение минимального интеркластерного расстояния к максимальному внутрикластерному расстоянию и помогает определить оптимальное количество кластеров.

4. Индекс Рэенда (Rand index). Используется для измерения согласованности между двумя различными присвоениями кластеров.

5. И другие.

Заметим, что среди известных методов оценки эффективности лишь индекс Рэнда апеллирует к разбиению данных для повторной кластеризации и сравнения результатов.

1.2. Постановки задачи. Мы предлагаем собственную метрику, для реализации которой, так же как и для метрик, основанных на вычисления индекса Ренда, требуется разбиение данных на два блока и последующее сравнение результатов кластеризации.

1.2.1. Предмет исследования. Мы будем исследовать нашу метрику эффективности агломеративной кластеризации, основанную на вычислении средней дистанции между центроидами кластеров на обучающей и тестовой выборке (подробнее о нашем алгоритме см. ниже, п. 2.2).

1.2.2. Методика исследования. Результаты, полученные по авторской методике, мы будем сравнивать с результатами, которые получаются при применении известного и апробированного метода, основанного на индексе Рэнда. Высокая согласованность результатов будет говорить о состоятельности нашего метода.

1.2.3. Цель исследования. Наша цель — применить свою метрику кластеризации к реальным данным (мы будем использовать данные о потреблении контента) и сопоставить результаты, полученные по нашей авторской методике с результатами, получающимися при помощи одного из известных методов, основанного на вычислении индекса Рэнда.

1.3. Технологии. Мы работаем с данными в среде Jupyter Notebook, которая предоставляет удобные инструменты для работы с языком программирования Python и его основными библиотеками: numpy, pandas, sklearn и matplotlib.

Одной из лучших библиотек для вычислений и обработки массивов данных в Python является библиотека numpy. Одномерные и многомерные числовые массивы эффективно обрабатываются с помощью предлагаемых библиотекой структур данных, алгоритмов и функций [2, 3].

Библиотека, специально созданная для работы с данными — pandas. Она тесно интегрирована с другими инструментами для анализа и вычислений данных на платформе Python, такими как numpy, sklearn и matplotlib [1].

Для кластеризации и применения метода ближайших соседей мы применяем библиотеку scikit-learn, которая также известна под именем sklearn. Библиотека sklearn является мощной и гибкой библиотекой машинного обучения, что делает ее отличным средством для реализации самых разнообразных моделей [3, 4].

2. Описание метрик. Мы будем сравнивать две метрики:

1. метрику, основанную на вычислении двух матриц принадлежности, которая была предложена в [2],

2. и нашу собственную метрику, основанную на вычислении расстояний между центроидами кластеров.

В данном разделе мы дадим краткое изложение идей, на которых основаны эти метрики.

2.1. Метрика матриц принадлежности. По сути, метрика, предложенная в [2], является одним из вариантов индекса Рэнда, хотя и с небольшими вариациями. Идея состоит в том, что данные разбиваются на обучающую и тестовую составляющие, после чего выполняются следующие действия.

609

1. Кластеризация обучается на обучающих данных и применяется к тестовым данным, в результате чего все объекты тестовых данных получают свои метки кластеров.

2. Вычисляется первая матрица принадлежности. Это квадратная матрица, порядок которой равен объему тестовой выборки, а компонентами служат 0, если два объекта тестовой выборки принадлежат разным кластерам, и 1, если они принадлежат одному кластеру.

3. Кластеризация обучается на тестовых данных и применяется к тестовым данным, в результате чего все объекты тестовых данных снова получают свои метки кластеров.

4. Вычисляется вторая матрица принадлежности по тому же принципу, что и первая.

5. Вычисляется разность двух матриц принадлежности. Она обладает нулевыми значениями везде, где матрицы принадлежности демонстрируют одно и то же значение, и ненулевыми там, где эти значения разные.

6. Вычисляется доля несовпадений. Чем ближе эта доля к 0, тем более качественной является кластеризация.

2.2. Метрика дистанций между центроидами. Мы предлагаем другой подход к оценке качества кластеризации. Так же, как и при вычислении индекса Рэнда, данные разбиваются на обучающую и тестовую выборки, после чего выполняются следующие действия.

1. Кластеризация обучается на обучающей выборке и применяется к обучающей выборке. В результате каждый объект обучающей выборки получает свою метку кластера.

2. Вычисляются центроиды кластеров на обучающей выборке.

3. Кластеризация обучается на тестовой выборке и применяется к тестовой выборке. В результате каждый объект тестовой выборки получает свою метку кластера.

4. Вычисляются центроиды кластеров на тестовой выборке.

5. Каждому центроиду из обучающей выборки подбирается пара их числа центроидов тестовой выборки по следующему принципу:

a. первая пара имеет наименьшую дистанцию из всех возможных,

b. вторая пара имеет наименьшую дистанцию из всех возможных при условии, что первая пара уже не учитывается,

c. третья пара имеет наименьшую дистанцию из всех возможных при условии, что первые две пары уже не учитывается

d. и так далее.

6. Вычисляется средняя дистанция между центроидами. Это и есть наша метрика. Чем ближе средняя дистанция к 0, тем более качественной является кластеризация.

3. Описание и предварительная подготовка данных. Данные, которые мы используем для кластеризации, представляют собой записи о 500 датах, начиная с 2021-08-20 и заканчивая 2023-01-01, о потреблении контента пользователями одного из ведущих хостингов. В каждую из этих дата были зафиксированы показатели потребления контента, такие, как 'Просмотры', 'Время просмотра (часы)', 'Поделились' и т. д. всего 18 признаков. Подробная структура данных описана ниже в п. 3.2.

3.1. Чтение данных. Мы читаем данные из файла *.csv при помощи метода read_scv библиотеки pandas. Результат записываем в переменную df, это датафрейм следующего вида:

3.2. Разведочный анализ. Для получения подробных сведений о данных применяем метод info библиотеки pandas:

# Column Non-Null Count Dtype

0 Просмотры 500 non-null float64

1 Время просмотра (часы) 500 non-null float64

2 Поделились 500 non-null float64

3 Постоянные зрители 500 non-null float64

4 Новые комментарии 500 non-null float64

5 Отказались от подписки 500 non-null float64

6 Новые подписчики 500 non-null float64

7 Новые зрители 500 non-null float64

8 Среднее число просмотров одним пользователем 500 non-null float64

9 Уникальные зрители 500 non-null float64

10 CTR для значков видео (%) 500 non-null float64

11 Показы 500 non-null float64

12 Подписчики 500 non-null float64

13 Средний процент просмотра (%) 500 non-null float64

14 Процент лайков 500 non-null float64

15 Средняя продолжительность просмотра 500 non-null float64

16 Дизлайки 500 non-null float64

17 Лайки 500 non-null float64

Видим, что данные содержат 500 объектов, описанных при помощи 18 признаков, все признаки относятся к типу с плавающей запятой, пропущенных данных нет.

3.3. Нормализация данных. Более подробный анализ проводим при помощи метода describe библиотеки pandas. Он дает представление о распределениях признаков, в частности — об их средних значениях:

min mean max std

Время просмотра (часы) 5.48 37.17 96.72 16.64

Поделились 0.00 6.96 71.00 6.25

Постоянные зрители 30.00 163.34 463.00 78.90

Новые комментарии 0.00 0.53 6.00 0.83

Отказались от подписки 0.00 2.77 29.00 2.55

Новые подписчики 0.00 6.49 19.00 3.51

Новые зрители 60.00 366.83 735.00 174.01

Среднее число просмотров одним пользователем 1.31 1.79 2.85 0.21

Уникальные зрители 96.00 530.18 1103.00 239.22

CTR для значков видео (%) 1.25 5.54 8.52 1.11

Показы 1938.00 8093.78 39479.00 3816.08

Подписчики -23.00 3.72 15.00 4.02

Средний процент просмотра (%) 18.68 26.72 41.29 3.41

Процент лайков 0.00 92.02 100.00 10.31

Средняя продолжительность просмотра 96.07 144.33 211.02 15.66

Дизлайки 0.00 1.28 10.00 1.34

Лайки -6.00 15.80 70.00 9.13

Видим, что значения некоторых признаков отличаются на порядки, что неизбежно приведет к искажению результатов. Поэтому мы выполняем стандартную нормализацию (называемую также стандартизацией) данных:

df = (df - df.mean())/df.std()

где метод mean возвращает средние значения признаков, а метод std — их средние квадратичные отклонения. После нормализации все признаки имеют нулевые средние значения и единичные дисперсии. Теперь метод describe показывает:

min mean max std

Время просмотра (часы) -1.90 0.00 3.57 1.00

Поделились -1.11 0.00 10.23 1.00

Постоянные зрители -1.69 0.00 3.79 1.00

Новые комментарии -0.64 0.00 6.57 1.00

Отказались от подписки -1.08 0.00 10.27 1.00

Новые подписчики -1.84 0.00 3.55 1.00

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Новые зрители -1.76 0.00 2.11 1.00

Среднее число просмотров одним пользователем -2.23 0.00 4.92 1.00

Уникальные зрители -1.81 0.00 2.39 1.00

CTR для значков видео (%) -3.84 0.00 2.67 1.00

Показы -1.61 0.00 8.22 1.00

Подписчики -6.63 0.00 2.80 1.00

Средний процент просмотра (%) -2.35 0.00 4.26 1.00

Процент лайков -8.92 0.00 0.77 1.00

Средняя продолжительность просмотра -3.08 0.00 4.25 1.00

Дизлайки -0.95 0.00 6.49 1.00

Лайки -2.38 0.00 5.93 1.00

Тем самым, дисбаланс в значениях признаков ликвидирован.

4. Результаты. В наших исследованиях обеих метрик варьируются два параметра: 1) количество кластеров, 2) объем тестовой выборки (процент от объема полных данных). Соответственно, результаты образуют таблицы с двумя входами, в которых строки маркируют число кластеров (в наших экспериментах это число менялось от 2 до 10), а столбцы — процент тестовой выборки (процент менялся от 10% до 90%).

4.1. Метрика матриц принадлежности. Напомним, что эта метрика, предложенная в [2], равна доле несовпадений в матрицах принадлежности, вычисленных на обучающей и тестовой выборке. Это величина лежит в пределах от 0 до 1, и чем ближе она к 0, тем более качественной является кластеризация.

Результаты, которые в ходе вычислений продемонстрировала метрика матриц принадлежности, таковы:

10% 20% 30% 40% 50% 60% 70% 80% 90%

2 0.127272 0.177920 0.173419 0.055838 0.037365 0.046611 0.167219 0.139077 0.125369

3 0.225936 0.230618 0.253282 0.264170 0.266239 0.265434 0.241874 0.231726 0.231631

4 0.210768 0.168450 0.169945 0.161031 0.151277 0.168187 0.176617 0.170586 0.215058

10% 20% 30% 40% 50% 60% 70% 80% 90%

5 0.209080 0.210542 0.212374 0.196456 0.201250 0.202999 0.200213 0.209339 0.230890

6 0.211328 0.212104 0.204552 0.200216 0.197215 0.203769 0.206299 0.212965 0.222296

7 0.195584 0.194290 0.191547 0.187928 0.193109 0.187174 0.194507 0.201525 0.216564

8 0.178928 0.177836 0.173201 0.173220 0.177965 0.175215 0.183199 0.187905 0.196826

9 0.163688 0.166084 0.165627 0.167279 0.164978 0.169143 0.170601 0.171284 0.186256

10 0.155136 0.154550 0.153262 0.152102 0.155335 0.156568 0.156948 0.160077 0.174340

4.1.1. Анализ по числу кластеров. Визуализируя столбцы сводной таблицы результатов, получаем серию кривых, каждая из которых соответствует тому или иному разбиению данных на обучающую и тестовую выборку (см. рис. 1).

о.з

23456789 10

Рис. 1. Доля несовпадений, соотнесенная с числом кластеров

Среди кривых нет ярко выраженной нижней кривой, которая давала бы визуальное представление о наилучшем процентном соотношении обучающей и тестовой выборки. Поэтому мы производим усреднение сводной таблицы по столбцам:

10%

20%

30%

40%

50%

60%

70%

80%

90%

0.186413 0.188044 0.188579 0.173138 0.171637 0.175011 0.188608 0.187165 0.199914

Теперь понятно, что наименьшее значение метрики матриц принадлежности приходится на 50% разбиение данных. Визуально такое усреднение означает спрямление кривых (см. рис. 1) к горизонтальным линиям на уровне их средних значений (см. рис. 2).

- 50%

23456789 10 Рис. 2. Доля несовпадений, усредненная по всем процентам тестовой выборки

4.1.2. Анализ по объему тестовой выборки. Визуализируя строки сводной таблицы, получаем серию кривых, соответствующих тому или иному числу кластеров (см. рис 3).

Рис. 3. Доля несовпадений, соотнесенная с процентом тестовой выборки

Очевидно, что наилучшие значения метрики приходятся на кривую, отвечающую разбиению на 2 кластера. Тем не менее, мы, так же как и выше, проиллюстрируем этот факт усреднением значений сводной таблицы. Теперь мы производим усреднение по строкам:

23456789 10

0.116677 0.245657 0.176880 0.208127 0.207861 0.195803 0.180477 0.169438 0.157591

Действительно, наилучшее значение метрики приходится на 2 кластера. Визуально это усреднение означает замену кривых (см. рис. 3) на горизонтальные линии (см. рис. 4).

4.2. Метрика дистанций между цетроидами. Для чистоты экспериментов при применении нашей методики мы использовали алгоритм кластеризации, отличный от того, каким были получены результаты предыдущего пункта. Выше, для метрики матриц принадлежности, мы применяли алгоритм КМеаш. Теперь, для метрики дистанций между центроидами, мы применяем агломеративную кластеризацию.

- 2 кластера 1

10% 20% 30% 40% 50% 60% 70% 80% 90% Рис. 4. Доля несовпадений, усредненная по всем кластерам

Напомним, что метрика, предлагаемая нами, равна среднему расстоянию между центроидами кластеров, полученных на обучающей и тестовой выборке. Она лежит в пределах от 0 до бесконечности, и кластеризация тем лучше, чем ближе эта метрика к 0.

Значения метрики дистанций, полученные в ходе экспериментов, таковы:

10% 20% 30% 40% 50% 60% 70% 80% 90%

2 3.870752 4.662957 5.655946 1.783088 0.786986 1.905101 4.509609 3.833707 2.357719

3 10.51072 10.38553 10.49342 10.60607 10.70236 10.64398 10.38718 10.48912 10.44261

4 8.521399 7.830299 7.773601 7.813191 7.424557 7.878854 7.577976 7.945945 8.663335

5 8.309321 8.192782 7.873138 7.936398 7.924422 8.060763 7.792261 8.336158 8.368217

6 8.310196 7.937754 7.408497 7.285618 7.340343 7.349813 7.488590 7.573855 8.322490

7 7.455373 6.789084 6.811973 6.846783 6.992607 6.721188 7.043173 7.035429 7.735061

8 6.985541 6.587748 6.329445 6.374098 6.315456 6.404256 6.438442 6.509589 6.930368

9 6.484173 6.218447 6.212675 6.105153 6.050509 6.215081 6.029099 6.154983 6.513094

10 6.106602 5.924564 5.780431 5.857069 5.820953 5.897839 5.835465 5.925273 6.189668

4.2.1. Анализ по числу кластеров. Визуализируя столбцы сводной таблицы результатов, получаем серию кривых, каждая из которых соответствует тому или иному разбиению данных на обучающую и тестовую выборку (см. рис. 5).

0 -1-1-1-1-1-1-1-1-1—

23456789 10

Рис. 5. Дистанция между центроидами, соотнесенная с числом кластеров

Усредняем кривые дистанций. Для этого проводим усреднение по столбцам сводной таблицы:

10% 20% 30% 40% 50% 60% 70% 80% 90%

7.394898 7.169908 7.148793 6.734163 6.595355 6.786320 7.011312 7.089340 7.280285

После усреднения кривые (см. рис. 5) становятся горизонтальными линиями (см. рис. 6), и низшая линия соответствует проценту тестовой выборки с наилучшим значением метрики.

- 50%

23456789 10

Рис. 6. Дистанция между центроидами, усредненная по всем процентам тестовой выборки

Видим, что наименьшее отклонение центроидов происходит при разбиении данных на обучающую и тестовую выборки в пропорции 50%:50%.

4.2.2. Анализ по объему тестовой выборки. Аналогично, визуализируя строки сводной таблицы, получаем серию кривых, соответствующих тому или иному числу кластеров (см. рис 7).

Есть ярко выраженная кривая, демонстрирующая, что наилучшее значение метрики достигается при разбиении данных на 2 кластера. Для того чтобы представить это преимущество численно, усредняем значения сводной таблицы по строкам:

23456789 10

3.262874 10.517893 7.936573 8.088162 7.668573 7.047852 6.541660 6.220357 5.926429

Рис. 7. Дистанция между центроидами, соотнесенная с процентом тестовой выборки

Получаем серию горизонтальных линий, низшая линия соответствует числу кластеров с наилучшим значением нашей метрики.

— кластера

10% 20% 30% 40% 50% 60% 70% 80% 90% Рис. 8. Дистанция между центроидами, усредненная по всем кластерам

5. Выводы.

5.1. Согласованность результатов. Прежде всего, следует отметить полную согласованность результатов, полученных по методике дистанции между центроидами, с результатами полученными в метрике матриц принадлежности. Разумеется, речь не идет о буквальном совпадении (или близости) значений этих метрик. Метрика, основанная на индексе Ренда, лежит в пределах от 0 до 1, а наша авторская метрика — в пределах от 0 до бесконечности, и совпадения быть не может. Но характер поведения кривых этих двух метрик полностью совпадают (см. рис. 1 и 5, а также рис. 3 и 6). Совпадают и основные выводы: наилучшее число кластеров равно 2, оптимальное соотношение выборок 50%:50%.

Более того, совпадают второстепенные выводы, к которым мы даже не стремились. Например, тот факт, что наихудшее число кластеров равно 3 (для обеих метрик). Или что разбиение на 4 кластера лучше, чем разбиение на 3 кластера, но хуже, чем разбиение на 2 кластера (что также демонстрируют обе метрики) и т. д.

В силу того, что индекс Рэнда является известным и хорошо зарекомендовавшим себя методом оценки качества кластеризации, наше исследование показало состоятельность авторской метрики для оценки эффективности разбиения данных на кластеры.

5.2. Область применения. Отметим также, что вновь предложенная авторская метрика обладает большее широкой областью применения: ее можно применять как к алгоритму KMeans, так и к результатам агломеративной кластеризации, в тот момент, как метрика, основанная на индексе Рэнда применима только к кластеризации KMeans.

Однако ни методы, основанные на индексе Рэнда, ни вновь предложенная метрика дистанции между центроидами неприменимы к кластеризации по алгоритму DBSCAN. Причина проста — DBSCAN сам решает, сколько кластеров получится на выходе из алгоритма. При повторном запуске он вполне может выдать (и, скорее всего, выдаст) новое число кластеров, отличное от предыдущего. Поэтому ни матрицы принадлежностей, ни пары центроидов построить в любом случае не удастся, и для алгоритма DBCSAN требуются другие метрики эффективности.

Список литературы

1. Хейдт М. Изучаем Pandas. Москва: ДМК Пресс, 2018. 438 с.

2. Бурков А. Машинное обучение без лишних слов. СПб: Питер, 2020. 192 с.

3. Вьюгин В.В. Математические основы теории машинного обучения и прогнозирования. М.: МЦИМО. 2013. 387 с.

4. Бринк Х., Ричардс Дж., Феверолф М. Машинное обучение. СПб.: Питер, 2017. 336 с.

5. Байков И.И., Семерова Е.А., Курмуков А.И. Метод ансамблирования алгоритмов кластеризации для решения задачи совместной кластеризации // Сенсорные системы. 2021. Т. 35. № 1. С. 43-49.

6. Паксашвили С.А. Тестирования алгоритма кластеризации k-means в решении задачи кластеризации финансовых операций // В сборнике: СНК-2022. Материалы LXXII открытой международной студенческой научной конференции Московского Политеха. Москва, 2022. С. 347-353.

7. Козловский, В.Н. Потребительская ценность качества автомобилей / В.Н. Козловский, Г.Л. Юнак, Д.В. Айдаров, С.А. Шанин // Стандарты и качество. 2017. № 12. С. 76-80.

Мосин Владимир Геннадьевич, канд. физ.-мат. наук, [email protected], Россия, Самара, Самарский государственный технический университет,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Козловский Владимир Николаевич, д-р техн. наук, профессор, заведующий кафедрой, [email protected], Россия, Самара, Самарский государственный технический университет

COMPARATIVE ANALYSIS OF TWO METRICS OF THE CLUSTERING OF CONTENT CONSUMPTION DATA

V.G. Mosin, V.N. Kozlovsky 614

The article examines the characteristics of two methods for determining the optimal number of clusters. The first method is well known; it is based on the Rand index and consists in calculating membership matrices. The second method is proposed for the first time, it is based on calculating the distances between centroids on a training and test sample.

Key words: content, quality assessment, data science, clustering, KMeans, agglomerative clustering, scikit-learn, nearest neighbor method, kNN, pandas, numpy.

Mosin Vladimir Gennadievich, candidate of physical and mathematical sciences, docent, yanbacha@yandex. ru, Russia, Samara, Samara State Technical University,

Kozlovsky Vladimir Nikolaevich, doctor of technical sciences, professor, head of the department, [email protected], Russia, Samara, Samara State Technical University

УДК 004.413

Б01: 10.24412/2071-6168-2024-2-615-616

ПЕРВИЧНЫЕ АСПЕКТЫ РАЗРАБОТКИ МЕТОДОЛОГИИ ПРОГНОЗИРОВАНИЯ ВОСТРЕБОВАННОГО

ПОТРЕБИТЕЛЯМИ КАЧЕСТВА ПРОДУКЦИИ МАШИНОСТРОЕНИЯ ПРИ ВЫХОДЕ КОМПАНИИ-ПРОИЗВОДИТЕЛЯ НА НОВЫЕ КОНКУРЕНТНЫЕ РЫНКИ

А.С. Клентак, В.Н. Козловский, А.В. Гусев

В работе представлены первичные результаты разработки методологии, на основе использования которой машиностроительная компания может спрогнозировать востребованную у потребителей оценку качества продукции, при выходе на новые конкурентные рынки.

Ключевые слова: конкурентоспособность, машиностроение, автомобилестроение, качество, прогнозирование.

Выход машиностроительной компании на новые конкурентные рынки должен сопровождаться серьезными аналитическими исследованиями в области оценки востребованного качества продукции со стороны потенциальных потребителей. С этой целью требуется разработка и реализация методологии прогнозирования востребованного потребителями качества продукции машиностроения при выходе компании производителя на новые конкурентные рынки

Для достижения цели связанной с определением прогнозной оценки требуемого потребителю качества продукции требуется решение следующих задач [1 - 3]:

1. выделение социокультурных доминант исследуемой территории и определение закономерностей их соответствия тенденциям и потребительским стандартам;

2. определение рациональных и символических способов повышения заинтересованности в наличии автомобиля с вскрытием закономерностей, мотивации и ожидания потенциальных потребителей;

3. дать оценку динамики автомобильного рынка (сегменты, емкость, производители) с определением его основных двигателей, а также с разработкой стратегии дальнейшего развития рынка;

4. определение типа потенциальных потребителей на автомобильном рынке, исходя из их психосоциального профиля.

Далее в работе, рассмотрим некоторые из первичных аспектов предлагаемых в рамках разрабатываемой методологии на примере выхода на компании - производителя на новый конкурентный автомобильный рынок [4].

Для решения задачи выделения социокультурных доминант исследуемой территории и определения закономерности их соответствия тенденциям и потребительским стандартам требуется оценить экономическую ситуацию внутри рассматриваемой территории, описать социальную структуру общества, рассмотреть механизмы стимулирования спроса и в заключение на основании этих данных описать социокультурные аспекты общества: его профиль, структурные детерминанты и факторы его стратификации [5].

Согласно анализу российского общества отечественный автомобильный рынок представляется сложной структурой. В области автомобильного спроса определяющим фактором является уровень дохода на той или иной территории, вследствие чего, в автомобильной рынок делится фактически на два крупных сегмента - это автомобильный рынок «Больших городов» и «Провинция» [6, 7].

Большие города. В данной категории можно выделить следующие детерминанты:

- высокий уровень обеспеченности;

- открытость к западным товарам и стилю образа жизни;

- большее внедрение иностранных автомобильных марок;

- большее разнообразие моделей (марки, модели).

Провинция. В данной категории можно выделить следующие детерминанты:

- более низкий уровень жизни и образования;

- меньшее проникновение товаров иностранного производства (в том числе автомобилей);

- меньшее влияние новых тенденций;

- большая дефектность дорог;

- большее влияние природных факторов и традиционных способов провождения свободного времени на природе (охота, рыболовная ловля).

Кроме того, можно выделить также яркие отличия рынка по направлениям западной и восточной территории. На восточной территории прослеживается ввоз большого количества поддержанных японских автомобилей (85% автомобилей на Дальнем Востоке имеют расположение руля справа, по сравнению с 8-9% в среднем по стране).

i Надоели баннеры? Вы всегда можете отключить рекламу.