Научная статья на тему 'СТРУКТУРИРОВАНИЕ ИССЛЕДУЕМОГО ОБЪЕКТА МЕТОДАМИ КЛАСТЕРИЗАЦИИ'

СТРУКТУРИРОВАНИЕ ИССЛЕДУЕМОГО ОБЪЕКТА МЕТОДАМИ КЛАСТЕРИЗАЦИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
10
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
анализ данных / кластерный анализ / кластеризация / data analysis / cluster analysis / clustering

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — О.В. Пашковская, И.А. Потапенко

Рассматриваются методы кластерного анализа данных, их особенности и применение.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STRUCTURING OF THE OBJECT UNDER STUDY BY CLUSTERING METHODS

The methods of cluster data analysis, their features and application are considered.

Текст научной работы на тему «СТРУКТУРИРОВАНИЕ ИССЛЕДУЕМОГО ОБЪЕКТА МЕТОДАМИ КЛАСТЕРИЗАЦИИ»

УДК 004.6

СТРУКТУРИРОВАНИЕ ИССЛЕДУЕМОГО ОБЪЕКТА МЕТОДАМИ

КЛАСТЕРИЗАЦИИ

О.В. Пашковская, И.А. Потапенко*

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнёва Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: potapenkorra@yandex.ru

Рассматриваются методы кластерного анализа данных, их особенности и применение.

Ключевые слова: анализ данных, кластерный анализ, кластеризация. STRUCTURING OF THE OBJECT UNDER STUDY BY CLUSTERING METHODS

O.V. Pashkovskaya, I.A. Potapenko*

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: potapenkorra@yandex.ru

The methods of cluster data analysis, their features and application are considered.

Keywords: data analysis, cluster analysis, clustering.

Анализ данных является крайне важным фактором успеха широкого спектра процессов. Эффективное использование данных приводит к улучшению понимания протекающего процесса и принятию наиболее результативных и действенных решений по отношению к процессу.

В отраслях, использующих закономерности, проявляющиеся в структурах, динамике и взаимосвязях социально-экономических явлений, используются статистические или количественные методы анализа данных. Существующие статистические методы анализа данных можно разделить на одномерные и многомерные методы анализа данных. Одномерные методы применяются в случаях, когда все отобранные элементы оцениваются общим измерителем, и каждый элемент анализируется отдельно от остальных.

Многомерные методы анализа данных в свою очередь характеризуется тем, что при оценке каждого элемента выборки используется два и более измерителя, а также весь объем данных анализируется одновременно. Многомерные методы используются для поиска взаимосвязей между двумя и более параметрами.

Кластерный анализ - это многоуровневый анализ данных, который позволяет исследовать зависимости нескольких входных параметров в совокупности с другими параметрами. Кластеризация представляет собой многомерное статистическое исследование, которое собирает данные о выборке объектов, упорядочивающих объекты в относительно однородные группы [1].

Цель кластерного анализа - разбить данные на относительно однородные кластеры, основываясь на рассматриваемом наборе переменных. Классом называют группу объектов, выделенную из результатов кластерного анализа на основе указанной мерки сходства между объектами.

Секция «Информационно-экономические системы»

При этом кластерный анализ может быть разделен на несколько этапов. Для того чтобы выбрать объекты для кластеризации, необходимо предварительно провести отбор выборки объектов, а затем подготовить данные к кластеризации. При необходимости производится нормализация значений переменных. Вычисляется мера сходства объектов, выбранных для кластеризации с отобранными для нее объектами, и применяется метод кластеризации.

Вычисление сходства между объектами кластеризации, производится с помощью представления объектов как точки в п- мерном пространстве и нахождения расстояний между ними. В качестве методов расчета сходства могут быть использованы следующие функции расстояний.

Евклидово расстояние - наиболее популярная метрика, является геометрическим расстоянием в многомерном пространстве. Данная метрика, как и большинство других, чувствительна к изменению единиц измерения осей, поэтому крайне важно перед кластеризацией, провести предварительную стандартизацию исходных данных. Квадрат Евклидова расстояния используют, если необходимо придать большие веса более отдаленным друг от друга объектам.

Могут использоваться и другие метрики. Например, Расстояние Чебышева применяется, при необходимости определить два объекта как различные, если они различаются по какой-либо одной координате. Расстояние Минковского применяется, когда нужно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. В случае, если объекты кластеризации невозможно представить как точки в п-мерном пространстве, используется метрика 1 - коэффициент корреляции Пирсона.

Все алгоритмы кластерного анализа делятся на иерархические и неиерархические. Иерархические или древовидные процедуры кластеризации наиболее распространены в рамках существующих реализаций на электронно-вычислительных машинах.

Древовидные процедуры кластеризации разделяются на итеративные дивизивные и агломеративные. Агломеративные процедуры работают по принципу последовательного объединения групп элементов, сначала самых близких, а после все более отдаленных друг от друга. Иерархические дивизивные, в отличие от агломеративных, последовательно разделяют группы элементов, сначала наиболее далеких, а затем все более близких друг к другу.

Методы кластеризации позволяют рассматривать большие объемы различной информации, сокращая их, делая данные компактными и однородными. Этим обусловлен широкий спектр применения кластерного анализа.

В своем исследовании о применения кластерного анализа в оценке экономической безопасности, Ф.В. Петров, оценил преимущества использования кластерного анализа для определения размера теневой экономики ВВП России в сравнении с зарубежными странами. В результате исследования были получены кластеры, содержащие в себе группы стран, характеризующиеся экономической развитостью относительно доли теневой экономики, и на их основе сделаны выводы о текущем состоянии экономической безопасности [2].

Зангиев Т.Т., Частикова В.А., Тугушева З.Я. и Гунай Ф.Р. в рамках своего исследования применяли кластерный анализ в биометрической идентификации пользователя. Авторами был рассмотрен пример усовершенствования методики идентификации человека по голосу, путем использования разработанной кластерной карты характеристик голоса по заданному слову. В результате исследования был сделан вывод о том, что данная методика универсальна, и она дает возможность применения ее к различным предметным областям с помощью изменения действующих настроек параметров и характеристик кластеризации [3].

В статье об изучении генофонда гороха посевного с применением кластерного анализа, Шурхаева К.Д. и Фадеева А.Н. рассмотрели использование методов кластеризации для выявления дифференциации образцов зернового гороха. В качестве меры сходства, авторы использовали Евклидово расстояние и проводили анализ по 7 хозяйственно ценным

признакам. На основании кластеризации, в рамках исследования было построено дерево классификации сортов для каждого морфотипа и сделаны выводы о генофонде рассматриваемого посевного гороха [4].

При исследовании различных объектов возникает необходимость в компьютерной обработке данных и применении многомерных статистических методов. Например, при анализе данных исследований экосистемы реки Енисей [5,6]. Подробное изучение практики применения кластерного анализа позволяет сделать вывод о возможности использования данного метода в изучении результатов экологических исследований [7].

Возможность обрабатывать многомерные данные, не накладывая ограничений на их представление, обуславливает широкий спектр применения кластерного анализа. Кластеризацию данных проводят в экономике и маркетинге, медицине и психологии, химии и биологии и так далее. Помимо всего прочего, на основе кластерного анализа можно делать прогнозные выводы о поведении того или иного исследуемого объекта.

Библиографические ссылки

1. Клименко А.В., Слащев И.С. Кластерный анализ данных // Вестник науки. 2019. №1 (10). С. 159-163.

2. Петров Ф.В. Применение кластерного анализа в оценке экономической безопасности // Экономика и бизнес: теория и практика, 2019. №8, С. 129-131.

3. Применение кластерного анализа в биометрической идентификации пользователя / Т.Т. Зангиев, В.А. Частикова, З.Я. Тугушева, Ф.Р. Гунай // Вестник Адыгейского государственного университета. Серия 4: Естественно-математические и технические науки, 2018. №2 (241). С. 54-58.

4. Шурхаева К.Д., Фадеева А.Н. Изучение генофонда гороха посевного с применением кластерного анализа // Зернобобовые и крупяные культуры, 2020. №1 (33). С. 16-23.

5. Пашковская О. В., Новоселов О. В., Потапенко И.А. Анализ данных в геоинформационных системах // Материалы XXIV Международной научно-практической конференции «Решетневские чтения», посвящ. памяти генерального конструктора ракетно-космических систем академика М.Ф.Решетнева (10-13 ноября 2020 г., г. Красноярск) : В 2 ч. / под общ. ред. Ю.Ю. Логинова ; СибГУ им. М.Ф.Решетнева - Красноярск, 2020. - Ч.2. -Режим доступа: https://reshetnev.sibsau.ru/page/materialy-konferentsii. - Загл. с экрана. С.345-346.

6. Мустыгина Е.С., Пашковская О.В. Использование географических информационных систем в экологических исследованиях // Материалы XXV Международной научно-практической конференции, посвящ. памяти генерального конструктора ракетно-космических систем академика М.Ф.Решетнева (10-12 ноября 2021, г. Красноярск) : В 2 ч. / под общ. ред. Ю.Ю. Логинова ; СибГУ им. М.Ф.Решетнева - Красноярск, 2021. - Ч.2. - С. 314-315. - Режим доступа: https://reshetnev.sibsau.ru/page/materialy-konferentsii.

7. Сучков В. А., Пашковская О.В., Андрианова А.В. Особенности формирования базы эко-данных в геоинформационной системе ОСТБ // Материалы XXV Международной научно-практической конференции, посвящ. памяти генерального конструктора ракетно-космических систем академика М.Ф.Решетнева (10-12 ноября 2021, г. Красноярск) : В 2 ч. / под общ. ред. Ю.Ю. Логинова ; СибГУ им. М.Ф.Решетнева - Красноярск, 2021. - Ч.2. - С. 328-329. - Режим доступа: https://reshetnev.sibsau.ru/page/materialy-konferentsii.

© Пашковская О.В., Потапенко И. А., 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.