Научная статья на тему 'Применение карт Кохонена для анализа уровня жизни населения и социальной сферы по городам ростовской области'

Применение карт Кохонена для анализа уровня жизни населения и социальной сферы по городам ростовской области Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
439
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
кластерный анализ / карта Кохонена / социальноэкономические показатели / анализ уровня жизни. / cluster analysis / Kohonen map / socio-economic indicators / analysis of living standards.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Курбесов Александр Валерианович, Туров Вадим Игоревич, Кухаренко Eлизавета Александровна, Данилова Татьяна Викторовна

Целью работы является проведение кластерного анализа уровня жизни населения и социальной сферы субъектов Ростовской области с помощью самоорганизующихся карт Кохонена и обработка полученных результатов. Инструментом кластерного анализа выбрана нейронная сеть Кохонена, эмулируемая в среде IDE Visual Studio. В качестве субъектов авторам параметров обучения нейронной сети послужили четыре города. Городами-лидерами оказались: Ростов-на-Дону и Волгодонск, отстающими Новочеркасск и Батайск. Экспериментальная обработка полученных кластеров проводилась в средеVisual Studio на основе визуализации многомерных данных с помощью самоорганизующихся карт Кохонена. Объективность полученных авторами результатов подтверждается их идентичностью с результатами кластерного анализа с помощью алгоритма k-means.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Курбесов Александр Валерианович, Туров Вадим Игоревич, Кухаренко Eлизавета Александровна, Данилова Татьяна Викторовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF KOHONEN CARDS FOR ANALYSIS OF LIVING STANDARDS OF POPULATION AND SOCIAL SPHERE BY CITIES OF ROSTOV REGION

The aim of the work is to conduct a cluster analysis of the standard of living of the population and the social sphere of the subjects of the Rostov region with the help of self-organizing maps of Kohonen and processing of the results. The cluster analysis tool selected the Kohonen neural network emulated in the visual Studio IDE. Four cities served as subjects for the authors of neural network learning parameters. Cities-leaders were: Rostov-on-don and Volgodonsk, lagging behind Novocherkassk and Bataysk. Experimental processing of the obtained clusters was carried out in Visual Studio based on visualization of multidimensional data using self-organizing Kohonen maps. The objectivity of the results obtained by the authors is confirmed by their identity with the results of cluster analysis using the k-means algorithm.

Текст научной работы на тему «Применение карт Кохонена для анализа уровня жизни населения и социальной сферы по городам ростовской области»

https://news.adidas.com/running/adidas-4d-redefines-running-for-your-sport-with-all-new-fw18-alphaedge-4d/s/2adc084e-0dda-4f4d-87b9-f6b2fda13d67. - (Дата обращения: 15.04.2019).

УДК 004.02

Курбесов Александр Валерианович,

доцент, канд. экон. наук, Туров Вадим Игоревич, старший преподаватель Кухаренко Eлизавета Александровна, старший преподаватель, Данилова Татьяна Викторовна, старший преподаватель,

ПРИМЕНЕНИЕ КАРТ КОХОНЕНА ДЛЯ АНАЛИЗА УРОВНЯ ЖИЗНИ НАСЕЛЕНИЯ И СОЦИАЛЬНОЙ СФЕРЫ ПО ГОРОДАМ

РОСТОВСКОЙ ОБЛАСТИ

Россия, Ростов-на-Дону, Ростовский государственный экономический университет («РИНХ»), akurbesov@yandex.ru

Аннотация. Целью работы является проведение кластерного анализа уровня жизни населения и социальной сферы субъектов Ростовской области с помощью самоорганизующихся карт Кохонена и обработка полученных результатов. Инструментом кластерного анализа выбрана нейронная сеть Кохонена, эмулируемая в среде IDE Visual Studio. В качестве субъектов авторам параметров обучения нейронной сети послужили четыре города. Городами-лидерами оказались: Ростов-на-Дону и Волгодонск, отстающими - Новочеркасск и Батайск. Экспериментальная обработка полученных кластеров проводилась в средеVisual Studio на основе визуализации многомерных данных с помощью самоорганизующихся карт Кохонена. Объективность полученных авторами результатов подтверждается их идентичностью с результатами кластерного анализа с помощью алгоритма k-means.

Ключевые слова: кластерный анализ, карта Кохонена, социально-экономические показатели, анализ уровня жизни.

Alexander V. Kurbesov,

Associate professor, K. E. N., Vadiv I. Turov, Teacher

Elisaveta A. Kukharenko, Teacher Tatiana V. Danilova,

Teacher.

APPLICATION OF KOHONEN CARDS FOR ANALYSIS OF LIVING STANDARDS OF POPULATION AND SOCIAL SPHERE BY CITIES

OF ROSTOV REGION

Russia, Rostov-on-Don, Rostov State University of Economics («RINH»), akurbesov@yandex.ru

Abstract. The aim of the work is to conduct a cluster analysis of the standard of living of the population and the social sphere of the subjects of the Rostov region with the help of self-organizing maps of Kohonen and processing of the results. The cluster analysis tool selected the Kohonen neural network emulated in the visual Studio IDE. Four cities served as subjects for the authors of neural network learning parameters. Cities-leaders were: Rostov-on-don and Volgodonsk, lagging behind - Novocherkassk and Bataysk. Experimental processing of the obtained clusters was carried out in Visual Studio based on visualization of multidimensional data using self-organizing Kohonen maps. The objectivity of the results obtained by the authors is confirmed by their identity with the results of cluster analysis using the k-means algorithm.

Keywords: cluster analysis, Kohonen map, socio-economic indicators, analysis of living standards.

Современные взгляды на состояние социальной сферы требуют научного подхода к анализу возникающих проблем. Такой подход в настоящее время стал необходимым и обязательным условием.

Анализ различных социальных факторов задействует широкий спектр различных экспертных методов, метод бальных оценок и др.

Изучение социальной сферы осложняется большим количеством разнородных показателей и их большой размерностью. Одним из широко применяемых подходов многомерного анализа является кластеризация. Чрезвычайно эффективным инструментом такого анализа может выступать самоорганизующаяся нейронная сеть, введенная в практику финским ученым Тойво Кохоненом в 1984 г. Важным преимуществом такой сети, по сравнению с другими подходами, является возможность наглядного отображения получаемых результатов.

Структура самоорганизующейся сети Кохонена

Сети Кохонена могут использовать неупорядоченные нейроны (слои Кохонена) и самоорганизующиеся карты, которые строятся на основе упорядоченных нейронов. Важным преимуществом этих сетей, является возможность ее обучения без учителя и специфический механизм конкуренции.

Каждый слой подобной нейронной сети представляет собой нейронную сеть, которая содержит один слой, а ее конкурирующая передаточная функция анализирует выходные значения для всех нейронов последнего слоя и выбирает максимальное из этих значений. Кратко опишем алгоритм функционирования такой сети. При автоматической классификации или при big data или data mining могут возникать перекосы исходных данных из-за проблемы размерности. Если какие-то числа бу-

дут очень большие, какие-то очень маленькие, это может привести к существенным погрешностям в работе алгоритма. Поэтому первым делом мы должны нормировать X. Maxn=maxm, Xnm, n=1.. .N:

1. Minn=maxm Xnm, n=1.. .N

2. an=(Maxn- Minn)-1 bn= Minn/(Maxn- Minn) Если максимум и минимум совпадает, то у столбца должны быть одинаковые значения. В этом случае такой столбец следует удалить из исходных данных.

3. Xnm=anXnm+bn, легко заметить, что у нас где Xnm равно мах, выражение обращается в 1, где min обращается в 0. После окончания работы алгоритма имеет смысл провести операцию денормировки, - возврата чисел от относительных величин к исходным значениям.

4. Возьмем случайную величину на этом интервале. Напомню что, исходные данные нормированы на участке от 0 до 1, и мы с размерностью не пересекаемся. При этом существует риск, что алгоритм будет работать при разных запусках по-разному. Для рассматриваемого алгоритма, если данные удачно классифицируются, то начальные данные повлияют только на названия классов. Если мы будем несколько раз запускать алгоритм, на одних и тех же данных, группировка по классам будет сохраняться, а нумерация классов будет всегда разниться. Если же мы будем классифицировать на завышенное число классов, то это может привести к неустойчивости каждого класса в отдельности

5. Выбираем коэффициент обучения: X

6. Пока X>0 выполнять следующие шаги

6.1. Повторять L раз, (в наших исследованиях мы использовали L =10

6.2. Для каждого хm данного 6.1 ищем вектор wk, который наиболее близок к вектору хm Это характерная для сети Кохонена

6.3. Мы должны скорректировать вектор w в соответствии с

обучающей процедурой:

Wkn= Wkn+X(xmn- Wkn)

6.4. X=X- A X(=0.05)

В результате этих действий наша сеть обучена.

Для визуального представления многомерных свойств объектов предназначены карты Кохонена или самоорганизующиеся карты.

Карты Кохонена

Самоорганизующиеся карты Кохонена это особый вид нейронных сетей, которые используют при кластеризации данных. Объекты, между векторами которых минимальное расстояние попадают в близко лежащие ячейки, которые обычно имеют шестиугольную форму. Приведем краткий алгоритм построения такой карты:

1. w - инициализируем случайными величинами и(0,1). Как уже отмечалось при повторном запуске алгоритма, мы практически всегда будем получать разные карты, при инвариантной интерпретации

2. Введем параметр времени т=1

3. Выбираем случайный элемент Х из множества {Хисхдан} Находим нейрон wm наиболее близкий к вектору Х. Близость нейронов определяется весами.

4. Корректируем веса, но не только того нейрона, который наиболее близок, а всех нейронов сети.

Wmn= Wmn + 5(1) Ь(1,р(тп(пробегает по всем), т*(нейрон победитель))

[Хп- Wmn],

где п=1,Н m=1,M

5(1)= 50ехр(-а1);

Ь(1,р)=ехр(-р2/2б(1));

б(1)= боехр(-Ы);

5. 1=1+1

6. Переход к шагу 3.

Условием выхода из алгоритма является затухание обучения. Подчеркнем, что первоначально нейроны не связаны между собой. Для тренировки подобной сети потребовалось около 10 итераций.

Таким образом, результаты применения алгоритма кластеризации, легко представить в простой и наглядной форме. Для этого достаточно окрасить узлы карты в цвета, соответствующие интересующим объектам. В соответствии со средним значением этого атрибута данные попадают в определенную ячейку. В результате этого каждый атрибут данных генерирует свою собственную раскраску ячеек карты. Собрав воедино карты всех интересующих признаков, можно сформировать топографический атлас, который дает целостное представление о структуре многомерных данных (рис. 3) [3].

Поэтому самоорганизующиеся карты удобно использовать для решения задач анализа, а также моделирования, прогнозирования, поиска закономерностей в больших массивах данных, выявлении наборов независимых признаков и др.

Постановка задачи

Произвести оценку показателей уровня жизни населения и социальной сферы по городам Ростовской области на основе методов кластеризации данных

Задачи исследования:

- сбор и предварительная обработка данных, отражающих уровень жизни населения городов Ростовской области;

- кластеризация исходных данных с помощью Карт Кохонена;

- определение кластеров, к которым относятся наиболее большие и малые данные;

- анализ полученных результатов.

Проведение исследований

Исходные данные для исследований сведены в одну таблицу, сохраненную в csv-формате с разделителями в виде запятых. Фрагмент исходных данных приведен в таблице 1. Подготовленный таким образом файл данных возможно использовать для импорта в IDE Visual Studio. После импорта csv-файла, данные были проанализированы на пригодность для дальнейшего использования.

Для инициализации карты (установки начальных значений для узлов сети) использовались значения из собственных векторов, равномерно распределенные в диапазоне значений входных данных.

Обучение карты проводилось несколько раз с одинаковыми значениями параметров обучения, варьировались радиусы соседства для всех этапов обучения. Для каждого набора значений параметров обучения использовалось несколько вариантов случайной начальной инициализации.

Таблица 1

Данные об уровне жизни населения и социальной сфере_

УРОВЕНЬ ЖИЗНИ НАСЕЛЕНИЯ И СОЦИАЛЬНАЯ СФЕРА

Ростов-на-Дону Батайск Волгодонск Новочеркасск

Наименование показателя 2009г. 2010г. 2009г. 2010г. 2009г. 2010г. 2009г. 2010г.

Среднемесячная номинальная начисленная заработная плата3), руб. 19178 21054 15668 17389 19009 20226 14548 15478

Средний размер назначенных пенсий, руб. 6141,5 7597 5881,4 7264,1 5712,8 7027,2 5986,8 7371,1

Численность пенс-ров, тыс. чел. 274,5 277,3 28,3 28,6 44,1 45,4 51,1 50,9

Общая площадь жилых помещений, приходящаяся в среднем на одного городского жителя (на конец года)2), м2 22,3 22,3 19,7 18,4 21 21,3 20,8 22

УРОВЕНЬ ЖИЗНИ НАСЕЛЕНИЯ И СОЦИАЛЬНАЯ СФЕРА

Ростов-на-Дону Батайск Волгодонск Новочеркасск

Наименование показателя 2009г. 2010г. 2009г. 2010г. 2009г. 2010г. 2009г. 2010г.

Число дошкольных образовательных учреждений 183 183 27 27 34 35 47 47

в них:

детей, тыс. человек 30,9 32,3 3,7 3,9 7,4 7,4 5,8 6

мест, тыс. 20,6 27,5 2,8 2,7 6,7 6,7 5,5 5,2

Число общеобразовательных учреждений (без вечерних (сменных) общеобразовательных учреждений) (на начало учебного года) 142 140 14 14 25 22 28 28

Численность обучающихся общеобразовательных учреждений (без вечерних (сменных) общеобразовательных учреждений), тыс. человек 84,7 84,8 9,7 9,9 12,7 13 14,6 14,6

Численность врачей, человек:

всего 8904 9220 410 386 638 651 608 582

на 10 000 чел. населения2) 85 84,5 39,4 34,3 37,7 38,2 34,4 34,4

Численность ср. мед. персонала, чел.:

всего 12336 12756 806 804 1954 1975 1785 1773

на 10 000 чел. 117,7 116,9 77,4 71,5 115,6 115,8 101 104,7

Число больничных учреждений 37 39 2 1 5 5 11 11

Число больничных коек круглосуточных стационаров:

всего 11,4 11,6 0,9 0,9 1,4 1,2 2 2

На карте, представленной на рис. 1, вес нейронов подстраивается под значение входных переменных и отображает их внутреннюю структуру. Для каждого входа рисуется своя карта, раскрашенная в соответствии со значениями веса нейронов.

Из полученного рисунка мы видим, что красным цветом выделены самые высокие показатели, полученные из данных о среднемесячной з/п и средний размер назначенных пенсий.

На второй позиции находятся данные приближенные по значению к первому уровню._

- Сеть — П X

.............

ь : 8

Количество записей: 15

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

классов: 3 Построить карту

• £ • ■ м 1 Выход

Рис. 1. Карта с данными о среднемесячной з/п и средний размер назначенных пенсий

На третьей позиции находятся все остальные данные с наименьшими показателями. Это можно заметить по расстоянию, на котором классы находятся друг от друга.

После перестроения карты мы видны изменения (рис. 2). Так как, карта решает задачи «без учителя», то в получении новой карты происходит новая информация о классах, тем самым происходит возможность коррекции существующих правил классификации объектов.

1 Е Сеть — □ X 1

■ ^ 1Н] ар ■ Выбрать источник

Размерность : 8

• •

• Количество записей : 15

Количество классов: 2

Построить карту =□

Выход

Рис. 2. Новая карта с новой информацией о классах

Далее построим карту по данным города Ростов-на-Дону за 2009 (рисунок 3) и 2010гг (рис. 4).

Выбрать источник

• • Размерность : 1 Количество записей : 15 Количество классов: 10

Построить карту

Выход

Рис. 3. Карта по данным города Ростов-на-Дону за 2009

КЗ Сеть — П X

[¡3 [□] spi

1 Be Soot, »r™

Размерность : 1 Количество классов: 10

Построить карту

Выход

Рис. 4. Карта по данным города Ростов-на-Дону за 2010

В ходе анализа данных, которые наглядно представлены на рисунках 3 и 4, видно, что высоких показателей в 2010 году стало меньше, а низких больше. После анализа заметим уменьшение численности врачей на 10000 чел. населения и уменьшение числа образовательных учреждений. Полученная объективная информация может быть использована для выработки стратегии по улучшению жизни населения.

Заключение

Результаты проведенного анализа позволяют с уверенностью сделать вывод об эффективности применения разработанного программного обеспечения карт Кохонена в задаче кластеризации субъектов Ростовской области.

Для проверки полученных результатов был выполнен кластерный анализ с использованием алгоритма k-means, также реализуемого Visual Studio. Полное совпадение результатов кластеризации свидетельствует об их объективности.

Разработанный подход может быть использован для выработки стратегии и принятия управленческих решений по развитию городов Ростовской области на более современных наборах исходных данных.

Опираясь на результаты проделанной работы, а также используя непосредственно саму "обученную" карту Кохонена с набором началь-

ных данных, мы можем получить информацию и об иных группах социально-экономических параметров. Метод позволяет работать с огромным количеством переменных, визуализированных при помощи двумерных графиков, что является его неоспоримым достоинством.

Список литературы

1. Мамаев И.И., Сахнюк П.А., Сахнюк Т.И Применение карт Кохонена для анализа основных социально-экономических показателей административных районов Ставропольского края. - Научный журнал КубГ АУ [Электронный ресурс]. URL: http s ://cyberleninka.ru/article/n/primenenie-kart-kohonena-dlya- analiza- o snovnyh-sotsialno-ekonomicheskih-pokazateley-administrativnyh-rayonov-stavropolskogo-kraya. Дата обращения: 10.04.2019.

2. Петрова В.И., Зайцева К.В. Исследование динамики инновационной деятельности регионов России с применением нейросетевого моделирования. - Экономический анализ: теория и практика, 2017, т.16, вып.5, стр. 887-901.

3. Стариков А. Самоорганизующиеся карты Кохонена — математический аппарат -Технологии анализа данных [Электронный ресурс]. URL: https://basegroup.ru/community/articles/som. Дата обращения: 10.04.2019.

4. Кохонен Т. Самоорганизующиеся карты. - Лаборатория знаний. 2008.

5. Курбесов А.В. Перспективные вычислительные технологии: учебное пособие.-Ростов-на-Дону, издательско-полиграфический комлекс Рост.гос.экон, ун-та (РИНХ), 2018.

6. Мирошниченко И.И. Анализ и моделирование бизнес-процессов: учебное посо-бие.-Ростов-на-Дону, издательско-полиграфический комлекс Рост.гос.экон, ун-та (РИНХ), 2018.

УДК 004.891

Шаронина Людмила Валерьевна1,

доцент, канд. экон. наук, доцент, Чудинов Павел Юрьевич ,

студент

ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ DATA MINING В ИНТЕЛЛЕКТУАЛЬНОМ АНАЛИЗЕ ДАННЫХ В ПОТРЕБИТЕЛЬСКОМ КРЕДИТОВАНИИ

1Россия, г. Таганрог, Южный федеральный университет, Институт управления в экономических, экологических и социальных системах,

sharoninal@mail.ru

2Россия, г. Таганрог, Южный федеральный университет, Институт компьютерных технологий и информационной безопасности,

chudinov1997@gmail.com

Аннотация. С ростом кредитования в банковской сфере появилась проблема анализа большого объема данных с целью оценивания кредитного риска. Обычно,

i Надоели баннеры? Вы всегда можете отключить рекламу.