Научная статья на тему 'Кластеризация данных для искусственных нейронных сетей'

Кластеризация данных для искусственных нейронных сетей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
960
132
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ / КЛАСТЕРИЗАЦИЯ / ДЕНДРОГРАММА / ARTIFICIAL NEURAL NETWORKS / CLUSTERING / DENDROGRAM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пантюхин О. В.

Рассмотрена процедура кластеризации данных для построения искусственных нейронных сетей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пантюхин О. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLUSTERING OF DATA FOR ARTIFICIAL NEURAL NETWORKS

A procedure for the clustering of data for artificial neural networks is considered

Текст научной работы на тему «Кластеризация данных для искусственных нейронных сетей»

Pantyukhin Oleg Viktorovich, candidate of technical sciences, docent, The Head of Publishing House, ntomach@tsu.tula.ru, Russia, Tula, Tula State University

УДК 658.562

КЛАСТЕРИЗАЦИЯ ДАННЫХ ДЛЯ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ

О.В. Пантюхин

Рассмотрена процедура кластеризации данных для построения искусственных нейронных сетей.

Ключевые слова: искусственная нейронная сеть, кластеризация, дендрограмма.

Процедуре решения задачи регрессии и построения искусственной нейронной сети (ИНС) предшествует подготовка данных, которая осуществляется с помощью кластерного анализа [1,2]. Он необходим для разбиения всего массива данных на отдельные группы (кластеры), внутри которых функция зависимости выходных параметров от входных является непрерывной. Только в этом случае для каждой полученной группы данных мож построить искусственную нейронную сеть, позволяющую с высокой степенью точности прогнозировать значения выходных параметров. Сравнение между группами осуществляется с помощью количественной меры -евклидова расстояния, которое вычисляется как корень из суммы квадратов покоординатных разностей. Необходимо учесть также, что различные независимые переменные измеряются в разных шкалах с различными диапазонами. Это может привести к тому, что вклад одних переменных в евклидово расстояние будет пренебрежительно малым, а других - излишне большим. Чтобы избежать этого, проводят процедуру стандартизации переменных. Результатом стандартизации является приведение всех переменных к единой шкале: данные изменяются в диапазоне ±3, причем большая часть всех значений будет принадлежать интервалу (-1, 1). Процедура стандартизации не изменяет структуру взаимодействий между переменными и не влияет на структуру кластеров. Стандартизацию можно провести в одной из статистических программ, например, в программе 81аЙ81;1са. На рис.1 показаны стандартизованные данные. В качестве исходных данных в расчете использовались измеренные значения параметров качества гильзы патрона спортивно-охотничьего калибра 7,62х39 мм на

операциях второй и четвертой вытяжек (разностенность у дна, разностен-ность у обреза, диаметр полуфабриката вытяжки).

j|jIH| File Edit View Insert Format Statistics Graphs Tools Data Window Help

| □ У Ш Gk 1 & ffll 10 ‘ ^ -te Add to Workbook - Add to Report ' ф Ър , 11 Arial .d 1 10 .d ! » I ц A - 31- 1 • ■ * Eff Й? & zi 8=? Ш Vars * Cases * |EO -

1 Диаметр заготовки после второй ВЫТЯЖКИ 2 Разностенность у дна после 2-ой вытяжки 3 Разностенность у обреза после 2-ой вытяжки 4 Диаметр заготовки после 4-ой вытяжки 5 Разностенность у дна после 4-ой вытяжки 6 Разностенность у обреза после 4-ой вытяжки 7 Номер кластера

1 0.173993073 0 246426757 0,163433971 0 898202385 0.0293124455 1.31149746 1

2 -0.668879946 1.18222457 -0,633804912 -0,288326525 0,517853203 0 264393699 4

3 -0,0668277894 1.18222457 0,163433971 -0.0510207432 -0,459228312 -0 259158181 4

4 0,77604523 1.49415717 -0,633804912 0 660896603 -1.19203945 0 264393699 2

5 -1.15052167 -0 689371053 -1,03242435 -0.288326525 -0,703498691 0 787945579 3

6 -0,307648652 -1.62516886 0,163433971 3 74587177 0 517853203 -0 259158181 3

7 0.173993073 -1.62516886 -1.03242435 0.423590821 -0.459228312 -1.30626194 3

8 -0.909700809 1.18222457 -0.633804912 1.61011973 -0.459228312 -0.782710061 3

9 1 25768696 -1.62516886 0,163433971 0 423590821 0.517853203 1.31149746 1

10 0.896455662 -0.0655058467 0,163433971 2.32203708 -1.68058021 -0.782710061 3

11 -1.15052167 -0.0655058467 -1.4310438 -1.23754965 0.517853203 -0.782710061 3

12 0.896455662 1.18222457 -1,03242435 -0.288326525 0.762123582 -0.259158181 2

13 -0,428059084 -0.689371053 -0,235185471 0.186285039 1 37281395 0.186285039 1.00639396 0 0293124455 0.762123582 -0,259158181 3 3 4

15 -1.03011124 1.49415717 0.163433971 1.31149746

16 2.22097041 -1.00130366 -1.4310438 1.00024387 -1.68058021 -0.782710061 2

17 -0.307648652 1.18222457 0.960672854 1.61011973 -1.68058021 -1.30626194 4

18 0.77604523 -0,689371053 0,960672854 0.186285039 0.0293124455 1.31149746 1

19 -1.15052167 -0.0655058467 -0.235185471 1.13550817 0.762123582 1.31149746 3

20 -0.187238221 -0.37743845 -1.03242435 1.37281395 0.762123582 -1.30626194 3

21 -0.423059084 -1.03011124 -1,15052167 -0.689371053 1.18222457 -0,689371053 -1.03242435 -1.03242435 -1,03242435 -0,0510207432 -1.47485544 2.0847313 1.00639396 -1.19203945 1.00639396 -0.782710061 0.787945579 -1,30626194 3 4 3

23

24 1,01686609 -1,15052167 -1,15052167 -0.37743845 0,246426757 -0 37743845 0,562053413 -1,03242435 0 960672854 -0,288326525 1.84742551 0 660396603 0,762123582 -1,68058021 1 00639396 -0,782710061 1,31149746 -О 259153131 2 3 3

27 -1,15052167 1.18222457 0,960672854 0,660896603 1,00639396 -0,782710061 4

28 1,61891825 1,73932868 -0,0668277894 -0,37743845 1,18222457 -0 37743845 0,960672854 0,960672854 0,562053413 0,562053413 -1,47485544 1,37281395 0,186285039 -0,525632307 -0,459228312 -1,92485058 1 00639396 1,31149746 -0,259158181 -и 732710061 1 2 3

30

31 0,655634799 -0,689371053 0,762123582 0,787945579 1

33 1,01686609 1,18222457 -1.03242435 -0,525632307 1.00639396 -0,782710061 2

34 1,73932868 1.18222457 -0,633804912 0 898202385 0,762123582 -1.30626194 2

35 2,22097041 1.18222457 0 960672854 -0,525632307 -1,19203945 1.31149746 2

36 -0,548469515 -1,00130366 0,163433971 -0,288326525 -1,92485058 -1,30626194 3

37 -0,428059084 -0,0655058467 0,163433971 -1,47485544 0.517853203 -1.30626194 4

38 0.414813936 -0,0655058467 -1,4310438 -1.71216122 -1.92485058 0,787945579 2

39 0 77604523 -1.00130366 0 960672854 1.61011973 0.0293124455 -0.782710061 3

40 -1.15052167 -1.93710147 0.960672854 1.37281395 1.00639396 1.83504934 1 -

Рис. 1. Результат стандартизации данных

Далее с применением инструментов программы 81аЙ81;1са проведем иерархический кластерный анализ на стандартизованных данных. В результате анализа получим вертикальную дендрограмму (рис.2), из которой визуально определим количество кластеров, на которые можно разбить измеренные данные.

Визуальный анализ дендрограммы показывает, что количество кластеров можно принять равным четырем.

Далее определим, какой объект к какому кластеру принадлежит. Для этого воспользуемся итеративной процедурой - методом К-средних. Метод заключается в том, что процесс классификации начинается с задания начальных условий. В данном случае это количество образуемых кластеров и центры этих кластеров. Далее каждое многомерное наблюдение совокупности относится к тому кластеру, центр которого ближе всех к этому наблюдению. Затем выполняется проверка на устойчивость класси-

фикации. Если классификация устойчива, процесс останавливается. В противном случае происходит очередная процедура разбиения объектов по кластерам. Метод ^средних был выполнен на стандартизованных данных в программе Statistica. В результате расчетов каждый объект (строка данных) был отнесен к одному из кластеров (таблица). Таким образом, в результате кластеризации все множество данных было разбито на три класса.

Рис. 2. Дендрограмма наблюдений параметров вытяжки

Результаты кластеризации данных

Диаметр заготовки после 2-й вытяжки Разностен-ность у дна после 2-й вытяжки Разностен-ность у обреза после 2-й вытяжки Диаметр заготовки после 4-й вытяжки Разностен-ность у дна после 4-й вытяжки Разностенность у обреза после 4-й вытяжки № кластера

12,401 0,05 0,14 11,121 0,07 0,04 1

12,386 0,03 0,12 11,116 0,12 0,07 1

12,397 0,03 0,12 11,118 0,08 0,07 1

12,394 0,06 0,11 11,116 0,16 0,07 1

12,411 0,05 0,12 11,118 0,16 0,04 1

12,401 0,06 0,12 11,114 0,07 0,06 1

12,396 0,08 0,12 11,119 0,16 0,07 1

12,394 0,05 0,14 11,111 0,16 0,07 1

12,401 0,08 0,08 11,111 0,15 0,07 1

Окончание

Диаметр заготовки после 2-й вытяжки Разностен-ность у дна после 2-й вытяжки Разностен-ность у обреза после 2-й вытяжки Диаметр заготовки после 4-й вытяжки Разностен-ность у дна после 4-й вытяжки Разностенность у обреза после 4-й вытяжки № кластера

12,402 0,13 0,08 11,119 0,07 0,05 2

12,403 0,12 0,07 11,115 0,15 0,04 2

12,414 0,05 0,06 11,112 0,05 0,03 2

12,404 0,07 0,11 11,115 0,15 0,03 2

12,411 0,12 0,12 11,122 0,04 0,04 2

12,404 0,12 0,07 11,114 0,16 0,03 2

12,413 0,13 0,11 11,115 0,15 0,07 2

12,401 0,12 0,09 11,112 0,16 0,04 2

12,406 0,12 0,07 11,121 0,12 0,05 2

12,412 0,07 0,11 11,119 0,16 0,07 2

12,401 0,12 0,08 11,114 0,12 0,03 2

12,412 0,06 0,08 11,114 0,05 0,07 2

12,412 0,12 0,08 11,121 0,05 0,04 2

12,413 0,12 0,12 11,117 0,15 0,07 2

12,386 0,06 0,07 11,115 0,09 0,06 3

12,393 0,03 0,11 11,132 0,14 0,04 3

12,397 0,03 0,07 11,118 0,11 0,02 3

12,388 0,12 0,08 11,123 0,11 0,03 3

12,403 0,08 0,11 11,126 0,05 0,03 3

12,386 0,08 0,06 11,111 0,14 0,03 3

12,392 0,06 0,09 11,117 0,16 0,04 3

12,396 0,06 0,12 11,122 0,12 0,02 3

12,386 0,08 0,09 11,121 0,15 0,07 3

12,394 0,07 0,07 11,122 0,15 0,02 3

12,392 0,06 0,07 11,116 0,16 0,03 3

12,386 0,06 0,07 11,125 0,16 0,02 3

12,386 0,09 0,07 11,124 0,05 0,07 3

12,386 0,07 0,12 11,119 0,16 0,04 3

12,395 0,07 0,11 11,117 0,16 0,03 3

12,391 0,05 0,11 11,115 0,04 0,02 3

12,402 0,05 0,12 11,123 0,12 0,03 3

Внутри кластеров данные однородны, а функция зависимости выходных параметров от входных непрерывна.

Список литературы

1. Галушкин А.И. Теория нейронных сетей: в 2 кн. Кн. 1. Нейро-

комьютеры и их применение: учеб. пособие для вузов / общая ред. А.И. Галушкина. М.: ИПРЖР, 2000. 416 с.

2. Заенцев И.В. Нейронные сети. Основные модели. Воронеж: ВГУ, 1999. 76 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пантюхин Олег Викторович, канд. техн. наук, доц., директор издательства, ntomach@tsu.tula.ru, Россия, Тула, Тульский государственный университет

CLUSTERING OF DATA FOR ARTIFICIAL NEURAL NETWORKS

O.V. Pantyukhin

A procedure for the clustering of data for artificial neural networks is considered.

Key words: artificial neural networks, clustering, dendrogram.

Pantyukhin Oleg Viktorovich, candidate of technical sciences, docent, The Head of Publishing House, ntomach@tsu.tula.ru, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.