Самоорганизующиеся карты Кохонена в задачах кластеризации

Анисимова Э.С.

Анисимова Э.С. ©

Ассистент, кафедра информатики и дискретной математики Елабужский институт Казанского федерального университета

САМООРГАНИЗУЮЩИЕСЯ КАРТЫ КОХОНЕНА В ЗАДАЧАХ КЛАСТЕРИЗАЦИИ

Аннотация

Статья рассматривает одну из технологий кластеризации - самоорганизующиеся карты Кохонена. Представлены алгоритм работы, структура сети.

Ключевые слова: самоорганизующиеся карты, кластеризация, интеллектуальный анализ данных.

Keywords: self-organizing maps, clustering, data mining.

Самоорганизующаяся карта Кохонена — соревновательная нейронная сеть с обучением без учителя, выполняющая задачу визуализации и кластеризации. Идея сети предложена финским учёным Теуво Кохоненом. Является методом проецирования многомерного пространства в пространство с более низкой размерностью (чаще всего, двумерное), применяется также для решения задач моделирования, прогнозирования и др. В основе идеи сети Кохонена лежит аналогия со свойствами человеческого мозга. Кора головного мозга человека представляет собой плоский лист и свернута складками. Она обладает определенными топологическими свойствами (участки, ответственные за близкие части тела, примыкают друг к другу и все изображение человеческого тела отображается на эту двумерную поверхность).

Структура сети

Сеть Кохонена, в отличие от многослойной нейронной сети, очень проста; она представляет собой два слоя: входной и выходной. Ее также называют самоорганизующей картой.

Х] х2 хъ

J I 1

Рис. 1. Самоорганизующаяся карта Кохонена

SOM (Self-organizing тар) подразумевает использование упорядоченной структуры нейронов. Обычно используются одно и двумерные сетки. При этом каждый нейрон

представляет собой n-мерный вектор-столбец " [Vl^, VP 2, Vt^ ] ^ где п 0Пределяехся

размерностью исходного пространства (размерностью входных векторов). При этом, как было сказано выше, нейроны также взаимодействуют друг с другом. Величина этого взаимодействия определяется расстоянием между нейронами на карте.

Алгоритм работы сети

Пусть t— номер итерации (инициализация соответствует номеру 0).

• Инициализация

Наиболее распространены три способа задания первоначальных весов узлов: о Задание всех координат случайными числами.

о Присваивание вектору веса значение случайного наблюдения из входных данных.

о Выбор векторов веса из линейного пространства, натянутого на главные компоненты набора входных данных.

• Цикл

о Выбрать произвольное наблюдение x(t) из множества входных данных. о Найти расстояния от него до векторов веса всех узлов карты и определить ближайший

по весу узел Mc(t). Это — BMU или Winner. Условие на Mc(t): |x(t) — w(t £l Iх (t)—w(t Ц

для любого wt (t), где w. (t)— вектор веса узла M(t). Если находится несколько узлов, удовлетворяющих условию, BMU выбирается случайным образом среди них.

о Определить с помощью функции ^(функции соседства) соседей -ЭДс и изменение их векторов веса.

Часто в качестве функции соседства используется гауссовская функция:

МО = <*(£)• ехр( —

\ Гг - г,

2сг2(0

О

где 0 < а(0 < 1 . обучающий сомножитель, монотонно убывающий с каждой последующей итерацией (то есть определяющий приближение значения векторов веса BMU и его соседей к наблюдению; чем больше шаг, тем меньше уточнение); Ti, тс - координаты узлов МДО и Mc(t) на карХе; &(t) _ сомножитель, уменьшающий количество соседей с итерациями, монотонно убывает.

Более простой способ задания функции соседства: ^«(0 = а(0,

если Mi(t) находится в окрестности Mc(t) заранее заданного аналитиком радиуса, и 0 в противном случае. Функция h(t) равна a(t) для BMU и уменьшается с удалением от BMU.

■ Изменить вектор веса по формуле: w. (t) = wi (t — 1) + hcj (t) • (x (t) — w. (t — 1))

о Вычисление ошибки карты

Например, как среднее арифметическое расстояний между наблюдениями и векторами веса соответствующих им BMU:

1 N

— X X — wl , где N - количество элементов набора входных данных.

N .=1

Раскраска, порожденная отдельными компонентами

При данном методе отрисовки полученную карту можно представить в виде слоеного пирога, каждый слой которого представляет собой раскраску, порожденную одной из компонент исходных данных. Полученный набор раскрасок может использоваться для анализа закономерностей, имеющихся между компонентами набора данных. После формирования карты мы получаем набор узлов, который можно отобразить в виде двумерной картинки. При этом каждому узлу карты можно поставить в соответствие участок на рисунке, четырех или шестиугольный, координаты которого определяются координатами соответствующего узла в решетке. Теперь для визуализации осталось только определить цвет ячеек этой картинки. Для этого и используются значения компонент. Самый простой вариант - использование градаций серого. В этом случае ячейки, соответствующие узлам карты, в которые попали элементы с минимальными значениями компонента или не попало вообще ни одной записи, будут изображены черным цветом, а ячейки, в которые попали записи с максимальными значениями такого компонента, будут соответствовать ячейки белого цвета.

Полученные раскраски в совокупности образуют атлас, отображающий расположение компонент, связи между ними, а также относительное расположение различных значений компонент.

Рис. 2. Пример карты Кохонена

Отображение кластеров

Кластером будет являться группа векторов, расстояние между которыми внутри этой группы меньше, чем расстояние до соседних групп. Структура кластеров при использовании алгоритма SOM может быть отображена путем визуализации расстояния между опорными векторами (весовыми коэффициентами нейронов).

Заключение

Основное отличие сетей Кохонена от других моделей состоит в наглядности и удобстве использования. Эти сети позволяют упростить многомерную структуру, их можно считать одним из методов проецирования многомерного пространства в пространство с более низкой размерностью.

Литература

1. E.S. Anisimova - Fractals and digital steganography // Сборник научных трудов Sworld. - 2014. - Т. 6. № 1. - С. 69-71.

2. Э.С. Анисимова - Определение кредитоспособности физического лица в аналитическом пакете Deductor (BaseGroup) // Сборник научных трудов Sworld. - 2014. - Т. 23. № 2. С. - 78-81.

3. А.Ф. Филипов, Э.С. Анисимова - Калькулятор для работы с комплексными числами // Сборник научных трудов Sworld. - 2014. - Т. 29. №2. - С. 47-50.

4. Д.С. Тимофеев, Э.С. Анисимова - Разработка электронного образовательного ресурса на площадке «Тулпар» системы дистанционного обучения КФУ// Сборник научных трудов Sworld. - 2014. - Т.7. №2. -С.80-83.

5. Э.С. Анисимова - Сжатие изображений с помощью квадратичных кривых Безье // Естественные и математические науки в современном мире. - 2014. - № 14. - С. 42-46.

6. Э.С. Анисимова - Формирование математической компетентности студентов психологопедагогического направления // Сборник научных трудов Sworld. - 2013. - Т. 19. № 4. - С. 56-58.

7. Э.С. Анисимова - Фрактальное кодирование изображений // Сборник научных трудов Sworld. -2013. - Т. 4. № 3. - С. 79-81.

8. Э.С. Анисимова - Идентификация онлайн-подписи с помощью оконного преобразования Фурье и радиального базиса // Компьютерные исследования и моделирование. - 2014. - Т. 6. № 3. - С. 357364.

Самоорганизующиеся карты Кохонена в задачах кластеризации Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Анисимова Э. С.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Анисимова Э. С.

Текст научной работы на тему «Самоорганизующиеся карты Кохонена в задачах кластеризации»