Научная статья на тему 'Метод кластеризации данных с использованием нейросетей'

Метод кластеризации данных с использованием нейросетей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1374
218
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод кластеризации данных с использованием нейросетей»

Метод кластеризации данных с использованием нейросетей

Рябушкин Андрей МГТУ им. Н.Э. Баумана, каф. ИУ-7

Введение: Анализ будет править миром

Сейчас в мире происходит процесс компьютеризации всего: сферы высоких

технологий, регулирования финансовых и товарных потоков, работы коммунальных служб, сельскохозяйственных угодий и т.д. Как следствие, колоссальный рост объемов информации. Миллионы долларов тратятся на улучшение поисковых систем и увеличение вместительности хранилищ данных. Сама по себе информация бесполезна, важен анализ этой информации. Полученные выводы помогают оценивать сложившуюся обстановку и принимать решения. Поэтому расхожую фразу «Информация правит миром » можно будет заменить на другую - «Анализ правит миром».

В анализе информации важное место занимает выявление общих принципов формирования однородных или похожих данных. В соответствии с этими принципами все данные можно представить в виде различных групп. Дальше на основании исследования части данных из одной группы, можно делать выводы по поводу группы данных в целом. Этот процесс носит название кластерный анализ данных.

Представим, что есть большой объем данных, который тяжело целиком обработать. Из источника информации необходимо получить данные, обладающие определенным общим признаком. Здесь два пути решения. Первый, воспользоваться случайной выборкой. Второй, предварительно провести кластерный анализ, сделать случайную выборку в классах данных. Если в какой-то выборке из классов присутствуют интересующие данные, то этот класс надо просмотреть полностью, так как есть вероятность что там будет и еще интересующие данные.

Процесс аудиторских проверок является одним из тех примеров, где целесообразнее воспользоваться кластерным анализом. Есть большой объем данных, которые аудитор не проверяет целиком. Если для этого процесса воспользоваться кластерным анализом, то вероятность нахождения некорректных

данных возрастет.

В диссертации доктора Supatcharee Sirikulvadhana, исследовавшего вопросы средств DataMining для финансового аудита, предлагается выделять классы двумя способами [1] :

1. с использованием критерия Со^огсе^

2. карты Кохонена.

По мнению этого ученого, эффективность кластеризации у этих двух способов одинаковая. Но нейронная сеть Кононена не является единственным инструментом, позволяющим решать задачи кластерного анализа. Дальше будет рассматриваться кластеризация на различных нейросетевых алгоритмах. Сеть Кохонена

Сеть состоит из М нейронов, образующих прямоугольную решетку на плоскости (рис. 1). Элементы входных сигналов подаются на входы всех нейронов сети. В процессе работы алгоритма настраиваются синаптические веса нейронов.

Входные сигналы - вектора действительных чисел - последовательно предъявляются сети. Желаемые выходные сигналы не определяются. После того, как было предъявлено достаточное число входных векторов, синаптические веса сети определяют кластеры. Кроме того, веса организуются так, что топологически близкие узлы чувствительны к похожим внешним воздействиям (входным сигналам).

выходные нейроны

нход

Рис. 1. Сеть Кохонена

Сеть Хэмминга

Сеть состоит из двух слоев (рис. 2). Первый и второй слои имеют по т нейронов, где т - число образцов. Нейроны первого слоя имеют по п синапсов, соединенных со входами сети (образующими фиктивный нулевой слой). Нейроны второго слоя связаны между собой ингибиторными (отрицательными обратными)

синаптическими связями[3]. Единственный синапс с положительной обратной связью для каждого нейрона соединен с его же аксоном.

Идея работы сети состоит в нахождении расстояния Хэмминга от тестируемого образа до всех образцов. Расстоянием Хэмминга называется число отличающихся битов в двух бинарных векторах. Сеть должна выбрать образец с минимальным расстоянием Хэмминга до неизвестного входного сигнала, в результате чего будет активизирован только один выход сети, соответствующий этому образцу.

обратная связь

Вход 1 слой 2 слой Выход

Рис.2 Структурная схема сети Хэмминга Фактически данная нейронная сеть Хэмминга не может решать задачу кластеризации. Она только способна классифицировать данные, т.е. по известному шаблону относить входные данные к определенному классу. Следовательно, встает вопрос о том, как получить необходимые шаблоны. Этот проблема решается, если каждый набор данных, который не получается отнести ни к какому известному шаблону, будет формировать новый шаблон. Модель ART (Сеть Гроссберга)

Сеть ART-1 ( Adaptive Resonance Theory ) обучается без учителя, она реализует алгоритм кластеризации, очень похожий на алгоритм "последовательного лидера"[2] (sequential leader clustering algorithm). В соответствии с этим алгоритмом первый входной сигнал считается образцом первого кластера. Следующий входной сигнал сравнивается с образцом первого кластера. Говорят, что входной сигнал "следует за лидером" и принадлежит первому кластеру, если расстояние до образца первого кластера меньше порога. В противном случае второй входной сигнал -образец второго кластера. Этот процесс повторяется для всех следующих входных

сигналов. Таким образом, число кластеров растет с течением времени и зависит как от значения порога, так и от метрики расстояния, использующейся для сравниения входных сигналов и образцов классов.

х0

Рис. 3. Сеть ART-1

Методика подсчета вероятностей

Для оценки вероятности выбора помеченных данных воспользуемся формулой числа сочетаний [5]:

п!

ст =

т!(п - т)!

Эта формула показывает, сколько существует различных способов выбрать т элементов из п.

Рассмотрим ситуацию, когда надо выбрать т элементов из п, а к элементов из п помечены. Надо найти вероятность выборки хотя бы одного помеченного элемента. Тогда:

ст - число различных выборок (все элементарные исходы ) ст-к - число выборок по т элементов из всех непомеченных элементов.

С т /

О По определению вероятности. п-к/гт - вероятность выборки без

/ Сп

помеченных элементов.

С т /

О р = 1 - п-к/гт - вероятность того, что в выборке будет хотя бы один

/ Сп

помеченный элемент Если п-к < т => С^_к = 0 и р = 1

Если п = т => р = 1 или р = 0 (зависит от наличия помеченных элементов) Рассмотрим ситуацию, когда классов будет несколько. Так события появления помеченных записей в классах являются совместными и независимыми. Тогда

вероятность нахождения хотя бы одной помеченной записи в хотя бы одном классе

Здесь А1 - событие, соответствующее наличию в выборке из 1- ого класса помеченных данных.

Для независимых событий верно [5]:

р(А1 А2...Лп) = р(А1)р(А2)...р(Ап)- это вероятность того, что случились все события А1.

Для того чтобы выбрать все помеченные из одного класса, достаточно найти хотя бы одну помеченную запись, а потом выбрать все записи класса. Поэтому

Для нахождения вероятности наличия всех помеченных записей используется формула:

,где Ст_кк - количество исходов соответствующих выбору всех помеченных данных.

Основы сравнения эффективности использования

Эффективность кластеризации рассматриваемых выше алгоритмов на нейронных сетях зависит от параметров этих сетей. Рассмотрим важные параметры сетей:

• В сети Кохонена важным является максимальное количество классов. Помимо этого функционирование сети зависит от шага обучения, шага изменения шага обучения и коэффициента степени соседства.

• Сети Хэмминга вообще не предназначены для кластеризации, но классифицировать они умеют, поэтому надо будет использовать дополнительный алгоритм, выделяющий шаблоны. Этот алгоритм будет на основании некоторого параметра (логическое расстояние) принимать решение о том добавлять новый шаблон или нет. Функционирование сети

[5].

Р(А и... и Ап) = р(4) +... + р(Ап) - р(АА2) - р(А Аз) -... - р(Ап_!Ап) +

+ р( А А2 Аз) +... + (-1)п+1 р( А А2...Ап)

р( АВТ) = Р( Аг)

=> р(Авсе) = р(А1)р(А1)...р(Ап)

будет зависеть от параметров логическое расстояние и максимальное количество классов. • На функционирование сети Гроссберга влияет только один параметр : степень похожести от 0 до 1 (если 0 - то все элементы будут отнесены в один класс, если 1 только абсолютно одинаковые будут в одном классе).

Исследование будет заключаться в том что надо будет сравнить лучшие показатели нейросетевых алгоритмов по 5 параметрам :

1. Максимальная вероятность выбора одной записи;

2. Максимальная вероятность выбора всех записей;

3. Максимальное улучшение выбора одной записи (по сравнению со случайной выборкой);

4. Максимальное улучшение выбора всех записей (по сравнению со случайной выборкой);

5. Время работы сети.

Лучшие показатели будут находиться через ряд испытаний. Этот ряд будет определяться линейным изменением параметра сети. В таб. 1 представлены параметры для изменения каждой из сетей.

Алгоритм Параметры

Кохонена Максимальное количество классов (от 1 до N/5) , где N количество начальных данных

Хэмминга р Логическое расстояние (от 1 до ^wl) , где ч>, - г=1 вес ного параметра , а р - количество входных параметров Максимальное количество классов

Гроссберга Коэффциент схожести (от 0 до 1)

Табл. 1. Таблица изменяемых параметров Исследовательская часть Предмет исследования

Требуется сравнить целесообразность использования определенного типа нейронной сети для решения задачи кластеризации на данных финансового аудита.

Для исследования использовались три различных входных файла:

• data1.cai (172 записи, 3 помечено)

• data2.cai (104 записи , 3 помечено)

• data3.cai (250 записей, 6 помечено) Исследовались алгоритмы на все 4 типа исследований:

• Максимальная вероятность выбора одной записи;

• Максимальная вероятность выбора всех записей;

• Максимальное улучшение выбора одной записи;

• Максимальное улучшение выбора всех записей. Результаты

Обобщая все полученные данные получим таблицу Табл. 2.

Цель\Алгоритм Кохонена Хэмминга Гроссберга

1 2 3 1 2 3 1 2 3

Максимальная вероятность выбора одной записи 62% 64% 52% 100% (1.37с) 100% (1.3с) 100% (2.82с) 100% (0.36с) 100% (0.29с) 100% (0.69с)

Максимальная вероятность выбора всех записей 53% 58% 52% 100% (1.39с) 100% (0.67с) 100% (1.98с) 100% (0.37с) 100% (0.29с) 100% (0.64с)

Максимальное улучшение выбора одной записи 2.72 2.06 1.86 4.35 (0.62с) 4.15 (0.5с) 4.31 (1.28с) 1.89 (0.36с) 1.8 (0.14с) 1.97 (0.65с)

Максимальное улучшение выбора всех записей 389 120 2*106 626 (1.25с) 378 (0.98с) 2*107 (2.26с) 112 (0.18с) 108 (0.14с) 4*105 (0.64с)

Табл. 2. Сводная таблица исследования Времени у сетей Кохонена нет в таблице (Табл. 2), в силу специфики инициализации весов время для одних и тех же начальных настроек сети является переменным, но они работаю очень быстро от 0.2с до 0.9с.

Но данные получились несколько завышенными в силу того, что основные параметры сетей подбирались наилучшим образом для каждого набора входных данных. И такие увеличения вероятности как 106 надо понимать как некий подбор параметра сети, при котором текущий журнал, разбился на малое количество классов и при этом помеченный записи попали в один класс. Например, получается всего 3 класса и один из них состоит из 3-х помеченных записей, тогда, выбрав 5 записей, мы можем сказать, что выбрали их со 100% вероятностью. А если бы мы выбирали случайным образом 5 записей из 600, пытаясь получить там все 3 помеченные записи, то вероятность этого была бы весьма мала. Поэтому в таблице отношение 100% к малому.

В общем случае при лучшем параметре сразу для всех журналов, улучшение выборки заметно снизится, но соотношение в сравнение эффективности работы алгоритмов не изменится. Выводы

В результате можно сделать выводы о преимуществах и недостатках рассматриваемых сетей(Табл. 3.) .

Сеть Вывод

Кохонена +: • Очень быстро работает; • Не требует преобразования данных, т.к. работает с вещественными числами. • Непредсказуемое число реальных итоговых классов данных • Худшие показатели

Гроссберга +: • Среднее время работы; • Средние показатели эффективности; • Понятный для пользователя коэффициент схожести. • Непредсказуемое число реальных итоговых классов данных • Требует преобразования данных, т.к. работает с бинарными данными.

Хэмминга • Как правило, известное число реальных итоговых классов данных • Лучшие показатели эффективности; • Понятный для пользователя параметр логического расстояния. • Требует преобразования данных, т.к. работает с бинарными данными.

• Худшее время работы;

• Требует использование дополнительного алгоритма

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

нахождения шаблонов

Табл. 3. Таблица выводов по сетям.

Используемая литература

1. M.Sc. Thesis in Accounting, Supatcharee Sirikulvadhana "Data Mining As A Financial Auditing Tool", Swedish School of Economics and Business Administration 2002

2. Уоссерман Ф. Нейрокомпьютерная техника: теория и практика. Пер. с Англ. - М.: Мир, 1992. -240с.

3. Короткий С. Нейронные сети. Цикл статей.

4. Е. С. Борисов. Искусственные нейронные сети.

5. Теория вероятности: Учеб. для вузов / В.А. Печинкин, О.И. Тескин, Г.М. Цветкова и др.; Под ред. В.С. Зарубина, А.П. Крищенко. - М.: Издательство МГТУ им. Н.Э. Баумана, 1998. - 456с.

i Надоели баннеры? Вы всегда можете отключить рекламу.