УДК 517.977.52
КЛАССИФИКАЦИЯ ОБРАЗОВ И ЕЕ СВЯЗЬ С ТОПОЛОГИЕЙ МНОГООБРАЗИЙ ДИНАМИЧЕСКИХ СИСТЕМ
© 2001 A.A. Юдашкин Самарский государственный технический университет
Представлен новый метод построения классифицирующей динамической нейронной сети. Модель образована совокупностью переменных состояния, - параметров порядка, - каждая из которых отвечает отдельному запомненному прототипу. Переменные связаны посредством матрицы весов, определенной в соответствии с выбранным разбиением всего множества прототипов на подмножества (классы). Классы могут иметь ненулевые пересечения в том случае, когда один или несколько прототипов одновременно принадлежат различным подмножествам. Классификация сводится к конкуренции во времени между параметрами порядка из разных классов. Процесс рассматривается в пространстве состояний, где каждому подмножеству отвечает притягивающее многообразие определенной топологии.
Введение
Следует отметить, что одной из наиболее общих и сложных функций интеллекта является возможность производить классификацию. Ни одно устройство или живой организм не может быть признан "думающим", если он не способен классифицировать образы. Под термином "классификация" здесь понимается процесс, приводящий к выбору известной группы образов (класса), к которой новый объект может быть отнесен в соответствии с некоторым набором критериев принадлежности, возможно, не допускающих формализацию. Эти критерии могут включать в себя не только (или вообще не включать) условие внешнего сходства между новым образом и прототипами в классе, но и различные семантические признаки, например, "назначение" (деньги и продукты), "принципы движения" (автомобили и самолеты) и т.п.. При этом не существует достаточно широкого разнообразия моделей искусственных нейронных сетей, способных выполнять классификацию такого типа. Подавляющее большинство подходов, известных как самоорганизующиеся карты Кохонена [1, 2] и их различные модификации [3], а также квантизация векторов при обучении [1, 4, 5], часто используются при классификации, основанной на сходстве образов. В то же время, очевидно, что проблема получения произвольного правила классификации может быть ре-
шена только посредством топологических изменений классифицирующей модели [6-8]. Для демонстрации возможностей топологического подхода к проблеме синтеза произвольных правил классификации в данной работе используется модель "синергетической нейронной сети" Хакена [9], которая производит распознавание предъявленного образа различной природы посредством конкуренции между скалярными функциями времени, называемыми параметрами порядка. Каждый параметр порядка соответствует одному запомненному образу, и конкуренция сводится к затуханию функций времени, соответствующих всем запомненным образам, кроме одного, наиболее похожего на предъявляемый. Может быть показано, что определенная модификация связей между параметрами порядка так изменяет топологию нейронной сети, что возникает новое устойчивое многообразие вследствие "объединения" отдельных аттракторов, соответствующих запомненным образам. Геометрическая размерность любого из таких многообразий может быть любой, хотя ранее существовавшие аттракторы являлись устойчивыми узлами и, следовательно, имели нулевую размерность. Соответственно, каждое новое многообразие отвечает отдельному подмножеству всего набора запомненных образов, а начальная точка в пространстве параметров порядка будет притянута к многообразию выбранно-
го подмножества. Таким образом, можно говорить о классификации, выполняемой данной моделью. Принципиальным является то, что можно произвольно формировать многообразия в соответствии с набором правил классификации, причем необязательно использовать критерии сходства образов. Данная гибкая модель также позволяет включить один эталон в несколько различных классов, что практически невозможно в рамках альтернативных подходов.
Топология математической модели классификации
Для целей дальнейшего изложения кратко рассмотрим основы модели нейронной сети Хакена и ее развитие для реализации классификации. Каждый образ представлен К-мерным вектором с действительными компонентами; таким образом, у. (г=1,2,...,М) представляет запомненный образ (прототип), а предъявленный образ обозначен как ^(0), где 0 выражает начальный момент времени в процедуре распознавания. С течением времени q(t) стремится к ук, где к - номер прототипа, наиболее похожего на предъявляемый вектор. В [9] показано, что q(t) может быть разложен в следующую линейную комбинацию:
M
q(t) = X ^ ^ + Х
i=1
где ё.(^ - параметр порядка, а Е>£)- дополнительная невязка, некоррелированная с каждым из у. Распознавание моделируется динамикой следующей системы связанных обыкновенных дифференциальных уравнений:
ddн
і = Ал,
dt
- Bdi Е dj Е gjkdk - са. ЕЕ gjkdjdk j* і k =1 j=1k =1
(1)
с положительными константами В, С, А. Начальные условия определены следующим выражением:
di 0) = G 0), где С = V V и V - матрица, состоящая из стол-
бцов V.. Результаты анализа устойчивости системы (1) демонстрируют зависимость существования и типов стационарных решений от соотношений между А [10], однако это не рассматривается в данной работе. Здесь полагается, что все А. равны А. При этом каждый запомненный образ у. обладает парой аттракторов в пространстве параметров порядка, определенной точками с координата-
ми (0,...,0,^=±у /Сдіі
Любая на-
1,0,...,0).
чальная точка будет притянута к одному из указанных аттракторов, а распознавание таким образом заканчивается в тот момент, когда остается только один ненулевой параметр порядка. В подобной модели с конкуренцией не существует ложных устойчивых состояний, а максимальное количество запоминаемых и воспроизводимых образов равно N-1 , что существенно отличается от распространенных нейронных сетей Хопфилда.
Теперь вместо единственного параметра В в системе уравнений (1) рассмотрим случай, когда кроме связей, задаваемых матрицей С, имеется также новая матрица В с элементами:
(п)
ІЬ^ = В ,ій.є ^п)^£ J [о, ііі^є J п)
Здесь Уп> - система индексов из подмножества натуральных чисел, и, кроме того, в предположении, что все множество запомненных образов О разбито на Р подмножеств (классов) Жп в соответствии с условиями
О= пи пГ>п =0 ,
п=1 пЄіТ
полагаем і є J(п) ^ V. єІЯ п . Тогда система
(1) может быть записана в форме:
dd,
dt
-а. Е ^ Е gjkdk- Cdi ЕЕ gjkdjdk j^i к=1 j=1k =1
(2)
для всех і=1,2,...,М. Можно показать, что новая система (2) обладает стационарными решениями в форме эллиптических многообразий для любого класса Ж:
1
а. = од^ї а
(3)
В случае пересекающихся классов существуют также дополнительные стационарные решения, соответствующие каждому пересечению. Рассмотрим множество из 5 пересекающихся классов Жк, удовлетворяющее соотношению и ы = рр к ^ 0 и набор Ь®
кеЬ (в)
индексов к в случае vkeU . Тогда стацио-
нарное решение системы (2), соответствующее и Ь(В) , определено посредством следующего выражения:
X Ск X 9кА -Л/С = 0
кеь(в) леь(в)
^ = 0,±£3^ Ь(з) . (4)
Можно показать, что многообразия (3) состоят из непрерывно распределенных точек, обладающих устойчивостью типа "устойчивый узел" по отношению к фазовому пространству за вычетом касательной максимальной размерности к конкретной рассматриваемой точке многообразия (3). Каждая такая точка обладает нейтральной устойчивостью в линейном приближении в подпространстве, образованной касательной. Если рассматриваются пересекающиеся подмножества, то решение (4) образуется из точек, обладающих нейтральной устойчивостью в подпространстве, образованном объединением касательных ко всем пересекающимся в рассматриваемых точках многообразиям. Следовательно, в рассматриваемой модели с введенной матрицей В происходит конкуренция только между й,, соответствующими образам V,, принадлежащим к различным подмножествам. Это приводит к динамическому затуханию значений всех параметров порядка, за исключением принадлежащих к выбранному классу Жк (или нескольким, если они пересекаются), т.е. имеет место классификация предъявленного образа.
Случай трех образов
В данном разделе подробно рассматри-
вается случай М=3. Пусть три образа разбиты на два класса (Р=2). Сначала остановимся на случае непересекающихся классов. Класс Ж1 состоит из одного образа v1, а класс Ж2 -из v2 и vy Тогда матрица В задается следующим образом:
В
ґ 0 В В 4
В о о
В о о
V
где В - положительная константа. Система уравнений (2) принимает форму:
аа. зз зз
= ла, - В XX 9:кйк -С X'XI 9
‘ ц => ]к
.=2 к=1
.=1 к=1
ззз
—2 =^2 - Ва2а1 X 91как - С X а2й: X 9.А ^
к =1 .=1 к =1 (5)
з з з ^ '
—з =лаз - Ваза1 X 91как - С X азй: X 9 .А к =1 .=1 к =1
Следуя подходу, описанному в разделе 1, исследуем два стационарных решения системы (5):
Б ! ={а12 = Л/Сд11;с12 = 0,(^3 = о},
Г 3 3
Б23 = 1С1 = 0 ,С 2 ,С 3 :Х X д^к -Л /С =0
[ 3=2 к=2
где решение В1 должно соответствовать аттрактору класса W1 , а Вгъ - аттрактору класса Ж2. Данное предположение может быть доказано после исследования собственных чисел матрицы линеаризации системы (5). Матрица линеаризации для решения 01 имеет следующий вид:
■ 2Л - В/С + 2)Лд12/д11 - В/С + 2)Лд13/д11 0 - ЛВ /С 0
0 0 - ЛВ /С
V У
Очевидно, что все ее собственные значения отрицательны, поэтому В - аттрактор класса Ж1 (многообразие размерности 0). Аналогично для ^23:
-ЛВ /С о о
- (В + 2С «2 X ЯиА - 2й2 'X 92]А - 2й2 'X 9зА
к =2 к =2 к =2
- (в + 2е «з ]Т91кйк - 2йз ]Сд2кйк - 2йз]Сдзкйк
к=2 к=2 к=2 ^
Легко показать, что Ь23 имеет собствен
Ь2з =
Рис. 1. Аттракторы двух классов для случая трех запомненных образов
ные значения {-ЛВ /С ,-2Л,0}, что отвечает стационарному решению в виде многообразия размерности 1. Каждая точка на многообразии Б23 является аттрактором относительно дополнения Б23 до трехмерного евклидового пространства и обладает нейтральной устойчивостью по отношению к остальным точкам данного многообразия.
На рис. 1 приведен случай М=3 запомненных образов, распределенных между Р=2 классами. Здесь показано одно стационарное решение вида эллиптического многообразия (аттрактор класса Ж2 ) и точка (аттрактор класса Ж1).
Здесь аттракторы классов W1 и W2 обозначены соответственно как Б1 и Б23 для наборов индексов У(1)={1} и У(2)={2,3}. Фазовые траектории заканчиваются либо в устойчивом узле Б1, либо в одной из точек многообразия Б23. Таким образом, предъявленный образ либо идентифицируется как прототип v1 , либо классифицируется в подмножество W2.
Иная ситуация имеет место, если W1 и W2 пересекаются. Пусть v2 принадлежит обоим классам, причем v1 принадлежит только W1 , а v3 принадлежит W2. Существуют два эллиптических многообразия, представляющих указанные классы:
Б 12 =1с1-с2 :ХС: ^д:кск -Л /С = 0-С3 =
[ :=1 к=1 \
Б23 =1С1 = 02 3 :]ХС: ^Хд^»Ск-Л/С = 0Г.
[ ]=2 к=2 ]
Они пересекаются в точке {0,±Л/Л /Сд 22 ,0}, и матрица линеаризации,
соответствующая пересечению, имеет два нулевых и одно отрицательное собственное значение. При этом классификация сводится к конкуренции между образами v1 и v3 в двумерном подпространстве.
Рассмотренные примеры хорошо иллюстрируют достоинства предложенной модели. Если классы не пересекаются, то начальная конфигурация считается принадлежащей к одному из них после завершения конкуренции между соответствующими группами параметров порядка. Каждый образ принадлежит своей категории, т.е. пространство образов точно разделено на области притяжения отдельных классов. Однако существует ряд реальных ситуаций, когда для нового образа невозможно указать только один класс. Например, если попытаться классифицировать велосипед с использованием категорий "машины", "игрушки" и "продукты", то следует отметить, что указанный объект может быть отнесен и к "машинам", и к "игрушкам" одновременно. Поэтому при запоминании образа велосипеда следует добавить его сразу в два класса. Предложенная модель позволяет это сделать. Тогда если затем будет предъявлен новый образ, похожий в том числе на велосипед, то сам прототип не будет участвовать в конкуренции между классами "игрушек" и "машин", соответственно, результат будет зависеть от остальных запомненных образов.
Матрица В может быть сформирована в соответствии с различными требованиями. Очевидно, что в данном случае совершенно необязательно объединять именно похожие образы в рамках одного класса, поскольку модель позволяет использовать любые формальные правила. Если предъявленный образ идентифицируется с одним из прототипов, выбирается весь соответствующий класс, т.е. для выполнения классификации достаточно того, чтобы новый образ был похож на хотя бы одного представителя класса.
Численное моделирование
Численные эксперименты были прове-
дены для N=100, М=98 и состояли из последовательных предъявлений произвольно выбираемых из набора прототипов, к которым были добавлены искажения. Качество классификации рассчитывалось как отношение числа успешной работы модели к общему числу предъявлений. Искажения представляли собой вектор шума - с нормальным распределением. Дисперсия шума о-—2 изменя-
2 / 2
лась так, что уровень шума р =о— / , где
Оу2 - дисперсия прототипа, рос от 0 до 1. Эксперименты продемонстрировали ряд интересных особенностей модели. Во-первых, качество классификации 2 зависит от разбиения исходного набора образов - величина 2 убывала от 100% до 0% с уменьшением мощности выбранного класса. Во-вторых, среднее качество классификации было всегда выше, чем качество распознавания (определения уникального прототипа, похожего на предъявляемый образ) с теми же параметрами модели (около 95%). В-третьих, обнаружен немонотонный характер зависимости качества классификации от уровня шума; более того, существует интервал повышения уровня шума, на котором 2 также растет, что можно видеть из рис. 2.
Причина последнего эффекта лежит в некоторых топологических особенностях распределения начального состояния системы
(2) и имеет достаточное сходство с соответствующими биологическими процессами. В частности, рассмотрим среднеквадратическое отклонение 5 начального состояния ^(0) от
зависимости от уровня шума
некоторого стационарного состояния ^0={1,0,..,0} (Л=С=1), отвечающего выбору у0. Тогда д(0)= у0+- и 5 зависит от ^(0) как:
Б2 =[0 -^0)] [0 -^0)] = -У0 _1У —
что может быть получено из определения нейронной сети Хакена [9]. Очевидно, что, если Ы<Ы , то квадратичная форма 52(-) является вырожденной и определяет гиперповерхность типа параболического цилиндра в пространстве, образованном б*2 и координатами вектора - . Поэтому для некоторой постоянной дисперсии шума о-—2 может быть найден диапазон [0,8] возможных значений б*2. Это приводит к немонотонному характеру изменения качества классификации с ростом уровня шума. Отсюда также следует, что использование уровня шума в качестве параметра, от которого зависит качество распознавания для динамических моделей нейронных сетей (в частности, сетей Хопфилда), строящихся с использованием квадратичных форм, вообще говоря, может не являться адекватным подходом к качеству модели и следует сформировать новые требования к процедуре тестирования.
Выводы
Мы рассмотрели новую схему синтеза синергетической нейронной сети, которая способна классифицировать предъявляемый образ. Здесь классификация происходит вследствие разделения фазового пространства на области притяжения многообразий, отвечающих различным наборам запомненных образов (классам). Процедура заключается в выборе одного из классов, к которому предъявляемая конфигурация может быть отнесена в соответствии с некоторым правилом. В процессе классификации все классы конкурируют друг с другом, результатом чего является ситуация, когда параметры порядка всех классов, кроме одного выбранного, ре-лаксируют к нулю. Данная нейронная сеть обладает высоким качеством классификации, что было установлено численными экспериментами на границе памяти. Прототипы могут быть разделены на классы в соответствии с произвольными правилами, а не только по
признаку сходства. Более того, допустимо ассоциировать любой запоминаемый образ с более чем одним классом, т.е. задавать несколько семантических характеристик одному образу. Предложенный метод позволяет строить достаточно развитые нейронные сети с гибким обучением через построение матриц B и G и придавать им разнообразные свойства.
СПИСОК ЛИТЕРАТУРЫ
1. Kohonen T. Self-Organizing Maps. Berlin: Springer-Verlag, 1995.
2. Cho S.B. Ensemble of structure-adaptive selforganizing maps for high performance classificationn // Information Sciences. Vol.23. 2000. №1.
3. Bishop C., Svensen M., Williams C. GTM: A Principled Alternative to the Self-Organizing Map // Advances in Neural Information Processing Systems. Vol.9. 1997.
4. Ripley B.D. Pattern Recognition and Neural
Networks. Cambridge: Cambridge University Press, 1996.
5. Baras J. S., Dey S. Adaptive classification based on compressed data using learning vector quantization // Proc. ofthe 3 8th IEEE Conference on Decision and Control. Vol.4. 1999.
6. Горбань A.H., Россиев Д.А. Нейронные сети на персональном компьютере. Новосибирск: Наука, 1996.
7. UtsugiA. Hyperparameter Selection for SelfOrganizing Maps // Neural Computation. Vol.9. 1997. №3.
8. Hole A. Vapnik-Chervonenkis Generalization Bounds for Real Valued Neural Networks // Neural Computation. Vol.8. 1996. №6.
9. Haken H. Synergetic computers and cognition: A top-down approach to neural nets. Berlin: Springer-Verlag, 1991.
10.Юдашкин A.A. Бифуркации стационарных решений в синергетической нейронной сети и управление распознаванием образов // Автоматика и телемеханика. 1996. №1.
PATTERN CLASSIFICATION AND ITS RELATION WITH TOPOLOGY OF DYNAMICAL SYSTEMS MANIFOLDS
© 2001 A.A. Yudashkin Samara State Technical University
A novel method of neural network for classification is presented. The neural network consists of order parameters each of those corresponds to an unique stored prototype. These parameters connected to each other by the matrix of weights which can be predetermined accordingly to the required partition of the whole set of prototypes into classes or subsets. The subsets may intersects if any prototype belongs to several classes. The classification performs via the temporal competition between subsets of order parameters. This leads to the representation of attractive manifolds in the phase space, when each manifold corresponds to a subset.