Научная статья на тему 'Геометрические методы в теории нейронной ассоциативной памяти: опыт разработки алгоритма кластеризации'

Геометрические методы в теории нейронной ассоциативной памяти: опыт разработки алгоритма кластеризации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
298
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / АССОЦИАТИВНАЯ ПАМЯТЬ / КЛАСТЕРИЗАЦИЯ / ОПТИМИЗАЦИЯ / МНОГООБРАЗИЕ ГРАССМАНА / NEURAL NETWORKS / ASSOCIATIVE MEMORY / CLUSTERING / OPTIMIZATION / GRASSMANN MANIFOLD

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Новицкий Д. В.

Работа посвящена разработке нового алгоритма для обучения без учителя и кластеризации. Предлагаемый алгоритм основан на псевдоинверсной нейронной ассоциативной памяти. Используя методы римановой геометрии, мы строим процедуру обобщенного усреднения на пространстве проекционных матриц постоянного ранга – это пространство изоморфно многообразию Грассмана. Данная процедура позволяет наделить неитеративные парадигмы нейронной ассоциативной памяти способностью к обобщению данных. В статье проводятся экспериментальные результаты для модельных данных, а так же рукописных цифр из базы данных

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MNIST.This paper is dedicated to the new algorithm for unsupervised learning and clustering. This algorithm is based on Hopfield-type pseudoinverse associative memory. Using methods of Riemannian geometry we establish the procedure of generalized averaging on the space of projective matrices of fixed rank: this space is isomorphic to the Grassmann manifold. This procedure enables us to endow the associative memory with ability of data generalization. In the paper we provide experimental testing for the algorithm using simulated random data and images from the MNIST database (handwritten digits).

Текст научной работы на тему «Геометрические методы в теории нейронной ассоциативной памяти: опыт разработки алгоритма кластеризации»

УДК 681.5 Д.В. НОВИЦКИЙ

ГЕОМЕТРИЧЕСКИЕ МЕТОДЫ В ТЕОРИИ НЕЙРОННОЙ АССОЦИАТИВНОЙ ПАМЯТИ: ОПЫТ РАЗРАБОТКИ АЛГОРИТМА КЛАСТЕРИЗАЦИИ

Abstract: This paper is dedicated to the new algorithm for unsupervised learning and clustering. This algorithm is based on Hopfield-type pseudoinverse associative memory. Using methods of Riemannian geometry we establish the procedure of generalized averaging on the space of projective matrices of fixed rank: this space is isomorphic to the Grassmann manifold. This procedure enables us to endow the associative memory with ability of data generalization. In the paper we provide experimental testing for the algorithm using simulated random data and images from the MNIST database (handwritten digits).

Key words: neural networks, associative memory, clustering, optimization, Grassmann manifold.

Анотація: Робота присвячена розробці нового алгоритму для навчання без учителя й кластеризації. Запропонований алгоритм базується на псевдоінверсній нейронній асоціативній пам'яті. Використовуючи методи ріманової геометрії, ми будуємо процедуру узагальненого усереднення на просторі проекційних матриць постійного рангу - цей простір ізоморфний багатовиду Грассмана. Така процедура дозволяє наділити неітеративні парадигми нейронної асоціативної пам'яті здатністю до узагальнення даних. У статті наведено експериментальні результати для модельних даних, а так само рукописних цифр із бази даних MNST.

Ключові слова: нейронні мережі, асоціативна пам'ять, кластеризація, оптимізація, многовид Гоассмана.

Аннотация: Работа посвящена разработке нового алгоритма для обучения без учителя и кластеризации. Предлагаемый алгоритм основан на псевдоинверсной нейронной ассоциативной памяти. Используя методы римановой геометрии, мы строим процедуру обобщенного усреднения на пространстве проекционных матриц постоянного ранга - это пространство изоморфно многообразию Грассмана. Данная процедура позволяет наделить неитеративные парадигмы нейронной ассоциативной памяти способностью к обобщению данных. В статье проводятся экспериментальные результаты для модельных данных, а так же рукописных цифр из базы данных MNIST.

Ключевые слова: нейронные сети, ассоциативная память, кластеризация, оптимизация, многообразие Грассмана.

1. Введение

Данная работа посвящена использованию методов римановой геометрии в теории ассоциативной памяти (АП). Оказывается, что римановы многообразия, возникающие в линейной алгебре (такие, как многообразия Штифеля и Грассмана), являются удобными объектами для представления синаптических матриц этих нейросетей. Использование многообразия Грассмана дает возможность построить на базе ассоциативной памяти алгоритм обучения без учителя и кластеризации.

Наш алгоритм основан на псевдоинверсной ассоциативной памяти [1]. Эта АП, как и другие сети типа Хопфилда, способны обучаться, в некотором смысле, «без учителя». Запоминаемые данные не снабжаются метками классов. Однако такая нейросеть не может использоваться для кластеризации, поскольку не способна обобщать данные: все обучающие образы запоминаются «как есть». Это значит, что такая система не сможет выделить центры кластеров в массиве данных.

Эта проблема частично решена в [2] и [3]. Авторы данных работ предлагают алгоритм адаптивной фильтрации. Этот алгоритм обладает некоторой способностью обобщать данные, однако матрица сети здесь не является проективной, что приводит к искажению и порче сети по мере накопления данных. После некоторого количества обучающих данных такая система перестает функционировать как ассоциативная память.

В отличие от [3, 4], по нашему методу всегда производятся проекционные матрицы. С помощью техники обобщенного усреднения на римановых многообразиях строится синаптическая матрица сети. АП с такой матрицей содержит образы, обобщающие обучающие данные. То есть эти векторы могут использоваться как центры кластеров, а их области притяжения выступят в роли самих кластеров.

Поскольку наш алгоритм основан на неитеративной нейропарадигме, он имеет преимущество по скорости. Действительно, даже для больших массивов данных требуется малое количество эпох. Эта особенность делает алгоритм ассоциативной кластеризации привлекательным по сравнению с другими нейропарадигмами, используемыми для этих целей, например, с самоорганизующимися картами Кохонена [4]. Действительно, обучение карт Кохонена - процесс медленный и зачастую требуются миллионы эпох.

Предлагаемые алгоритмы кластеризации на базе ассоциативной памяти были исследованы экспериментально. Проведены эксперименты с использованием модельных данных, а также рукописных цифр из базы данных ММБТ [5].

2. Необходимые сведения

Псевдоинверсная ассоциативная память

Наш алгоритм основан на автоассоциативной памяти с псевдоинверсным правилом обучения [1]. В сетях этого типа запоминаются биполярные векторы: \к е{-1,1}”, к = \...ш . Пусть эти векторы образуют столбцы матрицы V размером т X” . Синаптическая матрица С дается соотношением:

С = VV +, (1)

где V + - матрица, псевдообратная к V по Муру-Пенроузу. Ее можно вычислить напрямую по формуле V + = (Vт V)-1 Vт или по формулам Г ревиля [7].

Ассоциативный поиск осуществляется с помощью процедуры экзамена: входной вектор х0 служит начальной точкой итераций вида

X+1 = /(СХ) , (2)

где / - монотонная нечетная функция, такая, что Ншз®±¥ /(з) = ±1. К векторному

аргументу она применяется покомпонентно. Устойчивую неподвижную точку этого отображения

будем называть аттрактором. Расстояние по Хэммингу между входным вектором х0 и

запомненным образом Ук такое, что процедура экзамена все еще сходится к Ук и называется аттракторным радиусом.

Многообразие Гоассмана

Существует известная математическая модель, позволяющая описать множество всех линейных подпространств размерности т в Я” и наделить его метрической структурой. Это риманово многообразие Грассмана (МГ). Риманова структура этого многообразия позволяет определить

касательные пространства, метрику, геодезические расстояния. В данной работе рассматриваются только вещественные многообразия Грассмана.

Определение 1. Множество всех матриц У размера п Xт, таких, что У тУ = I с римановой метрикой, индуцированной стандартным вложением в Мп(Я), называется многообразием Штифеля и обозначается Уп т.

Определение 2. Многообразие всех классов эквивалентности матриц У из многообразия Штифеля по отношению к У @ Уи, где и - произвольная ортогональная матрица размером т Xт , называется многообразием Грассмана и обозначается Оп т .

Это многообразие является многообразием всех т-мерных подпространств Я”. В самом деле, каждый элемент многообразия Штифеля задает ортонормированный базис в таком подпространстве, а эквивалентность в определении 2 обеспечивает независимость от выбора базиса. Таким образом, многообразие Грассмана есть фактор многообразия Штифеля относительно действия ортогональной группы О” т = V”,т / Оп (К) [0].

Из линейной алгебры известно, что существует взаимно-однозначное соответствие между самосопряженными проекционными операторами ранга т , т -мерными линейными подпространствами и элементами многообразия Грассмана О” т . Это соответствие задает

Лемма 1. Каждому т -мерному подпространству Ьт с К” взаимно-однозначно

соответствует симметричный проекционный оператор С ранга т и точка с на многообразии Грассмана О .

г ^”,т

Доказательство. Выберем в Ьт какой-нибудь ортонормированный базис. Пусть векторы

этого базиса суть столбцы матрицы У . Тогда С = УУт- самосопряженный проекционный оператор, образ которого совпадает с Ьт. Обратно, для каждого симметричного проекционного оператора С Ьт = тС. Соответствие линейных подпространств и элементов О” т было показано выше. ■

Существуют различные представления точек многообразия Грассмана. Одно из таких представлений базируется на использовании ортогональных ”Xт -матриц. Один элемент МГ есть класс эквивалентности таких матриц (см. выше). Устранить эту неоднозначность можно, избрав представление с помощью проекционных матриц: лемма 2.1 гласит, что каждая такая матрица (взаимно) однозначно определяет элемент МГ. Однако это представление избыточно:

используется ”2 (или -1)/2 при хранении симметричной матрицы в треугольном виде)

вещественных чисел, в то время как размерность МГ составляет всего лишь т(” -т).

Кроме того, представление Грассмана можно использовать для сравнения наборов собственных векторов синаптических матриц, получаемых при различных отклонениях от проекционного алгоритма. Действительно, почти любое искажение исходной матрицы снимает

вырождение: m -кратное собственное значение 1 распадается на m различных СЗ. Получившиеся при этом собственные векторы могут сильно отличаться от запоминаемых в матрице. Чтобы корректно сравнить две такие сети, надо определить расстояние между инвариантными подпространствами в целом. В этом случае метрика на многообразии Грассмана служит хорошей мерой близости.

3. Алгоритм

Постановка задачи

Пусть у нас имеется выборка, содержащая K образов, x1...xk е Rn. Ассоциативную память,

которая содержит образы, обобщающие данные выборки, будем строить так.

Сначала разобьем их случайным образом на группы по m штук. Число m < п не должно превышать количество кластеров, которые мы хотим получить. Затем построим по каждой группе

матрицу проекционной АП Ck, k = 1..^. Для того, чтобы объединить все экземпляры

ассоциативной памяти в одной матрице, прибегнем к обобщенному усреднению на римановом многообразии.

Техника обобщенного усреднения на многообразии

Рассмотрим конечное множество точек некоторого метрического пространства М с расстоянием р(х,у): ^ }г'=1 СM . Обобщенным средним данного множества точек будем называть элемент (3)

_ N 2

x = тт*ем £ (р^, ^)) . (3)

г=1

Аналогично обобщенной медианой конечного множества точек называется точка

N

xш = *еM ЕР^, ^ ) . (4)

/=1

Нетрудно видеть, что если M- эвклидово пространство, то обобщенное среднее и медиана совпадают с обычным средним и медианой соответственно.

Как вычислить обобщенное среднее на многообразии Гоассмана?

Существует несколько представлений элементов многообразия Грассмана Gпm. Остановимся на

представлении в виде проекционных матриц ранга m - такое представление наиболее естественно для задач ассоциативной памяти. В качестве расстояния выберем норму Фробениуса разности матриц. Тогда задача об обобщенном среднем превращается в следующую задачу минимизации:

N

) = £||X-Ck\2;

k=1

X2 = X ; rankX = m . (5)

Преобразуем целевую функцию следующим образом:

N П N П і

(р{ х) = ЕЕ(хі - ck ^ )2 = Е Е \4- 2 +c 2

ІІ к,(/ т ск ,і] ,

і Л=1

k=1 і, і=1

N

k=1і, і =1

N Л 2

N А N N Л п І і N

= Е ^- 2ху Е %,к+Е4,к = Е N хі - ^ Е

k=1

N Л

= N

N

k=1 ) і, і=1 V

2

N

ск ,і k=1

+ СОПБІ =

х -— Е с

ми 1

+ соті = N

X - с

+ соті.

Таким образом, задача (5) об обобщенном среднем свелась к отысканию проекционной матрицы ранга т , ближайшей к арифметическому среднему набору матриц Ск .

4. Экспериментальные результаты

Модельные данные

Данная серия экспериментов проводилась с целью проверки способности нейросети работать с данными, имеющими заранее известную кластерную структуру. Обучающая выборка может быть разбита на части, сгруппированные вокруг известных центров.

Мы использовали случайно сгенерированные биполярные данные. Сначала было образовано р п -мерных векторов, будущих центров кластеров. Векторы данных как таковые были

построены путем добавления к центрам биполярного шума интенсивности к . Это означает, что для получения вектора данных мы случайным образом выбирали к компонент одного из центров и изменяли их знак.

Затем были построены N проекционных матриц ассоциативной памяти, каждая содержала т обучающих векторов. Общий размер обучающей выборки равнялся, следовательно, Nm. Эти матрицы были осреднены с помощью вышеописанного алгоритма, и получена результирующая матрица X .

Чтобы измерить аттракторный радиус такой сети, мы провели процедуру экзамена: в качестве входных векторов использовались центры кластеров, искаженные биполярным шумом интенсивности Н. Аттракторный радиус Н Шг полагался равным максимальному значению Н, при котором итерационный процесс все еще сходился к соответствующему центру.

Для всех экспериментов использовались следующие значения параметров: N = 1000, п = 256; т и р варьировались. Рис. 1 соответствует ситуации, когда объем памяти равнялся числу кластеров, т = р при различных т .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

2

Attracton radius vs. cluster radius

80

ъ 60 re

1 40

20

0

*- ■ к - . ■ - т=32, р=32 т=64, р=64 т=96, р=96

' ч

\ \ V

V V 'А

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70

И

Рис. 1. Аттракторный радиус в зависимости от размера кластера, т = р

На рис. 2 показаны результаты для р < т при постоянном т = 64 . Везде значения НаПг

при к = 0 соответствуют аттракторному радиусу обычной проекционной АП, запомнившей центры кластеров.

Attraction radius vs. cluster radius

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70

h

Рис. 2. Аттракторный радиус в зависимости от размера кластеров при т = 64 и р < т

Видно, что аттракторные свойства сети улучшаются при малом числе кластеров, даже если при этом емкость памяти достаточно велика. Конвергенция происходит примерно до тех пор, пока диаметр кластеров (он равен 2к) не становится близок к АР проекционной сети, запоминающей их центры.

Рукописные цифры из базы данных ММ!ЭТ

Для проверки работоспособности наших алгоритмов на реальных данных мы провели эксперименты с использованием образов из известной базы данных ММБТ [5]. Она содержит 10 классов изображений (соответствующих цифрам от 0 до 9) в серой шкале с разрешением 28x28 пикселей. Образы снабжены метками классов. Имеются обучающая и тестовая выборки по 10000 и 60000 образов соответственно. Число образов в классе составляет от 5843 до 6472 в обучающей выборке и около 1000 - в тестовой.

Каждый образ представлялся в виде п -мерного вектора п = 28 • 28 = 784 . Векторы приводились к биполярному виду с помощью порогового фильтра.

Рис. 3. Некоторые аттракторы АП, полученные на основе данных М1\1!БТ

В этих экспериментах синаптическая матрица сети получена обобщенным усреднением 3750 матриц Ск . Каждая из них - это матрица псевдоинверсной АП, содержащая 16 случайно выбранных образов. Такая сеть имеет множество аттракторов, по несколько аттракторов на каждый класс. Поэтому трудно оценить качество распознавания такой сети. Примеры аттракторов, выглядящих как цифры, изображены на рис. 3. Эти изображения - результат обобщения, они показывают, что сеть «знает» о данных. Кроме аттракторов такого рода есть и некоторое количество паразитных. На вид - это бессмысленные фигуры.

Качество распознавания в данном эксперименте можно оценить следующим образом. Сначала процедура экзамена выполняется на всех образах из обучающей выборки. При этом выявляются аттракторы. Каждый аттрактор приписывается тому классу, из которого наибольшее число образов привели к данному аттрактору. Затем при тестировании образ относят к тому классу, к которому «приписан» соответствующий аттрактор. При таком методе тестирования количество правильно распознанных образов составило около 92 %.

5. Выводы

Проведенные эксперименты показывают, что можно построить нейронные сети ассоциативной памяти, способные обобщать данные. Это открывает возможность создания систем кластеризации

на их основе. Неитеративная природа ассоциативной памяти делает ее привлекательной по сравнению с общепринятыми нейропарадигмами, предназначенными для обучения без учителя.

К сожалению, текущий вариант алгоритма ассоциативной кластеризации имеет очень мало параметров, поддающихся регулировке. Например, мы не можем явно задать желаемое число кластеров: оно лишь ограничено сверху объемом памяти т . Этот недостаток можно преодолеть, расширив класс многообразий, используемых в основном алгоритме.

Важно также, что в нашем подходе используются методы оптимизации на римановых многообразиях. Геометрические методы уже доказали свою эффективность в задачах вычислительной линейной алгебры, адаптивной фильтрации и др. (например, [8]). Есть основания полагать, что их применение перспективно и в области искусственных нейронных сетей, распознавания образов. В данной работе используются многообразия одного типа (Грассмана). Обобщение предлагаемого метода на произвольные римановы многообразия с использованием соответствующих алгоритмов (например, описанных в [9]) позволит решить более широкий класс задач.

СПИСОК ЛИТЕРАТУРЫ

1. Personnaz L., Guyon I., Dreyfus G. Collective computational properties of neural networks: New learning mechanisms // Phys. Rev. A. - 1986. - Vol. 34 (б). - Р. 4217-4228.

2. Reznik A.M. Non-Iterative Learning for Neural Networks // Proa of the International Joint Conference on Neural Networks. - Washington DC. - 1999. - July 10 - 16.

3. Сичов О.С. Дослідження методів удосконалення нейронної асоціативної пам'яті та її застосування в гібридних модульних нейромережах: Дис. канд. техн. наук: 01.0б.03. - Київ, 2003. - 133 c.

4. Kohonen Teuvo Self-organizing maps. Third edition. Springer Series in Information Sciences, 30. - Springer-Verlag Berlin, 2001.

б. The MNISTdatabase. http://yann.lecun.com/exdb/mnist/index.html

6. Edelman A., Arias T. Smith S. The Geometry of Algorithms with Orthogonality Constraints // Siam J. Matrix Anal. Appl. - Vol. 20, N 2. - Р. 303-3б3.

7. Алберт А. Регрессия, псевдоинверсия и рекуррентное оценивание: Пер. с англ. - М.: Наука, 1977.

9. Smith S.T. Geometric Optimization Methods for Adaptive Filtering // Ph. D. Thesis.- Harvard University, Cambridge MA, 1993.

10. Dedieu J.-P., NOVITSKY D. Symplectic Methods for the Approximation of the Exponential Map and the Newton Iteration on Riemannian Submanifolds. Submitted to the Journal of Complexity. - 2004.

i Надоели баннеры? Вы всегда можете отключить рекламу.