УДК 621.8:681.5 А.К. ДЕХТЯРЕНКО
МЕТОД ВЫЧИСЛЕНИЯ РАЗМЕЩЕНИЯ ПРОТЯЖЕННЫХ СВЯЗЕЙ В НЕЙРОННЫХ АССОЦИАТИВНЫХ СЕТЯХ С АРХИТЕКТУРОЙ «ТЕСНОГО МИРА»
Abstract: It is known that sparse associative neural network with a small-world architecture offers better associative recall quality than the neural network with the same amount of regularly located connections. Meanwhile the small-world architecture preserves such attractive features of regular topology as local connectivity and small total connection length. In this paper we propose the modified approach for the construction of small-world architecture, which takes into account some peculiarities of the neural associative memories thus providing the further improvement of its properties.
Key words: sparse associative neural network, Hopfield network, attractor properties, small-world architecture.
Анотація: Неповнозв'язна нейронна асоціативна мережа з архітектурою «тісного світу» забезпечує краще асоціативне відновлення даних, ніж нейронна мережа з такою ж кількістю регулярно розміщених зв'язків. При цьому архітектура «тісного світу» зберігає такі переваги регулярної топології, як локальний характер зв'язків і їх малу сумарну довжину. В даній роботі ми пропонуємо модифікацію побудови архітектури «тісного світу» яка враховує особливості нейронної асоціативної пам'яті і, як наслідок, дозволяє досягти подальшого покращання її асоціативних якостей.
Ключові слова: неповнозв'язна нейронна асоціативна мережа, мережа Хопфілда, атракторні властивості, архітектура «тісного світу».
Аннотация: Неполносвязная нейронная ассоциативная сеть с архитектурой «тесного мира» обеспечивает лучшее ассоциативное восстановление данных, чем нейронная сеть с таким же количеством регулярно размещенных связей. При этом архитектура «тесного мира» сохраняет такие достоинства регулярной топологии, как локальный характер связей и их малую общую протяженность. В данной работе мы предлагаем модификацию построения архитектуры «тесного мира», учитывающую особенности нейронной ассоциативной памяти и, как следствие, позволяющую добиться дальнейшего улучшения ее ассоциативных свойств.
Ключевые слова: неполносвязная ассоциативная нейронная сеть, сеть Хопфилда, аттракторные свойства, архитектура «тесного мира».
1. Введение
В основе социального феномена «тесного мира» (Small World) лежит гипотеза о том, что любые два человека на Земле связаны друг с другом цепочкой в среднем из шести личных знакомств [1]. Это явление также известно под названием «шести степеней разделения» (six degrees of separation). Аналитическое описание модели «тесного мира» было впервые предложено в [2]. Система с такой архитектурой характеризуется малой длиной среднего пути между ее элементами, в то же время обладая большим значением коэффициента кластеризации подобно системам с регулярной структурой. В работе [2] показано, что графы совместных работ авторов научных публикаций и актеров кинофильмов, энергетическая система западных регионов США, структура межнейронных связей червя Caenorhabditis elegans обладают именно такими особенностями.
В последние годы модели неполносвязных ассоциативных нейронных сетей с архитектурой «тесного мира» также стали предметом детального исследования. В работе [3] авторы приводят статистическую характеристику аттракторов в зависимости от степени упорядоченности архитектуры сети. Сравнение сетей с «масштабно-инвариантной» (scale-free) архитектурой и архитектурой «тесного мира» проведено в [4]. Авторы работы [5] показывают, что ассоциативные сети с архитектурой «тесного мира» обеспечивают такие же аттракторные свойства, как и сети со случайной архитектурой, при этом используя гораздо меньшую общую протяженность связей.
Вместо правила обучения Хэбба, использованного в [3-5], в статье [6] используется более мощное правило обучения персептрона, при этом целью ставится исследование влияния симметрии весов/топологии на ассоциативные свойства сети.
Все модели, рассмотренные в [3-6], используют одинаковый механизм построения архитектуры «тесного мира», основанный на случайном переносе связей.
В данной работе мы предлагаем усовершенствованный подход для перераспределения связей, в основе которого лежит алгоритм селекции весов [7].
В работе [7] было показано, что полносвязная сеть Хопфилда сохраняет свои ассоциативные свойства при удалении до 80% межнейронных связей с наименьшими абсолютными значениями. Очевидно, что размещение оставшихся связей имеет большое значение для работоспособности сети и отражает некоторые скрытые взаимоотношения в запоминаемых данных. Этот подход был использован в работах [8, 9] для задания архитектуры неполносвязной сети. Было показано, что получаемая таким образом сеть имеет лучшие ассоциативные свойства, чем сеть с таким же количеством случайно расположенных связей.
Аналогичная идея используется и в предлагаемом методе систематического переноса связей. В отличие от алгоритма построения архитектуры «тесного мира» [2], в котором локальные связи между нейронами сети с регулярной архитектурой заменяются на случайные протяженные связи, мы предлагаем переносить связи, используя размещение весов с наибольшими и наименьшими абсолютными значениями полносвязной сети Хопфилда, обученной на том же наборе данных.
2. Нейронная ассоциативная сеть
Рассмотрим разреженную нейронную сеть Хопфилдовского типа, состоящую из п нейронов. Выход нейрона ] оказывает влияние на состояние нейрона г, если
/=і ;=і
При этом не допускается непосредственная связь нейрона с самим собой: і ї Иі,V/.
Вход і -го нейрона, или постсинаптический потенциал, вычисляется как взвешенная сумма его входов:
(1)
(2)
и общей протяженностью связей:
(3)
(4)
где W - весовая матрица сети (матрица межнейронных связей) размерности (п X п).
Выход нейрона на следующем шаге процесса конвергенции получается после применения монотонной нелинейной активационной функции к значению его текущего входа:
= /(л; )=^(л; ) (5)
В данной работе в качестве активационной функции мы используем знаковую функцию с областью значений {-1, +1}. Таким образом, рассматриваемая сеть хранит биполярные векторы с компонентами {-1, +1}.
Состояния нейронов могут пересчитываться одновременно (синхронный режим конвергенции) или последовательно (асинхронный режим). В данной работе рассматривается синхронный режим конвергенции, который в случае аппаратной реализации позволяет воспользоваться параллелизмом, присущим нейронным сетям, а также обеспечивает несколько лучшие ассоциативные свойства.
3. Модель архитектуры «тесного мира»
Построение модели с архитектурой «тесного мира» начинается с построения сети с регулярной архитектурой - одномерной замкнутой цепочки из п узлов, в которой каждый узел связан со своими к/2 ближайшими соседями:
7 е о|7 - /| < к/2. (6)
Затем осуществляется перенос некоторых из связей, что приводит систему в состояние, промежуточное между регулярной решеткой и случайной сетью. Этот перенос можно выполнить одним из следующих способов.
Случайный перенос связей
В методе случайного переноса связей [2] каждая межнейронная связь с вероятностью p переносится к случайно выбранному нейрону. Дублирующиеся связи, а также связи нейронов непосредственно самих с собою не допускаются.
Систематический перенос связей
Пускай в нейронной ассоциативной сети необходимо сохранить набор п -мерных, биполярных векторов:
{х} р = \...ш,Х е{-. (7)
Для этой цели сначала обучается полносвязную сеть Хопфилда, используя набор данных (7) и проекционное правило обучения:
= {Х №' }*=п(ХР }). (8)
При таком алгоритме обучения весовая матрица равняется проекционной матрице на линейное подпространство, натянутое на множество запомненных векторов {Х }.
Затем, используя весовую матрицу сети WFull и размещение связей в сети с регулярной архитектурой, для каждого i -го нейрона проводится сортировка:
- существующих связей Ni в возрастающем порядке абсолютного значения
соответствующего элемента WFull;
- несуществующих связей Ni в убывающем порядке абсолютного значения
соответствующего элемента WFull.
Для i -го нейрона находится максимальное число его связей, которые могут быть перенесены:
r. = max j : Wfui (i, N,[j])| < |жм (i, N[j])|, (9)
(т.е. допускается только такой перенос связей, который приведет к большим абсолютным
значениям соответствующих элементов WFull, чем это было до переноса).
Затем для заданной вероятности р , чтобы получить ожидаемое число перенесенных связей близким к р •n•k (подобно алгоритму со случайным переносом связей), перенос осуществляется следующим образом:
j = 1..^. : Ni[j] = Ni[jL (10)
где
1, with prob = pk -1 pk I I
Г . (11)
0, with prob = 1 - (pk -1_pk_)
([. _ обозначает округление до целого значения в меньшую сторону.)
Пересчитанные таким образом наборы индексов связей нейронов Nt, i = 1...n определяют архитектуру сети после процедуры систематического переноса связей.
4. Алгоритм обучения нейронной сети
Для обучения нейронной ассоциативной сети мы применяем двухэтапный алгоритм. На первом этапе мы задаем архитектуру сети (размещение межнейронных связей), а на втором присваиваем этим связям весовые значения, используя псевдоинверсный алгоритм обучения (Pseudo Inverse learning rule, [11]).
Для нейронных сетей с достаточной степенью связности (р ~ m/n) псевдоинверсный алгоритм обеспечивает выполнение своего критерия обучения - равенство 1 всех нормированных постсинаптических потенциалов (17). Этот алгоритм работает следующим образом.
Для того чтобы учесть структурные ограничения, накладываемые неполносвязной архитектурой, введем оператор селекции, который удаляет некоторые из столбцов матрицы:
S1 : (l х n)®(l х N |). (12)
Оператор 81 сохраняет лишь те столбцы своего матричного аргумента, которые
соответствуют индексам, содержащимся в наборе М1.
Обозначая 1 -ю строку матрицы обучающего набора данных как {Х} , веса 1 -го нейрона находятся как решение уравнения «неподвижной точки»:
S1 (ж1 )• S1 (Хр }Т ) ={%р }. (13)
Решение этого уравнения может быть найдено с использованием операции
псевдообращения:
S' (ж1 )={" } • ( S' ({" }Т )^+. (14)
5. Ассоциативные свойства
Введем коэффициент подобия т(Х,)) для биполярных векторов как:
т(Х,)) = Х). (15)
п
Считается, что нейронная сеть проявляет ассоциативные свойства для набора запомненных векторов {х}, если процесс конвергенции, начиная с некоторого начального состояния ), такого, что его коэффициент подобия с одним из запомненных векторов
т (х,)) = т0 < 1 приводит сеть в состояние X .
Чтобы найти минимальное значение коэффициента подобия m0 все еще обеспечивающего ассоциативные свойства сети, мы проводили для каждого из запомненных векторов X процесс конвергенции, который начинался со случайного начального состояния ) (т(Х,))= т0 @ о).
Очевидно, что при таких начальных условиях сеть не проявляла свойств ассоциативной памяти. Однако затем степень подобия начального состояния и запомненного вектора постепенно увеличивалась (на величину 1/п), пока процесс конвергенции не приводил к правильному выходу сети, равному X.
В экспериментальных результатах приводится значение нормированного аттракторного радиуса Я [12], который определяется как
Чий' <1в>
где т0 - минимальное значение коэффициента подобия, обеспечивающее конвергенцию
сети к запомненному образу X ; т1 - максимальное значение коэффициента подобия вектора X с остальными запомненными векторами, а двойное усреднение осуществляется по различным наборам запоминаемых векторов и по всем векторам X в каждом из наборов.
Нахождение экспериментального значения аттракторного радиуса Я может оказаться довольно ресурсоемкой задачей для сетей большой размерности. В случае, если нет необходимости количественно оценивать аттракторные качества сети, а достаточно качественно сравнить поведение разных сетей, то можно воспользоваться так называемой к -оценкой.
Нормированным постсинаптическим потенциалом (НПСП) для 1 -го нейрона и биполярного вектора X называется величина
пР*Рг (х) = ,. (17)
Вектор данных является устойчивым состоянием сети тогда и только тогда, когда НПСП всех нейронов положительны.
Масштабирование элементов весовой матрицы увеличит значения НПСП, но, очевидно, не приведет к улучшению ассоциативных качеств сети. Оптимальное поведение сети как ассоциативной памяти может быть достигнуто при максимизации значений НПСП относительно величины весовых коэффициентов [13]:
(18)
где Ж1 вектор весовых коэффициентов і-го нейрона (і-я строка весовой матрицы Ж). Минимум по всем нейронам и всем обучающим векторам дает оценку ассоциативных качеств сети (к -оценка):
К = mm у . (19)
і=1...п
р=1...т
6. Численный эксперимент
Для каждого значения вероятности переноса связей p было сгенерировано 10 наборов данных {ХР}. Каждый из этих наборов данных был составлен из биполярных векторов со случайными, независимыми компонентами с равновероятными значениями {-1, +1}. Количество векторов в обучающем наборе - 10, их размерность - 400 (п = 400, т = 10).
Все характеристики сети усреднены по этим наборам. При этом на графиках приведены величины как среднего значения, так и стандартного отклонения.
Эксперименты проводились с сетью с радиусом межнейронных связей к = 20 (р = 0,05). Для сети с систематическим алгоритмом переноса связей указана доля фактически перенесенных весов, и это значение в точности равнялось значению параметра алгоритма р вплоть до р = 0,8 .
Для величин р > 0,8 доля весов оказывалась меньшей вследствие ограничения (11).
На рис. 1а показана зависимость нормированного аттракторного радиуса Я от параметра р. Видно, что применение алгоритма вычисления протяженных связей позволяет добиться
больших значений Я , используя то же количество перенесенных связей. Кроме того, в диапазоне р е[0,1; 0,75] предлагаемый подход обеспечивает лучшие ассоциативные качества сети, чем при
использовании полностью случайной топологии (р = 1 в алгоритме со случайным переносом связей).
1.2
1
G.B
G.6
G.4
G.2
G
-G.2
а)
- * — Random —♦-----Systematic
ШШ
G.2
G.4
G.6
G.B
1.4
1.2
1
<D
3 G.B ra
j= G.6 ^ G.4 G.2 G
б)
Random
Systematic
/ V
-Їііїі
G.2
G.4 G.6
P
G.B
Рис. 1. Зависимость ассоциативных показателей сети от доли перенесенных связей
G
P
Значение к -оценки приведено на рис. 1б. Для каждого значения параметра р это значение дает приблизительное сравнение двух подходов к переносу связей. Относительные величины к -оценки находятся в согласии с результатами непосредственного экспериментального сравнения на рис. 1а, но зависимость этой оценки для отдельно взятого алгоритма случайного переноса связей не отображает улучшение ассоциативного поведения сети при уменьшении степени ее упорядоченности. Поэтому можно сделать вывод, что использование к -оценки должно, по возможности, подкрепляться непосредственно полученными данными об аттракторном радиусе.
Рис. 2. Зависимости среднего ранга системы и общей протяженности связей
Алгоритм систематического переноса весов проявляет интересные свойства для значений р > 0,5. При превышении параметром р этой величины ассоциативные свойства сети начинают ухудшаться, приближаясь к состоянию, в котором аттракторный радиус убывает практически до 0 (р = 0,95, Я = 0,02). Это поведение объясняется динамикой усредненного ранга системы
уравнений (13), показанной на рис. 2а. Усреднение проведено по всем нейронам и по всем наборам обучающих данных. При существовании точного решения (13) ранг системы равен в точности т = 10 (число запомненных образов). Это всегда имеет место для схемы со случайным переносом связей, однако для систематического переноса весов значение усредненного ранга системы может иметь меньшее значение, что означает отсутствие точного решения для весов
некоторых нейронов. Именно эти нейроны и приводят к ухудшению ассоциативных качеств сети в целом.
В работе [5] было найдено, что нейронная ассоциативная сеть с архитектурой «тесного мира» позволяет достичь таких же ассоциативных показателей, как и сеть со случайной архитектурой, однако с использованием гораздо меньшей общей протяженности связей. Рис. 2б показывает, что алгоритм систематического переноса весов сохраняет это достоинство, приводя лишь к незначительному приращению общей протяженности связей.
7. Заключение
Экспериментальные результаты показывают преимущества алгоритма систематического переноса связей по сравнению со случайным подходом. По существу, метод систематического переноса связей с использованием алгоритма селекции весов представляет собой выбор переменных (весов нейронов) уравнения (13) с учетом ограничений, которым они должны удовлетворять. Этот подход способствует разрешимости (13), обеспечивая решение с меньшей нормой (с большим значением к -оценки), т.е. набор весов, приводящий к лучшим ассоциативным качествам сети.
В рамках будущей работы планируется сравнение метода систематического переноса связей в комбинации с различными алгоритмами обучения. Исследование использования ковариационной матрицы вместо проекционной для алгоритма селекции весов также представляет интерес, поскольку позволяет снизить вычислительную сложность алгоритма.
Данная работа выполнена при поддержке гранта 1МТАв УБР 03-55-795.
СПИСОК ЛИТЕРАТУРЫ
1. Милграм С. Эксперимент в социальной психологии: Пер. с англ. - СПб..: Питер, 2000. - 336 с.
2. Watts D.J., Strogatz S.H. Collective dynamics of 'small-world' networks // Nature. - 1998. - Vol. 393. - P. 440 -442.
3. Morelli L.G., Abramson G., Kuperman M.N. Associative memory on a small-world neural network // The European Physical Journal B - Condensed Matter. - 2004. - Vol. 38. - P. 495 - 500.
4. McGraw P.N., Menzinger M. Topology and computational performance of attractor neural networks // Physical Review E. - 2003. - Vol. 68. - P. 47 - 51.
5. Bohland J.W., Minai A.A. Efficient associative memory using small-world architecture // Neurocomputing. - 2001. -Vol. 38/40. - P. 489 - 496.
6. Davey N., Christianson B., Adams R. High capacity associative memories and small world networks // Proc. of IEEE Int. Joint Conf. on Neural Networks. - 2004. - P. 177 - 182.
7. Сычев А. Селекция весов в нейронных сетях с псевдоинверсным алгоритмом обучения // Математические машины и системы. - 1998. - № 2. - С. 25 - 30.
8. Dekhtyarenko O.K., Reznik A.M., Sitchov A.S. Associative cellular neural networks with adaptive architecture // Proa of IEEE Workshop on Cellular Neural Networks and their Applications. - 2004. - 6 p.
9. Dekhtyarenko O., Tereshko V., Fyfe C. Phase transition in sparse associative neural networks // European Symposium on Artificial Neural Networks. - 2005. - 6 p.
10. Personnaz L., Guyon I., Dreyfus G. Collective computational properties of neural networks: New learning mechanisms // Physical Review A. - 1986. - Vol. 34(5). - P. 4217 - 4228.
11. Brucoli M., Carnimeo L., Grassi G. Discrete-time cellular neural networks for associative memories with learning and forgetting capabilities // IEEE Transactions on Circuits and Systems. - 1995. - Vol. 42(7). - P. 396 - 399.
12. Kanter I., Sompolinsky H. Associative recall of memory without errors // Physical Review A. - 1987. - Vol. 35. -P. 380 - 392.
13. Kepler T.B., Abbot L.F. Domains of attraction in neural networks // Journal de Physique. - 1988. - Vol. 49. -P. 1657 - 1662.