Биологический алгоритм распознавания сильно скоррелированных образов
Академик А.Л.Микаэлян, Б.В.Крыжаноеский
Работа выполнена при поддержке РФФИ (проекты №02-01-00457, №01-07-90134) и программы "Интеллектуальные компьютерные системы" (проект 2.45).
Аннотация. Проведен анализ распознающей способности нейросети, способной хранить и обрабатывать информацию, закодированную в виде частотно-фазовой модуляции. Информативные сигналы в рассматриваемой сети передаются по межнейронным связям в виде квазимонохроматических импульсов на п разных частотах. За основу такой сети принят "параметрический" нейрон - обладающий кубической нелинейностью элемент, способный к преобразованию и генерации частот в процессах параметрического 4-волнового смешения. Показано, что с ростом числа несущих частот помехозащищенность рассматриваемой ассоциативной памяти резко возрастает. Одновре-
2
менно резко возрастает и объем нейросетевой памяти, которая в п раз больше аналогичной величины в стандартной сети Хопфилда. Число образов, которые способна сохранять такая нейросеть, может во много раз превышать число нейронов.
Стандартные нейронные сети не приспособлены для распознавания сильно скоррелированных образов и так называемых biased patterns. Помимо этого они обладают малым объемом памяти. Так например, сеть Хопфилда [1] может хранить всего лишь М & N!2\nN рандомизированныхN-мерных образов. При наличии корреляции между образами объем памяти (М) резко уменьшается. Имеющиеся отдельные алгоритмы для распознавания похожих образов, например метод проекционной матрицы [2], достаточно сложны, и не позволяют ввести простое обучающее правило, обладающее биологическим принципом локальности [3].
В то же время, человек достаточно легко выделяет образ среди множества похожих даже при наличии больших искажений. Такую способность можно объяснить, положив в основу модели распознавания принципы функционирования описанного Розенблатом [4] биологического фото-перцептрона: а). Воздействия попадают на ретину (рис.1), которая в одних моделях работает по принципу "все или ничего" (т.е. выдает одиночные импульсы при надпороговых воздействиях), а в других моделях - по принципу частотной или амплитудной модуляции, б). Импульсы передаются в область ассоциации, представляющую собой набор связанных между собой блоков. Если алгебраическая
сумма поступающих на блок подавляющих и возбуждающих сигналов больше некоторого порога, то блок работает по принципу "все или ничего" или выдает частоту, соответствующую количеству и временному порядку принятых сигналов.
Рис. 1. Биологический фото-перцептрон. Пунктиром выделена часть, моделируемая векторной нейросетью.
Из возможных вариантов формального описания биологического модели мы выберем один, наиболее оптимальный с нашей точки зрения. Во-первых, мы постулируем би-нарность сигналов, формируемых в ретине, и случайный характер их передачи в ассоциативную область. Во-вторых, мы примем, что в блоках ассоциативной области формируются частотно-модулированные сигналы, которыми эти блоки и обмениваются. В принятых допущениях распознавание образа можно, условно, разбить на два этапа. На первом, набор бинарных сигналов по случайным связям попадает на блоки ассоциативной области, где преобразуется в набор частотно-модулированных сигналов, т.е. набор векторов. На втором этапе, происходит распознавание образа ассоциативной памятью: блоки ассоциативной памяти обмениваются частотно-модулированными (векторными) сигналами до тех пор, пока система не придет в стабильное состояние, соответствующее распознанному образу.
Как будет видно далее, преобразование набора бинарных сигналов в набор векторных сигналов - это достаточное условие подавления негативного влияния корреляции на распознавание образов. Формальное описание этого процесса приведено в следующем пункте. Для описания работы ассоциативной области мы используем параметрическую модель нейронной сети, способной обрабатывать информацию, закодированную в виде частотно-фазовой модуляции [5]. За основу такой сети принят "параметрический" нейрон [6] - обладающий кубической нелинейностью элемент, способный к преобразованию и генерации <2 частот в процессах параметрического четырехволнового смешения. Параметрическим нейроном мы будем моделировать работу целого блока ассоциативной памяти. Такой подход обоснован практически установленным фактом, что базовыми функциональными элементами, отвечающими за высокоуровневую деятельность
коры головного мозга, являются так называемые корковые колонки (блоки): сильно связанные группы нейронов, обладающие коллективными свойствами и способные к смешению частот и обработке частотно-модулированных сигналов (см. [7-10]). В [11] показано, что набору из 2 частот можно поставить в соответствие набор 2 ортогональных векторов и описание параметрической нейросети, оперирующей частотно-модулированными сигналами, свести к описанию системы взаимодействующих спинов. Поэтому, дальнейшее описание мы проведем на языке векторной (спиновой) модели, более привычном для нейронных сетей. Формализм предлагаемой модели описан в п.З.
Мы покажем, что параметрическая нейросетевая модель, соответствующая описанной выше биологической модели, обладает огромным объемом памяти и способностью распознавать образы даже при исключительно больших искажениях и наличии корреляции. Суть предлагаемого здесь формального описания состоит в следующем. Пусть имеется семейство А^-мерных бинарных векторов {7„}, (т= 1,2,... ,М), искаженные образы которых предстоит распознавать. Необходимая для этого ассоциативная память организуется следующим образом: каждому образу Г„ из пространства ставится в однозначное соответствие образ Хт в неком пространстве Ш большей размерности; на семействе {Хт} строится ассоциативная память в виде описываемой ниже векторной нейросети. Процесс распознавания производится в следующем порядке: распознаваемый бинарный вектор ГеКм отображается в образ Хе9? и отображение предъявляется для распознавания векторной нейросети; при необходимости производится обратное отображение распознанного образа из 9? в изначальное А^-мерное пространство. Таким образом, задача распознавания большого числа бинарных коррелированных векторов сводится к задаче распознавания их отображений.
Алгоритм отображения, позволяющий использовать векторную модель для распознавания сильно скоррелированных бинарных векторов, состоит в следующем. Пусть имеется некий А^- мерный бинарный вектор Г = (у1,у2, ...,уя). Мысленно разделим его на п фрагментов, содержащих по к+1 элементов каждый. Отдельный фрагмент можно рассматривать как целое число ±q , записанное в двоичном коде: первый элемент фрагмента определяет знак (0 - знак "минус", 1 - "плюс"), а остальные к элементов -величину q (параметр к будем называть параметром отображения). Теперь фрагменту поставим в соответствие вектор х = ±е?, где ед - это q-й орт некоторого 2-мерного пространства (2=2*). Тем самым, всему образу ГеКм в целом ставится в однозначное соответствие набор 2-мерных векторов, т.е. образ X = (х1 ,х2, ...,х„). Например, вектор Г=(01001001) можно разбить на два фрагмента по четыре элемента (0100) и (1001). Первому фрагменту (это "-4" в двоичном коде) ставим в соответствие вектор х1 =-е4 в пространстве размерностью 2=8, а второму (это "+1" в двоичном коде) -
вектор х2 = + в!. Соответствующее отображение примет вид Г —» X = (х1, х2). Существенно, что описываемое отображение взаимно однозначно, т.е. распознав отображение X можно однозначно восстановить его бинарный прообраз Г. Еще более существенно то, что процедура отображения практически сводит на нет имеющиеся корреляции. Например, рассмотрим два бинарных фрагмента (0000000001) и (0000000011), скоррелированных на 90%. Отличие фрагментов в одном только элементе приводит полному исчезновению корреляции между их отображениями в пространстве Ш, каковыми являются различные орты е1 и е2 соответственно.
Рассмотрим полносвязную нейронную сеть из п нейронов, описываемых единичными векторами х; =х1е5;'), где х1 =±1, - орт 2-мерного пространства, 1 = 1,2,...,и. Со-
стояние сети как целого определяется набором таких векторов X = (х1, х2,..., хя).
Гамильтониан сети зададим в виде [11], аналогичном модели Хопфилда
п М
ч • Ух т X , Т,у=(1-89)2^х; (1)
1.7=1 м=1
где х; - вектор-столбец, х* - вектор-строка, а величина межсвязи Т между г-м и 7-м нейронами - qx (/матрица, построенная по аналогии с обучающим правилом Хэбба [3] на эталонных образах Хт = (х1я1,х1112,...,хт), т = 1, 2, ...,М . Сеть (1) удобно интерпретировать как систему взаимодействующих (9-мерных спинов и использовать соответствующую терминологию. С учетом (1) входной сигнал на г-й нейрон, т.е. локальное поле действующее на г-й спин со стороны сети, запишется в виде:
N б мм
ь. (2)
у=1 9=1 ]*, м=1
Динамика физической системы определяется естественным образом: г-й спин под воздействием магнитного поля принимает положение, наиболее близкое к направлению этого поля, т.е. состояние г-го нейрона в момент времени г+\ описывается выражением:
х; (/ +1) = эетш1 , 5 = sign[A^ll (/)] (3)
где индексом тах обозначена максимальная по модулю амплитуда Д;'* = А{‘\1) в разложении (2). Динамика системы в целом состоит в последовательном измении
состояний нейронов по правилу (3) и соответствует понижению энергии системы в процессе ее функционирования, т.е. алгоритм (3) сходится.
Определим, насколько эффективно такая нейросеть распознает искаженные образы. Пусть на вход системы подан искаженный т-й образ, т.е. начальные состояния нейронов сети заданы в виде х; = а1Ь1хш , где а1 - оператор мультипликативного шума, который с вероятностью а изменяет знак амплитуды хш вектора х1Ш = хшеш и с вероятностью 1 - а оставляет его неизменным, оператор Ъг - с вероятностью Ь заменяет орт еш е {е^} на любой иной из набора {е(}и с вероятностью 1 -Ь оставляет его неизменным. Сеть правильно распознает эталонный образ Л'ш , если выход /-го нейрона, определяемый выражением (3), будет х; = хш . В противном случае произойдет ошибка распознавания, т.е. сеть вместо Л'ш распознает иной образ. Для вероятности Р этой ошибки, используя метод Чебышева-Чернова [13], детально описанный для данного рода задач в работах [5,6], получим:
Р <п ехр
2М
(4)
Полученное неравенство устанавливает верхнюю границу для средней вероятности ошибки в рассматриваемой нами нейронной сети с параметрами (п,М,0,а,Ь). С ростом п эта граница сходится к нулю всякий раз, когда величина М как функция п растет медленнее, чем
1 (5)
21пи
Это дает основание рассматривать величину (5) как асимптотически достижимую мощность ассоциативной памяти анализируемой нейронной сети. Сравнение (5) с аналогичными выражениями для параметрической оптической модели [5] и модели Поттса [12] показывает, что предложенная модель имеет в два раза больший объем памяти и, при прочих равных параметрах, может распознавать образы, искаженные на 20-30% сильнее.
1=180
А
Рис.2 Распознавание буквы "А", у которой искажены 90% пикселов (выделены серым цветом).
Из (5) видно, что с ростом Q помехозащищенность рассматриваемой ассоциативной памяти резко возрастает. Одновременно резко возрастает и объем нейросетевой памяти, в Q2 раз больший чем в сети Хопфилда. Рис.2 демонстрирует большой объем памяти и высокую помехоустойчивость на примере сети из 180 нейронов с Q=32, в памяти которой записано 360 образов (32-цветных изображений), один из них - стилизованная буква "А". Сеть надежно распознает образ "А", у которого искажено 90% компонент за один цикл. При меньших искажениях (Ь<70%) эта же сеть распознает до 1800 образов.
Обратимся теперь к проблеме распознавания бинарных образов. Задав некоторое значение параметра деления к и применив описаное выше отображение к набору бинарных векторов {7„}е Rn , т е 1 ,М , получим соответствующий набор образов {Хт}е 3?, на основе которых построим векторную ассоциативную память с параметрами: число нейронов векторной сети - п = N /(к +1), число состояний векторного нейрона - Q = 21. Анализ проведем на примере "тенденциозных" образов (biased patterns), компоненты которых уш - случайные величины, принимающие значения 1 и 0 с вероятностями (1 + а) / 2 и(1-а)/2 соответственно, (-1<а<1). Пусть нам предстоит распознать искаженный т-й образ Ym = (s1yml,s2ym2,...,sNylrJV), где случайная величина с вероятностью р изменяет значение бинарной переменной ^ ис вероятностью 1 - р оставляет ее неизменной. Отображением этого вектора в пространстве 3? является искаженный т-й образ Xт, который и предъявляется для распознавания векторной нейросети. Выражая мультипликативные шумы а и Ь, покрывающие отображение, как функции параметра р и подставляя соответствующие выражения в (4) для вероятности ошибки распознавания искаженного отображения Xт получим:
Р = иехр
"~(1- “V)2
2 ц
(6)
где
у = и(1-2р)2(1-р)к, \1 = МА1 р)1, Л = (1 + а2)[1 + а2(1-2р)]/4 .
При к= 0 выражение (6) описывает функционирование модели Хопфилда. Анализ (6) для данного случая показывает, что даже в отсутствие корреляций (а = 0 ) объем памяти не превышает относительно малого значения М0 & N12ХпЫ. А наличие даже небольшой корреляции ( а > А^1/3 ) уменьшает число распознаваемых образов до величины порядка оГ3, т.е. сеть практически перестает выполнять функции ассоциативной памяти.
С ростом параметра отображения к картина резко меняется. Сеть начинает функционировать как векторная модель, т.е. резко повышается объем памяти и снижается влияние корреляции. В частности, при небольших корреляциях, когда а3 < V, для объема памяти из (6) получаем оценочное выражение:
М=М0[(\-р)г1А]*
При большей корреляции, когда а3 > V, объем памяти несколько ниже:
М = оГ3[(1- р)!
Однако и в том, и в другом случаях с ростом к имеет место экспоненциальный рост числа распознаваемых образов (рис.З) и рост надежности распознавания. На рис.4 показано, как с ростом параметра отображения спадает до нуля вероятность ошибки распознавания (кривые построены для корреляций а=0.1, 02, 0.5, 0.6 щтМШ=2 и искажениях р=20% ). Как видим, при достижении некоторого критического значения параметра отображения к вероятность ошибки резко спадает, т.е. негативное влияние корреляции резко уменьшается.
Щрамйгр А
Рис.З Рост объема памяти с ростом параметра отображения к (р= 0.1 -^05).
Шрнетр ети;Л
Рис.4 Уменьшение ошибки распознавания с ростом параметра отображения к
Как видим, соответствующая биологическому прототипу параметрическая модель демонстрирует болыпойРвбъем памяти и способность распознавать похожие образы. Основное допущение при моделировании состояло в том, что бинарные сигналы от фоторецепторов преобразуются в частотно-модулированные сигналы, которыми оперирует ассоциативная память. В проведенном выше анализе мы никак не использовали случайность связей между ретиной и ассоциативной областью, хотя она может играть большую роль в декорреляции распознаваемых образов. Действительно, в большинстве случаев образы заполняют сплошь целые фрагменты рецептивного поля и топологическое отображение в векторное пространство при небольшом значении параметра к не приводит к декорреляции. Однако, случайность передачи сигналов от рецепторов в ассоциативную область сводит на нет такую корреляцию. На алгоритмическом языке сказанное означает, что нумерацию компонент бинарных векторов полезно производить случайным образом, чтобы избежать фрагментарной корреляции.
Очевидно, что процесс распознавания образов мозгом значительно сложнее рассмотренной выше модели. Однако, если эта модель хоть как-то соответствует реальности, то можно утверждать, что размер биологической ассоциативной памяти и ее распознающая способность на порядки выше оценок, предлагаемых бинарными моделями, не учитывающими частотно-модулированный характер кодировки информации.
Действительно, нейронная колонка коры головного мозга (в нашей модели - это Q-мерный нейрон) содержит около 100 нейронов, соединенных возбуждающими и тормозящими связями, и может генерировать сигналы на различных частотах, число которых можно оценить как Q-20+40. Как следует из (5), при таком количестве частот ассоциативная память из таких колонок имеет огромный объем. Даже при весьма умеренном числе частот Q-IQ объем ассоциативной памяти почти на два порядка превышает значения, характерные для сетей Хопфилда (см. рис.З). Проведем некоторые оценки. Характерный линейный размер нейронной колонки порядка 400мкм. При скорости распространения сигналов по межсвязям ~0.1м/с возбуждение за время ~1.5мс (длительность нервных импульсов) охватывает пространство с линейными размерами ~1мм, на котором размещается порядка и-30+50 колонок, вовлекая их в процесс одновременного возбуждения и анализа информации. Это означает, что участок коры головного мозга площадью ~1мм2 способен запомнить М~103+104 бинарных 150-мерных образов и в течение нескольких милисекунд распознавать один из них.
Литература
1. Hopfield J.J. //Proc.Nat.Acad.Sci.USA. 1982. V.79. Р.2554-2558.
2. Personnaz L, Guyon Н., Dreyfus G.// Phys.Rev.A. 1987. V.34. P.4217-4227.
3. Hebb D.O. The Organization of Behavior. N.Y.: Wiley, 1949.
4. Rozenblatt F. //Psychological Review. 1958. V.65. P.368-408.
5. Крыжановский Б.В., Микаэлян A.JI.// ДАН. 2002. Т. 383, №3, с.318-321.
6. Kryzhanovsky B.V., Mikaelian A.L. et al.// Opt.Mem.&Neural Nets. 2001. V.10. P.211-218.
7. Annios P.A., Beek B., Csermely T.J. and Harth E.M..// J.Theor.Biol.. 1970. V. 26. P.121-148.
8. Usher М., Schuster H.G.and Neibur E.//Neural Computation. 1993.V.5, P.370-386.
9. FarhatN.// SPIE’2000, San-Diego, 2000. P. 158-170,.
10. Hoppensteadt F.C., Izhikevich E.M.//IEEE Trans.Neural Nets. 2000. V.l 1. P.734-738.
11. Крыжановский Б.В., Литинский Л.Б.// Искусственный интеллект. 2002. Т.4. С.710-718.
12. Kanter I. // Phys.RevA. 1988. V.37(7). P. 2739-2742.
13. Chernov N. //Ann. Math. Stat. 1952. V.23. P.493-507.