Научная статья на тему 'Двухслойный векторный персептрон для решения задачи распознавания бинарных образов'

Двухслойный векторный персептрон для решения задачи распознавания бинарных образов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
551
133
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЙРОННЫЕ СЕТИ / ВЕКТОРНЫЕ НЕЙРОННЫЕ СЕТИ / МОДЕЛЬ ПОТТС / РАСПОЗНАВАНИЕ БИНАРНЫХ ОБРАЗОВ / neural networks / vector neural networks / Potts model / binary pattern recognition

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мальсагов М. Ю., Крыжановский В. М., Желавская И. С.

Для решения задачи поиска ближайшего соседа в конфигурационном пространстве предложена новая модель нейронной сети – двухслойный векторный персептрон (Double-Layer Vector Perceptron, сокращенно DLVP). Она позволила решить проблему однослойного персептрона, заключающуюся в том, что ошибка даже одного выходного нейрона приводит к ошибочному распознаванию сети в целом. Предложенная модель является развитием однослойного векторного персептрона: добавлен дополнительный слой, аккумулирующий информацию. В результате стало возможным корректное распознавание даже в том случае, когда все нейроны внутреннего слоя ошибаются, то есть строить нейронные сети на «слабых» нейронах. Было проведено сравнение данной модели с однослойным персептроном. Разработанная модель значительно превосходит однослойный векторный персептрон в качестве распознавания (понижение ошибки распознавания на четыре порядка и более) ценой незначительного увеличения вычисли-тельной сложности (на 5 %) и требований оперативной памяти. Был проведен анализ свойств и получена теоретическая оценка емкости памяти предложенной модели. В ходе анализа выяснилось, что эта модель обладает еще одним полезным свойством, которого нет у однослойной модели, а именно: с ее помощью можно решать задачу поиска k ближайших соседей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мальсагов М. Ю., Крыжановский В. М., Желавская И. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DOUBLE-LAYER VECTOR PERCEPTRON FOR BINARY PATTERN RECOGNITION

A new model of neural network, Double-Layer Vector Perceptron (DLVP), to solve nearest neighbor search problem, is proposed. The problem of single-layer perceptron, when error of the even one output neuron leads to fail of all network, is solved. DLVP is improved single-layer perceptron with additional layer, which accumulates information. As result, it is possible to right recognize even if all middle layer neurons are fail, i.e. neural networks with ‘weak’ neurons can be built. The model was compared with a single-layer vector perceptron. This comparison showed that though its operation requires slightly more computations (by 5 %) and more effective computer memory, double-layer vector perceptron excels at a much lower error rate (four orders of magnitude lower). We obtained the estimate of DLVP storage capacity and analyzed its properties. During this analysis we found out that the model has one more useful property, which single -layer vector perceptron does not have, i.e. using the proposed model we can effectively solve k nearest neighbors search problem.

Текст научной работы на тему «Двухслойный векторный персептрон для решения задачи распознавания бинарных образов»

Программные продукты и системы /Software & Systems

№ 4 (108), 2014

УДК 519.68 Дата подачи статьи: 04.07.2014

DOI: 10.15827/0236-235X.108.070-077

ДВУХСЛОЙНЫЙ ВЕКТОРНЫЙ ПЕРСЕПТРОН ДЛЯ РЕШЕНИЯ ЗАДАЧИ РАСПОЗНАВАНИЯ БИНАРНЫХ ОБРАЗОВ

(Работа поддержана Отделением нанотехнологий и информационных технологий РАН, проекты №№ 1.8 и 2.1)

В.М. Крыжановский, к.ф.-м.н., зав. сектором, [email protected];

М.Ю. Мальсагов, к.ф.-м.н., и.о. старшего научного сотрудника, [email protected] (Центр оптико-нейронных технологий НИИСИ РАН, ул. Вавилова, 44, к. 2, г. Москва, 119333, Россия); И.С. Желавская, студентка, [email protected] (Сколковский институт науки и технологий, ул. Новая, 100, Сколково, 143025, Россия)

Для решения задачи поиска ближайшего соседа в конфигурационном пространстве предложена новая модель нейронной сети - двухслойный векторный персептрон (Double-Layer Vector Perception, сокращенно DLVP). Она позволила решить проблему однослойного персептрона, заключающуюся в том, что ошибка даже одного выходного нейрона приводит к ошибочному распознаванию сети в целом. Предложенная модель является развитием однослойного векторного персептрона: добавлен дополнительный слой, аккумулирующий информацию. В результате стало возможным корректное распознавание даже в том случае, когда все нейроны внутреннего слоя ошибаются, то есть строить нейронные сети на «слабых» нейронах. Было проведено сравнение данной модели с однослойным персеп-троном. Разработанная модель значительно превосходит однослойный векторный персептрон в качестве распознавания (понижение ошибки распознавания на четыре порядка и более) ценой незначительного увеличения вычислительной сложности (на 5 %) и требований оперативной памяти. Был проведен анализ свойств и получена теоретическая оценка емкости памяти предложенной модели. В ходе анализа выяснилось, что эта модель обладает еще одним полезным свойством, которого нет у однослойной модели, а именно: с ее помощью можно решать задачу поиска к ближайших соседей.

Ключевые слова: нейронные сети, векторные нейронные сети, модель Поттс, распознавание бинарных образов.

Первой и наиболее известной векторной нейронной сетью (НС) является модель Поттса [1-5]. Эта модель по-прежнему исследуется учеными из таких различных областей, как физика, медицина, сегментация изображений и НС. Позже была предложена модель параметрической НС [6], всесторонне исследованная небольшим коллективом Института оптико-нейронных технологий РАН (сейчас ЦОНТ НИИСИ РАН). Похожая модель (CMM) была независимо разработана и продолжает исследоваться в Йоркском университете, Канада [7]. В работе [5] представлена модель векторной НС с мерой близости между состояниями нейронов. Эта модель обобщила все перечисленные модели. Исследователями рассматривались как полносвязные, так и персептронные архитектуры. Были изучены различные правила обучения векторных сетей [9]. Полученные результаты говорят об их высокой эффективности.

Для практических приложений, требующих реализации ассоциативной памяти, более всего подходят персептроны (в нашем случае речь идет о векторных персептронах). Однако они имеют существенный недостаток: достаточно даже одному выходному нейрону переключиться в неправильное состояние, чтобы входной вектор был идентифицирован неверно. Для борьбы с этим приходится повышать надежность каждого нейрона путем повышения избыточности НС либо уменьшения загрузки сети. Иначе можно сказать, что векторный персептрон состоит из «надежных» нейронов, которым нельзя ошибаться, а это противоречит всей идеологии НС.

Альтернативный подход заключается в применении «слабых» нейронов (weak-neurons). При равных затратах оперативной памяти совокупность «слабых» нейронов оказывается эффективнее небольшого числа «надежных» нейронов. Смысл в том, чтобы оснастить векторный персеп-трон дополнительным слоем из одного нейрона, количество состояний которого равно количеству запомненных образов. Его задача заключается в накоплении информации от предыдущего слоя и непосредственной идентификации входного образа. К предложенной идее близка идея, изложенная в работах [10, 11].

Данная статья содержит формальное описание модели, качественное описание, в котором сделана попытка на простом примере показать суть предлагаемого нововведения, и экспериментальные результаты.

Авторы решают задачу поиска ближайшего соседа, которая заключается в следующем. Пусть имеется набор M биполярных паттернов размерности N: ХцеА^, хц,е{+1}, це 1, M.

Биполярный вектор X подается на входы сети. Необходимо найти эталонный образ Xm, расстояние до которого от входного паттерна X будет наименьшим в смысле расстояния Хэмминга.

Формальное описание модели

Рассмотрим двухслойную архитектуру (рис. 1). Входной слой состоит из N скалярных нейронов, каждый из которых может принимать два состояния, xi = ±1, i = 1, 2, ..., N. Первый (внутренний)

70

Программные продукты и системы /Software & Systems

№ 4 (108), 2014

Х1 —►(TV v/l®J

(r, k) ^ m

/\ ®:

xn —►(Ny x 1 • 1 k

'©•;

Рис. 1. Схема двухслойного векторного персептрона

в общем случае

Fig. 1. The general arrangement of the double-layer

vector perceptron

слой состоит из n векторных нейронов, каждый из которых имеет 2q фиктивных состояния, описываемых орт-векторами q-мерного пространства, y,-e{+eb +e2, ..., +eq}, где e* = (0, ..., 0, 1, 0, ..., 0) -единичный вектор, содержащий 1 в k-й позиции. Фиктивность состояний заключается в том, что на этапе обучения нейроны второго слоя имеют q дискретных состояний, а в процессе работы нейроны рассматриваются как простые сумматоры. Это сделано с целью упрощения описания модели. Второй (выходной) слой состоит из одного векторного нейрона, который может принимать M состояний, он описывается орт-вектором M-мерного пространства (M - число паттернов в обучающем множестве) Oe{ob o2, ..., oM}.

Состояние персептрона описывается тремя векторами:

1) входной слой описывается N-мерным бинарным вектором X = (x1, x2, ..., xN), где x, = ±1;

2) первый (внутренний) слой - n-мерным q-арным вектором Y = (yb y2, ..., yn), где y;e{±eb +e2, ..., +eq}, ek = (0, ..., 0, 1, 0, ..., 0) - q-мерный единичный вектор, содержащий 1 в k-й позиции;

3) второй (выходной) слой - M-арным вектором Oe{ob o2, ..., oM}, где or = (0, ..., 0, 1, 0, ..., 0) - M-мерный единичный вектор, содержащий 1 в r-й позиции.

Каждому эталонному образу Xm в однозначное соответствие ставится вектор Ym, а каждому вектору Ym, в свою очередь, в однозначное соответствие ставится вектор om. Каждая компонента вектора Ym генерируется так, чтобы, с одной стороны, вектор Ym был уникальным, а с другой -возможные состояния {e1, e2, ..., eq} были распределены между эталонами строго поровну, то есть

уцг = M(1,1, ...,1). Если последнее требование

не исполняется, вероятность ошибки возрастает на несколько порядков. Таким образом, строим НС, запоминающую ассоциацию

Xm» Ym» om. (1)

Обучение. Коэффициенты синаптических связей векторного персептрона вычисляются по обобщенному правилу Хебба:

M M

W = Т ymxm и J =У oT уm , (2)

jt t—! J j г j t—i m* j " 4 '

m=1 m=1

где Wji - q-мерный вектор, описывающий связи между i-м нейроном входного слоя и j-м нейроном внутреннего слоя; Jj - матрица размерности M*q, описывающая связи между j-м нейроном внутреннего слоя и единственным выходным нейроном, i = 1, N, j = 1, n.

Идентификация. Пусть на входы сети был подан некоторый вектор X. Вычислим отклик сети

O. Для этого сначала вычислим локальные поля нейронов внутреннего слоя:

N

hj =Z Wjixi. (3)

i=1

Так как нейроны второго слоя на этапе распознавания выступают в роли простых сумматоров, далее сформированный сигнал hj без изменений распространяется к выходному нейрону. Поэтому локальное поле на выходном нейроне имеет вид:

n

H = Z J j hTj . (4)

j=1

Выход сети O вычисляется следующим образом. Определяется номер r максимальной компоненты локального поля H. Тогда выход персеп-трона представляет собой O = or, другими словами, на вход персептрона подан искаженный вариант r-го эталонного образа. Причем, чем больше (H, or), тем более статистически верным является полученный ответ. Более того, если выстроить номера компонент в порядке возрастания их значений, то полученный список будет отражать близость по Хеммингу входного вектора X к соответствующим векторам.

Качественное описание модели

Каждому векторному нейрону соответствует свое уникальное разбиение всего множества эталонных образов на q подмножеств. В качестве упрощенного примера на рисунке 2 показаны два разбиения множества из M=12 паттернов на q=4 подмножества. Для каждого разбиения можно вычислить q вероятностей (компоненты вектора локальных полей hkj) того, что входной образ принадлежит каждому из этих q подмножеств. Каждый векторный нейрон - это своего рода решатель, выбирающий подмножество, имеющее максимальную вероятность (на рисунке 2 подмножества № 1 в первом разбиении и № 1 во втором). Пересечение подмножеств, выбранных всеми решателями, определяет выход однослойного персептрона. При этом при оценке этих вероятностей могут совершаться ошибки, связанные со статистической природой проводимых вычислений. Следовательно, решение, основанное только на выборе подмножеств по максимальной вероятности, может быть ошибочным. Достаточно неправильно определить подмножество-победитель

71

Программные продукты и системы /Software & Systems

№ 4 (108), 2014

хотя бы в одном разбиении, чтобы конечное решение было ошибочным.

Базовой идеей предлагаемой модели является учет этого недостатка. Предлагается не принимать промежуточные решения, основываясь только на вероятностях отдельного разбиения (отсекая тем самым возможные решения), а осуществлять накопление такой информации по всем разбиениям. Для этого необходимо трактовать полученные для j-го разбиения вероятности h\, h2,..., hq иным

способом. Если раньше мы рассматривали hkj как индикатор k-го подмножества в j-м разбиении (некий статистический показатель того, что любой паттерн из k-го подмножества j-го разбиения тождественен входному образу), то сейчас мы будем говорить, что каждому элементу (паттерну) k-го подмножества в j-м разбиении ставится в соответствие этот самый индикатор hj Таким образом, каждому паттерну ставится в соответствие набор из n вероятностей или статистических показателей n (где n - число различных способов разбиения всего множества паттернов), а их сумма представляет собой совокупный (интегральный) индикатор данного паттерна. Решение о том, какой паттерн был подан на вход, принимается на основании этих интегральных индикаторов, что позволяет использовать информацию о всех подмножествах во всех разбиениях. (Отметим, что под вероятностью здесь подразумевается некая статистическая величина, а именно компонента локального поля hkj. Ее значение тем больше, чем вероятнее входной паттерн является одним из образов, принадлежащих подмножеству, соответствующему этому локальному полю.)

Пример. Поясним основную идею на простом примере. На рисунке 2 представлены два различных разбиения множества (n = 2), состоящего из 12 объектов (паттернов), обозначенных латинскими буквами, на 4 подмножества. Пусть на вход персептрона был подан искаженный паттерн B. На рисунке рядом с каждым подмножеством указана вычисленная вероятность того, что входной паттерн принадлежит данному подмножеству.

При идентификации по схеме однослойного персептрона в первом разбиении подмножеством-победителем является первое подмножество, которое действительно содержит входной паттерн, а во втором - тоже подмножество № 1 (табл. 1), однако оно не содержит входной паттерн.

Таблица 1

Значения вероятностей принадлежности входного паттерна к подмножеству для первого и второго разбиений

Table 1

Probability that the input pattern belongs to a particular subset

№ подмножества Объекты Вероятность

Разбиение 1

1 M, K, B 0,70

2 D, J, C 0,10

3 L, E, A 0,15

4 H, I, F 0,05

Разбиение 2

1 D, E, F 0,38

2 A, B, C 0,37

3 J, H, K 0,20

4 I, L, M 0,05

Вероятность - шанс того, что входной паттерн принадлежит подмножеству.

Результатом пересечения этих подмножеств будет пустое множество, то есть сеть не может идентифицировать входной паттерн. Таким образом, ошибка на одном нейроне влечет за собой ошибку всей системы. В то же время видно, что во втором разбиении вероятность принадлежности входного паттерна к подмножеству № 1 отличается от соответствующей вероятности для подмножества № 2 всего на 0,01 (1 %) (табл. 1). То есть почти с равной вероятностью входной паттерн может принадлежать как первому, так и второму подмножеству. В предложенной модели этот факт учитывается, и решение принимается уже на основании значений вероятностей из обоих разбиений для каждого паттерна (табл. 2). В качестве ответа выбирается образ, которому соответствует максимальное суммарное значение вероятности. В результате получаем, что сеть правильно идентифицировала, какой паттерн был подан на вход системы.

Таблица 2

Значения вероятностей того, что данный образ является входным, полученные по обоим разбиениям, и суммарное значение вероятности

Table 2

Recognition probabilities computed for two partitions and their sum for each pattern

Объект/ образ Вероятность Сум- ма

по разбиению № 1 по разбиению № 2

A 0,15 0,37 0,52

B 0,70 0,37 1,07

C 0,10 0,37 0,47

D 0,10 0,38 0,48

E 0,15 0,38 0,53

F 0,05 0,38 0,43

72

Программные продукты и системы /Software & Systems

№ 4 (108), 2014

Детали алгоритма

Представим оценки вычислительной сложности и требований к оперативной памяти одно- и духслойного персептронов. Из таблицы 3 видно, что количество вычислительных ресурсов (CPU, RAM), требуемых для работы предложенной модели, всего на 4-5 % больше, чем для однослойного персептрона. Столь небольшие дополнительные затраты на второй слой с лихвой окупаются повышением емкости памяти и надежности.

Таблица 3

Детали алгоритма

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Table 3

Details of the algorithm

Условия Однослойный персеп-трон Двухслойный персеп-трон Отноше- ние*

Количество вычислительных операций 2Nnq 2Nnq+(n+1)M 1,025

Требования к оперативной памяти, байт 4Nnq 4Nnq+4nM 1,033

* - отношение взято для M = 100, N = 100, q = 300, n = 2.

Емкость памяти

Итак, авторами была представлена новая модель НС, которая получилась в результате добавления дополнительного слоя в однослойную сеть. На примерах был показан смысл дополнительного слоя. Далее необходимо исследовать свойства модели и сопоставить характеристики однослойного и двухслойного персептронов. Выполнить это можно несколькими способами.

1. Взять ряд БД, содержащих реальные данные из различных областей, и исследовать, насколько успешно на них работают предложенная модель и исходный однослойный персептрон. В результате будут определены типы данных (типы задач), на которых описанные выше НС работают хорошо, а на каких - плохо. Полученные таким путем результаты будут очень важны, так как позволят понять, какое место занимают эти алгоритмы среди уже имеющихся. Недостаток данного подхода в том, что для понимания причин, приводящих к улучшению или ухудшению работы, необходим глубокий анализ данных, а эта задача сама по себе нетривиальна.

2. Другой подход заключается в том, чтобы создать искусственные наборы данных - эталонных векторов (паттернов) и тестировать на них исследуемые модели. В этом случае появляется возможность преднамеренно создавать ситуации, в которых ярко проявляются интересующие свойства моделей. Важным достоинством такого подхода является возможность проведения аналитических расчетов статистических характеристик сигналов (математического ожидания, дисперсии,

корреляций и т.п.), вычисления вероятности выполнения каких-либо условий или появления событий. Полученные в результате оценки позволяют глубже понимать происходящие внутри НС процессы.

Очевидно, что для всестороннего исследования необходимо пройти по обоим путям. В настоящей работе авторы идут по второму пути: в качестве эталонных образов выступают векторы, компоненты которых сгенерированы независимо и с одинаковой вероятностью равны +1 и -1. Выбор такого алгоритма генерации эталонных векторов связан с тем, что, во-первых, это наиболее простой случай для аналитических вычислений, во-вторых, полученные оценки емкости будут ограничением сверху, то есть мы оценим максимально достижимую емкость памяти НС, которую нельзя будет превзойти. Так, например, известно, что НС хуже справляются с распознаванием похожих эталонных образов (способны запомнить заведомо меньшее количество образов), то есть с данными, имеющими корреляции между эталонными векторами. При этом вероятность правильного распознавания сильно зависит от величин корреляций в каждом конкретном случае. Поэтому различные модели ассоциативной памяти можно сравнивать только по оценке сверху емкости памяти, полученной в наиболее простом случае. Например, известный результат по емкости ассоциативной памяти для сети Хопфилда, равный 0,14N, получен в тех же предположениях.

Необходимо дать определение термину «емкость памяти». Емкость ассоциативной памяти -это величина Mmax, определяющая количество эталонных образов, на которых можно обучить НС так, чтобы она была способна безошибочно распознавать все запомненные образы. При этом подразумевается, что добавление хотя бы одного эталонного образа (Mmax+1) приводит к тому, что какой-то из них перестает распознаваться (в этом случае вероятность ошибки распознавания будет равна 1/(Mmax+1)).

Это классическое определение можно сформулировать иначе. Емкость ассоциативной памяти Mmax - это такое количество эталонных образов, при распознавании которых вероятность ошибочного распознавания предъявленного эталонного образа P равна 1/Mmax. При этом принято, что НС тестируется на запомненных эталонных образах без внесения в них каких-либо искажений. Авторы видят необходимость в обобщении этого определения, заключающегося в том, что поиск величины Mmax выполняется при условии, что на вход сети подаются эталонные векторы, имеющие заданную долю искаженных компонент a>0 (уровень шума), а вероятность ошибочного распознавания P не превышает некоторого заданного порога Pmax (величина Pmax может быть любой, в том числе 1/Mmax).

73

Программные продукты и системы /Software & Systems

№ 4 (108), 2014

Для принятых условий авторам удалось оценить емкость памяти обеих моделей. Полученные оценки хорошо согласуются с экспериментом, лишь в 1,1-3 раза отличаясь по величине от экспериментально полученных результатов.

Емкость памяти двухслойного персептрона nqN(1 - 2a)2

M = C-

(

8ln

С= 2,5.

nqN(1 - la)2

К ln4-.) .

Емкость памяти однослойного персептрона

qN (1 - 2a)2

(5)

M =■

(

2ln

nqN

(6)

J2nP

K " max J

Проанализируем емкость памяти обеих моделей. Из (5) и (6) можно сделать следующие выводы:

- емкость памяти обеих моделей растет линейно от N, q;

- с ростом доли искаженных компонент a во входном векторе емкость памяти моделей убывает квадратично;

- повышение требований к надежности распознавания, то есть уменьшение допустимой вероятности ошибки Pmax, приводит к логарифмическому убыванию емкости памяти сети;

- самое главное: емкость памяти двухслойной сети больше памяти однослойной сети в n раз.

Экспериментальное изучение модели

Изучим экспериментально свойства предложенной модели.

Покажем, что добавление второго слоя повышает вероятность правильного распознавания НС входных векторов. Для этого проведем экспериментальное сравнение двух моделей одно- и двухслойной сети. В этих экспериментах будем варьировать внешние параметры задачи N, M, a.

Детально рассмотрим поведение модели в зависимости от внутренних параметров модели n и q. Увеличение обоих этих параметров повышает вероятность правильного распознавания. Однако эти параметры оказывают разное влияние на модель. Увеличение q приводит к снижению количества информации на долю одной межсвязи, а увеличение n позволяет накопить больше статистической информации.

Исследуем емкость памяти модели. Проверим согласованность полученных оценок с экспериментальными.

Рассмотрим еще одну возможность, которую предоставляет предлагаемая модель, - возможность решения задачи поиска K ближайших соседей.

Сравнение с однослойным персептроном. На рисунках 3-5 по оси ординат отложена вероятность ошибки P, то есть того, что искаженный

эталонный вектор будет идентифицирован неверно. На всех рисунках данные, соответствующие однослойному персептрону, обозначены тонкой линией с ромбовидными маркерами (кривые, лежащие выше всех), остальные кривые соответствуют двухслойному персептрону для различных значений параметров n и q.

Если количество образов M, их размерность N и параметр шума a (вероятность того, что компонента входного бинарного вектора искажена) определяются решаемой задачей, то количество q-арных нейронов и количество их состояний n внутреннего слоя могут варьироваться, чтобы добиться удовлетворительной надежности.

Сначала рассмотрим, как меняется ошибка при фиксированных параметрах n и q от M и N (рис. 3 и 4). Как и ожидалось, увеличение размерности запомненных векторов N либо понижение их количества M приводит к экспоненциальному понижению ошибки P. К тому введение дополнительного слоя позволяет понизить вероятность ошибки более чем на один порядок (до двух и более). Выигрыш тем существеннее, чем меньше ошибка на исходной однослойной сети.

Помехоустойчивость двухслойной сети тоже лучше: кривая с маркерами, соответствующая однослойной сети, лежит гораздо выше (рис. 5).

Анализ свойств модели. На рисунке 6 отображены несколько зависимостей ошибки двухслойной сети P от уровня шума a для различных комбинаций внутренних параметров n и q, при этом произведение nq = const. Верхняя пунктирная кривая соответствует n = 40 и q = 10, ниже идет кривая для n = 8 и q = 50, далее для n = 4 и q = 100, и комбинация параметров n = 2 и q = 200 (жирная линия) показывает наименьшую ошибку. Получается, что с точки зрения надежности во втором слое лучше использовать небольшое количество надежных (избыточных) нейронов. Однако такие сети неустойчивы к разрушениям самой нейросети. Представленные на рисунке 6 результаты (пунктирная линия) доказывают, что надежные и устойчивые к разрушениям нейросистемы могут создаваться и из ненадежных элементов, имеющих значительный разброс параметров.

Сеть с параметрами n = 40 и q = 10 отличается от сети с параметрами n = 2 и q = 200 принципами, обеспечивающими правильное распознавание. В первом случае ключевую роль играет второй слой, накапливающий информацию от большого количества ненадежных элементов (вероятность правильного распознавания однослойного персеп-трона с такими параметрами равна нулю). Во втором случае второй слой лишь изредка (рис. 6, тонкая кривая с маркерами) корректирует ошибки первого слоя.

Рисунок 7 демонстрирует зависимость ошибки P от внутренних параметров n и q. Жирная линия соответствует ошибке двухслойной сети с пара-

74

Программные продукты и системы /Software & Systems

№ 4 (108), 2014

200 300 400 500

200

1E+00 1E-01 +■ 1E-02 £ 1E-03 1E-04 1E-05 1E-06 ■ -1E-07 ■ -1E-08 р

1000

N

400

600

800

0 0,025 0,05 0,075 0,1

Рис. 3. Зависимость вероятности ошибки P от числа запомненных образов M.

N = 100, a = 0, q = 100, n = 2

Рис. 4. Зависимость вероятности ошибки P от размерности задачи N.

M = 1000, a = 0, q = 50, n = 3

Рис. 5. Зависимость вероятности ошибки р от уровня шума a. M=1000, N=100, q=200, n=2

Fig. 3. Probability P versus the number of stored patterns M.

N=100, a = 0, q=100, n=2

Fig. 4. Probability P versus dimensionality N. M=1000, a = 0, q=50, n=3

Fig. 5. Recognition failure probability P versus noise level a. M=1000, N=100, q=200, n=2

0 0,025 0,05 0,075 0,1

qp

1000

1E+00

1E-01

1E-02

1E-03

1E-04

1E-05

1E-06

1E-07

1E-08

1E-09

400

600

800

a

P

500 M ■

Рис. 6. Зависимость вероятности ошибки P от уровня шума a. M=1000, N=100

Fig. 6. Recognition failure probability P versus noise level a. M=1000, N=100

Рис. 7. Зависимость вероятности ошибки P от параметра nq. M=1000, N=100, a=0

Fig. 7. Recognition failure probability P versus nq. M=1000, N=100, a=0

Рис. 8. Зависимость емкости памяти DLP M от доли искаженных компонент a. N=100, q=50, n=4, Pmax=1/M

Fig. 8. DLP storage capacity M as a func-tion of distortion level a. N=100, q=50, n=4, Pmax =1/M

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

метрами n = 2 и q = 200-500, а треугольные маркеры - n = 2-5 и q = 200, то есть обе сети имеют одинаковые вычислительную сложность и требования к оперативной памяти.

Моделирование показывает следующее:

- увеличение обоих параметров ведет к экспоненциальному понижению ошибки P;

- обе сети имеют одинаковую ошибку P в области nq < 800 (достаточно неожиданный результат), что опять же говорит в пользу вывода, сделанного выше.

Представим результаты экспериментального измерения емкости памяти DLP и посмотрим, насколько хорошо полученная оценка емкости памяти (5) согласуется с результатами. На рисунках 8-11 сплошная линия соответствует значениям формулы (5), маркеры отображают экспериментальные результаты. Эксперимент проводился следующим образом: при фиксированных параметрах (N, n, q и a) необходимо было найти такое количество эталонных образов M, при котором вероятность ошибочного распознавания входного вектора P будет равна 1/M, то есть численно решалось уравнение P(M, N, n, q, a) = —.

M

Из представленных графиков видно, что формула (5) отлично согласуется с экспериментом. Полученные кривые подтвержают правильность выводов, сделанных ранее. Стоит особенно подчеркнуть, что емкость памяти DLP линейно растет с увеличением n, в то время как емкость памяти однослойного персептрона (рис. 1 2) убывает пропорционально ln(n) (см. формулу (6)).

Задача поиска K ближайших соседей. Алгоритм обладает еще одним полезным свойством, которого нет у однослойной модели. Если расположить паттерны в порядке убывания значений соответствующих им компонент локальных полей H (Сумма в табл. 2), то полученный список будет отражать близость по Хеммингу входного вектора к соответствующим векторам, а паттерн, занимающий первое место, будет ответом системы.

Продемонстрируем это экспериментально. Сгенерируем M случайных независимых некоррелированных паттернов и дополнительно сгенерируем еще 6 паттернов, которые будут похожи друг на друга в разной степени. Алгоритм генерации этих паттернов следующий:

1) сгенерируем случайный вектор Х1;

2) вектор Х2 получим случайным искажением 5 % компонент вектора Х1;

75

Программные продукты и системы /Software & Systems

№ 4 (108), 2014

q

N

Рис. 9. Зависимость емкости памяти DLP M от количества векторных нейронов внутреннего слоя п. N=100, q=50, a=0,1, Pmax=1/M

Fig. 9. DLP storage capacity M as a function of the number of vector neurons of an inner layer n. N=100, q=50, a=0,1, Pmax =1/M

Рис. 10. Зависимость емкости памяти DLP M от q. N=100, a=0,1, n=4, Pmax=1/M

Fig. 10. DLP storage capacity M as a function of q. N=100, a=0,1, n=4, Pmax=1/M

Рис. 11. Зависимость емкости памяти DLP M от размерности задачи N. q=50, a=0,1, n=4,

P

max'

1/M

Fig. 11. DLP storage capacity M as a function ofproblem size N. q=50, a=0,1, n=4, Pmax=1/M

1 M -

▲ ▲

0 25 50 75 100 125

1 X5 X4 X3 X2 X1

0 2 4 6 8 10 12 14 16 18 2C K

100

50

0

P

n

Рис. 12. Зависимость емкости памяти OLP M от количества векторных нейронов внутреннего слоя n. N=100, q=50, a=0,1, Pmax=1/M. Пунктир соответствует формуле (6), треугольные маркеры - эксперимент

Fig. 12. Single-layer perceptron storage capacity M as a function of n. N=100, q=50, a=0,1, Pmax =1/M. Solid line corresponds to the estimate (6), triangular markers corresponds to experimental points

Рис. 13. Распределение первых шести компонент локального поля H после подачи паттерна Х1 на вход сети. N=100, q=200, a=0, n=2

Fig. 13. Distributions of the first six components of the local field H after applying vector Х1 to the inputs of the network. N=100, q=200, a=0, n=2

Рис. 14. Зависимость вероятности ошибки P от количества дополнительных скалярных произведений K.

N=100, n=2, q=100, a=0, M=400-600

Fig. 14. Recognition error probability P as a function of the number of scalar products K.

N=100, n=2, q=100, a=0, M=400, 500, 600

3) вектор X3 получим случайным искажением 10 % компонент вектора Xj;

4) вектор X4 получим случайным искажением 20 % компонент вектора Х1;

5) вектор Х5 получим случайным искажением 30 % компонент вектора X1;

6) вектор Х6 получим случайным искажением 40 % компонент вектора Х1.

Далее подадим паттерн Х1 на вход сети и посмотрим на значения компонент локального поля H. Компоненты локальных полей, соответствующие этим шести паттернам, будут больше значений полей, соответствующих остальным паттернам. При этом максимальное локальное поле будет соответствовать паттерну Х1 (так как на вход был подан этот же паттерн). Второй по величине будет компонента локального поля, соответствующая Х2, и т.д.

И действительно, результаты эксперимента, представленные на рисунке 13, а именно распределение первых шести компонент локального поля H после подачи паттерна Х1 на вход сети, пол-

ностью подтверждают вышесказанное. Видим, что пики распределений упорядочены в порядке близости паттернов к паттерну Х1.

Такое свойство фактически позволяет решать задачу поиска К ближайших соседей, когда необходимо найти К эталонных образов, наиболее похожих на входной вектор. Это свойство можно использовать и для того, чтобы повысить надежность распознавания при решении поставленной задачи поиска первого ближайшего соседа. Для этого необходимо отобрать К эталонных образов, имеющих наибольшие значения компонент локального поля H. Далее вычислить скалярные произведения входного вектора с этими эталонными векторами и уже по результату выбрать победителя по максимальному значению. В результате ценой нескольких дополнительных скалярных произведений можно существенно понизить вероятность ошибочного распознавания P.

На рисунке 14 продемонстрирована очень высокая эффективность этого улучшения. Видим, что, например, вычисление двух дополнительных

76

Программные продукты и системы /Software & Systems

№ 4 (108), 2014

скалярных произведений (K=2) приводит к понижению ошибки распознавания P почти на порядок, а при K=20 - на 3 порядка. Выигрыш тем больше, чем изначально (при K=1) меньше вероятность ошибки.

В настоящей статье показано, что эффективность однослойной модели векторного персептро-на можно увеличить, добавив дополнительный слой. Продемонстрирована исключительно высокая эффективность предложенной модели. Наглядно показано, что целенаправленное конструирование НС в противоположность слепому увеличению избыточности может дать великолепные результаты.

Литература

1. Wu F.Y. The Potts model. Review of Modem Physics, 1982, no. 54, pp. 235-268.

2. Kanter I. Potts-glass models of neural networks. Physical Review A, 1988, vol. 37 (7), pp. 2739-2742.

3. Cook J. The mean-field theory of a Q-state neural network model. Journ. of Physics A, 1989, vol. 22, pp. 2000-2012.

4. Vogt H., Zippelius A. Invariant recognition in Potts glass neural networks. Journ. of Physics A, 1992, vol. 25, pp. 2209-2226.

5. Bolle D., Dupont P., Huyghebaert J. Thermodynamics properties of the q-state Potts-glass neural network. Phys. Rew. A, 1992, vol. 45, pp. 4194-4197.

6. Kryzhanovsky B.V., Mikaelyan A.L. On the Recognition Ability of a Neural Network on Neurons with Parametric Transformation of Frequencies. Doklady Mathematics, 2002, vol. 65, no. 2, pp. 286-288.

7. Austin J., Turner A., Turner M., and Lees K. Chemical Structure Matching Using Correlation Matrix Memories. 9th Intern. Conf. on Artificial Neural Networks, Edinburgh, Edison, 1999, vol. 1, 2, pp. 619-624.

8. Крыжановский В.М. Исследование векторных нейронных сетей с бинаризованными синаптическими коэффициентами для задач обработки информации и принятия решения: дис...канд. физ.-мат. наук. М., НИИСИ РАН, 2010. 168 с.

9. Kryzhanovsky V., Zhelavskaya I., and Fonarev A. Vector Perceptron Learning Algorithm Using Linear Programming. Villa, et al. (Eds.). Springer, Berlin, Heidelberg, LNCS, 2012, vol. 7553, pp. 197-204.

10. Podolak I.T., Biel S. Hierarchical classifier. Wyrzykows-ki R. (Ed.). Parallel Processing and Applied Mathematics, LNCS, 2006, vol. 3911, pp. 591-598.

11. Podolak I.T. Hierarchical classifier with overlapping class groups. Expert Systems with Applications, 2008, vol. 34 (1), pp. 673-682.

DOI: 10.15827/0236-235X.108.070-077 Received 04.07.2014

DOUBLE-LAYER VECTOR PERCEPTRON FOR BINARY PATTERN RECOGNITION

(This work was supported by the Department of Nanotechnologies and Information Technologies of the Russian Academy of Sciences, projects no. 1.8, 2.1)

Kryzhanovsky V.M., Ph.D. (Physics and Mathematics), Head of Sector, [email protected]; Malsagov M. Yu., Ph.D. (Physics and Mathematics), Acting Senior Researcher, [email protected] (Center of Optical Neural Technologies, SRISA RAS, Vavilova St. 44/2, Moscow, 119333, Russian Federation);

Zhelavskaya I.S., Student, [email protected]

(Skolkovo Institute of Science and Technology, Novaya St. 100, Moscow Reg., Skolkovo, 143025, Russian Federation)

Abstract. A new model of neural network, Double-Layer Vector Perceptron (DLVP), to solve nearest neighbor search problem, is proposed. The problem of single-layer perceptron, when error of the even one output neuron leads to fail of all network, is solved. DLVP is improved single-layer perceptron with additional layer, which accumulates information. As result, it is possible to right recognize even if all middle layer neurons are fail, i.e. neural networks with ‘weak’ neurons can be built. The model was compared with a single-layer vector perceptron. This comparison showed that though its operation requires slightly more computations (by 5 %) and more effective computer memory, double-layer vector perceptron excels at a much lower error rate (four orders of magnitude lower). We obtained the estimate of DLVP storage capacity and analyzed its properties. During this analysis we found out that the model has one more useful property, which single-layer vector perceptron does not have, i.e. using the proposed model we can effectively solve k nearest neighbors search problem.

Keywords: neural networks, vector neural networks, Potts model, binary pattern recognition.

References

1. Wu F.Y. The Potts model. Review of Modern Physics, 1982, no. 54, pp. 235-268.

2. Kanter I. Potts-glass models of neural networks. Physical Review A, 1988, vol. 37 (7), pp. 2739-2742.

3. Cook J. The mean-field theory of a Q-state neural network model. Journ. of Physics A, 1989, vol. 22, pp. 2000-2012.

4. Vogt H., Zippelius A. Invariant recognition in Potts glass neural networks. Journ. of Physics A, 1992, vol. 25, pp. 2209-2226.

5. Bolle D., Dupont P., Huyghebaert J. Thermodynamics properties of the q-state Potts-glass neural network. Phys. Rew. A, 1992, vol. 45, pp. 4194-4197.

6. Kryzhanovsky B.V., Mikaelyan A.L. On the Recognition Ability of a Neural Network on Neurons with Parametric Transformation of Frequencies. Doklady Mathematics, 2002, vol. 65, no. 2, pp. 286-288.

7. Austin J., Turner A., Turner M., and Lees K. Chemical Structure Matching Using Correlation Matrix Memories. 9th Intern. Conf. on Artificial Neural Networks, Edinburgh, Edison, 1999, vols. 1, 2, pp. 619-624.

8. Kryzhanovsky V.M. Research into Binary-Synaptic-Coefficient Vector Neural Nets for Data Processing and Decision Making Problems. Ph.D. Thesis. Moscow, SRISA RAS, 2010, 168 p. (in Russ.).

9. Kryzhanovsky V., Zhelavskaya I., and Fonarev A. Vector Perceptron Learning Algorithm Using Linear Programming. Villa, et al. (Eds.). Springer, Berlin, Heidelberg, LNCS, 2012, vol. 7553, pp. 197-204.

10. Podolak I.T., Biel S. Hierarchical classifier. Wyrzykowski R. (Ed.) Parallel Processing and Applied Mathematics, LNCS, 2006, vol. 3911, pp. 591-598.

11. Podolak I.T. Hierarchical classifier with overlapping class groups. Expert Systems with Applications, 2008, vol. 34 (1), pp. 673-682.

77

i Надоели баннеры? Вы всегда можете отключить рекламу.