Научная статья на тему 'Искусственная нейронная сеть с модуляцией коэффициентов синапсов'

Искусственная нейронная сеть с модуляцией коэффициентов синапсов Текст научной статьи по специальности «Математика»

CC BY
582
85
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННЫЙ НЕЙРОН C ДИНАМИЧЕСКИМИ СВЯЗЯМИ / ARTIfiCIAL NEURON WITH SYNAPTIC PLASTICITY

Аннотация научной статьи по математике, автор научной работы — Назаров Максим Николаевич

Построена модель нейронной сети на основе искусственного нейрона с динамическими весовыми коэффициентами. В качестве основных процессов, изменяющих весовые коэффициенты нейронов, были выбраны: ослабление связи при длительном отсутствии раздражения на входе, а также усиление или ослабление входной связи синхронным раздражением со стороны другого входа.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Artificial neural network with modulation of synaptic coefficients

The model of neural network based on artificial neuron with dynamic synaptic weights was constructed. As main model processes for changing the synaptic weights were chosen: weakening of a synaptic weight in the absence of synapse stimulation, and modulation of synapse with synchronous irritation of some other synaptic junction.

Текст научной работы на тему «Искусственная нейронная сеть с модуляцией коэффициентов синапсов»

УДК 519.68: 612.8.001.57

ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ С МОДУЛЯЦИЕЙ КОЭФФИЦИЕНТОВ СИНАПСОВ

М. Н. Назаров

Национальный исследовательский университет «МИЭТ»,

Россия, 124498, Москва, Зеленоград, проезд 4806, 5.

E-mail: [email protected]

Построена модель нейронной сети на основе искусственного нейрона с динамическими весовыми коэффициентами. В качестве основных процессов, изменяющих весовые коэффициенты нейронов, были выбраны: ослабление связи при длительном отсутствии раздражения на входе, а также усиление или ослабление входной связи синхронным раздражением со стороны другого входа.

Ключевые слова: искусственный нейрон с динамическими связями.

Введение. Искусственные нейронные сети имеют исключительно широкую область применения. Они используются для решения таких задач, как распознавание образов и классификация, прогнозирование, кластеризация, аппроксимация функций, фильтрация шумов, автоматизированное управление и оптимизация, а также сжатие данных и построение ассоциативной памяти [1].

В рамках данной статьи основное внимание уделено задаче кластеризации: разбиению множества входных раздражений на кластеры, для которых в общем случае может быть неизвестно ни их количество, ни какие-либо характерные особенности отдельных кластеров. Эти два факта принципиально отличают задачу кластеризации от задачи классификации образов, поскольку для классификации заранее известно количество классов, а также к какому классу следует отнести каждый образ из обучающей выборки.

Работу искусственного нейрона можно описать с помощью стандартного набора: N = R,y(t)). Раздражения на входах нейрона N форма-

лизуются в виде вектора x[N](t) = (х\(t),..., xn(t)), а значение на выходе нейрона y[iV](t) вычисляется с помощью весовых коэффициентов синапсов w[iV](t) = iwi(Y),.. и функции R как y[N](t) = Е(^>;(£) Xi{t)).

На практике искусственные нейроны обычно не рассматриваются в изоляции, а объединяются в сети {N\,... ,Nk} путём связывания входов и выходов разных нейронов. К примеру, наличие связи между выходом нейрона N[ и входом номер г нейрона Nj можно записать символьно:

^i[Nj](t + l) =y[Ni](t).

Веса co(t) являются ключевыми параметрами, отвечающими за работу искусственного нейрона. Если весовые коэффициенты могут меняться со временем (uJ(t) ф const) в модели, то соответствующий нейрон будет называться нейроном с динамическими связями, а в противном случае (uJ(t) = const) — нейроном со статическими связями.

Максим Николаевич Назаров, ассистент, каф. высшей математики - 1.

Обучение нейронной сети на решение конкретной задачи сводится к поиску оптимальных весовых коэффициентов Ш для всех нейронов, которые входят в данную сеть. К примеру, для задачи классификации образов, когда заранее известны классы С1\,... ,С1к и принадлежность объектов из обучающей выборки к классам х\ —>■ С1\,... ,Хк —> С1к, оптимальными будут такие веса ш, которые минимизируют погрешность е = тах \yixi) — С1г| классификации входных раздражений из выборки. Если же рассматривать задачу кластеризации, то оптимальными будут такие веса Ш(Ь), которые дают максимальное разделение кластеров из обучающей выборки в смысле нормы выходного раздражения \у(хг) — у(х^\, то есть все объекты из обучающей выборки в оптимальном случае должны попасть в различные и достаточно удалённые друг от друга кластеры.

В случае сетей со статическими связями поиск весовых коэффициентов Ш(Ь) производится «извне» по отношению к самой модели. Примером может послужить алгоритм обратного распространения ошибки для обучения многослойной сети на решение задачи классификации образов (см. [1, 2])-

Для сетей с динамическими связями процесс обучения сводится к повторной подаче данных на входы сети, а настройка коэффициентов Ш(Ь) реализуется самой моделью. Примером правил для изменения Ш(Ь) является так называемое обучение по Хеббу (см. [1]). Примерами подобных моделей являются самоорганизующиеся карты Кохонена (см. [3]).

Отдельно от моделей искусственных нейронов стоят биологические модели нейрона. В отличие от моделей искусственных нейронов модели биологические строятся не для решения задач цифровой обработки информации, а для максимально точного воспроизведения процессов, протекающих в нервных клетках. Вход биологического нейрона обычно описывается как ток ионов через клеточную мембрану, возникающий при активации нейротрансмиттерами ионных каналов. Данные нейротрансмиттеры — это специальные сигнальные молекулы, которые выступают посредниками для передачи информации между нервными клетками через синаптическое пространство между нейронами. При этом сама передача осуществляется за счёт присоединения данных сигнальных молекул к специальным рецепторам на денд-ритах нейрона-приёмника. Если ставится задача провести некоторое соответствие между параметрами искусственных нейронов и биологических, то тогда величинам х^{Ь) в биологических моделях можно, к примеру, поставить в соответствие потоки нейротрансмиттеров в синапсе от аксона нейрона возбудителя, а весам Шj — чувствительность нейрона-приёмника к нейротрансмиттерам (количество активных рецепторов на мембране). При таком подходе, если известен ток ионов I, который вызывает один отдельный нейротрансмиттер (xj = 1), можно посчитать величину силы тока ионов в простейшем случае как ^(1) = I • шт(^((),^^)).

Биологический нейрон ограничен изолирующей клеточной мембраной как диэлектриком, внутри и вне которой сконцентрированы заряженные ионы, что позволяет рассматривать мембрану как конденсатор и ввести значение ёмкости Ст. Также нейрон реагирует на входной сигнал изменениями напряжения или разности потенциалов между аксоном нейрона и окружением, наблюдаемыми как периодические скачки. Величина напряжения представлена как Ут{Ь) и является искомым выходом нейрона у(Ь). Итоговую рабо-

ту биологического нейрона можно описать дифференциальным уравнением, связывающим все вышеупомянутые величины. Примером такого уравнения может послужить Модель Ходжкина—Хаксли (см. [4]):

з

Более сложные примеры моделей биологического направления представлены в работах [5-7]. Как это уже было отмечено, биологические модели нейронов строятся отнюдь не для решения задач цифровой обработки информации. Однако некоторые механизмы, которые изначально описывались и исследовались с помощью моделей биологических, при условии адаптации и упрощения могут быть использованы и для построения искусственных нейронных сетей.

В рамках данной работы избран именно такой подход, и рассматриваться будут только классические искусственные нейроны с динамическими коэффициентами N = К,у(1)). При этом для описания динамики ко-

эффициентов ш(1) были выбраны два биологических процесса, которые до этого рассматривались преимущественно только в биологических моделях. Это — ослабление синаптической связи при длительном отсутствии раздражения, а также модуляция синаптической связи синхронным раздражением со стороны модулирующего нейрона.

Для формирования памяти на основе эффекта модуляции достаточно участия как минимум трех нейронов: сенсорного, модулирующего1 и реагирующего, изображённых на рис. 1.

Рис. 1. Формирования памяти на основе эффекта модуляции: нейрон 1 — сенсорный, нейрон 2 — модулирующий, нейрон 3 — реагирующий

1 Модулирующий нейрон считается подключенным к аксону сенсорного нейрона в области, близкой к синапсу реагирующего нейрона.

До начала модуляции реагирующий нейрон не раздражался при получении сигнала от сенсорного нейрона (левая часть рис. 1). Модуляция связи между сенсорным и реагирующим нейронами происходит при одновременном поступлении раздражающих сигналов от сенсорного и модулирующего нейронов (центральная часть рис. 1). Эффект от модуляции заключается в увеличении активности синаптической связи между нейронами 1 и 3, что в результате позволяет нейрону 3 устойчиво реагировать на раздражение нейрона 1 (правая часть рис. 1). Если модуляция проводилась в течении короткого времени, то формируется кратковременная память, которая постепенно будет разрушаться без повторения модуляции. Однако, если модуляция проводилась достаточно долго, то она приводит к разрастанию связи между нейроном 1 и 3 и формированию долговременной памяти (подробности о данном механизме см. [8, 9]).

1. Описание модели нейрона. При построении модели искусственного нейрона для описания изменения весовых коэффициентов UJ(t) были выбраны пять процессов:

1) положительная модуляция связи синхронным раздражением;

2) гипотетическая отрицательная модуляция;

3) ослабление связи при длительном отсутствии раздражения;

4) долговременное усиление связи (LTP) при длительном сильном входном раздражении;

5) долговременное ослабление связи (LTD) при длительном малом входном раздражении.

Механизмы долговременного усиления и ослабления связи, известные также как Long Term Potentiation и Long Term Depression, являются классическими механизмами обучения по Хеббу (к примеру, см. [1, 9]).

Полный список переменных и констант, необходимых для определения динамики искомого нейрона, представлен ниже.

Константы модели:

- п — количество входов нейрона;

- к — количество уровней активности синапсов;

- ск+, а~ —коэффициенты чувствительности синапсов к модуляции;

- [Зш — скорость разрушения кратковременной памяти;

- Ьш —порог чувствительности синапсов к модуляции (Ьш > 0);

- ті,..., тп — типы2 связей, где Ті Є {+, —};

- ..., — коэффициенты долговременной памяти, расположенные в

порядке возрастания < ■ ■ ■ <

Модельные переменные:

- x(t) = (х\(і),... ,xn(t)) —значения на входах нейрона (xi(t) ^ 0);

- oJ(t) = (wi(t),... ,u)n(t)) — значения синаптических коэффициентов;

- y(t) —значение на выходе нейрона.

Модель нейрона строится для случая дискретного времени, и поэтому отклик y(t) нейрона на входные раздражения x(t) задаётся с использованием

Дополнительно к положительной модуляции вводится гипотетическая отрицательная модуляция, а синаптические связи разбиваются на два типа в зависимости от того, в какой модуляции они участвуют.

классической формулы:

г=п

y{t + 1) = R(^Ui(t)xi(t)y (1)

i= 1

В этом выражении в качестве выходной функции R может быть использована любая из стандартных выходных функций (см. примеры [2]). При этом коэффициенты синапсов co(t) также полагаются модельными переменными, а их значения будут изменяться3 с учётом текущего входного раздражения x(t) по формуле

0Ji(t+1) = Wi(t)+LTPi (Wi,x)+Mi (Wi,x)-LTDi (Wi,x)-Fi (ил,х)-СЬ(х). (2)

В уравнении (2) величины LTPi(uJi,x) и LTDi (u)i,x) описывают долговременное усиление И ослабление СВЯЗИ, соответственно, коэффициент Fi(u)i,X) задаёт ослабление связи в синапсе в отсутствии повторной стимуляции, величина Mi(x,u)i) описывает положительную модуляцию, a Cli(x) задаёт уменьшение u)i(t) в ходе модуляции связями отрицательного типа.

Для отрицательной модуляции, ввиду её гипотетического характера, применяется упрощенная схема: элементарное модулирующее воздействие со стороны связи j уменьшает все коэффициенты нейрона Wi на величину, прямо пропорциональную раздражению модулирующей связи Xj(t). Дополнительно постулируется, что общее воздействие ACli является суммой элементарных, а итоговая модуляция Cli не может сделать коэффициент ол меньшим

r-Tj = (~)

если Wi(t) — ACli(x) > если Wi(t) — ACli(x) ^

Замечание. Поскольку отрицательная модуляция носит гипотетический характер, для неё вводится собственный коэффициент чувствительности а~ в формуле (3), так как использование для неё коэффициента чувствительности ск+ от положительной модуляции было бы никак не обосновано.

Для положительной модуляции используется схема, ориентированная на совместимость с биологическим прототипом (ориентация на работу [8]). В первую очередь, для получения эффекта на Wi суммарное модулирующее воздействие Si(x) ДОЛЖНО превысить порог чувствительности (\oJi\Lw):

Mi(u}i,x) = а+• £(Si(x) - Ьш\u)i\). (4)

В этом выражении функция {(ж) = жег (ж), где а(х) — функция Хевисайда.

Замечание. Отметим, что без введения порога в уравнение (4)

даже самое слабое модулирующее воздействие могло бы увеличивать ил до

3Как альтернативу, вместо дискретного времени и разностных уравнений можно использовать непрерывное время и дифференциальные уравнения для coift).

ACk(x) =

cm =

1 UJi(t)-UJ^

бесконечности, что противоречит данным о динамике модельного прототипа (см. [8]).

Для вычисления суммарного воздействия Si(x) воспользуемся упрощенной схемой, полагая4 его равным сумме элементарных. В свою очередь, отдельное элементарное воздействие со стороны связи j положительного типа (т.,- = (+)) на произвольную связь г будем считать равным xi(t)xj(t). Итоговая формула для Si(x) с учётом всех упрощений будет предельно простой:

si{x) = ^ xi{t)xj{t).

r-Tj=(+)

В отсутствии повторной стимуляции (при Xi(t) = О И С1г(х) = 0) коэффициент u)i(t) должен постепенно уменьшаться, моделируя потерю кратковременной памяти, и в пределе стремиться к ближайшему уровню долговременной памяти win : w3m < Wi(t). Из этих требований получаем выражение для Ff

AFi(x) = ДД1 - cr{xi(t))) (1 - a(Ck(x))), (5)

AFi(x), если 3j : [ojL ^ Wj < Wm* A (— AFi > ujI

Fi{uji,x) = <

UJi - Loin, если 3j : [win ^ OJi < W3m 1 j A [oJi - A Fi ^LulnJ , ^ AFi(x), если ^ Ші) А (ші - AFi >

UJi - UJ.

k

m'>

если ^ UJi) A (u)i - AFi ^ ■

Использование линейной зависимости в формуле (5), так же как и исключение из неё сJi, носит технический характер и не имеет под собой строгих оснований.

Для описания процессов долговременного усиления связи воспользуемся следующей упрощённой схемой: будем считать, что усиление происходит только при достаточно сильном входном раздражении х^) > Ьш\ш^)\ и стремится поднять значение UJi не выше, чем арифметическое среднее (ш^+ш^)/2 крайних значений уровней долговременной памяти:

АЬТР^,х) = (жг(£) - Ьш\ил\) (1 - я(СЬ(х))),

АЬТР^ол,х), если Шi +AFi

LTPi(u)i,x) = { і , і;

.. U)m + to,

— Ші, если ил + At і ^

2 2

Долговременное ослабление связи будет происходить в том случае, если связь подвергается слабому, но при этом отличному от нуля воздействию. При этом нужно учесть, что значение Ші в результате ослабления не должно становиться меньше уровня долговременной памяти

ALTDi(uJi,x) = /ЗшХі(і)а (Ьш\и)і\ - Xi(t)) (I - a(Ck(x))),

LTD (oj- x) - ’ если “ ALTDi{uji,x) > w^,

4ПрИМеНИТеЛЬНО К биологическому прототипу подобный выбор <5?г(ж) и элементарного воздействия можно считать верным в первом приближении.

2. Выбор параметров и обучение нейрона. Перед тем как переходить к вопросам о построении нейронных сетей на основе модели (1)—(6), рассмотрим работу отдельного изолированного нейрона.

Замечание. Отметим, что основная задача, на решение которой можно потенциально «настроить» отдельный изолированный искусственный нейрон с динамическими коэффициентами, —это задача кластеризации образов.

Существует два варианта определения данной задачи. Кластеризация в сильном смысле заключается в разделении обучающей выборки х1,... ,х1 на фиксированное количество уровней квантования, каждому из которых будет соответствовать свой кластер у1,... ,у1. Для проведения кластеризации в сильном смысле в качестве передаточной функции К можно использовать ступенчатую функцию (основные параметры функции — ступени «1,... ,«г):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Кластеризация в слабом смысле сводится к простому разделению обучающей выборки ж1,..., х1 на обязательно различные кластеры у1,..., у1. Однако никаких условий на конечное количество уровней квантования в данном случае не накладывается, и поэтому другое раздражение ж не обязано на выходе давать один из данных откликов у1,... ,у\ а может дать новый у. При этом близость ж к соответствующему элементу обучающей выборки ж3 определяется по норме выходного раздражения \у—у3\. Данная кластеризация позволяет оценить, какие раздражения нейрон с динамическими коэффициентами способен в принципе отличить друг от друга. Для проведения кластеризации в слабом смысле в качестве передаточной функции К можно выбрать положительную линейную функцию Е(х) = {(ж — «о) = (ж — 8о)о(х — во), где <7 — это функция Хевисайда, а £о — порог чувствительности нейрона.

Поскольку модель (1)—(6) включает процессы перестройки коэффициентов синапсов Сс>г(£), алгоритм обучения нейрона может быть сведён к повторной стимуляции входов обучающими сигналами. Как следствие, до начала обучения нужно определить только значения параметров нейрона и временной режим для реализации обучения. Для выбора значений параметров нейрона в первую очередь требуется указать, на какой диапазон входных значений будет рассчитан итоговый нейрон. Чтобы одни и те же параметры нейрона могли быть использованы для разных диапазонов входных значений

ж,-(£), необходимо и достаточно ввести норму для входных значений, зафиксировать максимальную норму N нейрона и нормировать раздражения ж./(£) на N.

Поскольку для значений на входах нейронов ж^(£) в модели допускаются только неотрицательные значения Угх^Ь) 0, для всего набора ж(£) можно ввести норму ПО формуле ||ж(£)|| = ^7=1Хг(1)-

После того как максимальная норма входного воздействия N для модели нейрона была выбрана, для произвольной выборки входных воздействий х1,... ,х1 можно осуществить нормирование как

Ждг = ХгЫ (1/

шах

з

Не имея подробных данных о выборке, найти оптимальные значения параметров в общем случае непросто. Однако, если зафиксировать максимальную норму Ж, число входов п и средний размер выборок I, то можно примерно оценить порядки величин для параметров нейрона по нижеследующему алгоритму.

Шаг 1. Для среднего размера обучающих выборок I можно взять количество отсчетов долговременной памяти к ~ [1/п] + 2, где [х\ —целая часть х. Шаг 2. Выбор порога Ьш влияет на масштаб модулирующих воздействий относительно значений коэффициентов ил. На практике вполне допустимо выбирать их одного масштаба: Ьш = 1.

Шаг 3. Максимальный уровень долговременной памяти выбираем с расчётом на раздражение максимальной нормы. Рассматривая случай предельного распределения Х\(Ь) = ... = хп(Ь) = N/п максимальной нормы между всеми входами, получаем = (п — 1) (И/п) .

Шаг 4. Если допускаются отрицательные коэффициенты, то минимальный уровень установим5 в = —0.3а иначе = 0.

Шаг 5. Остальные значения < ... < уровней долговременной

памяти возьмём равномерно распределенными на отрезке [ш^, .

Шаг 6. Если известна минимальная норма входных сигналов IV, то можно выбрать (Зш ~ 0.1 (Ж/и), а в противном случае (Зш ~ 0.001(Ж/п). К примеру, если используется [Зш ~ 0.1(7У/п), то получится, что время на нейтрализацию одной итерации слабого воздействия будет занимать примерно 10 итераций. Деление на п в обоих выражениях позволяет учесть предельный случай распределения общей нормы между всеми входами: Х\{1) = ... = жга(£) = N/п.

Шаг 7. Ввиду гипотетического характера отрицательной модуляции подбор оптимального коэффициента а~ может быть весьма затруднителен. На практике для него были чаще всего использованы значения а~ € [О.ООШДШ].

Шаг 8. Выбор коэффициента будет однозначно задавать время Ьа, за которое постоянное раздражение на входах окажет максимальный эффект на нейрон. Для предотвращения переобучения нейрона коэффициент пластичности следует брать в диапазоне: 0.05 ^ ^ 1.

Шаг 9. Связи отрицательного типа актуальны только для задач построения нейронных сетей. Для отдельного изолированного нейрона все связи можно взять положительного типа т% = (+)\/г = 1, п. Как вариант, можно зарезервировать одну отрицательную связь тп = (—), чтобы с её помощью осуществлять сброс коэффициентов нейрона при необходимости.

Замечание. Отметим, что если ставится задача подготовить модель нейрона для кластеризации в сильном смысле, то потребуется дополнительно оговорить выбор передаточной функции6 К.

После шага 9 искусственный нейрон будет подготовлен для обучения ре-

БДанное значение не имеет строгого обоснования, и было выработано на основании экспериментов со значениями для

6ОбыЧНО ЭТО СВОДИТСЯ К выбору ступеней Й1, . . . , .31, если используется ступенчатая функция.

шению задачи кластеризации в слабом смысле. Пусть для обучения была зафиксирована выборка х1,... ,х1 раздражающих стимулов (хг = (х\,...,хгп)). В случае кластеризации в слабом смысле задача распознания состоит в получении гарантированно отличающихся откликов у\,...,у1 на все входные стимулы от обучаемого нейрона.

Для определённости будем считать, что для решения задачи был выбран нейрон с максимальной нормой входного раздражения Ж, а входные раздражения ж1,... ,жг нормированы на N. Дополнительно оговорим, что на шаге 2 для этого нейрона минимальный уровень долговременной памяти должен быть установлен в = 0. В этом случае обучение нейрона распознанию выборки ж1,...,^ при фиксированном максимальном времени на обучении ^тах можно разбить на несколько этапов.

Этап 1. Устанавливаются начальные значения Сс>(0) = 0 для всех весов.

Этап 2. По очереди подаём раздражения ж(0) = ж1,..., х{1 — 1) = х1 и регистрируем значения на выходе нейрона у(0),... ,у(1 — 1).

Этап 3. Осуществляем сравнение у(0),... ,у(1 — 1) между собой. Если все они различны, то можно считать что задача была решена. В противном случае возвращаемся к этапу 2 и подаём каждое раздражение два раза подряд х{1) = х{1 + 1) = ж1 ..., ж(21) = ж(21 + 1) = х1. Будем продолжать данный процесс, увеличивая длительность раздражения на каждой итерации вплоть до предельного значения = [1/а+], до тех пор, пока не добъёмся успешного обучения либо пока число итераций не превысит £тах-

Рассмотренный алгоритм обучения можно легко обобщить на случай распознания видеорядов ж1^),..., жг(£) Ш € [0, ^], где ^ — длительность7 отдельного ж7 (£). Для предотвращения переобучения нейрона после подачи каждого из видеорядов ж7 (£) целесообразно дать время нейрону на сброс коэффициентов до ближайших уровней долговременной памяти. Этот сброс можно реализовать, если подавать на входы нейрона нейтральный импульс ж0 = (0,... ,0) В течение времени ~ \^т/(АД)] •

Для наглядной демонстрации возможностей искусственного нейрона рассмотрим задачу кластеризации видеоизображений на конкретных примерах.

Постановка эксперимента. Отдельный кадр изображения будем описывать матрицей из нулей и единиц размера 10 на 10. На рис. 2 единицы представлены чёрными ячейками, а нули серыми и белыми. Для распознания видеоизображений ж1^) и ж2(£) из примера на рис. 2 мы выберем искусственный нейрон с числом входов п = 100 и максимальной нормой N = 20. Собственно сами видеоизображения ж1^) и ж2(£) представляют собой перемещение соответственно квадрата и креста из левого верхнего в правый нижний угол со скоростью V = 1/2 клеток в единицу времени относительно двух неподвижных квадратов (см. рис. 2).

Результаты эксперимента. Видеоизображения ж:(£) и ж2(£) в ходе базовой части эксперименты были кластеризованы как различные. Затем к выборке были добавлены видеоизображения ж3 (£) и ж4 (£), которые представляют собой перемещение квадрата и креста в обратную сторону (из нижнего угла в верхний). Было установлено, что нейрон не будет различать ж1^) и ж3(£),

7Подача на вход элемента выборки х^{€) будет занимать tl тактов времени.

і = О

III

і = 2

і = 20

В

х2Ш :

■К

■Г

Рис. 2. Пример обучения искусственного нейрона на распознание видеорядов

а также х2(1) и х4(1). Это означает, что в данной постановке задачи нейрон нечувствителен к направлению перемещения.

Вторая модификация исходной задачи заключалась в рассмотрении перемещения х5(1) и х6(1) тех же объектов по тем же траекториям, но с большей скоростью V = 1. Для этого примера ж5(£) и ж6(£) нейрон выдал новые значения на выходе, которые не совпали с предыдущими, и таким образом он оказался чувствительным к скорости перемещения объектов.

Последняя модификация исходного эксперимента заключалась в перемещении деформированного квадрата по той же траектории (см. рис. 3). Для последнего примера х1 (£) нейрон также выдал новое значение на выходе, и тем самым оказался чувствительным к форме перемещаемого объекта, а не только к его размеру.

Xі(і) :

і = 0 Я

і = 2 І І І І I

і = 20

Ш

Рис. 3. Пример видеоряда с перемещением деформированного квадрата

Замечание. Отметим, что возможность анализа видеоизображений является важной особенностью данной модели искусственного нейрона. Для классических моделей отдельный нейрон в принципе не способен анализировать видеоизображения, и подобную задачу способны решать лишь нейронные сети из классических нейронов с динамическими коэффициентами. В первую очередь это связано с тем, что механизмы кратковременной и долговременной памяти в таких сетях не моделируются на уровне отдельного нейрона.

3. Описание модели нейронной сети. При построении сетей из искусствен-

ных нейронов возникают два ключевых вопроса, на которые классическая

теория не даёт ответа: сколько нужно взять нейронов, как распределить их

по слоям и по какому принципу вводить связи между нейронами. В рамках данной работы был предложен вариант модели нейронной сети с адаптивными связями, чьё количество настраивается самой сетью на протяжении её работы. Принцип, который положен в основу этого адаптивного механизма, — это подстройка возбудимости нейронов из сети: если возбудимость меньше пороговой, то увеличивать её, а если ниже, то уменьшать.

В дополнение к уже определенным параметрам отдельного нейрона для описания нейронной сети добавим КОНСТАНТЫ НЕЙРОННОЙ сети:

- р— количество входов нейронной сети;

- I — количество слоёв нейронной сети;

- П\, . . . ,Щ —количество нейронов в отдельных слоях;

- КП1,..., Кщ — выходные функции для отдельных слоёв;

- Р+ — вероятность добавления рекуррентной связи;

- Р_ —вероятность удаления отрицательной или слабой связи (со < и;™); _ (Ушах, ^тах) — максимальная возбудимость8 для отдельного нейрона;

_ (Ушш) £тт) — минимальная возбудимость для отдельного нейрона;

ПЕРЕМЕННЫЕ НЕЙРОННОЙ СЕТИ:

- 1п\(1),... , 1пр(1) —значения на внешних входах нейронной сети;

- N*(1) = —состояние нейрона

номера ;) в слое г, где г = 1,1] ;) = 1, щ.

При этом для отдельного нейрона N допускается использование обозначений с[Ж](£), т[Ж](£), ж[Ж](£), ш[Ж](£), у[Ж](£) как обращение исходной записи.

Ключевым отличием описания нейрона N в рамках сети от модели отдельного нейрона является введение переменных с(£) = (с1 (^),... ,сп(£)) для описания соединений нейрона N. Для каждого Сг[Щ возможны три варианта:

1) Сг[./У](£) = (0,0), тогда Жг[Ж](£) = 0, и на входе г обрыв связи;

2) Сг[АП(£) = (0, .7), тогда

3) С;[ЛП(£) = (а, Ъ), тогда Жг[ЛП(£) = у[^](г - 1).

На рис. 4 для наглядной демонстрации всех возможных типов соединений представлен пример нейронной сети. Для случая обрыва связи зарезервирован индекс (0, 0). На рис. 4 изображены обрывы: С2(Л^2) = С'2 (N'2) = с2{Щ) = (0,0). Второй нейрон из первого слоя Л^2 на рис. 4 подключён к третьему входу второго нейрона из второго слоя Щ. Сокращённо можно записать: Сз(Ж|) = (1,2). В нейронных сетях в общем случае могут быть определены и рекуррентные связи, такие как сх(Щ) = (3,1) и сг(Щ) = (3,1).

Внешние ВХОДЫ 1п\(1), ..., 1пр(1) в Рис. 4. Пример нейронной сети нейронной сети подключаются с помощью специально зарезервированных индексов (0,1),... , (0,р). Обращаясь вновь

8Пара (г/,£) позволяет описать желаемую возбудимость за счёт фиксации суммарного значения у на выходе нейрона за время £.

к примеру на рис. 2, имеем С2(Щ) = (0, 5), что означает (Л^1)^) =

Помимо уравнений (1)-(6) для пересчёта состояния каждого отдельного входящего в сеть нейрона И1- (і) будут также использованы два набора правил для адаптивной перестройки соединений между нейронами.

Правила для максимального раздражения. Если суммарное значение на выходе нейрона Щ за время £тах становится ^1=ао УІЩШ ~Щ> Утах, то

1) выбираем любой нейрон Л^+1 из слоя і + 1, который не связан прямой связью с Щ : УЬ с^Л^1] ф (*,_?’) и у которого есть хотя бы одна пустая связь с/і[Л^+1]^) = (0,0); между нейронами Л^+1 и Л^(і) создаём новую положительную связь: с/і[Л^+1](£ + 1) = (г,^'), г„ге+1](*+1) = (+) И ад|ЛЇ+1](( + 1) = 0;

2) если у Щ нейрона есть хотя бы одна пустая связь с^Щ]^) = (0,0), то

с вероятностью Р+ мы однократно выполняем следующие действия: выбираем любой нейрон Л^+а, где а > 0 и с которым Щ(і) не имеет рекуррентных связей, и устанавливаем с нейроном Л^1 отрицательную связь + 1) = (г + а, Ъ) и тн[Щ](і + 1) = (-);

3) если у нейрона И1- есть хотя бы одна слабая связь положительного

типа с другим нейроном Л^, т. е. сь[Щ\(і) = (а,Ь), Сі^Л^і) < и тн[Щ\(і) = (+), то с вероятностью Р- удаляем любую из этих связей, полагая + 1) = (0, 0) и + 1) = 0.

Правила для минимального раздражения. Если суммарное значение на выходе нейрона Щ за время ітіп становится — Ь)< ут;п, то

1) если у Щ нейрона есть хотя бы одна пустая связь с/^Л^і) = (0, 0), то

с вероятностью Р+ мы выполняем однократно следующие действия: выбираем любой активный нейрон Л^+“, где а > 0, у[^+а](£) > 0 и с которым Л^(і) не имеет рекуррентных связей, и устанавливаем с ним положительную связь + 1) = (г + а, Ь) и + 1) = (+);

2) если у нейрона И1- есть хотя бы одна связь отрицательного типа с другим нейроном Л^, т. е. с/і[Л^]^) = (а, Ь) и т/^Л^і) = (—), то с вероятностью Р- удаляем любую из этих связей, полагая с;1[Л(?г](і +1) = (0,0).

Данным формальным правилам можно дать следующую интерпретацию. Если нейрон И1- длительное время подвергается регулярному и достаточно сильному раздражению, то он «проращивает» новую связь с і + 1 слоем для более эффективной передачи актуального раздражения, а также пытается понизить свою возбудимость либо за счёт удаления с вероятностью Р_ слабых положительных связей, либо за счёт добавления с вероятностью Р+ отрицательных рекуррентных связей.

Если нейрон И1- длительное время покоится и практически не подвергается раздражению, то он пытается повысить свою возбудимость либо за счёт удаления с вероятностью Р_ любой отрицательной связи, либо за счёт создания с вероятностью Р+ новой рекуррентной положительной связи.

Замечание. Для разных слоёв нейронов допускаются разные выходные функции но только положительно определённые: \/г, ], і

у{і^\і) ^ 0.

Заключение. Основной вопрос при использовании сетевой модели на практике заключается В выборе параметров (УтахДпах) И (Утт, £тт)- Не имея подробных данных по обучающей выборке, МОЖНО ВЗЯТЬ £т;п = £тах = 1а = = [1 /а+] и примерно оценить ут1п ~ 0.01 пиптахЕ„г(ж)£тт, а утах ~ 50утщ.

І X

Вероятности добавления и удаления связей не следует выбирать очень большими, так как это может приводить к переобучению и деградации системы. К примеру, для обучающих выборок из менее чем 1000 значений можно взять следующие величины этих вероятностей: Р+ = 0.4 и Р_ = 0.2. При этом алгоритм обучения нейронной сети на задачи распознания образов или видеорядов практически ничем не будет отличаться от аналогичного алгоритма для обучения отдельного нейрона.

При сравнении нейронов и нейронных сетей из данной работы с классическими в первую очередь важно отметить, что с помощью данных нейронов можно решать и другие классические задачи искусственных нейронных сетей. В частности, можно адаптировать нейронную сеть для решения задачи классификации образов, если ввести для нейронов специальные обучающие контуры (см. рис. 5).

Так, для обучения одного нейрона N вырабатывать заранее определённые отклики С1 на элементы обучающей выборки хг —> С1\,... ,Хк —> С1к потребуется добавить два дополнительных обучающих нейрона и N и установить с ними статические связи, чьи коэффициенты показаны на рис. 5. На второй вход обучавших нейронов нужно будет подавать эталонные значения С1, которые требуется получить на выходе от нейрона -/V, а в качестве выходных функций этих нейронов использовать Я(х) = £(ж) = ха(х). При этом на выходе нейрона будет величина £(С7 — у(Ж)), а его рекуррентную связь с нейроном N выбираем положительно модулирующей (т = +). На выходе нейрона -/V- соответственно получим £(у(Ж) —С7), а его рекуррентную связь с нейроном N выбираем отрицательно модулирующей (т = —).

Таким образом, построенные в рамках данной статьи модели нейрона, а также нейронной сети могут быть использованы для решения основных классических задач искусственных нейронов. При этом отдельный нейрон помимо анализа статических данных может быть использован также для анализа видеоизображений, что отличает его от обычных искусственных нейронов.

Рис. 5. Пример нейронной сети

1.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ю. Ф. Голубев, “Нейронные сети в мехатронике”

Фундамент, и прикл. мапгем., 2005. Т. 11, №8. С. 81-103; англ. пер.: Yu. F. Golubev, “Neural networks in mechatronics” // J. Math. Set., 2007. Vol. 147, no. 2. Pp. 6607-6622.

2. P. D. Wasserm.an, Neural Computing, theory and practice. New York: Van Nostrand Reinhold, 1989; русск. пер.: Ф. Уоссермен, Нейрокомпьютерная техника: Теория и практика. М.: Мир, 1992. 240 с.

3. Т. Kohonen, Sell-Organizing Maps. Third extended edition / Springer Series in Information Sciences. Vol. 30. Berlin: Springer-Verlag, 2001. xx+501 pp.

4. A. L. Hodgkin, A. F. Huxley, “A quantitative description of membrane current and its application to conduction and excitation in nerve” // J. Physiol., 1952. no. 4. Pp. 500-544.

5. В. В. Майоров, И. Ю. Мышкин, “Математическое моделирование нейронной сети на основе уравнений с запаздыванием”// Машем, моделирование, 1990. Т. 2, №11. С. 64-76. [V. V. Maiorov, I. Yu. Myshkin, “Mathematical modeling of a neuron net on the basis of the equation with delays” // Matem. Mod,., 1990. Vol. 2, no. 11. Pp. 64-76].

6. О. А. Дунаева, “Принципы построения слоистых нейронных сетей на основе импульсных нейронов” // Модел. и анализ информ. систем., 2011. Т. 18, №2. С. 65-76. [О. A. Dunaeva, “Principles of constructing layered neural networks based on pulse neurons” // Model. Anal. Inform. Sist., 2011. Vol. 18, no. 2. Pp. 65-76].

7. E. В. Коновалов, “Задача адаптации обобщенного нейронного элемента” // Модел. и анализ информ. систем., 2012. Т. 19, №1. С. 69-83. [Е. V. Konovalov, “The problem of adaptation of the generalized neural element”// Model. Anal. Inform. Sist., 2012. Vol. 19, no. 1. Pp. 69-83].

8. J.-H. Han, S. A. Kushner, A. P. Yiu, C. J. Cole, A. Matynia, R. A. Brown, R. L. Neve, J. F. Guzowski, A. J. Silva, S. A. Josselyn, “Neuronal Competition and Selection During Memory Formation” // Science, 2007. Vol. 316, no. 5823. Pp. 457-460.

9. I. Antonov, I. Antonova, E. R. Kandel, R. D. Hawkinssend, “Activity-Dependent Presynaptic Facilitation and Hebbian LTP Are Both Required and Interact during Classical Conditioning in Aplysia” // Neuron, 2003. Vol. 37, no. 1. Pp. 135-147.

Поступила в редакцию 29/III/2012; в окончательном варианте — 16/1/2013.

MSC: 68Т05; 92В20

ARTIFICIAL NEURAL NETWORK WITH MODULATION OF SYNAPTIC COEFFICIENTS

M. N. Nazarov

National Research University of Electronic Technology,

5, Proezd 4806, Moscow, Zelenograd, 124498, Russia.

E-mail: [email protected]

The model of neural network based on artificial neuron with dynamic synaptic weights was constructed. As main model processes for changing the synaptic weights were chosen: weakening of a synaptic weight in the absence of synapse stimulation, and modulation of synapse with synchronous irritation of some other synaptic junction.

Key words: artificial neuron with synaptic plasticity.

Original article submitted 29/111/2012; revision submitted 16/1/2013.

Maxim N. Nazarov, Assistant, Dept, of Higher Mathematics - 1.

i Надоели баннеры? Вы всегда можете отключить рекламу.