Научная статья на тему 'Флуктуации весовых коэффициентов в искусственной нейронной сети, настраивающейся по алгоритму LMS с квадратичным ограничением'

Флуктуации весовых коэффициентов в искусственной нейронной сети, настраивающейся по алгоритму LMS с квадратичным ограничением Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
117
19
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСКУССТВЕННАЯ НЕЙРОННАЯ СЕТЬ / NEURAL NETWORK / ФЛУКТУАЦИИ ВЕСОВЫХ КОЭФФИЦИЕНТОВ / FLUCTUATIONS OF WEIGHT COEFFICIENTS / АЛГОРИТМ МИНИМИЗАЦИИ СРЕДНЕГО КВАДРАТА ОШИБКИ С КВАДРАТИЧНЫМ ОГРАНИЧЕНИЕМ / THE ALGORITHM TO MINIMIZE THE AVERAGE SQUARED ERROR WITH A QUADRATIC CONSTRAINT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Зимина Светлана Валерьевна

Приведены результаты статистического анализа с учетом флуктуаций настраиваемых весовых коэффициентов искусственной нейронной сети, настраивающейся по алгоритму минимизации среднего квадрата ошибки с квадратичным ограничением на усиление полезного сигнала. Методами теории возмущений по коэффициенту адаптации алгоритма, который будем считать малым, в первом (так называемом «борновском») приближении найдено выражение корреляционной функции выходного сигнала. Показано, что учет флуктуаций весовых коэффициентов приводит к искажениям выходного сигнала искусственной нейронной сети. Полученные результаты позволяют выбирать величину коэффициента адаптации алгоритма настройки искусственной нейронной сети, приводящей к оптимальному соотношению между скоростью настройки сети и точностью настройки.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Зимина Светлана Валерьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

WEIGHT VECTOR JITTER IN THE NEURAL NETWORK WITH LMS ALGORITHM TUNING WITH SQUARE CONSTRAINT

The article presents the results of statistical analysis taking into account weight vector jitter of an neural network tuning the algorithm to minimize the average squared error with a quadratic constraint on the gain of the desired signal. Methods of perturbation theory in the first (so-called "born") at a rate adaptation algorithm, which we assume to be small, the approximation is found the expression of the correlation function of the output signal. It is shown that taking into account fluctuations of weight coefficients leads to distortions in the output signal of an neural network. The obtained results allow to choose the value of the coefficient adaptation algorithm configuration of an neural network, resulting in optimal ratio between the speed of the network configuration and tuning accuracy.

Текст научной работы на тему «Флуктуации весовых коэффициентов в искусственной нейронной сети, настраивающейся по алгоритму LMS с квадратичным ограничением»

РАДИОТЕХНИКА, СИСТЕМЫ ТЕЛЕКОММУНИКАЦИЙ, АНТЕННЫ И УСТРОЙСТВА СВЧ

УДК: 621.396.6

С.В. Зимина

ФЛУКТУАЦИИ ВЕСОВЫХ КОЭФФИЦИЕНТОВ В ИСКУССТВЕННОЙ НЕЙРОННОЙ СЕТИ, НАСТРАИВАЮЩЕЙСЯ ПО АЛГОРИТМУ LMS С КВАДРАТИЧНЫМ ОГРАНИЧЕНИЕМ

Нижегородский государственный университет им. Н.И. Лобачевского

Приведены результаты статистического анализа с учетом флуктуаций настраиваемых весовых коэффициентов искусственной нейронной сети, настраивающейся по алгоритму минимизации среднего квадрата ошибки с квадратичным ограничением на усиление полезного сигнала. Методами теории возмущений по коэффициенту адаптации алгоритма, который будем считать малым, в первом (так называемом «борнов-ском») приближении найдено выражение корреляционной функции выходного сигнала. Показано, что учет флуктуаций весовых коэффициентов приводит к искажениям выходного сигнала искусственной нейронной сети. Полученные результаты позволяют выбирать величину коэффициента адаптации алгоритма настройки искусственной нейронной сети, приводящей к оптимальному соотношению между скоростью настройки сети и точностью настройки.

Ключевые слова: искусственная нейронная сеть, флуктуации весовых коэффициентов, алгоритм минимизации среднего квадрата ошибки с квадратичным ограничением.

Введение

Флуктуации весовых коэффициентов в адаптивных системах определяют скорость и точность настройки таких систем. Одним из вариантов адаптивных систем являются искусственные нейронные сети (ИНС) [1-2]. Флуктуации настраиваемых весовых коэффициентов, возникающие вследствие статистической связи весовых коэффициентов и входного сигнала ИНС, искажают ее статистические характеристики и, в частности, выходной сигнал искусственной нейронной сети. В работах [3-6] был проведен статистический анализ функционирования ИНС, настраивающихся по дискретному градиентному, быстрому рекуррентному алгоритмам и алгоритму Хэбба, с учетом флуктуаций весовых коэффициентов. Было показано, что флуктуации приводят к искажениям выделяемого искусственной нейронной сетью полезного сигнала, причем в искусственной нейронной сети, настраивающейся по алгоритму Хэбба, величина искажений увеличивается по мере увеличения числа слоев сети.

В последнее время внимание исследователей снова начинает привлекать классический алгоритм минимизации среднего квадрата ошибки (алгоритм МСКО или алгоритм LMS), который одним из первых был предложен еще Уидроу. Однако применение алгоритма LMS встретило трудности, выражающиеся в неконтролируемом подавлении полезного сигнала в случае, когда помеха коррелирована с сигналом. По этой причине в настоящее время интерес вызывают в первую очередь различные современные модификации LMS алгоритма, не содержащие этого недостатка, и в частности, алгоритм LMS с квадратичным ограничением на усиление полезного сигнала [7]. Представляет интерес исследование влияния флуктуаций весовых коэффициентов на статистические характеристики искусственной нейронной сети,

© Зимина С.В., 2015.

настраивающейся по этому алгоритму. В данной работе представлен статистический анализ корреляционной функции выходного сигнала произвольного слоя искусственной нейронной сети, настраивающейся по алгоритму минимизации среднего квадрата ошибки с квадратичным ограничением, полученной с учётом флуктуаций весовых коэффициентов.

1. Постановка задачи

Рассмотрим работу искусственной нейронной сети, настраивающейся по ЬМБ алгоритму с квадратичным ограничением. Настройка вектора весовых коэффициентов Ща (к +1)

г - ого искусственного нейрона слоя а такой ИНС в момент времени к +1 описывается уравнением следующего вида:

Ща(к + 1) = Ж1а(к)-

-ß-[Za \k)-F (Za-\k))nW*(k)

а-\ .

\Н 1

Е

Сza-\k)f wta{k)

н 1

F

8нЖга(к)

-S-F

SHWta{k) ]•

(1)

Здесь 2а у(к) - вектор выходного сигнала слоя а-1 искусственной нейронной сети в момент времени к] /л - коэффициент адаптации ЬМБ алгоритма с квадратичным ограничением;

$ ^и^,^,...,»^]7'- вектор полезного сигнала, Н- операция эрмитовского сопряжения.

В выражении (1) 2а~1(к) - входной сигнал 7 -го нейрона слоя а, являющийся также вектором выходного сигнала слоя а — 1. Выходной сигнал 1 -го нейрона слоя а Ха (к) может быть записан в виде:

Zq(k) = F

N

X Zaq-\k W (k)

q=1

= F[yai(k)] = YJafyl(k) = ÄTYm(k),

1=1

где Е[ ] - нелинейная активационная функция рассматриваемого искусственного нейрона, а - коэффициенты разложения нелинейности Е в ряд Вольтерра [8], уш (к) - выходной сигнал линейной части 1 -го нейрона слоя а. А = \а— а2 •••а^ ]Т - вектор коэффициентов разложения функции Е[ ] в ряд Вольтерра, а ] -й коэффициент разложения может быть представлен формулой а : = — Е(^) [у = 0]. Таким образом, первый коэффициент разложения в ряд у £

Вольтерра пропорционален первой производной нелинейной активационной функции, находящейся на выходе рассматриваемого искусственного нейрона.

Uk) = [yai(k)y2ai(k)...yNJ(k)

- вектор степеней выходного сигнала линеинои части ис-

кусственного нейрона I, принадлежащего слою а.

В статье предполагается, что все искусственные нейроны в описываемой искусственной нейронной сети имеют одну и ту же нелинейную функцию Е[ ] на выходе. Поэтому при обобщении результатов от одного искусственного нейрона на слой, а потом и на произвольное число слоев коэффициенты разложения нелинейной функции в ряд Вольтерра будут одни и те же.

Алгоритм настройки (1) описывает в большей степени своего рода каскадное соединение искусственных нейронов, чем единую искусственную нейронную сеть, поскольку весовые коэффициенты каждого отдельного нейрона зависят только от собственных значений в предыдущий момент времени и не связаны непосредственными математическими отношениями с весовыми коэффициентами других искусственных нейронов. Тем не менее, косвенное

2

T

влияние весовых коэффициентов различных искусственных нейронов друг на друга существует и осуществляется через выходные сигналы данных элементов сети, что также видно из формулы (1).

Будем предполагать, что рассматриваемая искусственная нейронная сеть является узкополосной. Корреляционную матрицу входных сигналов узкополосной ИНС любого искусственного нейрона входного слоя данной сети можно представить в виде:

Кхх(к,к + п) =< Х\к)ХТ(к + п) >= К, (2)

где Х(к) - вектор полезного сигнала в момент времени к; * и Т - операции комплексного сопряжения и транспонирования; г - коэффициент корреляции между отсчётами входного сигнала; - пространственная часть корреляционной матрицы входных сигналов.

Аналогичную форму в виде произведения пространственной и временной частей имеют также корреляционные матрицы входных сигналов искусственных нейронов любого слоя искусственной нейронной сети, различается только вид пространственной части ^^. Необходимо отметить, что данная корреляционная матрица имеет различный вид в зависимости от номера слоя искусственной нейронной сети. Так, для всех скрытых слоев в частном случае одинаковой помеховой обстановки, подаваемой на все нейроны входного слоя, который рассматривается в данной работе, корреляционная матрица будет иметь в качестве всех своих элементов единицы во всех скрытых слоях ИНС. Во входном слое эта матрица будет равна корреляционной матрице входных сигналов искусственной нейронной сети.

Будем ограничиваться для простоты и в силу существенно нелинейного вида представленного алгоритма (1) первым слагаемым при разложении нелинейных функций на выходе искусственных нейронов в ряд Вольтерра, т.е. только первой производной активацион-ной функции. Добавление при разложении в ряд слагаемых более высокого порядка усложняет анализ, не внося новой информации в выводы.

Будем искать статистические характеристики описанной нейронной сети с учётом флуктуаций настраиваемых весовых коэффициентов в предположении, что между весовым вектором и вектором входных сигналов существует негауссовская статистическая зависимость. Это наиболее общий случай такой зависимости между данными векторами. С этой целью необходимо на первом этапе анализа найти статистические характеристики отдельного нейрона с учётом флуктуаций весового вектора, а затем обобщить полученные результаты на искусственную нейронную сеть и получить соответствующие рекуррентные формулы.

2. Корреляционная функция выходного сигнала искусственного нейрона, настраивающегося по алгоритму ЬМЗ с квадратичным ограничением

Методами теории возмущений по малому параметру / в первом, так называемом «борновском» приближении, было получено выражение для корреляционной функции выходного сигнала искусственной нейронной сети, настраивающейся по ЬМБ алгоритму с квадратичным ограничением, с учётом флуктуаций весовых коэффициентов:

Кг (т, т + п) = А + В + С + А. (3)

Здесь коэффициенты корреляционной функции (3) могут быть представлены в виде:

(4)

В1 = + ^^р^г^р^Ж^К^т, (5)

1 - г 1 - г

/"> 2 4

ц = / ахт

, 2 4 и

+/ а1 г

^ = л^4

1 + г - ги

(1 - г)2

2 _

(1 - г2)2 + 1 - г2

г|и|+3 Г1 - ги 1

Т* ^^ Д'Д' I /и

(1 - г)2(1 + г)

1 - г2

^р^Жст^^ст

1 - г2 1 - г2 1 - г

(6)

(7)

Жсг - постоянный стационарный весовой вектор произвольного искусственного нейрона

первого слоя искусственной нейронной сети, а - первый коэффициент разложения нелинейной функции Е [ ] в ряд Вольтерра, М -1 - постоянный коэффициент, возникающий при

усреднении ЬМБ алгоритма с квадратичным ограничением.

Из выражений (4)-(7) видно, что влияние флуктуаций весовых коэффициентов проявляется в появлении в выражении корреляционной функции слагаемых, пропорциональных коэффициенту адаптации / алгоритма настройки ИНС, которые искажают вид полезного сигнала, выделяемого искусственной нейронной сетью. Можно также видеть, что величина влияния флуктуаций имеет второй порядок малости по коэффициенту адаптации /, т.е. достаточно малая.

Из формул (4)-(7) также можно видеть, что представленные слагаемые корреляционной функции выходного сигнала зависят также от величины первого коэффициента разложения в ряд Вольтерра нелинейной функции, которая присутствует на выходе искусственного нейрона. В частном случае наиболее распространенного вида логистической нелинейной

функции или сигмоида / (х) = ——— [9] первый коэффициент разложения равен а = Р /4,

1 + е рх

где величина р определяет крутизну сигмоида. При р = 0 сигмоид вырождается в горизонтальную линию на уровне 0.5, при увеличении р сигмоид приближается к виду функции единичного скачка [9]. Для практических задач вполне достаточно брать величину р = 0.5 ^ 1, что приводит к тому, что а4 = 1/44 = 1/256 = 0.0039. Иными словами, «флуктуа-ционные» слагаемые будут малы не только в силу малости коэффициента адаптации, а также и по причине малости коэффициента а*.

3. Корреляционная функция выходного сигнала искусственного нейрона, принадлежащего произвольному слою ИНС

Обобщая данный результат последовательно на второй, третий и т.д. слои можно получить выражение для корреляционной функции выходного сигнала /-ого искусственного нейрона, принадлежащего слою а искусственной нейронной сети, настраивающейся по ЬМБ алгоритму с квадратичным ограничением, с учётом флуктуаций весового вектора:

4 4 С 4 V1

К а (т, т + п) = £ 4К-1 (т т + п) = £ А^ £ 4-1 К-2(т, т + п)

1=1 V 1 =1 ,

1=1

(

Л1

= £ 4а1 £ 4-11 I £ 4а-2К-3 (т> т + п)

1=1 V1=1

Л=1

= £ 4г1

£ 4

а-112

- V2 V

£4-2« - £4аК?(т,т + п)

4

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 =1

Здесь коэффициенты Лш., возникшие вследствие учета флуктуаций весовых коэффициентов, имеют вид:

Аа1=а^Жсап)нВ(Жсап)^; (9)

М-1 (ЖсаТ1 г Ъ%ЧЖсаТ1 )+м-1г2 (IжсаТ1 г вкда (IЖсаТ1) + Ла2 =и2а4£р(В)—Ч х^ г _ _ ; (10)

1 - г

г3 (2 + г - г|и|)

44=АХ 2,2 ^(вота* . (12)

(1-г )

Здесь 1¥"п - постоянный стационарный весовой вектор искусственного нейрона /, принадлежащего слою а искусственной нейронной сети.

Матрица В зависит от того, коэффициенты какого слоя вычисляются. Для входного слоя искусственной нейронной сети эта матрица равна корреляционной матрице входных сигналов, для последующих слоев, в силу постановки задачи, матрица В имеет все элементы, равные единице.

Из выражений (8) - (12) следует, что влияние флуктуаций весовых коэффициентов проявляет себя в том, что корреляционная функция выходного сигнала предыдущего слоя входит в выражение для корреляционной функции последующего слоя как полином четвертой степени, коэффициентами в котором служат обусловленный флуктуациями слагаемые второго порядка малости по коэффициенту адаптации ¡и. От слоя к слою ИНС это явление повторяется, и результирующий вид корреляционной функции выходного сигнала произвольного слоя ИНС представляет из себя набор вложенных одна в другую функций, так что запись результата через все слои искусственной нейронной сети содержит наибольшее число вложенных друг в друга функций. Если говорить о максимальной степени, в которой войдет корреляционная функция выходного сигнала первого слоя ИНС в формулу корреляционной

функции произвольного слоя сети, то она пропорциональна 4а 1.

Иными словами, если учесть, что коэффициенты в каждом полиноме в корреляционной функции содержат коэффициент адаптации во второй степени, который полагается малым, то можно ожидать, что искажения выделяемого ИНС полезного сигнала вследствие флуктуаций, хоть и сложны по форме, но вклад их будет уменьшаться по мере увеличения числа слоев сети, т.к. степень при коэффициенте адаптации во «флуктуационных» слагаемых также будет расти.

Для сравнения приведем выражение для корреляционной функции выходного сигнала г-го нейрона, принадлежащего слою а искусственной нейронной сети, полученное без учета флуктуаций весовых коэффициентов:

Ка (да, т + п) = Аа1Ка_1 (т, т + п) = Аа1Аа_иКа_2 (т, т + п) =

= Аа1Аа_пАа_2Ка_ъ(т,т + п) = Аа1Аа_иАа_21 ■■■Аи-1 = (13)

1=1 1=1

Верхние индексы в обозначениях весовых коэффициентов являются номером слоя, а не степенью.

Из сравнения выражений (8) и (13) видно, что формула выходной мощности, полученная без учета флуктуаций весовых коэффициентов, существенно упрощается и содержит произведение выходных мощностей искусственных нейронов всех слоев ИНС. Из формулы (13) также можно видеть, что без учета флуктуаций корреляционная функция выходного сигнала каждого последующего слоя ИНС перестает быть полиномом, составленным по степеням корреляционной функции выходного сигнала предыдущего слоя искусственной нейронной сети, и связана с ней линейной зависимостью. Кроме того, формула (14) не содержит «флуктуационных» слагаемых, пропорциональных коэффициенту адаптации, а зависит только от первого коэффициента разложения нелинейной функции Е на выходе искусственного нейрона в ряд Вольтерра.

Таким образом, статистический анализ работы искусственной нейронной сети, настраивающейся по LMS алгоритму с квадратичным ограничением на усиление полезного сигнала, с учетом флуктуаций весовых коэффициентов показал, что они приводят к искажению выделяемого искусственной нейронной сетью сигнала. По мере роста числа слоев искусственной нейронной сети происходит накопление искажений, вносимых флуктуациями в выделяемый сетью полезный сигнал, однако величина данных искажений сдерживается тем, что увеличивается также и степень коэффициента адаптации, которому пропорциональны «флуктуационные» слагаемые, а коэффициент адаптации обычно бывает значительно меньше единицы. При практическом использовании такой искусственной нейронной сети необходимо добиваться оптимального соотношения между скоростью настройки сети (скорость настройки увеличивается при увеличении коэффициента адаптации) и точностью настройки ИНС (минимальным уровнем искажений, вносимых флуктуациями весовых коэффициентов в выделяемый сетью сигнал, что достигается при уменьшении коэффициента адаптации). Выбор зависит от задач конкретного использования искусственной нейронной сети.

1. Haykin S. Neural Networks: A comprehensive Foundation. - New York: Macmillan College Publishing Company, 1994.

2. Галушкин, А.И. Теория нейронных сетей / А.И. Галушкин. - М.: ИПРЖР, 2000. - 416 с.

3. Зимина, С.В. Статистические характеристики искусственной нейронной сети с дискретным градиентным алгоритмом настройки с учётом флуктуаций весовых коэффициентов // Нейрокомпьютеры: разработка и применение, 2006. № 10. С. 9-15.

4. Зимина, С.В. Влияние флуктуаций весовых коэффициентов на статистические характеристики искусственной нейронной сети с алгоритмом рекуррентного обращения выборочной оценки корреляционной матрицы входных сигналов // Нейрокомпьютеры: разработка и применение, 2007. № 5. С. 3-7.

5. Литвинов, О.С. Статистический анализ флуктуаций весовых коэффициентов искусственной нейронной сети, настраивающейся по алгоритму Хэбба / О.С. Литвинов, С.В. Зимина // Нейрокомпьютеры: разработка и применение, 2009. №3. С. 33-43.

6. Зимина, С.В. Флуктуации весовых коэффициентов в искусственной нейронной сети с алгоритмом Хэбба // Нейрокомпьютеры: разработка и применение, 2013. N4. С. 3-8.

7. Орешкин, Б.Н. Алгоритм LMS с квадратичным ограничением / Б.Н. Орешкин, П.А. Бакулев // Антенны, 2007. N9. C. 29-34.

Здесь

(14)

Заключение

Библиографический список

8. Пупков, К.А. Функциональные ряды в теории нелинейных систем / К.А. Пупков, В.И. Капа-лин, Ющенко А.С. - М.: Наука, 1976.

9. Круглов, В.В. Искусственные нейронные сети. Теория и практика / В.В. Круглов, В.В. Борисов. - М.: Горячая линия - Телеком, 2002. - 382 с.

Дата поступления в редакцию 23.04.2015

S.V. Zimina

WEIGHT VECTOR JITTER IN THE NEURAL NETWORK WITH LMS ALGORITHM

TUNING WITH SQUARE CONSTRAINT

Lobachevsky State University of Nizhni Novgorod

The article presents the results of statistical analysis taking into account weight vector jitter of an neural network tuning the algorithm to minimize the average squared error with a quadratic constraint on the gain of the desired signal. Methods of perturbation theory in the first (so-called "born") at a rate adaptation algorithm, which we assume to be small, the approximation is found the expression of the correlation function of the output signal. It is shown that taking into account fluctuations of weight coefficients leads to distortions in the output signal of an neural network. The obtained results allow to choose the value of the coefficient adaptation algorithm configuration of an neural network, resulting in optimal ratio between the speed of the network configuration and tuning accuracy.

Key words: neural network, fluctuations of weight coefficients, the algorithm to minimize the average squared error with a quadratic constraint.

i Надоели баннеры? Вы всегда можете отключить рекламу.