Научная статья на тему 'Многослойная персептронная нейронная сеть в задаче моделирования речевых сигналов'

Многослойная персептронная нейронная сеть в задаче моделирования речевых сигналов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
759
77
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Изилов Я. Ю.

Рассматриваются возможности применения искусственной нейронной сети персептронного типа в задаче моделирования речевых сигналов. Приводятся структуры и алгоритм, позволяющий осуществить функционирование многослойной персептронной нейросети на персональном компьютере. Обсуждаются проблемы, возникающие при практической реализации, а также достоинства и недостатки использования данного подхода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

This article considers the opportunities of application artificial neural network based on perceptron type for speech signals modeling task. Structures and the algorithm, which allows to carry out functioning of multilayer perceptron neural network on personal computer, are resulted. The problems arising at practical realization, and also limits and advantages of the given approach usage are discussed.

Текст научной работы на тему «Многослойная персептронная нейронная сеть в задаче моделирования речевых сигналов»

t > V. В табл. 2 приведены координаты точек кривой (19) на рисунке, которая выделяет подобласть допустимых значений х, у, где выполняется доста-

Литератур а /~

1. Смирнов Ю. М. Состояние и перспективы развития методов системного моделирования // Методы кибернетики и информационные технологии: Сб. научных трудов. — Вып. 1., — Саратов: Изд-во Саратовского университета, 1994. — С. 34-40.

2. Смирнов Ю. М. Направления развития методологии системного проектирования // Вычислительная техника, автоматика и радиоэлектроника. Труды СПбГТУ.— СПб.: Изд-во СПбГТУ, — 1998. № 472. — С. 109-123.

3. Смирнов Ю. М. Системное проектирование комплексов управления летательными аппаратами: Уч. пособие.—СПб.: Изд-во СПбГТУ, 1996, — 120 с.

точное условие оптимальности МР (в силу симметрии выражений относительно х и у: у = х2 при

X — и у = х1 при X = х2).

4. Поляков А. О., Смирнов Ю. М., Турчак А. А. Ин-

формодинамические основы организации управления крупными предприятиями и холдингами. — СПб.: Изд-во СПбГПУ, 2002.— 192 с.

5. Смирнов Ю. М., Швырков В. Г. Математические методы внешнего проектирования систем // Вычислительная техника, автоматика и радиоэлектроника. Труды СПбГТУ. — СПб.: Изд-во СПбГТУ, 2002. - № 488-С. 32-58.

6. Смирнов Ю. М. Планирование испытаний в условиях неопределенности // Управление в условиях неопределенности: Сб. Под ред. А.Е. Городецкого.— СПб.: Изд-во СПбГТУ, 2002. — С. 339-360.

УДК 621-52:004.52; 629.78; 681.3

МНОГОСЛОЙНАЯ ПЕРСЕПТРОННАЯ НЕЙРОННАЯ СЕТЬ В ЗАДАЧЕ МОДЕЛИРОВАНИЯ РЕЧЕВЫХ СИГНАЛОВ

Ю. Я. Изилов,

канд. техн. наук

Санкт-Петербургский государственный политехнический университет

Рассматриваются возможности применения искусственной нейронной сети персептронного типа в задаче моделирования речевых сигналов. Приводятся структуры и алгоритм, позволяющий осуществить функционирование многослойной персептронной нейросети на персональном компьютере. Обсуждаются проблемы, возникающие при практической реализации, а также достоинства и недостатки использования данного подхода.

This article considers the opportunities of application artificial neural network based on perceptron type for speech signals modeling task. Structures and the algorithm, which allows to carry out functioning of multilayer perceptron neural network on personal computer, are resulted. The problems arising at practical realization, and also limits and advantages of the given approach usage are discussed.

Введение

Речь представляет собой важнейшее и самое удобное средство взаимодействия между людьми. В этой связи, в условиях компьютеризированного общества, понятно стремление специалистов ос-

настить автоматизированные системы различного назначения средствами речевого ввода—вывода информации.

Речевой сигнал (РС) представляет собой многоуровневую структуру и характеризуется определенной иерархией: фонемы, слова, фразы и т.д.

Основу такой иерархии составляют акустические сигналы, моделирование которых вызывает наибольшую трудность.

С точки зрения акустики, РС состоит из быстрых и очень неустойчивых колебаний воздушного давления [3], что, в свою очередь, порождает значительную неустойчивость параметрического описания.

Неустойчивость РС учитывают путем слежения за его вероятностными характеристиками (такими, как функция распределения вероятностей и/или моментные функции), для оценки которых необходимо задать модель сигнала. На практике априорные сведения о вероятностном характере РС не являются полными для того, чтобы можно было явно задать его вероятностную модель. Поэтому поведение РС приходится изучать по опытным данным. С учетом сказанного, в качестве альтернативной модели может быть выбрана искусственная нейронная сеть.

Нейронные сети (НС) являются важным дополнением традиционных методов обработки данных [1, 2, 4, 6, 13]. Наибольшее распространение среди них получили так называемые многослойные пер-септронные НС, или многослойные персептроны. Они могут использоваться при решении различного рода задач, таких, как прогнозирование, сжатие данных, аппроксимация функций, распознавание и восстановление образов.

Достоинства многослойных персептронов (МП)— возможность построения сложных разделяющих поверхностей, возможность осуществления любого отображения входных векторов в выходные, способность к обобщению входных данных. При этом не требуется знания закона распределения входных векторов. Вместе с тем, МП сводит задачу моделирования РС к параметрической идентификации входных векторов. Рассмотрим модель МП более подробно.

Многослойный персептрон представляет собой модель НС с прямыми связями [6, 14, 17, 18]. Она включает в себя входной слой, выходной слой и

Входной Скрытые Выходной

слой слои слой

■ Рис. 1. Многослойный персептрон

находящиеся между ними промежуточные, так называемые скрытые слои нейронов (рис.1).

Входной слой нейронов не производит никаких вычислений. Он осуществляет распределение данных и работает в качестве разветвителя. Скрытые слои, минимальное число которых должно быть не менее одного, предназначены непосредственно для обработки входной информации и внутреннего представления данных. Выходной слой предназначен для обработки информации, поступающей от предыдущего слоя, и выдачи соответствующих результатов.

Топология МП предусматривает соединение выхода каждого нейрона предыдущего слоя с входом каждого нейрона последующего слоя.

Особенностью МП является возможность модификации формы областей решений посредством изменения количества слоев нейронов. При этом двухслойная НС (с одним слоем нейронных связей) формирует области решений в виде гиперплоскостей; трехслойная НС (с двумя слоями нейронных связей) позволяет формировать любые выпуклые области в пространстве решений; четырехслойная НС (с тремя слоями нейронных связей) позволяет получать область решений произвольной формы и сложности [2, 13].

МП предполагает выполнение процесса обучения. Наиболее распространенный метод обучения — это алгоритм обратного распространения ошибки [15, 20]. Его можно применить к МП с любым числом слоев нейронных связей. Однако для того, чтобы понять идею алгоритма, достаточно рассмотреть его работу на примере МП с двумя слоями нейронных связей (рис. 2).

Алгоритм обратного распространения ошибки производит настройку весовых коэффициентов в многослойной НС на основе использования метода градиентного спуска. Он предполагает, что обучение происходит с учителем, и требует предъявления обучающей выборки.

Обучающая выборка представляет собой множество пар входных и выходных векторов {{Хт, От) | т= 1, 2..М}, между которыми нужно устано-

вить соответствие.

Множество нейронных связей в данном случае (см. рис. 2) образуется двумя матрицами весовых коэффициентов: 1/И1 \ 1/И2) с элементами \а/$ и^-1 соответственно. Порог возбуждения к-го нейрона в скрытом слое формируется связью с весовым коэффициентом \л/$к, по которой поступает сигнал и0 = 1. Порог возбуждения у'-го нейрона в выходном слое формируется связью с весовым коэффициентом и/^.), по которой поступает сигнал /?0 = 1.

Эффективность функционирования НС для некоторого конечного набора обучающих пар можно определить с помощью общей ошибки сравнения фактических и требуемых выходных векторов для каждого случая. Для этого вначале вычислим ошибку сравнения каждой пары векторов типа «вход-выход»:

1 ^

~ о~/.т ~ У/.т) ) (1)

7=1

■ Рис.

где gj т — требуемое значение выходного сигнала у-го выходного нейрона для т-й обучающей пары; у- — фактическое значение выходного сигнала у-го выходного нейрона для т-й обучающей пары.

Теперь общую ошибку функционирования НС, с учетом (1), можно вычислить по формуле

М н М J

Е — = 2 ~Уj,m) ■ (2)

т=1 т=17=1

Целью обучения НС является такая настройка ее весовых коэффициентов, при которой для каждого входного вектора найдется выходной вектор, сгенерированный НС и представляющий собой требуемый выходной вектор или достаточно близкий к нему.

Другими словами, процесс обучения НС сводится к нахождению таких матриц весовых коэффициентов 1/И1 \ 1/И2', которые минимизируют общую ошибку функционирования нейросети Е. Для решения данной задачи алгоритм обратного распространения ошибки использует метод градиентного спуска. При этом поиск минимального значения производится по всему пространству весовых коэффициентов НС.

Метод градиентного или наискорейшего спуска предполагает, что коррекция весовых коэффициентов происходит итерационным способом: малым перемещением и в том направлении, при котором ошибка функционирования НС минимизируется наискорейшим образом. Обычно используется следующая форма:

W{t+ ^) = W{t) + ^W{t), (3)

где t— шаг итерации; &W{t) — коррекция весовых коэффициентов; W(t) — значения весовых коэффициентов до коррекции; W{t+ 1) — значения весовых коэффициентов после коррекции.

Согласно этому методу, частная производная меры ошибки относительно каждого веса пропорциональна изменению соответствующего веса с отрицательным коэффициентом пропорциональности:

ш=~"т- <4>

где ДИ/— коррекция весового коэффициента; г\ — коэффициент скорости обучения.

Коэффициент г) в формуле (4) обозначает небольшое положительно определенное число, которое обычно находится в пределах от 0,01 до 1. Он влияет на шаг итерации и, соответственно, позволяет управлять скоростью сходимости алгоритма обучения.

Результаты вычислений согласно выражениям (3), (4) будут соответствовать линии, проходящей по поверхности ошибок в пространстве весовых коэффициентов, которая ведет к наискорейшему спуску. Следовательно, задача коррекции весовых коэффициентов эквивалентна задаче вычисления ЭЕ

частных производных

Задача алгоритма обучения сводится к минимизации функции ошибки НС относительно всего множества нейронных связей. При этом функцию ошибки НС, как правило, задают формулой (2), а уровень допустимых ошибок ограничивают величиной

В соответствии с обозначениями сигналов и весовых коэффициентов (см. рис. 2) выходное значение у-го нейрона в выходном слое для т-й обучающей пары определяется по формуле

k=Q

(5)

где — значение уровня возбуждения у-го нейрона выходного слоя для т-й обучающей пары;

2.

Многослойный персептрон с двумя слоями

Скрытый

слой

нейронных

Выходной

слой

Фактический выход

- Y _

Входной

слой

и0 уу(1)

Требуемый

выход

G

91 9, 9j

Гу( ) — функция активации у-го нейрона выходного слоя; весовой коэффициент для связи, иду-

щей от /с-го нейрона скрытого слоя ку'-му нейрону выходного слоя; Ькт — выходное значение сигнала /с-го нейрона скрытого слоя для т-й обучающей пары, /70т = 1 соответствует сигналу, формирующему пороговое значение.

Выходное значение /с-го нейрона скрытого слоя для /77-й обучающей пары формируется следующим образом:

К,т=Рк {БкЛ1) = Рк

^Ки,,г

/=о

= ^[ 1^)11 Хі,т |, (6)

где 5кт — значение уровня возбуждения /с-го нейрона скрытого слоя для т-й обучающей пары; Ек ( ) — функция активации /с-го нейрона скрытого

слоя; - весовой коэффициент для связи, идущей от /'-го нейрона входного слоя к /с-му нейрону скрытого слоя; и, т — значение сигнала, поступающего от /-го нейрона входного слоя для т-й обучающей пары, и1т = х1т : х0 = 1 соответствует сигналу, формирующему пороговое значение.

В случаях, когда используется нелинейная функция активации (ФА) и для минимизации общей ошибки функционирования НС применяется метод градиентного спуска, для реализации процесса обучения существует важное требование. Оно предъявляется к самой функции активации. Необходимо, чтобы она была неубывающей и имела ограниченную производную. На практике это требование часто удовлетворяют посредством применения нелинейной ФА сигмоидного вида:

Я(Б)=-

1

(7)

1 + е й

Производная такой функции имеет следующий вид:

Р(8) = Р(5)(1-Г(5)).

(8)

Несложно определить, что производная максимальна при Р(в) = 0,5 и равна нулю при Г(Б) = 0 или Р(Б) = 1. Дополнительное преимущество функции (7) состоит в автоматическом контроле степени усиления. Это значит, что для слабых сигналов (близких к нулю) кривая «вход—выход» имеет сильный наклон, который обеспечивает большое усиление. С увеличением сигнала степень усиления падает. Следовательно, большие сигналы воспринимаются сетью без насыщения, а слабые сигналы проходят по сети без особого ослабления.

Процесс обучения включает в себя два этапа вычислений: прямого и обратного распространения сигнала по нейросети.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На первом этапе происходит определение ошибки НС при распространении входного сигнала по сети в прямом направлении, т. е. от входа к выходу. Суть этого этапа заключается в следующем. Для заданного входного вектора вычисляют фактический выход НС с помощью выражений (5) и (6). Затем производят расчет ошибки между фактическим и требуемым выходом НС по формуле (2).

На втором этапе выполняют минимизацию полученной ошибки, которая сводится к последовательной настройке всех весовых коэффициентов НС. С этой целью вычисленный сигнал ошибки распространяется по сети в обратном направлении, т. е. от выхода к входу, и используется для подстройки весовых коэффициентов. Для определения величины, на которую необходимо скорректировать весовые коэффициенты, применяется метод градиентного спуска.

Вычисления повторяют до тех пор, пока общая ошибка функционирования НС не достигнет заданной величины В,, устанавливающей точность процесса обучения.

Рассмотрим второй этап вычислений более подробно. Настройка весовых коэффициентов между /с-м нейроном скрытого слоя и у'-м нейроном выходного слоя производится на основе использования выражений (3) и (4). При этом

ш$т=-у1

Э Ет

Эи/^ ’

(9)

где и^т — коррекция весового коэффициента для связи, идущей от /с-го нейрона скрытого слоя к у'-му нейрону выходного слоя для т-й обучающей пары; г) — коэффициент скорости обучения.

Используя правила частных производных, представим производную ошибки НС относительно выходных нейронов, принимая во внимание выражение (1):

дЕт _ 1 у д(0У,/п У¡,т) _

э <)_2у Н?

_ 1 д(д/,т У¡,т) __ / \ "У 1,т

2 Эи/<2) Кд1-т Уу’т'эи/£>

дУу.т 0°) 'Ц Э%'

Принимая во внимание выражение (5), опреде-

дуу,т .

лим частные производные

с)Уу,т _ ЭЯ,-^) ¡іГП ^

д$і,т Эи/^ ,(2),

(її;

~Яу(5¡,т) (п) ^^ к\ ^к,т — ^у'(^у,т)^/с,т»

Ну *

где Гу — производная ФА у'-го нейрона выходного слоя.

С учетом (10) и (11), производную ошибки относительно выходных нейронов можно представить

как

дЕт

Эи^>

- І9і,т У ¡,т (3],т )^к,т ■

Введем обозначение 5^ :

^у',Л7 - у,т УУ,т)^У (^у,т)-

(12)

(13)

Переменная 8(у2^ в выражении (13) представляет собой ошибку у-го нейрона выходного слоя для т-й обучающей пары.

Теперь формулу (9) можно записать в сжатом виде:

Ли4у/п=т15ЙІЛ

¡,т к,т-

(14)

Настройка весовых коэффициентов между /-м нейроном входного слоя и /с-м нейроном скрытого слоя производится также на основе использования выражений (3) и (4):

ДідД1) = -п ік, т 1

дЕт

(15)

где т — коррекция весового коэффициента для связи, идущей от /-го нейрона входного слоя к /с-му нейрону скрытого слоя для т-ой обучающей пары; г| — коэффициент скорости обучения.

Используя правила частных производных, представим производную ошибки НС относительно скрытых нейронов, учитывая выражение (1):

_ 1 у ~ У<.т)2 _ у. . ,>у1’т ....

д„т 2 ь а„п У9’’™ уЭтт -(16)

ные

Определим в формуле (16) частные производит .

Э и$>

Эуу,т _ дРі(8]іП1) дБ

},т

ээ

],т д\Л/$

(17)

-И(5/.т)Эи/(1) ^к)ик,т -Яу^у./лН? д^[Т)

Вычислим в формуле (17) оставшиеся частные к,т .

производные

э<>

д5к,т (1),

(18)

~ Ек(^к,т) /і) иі,т ~ ^кі^к т)Х/ т,

/

где Г^( ) — производная ФА /с-го нейрона скрытого слоя.

Подставим результаты преобразований, полученные в выражениях (16), (17), (18), в формулу (15):

=г1^(9,у,т ~Уу,т) = Яу(5у1/т7)и^^Р/((5/(|т)Х/т. (19)

У

Упростим формулу (19) с учетом зависимости (13):

Ди4?,т = Л{^(5к1т)^^)5^}х,-т. (20)

У

Введем новое обозначение 8^т :

= (21)

Переменная 6^т в соотношении (21) представляет собой ошибку/с-го нейрона скрытого слоя для т-й обучающей пары.

Теперь формулу (20) можно представить в компактном виде:

А^к,т=^(кп

}к,тл1',т- (22)

Таким образом, формула (14) представляет собой дельта-правило, которое позволяет производить настройку весовых коэффициентов между нейронами выходного и скрытого слоев, а формула (22) — между нейронами скрытого и входного слоев, соответственно.

Более подробное описание алгоритма обратного распространения ошибки для рассмотренного примера приводится ниже.

Шаг 1. Инициализация. Вводим обозначения и начальные данные:

т — номер обучающего примера, 1 <т <М, где М — количество примеров обучения;

у — номер выходного нейрона, 1 <у<^У, где 1/ — количество выходных нейронов;

к — номер скрытого нейрона, 0<к<К, где К — количество скрытых нейронов;

/ — номер входного нейрона, 0 </'</, где / — количество входных нейронов;

1/И1), 1/И2) — матрицы весовых коэффициентов скрытого и выходного слоев, соответственно;

Х= (х0,X-,, ...,ху, ...,х! )т—вектор входного сигнала, где х0 = 1 соответствует сигналу, формирующему пороговое значение;

Н = (Л01

/7,

/7К у — вектор ВЫХОДНОГО

сигнала скрытого слоя нейронов, где /70 = 1 соответствует сигналу, формирующему пороговое значение;

У=(У1,У2, ..., у;, ..., у^ )г—вектор выходного сигнала;

Т — символ транспонирования;

Всем весовым коэффициентам нейросети — \л/$ и и/[у) присваиваем небольшие начальные значения, которые выбираем случайным образом. Устанавливаем коэффициент скорости обучения Т| в пределах от 0,01 до 1 и задаем минимальное значение ошибки функционирования нейросети 4-

Шаг 2. Прямое распространение сигнала. Вводим т-й обучающий пример и вычисляем для него фактическое значение выходного сигнала у-го нейрона:

к=о

ґ I /=0

і,т

Ш а г 3. Расчет ошибки нейросети. Производим расчет ошибки между требуемым д]т и фактическим у1т значениями выходного сигнала у-го нейрона для т-го обучающего примера:

1 ^

= 2 Х(9,У/

У=1

У У,т)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Затем вычисляем общую ошибку функционирования НС:

м

Е= 1Ет.

т=1

Шаг 4. Проверка окончания обучения. Если Е<£, то вычисления завершаются. Переходим к шагу 6, в противном случае — переходим к шагу 5.

Шаг 5. Обратное распространение сигнала. Вычисляем ошибки нейронов выходного слоя и корректируем связи между выходным и скрытым слоями нейронов для т-го обучающего примера:

т = (£7/,т ~У¡,т)Е¡{Б¡>т),

Ли,(£т(0=П 5ЙЛ.т; и'Йт<? +1> = + АЧлт<(). (23)

Вычисляем ошибки нейронов скрытого слоя и корректируем связи между скрытым и входным слоями нейронов для т-го обучающего примера:

У

Аи'!к,га(() = Ч1!тх-,т;

+1>=+д<!тт, <24>

где £— шаг итерации; Ш^тЦ), Ди/)^т(?) — коррекция весовых коэффициентов; \л/^'1т^), \м$1тЦ) — значения весовых коэффициентов до коррекции; Ч/,т<Г + 1>. «&<* +1) — значения весовых коэффициентов после коррекции.

После вычислений согласно (23) и (24) переходим к шагу 2.

Шаг 6. Завершение обучения. Условие Е<£, выполнено. Процесс обучения завершен.

Представленный алгоритм, основу которого составляет метод градиентного спуска, имеет ряд проблем при его практическом применении.

1. Неизвестность выбора числа нейронных слоев и количества нейронов для каждого слоя.

2. Влияние случайной инициализации весовых коэффициентов НС на поиск минимума функции ошибки. Данная проблема отражает то, что при различной инициализации весовых коэффициентов НС могут получаться различные решения. Это характеризует неустойчивость алгоритма обучения, когда НС в одних случаях может обучаться до требуемой ошибки, а в других нет.

3. Сложность выбора подходящего коэффициента скорости обучения г]. Так, слишком малое значение коэффициента г) медленно изменяет весовые коэффициенты, что увеличивает время процесса обучения и приводит к скатыванию НС в локальный минимум. Большое значение г\ быстрее изменяет весовые коэффициенты. С одной стороны, это позволяет ускорить процесс обучения, с другой стороны — вызывает резкие скачки при перемещении по поверхности ошибок НС. Это может привести к пропуску глобального минимума, а в случае сложной формы поверхности ошибок— к выбору неправильного направления минимизации ошибки.

4. Невозможность определения точек локального и глобального минимумов, так как метод градиентного спуска их не различает.

Рассмотрим эти проблемы более подробно. Первая проблема, которая появляется при практическом применении МП, связана с его конфигурированием. Совершенно ясно, что размерность входного и выходного слоев нейронов определяется из условия задачи. Неясность возникает с выбором количества скрытых нейронных слоев и количества нейронов в каждом из них.

Ранее отмечалось, что НС с двумя слоями нейронных связей позволяет аппроксимировать любые выпуклые области в пространстве решений. При этом точность аппроксимации зависит от числа нейронов в скрытом слое. Чем больше число нейронов в скрытом слое, тем больше точность. Однако при слишком большой размерности скрытого слоя может наступить явление, называемое «переобучением» сети, что приводит к ухудшению обобщающей способности НС. При слишком малой размерности скрытого слоя нейросеть может либо попасть в нежелательный локальный минимум, либо существенно увеличить время процесса обучения.

Обеспечить требуемую точность и повысить обобщающую способность можно также с помощью увеличения количества скрытых слоев нейронов. Однако НС с несколькими скрытыми слоями обучаются еще медленнее.

Вместе с этим, существуют методы подбора конфигурации нейронной сети [6, 7,9, 11, 12]. Применение таких методов приводит к минимизации количества весовых коэффициентов и нейронов в сети. Этим уменьшается сложность НС и повышается ее способность к обобщению. Однако решение по выбору окончательной конфигурации сети может быть принято только после полноценного обучения (с уменьшением ошибки функционирования до уровня, признаваемого удовлетворительным) различных ее вариантов.

Вторая проблема возникает при определении начальных значений (инициализации) весовых коэффициентов. К сожалению, не существует универсального метода выбора начальных значений весовых коэффициентов, который гарантировал бы нахождение наилучшей начальной точки для любой решаемой задачи. Поэтому без какой-либо априорной информации они часто выбираются случайным образом, согласно критерию минимальной энтропии [15, 16, 18]. При этом важен размер случайно инициализируемых весовых коэффициентов. Например, для сигмоидной ФА нейронов, если весовые коэффициенты будут иметь большие значения (положительные или отрицательные), выходная активность нейронов, учитывая формулы (8), (5), (6), будет близка к единице или нулю. В данном случае весовые коэффициенты будут изменяться незначительно. Это приведет к тому, что процесс обучения остановится в ближайшем от начальных значений локальном минимуме. В работах [15, 16,

18, 20] начальные значения весовых коэффициентов предлагается случайно выбирать в диапазонах [-0,05, 0,05], [-0,1, 0,1], [-0,3, 0,3]. В работе [8] рекомендуется случайно выбирать значения весовых коэффициентов следующим образом:

' -Щ

где n(i) — число нейронов в слое /'.

Не менее важная проблема, связанная с применением МП, возникает вследствие тенденции к стабилизации метода градиентного спуска в локальных минимумах. Метод градиентного спуска требует выполнения бесконечно малых шагов при перемещении по поверхности ошибок. Это неосуществимо на практике, так как выполнение данного условия ведет к бесконечно длительному времени процесса обучения МП. По этой причине в целях ускорения процесса обучения значение коэффициента скорости обучения г| в определенной степени увеличивают.

Однако увеличение г\ вызывает резкие скачки при перемещении по поверхности ошибок НС. В свою очередь, перемещение с увеличенным коэффициентом скорости обучения может привести к пропуску глобального минимума, а в случае сложной формы поверхности ошибок — к выбору неправильного направления минимизации ошибки функционирования НС.

Для того чтобы сгладить резкие скачки в процессе коррекции весовых коэффициентов при перемещении по поверхности функции ошибок НС, правило обновления весовых коэффициентов дополняют значением коррекции весового коэффициента, выполненной на предыдущем шаге итерации:

Aw^Jt) = л5-1), (25)

где s — номер слоя нейронных связей, 1 < s < S; f— шаг итерации; Aw]^m{t) — текущая коррекция весовых коэффициентов в s-м слое нейронных связей для m-й обучающей пары; Aw^m(t-1) — коррекция весовых коэффициентов, выполненная на предыдущем шаге итерации; 5^ — ошибка у-го нейрона в s-м слое нейронных связей ДЛЯ /77-Й обучающей пары; ufy — значение выходного сигнала нейрона в s-м слое; г\ — коэффициент скорости обучения; ц — коэффициент момента.

В формуле (25) коэффициент ц называют мо-ментным параметром, а последнее слагаемое — моментным термом (momentum term) [8, 15]. Его значение выбирают в пределах от 0 до 1. Введение его позволяет выходить из небольших локальных минимумов.

Для обучения многослойной НС, содержащей более одного скрытого слоя нейронов, алгоритм обратного распространения ошибки требует определения производной ошибки НС относительно весовых коэффициентов всех слоев сети. Вычисления, связанные с этим процессом, становятся более сложными и менее эффективными в практическом применении. Поэтому на практике очень часто ограничиваются НС с двумя слоями нейронных связей.

Существуют адаптивные методы подбора коэффициента скорости обучения г) [5, 10, 19], которые более прогрессивны по сравнению с постоянным значением. Однако они тоже не могут считаться наилучшим решением, особенно при моделирова-

нии динамических процессов. Учитывая эти особенности, выбор коэффициента г| на практике чаще всего осуществляют опытным путем.

Таким образом, решить большинство проблем применения МП представляется возможным в процессе экспериментов — путем поиска компромисса между длительностью обучения и ошибкой функционирования НС. Тем не менее, возможности МП не позволяют в полной мере осуществить моделирование изменяющейся во времени последовательности векторов данных. В этой связи можно заключить, что МП имеет смысл использовать для кодирования псевдостационарных сегментов РС.

Литература

1. Минский М. Л., Пейперт С. Персептроны. — М.: Мир, 1971.

2. Скурихин А. Н. Нейронные сети: определения, концепции, применение. — М.: ЦНИИ управления экономики и информатики, 1991.

3. Фланаган Дж. Анализ, синтез и восприятие речи. — М.: Связь, 1968.

4. Bishop С. Neural Networks for Pattern Recognition. — Oxford University Press, 1995.

5. Gill P., Murray W., Wrigth M. Practical Optimization. — N. Y.: Academic Press, 1981.

6. Haykin S. Neural Networks: A comprehensive Foundation. — N. Y.: Macmillan College Publishing Company, 1994.

7. Hassibi B., Stork D. Second order derivatives for network prunning: Optimal brain surgeon // Advances in NIPS2 / Ed. D. Touretzky. — San Mateo: Morgan Kaufmann, 1993. —P. 164-171.

8. Horz J., Krogh A., Palmer R. Introduction to the theory of neural computation. — Addison Wesley Publishing Company, 1991.

9. Hush D., Horne B. Progress in supervised neural networks // IEEE Signal Processing Magazine, 1993, January. — P. 8-39.

10. Klimauskas G. Neural Ware — User manual. Natick, USA: Neural Ware Inc., 1992.

11. Le Cun Y., Denker J., Solla S. Optimal brain damage // Advances in NIPS2 / Ed. D. Touretzky. — San Mateo: Morgan Kaufmann, 1990. — P. 598-605.

12. Li Q., Tufts D. Synthesizing neural networks by sequen-cial addition of hidden nodes // IEEE Proc. ICNN, Orlando, 1994. — P. 708-713.

13. Lippmann R. P. An Inroduction to Computing with Neural Nets // IEEE Transactions ASSP Magazine, April 1987.— N 2. — L4. — P. 4-22.

14. Rosenblatt F. Principle of neurodynamics. — N. Y.: Spartan, 1992.

15. Rumelhart D. E., Hinton G. E., Williams R. J. Learning represetation by Back-Propagating Errors // Nature, October 1986. — N 323 (9). — P. 533-536.

16. Rumelhart D. E., McClelland J. L. Parallel Distributed Processing. — Cambridge, MA. MIT Press, 1986.

17. Sankar K. P., Sushmita M. Multilayer Perceptron, Fuzzy Sets and Classification // IEEE Transactions on Neural Networks, 3(5). — September 1992. — P. 683-697.

18. Thimm G-, Fiesler E. High Order and Multilayer Perceptron Initialization // IEEE Transactions on Neural Networks, 8(2). — 1997. — P. 1045-9227.

19. Wasserman P. D. Expirements in translating Chinese characters using backpropagation // Proceedings of the Thirty-Third IEEE Computer Society International Conference. — Washigton, D. C.: Computer Society Press of the IEEE, 1988.

20. Werbos P. J. Backpropagation through time: what it

does and how to do it // Proceedings of the IEEE, 1990, 78(10). — P. 1550-1560.__________________________________

i Надоели баннеры? Вы всегда можете отключить рекламу.