ISSNG868-5886
НАУЧНОЕ ПРИБОРОСТРОЕНИЕ, 2GG3, том ІЗ, № І, c. 72-84
ОРИГИНАЛЬНЫЕ СТАТЬИ
УДК 621.391; 519.21; 519.245
© А. В. Меркушева
ПРИМЕНЕНИЕ НЕЙРОННОЙ СЕТИ ДЛЯ ТЕКУЩЕГО АНАЛИЗА НЕСТАЦИОНАРНОГО СИГНАЛА (РЕЧИ), ПРЕДСТАВЛЕННОГО ЕГО ВЕЙВЛЕТ-ОТОБРАЖЕНИЕМ.
II. ИССЛЕДОВАНИЕ И ОПТИМИЗАЦИЯ НЕЙРОННОЙ СЕТИ
В статье обоснован выбор и уровень сложности нейросетевого многослойного персептрона и получены характеристики его обучения. Предложен способ снижения размерности входных векторов при обучении персептрона и распознавании состояния сигнала, основанный на методе главных компонент. Получены основные характеристики нейросетевого алгоритма.
ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК МЕТОДОВ ОБУЧЕНИЯ ПЕРСЕПТРОНА
Для алгоритма обучения персептрона задаче детектирования речевой активности важно иметь быструю сходимость и малые вероятности ошибочных решений на этапе распознавания. Поэтому целесообразно привести характеристики алгоритмов обучения персептрона, использованных для задачи распознавания типа сегментов речь/пауза. Это:
— метод сопряженных градиентов;
— простое и обобщенное правила дельта— дельта;
— метод случайного поиска;
— метод Бройдена—Флетчера;
— метод параллельных касательных (метод партан).
Обучение персептрона с настройкой его параметров (весов синаптических связей) основано на алгоритме с обратным распространением ошибки (алгоритм ОРО) [1-7]. Алгоритм использует понятия:
— ошибки е■ (п) на выходе нейрона ] на итерации п: е■ (п) = ё] (п) - у■ (п), где ё] — желаемый
отклик, У] — выход нейрона ], являющегося выходным узлом сети;
— текущего значения суммы квадратов ошибок: Е(п) = 1 ^ е 2 (п), где С — множество вы-
j^C
ходных нейронов сети.
Цель обучения состоит в подстройке свободных параметров сети, обеспечивающей минимум
1 N
средней ошибки: Ер = — ^ Е(п), где N — коли-
n=l
чество обучающих векторов.
Алгоритм ОРО реализует обучение итеративно с двумя проходами по сети — прямым и обратным, при которых соответственно вычисляются функциональные преобразования вектора входного сигнала х = (х^..., хр)Т и корректировка вектора параметров w. При обратном проходе на каждой итерации п определяется локальный градиент д/п), для чего служит выражение (1), если нейрон находится в выходном слое, и выражение (2), если нейрон в скрытом слое:
8} (п) = в} (п)ф>} (п)), (1)
8}. (п) = ф (V}. (п))£ 8к (п)w]k (п), (2)
к
где у/п) — возбуждение у-го нейрона, уу(п) — выход /-го нейрона, еу(п) — ошибка на выходе у-го
нейрона, ф (V у (п)) = у у (п)[1 - у у (п)] — производная функции нелинейности, Wjk — синаптические веса. Локальный градиент ошибки ду(п) используется для корректировки весов в соответствии с д-правилом по (3) или в соответствии с модифицированным д-правилом по выражению (4):
(п) = п8у (п)уг (п), (3)
Aw ji (п) = а/^уг (п -1) + п8 у (п)уг (п), (4)
где а и п — параметры, определяющие скорость обучения.
Непосредственное применение метода обратного распространения при реализации алгоритма обучения предполагает задание свободных параметров а и п-
Более продуктивный подход к обучению основан на нелинейной минимизации функции ошибок, или оптимизации нелинейной функции отображения вход—выход [8-11].
Метод сопряженных градиентов
В этом методе [12] коррекция вектора весов персептрона w(n) осуществляется не вдоль вектора градиента ошибки g(n), а вдоль вектора сопряженного градиента р(п), который обновляется на каждом шаге итерации:
-те(п + 1) = -те(п) + п(п)р(п), р(п + 1) = -ш(п + 1) + в(п)р(п),
(5)
в(п) =
gт (п + 1) • g(n + 1) gт (п) • g(n)
в(п) =
gт (п + 1) • ^(п + 1) - g(n)]
(6)
(7)
( \ п(п) = аге тіп{Е [w(n) + п р(п)]}
(8)
Определение градиента
дЕ
дп, (п)
правиле (10) дифференцирования сложной функции и общих соотношениях (11), (12):
дЕ дЕ(п) ду] (п) ду} (п)
дп, (п) ду] (п) ду} (п) дп, (п) ’
V ■(п) = 2 (п)У,(n),
(10)
(11)
где g(n) — вектор градиента функции ошибки Е^ п). Параметр в(п) определяется по (6) для метода Флетчера—Ривса и по (7) — для метода Полака—Рибере [9]:
g (п) • g(n)
Оценка параметра п(п) включает линейный поиск, состоящий в определении п, для которого критерий Еср [w(n) + п • р(п)] имеет минимальную
величину при данных значениях w(n) и р(п):
Wji (п) = Wji (п - 1) - Пг (п) -Ц . (12)
Соотношение (11) выражает возбуждение у-нейрона выходами уг нейронов предшествующего слоя, а (12) — правило градиента для изменения параметров персептрона Wjг■(n). Соотношения (11) и (12) позволяют выразить у ■ (п) в виде:
■(п) =2 у,(п)
(п -1) -п, (п)
дЕ (п -1) дw .. (п -1)
. (13)
Это приводит к определению компонент (14), (15) и (16), необходимых для получения формы выражения (10), пригодной для вычислительного алгоритма:
дУ](п)
дп, (п)
= -У,(п)
дЕ (п -1)
дw .. (п -1)
),
Таким образом, при непосредственном использовании алгоритма ОРО параметр скорости обучения п определяется на основе оптимизации критерия минимума функции ошибок.
Метод дельта—дельта и обобщенное правило дельта—дельта
В качестве более совершенного метода выбора п(п) применена форма адаптации параметра скорости обучения на основе правил Джекобса: правила дельта—дельта адаптации и обобщенного правила дельта—дельта [13]. Оба правила основаны на принципе быстрого спуска по поверхности функции ошибок, в качестве которой служит суммарная квадратичная ошибка персептрона Е(п) на текущем шаге процесса обучения (9), которая в этом методе рассматривается в пространстве {Пі (п)}г=і2 параметров скорости обучения для синаптических весов w--i (п) нейронной сети:
Е(п) = 2 2 е2 (п) = 2 2 [ап (п) - У] (п)]2. (9)
ду - (п) ,
—-------= ф, (у і (п)),
дуі(п) ] ]
(14)
(15)
дЕ (п) ду ] (п)
= -[а, (п) - у ] (п)] = -Є] (п). (16)
Полученная таким образом окончательная дЕ
форма выражения ——— имеет вид:
дЕ(п) дП, (п)
= -ф\ (у, (п - 1))е, (п)у, (п)
дЕ (п -1) дw п (п - 1)
. (17)
Если учесть, что для градиента функции ошибки относительно весов справедливо соотношение:
дЕ (п) дwn (п)
= -ф\(У](п))е](п)у, (п), (18)
основано на
то получается конечная форма градиента в пространстве параметров скорости обучения:
У
дЕ
дп (п)
дЕ(п) дЕ(п -1)
дw-■i (п) дw-■i (п - 1)
(19)
Таким образом, значение параметра скорости обучения п , обеспечивающее наискорейший спуск к минимуму поверхности ошибок в пространстве параметров {п (п)}, адаптивно обновляется по алгоритму в форме соотношения:
АП (п + 1) = дЕ (п)
= -у----------^-1 = у
дп, (п)
дЕ(п) дЕ(п -1)
дw-■i (п) дw-■i (п -1)
(20)
где у — константа, контролирующая шаг адаптации параметра скорости обучения п.
дЕ(п) дЕ(п -1) .
” (компо-
Значения
и
дw г (п) дWjj (п -1)
ненты градиента функции ошибок на шаге п и (п-1) в итеративной процедуре обучения) служат основой следующих правил, сформулированных Джекобсом.
— Если компонента градиента
дЕ (п) (п)
имеет
одинаковый знак на двух итерациях, то Ап, (п + 1) >0, т. е. адаптация увеличивает скорость обучения для веса Wji .
— Если у градиента меняется знак на соседних итерациях, Ап, (п + 1) <0, то процедура адаптации уменьшает параметр скорости обучения для веса
Щ-
Приведенная форма алгоритма на основе правила дельта—дельта проста в вычислениях, но может дать неуверенную адаптацию при очень малых и больших значениях градиента. Лучшие результаты дает более сложная модификация алгоритма — обобщенное правило дельта—дельта [13], которое требует большего объема вычислений. Адаптация параметра п, (п) для синаптической связи w, определяется выражениями (21)-(23):
АП-г (п + 1) = к
- Рп-г (п)
0
при
5 п (п -1)В, (п) > 0,
рУ > -г^ > (21)
при 5г (п - 1)В- (п) < 0,
иначе.
где Б, (п) и 5, (п) определяются по (22) и (23):
(п) =
дЕ (п) дw
(22)
5, (п) = (1-£)В, (п-1) + £• 5, (п-1). (23)
В выражениях (22) и (23) £ — положительная константа; Б-і (п) — текущее значение градиента;
5-г (п) — определяется соотношением типа авторегрессии, которое использует параметр веса £ и компоненту градиента Б-, (п -1) в качестве базы. Процедура адаптации параметра скорости обучения (21)—(23) составляет основу метода обучения по обобщенному правилу дельта—дельта. Адаптация основана на контроле совпадения или различия знаков на последовательных итерациях у соответствующих компонент Б-і (п -1) и градиента Б-, (п). При совпадении знаков Ап- (п) составляет к, а при несовпадении уменьшается экспоненциально Ап - (п + 1) = -вп-, (п).
Метод случайного поиска
Метод случайного поиска основан на случайном выборе вектора приращения весов по принципу Монте-Карло. Выбор вектора приращения весов АWjг■ реализуется поиском в пространстве весов, при этом принимаются только те изменения Аw -, которые ведут к уменьшению квадратичной
ошибки на каждой итерации. Метод достаточно прост по вычислениям, но недостаточно эффективен и медленно сходится.
Метод Бройдена—Флетчера
Метод нелинейной минимизации Бройдена— Флетчера основан на методе Ньютона [8], в котором используется разложение функции ошибок, включающее вторые производные
д2 Е (-те)
дwi дw .
т.е. матрицу Гессе Н =
Н = д2 Е ^)
дwi дw .
‘ ]
Е (-те(п) + А-те(п)) =
^ е (п)+*т (п)-А»(п)+2 а» т (п)-н’
(24)
где
{ ( дЕ(п)
^(п)}, % , ч;
дwi (п) g(n) — градиент ошиб-
Е(п) = Е (w(n));
(Я И). = ^ E(W(П)) ;
1 дwj (n)дWj (п)
ки.
Изменение весов Aw(n) вектора параметров персептрона w(n) на п-й итерации определяется условием
Аw (п) = а^ шт {Е (w (п) + Аw (п))}. (25)
А w
Соотношение (25) с учетом (24) эквивалентно выражению (26), которое лежит в основе получе-
ния Дw (п) по методу Ньютона:
Н (п ) - Д w (п ) = - g (п ).
(26)
Н(п) - Дw(n) = у(п),
(28)
где через у(п) = g(n + 1) - g(n) обозначено приращение градиента на п-й итерации.
В методе Бройдена—Флетчера аппроксимация матрицы Гессе в алгоритме обучения вычисляется итеративно с помощью соотношения (29):
Н (п + 1) = Н (п) -1
Дwт (п) - Н(п) - Дw(n)
Н(п) - Дw(n) - Дwт (п) +
1
у т (п) - Дw(n)
у(п) - ут (п).
(29)
При этом вектор р(п) направления изменения параметров персептрона Дw(n) определяется соотношением (30), которое по форме аналогично выражению (26) в методе Ньютона [8]:
Н(п) -р(п) = ^(п).
(30)
Изменение весов персептрона Дw (п) вдоль этого направления с параметром скорости обучения п определяется соотношением (31):
Дw(п) = п -р(п). (31)
Таким образом, выражение (29) преобразуется к виду (32)
Н (п + 1) = Н (п) + 1
g (п) -р(п)
g(n)- gт (п) +
1
П(п)у(п) -р(п)
у(п)у т (п).
(32)
При решении матричного уравнения (26) относительно Дw(n) необходимо, чтобы матрица Гессе была положительно определенной и хорошо обусловленной. Но эти условия не всегда выполняются на практике.
Модификация Бройдена—Флетчера для метода Ньютона связана с построением положительно определенной матрицы Н(п), которая является аппроксимацией матрицы Гессе на основе конечных разностей градиента функции ошибок [1418]. Матрицей Н (п) представляется разложение (27) градиента рядом Тэйлора, которое в более короткой форме эквивалентно (28):
g^(п) + Дw(п)) = g(w(n)) + Н(п) • Дw(n), (27)
Выражения (30)-(32) служат основой алгоритма обучения персептрона по методу Бройдена— Флетчера. Алгоритм включает оценку градиента g(n) функции ошибок Е(w(n)), определение вектора направления р(п) и схему обновления матрицы Н (п) [8].
Метод Бройдена—Флетчера использует не только первую, но и вторую производную функции ошибок (в форме ее разностной аппроксимации) и более точно определяет направление при поиске минимума.
Метод параллельных касательных (метод раГ:ап)
Метод реализует движение в направлении, которое параллельно касательной к линии равного уровня поверхности ошибок, найденной градиентным методом для предшествующей точки [8, 19]. Метод использует матрицу Гессе (33) и алгоритм сопряженных направлений 8 п и 8 п+1 по соотношению (34):
Н [ Е ^ п)] = У 2{£Мп)]}, д2 Е (w п)
Т. Є. Н:, =
у дwi дw,
1 У
(8 п+і)т-[V 2{E[w(n)]}]S п = 0.
(33)
(34)
Условие (34) — это условие ортогональности вектора направления 8п+1 на (п+1) шаге относительно вектора [V2{Е^(п)]}]8п , где
V 2{Е^(п)]} — матрица Гессе (33).
Корректировка вектора весов персептрона выполняется по соотношению
w п+1 = п + К 8 п .
(35)
Значение параметра X, соответствующее минимуму Е^ п+1) в направлении вектора 8п , определяется выражением
я =_ [VE(w п )]т -8п
8 т-[V 2{Е ^ п}]-8 п
(36)
где VE (w п) —
[VE (w(nn )],■ = ^га^Е (w п)] =
вектор градиента дЕ (w(n))
Эw г- (п)
Таким образом, метод параллельных касательных требует вычисления гиперплоскости, касательной к функции ошибок, на каждой итерации.
+
+
Поэтому метод связан с большими вычислительными затратами, особенно в задачах большой размерности.
В двухмерном варианте метод основан на движении по направлению, параллельному касательной к линии постоянного уровня функции ошибок. При большой размерности аргумента (вектора весов персептрона) используются касательные гиперплоскости и движение в направлении, параллельном этим гиперплоскостям. Требование вычисления касательных гиперплоскостей и определения шт{Е ^ п)} вдоль направления, параллель-
w п
ного этим гиперплоскостям, является недостатком метода. При значительной размерности вектора весов (в функции ошибок персептрона) это приводит к росту вычислительных затрат и метод постепенно теряет эффективность, снижая точность и увеличивая длительность обучения.
ВЫБОР МЕТОДА ОБУЧЕНИЯ ПЕРСЕПТРОНА ДЛЯ РЕШАЕМОЙ ЗАДАЧИ
При использовании любого алгоритма обучения персептрона важна инициализация синаптических весов и порогов нейронов сети. В качестве начальных значений весов и уровней порога нейронов для создания им равноценных условий подстройки в процессе обучения целесообразно выбирать равномерно распределенные числа. Значения параметров синаптической связи для нейрона / в сети рекомендуется обычно ограничивать ин-
тервалом
2.4 2.4
где Е/ — общее количество
/ ± / _ входов /-го нейрона [20].
Обобщая представленный выше анализ, можно утверждать, что в алгоритмах обучения персеп-трона для задачи детектирования речевой активности может быть использован один из рассмотренных методов, хотя наиболее совершенными представляются два из них:
— обобщенный метод дельта—дельта (правило Джекобса), который включает адаптивный выбор параметра скорости обучения;
— метод Бройдена—Флетчера, который использует приближение для производных второго порядка (матрицу Гессе) и позволяет определять величину параметра скорости обучения.
Однако только на основе теоретического анализа нельзя сделать окончательный выбор метода обучения персептрона задаче распознавания речевого сигнала, поскольку невозможно учесть поведение алгоритмов в условиях многообразия характеристик сигнала и шума, величин пауз и наличия переходных сегментов. Исходя из этого, для обоснованного выбора метода обучения проведена
экспериментальная проверка алгоритмов при различных видах шумов и различных отношениях сигнал/шум на достаточно представительных данных.
Экспериментальное исследование характеристик алгоритмов обучения персептрона
В целях объективной оценки преимуществ алгоритмов обучения для детектирования речевой активности проведен компьютерный эксперимент, в котором на речевой сигнал, включающий интервалы активности и микропаузы, наложены различные виды шума:
— белый шум, имеющий равномерный спектр мощности в звуковом диапазоне частот;
— окрашенный шум с постепенным спадом спектра при росте частоты (для розового шума — 6 дБ/октава), представителем которого может служить шум пылесоса или шум льющейся воды; музыкальный фон;
— узкополосный шум, состоящий из детерминированных или случайных компонент, постоянных по своему положению и амплитуде (шум вентилятора).
Эксперимент проведен с использованием ней-росетевого эмулятора Essence 1.0 [21], выполненного на языке Java и позволяющего программно моделировать многослойный персептрон с любым количеством слоев, устанавливать отдельно количество и вид активационной функции нейронов для каждого слоя, выполнять все перечисленные алгоритмы обучения и использовать различные виды ошибок.
Данными служили оцифрованные записи речевого сигнала и сопутствующего шума с частотой дискретизации 22.5 кГц. На каждом сегменте записи длительностью 20 мс выполнено вейвлет-разложение в соответствии с персептуальной моделью, вычислена средняя мощность вейвлет-коэффициентов в каждой области разложения и полученные векторы мощности вейвлет-коэффициентов нормированы.
На основе анализируемого зашумленного речевого сигнала получено 2000 векторов, которые составили два множества (обучающее и тестовое) по 1000 векторов. Использован принцип обучения с учителем, при котором сети сообщается желаемый отклик на каждый входной обучающий вектор. Программа представляет динамику изменения ошибки в процессе обучения и на тестирующей выборке. При сходимости обучения ошибка почти не изменяется, но если она недостаточно мала, то сеть усложняется и повторяется ее обучение и тестирование. Напротив, если ошибка по обучающей выборке стремится к нулю, а при тестировании сохраняет недопустимо большое значение, то размер сети уменьшается.
После ряда экспериментов с изменением размера сети для исследования различных алгоритмов обучения принята двухслойная сеть с числом нейронов десять и один (10-1) и с логистической активационной функцией нейронов. Для всех алгоритмов при равном времени обучения (2 мин) зафиксировано число циклов обучения и процент ошибочных решений по обучающей и тестовой выборкам. Эксперимент проведен для всех видов шума при отношениях среднеквадратического отклонения шума к сигналу С = 0.02, 0.1 и 0.3.
Результаты компьютерного эксперимента, позволяющие сопоставить различные алгоритмы обучения персептрона, содержит табл. 1, где приведено число циклов обучения и процент ошибочных решений при обучении и тестировании для нескольких уровней сложности нейронной сети, типов и уровней сопутствующего шума. Число циклов различается в зависимости от алгоритма и определяется его вычислительной сложностью. Для всех методов обучения процент ошибочных решений на обучающей выборке меньше, чем на тестовой выборке. Однако это отличие не превышает 20 %, что подтверждает адекватность выбранной модели персептрона.
При сопоставлении алгоритмов по оценке вероятности ошибочных решений наилучшие характеристики получены для метода Бройдена—Флетчера. Вероятность ошибочных решений зависит от интенсивности шума: для С = 0.02 вероятность
ошибочных решений по тестовой выборке не превышает 3.7 %, для С = 0.1 — 4.3 %, а для С = 0.3 —
5.5 %. Вероятность ошибочных решений для узкополосного шума и музыкального фона выше, поскольку спектральный состав шума меньше отличается от речевого сигнала.
Различаются ошибочные решения первого и второго рода [22, 23]. Пусть — событие, состоящее в том, что текущий сегмент или фрейм содержит речевой сигнал; — событие, состоящее
в том, что текущий фрейм содержит шум; —
решение о том, что текущий фрейм содержит речевой сигнал; — решение о том, что текущий
фрейм содержит шум. Тогда вероятность ошибочного обнаружения речевого сигнала во время паузы определяется соотношением
Р(Ц /ю2) =
Р(Ц,^) Р(®2)
(37)
Вероятность ошибочного обнаружения паузы при наличии речевого сигнала — соотношением:
Р(П2 / ю1) =
Р(А 2,юі) РК)
(38)
Компьютерный эксперимент показал, что вероятность ошибочного обнаружения паузы при наличии речевого сигнала ниже, чем вероятность ошибочного обнаружения речевого сигнала.
Табл. 1. Сравнение методов обучения персептрона
Вид шума Относи- тельный вклад шума Метод обучения Обучение Тести- рование
Число циклов Время, мин Ошибка, % Ошибка, %
1 2 3 4 5 6 7
Белый шум 0.02 Случайный поиск 500 5 10 13
Сопряжен. градиенты 800 3.2 3.5 5.7
Райаи 600 3.3 4 4.7
Дельта—дельта 600 3.3 4.5 5.2
Обобщ. дельта—дельта 650 4 2.5 3.8
Бройдена—Флетчера 700 2 2.7 3.1
0.1 Случайный поиск 500 6.5 12 15
Сопряжен. градиенты 900 4.5 5 8
Райаи 700 4 6.5 6.9
Дельта—дельта 700 4 6.5 7
Обобщ. дельта—дельта 800 4.4 5 5.3
Бройдена—Флетчера 800 2.2 3.4 3.6
Табл. 1 (продолжение)
1 2 3 4 5 6 l
Белый шум 0.3 Случайный поиск 900 l 14 15
Сопряжен. градиенты 900 5 l 8.2
Partan 1000 4.8 9.5 9.3
Дельта—дельта l00 4 9 5.5
Обобщ. дельта—дельта 900 45 l l.3
Бройдена—Флетчера 1000 2.5 4.5 4.l
Окрашенный 0.02 Случайный поиск 600 5 11 12
шум Сопряжен. градиенты 800 3.3 3.l 6.0
Partan 600 3.5 4.1 4.9
Дельта—дельта 600 3.5 4.6 5.5
Обобщ. дельта—дельта l00 4.5 2.4 4
Бройдена—Флетчера 800 2.1 2.6 3.3
0.1 Случайный поиск 500 6.4 12.5 13
Сопряжен. градиенты 850 4.6 4.8 4.8
Partan 800 4.3 6 6.8
Дельта—дельта 600 4.1 l l
Обобщ. дельта—дельта 850 4 4.2 4.2
Бройдена—Флетчера 900 2.0 3.2 3.4
0.3 Случайный поиск 600 5 14.5 15
Сопряжен. градиенты 800 4 6.5 6.8
Partan 650 3.5 8 8.5
Дельта—дельта l00 3.0 l 8.3
Обобщ. дельта—дельта 900 3.6 6.5 6
Бройдена—Флетчера 800 2 4.8 5
Музыкальный 0.02 Случайный поиск 500 4 10 10.5
фон Сопряжен. градиенты l50 3.1 3.8 4.0
Partan 650 3.5 4 4.2
Дельта—дельта 600 3.3 4.5 4.6
Обобщ. дельта—дельта l50 4.0 2.6 2.8
Бройдена—Флетчера 900 2.8 2.9 3.0
0.1 Случайный поиск 400 l 12 12.5
Сопряжен. градиенты 800 5 5 5.2
Partan 850 4 5.8 6
Дельта—дельта 550 4.2 l l.1
Обобщ. дельта—дельта 800 3.9 4.1 4.2
Бройдена—Флетчера 1000 2.3 3.1 3.3
0.3 Случайный поиск 600 4.5 14 15.2
Сопряжен. градиенты l00 4 6.l 6.9
Partan 600 3.2 8 8.2
Дельта—дельта 650 3.2 l.3 8
Обобщ. дельта—дельта 800 3.5 5.3 5.6
Бройдена—Флетчера 900 1.8 6 5.5
Узкополосный 0.02 Случайный поиск 500 5 10.5 10
шум Сопряжен. градиенты l00 3.2 4.5 4.l
Partan 600 3.3 5 5.4
Дельта—дельта 600 3.6 5.8 6.2
Обобщ. дельта—дельта 600 4 2.6 2.8
Бройдена—Флетчера 600 2.6 3.5 3.l
Табл. 1 (продолжение)
1 2 3 4 5 6 7
Узкополосный 0.1 Случайный поиск 600 4.5 12 11.8
шум Сопряжен. градиенты 700 3.8 6.0 6.4
Partan 550 3.5 6 б.б
Дельта—дельта 700 3.8 7.0 7.3
Обобщ. дельта—дельта 800 4.2 3.5 3.8
Бройдена—Флетчера 800 4.5 4.1 4.3
0.3 Случайный поиск 750 4 14 15
Сопряжен. градиенты 900 5 8 9
Partan 800 4.3 8.2 8.1
Дельта—дельта 900 4.5 9 9.5
Обобщ. дельта—дельта 1000 5 4.9 5.3
Бройдена—Флетчера 1000 2.8 3.2 3.6
ВЫБОР СТРУКТУРЫ ПЕРСЕПТРОНА
Выбор структуры многослойного персептрона (МСП) важен, поскольку повышенная сложность сети приводит к увеличению объема вычислений и длительности обучения, возникновению неустойчивости и переобученности, которая ухудшает показатели точности на материале тестирования. Чрезмерное упрощение в свою очередь не позволяет получить хорошее качество детектирования свойств сигнала. Поэтому построение нейронной сети для системы детектирования состояния процесса связано с выбором минимальной конфигурации, обеспечивающей хорошее функционирование.
Для сети минимального размера маловероятно обучиться несущественным деталям в обучающих данных, поэтому она может давать лучшие результаты на материале тестирования. Способ реализации такого подхода — это выбор сети малой сложности и наращивание ее до получения приемлемых показателей алгоритма обучения и правильности работы на тестовом материале.
Другой подход состоит в начальном выборе сети достаточно сложной структуры, обеспечивающей приемлемую ошибку обучения, после чего производится упрощение структуры сети путем удаления избыточных нейронов. Дополнительным ресурсом является метод регуляризации структуры персептрона, в котором вместо простого критерия среднеквадратической ошибки функция риска учитывает также меру сложности структуры персептрона.
Выбор структуры нейронной сети осуществлен на основе совместного использования методов упрощения и наращивания и метода регуляризации.
Для метода наращивания в ходе проведения серии циклов обучения, основываясь на критерии ошибки (9), определялось место размещения в сети дополнительного нейрона. Одновременно из сети удалялся нейрон, веса которого флуктуировали после сходимости обучения, т. к. этот нейрон не является существенным для задачи обучения. Результаты моделирования получены на ЭВМ с использованием программы Essence 1.0 для речевого сигнала с белым шумом при отношении среднеквадратического отклонения шума и сигнала 0.1 и 0.3. Метод наращивания сложности МСП проанализирован для структур: 3-1; 5-1; 5-1-1; 5-21; 5-3-1 и двух лучших алгоритмов обучения: Бройдена—Флетчера и обобщенного правила дельта—дельта (табл. 2). Введение третьего нейрона во втором скрытом слое МСП несущественно меняет ошибку, но обнаруживает флуктуации вектора весов дополнительного нейрона в конце цикла обучения. Поэтому метод указывает на предпочтительность структуры 5-2-1.
Метод упрощения, где после каждого цикла обучения удалялся нейрон, отсутствие которого дает минимальное увеличение ошибки обучения, применен к структурам персептрона 10-3-1; 10-21; 8-2-1; 5-2-1 (табл. 3). Результаты анализа согласуются с выводом, полученным по методу наращивания.
Метод регуляризации [5] вместо критерия среднеквадратической ошибки использует функцию риска R(w):
R(w) = E(w) + Я- Ec (w), (39)
где E (w) — среднеквадратическая ошибка,
Ес М — мера сложности структуры персептрона, а параметр X определяет относительную значимость компоненты Ес^) и служит параметром регуляризации (поскольку форма критерия Л^) опирается на теорию регуляризации А.Н. Тихонова). В качестве меры сложности структуры пер-септрона использован квадрат нормы вектора синаптических весов МСП
Ес ^) =|М|2 = 2 ^, (40)
&с
Табл. 2. Результаты определения оптимальной структуры многослойного персептрона методом наращивания
Структура МСП Отношение шум/сигнал Доля ошибочных решений персептрона (%)
Обобщенное правило дельта—дельта Алгоритм Бройдена—Флетчера
3-1 0.1 8.1 6.5
0.3 9.7 7.0
5-1 0.1 6.5 5.0
0.3 8.3 5.5
5-1-1 0.1 4.9 4.0
0.3 6.9 4.5
5-2-1 0.1 3.7 3.2
0.3 5.5 4.0
5-3-1 0.1 3.9 3.4
0.3 5.8 4.2
Табл. 3. Результаты определения оптимальной структуры многослойного персептрона методом упрощения
Структура персептрона Отношение шум/сигнал Доля ошибочных решений персептрона (%)
Обобщенное правило дельта—дельта Алгоритм Бройдена—Флетчера
10-3-1 0.1 2.1 2.3
0.3 4.2 3.1
10-2-1 0.1 2.3 2.5
0.3 4.5 3.6
8-2-1 0.1 2.9 2.8
0.3 5.0 3.8
5-2-1 0.1 3.7 3.2
0.3 5.5 4.0
где С — множество индексов всех весов сети. Эксперимент проведен на структурах МСП 5-2-1 и 5-3-1 с изменением параметра регуляризации от 0 (в исходном состоянии сети) до 0.01 с шагом
0.001 и показал, что один из нейронов второго скрытого слоя в 5-3-1 имеет 1.5 %-й вклад в Ес ^) и может считаться несущественным. Это подтверждает результат, полученный методом наращивания сложности персептрона.
ИСПОЛЬЗОВАНИЕ ГЛАВНЫХ КОМПОНЕНТ СИГНАЛА ДЛЯ ОБУЧЕНИЯ И РАСПОЗНАВАНИЯ
Дальнейшее улучшение алгоритма детектирования речевой активности достигнуто уменьшением размерности входного вектора персептрона, которое позволило уменьшить число синаптических весов, уменьшить объем обучающей выборки и ускорить процесс обучения. Уменьшение размерности входных векторов при условии сохранения содержащейся в них информации о речевом сигнале основано на методе главных компонент [24, 25].
Входной вектор МСП х= [ х1, х2,..., хр]- ] имеет р = 22 компоненты, число которых соответствует персептуальной модели. Идея метода состоит в получении р линейных комбинаций из компонент вектора — главных компонент, каждая из которых линейно независима от других. Главная компонента у выражается соотношением:
У = Ха,
(41)
где
X =
V
Хр2
''рЫ
уаг(у) = ат Б а,
(42)
Б = -
1
-х
х
1-
2 г1 * л X Х1 Х
1 —1 N 2 Х2гХ1г г =1 1 —1 N 2 Х2г . г =1 Х
N 2 ХргХ1г г=1 N 2 ХргХ2г . г =1 N .. 2 г=1
1 г рг
2г рг
(43)
Главные компоненты, начиная с первой у1 , определяются по критерию максимальной дисперсии ат Б а при условии, что вектор коэффициентов а нормирован, т.е. ат а = 1. Решение условной максимизации использует функцию р = ат Б а -Х(ат а -1) (X — множитель Лагран-
жа), градиент которой ■^рР = 2Б а - 2Х а после
приравнивания к нулю дает уравнение (Б -XI )а = 0 для определения компонент вектора а. Это матричное уравнение имеет решение, если равен нулю определитель |£ - Х1| = 0 . Определитель представляет собой алгебраическое уравнение степени р относительно X и позволяет найти р корней, являющихся характеристическими числами Х1 >X2 >... >Хр ковариационной матрицы Б.
Наибольшее Х1 максимизирует дисперсию у1, а
(Б -XI )а = 0 дает вектор
а = [в1,в2,. .,вр]т — вектор неизвестных коэффициентов, Х — матрица обучающих векторов размерности N х р, N — объем обучающей выборки.
Выборочная дисперсия у определяется выражением:
где Б — выборочная ковариационная матрица обучающих векторов X
решение системы определяющий первую главную компоненту. Следующие по величине характеристические числа
в качестве решения системы (Б -XI )а = 0 дают
векторы а, которые определяют остальные главные компоненты по соотношению (41). Таким образом, для р-мерных данных первая главная компонента у 1 = X • а1 представляет собой линейную комбинацию р компонент с коэффициентами, равными нормированному собственному вектору корреляционной матрицы Б, соответствующему максимальному характеристическому числу этой матрицы. Аналогично остальные главные компоненты соответствуют следующим по величине характеристическим числам матрицы Б. Главные компоненты линейно независимы, и дисперсия каждой компоненты равна соответствующему характеристическому числу матрицы Б.
Общая дисперсия р компонент равна следу выборочной ковариационной матрицы 1г(Б) =
= уаг(у 1) + уаг(у 2) + ... + уаг(у р). Относительная
значимость ]-й главной компоненты определяется соотношением
уаг(у ) XI
X
у
2 уаг(у ])
] =1
1г(Б)
У
2X,
1=1
(44)
Для уменьшения размерности выполнен анализ и выбраны q наиболее значимых компонент д < р, которые определяют п % от общей дисперсии всех р компонент. Для п = 95 ... 98 % вклад оставших-
Х11 Х21
х
х
12
22
Х1N Х2N
х
ся p - q компонент может считаться несущественным.
При проведении исследования программа Essence 1.0 дополнена методом главных компонент. Исходными данными служили 100 векторов, представляющих нормированную мощность коэффициентов вейвлет-разложения речевого сигнала в соответствии с персептуальной моделью.
Отношение сигнал/шум варьировалось от 3 до 50. Для каждого из четырех уровней шума речевой сигнал, преобразованный вейвлет-пакетом и имеющий первоначально 22 компоненты, обработан программой главных компонент, в результате чего получены 9 компонент, содержащих не менее
97.5 % энергии исследуемого сигнала. При этом допустимый уровень потери энергии составил не более п = 2.5 %. Использование главных компонент в структуре персептрона показано на рисунке. Обучение персептрона проведено с использо-
ванием алгоритмов Бройдена—Флетчера и обобщенного правила дельта—дельта, т. к. они дали лучшие результаты обучения на исходных обучающих векторах. При уменьшении отношения сигнал/шум (в исследованном диапазоне 3-50) ошибка обучения возрастает на 60 % для метода Бройдена—Флетчера и вдвое — для обобщенного правила дельта—дельта Джекобса. Для белого и окрашенного шумов метод обобщенного правила дельта—дельта имеет чуть меньшую ошибку обучения (на 0.1 %) при малом отношении
шум/сигнал (до 0.05) и уступает при больших уровнях шума.
Для условий узкополосного шума и музыкального фона метод обобщенного правила дельта— дельта дает меньшую ошибку обучения и тестирования на всем диапазоне уровней шума от 0.5 до 0.2 %.
У1 p xi i=1 •ві,1 < ,
vNv w(i) / 12
1^х/
p (1) 14
У 2 II М i в j,2
i=1 N X
\\24 \
Ж
Ж
(1)
p У9 =Sxi- в,9
i=1
Ж
(1)
(2)
-Ж
(2)
(2)
(2)
W
(З)
W
(З)
Использование главных компонент в структуре персептрона 5-2-1
x
x
x
x
22
Для проверки этой закономерности проанализированы алгоритмы обучения по методу сопряженных градиентов и методу параллельных касательных (метод райап), которые в аналогичных условиях давали в среднем на 1 % большую ошибку обучения, чем первые два метода. Для белого и окрашенного шумов метод параллельных касательных уступает методу сопряженных градиентов — ошибка на 1 % больше во всем диапазоне отношений шум/речь. Для музыкального фона это различие несколько меньше, а для узкополосного шума метод параллельных касательных дает уже на 0.5 % меньшую ошибку обучения.
Методы Бройдена—Флетчера и обобщенное правило дельта—дельта дают близкие показатели относительной ошибки и количество циклов обучения.
Метод главных компонент дает возможность снизить количество циклов на 30-35 % (в зависимости от метода и вида шума) и уменьшить время обучения на 40-50 %. В то же время ошибка обучения увеличивается на 0.4-0.6 %. Для узкополосного шума и музыкального фона это снижение меньше, чем для белого и окрашенного шумов, во всем диапазоне уровней шума.
Применение метода главных компонент позволило
— уменьшить размерность входного вектора персептрона с 22 до 9 компонент;
— уменьшить число оцениваемых в процессе обучения свободных параметров сети (синаптических весов) со ста двадцати двух до пятидесяти двух для нейронной сети 5-2-1;
— соответственно увеличить скорость обучения и уменьшить объем обучающей выборки.
ЗАКЛЮЧЕНИЕ
Для детектирования речевой активности предложен метод, включающий вейвлет-преобразование сигнала в соответствии с персептуальной моделью и нейросетевой алгоритм (см. статью I этой серии). Аппроксимация персептуальной модели реализована на основе вейвлет-пакета, разделяющего частотный диапазон сигнала на 22 субполосы.
Принятие решения о наличии речевой активности на анализируемом сегменте осуществлено на основе нейронной сети в форме многослойного персептрона (МСП). На входы МСП поступает нормированный вектор с компонентами, равными мощности вейвлет-коэффициентов в субполосах разложения сигнала. Исследование показало, что для обучения МСП целесообразно использовать метод Бройдена—Флетчера, который по результа-
там компьютерного эксперимента имеет наилучшие характеристики по скорости обучения, величине ошибок (на обучающей и тестовой выборке) и по вероятности ошибочной классификации сегмента сигнала.
Проведены экспериментальные исследования по регуляризации структуры персептрона, основанные на методах наращивания, упрощения и регуляризации, которые показали, что оптимальной для решения данной задачи является структура персептрона 5-2-1.
Применение метода главных компонент позволяет уменьшить размерность входного вектора нейронной сети, уменьшить число оцениваемых в процессе обучения синаптических весов и увеличить скорость обучения при уменьшенном объеме обучающей выборки.
СПИСОК ЛИТЕРАТУРЫ
1. Battiti R. First and Second Order Methods for Learning: Between Steepest Descent and Newtons’ Method // Neural Computations. 1992. N 4. P. 141-166
2. Baum E.B. Neural Net Algorithms that Learn in Polynoial Time from Examples and Qyeries // IEEE Transactions on Neural Networks. 1991. N 2. P. 5-19.
3. Baum E.B., Wilczek F. Supervised learning of probability distributions by neural networks / Ed. D.Z. Anderson. N.Y.: American Institute of Physics, 1988. P. 52-61.
4. Gallant A.R., White H. // Neural Networks. 1990. N 5. P. 129-138.
5. Hinton G.E., Nowban S.J. How Learning Can Guide Evolution // Complex systems. 1987. N 1. P.495-512.
6. Hopfield J.J. The Effectiveness of Analogue Neural Network.Hardware // Networks. 1990. N 1. P. 27-40.
7. Saarinen S. et al. Neural networks, back-propagation and automatic differentiation // Automatic Differentiation of Algorithm: Theory, Implementation and Application / Eds. Grievank A., Corless G.F. Philadelphia, MA, SIAM, 1991. P. 31-42.
8. Гилл Ф., Мюррей У., Райт М. Прикладная оптимизация. М.: Мир, 1985. 209 c.
9. Химмельблау Р. Прикладное нелинейное программирование. М: Мир, 1975. 98 с.
10. Ariel M. Nonlinear Programming: Analyses and Methods. N.Y.: Prentice Hall, 1976.
11. Dorny C.N. A Vector Space Approach to Models and Optimization. N.Y.: Wiley (Interscience Publishing), 1975.289 p.
12. Hestenes M.G. Conjugate Direction Method in Optimization. Berlin—Heidelberg—N.Y., 1980. 48 p.
13. Jackobs R.A. Increased Rates of Convergence through Learning Rate Adaptation // Neural Networks. 1989. V. 1. P. 295-307.
14. Broyden C.G. A Class of Methods for Solving Nonlinear Simultaneous Equations // Mathematics of Computation. 1965. N 19. P. 577-593.
15. Broyden C.G. Quasi-Newton Methods and their Application to Function Minimization // Mathematics of Computation. 1967. N 21. P. 368-381.
16. Broyden C.G. The Convergence of Minimization Algorithms // Journal of Institute of Mathematical Applications. 1970. N 6. P. 76-90.
17. Broyden C.G., Dennis J.E., Moro J.J. On the Local and Superlinear Convergence of QuasiNewton Methods // Journal of Institute of Mathematical Applications. 1973. N 12. P. 223-245.
18. Shanno D.F. Conditioning of quasi-Newton methods for function initialization // Mathematics of Computation. 1970. N 24. P. 647-657.
19. Shah B. V., Buchler R.J., Kempthorne O. // Journal Society of Industrial and Applied Mathematics. 1964. V. 12. P. 74.
20. Haykin S. Neural Networks. A Comprehensive Foundation. N.Y.: Prentice Hall, 1994. 680 p.
21. Власов Л.В., Малыхина Г.Ф., Тархов Д.А. Нейронный эмулятор "ESSENCE" // Датчики и системы: Сборник докладов Международной конференции. СПб.: Изд-во СПбГТУ, 2002. Т. 3. С. 149-153.
22. Загрутдинов Г. М. Достоверность автоматизированного контроля. Казань: Изд-во Казанского университета, 1980. 280 с.
23. Любатов Ю.В. Теоретические основы моделирования цифровых систем. М.: МАИ, 1989. 77 с.
24. Болч Б., Хуань К. Дж. Многомерные статистические методы для экономики. М.: Статистика, 1979. 316 с.
25. Кендал М. Дж., Стьюарт А. Многомерный статистический анализ и временные ряды (Пер.с англ. под ред. А.Н. Колмогорова и Ю.В. Прохорова). М.: Изд-во Наука, 1976. 736 с.
Санкт-Петербург
Материал поступил в редакцию 10.11.2002.
APPLICATION OF A NEURAL NETWORK TO ON-LINE ANALYSIS OF NON-STATIONARY (SPEECH) SIGNALS REPRESENTED BY THEIR WAVELET TRANSFORM.
II. STUDY AND OPTIMIZATION OF THE NEURAL NETWORK
А. V. Меrkusheva
Saint-Petersburg
The neural-network perceptron complexity level is well grounded and main learning characteristics are obtained. We suggest the tools for input vectors dimensionality reducing for perceptron learning and signal state recognition based on the principal component analysis.