К.А. Астапов
Анализ градиента для нейронных сетей с вейвлет-разложением целевого вектора
В данной статье предлагается анализ градиента для некоторых случаев нейронных сетей с вейвлет и вейвлет-подобным разложением целевого вектора - нового типа нейронной сети, специализированного на распознавании речи и преобразовании сигнала, и позволяющего увеличить скорость и качество обучения по сравнению со стандартным перцептроном. Посредством этого анализа показывается, что в достаточно широких рамках нейронные сети с вейвлет-разложением целевого вектора эффективнее стандартного многослойного перцептрона.
Ключевые слова: НСВЦ, НСВПЦ, нейронные сети с вейвлет-подобным преобразованием целевого вектора, нейронные сети с вейвлет преобразованием целевого вектора, эффективность нейронных сетей, распознавание речи
Актуальность. Искусственные нейронные сети (ИНС) с вейвлет-разложением целевого вектора (НСВЦ) созданы авторами для задач распознавания речи и используются в этой области, хотя могут быть применены для широкого круга задач, подразумевающих преобразование одного сигнала (в значении - система отсчётов некоторой функции) в другой сигнал (другую систему отсчётов некоторой функции). На эффективность применения нейросетей, и особенно нейрогибридов, указывали многие авторы, например, [1,2]. Так же существует множество работ, обсуждающих и доказывающих высокую эффективность вейвлет-методов для фонемного распознавания [3], особенно следует упомянуть биологическую аналогию вейвлет-обработки звукового сигнала, описанную у Добеши[4]. Таким образом, многочисленные источники подтверждают актуальность использования нейровейвлетных гибридов для задач распознавания речи.
Нейронные сети с вейвлет-разложением целевого вектора. НСВЦ являются специализированным типом нейронных сетей, преобразующих один сигнал (под сигналом здесь и далее имеется в виду система отсчётов некоторой функции, удовлетворяющая условию теоремы Котельникова) в другой сигнал. Их практическая эффективность обусловлена тем, что рассматривая множество выходных сигналов обучающей выборки (далее будем называть их целевыми векторами) с помощью вейвлет-разложения находятся спектральные диапазоны, в которых локализован сигнал, и спектральные области, не значащие для решения, исключаются из области поиска [5]. Исключение производится с помощью проецирования значений нейросети на области спектральной локализации нейронной сети, причём сам процесс проецирования производится за счёт модуля обратного вейвлет-разложения выходного сигнала многослойного перцептрона автоматически. Следует отметить, что вейвлет-разложение целевого вектора многослойного перцептрона и обратное данному вейвлет-разложению преобразование фактических выходных значений многослойного перцептрона являются взаимозаменяемыми операциями.
Так как модуль обратного вейвлет-разложения реализован в нейронном базисе, это позволяет говорить о новой нейронной структуре на базе перцептрона - НСВЦ. Более подробно об этих ИНС можно прочитать в работах авторов ([5,6]). Здесь отметим лишь, что данная структура построена по предложенному авторами принципу локализации решения, в соответствии с которым подбирается преобразование выходных векторов выборки, которое позволяет обнаружить и использовать диапазоны локализации данных векторов (фактически это означает построение грубой модели целевых значений выборки) и выходные значения ИНС проецируются на данные диапазоны, что позволяет сузить область поиска решения, а значит, уменьшить вероятность попадания в локальные максимумы, скорость и точность обучения.
Анализ градиента нейронных сетей с вейвлет-разложением целевых значений. Пусть модуль обратной вейвлет-декомпозиции осуществляет преобразование, обратное вейвлет-преобразованию, заданному двумя зеркльно-квадратурными FIR фильтрами G и H, определяемыми коффициентами hj и gj.
В этом случае вейвлет-разложение может быть реализовано последовательным
nH nG
применением свёрток H(Zj ) = 2 hl-2kzi и G(zi) = Z Sl-2kzi ■
l=1 l=l
Пусть дана обучающая выборка (у ,Уі ), i=1,2,.. .,imax где вектора у ,yj равны
yi = (Xib Xi 2,■■■, Xin )> yi =(У i1,yi2,..., yim ), и вейвлет преобразование F, преобразующее
вектор yi в набор коэффициентов Fjl) (y ) : Fjl) ((yj )= F (j, l ,у ), j=1,2,...jmax, /=1,2,...,/max,
где / - номер уровня вейвлет-разложения, а j - номер коэффициента на данном уровне вейвлет-разложения. Компонент yj обучающей пары Xj, yt будем называть целевым компонентом или целевым вектором. Тогда:
1. Целевые компоненты пар-примеров обучающей выборки подвергаются вейвлет-разложению.
2. На каждом уровне / вейвлет разложения по всей выборке выбираются минимальные и максимальные значения
Sl = max f( ) (yj), (1)
i, j
Il = min f( ) (yj). (2)
j, j
3. Те же самые операции (п.1 и п.2) проводятся над контрольной выборкой. Результатом являются контрольные минимальные и максимальные значения
Sl и Il ■
4. Если контрольный максимум не превосходит максимум обучающей выборки более чем на заданную константу точности Є,S, < S, + Є, а минимум обучающей выборки не превосходит контрольный минимум более чем ту же Є I¡ > і/ + Є то можно говорить о корректности выбранных минимальных и максимальных значений для данной задачи.
5. Диапазонами частотной локализации будут области [і/ ; s, ] для каждого
уровня l вейвлет-разложения.
Данный алгоритм дан здесь в виде инициализации ИНС, но практически возможно не инициализировать величины і,, S/, а корректировать их в процессе предъявления обучающих примеров.
НСВЦ состоит из двух модулей - многослойного перцептрона (на месте которого, в принципе, может быть любая нейронная сеть, построенная в соответствии с парадигмой «обучение с учителем») и модуля обратной вейвлет-проекции. Значения многослойного перцептрона принципиально ограничены (обычно в диапазонах [-1; 1] и [0; 1 ]). Процесс проецирования выходных значений перцептрона, соответствующих /-му уровню масштаба вейвлет-разложения на область частотной локализации будет сдвиг и масштабирование области значений нейронной сети на область частотной локализации [і, ; S, ]. Обозначим верхнее значение, принимаемое входами ИНС будет S, а нижнее I.
Проецирование значений перцептрона oj на диапазоны частотной локализации решения осуществляется следующим образом:
o j=( -1 Hs-t+1/. (3)
Рассмотрим влияние масштабирования на градиент. Введём следующие обозначения:
Е - ошибка слоя. ЕI - 1-й компонент.
Е (м) - целевая функция.
ё - желаемый выходной сигнал ]-го нейрона слоя У1 - выходное значение, в общем случае уе(0,1).
X; - входное значение.
Wij - вес, связывающий 1-й вход с ]-м выходом.
ж
.t
t ( 'V''
иI - взвешенная сумма 1-го нейрона, 1-го слоя. иг- = Е М^Хк
к=0
Согласно метода распространения ошибки, имеют место следующие формулы:
пм
Е О) = 2 Е (Уг - ¿г) (4)
г=1
X 1 7_т t +1 I + 1 /С\
Ег =Е Е1 Ми , (5)
I=1
Ег = уг - ¿г (6)
М] =-ПЕ] ■ ^ ■ Х1 (7)
^ аиг )
Где П - скорость обучения.
дЕ дЕ ди] ¿У] дЕ ¿У,
- -1 -1 - -Х]^- (8)
дмИ дуг дмИ ¿ии, дуг ¿и ,■
и у 1 и J у 1 J
Пусть В(х) - функция, которая позволяет найти производную активационной функции { по её значению
Т е. если у, = /(и] )
То Б(у] )= /'{и])
^ )*>
такими функциями, будут, например
0( у) = у(1 - у )(10)
для униполярной функции и
0(у) = (1 - у2 ) (11)
для биполярной функции
Рассмотрим для простоты случай биполярной функции.
дЕ дЕ
д— = ^ ХгВ( у] )(12)
дМг] дуг
Проанализируем влияние масштабирования на компонент градиента.
Пусть выход У] во всех ситуациях не превосходит
к
Иными словами,
тах
У
тах
эир{У,- }
к
(13)
тах
Тогда, с учётом того, что нейронная сеть с униполярной функцией активации выходного слоя выдаёт значения в области (0,1) мы можем промасштабировать выход, увеличив его в к < ктах раз. Для этого достаточно промасштабировать соответствующий
целевой вектор. Для этого введём замену переменной
У ' = кУ
Соответственно, й' = кй
Тогда, для масштабированного выхода получаем дЕ'
= к(Уг - йг )Х1В(ку] ) (14)
Э(ку]) = 1 - к 2у2 (15)
Используя 10 выводим
дЕ' , дЕ 0(ку])
= к-----------— (16)
дм , дм , Д У, )
дЕ' _ к дЕ кУ, I1 - кУ,) _ к ^ дм і, дм і, У,(1 -У,) дм, (1 -У,)
дЕ (1 - кУ,)
(17)
Введём величину М как отношение
У
дЕ'
,
дЕ
дм?, дм
и
ч
(18)
, , Л-к2 у2
С помощью несложных расчётов приходим к формуле М (у) = к------------2—
1 - У2
(19)
Собственно, анализ выражения 16 сводится к анализу множителя
М ( у) _ к
1 /2 2 1 - к у,
1 2
1 - У,
(20)
Этот множитель отображает участок биполярной(логистической) сигмоиды на отрезке
Ґ 0,1 к
в полноценную сигмоиду на отрезке (0;1). При этом
дЕ' дЕ ( )
------=--------М (у,)
дм> ■■ д№> ■■ }
^ 1} у
Исследуем свойства множителя М.
1
M (y) = k
1 - k 2 y 1 - yj2
k3+k
2
1-y
2
,3 k — k k+
3
1— У
2
(22)
[M(y)] =
k3 +
k — k: 1—7
= (k — k3)
2 У
(23)
С учётом того, что к>1, множитель (к — к3) всегда отрицательный, проверяя знаки производной в окрестностях особых точек, видим, что М имеет единственный экстремум -максимум тах{М(у)} = к в точке у=0.
Таким образом мы пришли к важному выводу: в случае биполярной функции её градиент в к раз больше при у=0, а далее монотонно убывает при у ^ +1 и у ^ — 1. Мы используем эту особенность для выбора оптимального коэффициента к (см. ниже).
Для дальнейших рассуждений нам понадобиться вычислить отрезок, на котором М (у)
дБ' дБ
больше единицы, т.е. найти то множество у, на котором градиент ----->
дм-. дм-
I] I]
Исходя из монотонного убывания М(у) на отрицательной и положительной полуосях для нахождения этого множества нам достаточно найти такие у, при которых М(у)=1.
3 3
1/Г, ч 1 7 з к — к 2 л к — к 2 1
М (у) = 1 ^ к +-----------------— = 1 ^ у = 1---------------— ^ у = — ----------------^
1— y
1 — k
3
k 2 + k +1
Vk2 + k
+1
(24)
Итак, мы вычислили, что M (y) > 1 при y E
Обозначим
yeq такую
величину,
Vk 2 + k +1 Vk2 + k +1,
что M (± yeq )= 1.
Тогда
M(y) > 1 «• y e(— yeq ,+yeq )•
(25)
Подберём коэффициент k масштабирования таким образом, чтобы kymax = kmaxyeq, (26)
1
где ymax - максимальное значение y, причём y max =------
k
max
При этом условии будет верно М (у) > 1 (необходимо помнить, что сигмоидальная функция не принимает значения своего супремума и инфинума), или, что равносильно
дЕ' > дЕ
дм-. дм-
I] ]
для всех значений ограниченной величины у. Так как
1
У еа =
(27)
ф:
2 + k +1
max max
(28)
kymax kmax yeq ^ k
k
max
k
max
(29)
2 + k +1
max max
1
1
1
1
что возможно если ( ^2
к
(кшах )
2 + к +1 шах шах
Итак, при коэффициенте масштабирования к
(кшах )
2 + к + 1 шах шах
градиент целевой
функции больше на всей области значений нейронной сети, что ускоряет обучение ИНС.
Обобщим теперь изложенное в предыдущем пункте на случай вейвлет-преобразования.
Вейвлет-преобразование известно своими сжимающими свойствами, что проявляется в том, что при вейвлет-разложении достаточно широкого класса сигналов коэффициенты высокой детализации обычно близки к нулю. Это свойство используют для сжатия информации с потерями, отбрасывая коэффициенты и получая приближённую модель сигнала.
Как уже говорилось выше, мы рассматриваем узкий случай применения нейронных сетей: когда результатом работы нейронной сети является временной сигнал, а точнее -отсчёты некоторой временной функции.
В этом случае, если искомый сигнал (систему отсчётов функции) разложить с помощью вейвлет-преобразования, и коэффициенты этого вейвлет-преобразования по абсолютной величине малы, то выгоднее искать вейвлет-образ, а не сам сигнал. Причём эффективность возрастает при уменьшении величины коэффициентов. Интуитивно очевидно, что чем больше сигнал можно сжать при помощи выбранного вейвлет-преобразования, тем меньше коэффициенты вейвлет-образа, и тем эффективнее использование НСВЦ. Иными словами, степень сжимаемости сигнала можно считать мерой эффективности нейронной сети с вейвлет-разложением сигнала.
Представим это интуитивное понимание в более формализованном виде:
Теорема об эффективности нейронных сетей с вейвлет-разложением цели.
Пусть
1) дана система из 2к отсчётов /](Ь), /2(1о), /з(Ь), ••• , /к (?о) некоторой
функции¡(1). Причём /■ (¿о ) = /^о + ■ * ^).
2) Пусть этой системе отсчётов соответствует вейвлет-образ из п уровней разложения и 2к коэффициентов. Обозначим его коэффиценты
как ^у), у е {1,2,...,п,п + 1}, где ^у\(0) при у<п+1 - детализирующие
коэффициенты вейвлет-образа, а d(n+1)(^о) -
приближённая(«огрублённая») версия сигнала/.
3) Введём величины
к(у) Лшах
1
БИр \4у} (о )
ио
(31)
и
ку =
кшх +1
Тогда
если среди коэффициентов существуют такие кШаХ, что кШаХ — 1,
то
градиент построенной на данном вейвлет-разложении нейронной сети с вейвлет-разложением цели больше по абсолютному значению, чем градиент соответствующей базовой ИНС (ИНС, на основе которой построена НСВЦ).
Покажем это.
Градиент целевой функции gradE базовой нейронной сети
gradE
I
t, і
Ґ Л2
dE
dw
v lJ J
Градиент целевой функции НСВЦ gradE ' —
I
l, і
2
dE '
dwt .
V lJ /
Пусть
y і =кіУі •
Тогда из формул 18,20,21 ^ dE M к, y. )
dwt
(33)
(34)
(35)
где
1 - к 2 y 2
M (к, y )- к 2
1 - y2
(36)
При этом из соотношения 30 и утверждения 3 теоремы следует что для любых к,, у,, удовлетворяющих условию задачи,
М (к,, у, )> 1.
(37)
gradE ' —
IlM (к, y,)
l, J
dE
V
dw
iJ J
I m 2 (к,
ry j
dE
l, j
dw
<
li J
<
I
l> j
2
dE
dw,
V lJ J
gradE
(38)
Что и требовалось доказать.
Выводы. Нами показано, что при нахождении областей частотной локализации и проецировании значений нейронной сети на область локализации решения, в достаточно широких рамках можно добиться увеличения градиента (по сравнению с той же ИНС без частотной локализации и модуля обратной вейвлет-проекции), а следовательно, скорости сходимости нейронной сети.
2
2
Литература
1. Tebelskis, J. Speech Recognition using Neural Networks: PhD thesis ... Doctor of Philosophy in Computer Science/ Joe Tebelskis; School of Computer Science, Carnegie Mellon University .Pittsburgh, Pennsylvania, 1995.- 179 c.
2. Handbook of neural network signal processing/ Edited by Yu Hen Hu, Jenq-Neng Hwang.-Boca Raton; London; New York, Washington D.C.: CRC press, 2001.- 384c.
3. Ф.Г. Бойков Применение вейвлет-анализа в задачах автоматического распознавания речи: Дис. ... кандидата физико-математических наук: 05.13.18/ Фёдор Г еннадьевич Бойков.- М, 2003.- 111 с.
4. Добеши И. Десять лекций по вейвлетам.- Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001.- 464 с.
5. Астапов К.А. Применение вейвлет-преобразования для сокращения области значения
искусственных нейронных сетей на примере задачи распознавания речи// Астапов Константин Андреевич. // Электронный научно-инновационный журнал «Инженерный вестник Дона: электронное научное издание № ГОС. РЕГИСТРАЦИИ 0420900096, Ростов-на-Дону: . - 2009. - №1. - регистрационный номер статьи .
6. Червяков Н.И., Астапов К.А. Использование вейвлетов для улучшения параметров нейронных сетей в задачах распознавания речи. // Червяков Николай Иванович; Астапов Константин Андреевич. //Инфокоммуникационные технологии - N° 4. - 2008. - Самара: Издательство ПГУТИ, 2008. - с. - с. 9-12.