Научная статья на тему 'Анализ градиента для нейронных сетей с вейвлет-разложением целевого вектора'

Анализ градиента для нейронных сетей с вейвлет-разложением целевого вектора Текст научной статьи по специальности «Математика»

CC BY
292
74
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
НСВЦ / НСВПЦ / НЕЙРОННЫЕ СЕТИ С ВЕЙВЛЕТ-ПОДОБНЫМ ПРЕОБРАЗОВАНИЕМ ЦЕЛЕВОГО ВЕКТОРА / НЕЙРОННЫЕ СЕТИ С ВЕЙВЛЕТ ПРЕОБРАЗОВАНИЕМ ЦЕЛЕВОГО ВЕКТОРА / ЭФФЕКТИВНОСТЬ НЕЙРОННЫХ СЕТЕЙ / РАСПОЗНАВАНИЕ РЕЧИ

Аннотация научной статьи по математике, автор научной работы — Астапов Константин Андреевич

В данной статье предлагается анализ градиента для некоторых случаев нейронных сетей с вейвлет и вейвлет-подобным разложением целевого вектора нового типа нейронной сети, специализированного на распознавании речи и преобразовании сигнала, и позволяющего увеличить скорость и качество обучения по сравнению со стандартным перцептроном. Посредством этого анализа показывается, что в достаточно широких рамках нейронные сети с вейвлет-разложением целевого вектора эффективнее стандартного многослойного перцептрона.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Астапов Константин Андреевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Анализ градиента для нейронных сетей с вейвлет-разложением целевого вектора»

К.А. Астапов

Анализ градиента для нейронных сетей с вейвлет-разложением целевого вектора

В данной статье предлагается анализ градиента для некоторых случаев нейронных сетей с вейвлет и вейвлет-подобным разложением целевого вектора - нового типа нейронной сети, специализированного на распознавании речи и преобразовании сигнала, и позволяющего увеличить скорость и качество обучения по сравнению со стандартным перцептроном. Посредством этого анализа показывается, что в достаточно широких рамках нейронные сети с вейвлет-разложением целевого вектора эффективнее стандартного многослойного перцептрона.

Ключевые слова: НСВЦ, НСВПЦ, нейронные сети с вейвлет-подобным преобразованием целевого вектора, нейронные сети с вейвлет преобразованием целевого вектора, эффективность нейронных сетей, распознавание речи

Актуальность. Искусственные нейронные сети (ИНС) с вейвлет-разложением целевого вектора (НСВЦ) созданы авторами для задач распознавания речи и используются в этой области, хотя могут быть применены для широкого круга задач, подразумевающих преобразование одного сигнала (в значении - система отсчётов некоторой функции) в другой сигнал (другую систему отсчётов некоторой функции). На эффективность применения нейросетей, и особенно нейрогибридов, указывали многие авторы, например, [1,2]. Так же существует множество работ, обсуждающих и доказывающих высокую эффективность вейвлет-методов для фонемного распознавания [3], особенно следует упомянуть биологическую аналогию вейвлет-обработки звукового сигнала, описанную у Добеши[4]. Таким образом, многочисленные источники подтверждают актуальность использования нейровейвлетных гибридов для задач распознавания речи.

Нейронные сети с вейвлет-разложением целевого вектора. НСВЦ являются специализированным типом нейронных сетей, преобразующих один сигнал (под сигналом здесь и далее имеется в виду система отсчётов некоторой функции, удовлетворяющая условию теоремы Котельникова) в другой сигнал. Их практическая эффективность обусловлена тем, что рассматривая множество выходных сигналов обучающей выборки (далее будем называть их целевыми векторами) с помощью вейвлет-разложения находятся спектральные диапазоны, в которых локализован сигнал, и спектральные области, не значащие для решения, исключаются из области поиска [5]. Исключение производится с помощью проецирования значений нейросети на области спектральной локализации нейронной сети, причём сам процесс проецирования производится за счёт модуля обратного вейвлет-разложения выходного сигнала многослойного перцептрона автоматически. Следует отметить, что вейвлет-разложение целевого вектора многослойного перцептрона и обратное данному вейвлет-разложению преобразование фактических выходных значений многослойного перцептрона являются взаимозаменяемыми операциями.

Так как модуль обратного вейвлет-разложения реализован в нейронном базисе, это позволяет говорить о новой нейронной структуре на базе перцептрона - НСВЦ. Более подробно об этих ИНС можно прочитать в работах авторов ([5,6]). Здесь отметим лишь, что данная структура построена по предложенному авторами принципу локализации решения, в соответствии с которым подбирается преобразование выходных векторов выборки, которое позволяет обнаружить и использовать диапазоны локализации данных векторов (фактически это означает построение грубой модели целевых значений выборки) и выходные значения ИНС проецируются на данные диапазоны, что позволяет сузить область поиска решения, а значит, уменьшить вероятность попадания в локальные максимумы, скорость и точность обучения.

Анализ градиента нейронных сетей с вейвлет-разложением целевых значений. Пусть модуль обратной вейвлет-декомпозиции осуществляет преобразование, обратное вейвлет-преобразованию, заданному двумя зеркльно-квадратурными FIR фильтрами G и H, определяемыми коффициентами hj и gj.

В этом случае вейвлет-разложение может быть реализовано последовательным

nH nG

применением свёрток H(Zj ) = 2 hl-2kzi и G(zi) = Z Sl-2kzi ■

l=1 l=l

Пусть дана обучающая выборка (у ,Уі ), i=1,2,.. .,imax где вектора у ,yj равны

yi = (Xib Xi 2,■■■, Xin )> yi =(У i1,yi2,..., yim ), и вейвлет преобразование F, преобразующее

вектор yi в набор коэффициентов Fjl) (y ) : Fjl) ((yj )= F (j, l ,у ), j=1,2,...jmax, /=1,2,...,/max,

где / - номер уровня вейвлет-разложения, а j - номер коэффициента на данном уровне вейвлет-разложения. Компонент yj обучающей пары Xj, yt будем называть целевым компонентом или целевым вектором. Тогда:

1. Целевые компоненты пар-примеров обучающей выборки подвергаются вейвлет-разложению.

2. На каждом уровне / вейвлет разложения по всей выборке выбираются минимальные и максимальные значения

Sl = max f( ) (yj), (1)

i, j

Il = min f( ) (yj). (2)

j, j

3. Те же самые операции (п.1 и п.2) проводятся над контрольной выборкой. Результатом являются контрольные минимальные и максимальные значения

Sl и Il ■

4. Если контрольный максимум не превосходит максимум обучающей выборки более чем на заданную константу точности Є,S, < S, + Є, а минимум обучающей выборки не превосходит контрольный минимум более чем ту же Є I¡ > і/ + Є то можно говорить о корректности выбранных минимальных и максимальных значений для данной задачи.

5. Диапазонами частотной локализации будут области [і/ ; s, ] для каждого

уровня l вейвлет-разложения.

Данный алгоритм дан здесь в виде инициализации ИНС, но практически возможно не инициализировать величины і,, S/, а корректировать их в процессе предъявления обучающих примеров.

НСВЦ состоит из двух модулей - многослойного перцептрона (на месте которого, в принципе, может быть любая нейронная сеть, построенная в соответствии с парадигмой «обучение с учителем») и модуля обратной вейвлет-проекции. Значения многослойного перцептрона принципиально ограничены (обычно в диапазонах [-1; 1] и [0; 1 ]). Процесс проецирования выходных значений перцептрона, соответствующих /-му уровню масштаба вейвлет-разложения на область частотной локализации будет сдвиг и масштабирование области значений нейронной сети на область частотной локализации [і, ; S, ]. Обозначим верхнее значение, принимаемое входами ИНС будет S, а нижнее I.

Проецирование значений перцептрона oj на диапазоны частотной локализации решения осуществляется следующим образом:

o j=( -1 Hs-t+1/. (3)

Рассмотрим влияние масштабирования на градиент. Введём следующие обозначения:

Е - ошибка слоя. ЕI - 1-й компонент.

Е (м) - целевая функция.

ё - желаемый выходной сигнал ]-го нейрона слоя У1 - выходное значение, в общем случае уе(0,1).

X; - входное значение.

Wij - вес, связывающий 1-й вход с ]-м выходом.

ж

.t

t ( 'V''

иI - взвешенная сумма 1-го нейрона, 1-го слоя. иг- = Е М^Хк

к=0

Согласно метода распространения ошибки, имеют место следующие формулы:

пм

Е О) = 2 Е (Уг - ¿г) (4)

г=1

X 1 7_т t +1 I + 1 /С\

Ег =Е Е1 Ми , (5)

I=1

Ег = уг - ¿г (6)

М] =-ПЕ] ■ ^ ■ Х1 (7)

^ аиг )

Где П - скорость обучения.

дЕ дЕ ди] ¿У] дЕ ¿У,

- -1 -1 - -Х]^- (8)

дмИ дуг дмИ ¿ии, дуг ¿и ,■

и у 1 и J у 1 J

Пусть В(х) - функция, которая позволяет найти производную активационной функции { по её значению

Т е. если у, = /(и] )

То Б(у] )= /'{и])

^ )*>

такими функциями, будут, например

0( у) = у(1 - у )(10)

для униполярной функции и

0(у) = (1 - у2 ) (11)

для биполярной функции

Рассмотрим для простоты случай биполярной функции.

дЕ дЕ

д— = ^ ХгВ( у] )(12)

дМг] дуг

Проанализируем влияние масштабирования на компонент градиента.

Пусть выход У] во всех ситуациях не превосходит

к

Иными словами,

тах

У

тах

эир{У,- }

к

(13)

тах

Тогда, с учётом того, что нейронная сеть с униполярной функцией активации выходного слоя выдаёт значения в области (0,1) мы можем промасштабировать выход, увеличив его в к < ктах раз. Для этого достаточно промасштабировать соответствующий

целевой вектор. Для этого введём замену переменной

У ' = кУ

Соответственно, й' = кй

Тогда, для масштабированного выхода получаем дЕ'

= к(Уг - йг )Х1В(ку] ) (14)

Э(ку]) = 1 - к 2у2 (15)

Используя 10 выводим

дЕ' , дЕ 0(ку])

= к-----------— (16)

дм , дм , Д У, )

дЕ' _ к дЕ кУ, I1 - кУ,) _ к ^ дм і, дм і, У,(1 -У,) дм, (1 -У,)

дЕ (1 - кУ,)

(17)

Введём величину М как отношение

У

дЕ'

,

дЕ

дм?, дм

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

и

ч

(18)

, , Л-к2 у2

С помощью несложных расчётов приходим к формуле М (у) = к------------2—

1 - У2

(19)

Собственно, анализ выражения 16 сводится к анализу множителя

М ( у) _ к

1 /2 2 1 - к у,

1 2

1 - У,

(20)

Этот множитель отображает участок биполярной(логистической) сигмоиды на отрезке

Ґ 0,1 к

в полноценную сигмоиду на отрезке (0;1). При этом

дЕ' дЕ ( )

------=--------М (у,)

дм> ■■ д№> ■■ }

^ 1} у

Исследуем свойства множителя М.

1

M (y) = k

1 - k 2 y 1 - yj2

k3+k

2

1-y

2

,3 k — k k+

3

1— У

2

(22)

[M(y)] =

k3 +

k — k: 1—7

= (k — k3)

2 У

(23)

С учётом того, что к>1, множитель (к — к3) всегда отрицательный, проверяя знаки производной в окрестностях особых точек, видим, что М имеет единственный экстремум -максимум тах{М(у)} = к в точке у=0.

Таким образом мы пришли к важному выводу: в случае биполярной функции её градиент в к раз больше при у=0, а далее монотонно убывает при у ^ +1 и у ^ — 1. Мы используем эту особенность для выбора оптимального коэффициента к (см. ниже).

Для дальнейших рассуждений нам понадобиться вычислить отрезок, на котором М (у)

дБ' дБ

больше единицы, т.е. найти то множество у, на котором градиент ----->

дм-. дм-

I] I]

Исходя из монотонного убывания М(у) на отрицательной и положительной полуосях для нахождения этого множества нам достаточно найти такие у, при которых М(у)=1.

3 3

1/Г, ч 1 7 з к — к 2 л к — к 2 1

М (у) = 1 ^ к +-----------------— = 1 ^ у = 1---------------— ^ у = — ----------------^

1— y

1 — k

3

k 2 + k +1

Vk2 + k

+1

(24)

Итак, мы вычислили, что M (y) > 1 при y E

Обозначим

yeq такую

величину,

Vk 2 + k +1 Vk2 + k +1,

что M (± yeq )= 1.

Тогда

M(y) > 1 «• y e(— yeq ,+yeq )•

(25)

Подберём коэффициент k масштабирования таким образом, чтобы kymax = kmaxyeq, (26)

1

где ymax - максимальное значение y, причём y max =------

k

max

При этом условии будет верно М (у) > 1 (необходимо помнить, что сигмоидальная функция не принимает значения своего супремума и инфинума), или, что равносильно

дЕ' > дЕ

дм-. дм-

I] ]

для всех значений ограниченной величины у. Так как

1

У еа =

(27)

ф:

2 + k +1

max max

(28)

kymax kmax yeq ^ k

k

max

k

max

(29)

2 + k +1

max max

1

1

1

1

что возможно если ( ^2

к

(кшах )

2 + к +1 шах шах

Итак, при коэффициенте масштабирования к

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(кшах )

2 + к + 1 шах шах

градиент целевой

функции больше на всей области значений нейронной сети, что ускоряет обучение ИНС.

Обобщим теперь изложенное в предыдущем пункте на случай вейвлет-преобразования.

Вейвлет-преобразование известно своими сжимающими свойствами, что проявляется в том, что при вейвлет-разложении достаточно широкого класса сигналов коэффициенты высокой детализации обычно близки к нулю. Это свойство используют для сжатия информации с потерями, отбрасывая коэффициенты и получая приближённую модель сигнала.

Как уже говорилось выше, мы рассматриваем узкий случай применения нейронных сетей: когда результатом работы нейронной сети является временной сигнал, а точнее -отсчёты некоторой временной функции.

В этом случае, если искомый сигнал (систему отсчётов функции) разложить с помощью вейвлет-преобразования, и коэффициенты этого вейвлет-преобразования по абсолютной величине малы, то выгоднее искать вейвлет-образ, а не сам сигнал. Причём эффективность возрастает при уменьшении величины коэффициентов. Интуитивно очевидно, что чем больше сигнал можно сжать при помощи выбранного вейвлет-преобразования, тем меньше коэффициенты вейвлет-образа, и тем эффективнее использование НСВЦ. Иными словами, степень сжимаемости сигнала можно считать мерой эффективности нейронной сети с вейвлет-разложением сигнала.

Представим это интуитивное понимание в более формализованном виде:

Теорема об эффективности нейронных сетей с вейвлет-разложением цели.

Пусть

1) дана система из 2к отсчётов /](Ь), /2(1о), /з(Ь), ••• , /к (?о) некоторой

функции¡(1). Причём /■ (¿о ) = /^о + ■ * ^).

2) Пусть этой системе отсчётов соответствует вейвлет-образ из п уровней разложения и 2к коэффициентов. Обозначим его коэффиценты

как ^у), у е {1,2,...,п,п + 1}, где ^у\(0) при у<п+1 - детализирующие

коэффициенты вейвлет-образа, а d(n+1)(^о) -

приближённая(«огрублённая») версия сигнала/.

3) Введём величины

к(у) Лшах

1

БИр \4у} (о )

ио

(31)

и

ку =

кшх +1

Тогда

если среди коэффициентов существуют такие кШаХ, что кШаХ — 1,

то

градиент построенной на данном вейвлет-разложении нейронной сети с вейвлет-разложением цели больше по абсолютному значению, чем градиент соответствующей базовой ИНС (ИНС, на основе которой построена НСВЦ).

Покажем это.

Градиент целевой функции gradE базовой нейронной сети

gradE

I

t, і

Ґ Л2

dE

dw

v lJ J

Градиент целевой функции НСВЦ gradE ' —

I

l, і

2

dE '

dwt .

V lJ /

Пусть

y і =кіУі •

Тогда из формул 18,20,21 ^ dE M к, y. )

dwt

(33)

(34)

(35)

где

1 - к 2 y 2

M (к, y )- к 2

1 - y2

(36)

При этом из соотношения 30 и утверждения 3 теоремы следует что для любых к,, у,, удовлетворяющих условию задачи,

М (к,, у, )> 1.

(37)

gradE ' —

IlM (к, y,)

l, J

dE

V

dw

iJ J

I m 2 (к,

ry j

dE

l, j

dw

<

li J

<

I

l> j

2

dE

dw,

V lJ J

gradE

(38)

Что и требовалось доказать.

Выводы. Нами показано, что при нахождении областей частотной локализации и проецировании значений нейронной сети на область локализации решения, в достаточно широких рамках можно добиться увеличения градиента (по сравнению с той же ИНС без частотной локализации и модуля обратной вейвлет-проекции), а следовательно, скорости сходимости нейронной сети.

2

2

Литература

1. Tebelskis, J. Speech Recognition using Neural Networks: PhD thesis ... Doctor of Philosophy in Computer Science/ Joe Tebelskis; School of Computer Science, Carnegie Mellon University .Pittsburgh, Pennsylvania, 1995.- 179 c.

2. Handbook of neural network signal processing/ Edited by Yu Hen Hu, Jenq-Neng Hwang.-Boca Raton; London; New York, Washington D.C.: CRC press, 2001.- 384c.

3. Ф.Г. Бойков Применение вейвлет-анализа в задачах автоматического распознавания речи: Дис. ... кандидата физико-математических наук: 05.13.18/ Фёдор Г еннадьевич Бойков.- М, 2003.- 111 с.

4. Добеши И. Десять лекций по вейвлетам.- Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001.- 464 с.

5. Астапов К.А. Применение вейвлет-преобразования для сокращения области значения

искусственных нейронных сетей на примере задачи распознавания речи// Астапов Константин Андреевич. // Электронный научно-инновационный журнал «Инженерный вестник Дона: электронное научное издание № ГОС. РЕГИСТРАЦИИ 0420900096, Ростов-на-Дону: . - 2009. - №1. - регистрационный номер статьи .

6. Червяков Н.И., Астапов К.А. Использование вейвлетов для улучшения параметров нейронных сетей в задачах распознавания речи. // Червяков Николай Иванович; Астапов Константин Андреевич. //Инфокоммуникационные технологии - N° 4. - 2008. - Самара: Издательство ПГУТИ, 2008. - с. - с. 9-12.

i Надоели баннеры? Вы всегда можете отключить рекламу.