Научная статья на тему 'Система распознавания фонетических образов на основе нейросетевой модели восприятия речи'

Система распознавания фонетических образов на основе нейросетевой модели восприятия речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
431
123
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ РЕЧИ / ФОНЕТИЧЕСКИЕ ПРИЗНАКИ / НЕЙРОСЕТЕВАЯ МОДЕЛЬ / АЛГОРИТМ ОБУЧЕНИЯ / SPEECH RECOGNITION / PHONETIC ALPHABET / NEURONET MODEL / LEARNING ALGORITHM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Васильев Е. М., Меренков В. В.

Рассматривается задача синтеза нейросетевой модели распознавания речи на фонетическом уровне языка. Сформирована система фонетических признаков речи, определена конфигурация и оптимальные параметры нейросети, разработан алгоритм обучения. Представлены итоги экспериментальной проверки работоспособности модели и проведён анализ полученных результатов

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

VOWELS RECOGNITION SYSTEM ON THE BASIS OF NEURONET SIMULATION OF SPEECH PERCEPTION

The problem of synthesis neuronet models of speech recognition at a phonetic level of language is considered. The system of phonetic speech attributes is generated, the structure is chosen and optimum parameters neuronet are determined, the algorithm of training is developed. Results of experimental check of serviceability of model are submitted and the analysis of the received results is lead

Текст научной работы на тему «Система распознавания фонетических образов на основе нейросетевой модели восприятия речи»

УДК 681.3

СИСТЕМА РАСПОЗНАВАНИЯ ФОНЕТИЧЕСКИХ ОБРАЗОВ НА ОСНОВЕ НЕЙРОСЕТЕВОЙ МОДЕЛИ ВОСПРИЯТИЯ РЕЧИ

Е.М. Васильев, В.В. Меренков

Рассматривается задача синтеза нейросетевой модели распознавания речи на фонетическом уровне языка. Сформирована система фонетических признаков речи, определена конфигурация и оптимальные параметры нейросети, разработан алгоритм обучения. Представлены итоги экспериментальной проверки работоспособности модели и проведён анализ полученных результатов

Ключевые слова: распознавание речи, фонетические признаки, нейросетевая модель, алгоритм обучения

1. Постановка задачи

Речь как система [1], являясь инструментом удовлетворения информационно-коммуникативных потребностей человеческого сообщества, остаётся в настоящее время наиболее сложной и трудно поддающейся для искусственной реализации компонентой человеко-машинных систем.

В первую очередь это связано с проблемой автоматического распознавания речи, в рамках которой определились три прикладные направления: идентификация голоса; распознавание голосовых команд; собственно распознавание речи - преобразование непрерывных звуковых стимулов (звуков) в грамматически правильный текст.

Наиболее известным подходом к распознаванию речи, хорошо зарекомендовавшим себя в задачах идентификации голоса и голосового управления, является предварительное формирование эталонной базы слов или фраз и последующая, основанная на сравнении с этой базой, идентификация предъявленных звуковых образов статистическими методами на базе скрытых цепей Маркова [2,3]. Однако попытки применения указанного подхода для распознавания непрерывной речи оказались неэффективными [3]. Причина этого заключается в несоответствии искусственных процедур распознавания слов по априорным распределениям вероятности появления их вариативных звуковых признаков естественным процессам преобразования звуковых раздражителей в органах чувств человека в элементы языка и, далее, в их графические или семантические эквиваленты.

Современные представления о языке [4,5] выделяют в нём несколько иерархических уровней внутренней структуры: фонетический, морфологический, лексический и т.д. Распознавание каждого из них осуществляется взаимосвязанно по установленным правилам языка, но начальным уровнем членения речи, несущим в себе соответствующие устойчивые признаки языка, принят её фонетический строй [6]. В свою очередь, ключевыми призна-

Васильев Евгений Михайлович - ВГТУ, канд. техн. наук, ст. науч. сотрудник, E-mail vgtu-aits@yandex.ru, тел. (4732)437776

Меренков Виталий Владимирович - ВГТУ, студент, E-mail vgtu-aits@yandex.ru, тел. (4732)437720

ками фонем, обеспечивающими их распознавание даже в условиях сильных речевых искажений, являются гласные звуки [7].

Физиологической основой процесса распознавания речи человека является деятельность его нервной системы с соответствующими периферийными органами, непосредственно воспринимающими звуковое давление. В связи с этим, принципиально иным, по сравнению со скрытыми цепями Маркова, и перспективным направлением разработок систем распознавания следует признать использование искусственных нейронных сетей.

В соответствии с изложенным, в настоящей работе представлен опыт построения системы распознавания фонетических образов на основе нейро-сетевой модели восприятия речи.

2. Формирование системы признаков элементов речи

Выбранная в работе нейросетевая концепция моделирования процесса восприятия речи определяет собою способ формирования системы признаков её элементов на основе анализа звуковых раздражителей, которые используются в естественном - кор-тиевом органе слуха человека. Известные свойства кортиева органа [8] свидетельствуют об избирательной чувствительности его волосковых клеток к спектральным составляющим звукового давления, причём степень возбудимости этих клеток нелинейно зависит от значения этого давления. Экспериментальное исследование спектрального состава звуков речи для голосов различного диапазона (баритон, тенор, контральто, рис. 1) указывает на достаточность использования для распознавания диапазона частот Д^= /н.../е=300...2400 Гц, заключающего в себя основную энергию звуковых колебаний. Этот результат хорошо совпадает с известным в телефонии частотным диапазоном разборчивой речи [9].

Таким образом, общая последовательность формирования признаков элементов речи, необходимых для функционирования нейросети, должна содержать:

дискретизацию непрерывного сигнала; разложение сигнала в спектр; выбор необходимого ряда спектральных составляющих.

В соответствии с теоремой Котельникова для цифровой обработки непрерывного исходного звукового сигнала, получаемого с пьезоэлектрического

преобразователя давления (ППД), использовалась частота квантования по времени f.e=44100 Гц

Звук [a]

(fKe~20fe) и 16-битная дискретизация по уровню А. Звук [о] Звук [у]

А

Контральто

А

Тенор

А

Баритон

300

1280

1280

2260

2260 300 1280 2260 300

/, Гц

Рис. 1. Экспериментальный анализ некоторых звуков для голосов различного частотного диапазона

Спектральное разложение речевого сигнала x(t) осуществлялось на основе дискретного оконного преобразования Фурье:

N-1

x(d,ю) = ^ x(k)h(k - d)e~]юк , k=0

в котором применяется операция умножения сигнала на окно h(k-d) в виде функции Хэмминга:

2nk

h(k) = 0,53836 - 0,46164cos|

Звук

-1,

где ю=2л/ - частота спектра; ё -сдвиг окна.

В результате экспериментов с вариантами звуков различного тембра и длительности произношения были найдены оптимальные по критериям временного и частотного разделения значения параметров оконного преобразования для полосы частот ДР=300...2400 Гц и частоты дискретизации /=44100 Гц: ширина окна 4096 элементов; коэффициент перекрытия окна 0,875. Разрешающая способность кортиева органа по различению соседних частот в диапазоне ниже 500 Гц составляет 1%, в диапазоне 500-4000 Гц -0,2...0,3%, в области более высоких частот - около 0,5%. В соответствии с этими физиологическими показателями для рассматриваемого диапазона ДР использован интервал квантования по частоте Дґ=10-15 Гц, применение которого определило число входов нейросети и=172.

Общая схема изложенного способа формирования системы признаков элементов речи представлена на рис. 2.

Рис. 2. Схема формирования системы признаков элементов речи

3. Выбор конфигурации и параметров нейросети

В соответствии с теоремой о полноте [10-13] для любого множества входных и выходных векторов [ху] произвольной размерности можно построить двухслойную однородную нейронную сеть с последовательными связями и сигмовидными функциями активации:

ф(w, Ъ>х) = ---77X717 , (1)

-(wx+b)

где м>,Ъ - постоянный параметры этой функции; с конечным числом нейронов в каждом слое, которая для входного вектора х формирует соответствующий ему вектор у.

Таким образом, согласно этой теореме и исходя из принципа постепенного усложнения модели была выбрана двухслойная сеть с функциями активации вида (1), числом входов п=172 и числом выходов, или числом выходных нейронов т=6, равным количеству анализируемых гласных звуков [а], [е], [и], [о], [у], [ы].

Таблица 1

Сравнительный анализ нейросетей с различным числом нейронов в первом скрытом слое

Количество нейронов в скрытом слое Фонема Процент распознавания

Обучающая выборка Контрольная выборка

3 А 100 90

Е 0 0

И 100 100

О 100 100

У 0 0

Ы 0 0

6 А 100 30

Е 100 0

И 100 10

О 95 100

У 90 40

Ы 100 80

18 А 100 100

Е 90 100

И 100 0

О 95 100

У 90 100

Ы 100 100

50 А 100 70

Е 100 0

И 100 0

О 100 40

У 100 100

Ы 100 100

Рекомендации [10-13] по определению числа нейронов в первом активном слое:

где

тМ (М V

-----------< Ьъ < т|----711(п + т +1) + т ,

1 + ^2 М ^ т )

М - мощность обучающей выборки М=140; приводят к широкому диапазону значений Ь:

0,6 < Ь < 147,

и было предпринято исследование нескольких вариантов сетей с различным Ь (табл. 1). Лучшему варианту в табл. 1 соответствует значение Ь=18.

Структура сформированной нейросетевой модели представлена на рис. 3.

300 Гц 312 Гц 2400 Гц

L =

L

b

n + m

Рис. 3. Общая структура нейросетевой модели распознавания фонем

На структуре рис. 3 показано, что компонента спектра с частотой 300 Гц подаётся на вход х1 сети, с частотой 312 Гц - на вход х2 и т.д., до частоты 2400 Гц, поступающей на вход х172. Каждый из шести выходов сети определяет соответствующую компоненту вектора у - одну из фонем.

4. Обучение сети

На этапе обучения сети решались две задачи:

синтез критерия обучения нейросети;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

выбор и настройка алгоритма обучения.

В качестве критерия качества обучения сети наиболее широко используется евклидова метрика Е:

E = ZZ (Ущ - Уsjsm )2 ^ min , (2)

s j

где j = 1,6 - номер выхода; уэт - предъявляемый для обучения эталонный вектор выхода, например ущ1эт=[1 0 0 0 0 0]Т соответствует фонеме А, аущ2эт=[0 1 0 0 0 0]Т - фонеме Е; s - номер обучающей выбор-

ки;

Г 18 г 172 ^ \

У] =Ф У w 2 . ^ ]2 & У w1 . Xj + b 1 12i 1 1 1 i 2 2] b+

2 1 U=1 J J

Исследование критерия Е (2) в рассматриваемой задаче показало, что максимальное число правильных распознаваний по контрольной выборке не соответствует минимуму Е и достигается в ходе обучения раньше, чем алгоритм находит экстремум вида (2).

Наиболее характерные для данного анализа варианты обучения представлены в табл. 2, где доля решений R с правильным распознавания вычислялась по выражению:

m

М - Z 0,5 Z (ysj, Уфт)mod 2

R =------s-----—--------------------> max , (3)

М

в котором (ySj,ySj3m)mo&2 - остаток от деления на два арифметической суммы ysj и ysJ3m (сумма по модулю 2);

{1, если ysj = max ys]-; j

0, если иначе;

R=[0;1].

Таблица 2

Сравнительный анализ критериев обучения

Количество циклов обучения Ошибка Е (2) Доля R (3) правильного распознавания

5 0,61 0,45

10 0,42 0,50

15 0,40 0,56

20 0,13 0,60

25 0,11 0,55

30 0,10 0,35

При экспериментальном выборе алгоритма обучения была зафиксирована низкая эффективность широко апробированного градиентного метода обратного распространения ошибки при поиске глобального экстремума полимодальных функций от большого числа переменных - неизвестных параметров w и Ь функции активации (представленный на рис. 3 вариант сети содержит 3228 неизвестных параметров). В связи с этим для обучения сети был использован алгоритм имитации отжига [14] в следующей интерпретации:

1. Формируется произвольный вариант нейросети со случайно выбранными значениями искомых весовых коэффициентов ^ и Ь. Для контрольной выборки вычисляется критерий Я, г=0 по выражению (3), (здесь г - номер шага алгоритма обучения имитацией отжига).

2. Путём случайного изменения коэффициентов и Ь на некоторые малые величины ±А^ и ±АЬ

формируется новый вариант сети с критерием Яг+1.

3. Если приращение критерия АЯ^Я^-Я, неотрицательное, т.е. АЯг>0, то вариант г сети заменяется на вариант г+1, и алгоритм переходит на п.4.

Если АЯ<0, то вычисляется вероятность рг возникновения разрешённого прироста “энергии” |АЯг|:

Д Ъ

Т

р I = е г ,

где Т - параметр алгоритма, являющийся аналогом текущей температуры отжига; и проверяется условие: Рг > Н , (4)

в котором Н - значение установленного порога вероятности рг, Н=0,2.

Выполнение условия (4) означает, что полученное на данном шаге случайное приращение энергии (приращение модуля АЯг) расположено в пределах энергетического распределения частиц (значений коэффициентов w и Ь), соответствующего текущей температуре (параметру алгоритма Т). В этом случае, несмотря на уменьшение Я, новый ( г+1)-ый вариант системы заменяет собою предшествующий вариант .

При невыполнении условия (4) вариант г сохраняется и ему присваивается номер +1.

4. Проверяется условие окончания поиска: Яг>Ятт - достижение заданного значения доли правильных распознаваний.

Если это условие не выполняется, то алгоритм продолжается с п.2 с меньшим значением параметра Т+1<Т для другой серии обучающих образов мощностью М, при этом Т^уТ+ь - где у=0,999.

Качественный характер изменения критерия Я при обучении сети алгоритмом имитации отжига представлен на рис. 4 и отражает принципиальную особенность этого алгоритма: в процессе обучения при общей тенденции к улучшению Я допускается возможность временного ухудшения критерия. Эта особенность алгоритма препятствует преждевременному завершению обучения в локальном экстремуме.

Число шагов алгоритма отжига

Рис. 4. Иллюстрация качественных особенностей обучения сети алгоритмом отжига

Настраиваемыми параметрами алгоритма, существенно влияющими на его сходимость к области глобального экстремума, являются начальная “температура” Т; значения приращений +Аw и ±АЬ (в рассматриваемой задаче принималось Аw =

АЬ=0,001); порог Н вероятности возникновения разрешённого прироста “энергии”; коэффициент у, определяющий скорость “остывания” процесса.

В ходе экспериментальных исследований разработанного алгоритма обучения была обнаружена целесообразность проведения повторных циклов обучения начиная не с произвольного случайного варианта сети, а с тех значений параметров w и Ь, с которыми был завершён предшествующий поиск. При этом начало нового цикла обучения определится только восстановлением начального значения “температуры” Т.

5. Анализ результатов эксперимента

Проверка работоспособности системы осуществлялась по критерию (3) на наборе гласных звуков, произносимых дикторами, участвовавших (критерий Я1) и не участвовавших (критерий Я2) в составлении обучающих и контрольных выборок. Для нескольких обученных вариантов системы средние значения этих величин составили Я1=0,96 и Я2= 0,83 (см., например, табл. 1).

Полученное соотношение между Я1 и Я2 отражает общую проблему обучения существующих нейросетевых моделей: склонность к переобучению, приводящему к потере обобщающих свойств сети. Причина этого явления заключается в принципиальном различии традиционно используемого пассивного характера обучения, при котором каждый новый обучающий пример в общем случае ухудшает результаты предшествующего обучения, свойству активности естественных нейронных сетей, заключающемуся в непрерывной структурной и параметрической перенастройки сети с целью сохранения и обновления накопленных результатов обучения в условиях открытого обмена информацией с внешней средой.

Преодоление этого несоответствия составляет

основное содержание перспективных исследований

в области синтеза искусственных нейронных сетей.

Литература

1. Галунов В.И. Речь как система / В.И. Галунов // Акустика речи. Медицинская и биологическая акустика: тр. XIII сессии РАО. Т.3. - М.: ГЕОС, 2003. - С. 19-21.

2. Rabiner L.R. A tutorial in hidden Markov models and selected applications in speech recognition / L.R. Rabiner // Proceedings of the IEEE. - 1989. - V.77. - №2. -P..257-285.

3. Галунов В.И. Современные проблемы в области распознавания речи / В.И. Галунов, А.Н. Соловьёв // Информационные технологии и вычислительные системы. - 2004. - №2. - С. 41-45.

4. Маслов Ю.С. Введение в языкознание / Ю.С. Маслов.

- М.: Academia, 2007. - 303 с.

5. Апресян Ю.Д. Идеи и методы современной структурной лингвистики / Ю.Д. Апресян. - М.: Просвещение, 1966. - 305 с.

6. Гарбарук В.И. Акустическая теория речеобразования и система фонетических признаков / В.И. Гарбарук, В.И. Галунов // Материалы Межд. конгресса “100 лет экспериментальной фонетике в России”. - С-Пб.: С-ПбГТУ, 2001. - С. 58-62.

7. Кочаров Д.А. Моделирование систем автоматического распознавания гласных в шуме (на материале русского языка) / Д.А. Кочаров // Сб. тр. С-ПбГТУ “Фонетический лицей”. - С-Пб.: С-ПбГТУ, 2004. - С. 214-226.

8. Яковлев В.Н. Нормальная физиология / В.Н. Яковлев.— Воронеж: Изд-во им. Е.А. Болховитинова, 2005.

- 528 с.

9. Балахничев И.Н. Практическая телефония / И.Н. Ба-лахничев, А.В. Дрик. - М.: ДМК, 2000. - 96 с.

10. Калан Р. Основные концепции нейронных сетей / Р. Калан. - М., С-Пб, Киев: Вильямс, 2003. - 287 с.

11. Круглов В.В. Искусственные нейронные сети. Теория и практика / В. В. Круглов. - М.: Горячая линия -Телеком, 2001. - 382 с

12. Дли М.И. Нечёткая логика и искусственные нейронные сети / М.И. Дли, В.В. Круглов. - М.: Физматлит, 2001. - 224 с.

13. Kirkpatrick S., Gelatt C. D., Vecchi M. P. Optimization by simulated annealing / S. Kirkpatrick, C.D. Gelatt, M.P. Vecchi // Science. - 1983. - V.220. - P. 671-680.

Воронежский государственный технический университет

VOWELS RECOGNITION SYSTEM ON THE BASIS OF NEURONET SIMULATION OF SPEECH PERCEPTION

E.M. Vasilyev, V.V. Merenkov

The problem of synthesis neuronet models of speech recognition at a phonetic level of language is considered. The system of phonetic speech attributes is generated, the structure is chosen and optimum parameters neuronet are determined, the algorithm of training is developed. Results of experimental check of serviceability of model are submitted and the analysis of the received results is lead

Key words: speech recognition, phonetic alphabet, neuronet model, learning algorithm

i Надоели баннеры? Вы всегда можете отключить рекламу.