Научная статья на тему 'РАЗРАБОТКА НЕЙРОНЕЧЕТКОГО МЕТОДА РАСПОЗНАВАНИЯ ГЛАСНЫХ ЗВУКОВ'

РАЗРАБОТКА НЕЙРОНЕЧЕТКОГО МЕТОДА РАСПОЗНАВАНИЯ ГЛАСНЫХ ЗВУКОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
43
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕРА КОНТРАСТНОСТИ / НЕЙРОННАЯ СЕТЬ / НЕЧЕТКАЯ ЛОГИКА / ГЕНЕТИЧЕСКИЙ АЛГОРИТМ / РАСПОЗНАВАНИЕ ГЛАСНЫХ ЗВУКОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фёдоров Евгений Евгениевич

Общая постановка проблемы На сегодняшний день актуальной является разработка программных компонент, предназначенных для распознавания речи человека, которые могут исполь-зоваться в интеллектуальных компьютерных системах. Анализ исследований Существующие методы и модели распознавания речевых образов обычно ос-нованы на скрытых марковских моделях (СММ), алгоритме динамического программирования DTW и нейросетях и обладают одним или несколькими из перечисленных ниже недостатков [1-7]:; длительность обучения; хранение большого количества эталонов звуков или слов, а также весо-вых коэффициентов; длительность распознавания; неудовлетворительная вероятность распознавания; необходимость большого количества обучающих данных;

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF FUZZY NEURON METHOD TO RECOGNIZE VOWEL SOUNDS

In order to make intellectual computer system in the article there is the proposed method of recognizing vowel sounds based on the measures of the continuous wavelet-transformation contrasts, artificial neural network, fuzzy logic and genetic algorithm. Also the architecture of fuzzy artificial neural network and effective variants of the genetic algorithm operators (reproduction, crossing over, mutation, reduction), that give to account the genetic algorithm stages, were proposed. The developed method was examined on the standard basis of TIMIT.

Текст научной работы на тему «РАЗРАБОТКА НЕЙРОНЕЧЕТКОГО МЕТОДА РАСПОЗНАВАНИЯ ГЛАСНЫХ ЗВУКОВ»

Разработка нейронечеткого

метода распознавания гласных

звуков

Фёдоров Е.Е., доктор технических наук, доцент

Для создания интеллектуальной компьютерной системы в статье был предложен метод распознавания гласных звуков на основе мер кон-трастностей непрерывного вейвлет-преобразования, искусственной нейронной сети, нечеткой логики и генетического алгоритма. Были предложены архитектура нечеткой искусственной нейронной сети и эффективные варианты операторов генетического алгоритма (репродукции, кроссинговера, мутации и редукции), которые позволяют учитывать этапы генетического алгоритма. Разработанный метод был исследован на стандартной базе TIMIT .

• мера контрастности • вейвлет-преобразование • нейронная сеть • нечеткая логика • генетический алгоритм • распознавание гласных звуков

In order to make intellectual computer system in the article there is the proposed method of recognizing vowel sounds based on the measures of the continuous wavelet-transformation contrasts, artificial neural network, fuzzy logic and genetic algorithm. Also the architecture of fuzzy artificial neural network and effective variants of the genetic algorithm operators (reproduction, crossing over, mutation, reduction), that give to account the genetic algorithm stages, were proposed. The developed method was examined on the standard basis of TIMIT.

• contrast measure • wavelet-transformation • neuron network • fuzzy logic • genetic algorithm • recognition of vowels sounds

Общая постановка проблемы

На сегодняшний день актуальной является разработка программных компонент, предназначенных для распознавания речи человека, которые могут использоваться в интеллектуальных компьютерных системах.

Анализ исследований

Существующие методы и модели распознавания речевых образов обычно основаны на скрытых марковских моделях (СММ), алгоритме динамического программирования DTW и нейросетях и обладают одним или несколькими из перечисленных ниже недостатков [1-7]: • длительность обучения; • хранение большого количества эталонов звуков или слов, а также весовых коэффициентов; • длительность распознавания; • неудовлетворительная вероятность распознавания; • необходимость большого количества обучающих данных; 15

РЕЧЕВЫЕ ТЕХНОЛОГИИ / SPEECH TECHNOLOGY 1-2/2015

16

• необходимость идентификации не только параметров, но и структуры модели (идентификация «в большом»).

С другой стороны, для решения различных задач в настоящее время активно развиваются гибридные интеллектуальные системы [8-14], использующие различные модели и методы искусственного интеллекта.

Постановка задач исследования

Для повышения вероятности распознавания речи людей, увеличения скорости обучения и автоматизации процесса определения структуры модели необходимо разработать метод, базирующийся на подходах искусственного интеллекта.

Решение задач и результаты исследований

Нейронечеткий метод распознавания гласных звуков предусматривает:

• формализацию признаков речи;

• создание структуры нейросетевой нечеткой системы распознавания гласных звуков;

• формализацию этапов создания нейросетевой нечеткой системы распознавания гласных звуков;

• построение генетического алгоритма.

1. ФОРМАЛИЗАЦИЯ ПРИЗНАКОВ РЕЧИ

После подавления шумов в речевом сигнале [15] на основе речевых характеристик формируется векторX = (х ... , х.), состоящий из мер контрастностей, впервые примененных Е.Е. Фёдоровым и Т.В. Ермоленко для преобразования и распознавания речи [16-18] и выделяемых посредством непрерывного вейвлет-преобразования с вейвлетом Морле [19]:

2. СТРУКТУРА НЕЙРОСЕТЕВОЙ НЕЧЕТКОЙ СИСТЕМЫ

РАСПОЗНАВАНИЯ ГЛАСНЫХ ЗВУКОВ

Рис. 1. Структура нейросетевой нечеткой системы

Входной (нулевой) слой содержит Л/(0) = N нейронов (соответствует количеству признаков). Первый скрытый слой реализует фаззификацию и содержит №Г) = М нейронов (соответствует количеству значений лингвистических переменных). Второй скрытый слой реализует агрегирование подусловий и содержит .2) = М нейронов (соответствует количеству правил М). Третий скрытый слой реализует активизацию заключений и содержит _М3) = М нейронов. Четвертый скрытый слой реализует агрегирование заключений и

содержит = М нейронов. Выходной слой реализует дефаззификацию и содержит = 1 нейрон.

Все весовые коэффициенты нейросети равны 1.

3. ЭТАПЫ СОЗДАНИЯ НЕЙРОСЕТЕВОЙ НЕЧЕТКОЙ СИСТЕМЫ РАСПОЗНАВАНИЯ ГЛАСНЫХ ЗВУКОВ

Создание нейросетевой нечеткой системы распознавания гласных звуков предусматривает выполнение следующих этапов: формирование базы нечетких правил; фаззификацию; агрегирование подусловий; активизацию заключений; агрегирование заключений; дефаззификацию.

На этапе формирования базы нечетких правилу-е нечеткое правило представим в виде

Я: если х, есть а / и

У 1 1

j е 1, M, i е 1, N,

и хы есть аN, то у есть р .

где х. - имя входной лингвистической переменной;

у - имя выходной лингвистической переменной;

а-> - нечеткая переменная (значение лингвистической переменной х.);

р. - нечеткая переменная (значение лингвистической переменной у);.

Нечеткое множество А. является областью значений нечеткой переменной а> , нечеткое множество В является областью значений нечеткой переменной р.

На этапе фаззификации определим степень истинности .-го подусловия, т.е. установим соответствие между входными переменными х.у-го правила и значениями функции принадлежности ц^У (х.). Поскольку ряд методов, связанных с распознаванием речевых образов, использует функцию Гаусса, то выберем эту функцию в качестве (х.) , т.е.

(x) = exP

1 (x. - mj\

Г—L)

2 V oj '

где ту - математическое ожидание, <з] - среднеквадратичное отклонение.

На этапе агрегирования подусловий функция принадлежности условия для у-го правила определяется в виде _

(-) = ^ (х1)- ^ (х),У е 1М

На этапе активизации заключений функция принадлежности заключения дляу-го правила определяется в виде

(у) = Ца~;(Х)Му),У е 1, М,

0,

У - (j - 0,5) / 0,5 : ^jW = \(j + 0,5) - y

0,5

0,

У < j - 0,5 j - 0,5 < y < j

j < y < j + 0,5 У > j + 0,5

где ц~У(у) - треугольная функция.

17

2

18

На этапе агрегирования заключений функция принадлежности итогового заключения определяется как

цс~(у) = шах^Су), ... , Цё-мОО)-

На этапе дефаззификации для получения номера класса используется метод максимума функции принадлежности

y = arg max ^(z'); j ei, M,

zj

где Z - центр нечеткого множества Cj.

Таким образом, математическую модель нейронечеткой системы распознавания гласных звуков (рис. 1) можно представить в виде

N

y = arg max max ц'^П^ j(x), k e i,M. zk jeiM i=i '

4. ЭТАПЫ ПОСТРОЕНИЯ ГЕНЕТИЧЕСКОГО АЛГОРИТМА

Построение генетического алгоритма предусматривает выполнение следующих этапов [21-25]:

создание исходной популяции; определение фитнесс-функции; задание оператора репродукции (селекции); задание оператора кроссинговера; задание оператора мутации; задание оператора редукции; определение условия останова.

На этапе создания исходной популяции выбраны вещественные гены в силу следующих причин:

• возможность поиска в больших пространствах, что трудно делать в случае двоичных генов, когда увеличение пространства поиска сокращает точность решения при неизменной длине хромосомы;

• способность к локальной настройке решений;

• отсутствие операций кодирования/декодирования, которые необходимы для двоичных генов, повышает скорость работы алгоритма;

• близость к постановке большинства прикладных задач (каждый вещественный ген отвечает за одну переменную или параметр).

В качестве хромосомы, которая представляет 7-ю особь популяции Н = {А.}, выступает упорядоченный вектор параметров (математических ожиданий и среднеквадратичных отклонений)

А. = (1х 1 + [*Ам 1, 1x2 + 1*Ат 2, ... , /х1 + г*Аш1, 1хг + 7*Ада2.

I 4 1 1 ' 1 1 ' ' П И П П'

/х 1 + 7*Ао 1, /х2 + 7*Ао2, ... , /х1 + ^До1 /х2 + 7*Ао2), 7 е 1, 1Н1,

1 1' 1 1' 7 и П П П/7 ' "

Am' = —k k

rxj - lxj

\H\

\ Art = -

rxj - lxj

\H\

j e i,M

где \Н\ - мощность популяции,

/х[, гх>к - левая и правая границы значений к-го признака (гена), вычисленные экспериментально.

На этапе определения фитнесс-функции предложена следующая фитнесс-функ-ция, соответствующая вероятности правильного распознавания

F = P £/(yp, - ■

max, 1(a) — j1 a — 0 ,

mj, o> 0, иначе

где й - тестовый результат распознавания,

ур - результат распознавания, полученный по нейросети,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Р - количество тестовых речевых образцов.

На этапе задания оператора репродукции (селекции) для отбора векторов параметров для скрещивания и мутации в качестве оператора репродукции в статье предложена комбинация случайного и линейно упорядоченного отбора

чи-л) (т)

P(h) —ЯI1 -т) + Я I (a - (2a - 2)

*

где I - номер итерации,

Т - максимальное количество итераций.

Таким образом, на ранних стадиях работы генетического алгоритма используется равновероятный отбор, обеспечивающий исследование всего пространства поиска (случайный выбор хромосом), а на заключительных стадиях используется линейно упорядоченный отбор, делающий поиск направленным (текущие лучшие хромосомы сохраняются). Эта комбинация не требует масштабирования и может использоваться при минимизации фитнесс-функции.

Следует отметить, что автор не использует для вычисления вероятностей Р(И) имитацию отжига, поскольку она требует эмпирического определения значений дополнительных параметров.

На этапе задания оператора кроссинговера для комбинирования двух вариантов вектора параметров, отобранных оператором репродукции, в качестве оператора кроссинговера используется однородный (равновероятный) кроссинговер (гены обоих родителей выбираются с равной вероятностью). Для выбора родителей в статье предложена следующая комбинация - на ранних стадиях работы генетического алгоритма используется аутбридинг (первый родитель выбирается случайно, а второй - как максимально далекий от первого либо как находящийся от первого на расстоянии большем, чем заданное е, в качестве расстояния между родителями используется расстояние Манхеттена), обеспечивающий исследование всего пространства поиска, а на заключительных стадиях используется инбридинг (первый родитель выбирается случайно, а второй - как максимально близкий к первому либо как находящийся от первого на расстоянии меньшем, чем заданное е, в качестве расстояния между родителями используется расстояние Манхеттена), делающий поиск направленным. Эта комбинация не требует масштабирования и может использоваться при минимизации фит-несс-функции. После выбора родителей осуществляется скрещивание, и производятся два потомка.

Вероятность кроссинговера над выбранными родителями на основе аутбридинга определена в виде

pout — P

(1 - T )

где I - номер итерации,

Т - максимальное количество итераций, Р 0 - начальная вероятность кроссинговера.

19

)

p

20

Вероятность кроссинговера над выбранными родителями на основе инбридинга определена посредством имитации отжига в виде

Р'п = р (А )

с 1 со \ т!'

Таким образом, при Р°"' > Р'" кроссинговер над выбранными родителями выполняется на основе аутбридинга, иначе на основе инбридинга.

Следует отметить, что автор не использует для вычисления вероятностей Р°"', Р'сп имитацию отжига, поскольку она требует эмпирического определения значений дополнительных параметров.

Для глобального поиска оптимального вектора параметров необходимо повысить разнообразие вариантов.

На этапе задания оператора мутации для обеспечения разнообразия вариантов вектора параметров после кроссинговера используется неоднородная мутация.

Шаг мутации А определен в виде

r = rand( ), 1 = rand( ), А =

(Max. - h.j)r (l - T)2, 1 < 0,5 - (h.. -Min.) r (l - T)2, 1 > 0,5

где rand( ) - функция, возвращающая равномерно распределенное случайное число в диапазоне [0,1],

Max, Min. ■

максимальное и минимальное значение]-го гена, А - номер итерации,

Т - максимальное количество итераций. Вероятность мутации определена в виде

Р = Р" (' - Т),

где Р0 - начальная вероятность мутации.

Таким образом, на ранних стадиях работы генетического алгоритма с высокой вероятностью происходит мутация с большим шагом, что обеспечивает исследование всего пространства поиска, а на заключительных стадиях вероятность мутации и ее шаг стремятся к нулю, что делает поиск направленным. Для формирования новой популяции на основе предыдущей популяции и векторов параметров, полученных путем кроссинговера и мутации, используется оператор редукции.

Следует отметить, что автор не использует для вычисления вероятности Рт0 имитацию отжига, поскольку она требует эмпирического определения значений дополнительных параметров.

На этапе задания оператора редукции в качестве оператора редукции в статье используется схема (ц + X) (селекционная схема) (особи предыдущей популяции численностью ц и потомки численностью X объединяются и упорядочиваются по значению фитнесс-функции, и в новую популяцию отбирается ц первых лучших особей). Эта схема не требует масштабирования и может использоваться при минимизации фитнесс-функции

На этапе определения условия останова предлагается условие А > Т.

5. ЧИСЛЕННОЕ ИССЛЕДОВАНИЕ НЕИРОНЕЧЕТКОГО МЕТОДА РАСПОЗНАВАНИЯ ГЛАСНЫХ ЗВУКОВ

В табл. 1 приведено сравнение предложенного метода и существующих нейро-сетевых методов на основе базы данных TIMIT. Распознаванию подлежали все гласные звуки. Ошибка распознавания представляет собой отношение количества правильно распознанных фреймов, содержащих звуки (длина каждого фрейма 512 при частоте дискретизации 22050 Гц), к их общему количеству в процентах, при этом фрейм, содержащий конец первого звука и начало второго звука, не учитывался. Ошибка распознавания гласных звуков, приведенная в табл.1, оказалась примерно сопоставима с ошибкой распознавания согласных звуков. Приведенные в табл.1 стандартные нейронные сети были реализованы автором статьи посредством функций Neural Networks Toolbox и Bioinformatics Toolbox пакета Matlab. Исследование позволяет сделать вывод, что авторский метод обеспечивает высокую вероятность распознавания.

Таблица 1

Оценка нейросетевых методов распознавания

Нейронные сети Ошибка распознавания (%)

Машина опорных векторов 15

Самоорганизующаяся карта признаков 12

Многослойный персептрон 10

Нейронная сеть на основе радиально-базисных функций 10

Вероятностная нейронная сеть 8

Авторская 4

ВЫВОДЫ

Новизна. В статье был предложен метод распознавания гласных звуков, базирующийся на методах цифровой обработки сигнала, распознавании речевых образов, нейронных сетях, нечеткой логике и генетическом алгоритме. Этот метод был численно исследован на стандартной базе Т1М1Т и сравнен с известными нейросетевыми методами. Разработанная нейронечеткая система распознавания гласных звуков обладает следующими достоинствами: возможность использования априорной информации (знаний экспертов); представление знаний в виде правил, легко доступных для понимания человеком; возможность быстрого обучения и адаптации; параллельная обработка информации, которая повышает вычислительную мощность; отсутствуют трудности с определением структурой системы; высокая вероятность распознавания. Были предложены эффективные варианты операторов репродукции, кроссинговера и редукции, учитывающие номер итерации генетического алгоритма и повышающие эффективность обучения системы распознавания.

Практическое значение. Основные положения данной работы предназначены для реализации в интеллектуальных компьютерных системах распознавания речи человека.

ЛИТЕРАТУРА

1. Осовский С. Нейронные сети для обработки информации / С. Осовский. - М.:

Финансы и статистика, 2002. - 344 с.

2. Хайкин С. Нейронные сети: полный курс / С. Хайкин. - М.: Издательский дом

«Вильямс», 2006. - 1104 с.

21

Фёдоров Е.Е.

Разработка нейронечеткого метода распознавания гласных звуков

22

3. КалланР. Основные концепции нейронных сетей / Р. Каллан. - М.: Издатель-

ский дом «Вильямс», 2001. - 288 с.

4. RabinerL.R. Fundamentals of speech recognition / L.R. Rabiner, B.H.

Jang. - Englewood Cliffs, NJ: Prentice Hall PTR, 1993. -507 p.

5. Потапова Р.К. Речь: коммуникация, информация, кибернетика / Р.К. Потапо-

ва. М.: Радио и Связь, 1997. 528 с.

6. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов /

Т.К. Винцюк. - К.: Наук. думка, 1987. - 261 с.

7. Федоров Е.Е. Методология создания мультиагентной системы речевого

управления: монография / Е.Е. Федоров. - Донецк: изд-во «Ноулидж», 2011. - 356 с.

8. Комарцова Л.Г. Нейрокомпьютеры / Л.Г. Комарцова, А.В. Максимов. - М.:

Изд-во МГТУ им. Н.Э. Батмана, 2002. - 320 с

9. Intelligent Hybrid Systems: Fuzzy Logic, Neural Networks, and Genetic Algorithm /

Ed. Da Ruan. - Boston: Kluwer Academic Publishers, 1997. - 258 p.

10. Леоненков А.В. Нечеткое моделирование в среде MATLAB и fuzyTECH / А.В.

Леоненков. - СПб.: БХВ-Петербург, 2005. - 736 с.

11. Рутковская Д. Нейронные сети, генетические алгоритмы и нечеткие системы

/ Д. Рутковская, М. Пилиньский, Л.Рутковский. - М.: Горячая линия - Телеком, 2006. - 452 с.

12. Круглов В.В. Искусственные нейронные сети. Теория и практика / В.В. Кру-

глов, В.В. Борисов. - М.: Горячая линия - Телеком, 2002. - 382 с.

13. Штовба С.Д. Проектирование нечетких систем средствами MATLAB / С.Д.

Штовба. - М.: Горячая линия - Телеком, 2007. - 288 с.

14. Федоров Е.Е. Методики интеллектуальной диагностики: монография / Е.Е.

Федоров. - Донецк: изд-во «Ноулидж», 2010. - 303 с.

15. Ермоленко Т.В. Методика подавления цветных шумов в речевом сигнале

/ Т.В. Ермоленко, Е.Е. Федоров // Речевые технологи. - 2009. - №. 3. -С. 3-13.

16. Федоров Е.Е. Модели и методы преобразования речевых сигналов: моногра-

фия / Е.Е. Федоров. - Донецк: изд-во «Норд-Пресс», 2006. - 260 с.

17. Ермоленко Т.В. Исследование признаков, используемых для пофонемного

распознавания, с помощью нейросети // Искусственный интеллект. -2007. - №4. - С. 357-363.

18. Федоров Е.Е. Методика формирования акустических характеристик этало-

нов речи: монография / Е.Е. Федоров. - Донецк: изд-во «Вебер», 2008. -282 с.

19. Малла С. Вэйвлеты в обработке сигналов / С. Малла. - М.: Мир, 2005. - 671 с.

20. Федоров Е.Е. Модели и методы распознавания зрительных образов / Е.Е.

Федоров, Э. Слесорайтите. - Донецк: Изд-во «Ноулидж» (Донецкое отделение), 2013. - 422 с.

21. Evolutionary Computation 1. Basic Algorithms and Operators / Ed. by T. Back, D.

В. Fogel, Z. Michalewicz. - Bristol: IOP Publishing Ltd., 2000 - 377 p.

22. Evolutionary Computation 2. Advanced Algorithms and Operators / Ed. by T.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Back, D. В. Fogel, Z. Michalewicz. - Bristol: IOP Publishing Ltd., 2000 - 304 p.

23. Yu X. Introduction to evolutionary algorithms / X. Yu, M. Gen. - London: Springer-

Verlag, 2010. - 433 p.

24. Скобцов Ю.А. Основы эволюционных вычислений / Ю.А. Скобцов. - Донецк:

ДонНТУ, 2008. - 326 с.

25. Субботн С.О. Нетеративш, еволюцмы та мультиагентн методи синтезу: мо-

нография / С.О. Субботш, А.О. Олмник, О.О. Олмник. - Запорiжжя: ЗНТУ, 2009 - 376 с.

Сведения об авторе: Фёдоров Евгений Евгениевич,

заведующий кафедрой специализированных компьютерных систем Донецкой академии автомобильного транспорта, профессор кафедры автоматизированных систем управления Донецкого национального технического университета, доцент.

В 2012 году защитил докторскую диссертацию в Национальном авиационном университете г. Киева. Автор свыше 110 научных публикаций, в том числе 10 монографий, посвящённых: моделям и методам преобразования и распознавания речевых образов; моделям и методам преобразования и распознавания зрительных образов; моделям и методам анализа и синтеза естественно-языковых объектов; моделям и методам вибрационной и акустической диагностики; интеллектуальным технологиям в логистике, метаэвристикам.

Основная область интересов: идентификация и верификация диктора, распознавание и синтез речи, анализ и синтез естественно-языковых объектов, распознавание лица человека, интеллектуальная вибродиагностика и шумодиагностика, медицинская интеллектуальная диагностика (анализ биосигнала), интеллектуальные технологии в транспортной логистике (поиск оптимального маршрута и мультиагентное взаимодействие), оптимизация числовых функций и комбинаторная оптимизация на основе метаэвристик.

23

i Надоели баннеры? Вы всегда можете отключить рекламу.