Научная статья на тему 'РАЗРАБОТКА НЕЙРОНЕЧЁТКОГО МЕТОДА РАСПОЗНАВАНИЯ ГЛАСНЫХ ЗВУКОВ'

РАЗРАБОТКА НЕЙРОНЕЧЁТКОГО МЕТОДА РАСПОЗНАВАНИЯ ГЛАСНЫХ ЗВУКОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
15
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЕ / НЕЙРОННАЯ СЕТЬ / НЕЧЁТКАЯ ЛОГИКА / ГЕНЕТИЧЕСКИЙ АЛГОРИТМ / РАСПОЗНАВАНИЕ ГЛАСНЫХ ЗВУКОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фёдоров Евгений Евгениевич

Для создания интеллектуальной компьютерной системы в статье предложен метод распознавания гласных звуков на основе мер контрастностей непрерывного вейвлет-преобразования, искусственной нейронной сети, нечёткой логики и генетического алгоритма. Автором разработаны архитектура нечёткой искусственной нейронной сети и эффективные варианты операторов генетического алгоритма (репродукции, кроссинговера, мутации и редукции), которые позволяют учитывать этапы генетического алгоритма. Разработанный метод был исследован на стандартной базе TIMIT.Vowels recognition method to create intelligent computer system is described in the article. It is based on measures of contrasting the continuous wavelet transform, artificial neural networks, fuzzy logic and genetic algorithm. The architecture of fuzzy artificial neural network and efficient operators of genetic algorithm (reproduction, crossover, mutation and reduction) have been proposed also. These operators allow for the steps of the genetic algorithm. The developed method has been tested for TIMIT database.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «РАЗРАБОТКА НЕЙРОНЕЧЁТКОГО МЕТОДА РАСПОЗНАВАНИЯ ГЛАСНЫХ ЗВУКОВ»

РАЗРАБОТКА НЕЙРОНЕЧЁТКОГО МЕТОДА РАСПОЗНАВАНИЯ ГЛАСНЫХ ЗВУКОВ

Фёдоров Е.Е.

Для создания интеллектуальной компьютерной системы в статье предложен метод распознавания гласных звуков на основе мер контрастно-стей непрерывного вейвлет-преобразования, искусственной нейронной сети, нечёткой логики и генетического алгоритма. Автором разработаны архитектура нечёткой искусственной нейронной сети и эффективные варианты операторов генетического алгоритма (репродукции, кроссинговера, мутации и редукции), которые позволяют учитывать этапы генетического алгоритма. Разработанный метод был исследован на стандартной базе TIMIT.

• мера контрастности • вейвлет-преобразование • нейронная сеть

• нечёткая логика • генетический алгоритм • распознавание гласных звуков

Vowels recognition method to create intelligent computer system is described in the article. It is based on measures of contrasting the continuous wavelet transform, artificial neural networks, fuzzy logic and genetic algorithm. The architecture of fuzzy artificial neural network and efficient operators of genetic algorithm (reproduction, crossover, mutation and reduction) have been proposed also. These operators allow for the steps of the genetic algorithm. The developed method has been tested for TIMIT database.

• measures of contrasting •wavelet transform •artificial neural networks

• fuzzy logic •genetic algorithm •vowels recognition

Общая постановка проблемы

На сегодняшний день актуальной является разработка программных компонент, предназначенных для распознавания речи человека, которые могут использоваться в интеллектуальных компьютерных системах.

47

Анализ исследований

Существующие методы и модели распознавания речевых образов обычно основаны на скрытых марковских моделях (СММ), алгоритме динамического программирования DTW и нейросетях и обладают одним или несколькими из перечисленных ниже недостатков [1-7]:

- длительность обучения;

- хранение большого количества эталонов звуков или слов, а также весовых коэффициентов;

- длительность распознавания;

- неудовлетворительная вероятность распознавания;

- необходимость большого количества обучающих данных;

- необходимость идентификации не только параметров, но и структуры модели (идентификация «в большом»).

С другой стороны, для решения различных задач в настоящее время активно развиваются гибридные интеллектуальные системы [8-14], использующие различные модели и методы искусственного интеллекта.

Постановка задач исследования

Для повышения вероятности распознавания речи людей, увеличения скорости обучения и автоматизации процесса определения структуры модели необходимо разработать метод, базирующийся на подходах искусственного интеллекта.

Решение задач и результаты исследований

Нейронечёткий метод распознавания гласных звуков предусматривает:

- формализацию признаков речи;

- создание структуры нейросетевой нечёткой системы распознавания гласных звуков;

- формализацию этапов создания нейросетевой нечёткой системы распознавания гласных звуков;

- построение генетического алгоритма.

1. Формализация признаков речи

После подавления шумов в речевом сигнале [15] на основе речевых характеристик формируется вектор, состоящий из мер контрастностей, впервые применённых Е.Е. Фёдоровым и Т.В. Ермоленко для преобразования и распознавания речи [16-18] и выделяемых посредством непрерывного вейвлет-преобразования с вейвлетом Морле [19].

48

2. Структура нейросетевой нечёткой системы распознавания гласных звуков

Нейросетевая нечёткая система распознавания гласных звуков, предложенная автором, обладает следующими достоинствами: возможность использования априорной информации (знаний экспертов); представление зна-

ний в виде правил, легко доступных для понимания человеком; возможность быстрого обучения и адаптации; параллельная обработка информации, которая повышает вычислительную мощность; отсутствуют трудности с определением структуры сети.

В качестве структуры нейросетевой нечёткой системы берётся нерекуррентная пятислой-ная нечёткая нейронная сеть (рис. 1) [20], ранее предложенная Е.Е. Фёдоровым и Э. Слесорайтите для распознавания зрительных образов.

1 м z z

Рис. 1. Структура нейросетевой нечёткой системы

Входной (нулевой) слой содержит Л(0)=Л нейронов (соответствует количеству признаков). Первый скрытый слой реализует фаззификацию и содержит Л(1)=ЫМ нейронов (соответствует количеству значений лингвистических переменных). Второй скрытый слой реализует агрегирование подусловий и содержит Л(2)=Ы нейронов (соответствует количеству правил ^.Третий скрытый слой реализует активизацию заключений и содержиЛ^^2 нейронов. Четвёртый скрытый слой реализует агрегирование заключений и содержит Л(4)=Ы нейронов. Выходной слой реализует дефаззификацию и содержит Л(5)=1 нейрон.

Все весовые коэффициенты нейросети равны 1.

3. Этапы создания нейросетевой нечеткой системы распознавания гласных звуков

Создание нейросетевой нечёткой системы распознавания гласных звуков предусматривает выполнение следующих этапов:

- формирование базы нечётких правил;

- фаззификация;

- агрегирование подусловий;

- активизация заключений;

- агрегирование заключений;

- дефаззификация.

Представим]-е нечёткое правило в виде

Й: ЕСЛИ х1 есть а/ И ... И хм есть а N ТО у есть в1, 1 е 1, М , I е 1, N, где у - имя входной лингвистической переменной;

49

IllnlAii n

50

у - имя выходной лингвистическом переменной;

а1 - нечёткая переменная (значение лингвистической переменной х 1);

в1 - нечёткая переменная (значение лингвистической переменной у );.

Нечёткое множество Л- является областью значений нечёткой переменной а1, нечёткое множество Б] является областью значений нечёткой переменной в1.

На этапе фаззификации определим степень истинности / -го подусловия, то есть установим соответствие между входными переменными х { / -го правила и значениями функции принадлежности Д л/ (х-). Поскольку ряд методов, связанных с распознаванием речевых образов, использует функцию Гаусса, то выберем эту функцию в качестве Д л/ (х^), то есть

1 xi - m ■

Ц ~j (X) = exP

где т- - математическое ожидание, с1 - среднеквадратичное отклонение.

На этапе агрегирования подусловий функция принадлежности условия для/-го правила определяется в виде

1 (X) = Д ()."Да!„ (хп), 1 е 1,м

На этапе активизации заключений функция принадлежности заключения для /-го правила определяется в виде

j(У) = j(x Цj(У), j е 1, М, j е 1, М

Ц(У) =

0,

У - (j - 0.5)

0.5

(j + 0.5) - y

0.5

0,

У < j - 0.5 j - 0.5 < y < j

j < y < j + 0.5 У > j + 0.5

где Ц~j (y) - треугольная функция.

На этапе агрегирования заключений функция принадлежности итогового заключения определяется как

Дс(у) = тах(Дс(УХ-, Д(у)

CM

2

2

Ч i J

Фёдоров Е.Е. Разработка нейронечёткого метода распознавания гласных звуков

На этапе дефаззификации для получения номера класса используется метод максимума функции принадлежности

у = аг§шах¡¿(г1), у е 1,М,

где I1 - центр нечёткого множества С1 .

Таким образом, математическую модель нейронечёткой системы распознавания гласных звуков (рис. 1) можно представить в виде

N у = шах шах (2к )П л (X), к е 1 , М• г=1

4. Этапы построения генетического алгоритма

Построение генетического алгоритма предусматривает выполнение следующих этапов [21-25]:

- создание исходной популяции; - определение фитнесс-функции; - задание оператора репродукции (селекции); - задание оператора кроссинговера; - задание оператора мутации; - задание оператора редукции; - определение условия останова.

На этапе создания исходной популяции выбраны вещественные гены в силу следующих причин:

- возможность поиска в больших пространствах, что трудно делать в случае двоичных генов, когда увеличение пространства поиска сокращает точность решения при неизменной длине хромосомы;

- способность к локальной настройке решений;

- отсутствие операций кодирования/декодирования, которые необходимы для двоичных генов, повышает скорость работы алгоритма;

- близость к постановке большинства прикладных задач (каждый вещественный ген отвечает за одну переменную или параметр).

В качестве хромосомы, которая представляет 7-ю особь популяции Н={К}, выступает упорядоченный вектор параметров (математических ожиданий и среднеквадратичных отклонений)

где | Н | - мощность популяции,

Х, гх[ - левая и правая границы значений ^го признака (гена), вычисленные экспериментально. 51

52

На этапе определения фитнесс-функции предложена следующая фит-несс-функция, соответствующая вероятности правильного распознавания:

где dp- тестовый результат распознавания,

ур - результат распознавания, полученный по нейросети,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Р - количество тестовых речевых образцов.

На этапе задания оператора репродукции (селекции) для отбора векторов параметров для скрещивания и мутации в качестве оператора репродукции в статье предложена комбинация случайного и линейно упорядоченного отбора

где ^ - номер итерации,

т) = _!_Г1 -1] +_1_(а - (2а - 2)-^-]( 1

|ЯК Т) \И\{ \H\-1 Д т

Т - максимальное количество итераций.

Таким образом, на ранних стадиях работы генетического алгоритма используется равновероятный отбор, обеспечивающий исследование всего пространства поиска (случайный выбор хромосом), а на заключительных стадиях используется линейно упорядоченный отбор, делающий поиск направленным (текущие лучшие хромосомы сохраняются). Эта комбинация не требует масштабирования и может использоваться при минимизации фитнесс-функции.

Следует отметить, что автор не использует для вычисления вероятностей Рф) имитацию отжига, поскольку она требует эмпирического определения значений дополнительных параметров.

На этапе задания оператора кроссинговера для комбинирования двух вариантов вектора параметров, отобранных оператором репродукции, в качестве оператора кроссинговера используется однородный (равновероятный) кроссинговер (гены обоих родителей выбираются с равной вероятностью). Для выбора родителей в статье предложена следующая комбинация - на ранних стадиях работы генетического алгоритма используется аутбридинг (первый родитель выбирается случайно, а второй - как максимально далёкий от первого либо как находящийся от первого на расстоянии большем, чем заданное е, в качестве расстояния между родителями используется расстояние Манхеттена), обеспечивающий исследование всего пространства поиска, а на заключительных стадиях используется инбридинг (первый родитель выбирается случайно, а второй - как максимально близкий к первому либо как находящийся от первого на расстоянии меньшем, чем заданное е, в качестве расстояния между родителями используется расстояние Манхеттена), делающий поиск направленным. Эта комбинация не требует масштабирования и может использоваться при минимизации фитнесс-функции. После выбора родителей осуществляется скрещивание, и производятся два потомка.

Фёдоров Е.Е. Разработка нейронечёткого метода распознавания гласных звуков

Вероятность кроссинговера над выбранными родителями на основе аутбридинга определена в виде

р out c = pc011 - 7 J

где t - номер итерации,

T - максимальное количество итераций,

Рс0 - начальная вероятность кроссинговера.

Вероятность кроссинговера над выбранными родителями на основе инбридинга определена посредством имитации отжига в виде

pn c = Pc0 [ T J

Таким образом, при Р°ии > кроссинговер над выбранными родителями выполняется на основе аутбридинга, иначе на основе инбридинга.

т\оШ туп Следует отметить, что автор не использует для вычисления вероятностей Рс , Рс имитацию отжига, поскольку она требует эмпирического определения значений дополнительных параметров.

Для глобального поиска оптимального вектора параметров необходимо повысить разнообразие вариантов.

На этапе задания оператора мутации для обеспечения разнообразия вариантов вектора параметров после кроссинговера используется неоднородная мутация.

Шаг мутации А определён в виде r = rand(),A = rand(), А = (Maxj - h )r[1- TJ , Л< 0.5 - (h - Minj )r- Tj , л> 0.5

где гапсК) - функция, возвращающая равномерно распределённое случайное число в диапазоне [0,1],

Мах, Мщ - максимальное и минимальное значение /-го гена,

t - номер итерации,

T - максимальное количество итераций

Вероятность мутации определена в виде

P m = Pm0 [l - - J

где Р0 - начальная вероятность мутации.

Таким образом, на ранних стадиях работы генетического алгоритма с высокой вероятностью происходит мутация с большим шагом, что обеспечивает исследование всего пространства поиска, а на заключительных стадиях вероятность мутации и её шаг стремятся к нулю, что делает поиск направленным. Для формирования новой популяции на основе предыдущей популяции и векторов параметров, полученных путём кроссинговера и мутации, используется оператор редукции. 53

Следует отметить, что автор не использует для вычисления вероятности Рт0 имитацию отжига, поскольку она требует эмпирического определения значений дополнительных параметров.

На этапе задания оператора редукции в качестве оператора редукции в статье используется схема (д + X) (селекционная схема) (особи предыдущей популяции численностью д и потомки численностью X объединяются и упорядочиваются по значению фитнесс-функции, и в новую популяцию отбирается д первых лучших особей). Эта схема не требует масштабирования и может использоваться при минимизации фит-несс-функции.

На этапе определения условия останова предлагается условие (>Т.

5.Численноеисследованиенейронечёткого метода распознавания гласных звуков

В табл. 1 приведено сравнение предложенного метода и существующих ней-росетевых методов на основе базы данных Т1М1Т. Распознаванию подлежали все гласные звуки. Ошибка распознавания представляет собой отношение количества правильно распознанных фреймов, содержащих звуки (длина каждого фрейма 512 при частоте дискретизации 22050 Гц), к их общему количеству в процентах, при этом фрейм, содержащий конец первого звука и начало второго звука, не учитывался. Ошибка распознавания гласных звуков, приведённая в табл.1, оказалась примерно сопоставима с ошибкой распознавания согласных звуков.

Таблица 1

Оценка нейросетевых методов распознавания

Приведённые в табл.1 стандартные нейронные сети были реализованы автором статьи посредством функций Neural Networks Toolbox и Bioinformatics Toolbox пакета Matlab. Исследование позволяет сделать вывод, что авторский метод обеспечивает высокую вероятность распознавания.

Нейронные сети Ошибка распознавания (%)

Машина опорных векторов 15

Самоорганизующаяся карта признаков 12

Многослойный персептрон 10

Нейронная сеть на основе радиально-базисных функций 10

Вероятностная нейронная сеть 8

Авторская 4

54

Выводы

Новизна. В статье предложен метод распознавания гласных звуков, базирующийся на методах цифровой обработки сигнала, распознавании речевых обра-

зов, нейронных сетях, нечёткой логике и генетическом алгоритме. Этот метод был численно исследован на стандартной базе Т1М1Т и сравнен с известными нейросетевыми методами. Разработанная нейронечёткая система распознавания гласных звуков обладает следующими достоинствами: возможность использования априорной информации (знаний экспертов); представление знаний в виде правил, легко доступных для понимания человеком; возможность быстрого обучения и адаптации; параллельная обработка информации, которая повышает вычислительную мощность; отсутствие трудностей с определением структуры системы; высокая вероятность распознавания. Предложены эффективные варианты операторов репродукции, кроссинговера и редукции, учитывающие номер итерации генетического алгоритма и повышающие эффективность обучения системы распознавания.

Практическое значение. Основные положения данной работы предназначены для реализации в интеллектуальных компьютерных системах распознавания речи человека.

Литература

1. Осовский С. Нейронные сети для обработки информации / С. Осовский. — М.: Финансы и статистика, 2002. — 344 с.

2. Хайкин С. Нейронные сети: полный курс / С. Хайкин. — М.: Издательский дом «Вильямс», 2006. — 1104 с.

3. Каллан Р. Основные концепции нейронных сетей / Р. Каллан. — М.: Издательский дом «Вильямс», 2001. — 288 с.

4. Rabiner L.R. Fundamentals of speech recognition / L.R. Rabiner, B.H. Jang. — Englewood Cliffs, NJ: Prentice Hall PTR, 1993. — 507 p.

5. Потапова Р.К. Речь: коммуникация, информация, кибернетика / Р.К. Потапова. М.: Радио и Связь, 1997. — 528 с.

6. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов / Т.К. Винцюк. — К.: Наук. думка, 1987. — 261 с.

7. Фёдоров Е.Е. Методология создания мультиагентной системы речевого управления: монография / Е.Е. Фёдоров. — Донецк: изд-во «Ноулидж», 2011. — 356 с.

8. Комарцова Л.Г. Нейрокомпьютеры / Л.Г. Комарцова, А.В. Максимов. — М.: Изд-во МГТУ им. Н.Э. Батмана, 2002. — 320 с.

9. Intelligent Hybrid Systems: Fuzzy Logic, Neural Networks, and Genetic Algorithm / Ed. Da Ruan. — Boston: Kluwer Academic Publishers, 1997. — 258 p.

10. Леоненков А.В. Нечёткое моделирование в среде MATLAB и fuzyTECH / А.В. Леоненков. — СПб.: БХВ-Петербург, 2005. — 736 с.

11. Рутковская Д. Нейронные сети, генетические алгоритмы и нечеткие системы / Д. Рутковская, М. Пилиньский, Л. Рутковский — М.: Горячая линия —Телеком, 2006. — 452 с.

12. Круглов В.В. Искусственные нейронные сети. Теория и практика / В.В. Круглов,

B.В. Борисов. — М.: Горячая линия — Телеком, 2002. — 382 с.

13. Штовба С.Д. Проектирование нечётких систем средствами MATLAB / С.Д. Штовба. - М.: Горячая линия — Телеком, 2007. — 288 с.

14. Фёдоров Е.Е. Методики интеллектуальной диагностики: монография / Е.Е. Фёдоров. — Донецк: изд-во «Ноулидж», 2010. — 303 с.

15. Ермоленко Т.В. Методика подавления цветных шумов в речевом сигнале / Т.В. Ермоленко, Е.Е. Фёдоров // Речевые технологи. — 2009. — №. 3. — С. 3-13.

16. Фёдоров Е.Е. Модели и методы преобразования речевых сигналов: монография / Е.Е. Федоров. — Донецк: изд-во «Норд-Пресс», 2006. — 260 с.

17. Ермоленко Т.В. Исследование признаков, используемых для пофонемного распознавания, с помощью нейросети // Искусственный интеллект. — 2007. — № 4. —

C. 357-363.

55

il IlkitAiiUii

W/fW.......

18. Фёдоров Е.Е. Методика формирования акустических характеристик эталонов речи: монография / Е.Е. Фёдоров. — Донецк: изд-во «Вебер», 2008. — 282 с.

19. Малла С. Вэйвлеты в обработке сигналов / С. Малла. — М.: Мир, 2005. —

20. Фёдоров Е.Е. Модели и методы распознавания зрительных образов / Е.Е. Фёдоров, Э. Слесорайтите. — Донецк: Изд-во «Ноулидж» (Донецкое отделение), 2013. — 422 с.

21. Evolutionary Computation 1. Basic Algorithms and Operators / Ed. by T. Back, D. В. Fogel, Z. Michalewicz. — Bristol: IOP Publishing Ltd., 2000. — 377 p.

22. Evolutionary Computation 2. Advanced Algorithms and Operators / Ed. by T. Back, D. В. Fogel, Z. Michalewicz. — Bristol: IOP Publishing Ltd., 2000. — 304 p.

23. Yu X. Introduction to evolutionary algorithms / X. Yu, M. Gen. — London: Springer-Verlag, 2010. — 433 p.

24. Скобцов Ю.А. Основы эволюционных вычислений / Ю.А. Скобцов. — Донецк: ДонНТУ, 2008. — 326 с.

25. Субботт С.О. Негтеративш, еволющйш та мультиагентш методи синтезу: монография / С.О. Субботш, А.О. Олшник, О.О. Олiйник. — Запорiжжя: ЗНТУ, 2009. — 376 с.

Сведения об авторе:

Фёдоров Евгений Евгениевич,

доктор технических наук, профессор кафедры автоматизированных систем управления Донецкого национального технического университета, доцент. В 2012 году защитил докторскую диссертацию в Национальном авиационном университете г. Киева. Автор свыше 110 научных публикаций, в том числе 10 монографий, посвящённых: моделям и методам преобразования и распознавания речевых образов; моделям и методам преобразования и распознавания зрительных образов; моделям и методам анализа и синтеза естественно-языковых объектов; моделям и методам вибрационной и акустической диагностики; интеллектуальным технологиям в логистике, метаэвристикам. Основная область интересов: идентификация и верификация диктора, распознавание и синтез речи, анализ и синтез естественно-языковых объектов, распознавание лица человека, интеллектуальная вибродиагностика и шумодиагностика, медицинская интеллектуальная диагностика (анализ биосигнала), интеллектуальные технологии в транспортной логистике (поиск оптимального маршрута и мультиагентное взаимодействие), оптимизация числовых функций и комбинаторная оптимизация на основе метаэвристик.

671 с.

56

i Надоели баннеры? Вы всегда можете отключить рекламу.