Научная статья на тему 'Разработка алгоритма фонетического анализа речи на основе информационной теории восприятия речи'

Разработка алгоритма фонетического анализа речи на основе информационной теории восприятия речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
454
64
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКАЯ ОБРАБОТКА РЕЧИ / ИНФОРМАЦИОННАЯ ТЕОРИЯ ВОСПРИЯТИЯ РЕЧИ / ФОНЕМА / КРИТЕРИЙ МИНИМУМА ИНФОРМАЦИОННОГО РАССОГЛАСОВАНИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шурыгин Кирилл Сергеевич

Рассмотрена задача фонетического анализа речи на основе информационной теории восприятия речи. Предложен новый алгоритм классификации. Приведены результаты практического исследования оптимальных параметров.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шурыгин Кирилл Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка алгоритма фонетического анализа речи на основе информационной теории восприятия речи»

ТЕХНИЧЕСКИЕ НАУКИ

УДК 651.926:681.3

ББК 32.96

Ш 96

К.С. Шурыгин

Разработка алгоритма фонетического анализа речи на основе информационной теории восприятия речи

(Рецензирована)

Аннотация

Рассмотрена задача фонетического анализа речи на основе информационной теории восприятия речи. Предложен новый алгоритм классификации. Приведены результаты практического исследования оптимальных параметров.

Ключевые слова: автоматическая обработка речи, информационная теория восприятия речи, фонема, критерий минимума информационного рассогласования.

K.S. Shurygin

Development of an algorithm of speech phonetic analysis on the basis of the information theory of speech perception

Abstract

The paper examines the problem of speech phonetic analysis on the basis of the information theory of speech perception. The author suggests a new algorithm of classification and gives results ofpractical research of optimum parameters.

Key words: automatic speech processing, informational theory of speech perception, phoneme, criterion for a minimal information mismatch.

Введение

В области автоматической обработки речи перспективной является информационная теория восприятия речи (ИТВР). В статье [1] даются ее базовые понятия. В соответствии с ИТВР все множество элементарных речевых единиц (ЭРЕ) в сознании человека разбивается на конечное число подмножеств - кластеров. Каждое такое подмножество имеет четко очерченные границы вокруг некоторого центра - эталона, который определяется по аналогии с центром масс, но в метрике Кульбака-Лейблера [2]. Такой кластер является фонемой. Причем, чем больше элементов включает в себя фонема, тем устойчивее и, следовательно, точнее определяется ее центр-эталон. Таким образом, для обработки слитной речи необходимо сформировать классифицированный набор реализаций ЭРЕ. Разработке алгоритма фонетического анализа на основе ИТВР посвящена данная работа.

Критерий минимума информационного рассогласования

Задача распознавания образов при статистическом подходе сводится к проверке R гипотез о законе распределения выборки [3]:

Wr : Px = Pr, r = . (1)

Здесь Pr - r-я альтернатива распределения, предполагаемая точно заданной; при этом множество альтернатив {Pr} исчерпывает собой все допустимое многообразие законов распределения выборки X.

В работе [4] было показано, что выражение для оптимальной решающей статистики при применении строгого критерия минимума информационного рассогласования (МИР) и при гауссовом распределении сигнала P( Xr) сводится к виду

р.

¥

I - 1

Gx (I) + 1п Gr (I)

1 ® тш

г- 1,R

(2)

Gr (I) Gx(f)

/

Здесь: Gx(f - выборочная оценка спектральной плотности мощности (СПМ) анализируемого сигнала Х в функции дискретной частоты I; Gr(f - СПМ г-го сигнала из словаря эталонов; ¥ -верхняя граница частотного диапазона сигнала или используемого канала связи; R - размер или объем рабочего словаря. Если выполнить нормировку коэффициентов линейного предсказания сигнала по дисперсии их порождающего шума, то получим из выражения (1), стандартную формулировку выборочной оценки величины информационного рассогласования (ВИР) между сигналом Х на входе и г-м сигналом из словаря в частотной области [5]:

jp т1

Р.

1 + V аг (т) ехр

¥

¥

I - 1

1,

1 +

У

V ах ( т) ехР

]рт1

¥

(3)

где Т = 1/(2¥)- период дискретизации речевого сигнала.

Синтез алгоритма

Все множество альтернативных распределений {Рг} разобьем на R2 всевозможных пар (р, р ^ j £ К . Затем вычислим для каждой такой пары удельную величину их взаимного информационного рассогласования (ИР) [6]:

р( г,. / р. )- р. (X,) - 0 . (X, )/0 ; + 1п(<г 2 /0 ) (X,)) - 1, (4)

где X, - и-выборка из ,-ой генеральной совокупности Р,.

Элементы, для которых выполняется правило

Р . ) £Р о (5)

при .=1, образуют первый кластер, Р 0 - некоторый пороговый уровень (сверху) для минимальной решающей статистики из выражения (2). Если второй элемент не вошел в первый кластер, то строим второй кластер по правилу (5) для .=2. Если же вошел, то второй кластер строим по условию (5) для .=3. Группируем таким образом элементы множества X. При возникновении спорной ситуации, когда правило (5) выполняется для нескольких элементов, т.е. он попадает сразу в несколько кластеров, предпочтение

отдается тому из них, для которого значение решающей статистики меньше. Таким

образом, получаем набор речевых образов Xr = Iх г,. 1.

После кластеризации возникает следующий вопрос - что же брать в качестве образа каждой фонемы. В соответствии с ИТВР решать эту проблему можно с помощью метода минимума суммы информационных рассогласований [7]. Этот подход заключается в нахождении информационного центра по множеству различных реализаций одной фонемы.

Пусть каждый речевой образ Xr = |х г,.} представлен конечным множеством объема Уг . Пользуясь выражением (4) можно получить матрицу ИР УгхУг между элементами внутри фонемы. Находим сумму минимума информационного рассогласования для каждого элемента фонемы по правилу [1]

(6)

После этого реализацию с минимальным значением суммарного информационного рассогласования МГ“п считаем эталонной, а ее параметры становятся образом всего кластера. Таким образом, находим центры-эталоны для всех фонем.

Пример. Для экспериментальных исследований синтезированного алгоритма был взят текст первой главы романа А.С. Пушкина "Капитанская дочка", проговорен и записан в

т-1

2

т= 1

память персонального компьютера в виде звукового файла. Для этого применялась специальные программные и аппаратные средства: динамический микрофон AKG D77 S и ламповый микрофонный предусилитель ART TUBE MP Project Series USB. Частота дискретизации встроенного аналого-цифрового преобразователя была установлена равной 8 кГц - общепринятая частота при обработке речи. Продолжительность записи составила около полутора минут. Далее по алгоритму (7)-(9) [8] были выделено множество ЭРЕ. По алгоритму (3)-(6) был проведен анализ данного множества при разных значениях р 0. На рисунке 1 показана зависимость количества выделенных фонем от порога р 0.

Порог

Рис. 1. График зависимости количества фонем от порога р 0

Проблему выбора оптимального значения можно решить по принципу относительной стабилизации фонетического состава речевого сигнала. С одной стороны, при малых значениях порогов мы получаем чрезмерно большое количество фонем, с небольшим различиями между собой, в теоретико-информационном смысле. С другой стороны, при слишком больших значениях порогов в один кластер, возможно, попадут реализации заведомо разных фонем. А это безусловная ошибка фонетического анализа. Следовательно, значения порога р 0 следует выбирать в точках на графике, где количество классифицированных фонем достаточно представительно. Это соответствует промежутку р 0=1,2..2. Для более точного выделения оптимальных значений порога построим график зависимости величины среднего информационного рассогласования между эталонами фонем от порога р 0 . Данная зависимость представлена на рисунке 2.

Порог

Рис. 2. График зависимости средней величины ИР от порога р 0 Из рисунков видно, что оптимальным значением порога р 0 являются значения равные 1,6 и 2,01. При этих значениях порога фонетическая база получается наиболее полная в теоретико-информационном смысле, как по количеству фонем, так и по наполнению базы.

Заключение

Таким образом, благодаря проведенному исследованию предложен новый алгоритм классификации в задаче формирования фонетической базы данных и проведено его экспериментальное исследование. Ключевым моментом алгоритма является нахождение информационного центра-эталона речевого образа, идея которого была предложена в [1]. В результате экспериментального исследования были определены значения оптимального порога.

Примечания:

References:

1. Савченко В.В. Информационная теория восприятия речи // Известия вузов России. Радиоэлектроника. 2007. Вып. 6. С.3-9.

2. Кульбак С. Теория информации и статистика. М., 1967.

3. Савченко В.В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-315.

4. Савченко В.В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т.42, № 4. С. 426-431.

5. Савченко В.В., Акатьев Д.Ю. Автоматическое распознавание речи по критерию минимального информационного рассогласования с переспросом // Известия вузов России. Радиоэлектроника. 2006. Вып. 1. С. 20-29.

6. Савченко В.В. Автоматическое распознавание речи методом дерева на основе информационного (R + 1) -элемента // Известия вузов России. Радиоэлектроника. 2006. Вып. 4. С. 13-22.

7. Савченко В.В., Акатьев Д.Ю., Шерстнев С.Н.

Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования // Известия вузов.

Радиоэлектроника. 2006. Вып. 5. С. 10-14.

8. Савченко, В.В., Акатьев, Д.Ю., Карпов, Н.В. Анализ фонетического состава речевых сигналов методом переопределенного дерева // Системы управления и информационные технологии. 2008. № 2 (32). С. 297-303.

1. Savchenko V.V. Information theory of speech

perception // News of Russian higher schools. Radio electronics. 2007. Issue 6. P 3-9.

2. Kulbak S. The theory of the information and

statistics. M., 1967.

3. Savchenko V.V. Automatic speech processing by

criterion for a minimum of an information mismatch on the basis of a method of the whitening filter // Radio Engineering and Electronics. 2005. V. 50, No. 3. P. 309-315.

4. Savchenko V.V. Distinction of casual signals in

frequency area // Radio Engineering and Electronics. 1997. V. 42. No. 4. P. 426-431.

5. Savchenko V.V., Akatiev D.Yu. Automatic

speech recognition by criterion for the minimal information mismatch with re-questioning // News of Russian higher schools. Radio Electronics. 2006. Issue 1. P. 20-29.

6. Savchenko V.V. Automatic speech recognition by a method of a tree on the basis of an information (R + 1) element // News of Russian higher schools. Radio Electronics. 2006. Issue 4. P. 13-22.

7. Savchenko V.V., Akatiev D.Yu., Sherstnev S.N. The method of the optimum training dictionary in a problem of speech signals recognition by the criterion for the minimal information mismatch // News of Russian higher schools. Radio Electronics. 2006. Issue 5. P. 10-14.

8. Savchenko V.V., Akatiev D.Yu., Karpov N.V. The analysis of phonetic structure of speech signals by a method of the redefined tree // Control systems and information technologies. 2008. No. 2 (32). P. 297-303.

i Надоели баннеры? Вы всегда можете отключить рекламу.