Научная статья на тему 'Фонетический анализ речи методом переменного дерева'

Фонетический анализ речи методом переменного дерева Текст научной статьи по специальности «Математика»

CC BY
71
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЬ / SPEECH / РЕЧЕВЫЕ СИГНАЛЫ / SPEECH SIGNAL / АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / AUTOMATIC SPEECH RECOGNITION PROBLEM / РАСПОЗНАВАНИЕ ОБРАЗОВ / PATTERN RECOGNITION / РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ / RECOGNITION WITH TRAINING

Аннотация научной статьи по математике, автор научной работы — Савченко В. В., Губочкин И. В.

Поставлена и решена задача автоматического выделения из устного текста и распознавания элементарных речевых единиц типа фонем методом дерева. Использованы теоретико-информационный подход и критерий минимального информационного рассогласования распределений по Кульбаку–Лейблеру. Предложен новый алгоритм, основанный на решении последовательности задач R-альтернативной статистической классификации речи при переменном и нарастающем значении R = 2, 3,... ключевым звеном которого служат информационный (R+1) -элемент для многоальтернативного распознавания сигналов с обучением, а основными параметрами – два пороговых уровня: по допустимой величине информационного рассогласования реализаций одноименных фонем и по их минимальной длительности. Даны экспериментальные оценки оптимальных значений этих параметров для русского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Phonetic speech analysis by variable tree method

Problem of automatic segmentation and recognition elementary speech units from speech by tree method is put and solved. Thus the information-theoretic approach and the minimum information divergence criteria of distributions are used. It is suggested the new algorithm based on solving R-alternative statistical classification problems. The main part of this algorithm is the informational (R+1) -element for multialternative signal recognition with training by the minimum information divergence criteria.

Текст научной работы на тему «Фонетический анализ речи методом переменного дерева»

Теория сигналов

УДК 621.391.2:519.72

В. В. Савченко, И. В. Губочкин

Нижегородский государственный лингвистический университет

| Фонетический анализ речи методом переменного дерева1

Поставлена и решена задача автоматического выделения из устного текста и распознавания элементарных речевых единиц типа фонем методом дерева. Использованы теоретико-информационный подход и критерий минимального информационного рассогласования распределений по Кульбаку-Лейблеру. Предложен новый алгоритм, основанный на решении последовательности задач Я-альтернативной статистической классификации речи при переменном и нарастающем значении Я = 2, 3, ..., ключевым

звеном которого служат информационный (Я +1) -элемент для многоальтернативного распознавания сигналов с обучением, а основными параметрами - два пороговых уровня: по допустимой величине информационного рассогласования реализаций одноименных фонем и по их минимальной длительности. Даны экспериментальные оценки оптимальных значений этих параметров для русского языка.

Речь, речевые сигналы, автоматическое распознавание речи, распознавание образов, распознавание с обучением

Информационный (Я +1) -элемент - условный термин, обозначающий устройство или алгоритм для автоматической классификации либо распознавания сигнала X в пределах некоторого множества классов-альтернатив Рг, г = 1,Я [1]. В основе его функционирования используются статистический подход и критерий минимума информационного рассогласования распределений в смысле Кульбака-Лейблера. В отличие от аналогичных алгоритмов с Я выходами (Я +1) -элемент имеет дополнительный, (Я +1) -й выход, сигнализирующий об отказе при распознавании сигналов одновременно от всех заданных альтернатив. Указанная особенность может служить, в свою очередь, основой для построения эффективного алгоритма статистической классификации сигналов "без учителя", когда ни точные распределения - классы {Рг}, ни их суммарное число Я исследователю заранее неизвестны. Автоматический анализ фонетического состава речи относится именно к такому кругу задач. Его теории и практике осуществления на основе критерия минимума информационного рассогласования (МИР) распределений и посвящена настоящая статья.

Критерий МИР. Задача статистической классификации в своей стандартной формулировке обычно сводится к проверке Я гипотез о законе распределения выборки сигнала [2]:

Жг : Рх = Рг, г = 1Я, (1)

1 Работа выполнена при поддержке гранта РФФИ 07-07-12042-офи.

14 © Савченко В. В., Губочкин И. В., 2008

где Pr - r-я альтернатива распределения, предполагаемая точно заданной. При этом множество альтернатив {Pr} исчерпывает собой все допустимое многообразие законов распределения выборки X. Оптимальное в байесовском смысле решение в пользу одной из гипотез Wv, v < R, основывается в общем случае на классическом критерии максимального правдоподобия:

Wv ( X) : Lv ( X) = max Lr ( X), (2)

где Lr (X) - функция правдоподобия для r-й гипотезы Wr .

Предположим, что выборка (сигнал) X составлена из M независимых векторов (столбцов) xm, m = 1, M, размером n > 1 каждый и подчиняется центрированному гаус-совскому (нормальному) распределению. В таком случае можно записать:

lnLr (X) = -0.5M~1 [ln|Kr\ + tr(SXK-1) + nln(2n)], r = 1R, r = 1R, (3)

где Kr - (n x n) - автоковариационная матрица (АКМ) для r-й альтернативы закона рас-

-1 м

пределения Pr, а SX = М Z xmxm - выборочная оценка АКМ; |-|, tr (•) - определитель

m=1

"Т"

и след квадратной матрицы соответственно; - знак транспонирования.

Выражения (2) и (3) в совокупности определяют для заданных условий вид оптимального алгоритма обработки сигналов в задаче распознавания образов (1). Здесь в качестве базы априорных данных используется набор из Я альтернативных вариантов АКМ {Кг}, сама обработка сводится к Я параллельным вычислениям функции правдоподобия

(3) на заданном множестве АКМ с последующими сравнением полученных результатов по величине и выбором максимального из них. Это стандартная поисковая процедура прямого перебора альтернатив.

В задачах с априорной неопределенностью в (3) используются статистические оценки альтернативных АКМ по Я классифицированным выборкам предварительных наблюдений. Однако при отсутствии таких выборок, т. е. в задачах статистической классификации "без учителя", возникают проблемы. Например, при анализе фонетического состава речи как статистические характеристики элементарных речевых единиц (ЭРЕ), так и их суммарное число Я зависят от особенностей голосового аппарата каждого конкретного диктора. Выход в указанных ситуациях может быть найден в реализации поисковой процедуры (2), (3) по методу дерева [1], но с переменным числом вершин Я = 2, 3, ..., или по методу "переменного" дерева. Указанный подход требует упорядочения набора альтернативных образов {Рг} (или {Кг}) в некотором смысле или в некоторой метрике. При этом

может быть использована, например классическая евклидова метрика, вычисляемая в отношении каждого варианта АКМ. В таком случае обработка выборки X будет состоять в поиске альтернативы Ку с минимальной нормой ||^х - Ку|| на множестве у< Я. Однако

очевидно, что предлагаемый алгоритм будет заведомо проигрывать по своей эффективности оптимальному (2), (3). Поэтому предпочтительнее представляется иной подход [2],

основанный на упорядочении множества альтернативных распределений {Рг} по величине их взаимного информационного рассогласования (ВИР) в смысле Кульбака-Лейблера [3]. Несмотря на то, что ВИР не является метрикой в строгом смысле, предлагаемый подход имеет строгое теоретическое обоснование [4].

Утверждение 1. В условиях введенных ранее ограничений в задаче распознавания образов (1) критерий максимального правдоподобия в формулировке (2), (3) реализует критерий МИР на множестве упорядоченных пар п-мерных гауссовских распределений

(Рх, Рг ), г = 1; Я, с АКМ, равными и Кг соответственно.

Доказательство прямо следует из сопоставления набора решающих статистик (3) с известным выражением для ВИР в гауссовском случае [3]:

J (Рх/Р ) = 0.5

ln Kr\-ln|S

х

+ tr

(sxk 1) - n]] > 0,

(4)

которая равна нулю лишь при условии эквивалентности распределений, когда выполняется равенство 8Х = Кг.

В работе [4] также было показано, что в асимптотике п ^ да при гауссовском распределении сигнала Р (Хг) с АКМ Кг ленточной структуры выражение для оптимальной решающей статистики сводится к виду

л 1 £

, F f=1

( f ) + ln ^ (f )

-1 —> min

(5)

r=1,R

Рг ( / ) Р (/ )

где Е - верхняя граница частотного диапазона сигнала или используемого канала связи; Ох (/) - выборочная оценка спектральной плотности мощности (СПМ) сигнала Х в функции дискретной частоты/; Ог (/) - СПМ г-го сигнала из словаря эталонов.

Это известная формулировка критерия МИР на основе авторегрессионной (АР) модели речевого сигнала. При дополнительном условии нормировки АР-модели сигналов типа ЭРЕ по дисперсиям их порождающего шума [5] второе слагаемое в правой части (2) оказывается тождественно равным нулю и выражение для решающей статистики МИР (5) приобретет предельно простой вид:

1 V

Р x,r =— v F f =1

JJ

1 + V ar (m ) exp ( -jnmf/F )

m=1

-1.

1 + V ax ( m ) exp (-jnmf/F )

m=1

(6)

Это стандартная формулировка метода обеляющего фильтра (МОФ) в задаче автоматического распознавания речи (АРР) на основе выборочной оценки ВИР (4) между сигналом Х на входе и г-м сигналом из словаря в частотной области. Преимуществом данной интерпретации критерия МИР является прежде всего возможность его эффективной реализации в адаптивном варианте на основе быстрых вычислительных процедур авторегрессионного анализа, таких, как метод Берга и др. [6].

2

2

Метод переменного дерева. Обозначим анализируемый речевой сигнал X вектором его отсчетов х = {хь ..., хп}, где п - объем выборки. Выделим в нем первые т < п отсчетов из соображений сохранения в них свойства приблизительной стационарности (однородности распределения) сигнала2. Используем полученный сегмент данных Х1 = {Х1, ..., хт} в качестве обучающей выборки Х1 для оценивания АКМ первой ЭРЕ

1 м

анализируемого сигнала: К = М- Е х^ . Соответствующий закон распределения

т=1

Р1 = N (К) примем за первую из вершин будущего "дерева". После этого приравняем количество вершин дерева Я = 1 и выделим второй сегмент выборки для анализа х2 = {хт+1, ..., х2т}. По (6) определим для него удельную, т. е. приходящуюся на один отсчет данных, величину информационного рассогласования относительно первой ЭРЕ [4]:

р(Х2,Х1) = рх,г|х=Х2 • (7)

Полученный результат сопоставим с некоторым пороговым уровнем р0 допустимой величины рассогласований между разными реализациями одноименных фонем устной речи:

р(Х1, Х2) >Ро. (8)

При выполнении неравенства (8) сформируем очередную (вторую) вершину "дерева" и увеличим Я на единицу. В противном случае примем решение об объединении выборок Х1 и Х2 в одну расширенную выборку первой ЭРЕ и сохраним значение Я. Это типичная

формулировка информационного (Я +1) -элемента [1 ].

Вычисления по схеме (6)-(8) повторяются циклически для всех последующих сегментов данных из первоначальной выборки наблюдений Х, причем будут повторяться "нарастающим итогом" для значений Я = 2, 3, ____В результате получим дерево с некоторым фик-

*

сированным числом вершин Я . Каждая вершина представляет собой код одной из выделенных при анализе фонем. Чем больше число вершин в построенном дереве для некоторого конкретного диктора, тем богаче с фундаментальной, фонетической точки зрения его речь. В этом выводе и состоит, по-видимому, главный смысл и назначение фонетического анализа речи. Однако здесь же присутствует и очевидная проблема: чрезмерно большое число фонем в речи диктора - признак ее нечеткости или неинформативности. Поэтому после выполнения всех вычислений рассортируем полученные вершины по объему {Уг} их классифицированных выборок на два множества: множество четких ЭРЕ, для которых выполняется условие

V *Уо, (9)

и множество нечетких (сомнительных) ЭРЕ в противном случае. Здесь У0 - пороговый уровень для минимального объема выборки. С точки зрения качества устной речи первостепенный интерес, безусловно, представляет собой множество четких ЭРЕ. Его в таком случае и следует считать основным итогом фонетического анализа речи.

2 Например, т = 100... 200, при стандартной частоте дискретизации 8 кГц.

Именно в формулировке условий (8) и (9), а точнее, в выборе порогов р0 и Vq кроются и основные возможности, и основные проблемы практического осуществления метода переменного дерева. Рассмотрим некоторые из них на результатах описанных далее экспериментальных исследований.

Программа эксперимента. Для экспериментальных исследований метода переменного дерева выбран текст объемом около одной стандартной машинописной страницы, взятый из первой главы романа А. С. Пушкина "Капитанская дочка". Этот текст был проговорен в среднем темпе группой дикторов. Полученные сигналы сначала записывались в память компьютера в виде звуковых файлов. Для этого применялась специальные программные и аппаратные средства: динамический микрофон AKG D77 S и ламповый микрофонный предусилитель ART TUBE MP Project Series USB. Частота дискретизации встроенного АЦП была установлена равной 8 кГц - общепринятой частоте при обработке устной речи. Продолжительность записи речи каждого диктора составила около полутора минут.

Далее в записи речи каждого диктора по алгоритму (6)-(9) были выделены множества ЭРЕ. При этом длина одного сегмента данных во всех случаях составляла m = 80 отсчетов, или 10 мс. Для расчета коэффициентов авторегрессии в (6) применялась рекуррентная процедура Берга-Левинсона с высокой скоростью сходимости [6]:

am (i) = am-1 (i) + cmam-1 (m - i), i = 1, m;

N-1

cm = Sm-1 X nm-1 (t)vm-1 (t -1);

t=m

-1 N-1

Sm-1 = 0.5(n-m)-1 X №-1(t)+vm-1 (t - Oj; (10)

t=m

nm (t) = nm-1 (t) - cmvm-1 (t -1);

vm (t) = vm-1 (t -1) - cmnm-1 (t), t = Q 1, N -1

2 (Л 2 \ 2 2 o2 \—

am = I1 -cmjam-b a0 = ^ m = 1,p.

Порядок АР-модели (10) установлен p = 20 . Порог по ВИР в (8) pQ для объединения в один класс множества реализаций каждой фонемы варьировался в пределах 0.5...3.0. Пороговый уровень в (9) Vq для минимальной длительности четко проговоренных фонем варьировался в пределах 240. 800 отсчетов (30.100 мс). Далее исследовалась зависимость фонетического состава речи дикторов от этих порогов.

Основные результаты. На рис. 1 показана зависимость числа выявленных ЭРЕ R от значений pQ и Vq для первого диктора. Из рисунка видно, что при увеличении обоих порогов вначале происходит резкое уменьшение количества выделенных ЭРЕ. Выбор порогов производился с учетом двух ограничений. При малых значениях каждого из порогов фиксируется чрезмерно большое количество ЭРЕ с небольшими различиями между ними в теоретико-информационном смысле. При слишком больших значениях порогов к одному классу ЭРЕ будут, возможно, отнесены реализации заведомо разных фонем, что является ошиб-

R

200 150 100

50 0

1

1 1 1

Т-1 1 1 1

Т-1 1 1 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 1

rfffl»

д

JL

0.5

а м е н

щ^ттттттштгнг TfVWf^iN

а й а и н е

2.5

Р0 V0

500 мс

Рис. 1 Рис. 2

кой фонетического анализа. Следовательно значения порогов У0 и р0 следует выбирать в тех точках на графике (рис. 1), где количество выделенных ЭРЕ достаточно представительно. В представленном случае пороги выбраны по принципу относительной стабилизации

фонетического состава речевого сигнала: ро = 1.0... 1.2 и Г0 = 240... 560

Хорошей иллюстрацией к изложенному может служить временная диаграмма речевого сигнала на рис. 2, отображающая короткий (2 с) фрагмент выбранного текста: "Другого ментора я и не желал" в произношении первого диктора. На рисунке в прямоугольники заключены сигналы для выявленных при автоматическом анализе четких ЭРЕ, соответствующих буквам русского языка, указанным под прямоугольниками. Для всех выявленных ЭРЕ выполнялось условие минимальной длительности звучания (9). Параметры алгоритма обработки р0 = 1.1 и V) = 320 отсчетов удерживались постоянными в процессе эксперимента. Остальная часть звукоряда осталась неидентифицированной и должна поэтому рассматриваться как нечетко структурированная речь данного диктора. При уменьшении значений обоих порогов количество и длина идентифицированных участков могут быть существенно сокращены, но ценой понижения качества выделяемых из сигнала фонем.

Сделанные выводы остаются справедливыми для записей речи всех дикторов. В подтверждение этого на рис. 3 представлена зависимость для второго диктора, аналогичная зависимости на рис. 1. Эти зависимости аналогичны, хотя общее число выделенных фонем для второго диктора (рис. 3) оказалось существенно меньшим. На основе изложенного можно сделать важный вывод об устойчивости оптимальных значений всех основных параметров обработки речи по методу переменного дерева (5)...(10) по отношению к разным текстам, разным дикторам и фонетическим особенностям их речи.

Таким образом, благодаря проведенному исследованию предложен новый ме-

R

200 150 100

50 0

0.5

2 2.5 Рис. 3

Р0 V0

т

а

Е

0

ж

е

л

а

л

Известия вузов России. Радиоэлектроника. 2008. Вып. 3======================================

тод автоматического анализа фонетической структуры устной речи на основе принципа МИР, обладающий широкими функциональными возможностями и высокими эксплуатационными свойствами.

Библиографический список

1. Савченко В. В. Автоматическое распознавание речи методом дерева на основе информационного (R +1) -элемента // Изв. вузов России. Радиоэлектроника. 2006. Вып. 4. С. 13-22.

2. Савченко В. В. Автоматическая обработка речевых сигналов по критерию минимального информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-315.

3. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.

4. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

5. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание речевых единиц методом обеляющего фильтра // Изв. вузов России. Радиоэлектроника. 2007. Вып. 4. С. 35-42.

6. Марпл С.Л.-мл. Цифровой спектральный анализ и его приложения / Пер. с англ. М.: Мир, 1990. 584 с.

V. V. Savchenko, I. V. Gubochkin Nizhny Novgorod state linguistic university

Phonetic speech analysis by variable tree method

Problem of automatic segmentation and recognition elementary speech units from speech by tree method is put and solved. Thus the information-theoretic approach and the minimum information divergence criteria of distributions are used. It is suggested the new algorithm based on solving R-alternative statistical classification problems. The main part of this algorithm is the informational (R +1) -element for multialternative signal recognition with training by the minimum information divergence criteria.

Speech, speech signal, automatic speech recognition problem, pattern recognition, recognition with training

Статья поступила в редакцию 4 декабря 2007 г.

УДК 004.05

В. В. Бураков

Санкт-Петербургский государственный университет

аэрокосмического приборостроения

| Методика преобразования программных средств

Описан подход к преобразованию программных средств, основанный на моделировании и оценке качества программ, выявлении программных структур с неудовлетворительным качеством и формировании преобразований для его улучшения. В совокупности с процессом оценки качества программ предлагаемая методика определяет инструмент для управления качеством программных средств, создавая формально описанный детерминированный процесс непрерывного улучшения качества на протяжении всего жизненного цикла разработки.

Преобразования программ, рефакторинг, модель программы

Существенным недостатком использующихся в настоящий момент подходов к управлению качеством программных средств (ПС) является отсутствие методики улучше-

20

© Бураков В. В., 2008

i Надоели баннеры? Вы всегда можете отключить рекламу.