Научная статья на тему 'Автоматическое сегментирование речевых сигналов методом обеляющего фильтра'

Автоматическое сегментирование речевых сигналов методом обеляющего фильтра Текст научной статьи по специальности «Физика»

CC BY
41
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕГМЕНТИРОВАНИЕ РЕЧИ / SPEECH SEGMENTATION / АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / AUTOMATIC SPEECH RECOGNITION / ЭЛЕМЕНТАРНЫЕ РЕЧЕВЫЕ ЕДИНИЦЫ / ELEMENTARY SPEECH UNITS / ПРИНЦИП МИНИМУМА ИНФОРМАЦИОННОГО РАССОГЛАСОВАНИЯ / CRITERIA OF THE MINIMAL INFORMATION MISMATCH

Аннотация научной статьи по физике, автор научной работы — Савченко В. В., Пономарев Д. А.

На основе общей формулировки задачи о разладке в законах распределения ставится и решается задача автоматического сегментирования (периодизации) речевого сигнала на квазистационарные отрезки данных длиной в элементарные речевые единицы (ЭРЕ). На основе авторегрессионной модели и метода обеляющего фильтра разработан новый алгоритм с нормировкой ЭРЕ по дисперсии порождающего шума. Приведены результаты его экспериментальных исследований. Получены оценки для оптимального значения порогового уровня допустимой разладки сигнала в пределах одной ЭРЕ.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Speech automatic segmentation by whitening filter method

Based on the common discord problem definition the problem of speech automatic segmentation (periodization) on quasistationary reference periods which are elementary speech units (ESU) is defined and solved. The new algorithm with ESU’s normalization by generating noise variance is developed on basis of the autoregressive model and whitening filter method. Its experimental investigation results are given. The estimates of optimal threshold of allowable signal discord within one ESU are got.

Текст научной работы на тему «Автоматическое сегментирование речевых сигналов методом обеляющего фильтра»

4. Савченко В. В., Акатьев Д. Ю., Шерстнев С. Н. Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования // Изв. вузов. Радиоэлектроника. 2006. Вып. 5. С. 10-14.

5. Принципы цифровой обработки сигналов / Под ред. А. В. Оппенгейма. М.: Мир, 1980. 550 с.

6. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

7. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.

8. Савченко В. В. Автоматическое распознавание речи методом дерева на основе информационного (R +1) -элемента // Изв. вузов России. Радиоэлектроника. 2006. Вып. 4. С. 13-22.

9. Марпл С.Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.

10. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание речевых единиц методом обеляющего фильтра // Изв. вузов. Радиоэлектроника. 2007. Вып. 4. С. 11-19.

V. V. Savchenko

Nizhny Novgorod state linguistic university

Phoneme as an element of the information theory of speech perception

On the basis of the information approach and the minimal information mismatch criterion the problem of automatic allocation from conjoint speech of elementary speech units of separate phonemes type and formations of a phonetic database is put and solved.

Speech, speech signal, phoneme, speech database, image recognition, automatic speech recognition

Статья поступила в редакцию 31 января 2008 г.

УДК 621.372:519.72

В. В. Савченко, Д. А. Пономарев

Нижегородский государственный лингвистический университет

I Автоматическое сегментирование речевых сигналов методом обеляющего фильтра1

На основе общей формулировки задачи о разладке в законах распределения ставится и решается задача автоматического сегментирования (периодизации) речевого сигнала на квазистационарные отрезки данных длиной в элементарные речевые единицы (ЭРЕ). На основе авторегрессионной модели и метода обеляющего фильтра разработан новый алгоритм с нормировкой ЭРЕ по дисперсии порождающего шума. Приведены результаты его экспериментальных исследований. Получены оценки для оптимального значения порогового уровня допустимой разладки сигнала в пределах одной ЭРЕ.

Сегментирование речи, автоматическое распознавание речи, элементарные речевые единицы, принцип минимума информационного рассогласования

Большинство современных методов автоматического распознавания речи (АРР) основывается на двухэтапной процедуре обработки речевого сигнала. Сначала последовательно во времени распознаются элементарные речевые единицы (ЭРЕ) типа отдельных фонем. И только после этого распознаются слова, фразы и целые тексты как соответствующим образом структурированные последовательности разных ЭРЕ. В данном случае ключевой для АРР является проблема сегментирования сложного речевого сигнала на квазистационарные участки ЭРЕ. Одним из наиболее перспективных инструментов для ее решения является

1 Работа выполнена при поддержке гранта РФФИ 07-07-12042-офи. © Савченко В. В., Пономарев Д. А., 2008

метод обеляющего фильтра (МОФ) [1], который подтвердил свою эффективность на целом ряде примеров из практики АРР [2]. Центральной идеей МОФ является критерий минимального информационного рассогласования (МИР) в задачах статистической классификации. Применительно к проблеме сегментирования речевого сигнала задача сводится к проверке сложных гипотез о разладке закона распределения случайного процесса по конечным (малым) выборкам наблюдений [3], [4]. Наиболее актуальной в данной формулировке задачи АРР является проблема выбора оптимального порогового уровня вариаций сигнала на выходе обеляющего фильтра. Ее решению и посвящена, в основном, предлагаемая статья.

Задача о разладке. Следуя общей теории статистического критерия МИР [1], [2], воспользуемся гауссовской (нормальной) аппроксимацией речевого сигнала X с N (K), где K - его автокорреляционная матрица (сигнал центрирован). Возьмем некоторую выборку из такого сигнала X0 = (XiX2), которую разобьем на две следующие друг за другом части:

Xi = col(хц, Х12, ..., xiMj) и X2 = col(X21, X22, ••■, x2M2 ) с объемами Mi и M2 соответственно. Здесь x¡ j = jjxi j (0, x¡ j (2), ..., x¡ j (n)J - вектор (столбец) размера n отсчетов сигнала в j-м цикле наблюдений в пределах выборки X¡, i = 1, 2, со свойством Mx (Xi jxT j) = Ki (Mx (•) -математическое ожидание, T - транспонирование). В общем

случае количество циклов наблюдений в выборках М1 и М2 может быть различным. В дальнейшем будем полагать, что выполняется соотношение М^ » М2 как очевидное условие для оперативного принятия решений о разладке по наблюдениям Х2.

Задача о разладке формулируется в терминах проверки двух статистических гипотез в отношении автокорреляционных матриц (АКМ) К и К2 : проверяется сложная гипотеза

об их равенстве : К = К2 = К0 против сложной же альтернативы об их неравенстве Ж1 : К1 * К2 .

В указанной формулировке эта задача впервые поставлена и решена в работе [4]. В ней ключевым звеном оптимальной обработки сигнала установлена стандартная процедура корреляционного выборочного оценивания двух АКМ по классифицированным выбор-

1 М т

кам наблюдений: =-2^хк1 хк I, к = 1, 2. Оптимальное правило принятия решений

Мк I=1

об обнаружении разладки в объединенной выборке Х0 имеет вид

Щ: 1 (Хо) = М1П0 + М2У20 >^о, (1)

гДе Ук,о =

(12) [ц (ЗД1) - 1п ^о - п I - величина информационного рассогласования

по Кульбаку-Лейблеру гипотетического гауссовского процесса с автокорреляционной матрицей 8к, к = 1, 2 по отношению к гауссовскому процессу с матрицей 80 [1]; ^о -

пороговый уровень; 80 = (Мц/Мо ) + (М2/ Мо ) 82 - выборочная оценка максимального

правдоподобия для АКМ K0 объединенной выборки X0 = (X^, X2); N и tr(•) - определитель и след матрицы с размерами n х n соответственно.

Пороговый уровень ^0 = const устанавливается в зависимости от требований к

уровню значимости а0 принимаемого решения: P {X (X0) > ^0/W0} -а0 = const. Решение

(1) отвечает критерию минимума взвешенной суммарной величины информационного рассогласования между гипотетическими гауссовскими распределениями с автокорреляционными матрицами S1 и S2 относительно нормального закона N (S0). Чем ближе (в теоретико-информационном смысле) выборки X1 и X 2 расположены друг к другу, тем меньше информационное рассогласование их распределений от распределения объединенной выборки. При учете существенных различий в объемах выборок X1 и X 2 , а именно, для случая

Mi » M2 выражение для оптимальной решающей статистики (1) существенно упрощается:

WV. X (Хо ) = у2,1 = (1/2) [tr (S2S-1) - ln

- n

> Xf

10) = 'Г2,1 = (V2)|_11 \S2SW1И S2^ 1 -п 0, (2)

т. е. решение принимается по принципу минимума информационного рассогласования между двумя рассматриваемыми выборками - это стандартная формулировка критерия МИР [1], [2].

Метод обеляющего фильтра. В асимптотическом случае при п ^ да, когда в качестве объектов статистического анализа рассматриваются два стационарных гауссовских процесса XV 0) и X2 (t), алгоритм (2) может быть переписан в частотной области в эквивалентном виде [5]:

1 F

W1 • * (^о) = - X F f=1

Gf+ln G (f)

1> X 0

(3)

(/ ) Gx (f )

где F - верхняя граница частотного диапазона сигнала или используемого для его передачи канала связи; Gx (f) и Gl (f) - выборочные оценки спектральной плотности мощности (СПМ) анализируемого сигнала X0) = X2 (t) и "опорного" сигнала X! 0) соответственно в функции дискретной частоты f.

При дополнительном и актуальном для задач АРР условии нормировки авторегрессионной модели сигналов типа ЭРЕ по дисперсии порождающего их шума [6] второе слагаемое в правой части (3) тождественно равно нулю и выражение для решающей статистики еще более упрощается:

2

P

1 + ^ al ( m ) ехр ( - jпmf ^F )

ш=1

F

1 1

Ь (^0) = F Z

F f=1

1,

1 + Z ax (m ) exP (-JnmflF )

m =1

(4)

где ^ (m)}, {ax (m)} - векторы (размера К) коэффициентов линейной среднеквадратиче-ской авторегрессии сигналов X 0) и Xl (t) соответственно.

2

Известия вузов России. Радиоэлектроника. 2008. Вып. 4======================================

Это стандартная формулировка метода обеляющего фильтра (МОФ) [1], [5]. В данном случае выражение для решающей статистики (4) описывает выборочную оценку величины информационного рассогласования (ВИР) между сигналом X (t) на входе и опорным сигналом X1 (t) в частотной области [5].

Таким образом, при сделанных допущениях МОФ - одновременно и эффективный, и экономный способ реализации критерия МИР в рассматриваемой задаче о разладке в речевом сигнале. Наряду с этим данный метод является первым шагом к решению задачи автоматического сегментирования слитной речи. Применяя решающее правило (4) последовательно к очередным коротким (10...20 мс) отрезкам данных X(t) = X3(t), X4(t), ..., в

каждом случае будем иметь два варианта решения: сигнал сохраняет либо не сохраняет свой первоначальный закон распределения. В первом варианте фиксируется продолжение первоначальной ЭРЕ, во втором - начало следующей фонемы в слитной речи. Очевидно, что наибольшие проблемы в рассмотренном алгоритме связаны с различением наиболее близких по характеристикам речевых сигналов. Рассмотрим этот вопрос подробнее.

Анализ эффективности. Пусть R - суммарное число фонем в анализируемом фрагменте речи. В работе [2] показано, что эффективность МОФ зависит прежде всего от матрицы (с размерами R х R) значений ВИР между каждой v-й и r-й из них. Чем больше ВИР Xvr в каждом случае, тем меньше вероятность ошибок различения соответствующей пары

ЭРЕ. Пары сигналов с малыми значениями ВИР Xvr будем называть проблемными - по

признаку максимальной вероятности их перепутывания.

Длительность ЭРЕ, а значит, и значение ВИР между ними, в каждом отдельном случае связаны с величиной порога Ао из решающего правила (3). Поэтому проблема выбора

порога разладки сигнала на выходе обеляющего фильтра является ключевой для решаемой задачи. При экспериментальных исследованиях МОФ (3), (4) в рамках поставленной задачи величина порога оптимизировалась по критерию ограничения сверху вероятности ошибки первого рода при распознавании проблемных пар ЭРЕ. Предполагалось, что этим гарантируются приемлемые результаты для наихудших с точки зрения АРР ситуаций.

Программа и результаты эксперимента. В эксперименте анализировались 20 наиболее распространенных фонем русского языка: "а", "о", "у", "э", "ш", "щ", "р", "с", "в", "з", "ж", "и", "л", "л'", "ф", "х", "ч", "е", "ы", "м". Они последовательно во времени многократно (в разных реализациях) проговаривались тремя дикторами - мужчинами разного возраста в режиме продолжительного, достаточно информативного звучания. Полученные сигналы с помощью стандартной аппаратуры и встроенного АЦП (частота дискретизации 8 кГц) записывались в виде соответствующих звуковых файлов. При этом объем выборки N по каждой ЭРЕ был установлен заведомо большим - порядка нескольких десятков тысяч единиц. После этого для каждого диктора был составлен экспериментальный (рабочий) словарь (ЭС) X = {x(r} (n), r = 1, 20} из двадцати наиболее типичных для данного диктора эталонных реализаций ЭРЕ.

Затем по каждому сигналу ЭРЕ из ЭС рассчитывались векторы коэффициентов авторегрессии фиксированного (общепринятого) порядка k = 20. Для этого применялась высокоскоростная рекуррентная процедура Берга-Левинсона [7]:

N-1

am (i) = am-1 (i) + cmam-1 (m - i), i = 1 cm = Sm-1 Z ^m-1 (t) vm-1 (t - i);

t=m

-1 N -1

Sm-1 = 0.5 (n - m) Z 14-1 (t) + vm-1 (t - 1)J ;

t=m

nm (t) = nm-1 (t) - cmvm-1 (t -1); vm (t) = vm-1 (t -1) - cm^m-1 (t), t = 0 1 N - 1

i2

2 Л 2^2 2 o2 i-

am = l1 -cm)®m-1; a0 = S0 , m = 1 P

при ее инициализации системой равенств Уо (п) = по (п -1) = х(гг (п), г = 1, К. Финальные значения рекурсий определяли в конечном счете базу априорных данных для АРР по критерию МИР.

По этим векторам были настроены на параллельную обработку входного сигнала Х 20 линейных (трансверсальных) обеляющих фильтров одного и того же порядка k. С их помо-

щью при равенстве X = Ху, v = 1, К, согласно выражению (4) была рассчитана матрица ВИР с размерами 20*20. Ее фрагмент для первого диктора представлен в виде таблицы, в которой каждый столбец соответствует обеляющему фильтру, настроенному на г-й сигнал, а каждая строка - входному сигналу Ху.

Нулевые значения ВИР в таблице - признак эквивалентности сигналов в теоретико-информационном смысле. Проблемные пары ЭРЕ выделены полужирным шрифтом.

Входная фонема Фильтр настроен на фонемы

" щ" "з" "ф" "ч"

"щ" 0 6.6209 5.1083 0.1836

"з" 9.2669 0 0.1829 9.0907

"ф" 7.5451 0.1831 0 7.6038

"ч" 0.2108 8.5846 8.0913 0

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Далее для выбранных проблемных пар ЭРЕ определялись экспериментальные зависимости вероятностей ошибок первого и второго родов от величины порога разладки

А0. Значение порога варьировалось от 0.1 до 1.0 с шагом 0.05. Для экспериментального

определения вероятности ошибки первого рода на вход обеляющего фильтра, настроенного на одну ЭРЕ из проблемной пары ("ч" для первой проблемной пары и "ф" для второй), подавались короткие (длиной в 100 отсчетов) сегменты той же фонемы. При этом определялось отношение количества сегментов чош, для которых значение решающей статистики (4) превышало заданный пороговый уро-

вень А0, к общему количеству сегментов ч в анализируемых сигналах: аг у = чош/ч.

Вероятность ошибки второго рода определялась аналогичным образом, только на вход системы обработки речи подавались короткие сегменты другой фонемы из проблемной пары.

P 0.75 0.5 0.25

0

0.5 Рис. 1

0.25 И 0

- 0.25

- 0.5

ш

187.5 87.5 75 121.2

.Ж1

21.25

200

0.25 0

- 0.25

- 0.5

u

0.25 0

- 0.25

- 0.5

'и" "ф" и "a"

62.5 50 112.5

50 100 112.5

У I 3

" X

I игги

"у"

75 62

87.5 "100 "50 i 162.5

0.25 0

- 0.25

- 0.5

u

0.25 0

- 0.25

- 0.5

«А

75

100

62.5

85 187.5 Рис. 2

На рис. 1 показаны экспериментальные зависимости величин ошибок первого рода Pl и второго рода P2 от переменного

порога разладки X0 для проблемных пар

ЭРЕ "щ" - "ч" (сплошные линии) и "ф" -"з" (штриховые линии). Из приведенных зависимостей следует, что значение порога разладки X0 > 0.5 гарантирует приемлемую

(около 0.1) вероятность ошибки первого рода для обеих проблемных пар. Кроме того, доказано, что величина оптимального (в указанном смысле) порога разладки является устойчивой для различных проблемных пар одного диктора и практически не зависит от конкретной реализации фонемы.

На следующем этапе исследований рассмотрена устойчивость полученных оценок порога по отношению к другим дикторам. При этом все вычисления проводились по той же схеме, что и с фрагментами, наговоренными первым диктором. Показано, что, хотя набор проблемных пар фонем и меняется от одного диктора к другому, экспериментальные зависимости вероятностей ошибок первого и второго родов в каждом случае качественно сохраняют прежний вид (см. рис. 1). Поэтому остаются справедливыми и все предыдущие выводы:

• порог допустимой разладки в каждом случае зависит от качества произношения отдельных фонем конкретным диктором;

• оптимальное значение порога для конкретного диктора не зависит ни от самих фонем, ни от их реализаций;

• порог разладки при сегментировании речи следует выбирать в диапазоне значений X 0 = 0.5...0.7 .

В заключение рассмотрен пример применения разработанного алгоритма (3), (4) по его прямому назначению - для автоматического сегментирования слитной речи. При

u

t

u

t

и

я

и

u

t

о

а

в

ы

t

======================================Известия вузов России. Радиоэлектроника. 2008. Вып. 4

этом порог А о = 0.7 был постоянным. Для иллюстрации полученных результатов на рис. 2 представлены временные диаграммы фрагментов речевого сигнала, произнесенного первым диктором и содержащего фразу: "Съешь еще этих мягких французских булок, да выпей чаю". В ней присутствуют все основные типы фонем: как звонкие, так и фрикативные (шумопо-добные). На рис. 2 под каждой временной диаграммой указаны определенные на слух границы четких фонем, их длительность в миллисекундах и название. Вертикальные линии на диаграммах - результат обработки речи алгоритмом автоматического сегментирования. Из диаграмм следует, что несмотря на некоторые проблемы на стыках разных фонем в целом каждая из них выделяется практически безошибочно. Данный эффект можно регулировать

изменением порога допустимой разладки А о : при увеличении его значения средняя длительность выделяемых сегментов будет возрастать, а их суммарное число, напротив, сокращаться.

Таким образом, благодаря проведенному исследованию предложен новый, эффективный алгоритм автоматического сегментирования речи, получены и строго обоснованы рекомендации по выбору его порога допустимой разладки в пределах каждого сегмента речевого сигнала.

Библиографический список

1. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.

2. Савченко В. В., Акатьев Д. Ю. Автоматическое распознавание случайных сигналов по критерию минимального информационного рассогласования с переспросом // Изв. вузов России. Радиоэлектроника. 2006. Вып. 1. С. 20-29.

3. Савченко В. В. Обнаружение и прогнозирование разладки случайного процесса на основе спектрального оценивания //Автометрия. 1996. № 2. С. 77-84.

4. Акатьев Д. Ю., Савченко В. В. Обнаружение разладки случайного процесса по выборке на основе принципа минимума информационного рассогласования // Автометрия. 2005. № 2. С. 68-74.

5. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С.426-431.

6. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание речевых единиц методом обеляющего фильтра // Изв. вузов России. Радиоэлектроника. 2007. Вып. 4. С. 11-19.

7. Марпл С. Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.

V. V. Savchenko, D. A. Ponomaryov Nizhniy Novgorod state linguistic university

Speech automatic segmentation by whitening filter method

Based on the common discord problem definition the problem of speech automatic segmentation (periodization) on quasistationary reference periods which are elementary speech units (ESU) is defined and solved. The new algorithm with ESU's normalization by generating noise variance is developed on basis of the autoregressive model and whitening filter method. Its experimental investigation results are given. The estimates of optimal threshold of allowable signal discord within one ESU are got.

Speech segmentation, automatic speech recognition, elementary speech units, criteria of the minimal information mismatch

Статья поступила в редакцию 4 декабря 2007 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.