Научная статья на тему 'Фонема как элемент информационной теории восприятия речи'

Фонема как элемент информационной теории восприятия речи Текст научной статьи по специальности «Математика»

CC BY
116
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЬ / SPEECH / РЕЧЕВОЙ СИГНАЛ / SPEECH SIGNAL / ФОНЕМА / PHONEME / РЕЧЕВАЯ БАЗА ДАННЫХ / SPEECH DATABASE / РАСПОЗНАВАНИЕ ОБРАЗОВ / IMAGE RECOGNITION / АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / AUTOMATIC SPEECH RECOGNITION

Аннотация научной статьи по математике, автор научной работы — Савченко В. В.

На основе теоретико-информационного подхода и критерия минимума информационного рассогласования ставится и решается задача автоматического выделения из слитной речи элементарных речевых единиц типа отдельных фонем и формирования фонетической базы данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Phoneme as an element of the information theory of speech perception

On the basis of the information approach and the minimal information mismatch criterion the problem of automatic allocation from conjoint speech of elementary speech units of separate phonemes type and formations of a phonetic database is put and solved.

Текст научной работы на тему «Фонема как элемент информационной теории восприятия речи»

Теория сигналов

УДК 621.372:519.72

В. В. Савченко

Нижегородский государственный лингвистический университет | Фонема как элемент информационной теории восприятия речи1

На основе теоретико-информационного подхода и критерия минимума информационного рассогласования ставится и решается задача автоматического выделения из слитной речи элементарных речевых единиц типа отдельных фонем и формирования фонетической базы данных.

Речь, речевой сигнал, фонема, речевая база данных, распознавание образов, автоматическое распознавание речи

Под фонемой обычно понимают минимальную единицу звукового (фонетического) строя национального языка. Разным языкам соответствуют разные списки фонем как по составу, так и по количеству элементов R . Списки фонем образуют базовый уровень описания языка, дающий обширную информацию обо всех его существенных особенностях, в частности его информационно-коммуникативных характеристиках. В подтверждение можно привести следующий пример: большинство современных речевых баз данных (РБД) сопровождается транскрипцией речевых сигналов, т. е. их описанием через последовательность фонем. С другой стороны, фонетический строй языка предъявляет определенные требования к его носителям, посредством которых этот строй и реализуется в коммуникациях (и только так). Сколько носителей - столько и разных реализаций фонетического списка национального языка. В этом проявляется краеугольная проблема вариативности устной речи. Более того, каждый отдельный носитель языка не произносит одинаково дважды даже одну и ту же фонему, причем изменения носят случайный, непредсказуемый характер. Нетрудно поэтому представить себе масштабы многообразия реализаций фонетического списка в пределах каждого языка. Как результат, до настоящего времени не создано ни одной сколько-нибудь эффективной системы автоматического выделения такого списка из слитной речи. Например, в современной информационной системе Nuance speech recognition 8.0 все основные операции над РБД, связанные с транскрибированием, выполняются "вручную". А это весьма трудоемкая и дорогостоящая процедура, особенно при учете очевидной необходимости периодического обновления или модернизации существующих баз. В таком случае очевидным представляется и интерес к разработке эффективного математического аппарата для экономного (со сжатием данных) описания и анализа фонетического состава речи. Общий подход к решению этой задачи в рамках предложенной в работе [1] информационной теории восприятия речи и составляет содержание настоящей статьи.

1 Работа выполнена при поддержке гранта РФФИ 07-07-12042-офи.

2 http://www.nuance.com © Савченко В. В., 2008

Элементы информационной теории. Несмотря на существующие различия в реализациях некоторой г-й фонемы все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Поэтому можно утверждать, что одноименные

реализации хгу, у = 1, Зг, Зг »1, в сознании человека группируются в соответствующие классы, или речевые образы фонем Хг = {хгу}, г = 1,Я, вокруг некоторого центра - эталонной метки данного образа [2], [3]. В информационной теории восприятия речи указанные

эталоны определяются в строгом теоретико-информационном смысле [4]: речевая метка

*

хг с Хг образует информационный центр-эталон г-го речевого образа, если в пределах множества Х г она характеризуется минимальной суммой информационных рассогласований (ИР) по Кульбаку-Лейблеру относительно всех других его меток-реализаций хгу,

у = 1, Jг . По своей сути это статистический аналог понятия "центр массы" физического тела.

Именно в понятии информационного центра (ИЦ) г-го множества реализаций Хг

дается наиболее информативное описание свойств соответствующей фонемы. Одновременно становится очевидным и механизм формирования самого этого множества. Анализируемый (входной) речевой сигнал Xи) в дискретном времени I = 0, 1, ... сначала разбивается на ряд последовательных сегментов данных х (1) длиной в одну элементарную речевую единицу (ЭРЕ) (примерно 10... 15 мс) [5]. После этого каждый такой сегмент рассматривается в пределах конечного списка фонем {Хг} и отождествляется с той из них Ху, которой отвечает минимум информационного рассогласования (МИР) между вектором х (I) и эталоном х^, V < Я . Это известная формулировка критерия МИР в задачах автоматического распознавания речи (АРР) [2].

Критерий МИР. Задача существенно упрощается, если воспользоваться гауссовской (нормальной) аппроксимацией закона распределения каждой фонемы вида Рг = N (Кг)

(Кг - автокорреляционная матрица (АКМ) с размерами п х п, п > 1) [6]. В этом случае задача формулируется как проверка простых гипотез о законе распределения ЭРЕ, а соответствующий набор оптимальных решающих статистик может быть записан следующим образом:

рг (х) = (1/2п) (КК-1) - 1оё |КК-1| - п], г = 1Я, (1)

где К - выборочная оценка АКМ анализируемого сигнала х = х0), ^ = 0, 1, 2, ...; 1х(•) -трек матрицы.

Решение принимается в пользу гипотезы Ру, V < Я, по признаку минимума у-й решающей статистики. Ее значение ру (х) определяет удельную (на один отсчет данных) величину ИР между выборочным распределением ЭРЕ на входе и у-м гипотетическим гауссовским распределением [7]. В задачах с априорной неопределенностью в выражение (1) подставляют статистические оценки альтернативных АКМ по Я (числу фонем в списке) классифицированным выборкам наблюдений, реализуя стандартную формулировку критерия МИР с обучением. 4

Алгоритм обучения. Предположим, что речевой образ каждой фонемы Хг = {х^} представлен по-прежнему конечным (объема Jr > 1) множеством своих различных векторов-

реализаций x rj, j = 1, Jr , составленных из L последовательных во времени отсчетов одноименных ЭРЕ {xrj (t)}, взятых с периодом T = 1/(2F) = const (F - верхняя граница частотного диапазона речевого тракта). Рассматривая каждую такую реализацию в режиме "скользящего окна" длиной n отсчетов (n « L), будем иметь (L - n) векторов (столбцов) данных {xj}, каждый размера n. Используя после этого формулу среднего арифметического, определим по ним выборочную оценку для АКМ гипотетического гауссовского распределения:

L—n

" д — 1 т

к^ = (ь - п) е хг]1 хф, ] =1, Jr, (2)

г=1

где т - символ транспонирования векторов. При этом учитывается естественная центрированность сигналов на выходе стандартного речевого тракта [5].

Подставив систему оценок (2) в выражение (1), получим в пределах образа Хг матрицу (с размерами Jr х Jr) информационных рассогласований между одноименными метками:

Prjk = (l/2n)

tr (KrjKrkk) - ln

K K

rj rk

J„

n

j,k = 1, Jr

Просуммировав ее элементов по столбцам: X Pj = Prk, k = 1, Jr, найдем информа-

j=l

ционный центр-эталон речевого образа r-й фонемы:

хГ = xr0 = arg min prk, r = 1, R, (3)

k

выборочная АКМ которого KrQ из (2) при j = 9 и определит в конечном итоге оптимальную r-ю решающую статистику в выражении (1). В зависимости от состава множества Xr положение (значение) эталона (3) будет, разумеется, меняться, однако чем больше будет объем Jr множества, тем устойчивее и, следовательно, точнее определится соответствующий эталон.

Таким образом, выражения (1)-(3) представляют оптимальный по критерию МИР алгоритм автоматического распознавания ЭРЕ из слитной речи с предварительным его обучением на заданном R-множестве (списке) фонем {Xr}.

Проблемы возникают, однако, в случае отсутствия априори классифицированных выборок {Xr}, т. е. при распознавании образов "без учителя". Автоматический анализ

фонетического состава речи чаще всего относится именно к такому кругу задач. И статистические характеристики фонем, и их используемое каждым диктором число R из общего списка зависят от особенностей речевого аппарата диктора. В этом случае требуется алгоритм с самообучением или адаптивный алгоритм фонетического анализа речи (ФАР). Аналогичная задача рассматривалась в работе [8], в которой для использования был предложен информационный (R +1) -элемент.

Известия вузов России. Радиоэлектроника. 2008. Вып. 4======================================

Информационный (R +1) -элемент. Это условный термин, обозначающий устройство либо алгоритм для автоматической классификации или распознавания сигнала x в

пределах некоторого множества классов-альтернатив Pr, r = 1, R. В основе его функционирования применяются статистический подход и критерий МИР. В отличие от других аналогичных алгоритмов с R выходами (R +1) -элемент имеет дополнительный (R +1) -й выход, сигнализирующий об отказе при распознавании образов одновременно от всех R заданных альтернатив. Указанная особенность и служит основой для построения эффективного алгоритма распознавания образов в условиях априорной неопределенности. Задача сводится к последовательности задач статистической классификации "с учителем" при переменном (нарастающем) числе альтернатив R = 1, 2, ....

Выделим в анализируемом речевом сигнале X (t) от некоторого диктора первые L отсчетов из соображений сохранения в них свойства приблизительной стационарности или однородности распределения Pr . Используем полученный минимальный сегмент

данных Х1 = {xj, ... ,xl} в качестве обучающей выборки Xj для оценивания по формуле

(2) АКМ первой ЭРЕ из сигнала. Соответствующий закон распределения P^ = N (К) явится первым из элементов будущего списка. После этого примем R = 1 и возьмем для анализа второй сегмент выборки: Х2 = {xl+1, ... ,X2l} . Следуя выражению для решающей статистики (1), определим для него удельную величину ИР

относительно первой ЭРЕ (г = 1). Полученный результат сопоставим с некоторым пороговым уровнем - допустимой величиной рассогласований между разными реализациями одних и тех же фонем устной речи:

При нарушении неравенства считаем, что сегмент х2 представляет реализацию новой фонемы, вносим его в список и увеличиваем число выявленных фонем (Я = 2). В противном случае примем решение об объединении выборок Хц и Х2 в один речевой образ Р^ в качестве одной ЭРЕ удвоенной длительности Ьг = 2Ь (если выборки смежные)

или двух разных реализаций первой фонемы (если выборки не стыкуются). Равенство Я = 1 в обоих случаях сохраняется.

В форме условия (5) реализуется проверка гипотез об однородности выборок, а понятие фонемы определяется как кластер однородных ЭРЕ по критерию МИР, что и представляет собой типичную формулировку информационного (Я +1) -элемента.

Р(X2,Xr ) = Pr (Х)|

x=Х2

(4)

Р(X2, Xr ) <Pq.

(5)

3 Например при стандартной частоте дискретизации телефонного канала связи 8 кГц, обычно полагают Ь = 100... 200 [5] (это те же 10.15 мс).

Адаптивный алгоритм. Вычисления по схеме (4), (5) повторяются циклически для всех последующих сегментов данных из речевого сигнала Х 0), причем "нарастающим итогом" для переменного значения Я = 2, 3, ____ Каждый очередной сегмент данных сопоставляется по правилу (5) одновременно со всеми Я множествами {Хг} из текущего

списка фонем. При этом не исключается возможность объединения одного и того же сегмента данных с элементами одновременно нескольких разных множеств4. В результате

*

будет получен список фонем с некоторым числом элементов Я - важная характеристика

как речевого сигнала, так и самого диктора: чем больше значение Я для конкретного диктора, тем богаче с фундаментальной, фонетической точки зрения его речь.

В данном выводе и заключаются, по-видимому, главный смысл и назначение фонетического анализа речи. Однако здесь же присутствует и очевидная проблема: чрезмерно большое число фонем в речи диктора - признак ее нечеткости или неинформативности. С точки зрения качества устной речи первостепенный интерес, безусловно, представляет множество четких ЭРЕ. Его в таком случае и следует считать основным итогом ФАР. Поэтому логика подсказывает: после выполнения всех перечисленных ранее вычислений некоторые "фонемы" из окончательного списка можно исключить как маргинальные.

Следуя такой логике, рассортируем полученные множества {Хг} в два вида фонем -

четкие и сомнительные. Критерии здесь очевидны: существует ограничение либо на минимальную длительность реализаций фонем вида

Ьг > Ь0, (6)

либо на минимальный объем каждого множества:

Jг > Jo. (7)

где Ь), Jo - некоторые пороговые уровни.

Выражения (4)-(7) в совокупности определяют адаптивный алгоритм формирования Я множеств реализаций каждой фонемы для последующего определения по ним соответствующего списка их информационных центров-эталонов (3). В результате создается адаптивная фонетическая база данных (ФБД), самонастраиваемая на одного диктора или на группу разных дикторов для ее дальнейшего применения в задачах ФАР согласно критерию МИР (1).

Предложенный алгоритм имеет множество разнообразных модификаций главным образом за счет применения рекуррентных вычислительных процедур корреляционно-спектрального анализа [9]. Среди них наибольший интерес представляет метод обеляющего фильтра [2], [10], основанный на авторегрессионной модели ЭРЕ.

Метод обеляющего фильтра. В работе [6] показано, что в асимптотике, когда п ^ да, и при гауссовском распределении речевого сигнала Рг = N (Кг) с обратной АКМ ленточной структуры выражение для оптимальной решающей статистики из (1) сводится к виду

4 Этим, кстати, в значительной степени ослабляются известные разногласия в определении понятия " фонема" между петербургской и московской фонологическими школами (см., например, БСА: 3-е изд. М.: Сов. эн-цикл., 1969-1978).

1 F

Pr (x) = - Е

Ff=1

G* (f ) + In Gr (f)

1 ^ min , (8)

Ог (/ ) Gx (/ ) _

где Ох (f) и Ог (f) - выборочные оценки спектральной плотности мощности входного

сигнала х и эталона г-й фонемы хГ с Хг соответственно в функции дискретной частоты f. Это известная формулировка критерия МИР на основе авторегрессионной (АР) модели речевого сигнала.

Главное достоинство АР-модели [1], [6] - возможность предварительной нормировки речевых сигналов по дисперсиям порождающих их процессов. Применительно к сигналам типа ЭРЕ такая нормировка обусловлена физическими особенностями голосового механизма человека: воздушный поток на входе его модели "акустической трубы" [5] имеет приблизительно одну и ту же интенсивность на интервалах длительностью в целое слово или даже в целую фразу. При учете этого свойства выражение (8) приобретет предельно простой вид [10]:

2

1 F

Pr (x) = F £

F f=1

Р

1 + É ar (m ) exp ( -jnmf/F )

m=1

2

Р

1 + É ax ( m ) exp ( -jnmf/F )

m=1

1, (9)

где {ar (m)}, {ax (m)} - два вектора АР-коэффициентов (входного r-го эталона и сигнала)

одного порядка p > 1. Это стандартная формулировка метода обеляющего фильтра (МОФ) в частотной области. Преимуществом данной интерпретации критерия МИР является прежде всего возможность его эффективной реализации в адаптивном варианте на основе быстрых вычислительных процедур АР-анализа, таких, как метод Берга и др. [9]. Именно такой вариант МОФ был экспериментально исследован в типовой задаче ФАР.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Программа исследований и основные результаты. Целью экспериментальных исследований было изучение зависимости состава и свойств формируемой из эталонов (3) ФБД от основных параметров адаптивного алгоритма - пороговых уровней Lq, Jq , а также ро.

Для экспериментальных исследований выбран текст объемом в одну стандартную машинописную страницу, взятый из первой главы романа А. С. Пушкина "Капитанская дочка". Этот текст был проговорен в среднем темпе группой из нескольких дикторов -мужчин разного возраста. Полученные речевые сигналы записывались в виде звуковых файлов. Для этого применялись динамический микрофон AKG D77 S и ламповый микрофонный предусилитель ART TUBE MP Project Series USB, а также специальные программные средства. Частота дискретизации встроенного АЦП устанавливалась равной 8 кГц - стандартному значению при обработке разговорной речи. Продолжительность записи по каждому диктору составила около полутора-двух минут.

Для каждого диктора согласно алгоритму (4)-(7) с использованием выражения (9) были выделены множества четких ЭРЕ и их информационные эталоны (3). При этом длина одного сегмента данных во всех случаях составляла L = 80 отсчетов или 10 мс. Для расчета коэффициентов авторегрессии в (9) применялась рекуррентная процедура Берга-8

Левинсона, обладающая предельно высокой скорость сходимости. Порядок АР-модели был установлен для всех дикторов постоянным и равным р = 20 .

Важнейшим результатом исследований явился вывод об условном характере фонетического строя речи и, следовательно, самого понятия фонемы. В зависимости от предъявленных требований к степени однородности распределений одноименных ЭРЕ в форме ограничения сверху на величину их ИР (5) менялись не только число Я, но и состав фонем в итоговом списке {Хг}. Менялись, соответственно, и

их эталоны (3). С ростом порога р0 значение Я снижалось. При ужесточении требований к четкости реализаций выделяемых фонем (возрастании порогов Ь0 и Jo в (6) и (7)) число фонем в списке Я монотонно сокращалось. Иными словами, результаты ФАР носят в общем случае принципиально субъективный характер.

В подтверждение изложенного представлена таблица чисел Я, выявленных при автоматическом анализе фонем в зависимости от порога ИР р0 и пороговой длительности

ЭРЕ Ь для первого диктора. Пороговое значение объема множеств {Хг} здесь и далее фиксировалось постоянным и равным Jo = 50. Из таблицы виден большой разброс в итоговых данных ФАР для разных значений параметров. Для всех остальных дикторов картина принципиально не изменялась.

Хорошей иллюстрацией могут служить временные диаграммы речевых сигналов (рис. 1-3), отображающие короткий (2 с) фрагмент текста Пушкина "Другого ментора я и не желал" произнесенные одним и тем же диктором. На рисунках буквами алфавита русского языка отмечены все теоретически востребованные в данном фрагменте текста фонемы. В прямоугольники вдоль временной оси заключены сегменты речевого сигнала, соответствующие выявленным четким ЭРЕ, для которых выполнялись требования в форме (5)-(7). Параметры алгоритма в трех рассматриваемых случаях сильно различались: рис. 1 - р0 = 0.7, Ь = 320, рис. 2 - р0 = 1.1, Ь = 320, рис. 3 - р0 = 1.1, Ь0 = 160 . Остальные сегменты сигналов остались неидентифицированными как недостаточно четко проговоренные диктором, поэтому они исключены из персональной ФБД данного диктора как маргинальные речевые единицы. При уменьшении порога Ь0 количество и длина таких участков существенно сокращались, но лишь ценой понижения качества (четкости) выделяемых из сигнала фонем.

Предложенный теоретико-информационный, т. е. статистический подход в задачах фонетического анализа речи, по-видимому, не имеет серьезных альтернатив ввиду острейшей проблемы вариативности устной речи. Однако сама идея статистического (по ансамблю реализаций) усреднения сигналов наталкивается на ряд принципиальных препятствий. Прежде всего, это особенности речевого механизма человека. У разных людей он сильно разнится по своим параметрам, например по частотным характеристикам его модели "аку-

Р0 А)/80

1 2 3 4 5 6 7 8 9 10

R

0.5 356 280 208 164 130 98 81 62 48 39

1.0 152 115 82 68 55 45 36 29 22 19

1.5 92 64 48 40 31 24 20 17 15 12

2.0 62 44 34 28 22 18 15 12 10 8

3.0 39 28 22 18 15 13 10 8 7 6

м е н

wmm-

тар

шшиШШШШ Wff

а И а и н е

ж е л а

Рис. 1

м е н

ттт«--"

тар

л а

Рис. 2

^tMfrrrwrmmrnwvWmm*''

д р

тар

а и

а

е

500 мс

Рис. 3

стической трубы". Эти характеристики к тому же могут сильно варьироваться под действием целого ряда факторов: времени суток, эмоционального состояния диктора и т. п. В результате даже одноименные речевые метки от одного и того же диктора, разнесенные между собой во времени и в пространстве, могут иметь существенно разные автокорреляционные (статистические) свойства. В связи с этим возникает идея объединения близких друг другу по своему звучанию однородных в теоретико-информационном смысле ЭРЕ в соответствующие фонемы-кластеры. Границы каждого такого кластера устанавливаются исследователем в зависимости от особенностей решаемых им задач. При необходимости они либо сужаются (объем списка фонем Я при этом возрастает), либо расширяются вслед за изменениями параметров алгоритма Ь0, Jo и

р0. Указанные искусственность, субъективность определения фонетического состава устной речи во многом объясняют все существующие до настоящего времени противоречия в определении самого понятия фонемы.

Таким образом, благодаря информационной теории восприятия предложен новый подход к автоматическому анализу и описанию фонетического состава устной речи, обладающий широкими функциональными возможностями и перспективами применения. Понятие фонемы в нем определено как множество однородных ЭРЕ, объединенных в кластер по критерию МИР (5).

Библиографический список

1. Савченко В. В. Информационная теория восприятия речи // Изв. вузов. Радиоэлектроника. 2007. Вып. 6. С. 10-14.

2. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.

3. Савченко В. В., Акатьев Д. Ю. Автотестирование качества произношения речи по принципу минимального информационного рассогласования // Современные тенденции компьютеризации процесса изучения иностранных языков: Сб. науч. тр. Вып. 3. Луганск: Восточ.-укр. нац. ун-т. 2005. С. 205-206.

л

а и

а

и

н

е

л

У

н

и

н

ж

е

л

а

л

4. Савченко В. В., Акатьев Д. Ю., Шерстнев С. Н. Метод оптимального обучающего словаря в задаче распознавания речевых сигналов по критерию минимального информационного рассогласования // Изв. вузов. Радиоэлектроника. 2006. Вып. 5. С. 10-14.

5. Принципы цифровой обработки сигналов / Под ред. А. В. Оппенгейма. М.: Мир, 1980. 550 с.

6. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

7. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.

8. Савченко В. В. Автоматическое распознавание речи методом дерева на основе информационного (R +1) -элемента // Изв. вузов России. Радиоэлектроника. 2006. Вып. 4. С. 13-22.

9. Марпл С.Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.

10. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание речевых единиц методом обеляющего фильтра // Изв. вузов. Радиоэлектроника. 2007. Вып. 4. С. 11-19.

V. V. Savchenko

Nizhny Novgorod state linguistic university

Phoneme as an element of the information theory of speech perception

On the basis of the information approach and the minimal information mismatch criterion the problem of automatic allocation from conjoint speech of elementary speech units of separate phonemes type and formations of a phonetic database is put and solved.

Speech, speech signal, phoneme, speech database, image recognition, automatic speech recognition

Статья поступила в редакцию 31 января 2008 г.

УДК 621.372:519.72

В. В. Савченко, Д. А. Пономарев

Нижегородский государственный лингвистический университет

I Автоматическое сегментирование речевых сигналов методом обеляющего фильтра1

На основе общей формулировки задачи о разладке в законах распределения ставится и решается задача автоматического сегментирования (периодизации) речевого сигнала на квазистационарные отрезки данных длиной в элементарные речевые единицы (ЭРЕ). На основе авторегрессионной модели и метода обеляющего фильтра разработан новый алгоритм с нормировкой ЭРЕ по дисперсии порождающего шума. Приведены результаты его экспериментальных исследований. Получены оценки для оптимального значения порогового уровня допустимой разладки сигнала в пределах одной ЭРЕ.

Сегментирование речи, автоматическое распознавание речи, элементарные речевые единицы, принцип минимума информационного рассогласования

Большинство современных методов автоматического распознавания речи (АРР) основывается на двухэтапной процедуре обработки речевого сигнала. Сначала последовательно во времени распознаются элементарные речевые единицы (ЭРЕ) типа отдельных фонем. И только после этого распознаются слова, фразы и целые тексты как соответствующим образом структурированные последовательности разных ЭРЕ. В данном случае ключевой для АРР является проблема сегментирования сложного речевого сигнала на квазистационарные участки ЭРЕ. Одним из наиболее перспективных инструментов для ее решения является

1 Работа выполнена при поддержке гранта РФФИ 07-07-12042-офи. © Савченко В. В., Пономарев Д. А., 2008

i Надоели баннеры? Вы всегда можете отключить рекламу.