Системы телекоммуникации, устройства передачи, приема и обработки сигналов
УДК 621.372:519.72
В. В. Савченко
Нижегородский государственный лингвистический университет | Информационная теория качества речи*
На основе теоретико-информационного подхода предложена новая, теоретико-вероятностная, модель речеобразования со случайным выбором речевого сигнала в пределах множества допустимых реализаций речевого образа. Понятие "образ" при этом определяется в терминах информационной теории восприятия речи через множество подобных (однотипных) речевых единиц, объединенных в соответствующий кластер по критерию минимума информационного рассогласования. Введено понятие информационного эталона речевого образа в метрике Кульбака—Лейблера, а на его основе - речевой базы данных. На основе этого понятия и математической теории связи К. Шеннона, предложен новый критерий качества устной речи: максимум скорости создания информации на выходе голосового тракта диктора. Рассмотрен пример применения этого критерия в задаче фонетического анализа речи.
Речь, речевой механизм, речевая база данных, качество речи, теоретико-информационный подход, распознавание образов
В связи с непрерывным развитием и распространением на практике, в частности в технике сотовой связи, разнообразных систем автоматической обработки речи (АОР) оценивание качества речи становится одной из наиболее актуальных задач в области как теоретической, так и прикладной информатики. К сожалению, до настоящего времени строгого подхода к ее решению не существует. Более того, не существует и строгого критерия качества устной речи. Например основной нормативный документ в данном направлении [1], трактует качество речи как субъективное понятие, определяемое, главным образом, методами экспертиз или парных сравнений с эталонами. Этим обстоятельством сильно ограничиваются современные исследования в области АОР.
Проблема сводится к принципиальному противоречию между множеством используемых на практике показателей качества речи (например, требования к различимости и узнаваемости отдельных речевых единиц вступают в острое противоречие с требованиями к темпу речи). Таким образом, возникает фундаментальная научная проблема многокри-териальности качества речи. Поиску путей ее преодоления и посвящена предлагаемая статья. При этом использованы теоретико-информационный подход [2] и методология информационной теории восприятия речи [3].
Постановка задачи. Принцип действия большинства современных систем АОР основан на сопоставлении произнесенной речевой единицы (РЕ) - фонемы, морфемы, слова или целой фразы - с заранее подготовленным эталоном. Первой проблемой на этом пути
* Работа выполнена при поддержке гранта РГНФ № 09-06-12125в. © Савченко В. В., 2011
является то, что диктор в силу ряда причин, например из-за дефектов речи или слуха, в принципе не в состоянии точно повторить эталон. Выходом из такой ситуации может служить сравнение тестируемого сигнала х одновременно с несколькими эталонами
хг, j, ] = 1, Jr, г = 1; R, по каждой г-й РЕ (Я - объем речевой базы данных (РБД)). Диктору будет достаточно приблизить свое произношение к любому из них, чтобы быть правильно понятым гипотетическим слушателем. Этим существенно ослабляется рассматриваемая проблема: каждый конкретный диктор в процессе своего "говорения" выбирает наиболее удобный, достижимый для себя вариант эталонного произношения РЕ из некоторого множества альтернатив Хг = |хг j |. Одновременно становится понятным и собственно критерий "достаточной степени близости" формируемого (на выходе голосового тракта диктора) сигнала к эталону: он должен войти в границы Jr -множества эталонов рассматриваемой РЕ Хг как
полноправный, (Jr +1) -й, его элемент. Задача переходит в сугубо предметную плоскость: сначала по каждой из R рассматриваемых РЕ требуется сформировать множество (кластер) ее эталонов, или образцов |хг j | - это этап обучения речи конкретного диктора. Затем в процессе коммуникаций тестировать сигнал диктора х в отношении близости этого сигнала к всем элементам соответствующего множества Хг, т. е. вычислить вектор "расстояний" х/хг j ),
r = 1; Jr, в пределах кластера. При достаточной малости среднего по кластеру расстояния
Jr
_1 r . .
Jr Zp(x/xr,j)<Po (1)
j=i
(Po - некоторый пороговый уровень) можно гарантировать безошибочное восприятие слушателем произнесенной диктором r-й РЕ.
Отметим важную отличительную особенность правила (1): в каждый момент времени решение либо может быть принято в пользу или одной РЕ, или, вообще говоря, нескольких РЕ из используемой диктором РБД {Xr }, либо вообще не принято - для сигналов x нечеткой (маргинальной) структуры, что соответствует практике речеобразования [1], [2]: в ней не исключаются сбои и брак как их результат.
В вычислительном отношении проще задаться аналогичным (1) ограничением [3]:
Pr ( x)<P0 (2)
на расстояние от сигнала x до "центра массы" рассматриваемого кластера
x* = xr,v : J~l Z p(xr,jlxr,v) = min J~l £ p(xr,j/xr,i) = рГ . (3)
j=1 ' l<Jr j=1
При этом в процессе восприятия речи в пределах кластера Xr вместо Jr »1 расстояний согласно (1) вычисляется только одно расстояние pr (xj = р( x/x* ) до его центра xr. Центр кластера - его обобщенный эталон или эталон соответствующей РЕ, а множество таких эталонов {x* } - экономный способ задания РБД конкретного диктора {Xr} 18
или звукового ряда (строя) его разговорного языка. Именно звуковой ряд определяет в первую очередь качество устной речи подобно палитре художника в его написанных и будущих картинах. У разных людей он может сильно разниться. Еще в большей степени это относится к разным диалектам и национальным языкам.
Анализируя звуковой ряд, можно многое сказать не только о качестве речи отдельных дикторов, но и о качестве (коммуникативных свойствах) национального языка. Это весьма актуальная в условиях современной глобализации задача. Поэтому возникает закономерный интерес к проблеме выбора и обоснования строгого критерия качества устной речи. Задача в
общем случае сводится к вопросу о сравнении между собой двух разных РБД ^г } и {х* } с
точки зрения существующих требований [1] к разборчивости и узнаваемости устной речи.
Теоретико-информационный подход. Отталкиваясь от информационной теории восприятия речи [3], воспользуемся определением расстояния рг (x) по формуле величины информационного рассогласования:
Рг (x) 4 {...{1п^-^Г(dx) г } } dPr (х)
(4)
выборочного распределения (вероятностей) Р(х) тестируемого сигнала х относительно эталонного (в смысле Кульбака-Лейблера) распределения Рг (х), г = 1, R [4]. В частности, положив закон распределения Р (х) нормальным Р (х ) = N (Кх ) с выборочной матрицей автоковариаций речевого сигнала Кх с размерами пх п, будем иметь [3], [4]
рг (х) = 0.5Г №(КХКГ1)- 1п
кхкг 1
- п
С другой стороны, с учетом актуальной в задачах АОР нормировки речевого сигнала по его энтропии [5] можно записать рг (х) = 0.5 ^(КхК-1)- п .
Перейдя в частотную область, получим окончательное выражение для оптимальной решающей статистики [5], [6] в виде удвоенной удельной величины информационного рассогласования (4) в расчете на один отсчет речевого сигнала [7]:
F
Рг ( х) = F-1 I
/=1
1 - I аг (т) ехр (- j■кm/|F) т=1
-1,
Г
1 - I ах (т) ехр (-jкm/|F)
т=1
(5)
где / - дискретная частота; F - ее верхняя граница, равная половине частоты дискретизации речевого сигнала; {ах (т)}, {аг (т)} - векторы коэффициентов линейной авторегрессии (АР-коэффициентов) тестируемого сигнала х и г-го эталона хг соответственно (оба одного порядка р > 1). Выражение в числителе (5) определяет квадрат амплитудно-
частотной характеристики г-го обеляющего фильтра, настроенного на г-ю фонему хг,
2
2
r = 1, R. Это стандартная формулировка метода обеляющего фильтра в задачах АОР [5]-
[7]. Его преимуществом является прежде всего возможность практической реализации обработки в адаптивном варианте на основе быстрых вычислительных процедур АР-анализа
[8].
Анализ эффективности. Выражение (5) совместно с (2) определяет алгоритм автоматического тестирования качества речевого сигнала в сознании диктора. Как и всякое тестирование, оно сопровождается двумя альтернативными вариантами решения: сигнал x признается отвечающим требованиям (2) к качеству r-й РЕ хГ или, напротив, данные требования не выполнены и сигнал бракуется. При этом требования к качеству сигнала у разных дикторов различны и реализуются главным образом через выбор в сознании конкретного диктора порогового уровня рд, соответствующего особенностям его речевого механизма.
В зависимости от порога рд меняется вероятность ошибки в речеобразовании, т. е. брака при формировании каждой отдельной РЕ. В случае гауссовской аппроксимации речевого сигнала вероятность такой ошибки при довольно общих предположениях [6], [7]
2
определяется в терминах Хм -распределения с M степенями свободы:
а = P {рг (х) > рд |xeXr } = P {xM > M (1 + Ро)}, (6)
где P {} - вероятность случайного события; M = const.
В рамках рассматриваемой модели речевого сигнала (4), (5) требования к качеству речи в форме (6) при переходе от одной РЕ к другой не меняются, по крайней мере, на фонетическом уровне обработки [9], что хорошо согласуется с практикой речеобразования [7] и его классической моделью "акустической трубы" [10]. Это положение является ключевым для дальнейших рассуждений автора в настоящей статье.
В общем случае значение параметра M ограничено сверху объемом L = 2Fт выборки речевого сигнала х на интервалах т его приблизительной стационарности, а также порядком p обеляющего фильтра в его АР-модели (5): M « L - p [6]. Чем больше порог рд, тем меньше вероятность ошибки (6) и тем более мягкими, следовательно, становятся требования в отношении качества РЕ. И, наоборот, более жестким требованиям к качеству речи отвечает низкий порог в выражениях (2) и (6). Например, задавшись значением а = 0.1, при т = 5 мс, F = 8 кГц и p = 20 (стандартные значения параметров современной системы АОР [11]) имеем L = 80 и M = 60. По таблицам х6о-распределения [12] для уровня зна-
2
чимости Р = 1 -а = 0.99 найдем квантиль Х60 0 99 = 88.38, и по нему получим требуемый
пороговый уровень р0 = Х60 099/M -1 = 0.473. Согласно информационной теории восприятия речи [3], [5] аналогичный механизм принятия решений реализуется в сознании слушателя в процессе опознавания образов по речевому сигналу х.
С другой стороны, представляется очевидным, что для каждого отдельного диктора в каждом конкретном случае существуют жесткие ограничения сверху на пороговый уро-
вень ро при учете индивидуальных особенностей речи диктора. Указанные особенности проявляются прежде всего в ошибках речеобразования второго рода: перепутывания некоторых (проблемных) пар РЕ за счет близости соответствующих эталонов х* и х* в теоретико-информационном смысле [6]: рг* = рг (х) * , г, *< К. Чем меньше рассогласо-
х _ х*
вание рг* между РЕ, тем больше вероятность их перепутывания.
В реальных условиях [9] для типичного диктора минимум рг* на множестве всех
пар РЕ из РБД [хГ} не превышает 0.2...0.3. Это значит, что вероятность ошибки перепутывания [6], [7]
аг* = Р {рг (х) < ро |хеХу } = Р [хМ < М (1 + ро )/(1 + рг* )}, *, г < К, (7)
в условиях предыдущего примера составит величину около 0.75.
Кажется, это недопустимо много, но только не в рассматриваемой задаче. Ошибка рассматриваемого рода сама по себе, т. е. в отсутствие ошибки брака (6), означает лишь дублирование определенной РЕ в сознании диктора под разными, но все же близкими на слух, т. е. подобными, речевыми метками. Это обычное явление при речевых коммуникациях. Такая множественность не имеет, как правило, фатального значения и несет в себе лишь опасность перегрузки сознания и диктора, и слушателя ненужной, лишней информацией. (Как известно из практики [7], во многих случаях в процессе разговора диктор корректирует свое произношение отдельных РЕ, подстраиваясь под слушателя.) Если учесть, к тому же, что число пар подобных РЕ в обычных РБД не превышает 5.10 % от их суммарного объема К [9], то проблема дублирования РЕ дикторами и вовсе становится несущественной. Даже немыслимая, на первый взгляд, вероятность ошибки перепутывания аг* ~ 1 приводит к очень редким (частотой не более 0.1) фактам дублирования отдельных РЕ в потоке разговорной речи. Поэтому в свете зависимостей (6) и (7) при тестировании качества речи будем в дальнейшем исходить из простой логики рассуждений: порог ро в решающем правиле (2) устанавливается на максимально возможном для него уровне из условия
ро =(1... 2) тт рг*, (8)
г ,*
гарантирующего минимальную вероятность брака в речи диктора при умеренной частоте дублирований РЕ из близких кластеров его РБД {Хг }.
Теоретико-вероятностная модель. Следуя общим идеям теоретико-информационного подхода [2], рассмотрим каждого диктора в роли гипотетического источника дискретных сообщений X, определенных на множестве эталонов РЕ [хГ}. Исчерпывающей характеристикой коммуникативных свойств такого источника может служить скорость создания информации по Шеннону, или количество информации в расчете на одну РЕ. В предположении об идеальном речевом механизме человека-диктора и безошибочном восприятии его речи потенциальным слушателем указанное количество определяется известным выражением для шенноновской энтропии дискретного источника сообщений [13]:
H(X) = -¿P(X = хГ)logP(X = хГ) = -Rpr logpr. (9)
r=1 r=1
При этом необходимо учитывать естественное условие нормировки закона распре-
R
деления I pr = 1. В простейшем случае равновероятных РЕ, когда Vr < R : pr = 1/R, по-
r=1
лучим максимум энтропии H (X ) = log R. При взятии логарифма по основанию 2 информация измеряется в битах.
Ситуация резко усложняется, если учесть вариативность устной речи. Известно [9], что один и тот же диктор не произносит одинаково дважды даже одну и ту же фонему. В этом случае реальный сигнал на выходе его речевого тракта X' Ф X может существенно
отличаться от эталонного варианта хГ в сознании диктора. Математическая модель источника такого сигнала определяется в общем случае распределением вероятностей четких РЕ qr = P (X' = х* ), r = 1, R, и вероятностью дополнительного, (R +1) -го состояния
диктора qR+1 = P (X' Ф хГ , Vr < R), в котором учтены все выявляемые ошибки (6) в рече-
образовании по логике работы информационного (R +1) -го элемента [14].
Для заданной решающей схемы (2) путем ряда преобразований получим систему равенств
R R i \ R i \ i \
qr = I qrv = IP(X ' = хГ; X = х^) = IP(X = х^)p(х = хГ x' = х^) =
v=1 v=1 v=1
P ( X = хГ ) P ( X' = хГ|х = хГ ) = (1 -a) pr, (10)
а также
- , \ - / \ < \ R
= Iр(х*х;; х=х;)= Iр(х=х;)р(х'*х;х=1;)=^«?,=«, (и) ;=1 ;=1 ;=1
где Р(X' = х* X = х*) = 1 -а - условная вероятность г-й РЕ при безошибочном речеобра-
зовании. При этом выполняется условие нормировки распределения вида
Я +1 Я
I qг = (1 - а) I рг + а = 1.
г=1 г=1
Выражения (8)—(11) совместно с правилом тестирования (2) и выражением для решающей статистики (5) описывают новую, теоретико-вероятностную, модель речеобразо-вания. В ней качество речи каждого диктора определяется видом используемой им РБД, точнее, видом матрицы информационных рассогласований ||рг;|| с размерами Я х Я. По
данной матрице согласно (8) сначала находится пороговый уровень р0, и после этого согласно (2) и (6) каждая отдельная РЕ на выходе голосового тракта диктора либо с вероятностью Р = 1 - а безошибочного речеобразования принимается к дальнейшему использованию в коммуникации и отображается в сознании диктора допустимой "точкой" (вариан-
том) из соответствующего множества альтернатив Xr = |xr j J, либо с вероятностью а из
использования исключается как недостаточно четко произнесенная данным диктором.
Таким образом, определяющее значение в этой модели имеет вероятность ошибки (6). Вероятность шибки второго рода (7) в ней учитывается косвенным образом - в форме ограничения сверху (8) на пороговый уровень рд. По сути, получена классическая модель
дискретного канала связи с шумами. На его входе имеем некоторый речевой образ X в сознании диктора, а на выходе - формируемый речевой сигнал X' . В такой интерпретации система выражений (10), (11) играет роль решающей схемы [13] в рассматриваемом канале связи. Ее эффективность характеризует коммуникативные свойства речи данного диктора. Подчеркнем еще раз, что предложенная модель распространяется на РЕ самого разного вида: от элементарных звуков - на фонетическом уровне АОР [5], [8] до целых слов и даже фраз - на морфологическом уровне обработки [7].
Критерий качества речи. Обобщенной характеристикой эффективности дискретного канала связи при учете шумов служит шенноновское количество информации [13]:
I (X, X') = H (X)-H (XX). (12)
Апостериорная энтропия источника сообщений H (X| X') имеет в данном случае смысл величины рассеяния полезной информации в процессе речеобразования, или минимальной требуемой избыточности речевого сигнала [2]. Чем больше рассеяние, тем выше степень искажений формируемого на выходе речевого тракта сигнала (по сравнению с эталоном хГ ) и тем ниже качество речи данного диктора. Таким образом, выражение (12) определяет скорость создания информации в процессе речеобразования в расчете на одну РЕ из РБД диктора.
Утверждение. В рамках теоретико-вероятностной модели речеобразования (9)-(11) скорость создания информации на выходе голосового тракта диктора в расчете на одну РЕ
I ( X, X') = (1 -а) H ( X ). (13)
Доказательство. Перепишем (12) в эквивалентном виде:
R +1 R R+1
I(X,X') = H(X) + H(X')-H(XX') = H(X)- X qr logqr + I I qrv logqrv =
r =1 v=1 r=1
R R R
= H(X) -(1 -а) I pr log [(1 -а) pr ]-а log а+ I qrr log qrr +aX pv log (apv)
r =1 r =1 v =1
и после ряда преобразований получим
I (X, X ') = H (X ) + (1 -а) H (X )-(1 -а) log [(1 -а)-а log а + R
+ (1 -а) I pr log[(1 -а)pr1\-aH(X) + alogа = (1 -а)H(X),
r=1
что и требовалось доказать.
Следствие 1. В условиях предыдущего утверждения рассеяние информации в процессе речеобразования (или минимальная требуемая избыточность речевого сигнала на выходе голосового тракта диктора) определяется прямо пропорциональной зависимостью
H ( X| X ') = aH ( X ) (14)
от энтропии источника сообщений (9).
Следствие 2. В условиях предыдущего утверждения рассеяние информации в процессе речеобразовании достигнет своей верхней границы
sup H (X|X') = a log R (15)
при равновероятном распределении РЕ в пределах РБД данного диктора.
Отметим важную деталь: полученный результат хорошо согласуется с известным неравенством Фано [13]
H(X|X') < -aloga-plogp + alog(R-1) (16)
относительно величины информационного рассеяния при применении произвольных решающих схем. Доказать это утверждение можно прямыми вычислениями и сравнением величин правых частей выражений (15) и (16) для 0 < a < 1 и 1 < R < го. Это еще одно подтверждение обоснованности доказанного утверждения (13).
Выражения (13)—(15) - главный результат проведенного исследования. В отличие от работы [2], посвященной анализу качества устной речи на основе теоретико-информационного подхода, данный результат определяет в строгом виде новый, информационный, критерий качества речи из расчета новой, теоретико-вероятностной, модели речеобразования (9)-(12), в которой учитываются индивидуальные особенности речевого механизма каждого отдельного диктора. При этом принципиальное для практики значение имеет следующее обстоятельство: вероятность ошибки первого рода (6) и энтропия РБД диктора (9) легко оцениваются по конечной выборке наблюдений с помощью простейшей формулы относительной частоты случайного события. При этом объема выборки N = 2 FT, который при частоте дискретизации речевого сигнала 16 кГц на интервалах наблюдения Т длиной всего 1 мин достигает миллиона (16 кГц х 60 с « 10 ), для РБД с R порядка 100 (на фонетическом уровне обработки речи [9]) с запасом хватает для эффективного оценивания обеих величин из правой части выражения (13).
Пример применения. Для апробации предложенного критерия поставлена и решена задача сравнительного анализа качества речи разных дикторов по ее фонетическому строю, где в роли РБД использовался набор фонетических баз данных (ФБД) из предыдущей работы автора статьи [2]. Напомним, что в состав группы тестируемых дикторов включены трое мужчин разного возраста и примерно одного уровня образования. Каждым из них был прочитан в среднем темпе один и тот же художественный текст (из первой главы романа А. С. Пушкина "Капитанская дочка") объемом в одну стандартную машинописную страницу. Полученные речевые сигналы были записаны в память ЭВМ в формате wav. Для этого применялись специальные аппаратные и программные средства: динамический микрофон AKG D77 S, ламповый микрофонный предусилитель ART TUBE MP Project Series USB, программа Sound Forge-7.0. Частота дискретизации встроенного АЦП была установлена равной 16 кГц. Длина одного сегмента данных во всех случаях составляла L = 80 отсчетов или т = 5 мс по длительности. Продолжительность записи по каждому диктору составила примерно полторы минуты.
По данным записям для каждого диктора с использованием специально созданной для этих целей на базе Matlab 6.5 информационной системы [11] сначала были выделены кластеры фонем {Xr } , а затем рассчитаны согласно определению (3) их эталонные реализации {хГ}. Требования к качеству ФБД регулировались двумя основными параметрами информационной системы: допустимым уровнем рассогласования Ар одноименных РЕ в
смысле Кульбака-Лейблера и их минимальной длительностью ALt. По каждому диктору рассматривались два варианта ФБД:
• с жесткими требованиями к однородности РЕ в пределах каждого кластера-фонемы -при Ар = 0.5 и AL = 8L отсчетов ( т = 40 мс по длительности);
• с относительно мягкими требованиями - при Ар = 1.0 и AL = 4L = 320 (т = 20 мс).
В обоих вариантах для расчета коэффициентов авторегрессии из выражения (5) применялась высокоскоростная рекуррентная процедура Берга-Левинсона [8]. Порядок АР-модели в ней был установлен одинаковым для всех дикторов и равным p = 20. Элементы матрицы информационных рассогласований |prv|| рассчитывались по той же формуле (5), но при подаче на вход r-го вычислителя эталонной реализации каждой v-й фонемы, т. е. при
* п
равенствах x = xv, v < R.
Полученные результаты иллюстрируются двумя таблицами экспериментальных данных.
В табл. 1 представлен фрагмент результирующей матрицы ||prv || для первого диктора в ее первом, т. е. жестком, варианте. Объем ФБД в данном случае составляет R = 32 единицы, а минимальная величина информационного рассогласования между фонемами prv не превышает 0.324 (выделено полужирным шрифтом). Поэтому, следуя (8), определим порог для правила (2) на уровне Р0 = 0.324. По таблицам Хм -распределения с M = 60 степенями свободы [12] найдем для этого случая вероятность ошибки первого рода: а = 0.047. Тогда величина рассеяния (15) и скорость создания информации (13) для первого диктора характеризуются следующими количественными показателями: sup H (X| X' ) = = а log R = 0.235 и sup I ( X, X ') = (1 -а) log R = 4.765 соответственно.
Аналогичные расчеты были выполнены и для двух других дикторов. Полученные результаты отражены в табл. 2. Кроме того, для сравнения был рассмотрен второй (мягкий) вариант ФБД первого диктора. Его показатели качества представлены в крайнем правом столбце той же таблицы (обозначен 1-й-б). Из анализа табл. 2 можно сделать несколько важных выводов. Во-первых, подтверждаются оценки качества речи тех же дикторов из работы [2], но только с более точными их сравнительными характеристиками: наивысшим качеством характеризуется речь второго диктора, однако речь третьего диктора ей почти не уступает по обобщенному показателю (13). Кроме того, получили строгое подтверждения интуитивные предположения [3], [5] в отношении существования некоего оптимума в па-
Таблица 1
r v
1 2 3 4 5 6 7 20 32
prv
1 0 1.024 14.792 0.8948 2.7431 1.273 0.5676 0.6758 2.3144
2 0.8046 0 10.524 1.8852 2.2442 2.6846 1.4351 1.3244 3.234
3 11.625 9.6803 0 11.877 6.5335 9.9982 15.95 13.92 4.1093
4 2.0194 1.3084 21.191 0 3.4887 0.9179 1.6385 1.4491 6.9007
5 3.2819 1.8624 3.2998 7.8007 0 5.9377 6.0817 5.1646 4.8477
6 7.2556 4.0163 16.064 0.7230 2.2032 0 6.2953 5.3611 5.2093
7 0.5402 0.9238 19.495 1.329 2.4384 1.2953 0 0.3247 6.863
8 6.9537 3.4832 0.6760 11.81 3.3038 13.159 13.456 10.053 3.2085
32 2.8951 9.8587 2.724 7.742 9.555 6.667 4.527 5.6414 0
Таблица 2
Показатель качества речи Диктор
1-й 2-й 3-й 1-й-б
Объем ФБД R 32 33 44 87
Порог ро 0.324 0.470 0.255 0.07
Вероятность ошибки а 0.047 0.010 0.088 0.332
Рассеяние информации H (XX'), бит 0.235 0.050 0.480 2.139
Скорость создания информации I (X, X' ), бит 4.765 4.994 4.979 4.304
раметрах системы фонетического анализа речи: первый, более жесткий вариант ФБД первого диктора характеризуется более высокими показателями качества речи по сравнению со вторым ее вариантом, несмотря на резкое (более чем в два раза) сокращение объема R. Сделанный вывод открывает принципиально новые перспективы для решения актуальнейшей задачи в области АОР - создания новых и модернизации существующих РБД большого объема R на основе радикального сжатия данных.
Обсуждение результатов. Задача анализа качества речи в большинстве случаев сводится исследователями к задаче об отклонении наблюдаемого сигнала относительно эталона. В рамках распространенного теоретико-вероятностного похода такая задача традиционно формулируется в терминах проверки статистических гипотез об однородности закона распределения. Задача имеет оптимальное решение, если воспользоваться нормальной, или га-уссовской аппроксимацией закона распределения речевого сигнала. Анализируемый (входной) речевой сигнал в таком случае сначала разбивается в дискретном времени на ряд последовательных сегментов (векторов) данных длиной в одну РЕ (~ 5.. .10 мс). После этого каждый парциальный сигнал рассматривается в пределах конечного списка фонем. Решение принимается в пользу той из них, которая отвечает принципу минимума статистики информационного рассогласования между входным сигналом и соответствующим эталоном. Проблема заключается в том, что указанный эталон - понятие субъективное. Никто до настоящего времени не дал его строгого определения. Возникает очевидное противоречие: наличие эталона - это условие оптимальной обработки речи, но для его (эталона) формирования потребуется, по-видимому, собственный эталон. В этом и состоит, главным образом, принципиальный общий недостаток большинства современных методов АОР. До настоящего времени указанное противоречие преодолевалось почти исключительно с применением эвристических вычислительных процедур, в частности по методу экспертных оценок. Например, все сколько-нибудь известные в мире программные разработки в области автоматического анализа качества устной речи реализуют принцип парных сравнений и корреляций, тестируя, тем самым, не столько сигналы, сколько системы их передачи и обработки. Предложенные в настоящей статье подход и новый критерий качества речи выходят далеко за рамки своих известных аналогов, причем выходят в принципиальном отношении. Тестирование речи по принципу не относительной, а абсолютной шкалы качества дает ключ к решению множества прикладных задач, которые до настоящего времени не только ни решались, но и не ставились ввиду своей сложности. Во-первых, это задача оптимизации и модернизации разнообразных РБД в условиях их естественного старения. На данный момент не создано ни одного сколько-нибудь эффективного подхода к ее решению. Например в современной информационной системе Nuance speech recognition 8.0*, все основные операции над РБД на фонетическом уровне выполняются вручную. А это весьма трудоемкая и дорогостоящая процедура. Еще одно перспективное направление для применения информационной теории качества
* http://www.nuance.com 26
речи - разнообразные задачи обучения, в частности обучения автоматизированных систем с голосовым управлением. Не надо, по-видимому, специально доказывать, что в этом направлении результат напрямую определяется качеством обучающего речевого материала.
Список литературы
1. ГОСТ Р 50840-95 Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. М.: Изд-во стандартов, 1996. 198 с.
2. Савченко В. В. Анализ качества речи на основе информационной теории восприятия // Изв. вузов России. Радиоэлектроника. 2008. Вып. 5. С. 22-32.
3. Савченко В. В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.
4. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.
5. Савченко В. В. Информационная теория обучения речи // Изв. вузов России. Радиоэлектроника. 2009. Вып. 3. С. 3-12.
6. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.
7. Савченко В. В., Акатьев Д. Ю. Автоматическое распознавание случайных сигналов по критерию минимального информационного рассогласования с переспросом // Изв. вузов России. Радиоэлектроника. 2006. Вып. 1. С. 20-29.
8. Марпл С. Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.
9. Савченко В. В. Фонема как элемент информационной теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2008. Вып. 4. С. 3-11.
10. Принципы цифровой обработки сигналов / под ред. А. В. Оппенгейма; пер с англ. М.: Мир, 1980. 550 с.
11. Св-во Роспатента РФ о гос. рег. программ для ЭВМ 2008615442. Информационная система фонетического анализа слитной речи: программа для ЭВМ / В. В. Савченко, Д. Ю. Акатьев, И. В. Губочкин и др. Выдано 14.11.08.
12. Мюллер П., Нойман П., Шторм Р. Таблицы по математической статистике / пер. с нем. М.: Финансы и статистика, 1982. 278 с.
13. Файнстейн. А. Основы теории информации / пер. с англ. М.: Изд-во иностр. лит., 1960. 136 с.
14. Савченко В.В. Автоматическое распознавание речи методом дерева на основе информационного ^+1)-элемента // Изв. вузов России. Радиоэлектроника. 2006. Вып. 4. С. 13-22.
V. V. Savchenko
Nizhniy Novgorod state linguistic university
Information theory of speech quality
On the basis of the information approach the new speech model with a casual choice of a speech signal within set of admissible realizations of a speech image is offered. The concept of "image " is defined in terms of the information theory ofperception of speech through set of the similar (same) speech units cluster united by criterion of a minimum of an information mismatch. The concept of the information standard of a speech image of the metrics of Kullback-Leybler, and on its basis - a speech database is simultaneously entered. Making a startfrom this concept and following the Shannon mathematical theory of communication, the new criterion of quality of oral speech is offered: a maximum of speed of creation of the information on an exit of a vocal path of the announcer. The example of its application in a problem of the phonetic analysis of speech is considered. Speech, speech mechanism, speech database, speech quality, information-theoretic approach, pattern recognition
Статья поступила в редакцию 13 апреля 2010 г.