Научная статья на тему 'Информационная теория качества речи'

Информационная теория качества речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
97
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЬ / РЕЧЕВОЙ МЕХАНИЗМ / РЕЧЕВАЯ БАЗА ДАННЫХ / КАЧЕСТВО РЕЧИ / ТЕОРЕТИКО-ИНФОРМАЦИОННЫЙ ПОДХОД / РАСПОЗНАВАНИЕ ОБРАЗОВ / SPEECH / SPEECH MECHANISM / SPEECH DATABASE / SPEECH QUALITY / INFORMATION-THEORETIC APPROACH / PATTERN RECOGNITION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Савченко Владимир Васильевич

На основе теоретико-информационного подхода предложена новая, теоретико-вероятностная, модель речеобразования со случайным выбором речевого сигнала в пределах множества допустимых реализаций речевого образа. Понятие "образ" при этом определяется в терминах информационной теории восприятия речи через множество подобных (однотипных) речевых единиц, объединенных в соответствующий кластер по критерию минимума информационного рассогласования. Введено понятие информационного эталона речевого образа в метрике Кульбака-Лейблера, а на его основе речевой базы данных. Отталкиваясь от этого понятия и следуя математической теории связи К. Шеннона, предложен новый критерий качества устной речи: максимум скорости создания информации на выходе голосового тракта диктора. Рассмотрен пример применения этого критерия в задаче фонетического анализа речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Information theory of speech quality

On the basis of the information approach the new speech model with a casual choice of a speech signal within set of admissible realizations of a speech image is offered. The concept of "image" is defined in terms of the information theory of perception of speech through set of the similar (same) speech units cluster united by criterion of a minimum of an information mismatch. The concept of the information standard of a speech image of the metrics of Kullback-Leybler, and on its basis a speech database is simultaneously entered. Making a start from this concept and following the Shannon mathematical theory of communication, the new criterion of quality of oral speech is offered: a maximum of speed of creation of the information on an exit of a vocal path of the announcer. The example of its application in a problem of the Phone:tic analysis of speech is considered.

Текст научной работы на тему «Информационная теория качества речи»

Системы телекоммуникации, устройства передачи, приема и обработки сигналов

УДК 621.372:519.72

В. В. Савченко

Нижегородский государственный лингвистический университет | Информационная теория качества речи*

На основе теоретико-информационного подхода предложена новая, теоретико-вероятностная, модель речеобразования со случайным выбором речевого сигнала в пределах множества допустимых реализаций речевого образа. Понятие "образ" при этом определяется в терминах информационной теории восприятия речи через множество подобных (однотипных) речевых единиц, объединенных в соответствующий кластер по критерию минимума информационного рассогласования. Введено понятие информационного эталона речевого образа в метрике Кульбака—Лейблера, а на его основе - речевой базы данных. На основе этого понятия и математической теории связи К. Шеннона, предложен новый критерий качества устной речи: максимум скорости создания информации на выходе голосового тракта диктора. Рассмотрен пример применения этого критерия в задаче фонетического анализа речи.

Речь, речевой механизм, речевая база данных, качество речи, теоретико-информационный подход, распознавание образов

В связи с непрерывным развитием и распространением на практике, в частности в технике сотовой связи, разнообразных систем автоматической обработки речи (АОР) оценивание качества речи становится одной из наиболее актуальных задач в области как теоретической, так и прикладной информатики. К сожалению, до настоящего времени строгого подхода к ее решению не существует. Более того, не существует и строгого критерия качества устной речи. Например основной нормативный документ в данном направлении [1], трактует качество речи как субъективное понятие, определяемое, главным образом, методами экспертиз или парных сравнений с эталонами. Этим обстоятельством сильно ограничиваются современные исследования в области АОР.

Проблема сводится к принципиальному противоречию между множеством используемых на практике показателей качества речи (например, требования к различимости и узнаваемости отдельных речевых единиц вступают в острое противоречие с требованиями к темпу речи). Таким образом, возникает фундаментальная научная проблема многокри-териальности качества речи. Поиску путей ее преодоления и посвящена предлагаемая статья. При этом использованы теоретико-информационный подход [2] и методология информационной теории восприятия речи [3].

Постановка задачи. Принцип действия большинства современных систем АОР основан на сопоставлении произнесенной речевой единицы (РЕ) - фонемы, морфемы, слова или целой фразы - с заранее подготовленным эталоном. Первой проблемой на этом пути

* Работа выполнена при поддержке гранта РГНФ № 09-06-12125в. © Савченко В. В., 2011

является то, что диктор в силу ряда причин, например из-за дефектов речи или слуха, в принципе не в состоянии точно повторить эталон. Выходом из такой ситуации может служить сравнение тестируемого сигнала х одновременно с несколькими эталонами

хг, j, ] = 1, Jr, г = 1; R, по каждой г-й РЕ (Я - объем речевой базы данных (РБД)). Диктору будет достаточно приблизить свое произношение к любому из них, чтобы быть правильно понятым гипотетическим слушателем. Этим существенно ослабляется рассматриваемая проблема: каждый конкретный диктор в процессе своего "говорения" выбирает наиболее удобный, достижимый для себя вариант эталонного произношения РЕ из некоторого множества альтернатив Хг = |хг j |. Одновременно становится понятным и собственно критерий "достаточной степени близости" формируемого (на выходе голосового тракта диктора) сигнала к эталону: он должен войти в границы Jr -множества эталонов рассматриваемой РЕ Хг как

полноправный, (Jr +1) -й, его элемент. Задача переходит в сугубо предметную плоскость: сначала по каждой из R рассматриваемых РЕ требуется сформировать множество (кластер) ее эталонов, или образцов |хг j | - это этап обучения речи конкретного диктора. Затем в процессе коммуникаций тестировать сигнал диктора х в отношении близости этого сигнала к всем элементам соответствующего множества Хг, т. е. вычислить вектор "расстояний" х/хг j ),

r = 1; Jr, в пределах кластера. При достаточной малости среднего по кластеру расстояния

Jr

_1 r . .

Jr Zp(x/xr,j)<Po (1)

j=i

(Po - некоторый пороговый уровень) можно гарантировать безошибочное восприятие слушателем произнесенной диктором r-й РЕ.

Отметим важную отличительную особенность правила (1): в каждый момент времени решение либо может быть принято в пользу или одной РЕ, или, вообще говоря, нескольких РЕ из используемой диктором РБД {Xr }, либо вообще не принято - для сигналов x нечеткой (маргинальной) структуры, что соответствует практике речеобразования [1], [2]: в ней не исключаются сбои и брак как их результат.

В вычислительном отношении проще задаться аналогичным (1) ограничением [3]:

Pr ( x)<P0 (2)

на расстояние от сигнала x до "центра массы" рассматриваемого кластера

x* = xr,v : J~l Z p(xr,jlxr,v) = min J~l £ p(xr,j/xr,i) = рГ . (3)

j=1 ' l<Jr j=1

При этом в процессе восприятия речи в пределах кластера Xr вместо Jr »1 расстояний согласно (1) вычисляется только одно расстояние pr (xj = р( x/x* ) до его центра xr. Центр кластера - его обобщенный эталон или эталон соответствующей РЕ, а множество таких эталонов {x* } - экономный способ задания РБД конкретного диктора {Xr} 18

или звукового ряда (строя) его разговорного языка. Именно звуковой ряд определяет в первую очередь качество устной речи подобно палитре художника в его написанных и будущих картинах. У разных людей он может сильно разниться. Еще в большей степени это относится к разным диалектам и национальным языкам.

Анализируя звуковой ряд, можно многое сказать не только о качестве речи отдельных дикторов, но и о качестве (коммуникативных свойствах) национального языка. Это весьма актуальная в условиях современной глобализации задача. Поэтому возникает закономерный интерес к проблеме выбора и обоснования строгого критерия качества устной речи. Задача в

общем случае сводится к вопросу о сравнении между собой двух разных РБД ^г } и {х* } с

точки зрения существующих требований [1] к разборчивости и узнаваемости устной речи.

Теоретико-информационный подход. Отталкиваясь от информационной теории восприятия речи [3], воспользуемся определением расстояния рг (x) по формуле величины информационного рассогласования:

Рг (x) 4 {...{1п^-^Г(dx) г } } dPr (х)

(4)

выборочного распределения (вероятностей) Р(х) тестируемого сигнала х относительно эталонного (в смысле Кульбака-Лейблера) распределения Рг (х), г = 1, R [4]. В частности, положив закон распределения Р (х) нормальным Р (х ) = N (Кх ) с выборочной матрицей автоковариаций речевого сигнала Кх с размерами пх п, будем иметь [3], [4]

рг (х) = 0.5Г №(КХКГ1)- 1п

кхкг 1

- п

С другой стороны, с учетом актуальной в задачах АОР нормировки речевого сигнала по его энтропии [5] можно записать рг (х) = 0.5 ^(КхК-1)- п .

Перейдя в частотную область, получим окончательное выражение для оптимальной решающей статистики [5], [6] в виде удвоенной удельной величины информационного рассогласования (4) в расчете на один отсчет речевого сигнала [7]:

F

Рг ( х) = F-1 I

/=1

1 - I аг (т) ехр (- j■кm/|F) т=1

-1,

Г

1 - I ах (т) ехр (-jкm/|F)

т=1

(5)

где / - дискретная частота; F - ее верхняя граница, равная половине частоты дискретизации речевого сигнала; {ах (т)}, {аг (т)} - векторы коэффициентов линейной авторегрессии (АР-коэффициентов) тестируемого сигнала х и г-го эталона хг соответственно (оба одного порядка р > 1). Выражение в числителе (5) определяет квадрат амплитудно-

частотной характеристики г-го обеляющего фильтра, настроенного на г-ю фонему хг,

2

2

r = 1, R. Это стандартная формулировка метода обеляющего фильтра в задачах АОР [5]-

[7]. Его преимуществом является прежде всего возможность практической реализации обработки в адаптивном варианте на основе быстрых вычислительных процедур АР-анализа

[8].

Анализ эффективности. Выражение (5) совместно с (2) определяет алгоритм автоматического тестирования качества речевого сигнала в сознании диктора. Как и всякое тестирование, оно сопровождается двумя альтернативными вариантами решения: сигнал x признается отвечающим требованиям (2) к качеству r-й РЕ хГ или, напротив, данные требования не выполнены и сигнал бракуется. При этом требования к качеству сигнала у разных дикторов различны и реализуются главным образом через выбор в сознании конкретного диктора порогового уровня рд, соответствующего особенностям его речевого механизма.

В зависимости от порога рд меняется вероятность ошибки в речеобразовании, т. е. брака при формировании каждой отдельной РЕ. В случае гауссовской аппроксимации речевого сигнала вероятность такой ошибки при довольно общих предположениях [6], [7]

2

определяется в терминах Хм -распределения с M степенями свободы:

а = P {рг (х) > рд |xeXr } = P {xM > M (1 + Ро)}, (6)

где P {} - вероятность случайного события; M = const.

В рамках рассматриваемой модели речевого сигнала (4), (5) требования к качеству речи в форме (6) при переходе от одной РЕ к другой не меняются, по крайней мере, на фонетическом уровне обработки [9], что хорошо согласуется с практикой речеобразования [7] и его классической моделью "акустической трубы" [10]. Это положение является ключевым для дальнейших рассуждений автора в настоящей статье.

В общем случае значение параметра M ограничено сверху объемом L = 2Fт выборки речевого сигнала х на интервалах т его приблизительной стационарности, а также порядком p обеляющего фильтра в его АР-модели (5): M « L - p [6]. Чем больше порог рд, тем меньше вероятность ошибки (6) и тем более мягкими, следовательно, становятся требования в отношении качества РЕ. И, наоборот, более жестким требованиям к качеству речи отвечает низкий порог в выражениях (2) и (6). Например, задавшись значением а = 0.1, при т = 5 мс, F = 8 кГц и p = 20 (стандартные значения параметров современной системы АОР [11]) имеем L = 80 и M = 60. По таблицам х6о-распределения [12] для уровня зна-

2

чимости Р = 1 -а = 0.99 найдем квантиль Х60 0 99 = 88.38, и по нему получим требуемый

пороговый уровень р0 = Х60 099/M -1 = 0.473. Согласно информационной теории восприятия речи [3], [5] аналогичный механизм принятия решений реализуется в сознании слушателя в процессе опознавания образов по речевому сигналу х.

С другой стороны, представляется очевидным, что для каждого отдельного диктора в каждом конкретном случае существуют жесткие ограничения сверху на пороговый уро-

вень ро при учете индивидуальных особенностей речи диктора. Указанные особенности проявляются прежде всего в ошибках речеобразования второго рода: перепутывания некоторых (проблемных) пар РЕ за счет близости соответствующих эталонов х* и х* в теоретико-информационном смысле [6]: рг* = рг (х) * , г, *< К. Чем меньше рассогласо-

х _ х*

вание рг* между РЕ, тем больше вероятность их перепутывания.

В реальных условиях [9] для типичного диктора минимум рг* на множестве всех

пар РЕ из РБД [хГ} не превышает 0.2...0.3. Это значит, что вероятность ошибки перепутывания [6], [7]

аг* = Р {рг (х) < ро |хеХу } = Р [хМ < М (1 + ро )/(1 + рг* )}, *, г < К, (7)

в условиях предыдущего примера составит величину около 0.75.

Кажется, это недопустимо много, но только не в рассматриваемой задаче. Ошибка рассматриваемого рода сама по себе, т. е. в отсутствие ошибки брака (6), означает лишь дублирование определенной РЕ в сознании диктора под разными, но все же близкими на слух, т. е. подобными, речевыми метками. Это обычное явление при речевых коммуникациях. Такая множественность не имеет, как правило, фатального значения и несет в себе лишь опасность перегрузки сознания и диктора, и слушателя ненужной, лишней информацией. (Как известно из практики [7], во многих случаях в процессе разговора диктор корректирует свое произношение отдельных РЕ, подстраиваясь под слушателя.) Если учесть, к тому же, что число пар подобных РЕ в обычных РБД не превышает 5.10 % от их суммарного объема К [9], то проблема дублирования РЕ дикторами и вовсе становится несущественной. Даже немыслимая, на первый взгляд, вероятность ошибки перепутывания аг* ~ 1 приводит к очень редким (частотой не более 0.1) фактам дублирования отдельных РЕ в потоке разговорной речи. Поэтому в свете зависимостей (6) и (7) при тестировании качества речи будем в дальнейшем исходить из простой логики рассуждений: порог ро в решающем правиле (2) устанавливается на максимально возможном для него уровне из условия

ро =(1... 2) тт рг*, (8)

г ,*

гарантирующего минимальную вероятность брака в речи диктора при умеренной частоте дублирований РЕ из близких кластеров его РБД {Хг }.

Теоретико-вероятностная модель. Следуя общим идеям теоретико-информационного подхода [2], рассмотрим каждого диктора в роли гипотетического источника дискретных сообщений X, определенных на множестве эталонов РЕ [хГ}. Исчерпывающей характеристикой коммуникативных свойств такого источника может служить скорость создания информации по Шеннону, или количество информации в расчете на одну РЕ. В предположении об идеальном речевом механизме человека-диктора и безошибочном восприятии его речи потенциальным слушателем указанное количество определяется известным выражением для шенноновской энтропии дискретного источника сообщений [13]:

H(X) = -¿P(X = хГ)logP(X = хГ) = -Rpr logpr. (9)

r=1 r=1

При этом необходимо учитывать естественное условие нормировки закона распре-

R

деления I pr = 1. В простейшем случае равновероятных РЕ, когда Vr < R : pr = 1/R, по-

r=1

лучим максимум энтропии H (X ) = log R. При взятии логарифма по основанию 2 информация измеряется в битах.

Ситуация резко усложняется, если учесть вариативность устной речи. Известно [9], что один и тот же диктор не произносит одинаково дважды даже одну и ту же фонему. В этом случае реальный сигнал на выходе его речевого тракта X' Ф X может существенно

отличаться от эталонного варианта хГ в сознании диктора. Математическая модель источника такого сигнала определяется в общем случае распределением вероятностей четких РЕ qr = P (X' = х* ), r = 1, R, и вероятностью дополнительного, (R +1) -го состояния

диктора qR+1 = P (X' Ф хГ , Vr < R), в котором учтены все выявляемые ошибки (6) в рече-

образовании по логике работы информационного (R +1) -го элемента [14].

Для заданной решающей схемы (2) путем ряда преобразований получим систему равенств

R R i \ R i \ i \

qr = I qrv = IP(X ' = хГ; X = х^) = IP(X = х^)p(х = хГ x' = х^) =

v=1 v=1 v=1

P ( X = хГ ) P ( X' = хГ|х = хГ ) = (1 -a) pr, (10)

а также

- , \ - / \ < \ R

= Iр(х*х;; х=х;)= Iр(х=х;)р(х'*х;х=1;)=^«?,=«, (и) ;=1 ;=1 ;=1

где Р(X' = х* X = х*) = 1 -а - условная вероятность г-й РЕ при безошибочном речеобра-

зовании. При этом выполняется условие нормировки распределения вида

Я +1 Я

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I qг = (1 - а) I рг + а = 1.

г=1 г=1

Выражения (8)—(11) совместно с правилом тестирования (2) и выражением для решающей статистики (5) описывают новую, теоретико-вероятностную, модель речеобразо-вания. В ней качество речи каждого диктора определяется видом используемой им РБД, точнее, видом матрицы информационных рассогласований ||рг;|| с размерами Я х Я. По

данной матрице согласно (8) сначала находится пороговый уровень р0, и после этого согласно (2) и (6) каждая отдельная РЕ на выходе голосового тракта диктора либо с вероятностью Р = 1 - а безошибочного речеобразования принимается к дальнейшему использованию в коммуникации и отображается в сознании диктора допустимой "точкой" (вариан-

том) из соответствующего множества альтернатив Xr = |xr j J, либо с вероятностью а из

использования исключается как недостаточно четко произнесенная данным диктором.

Таким образом, определяющее значение в этой модели имеет вероятность ошибки (6). Вероятность шибки второго рода (7) в ней учитывается косвенным образом - в форме ограничения сверху (8) на пороговый уровень рд. По сути, получена классическая модель

дискретного канала связи с шумами. На его входе имеем некоторый речевой образ X в сознании диктора, а на выходе - формируемый речевой сигнал X' . В такой интерпретации система выражений (10), (11) играет роль решающей схемы [13] в рассматриваемом канале связи. Ее эффективность характеризует коммуникативные свойства речи данного диктора. Подчеркнем еще раз, что предложенная модель распространяется на РЕ самого разного вида: от элементарных звуков - на фонетическом уровне АОР [5], [8] до целых слов и даже фраз - на морфологическом уровне обработки [7].

Критерий качества речи. Обобщенной характеристикой эффективности дискретного канала связи при учете шумов служит шенноновское количество информации [13]:

I (X, X') = H (X)-H (XX). (12)

Апостериорная энтропия источника сообщений H (X| X') имеет в данном случае смысл величины рассеяния полезной информации в процессе речеобразования, или минимальной требуемой избыточности речевого сигнала [2]. Чем больше рассеяние, тем выше степень искажений формируемого на выходе речевого тракта сигнала (по сравнению с эталоном хГ ) и тем ниже качество речи данного диктора. Таким образом, выражение (12) определяет скорость создания информации в процессе речеобразования в расчете на одну РЕ из РБД диктора.

Утверждение. В рамках теоретико-вероятностной модели речеобразования (9)-(11) скорость создания информации на выходе голосового тракта диктора в расчете на одну РЕ

I ( X, X') = (1 -а) H ( X ). (13)

Доказательство. Перепишем (12) в эквивалентном виде:

R +1 R R+1

I(X,X') = H(X) + H(X')-H(XX') = H(X)- X qr logqr + I I qrv logqrv =

r =1 v=1 r=1

R R R

= H(X) -(1 -а) I pr log [(1 -а) pr ]-а log а+ I qrr log qrr +aX pv log (apv)

r =1 r =1 v =1

и после ряда преобразований получим

I (X, X ') = H (X ) + (1 -а) H (X )-(1 -а) log [(1 -а)-а log а + R

+ (1 -а) I pr log[(1 -а)pr1\-aH(X) + alogа = (1 -а)H(X),

r=1

что и требовалось доказать.

Следствие 1. В условиях предыдущего утверждения рассеяние информации в процессе речеобразования (или минимальная требуемая избыточность речевого сигнала на выходе голосового тракта диктора) определяется прямо пропорциональной зависимостью

H ( X| X ') = aH ( X ) (14)

от энтропии источника сообщений (9).

Следствие 2. В условиях предыдущего утверждения рассеяние информации в процессе речеобразовании достигнет своей верхней границы

sup H (X|X') = a log R (15)

при равновероятном распределении РЕ в пределах РБД данного диктора.

Отметим важную деталь: полученный результат хорошо согласуется с известным неравенством Фано [13]

H(X|X') < -aloga-plogp + alog(R-1) (16)

относительно величины информационного рассеяния при применении произвольных решающих схем. Доказать это утверждение можно прямыми вычислениями и сравнением величин правых частей выражений (15) и (16) для 0 < a < 1 и 1 < R < го. Это еще одно подтверждение обоснованности доказанного утверждения (13).

Выражения (13)—(15) - главный результат проведенного исследования. В отличие от работы [2], посвященной анализу качества устной речи на основе теоретико-информационного подхода, данный результат определяет в строгом виде новый, информационный, критерий качества речи из расчета новой, теоретико-вероятностной, модели речеобразования (9)-(12), в которой учитываются индивидуальные особенности речевого механизма каждого отдельного диктора. При этом принципиальное для практики значение имеет следующее обстоятельство: вероятность ошибки первого рода (6) и энтропия РБД диктора (9) легко оцениваются по конечной выборке наблюдений с помощью простейшей формулы относительной частоты случайного события. При этом объема выборки N = 2 FT, который при частоте дискретизации речевого сигнала 16 кГц на интервалах наблюдения Т длиной всего 1 мин достигает миллиона (16 кГц х 60 с « 10 ), для РБД с R порядка 100 (на фонетическом уровне обработки речи [9]) с запасом хватает для эффективного оценивания обеих величин из правой части выражения (13).

Пример применения. Для апробации предложенного критерия поставлена и решена задача сравнительного анализа качества речи разных дикторов по ее фонетическому строю, где в роли РБД использовался набор фонетических баз данных (ФБД) из предыдущей работы автора статьи [2]. Напомним, что в состав группы тестируемых дикторов включены трое мужчин разного возраста и примерно одного уровня образования. Каждым из них был прочитан в среднем темпе один и тот же художественный текст (из первой главы романа А. С. Пушкина "Капитанская дочка") объемом в одну стандартную машинописную страницу. Полученные речевые сигналы были записаны в память ЭВМ в формате wav. Для этого применялись специальные аппаратные и программные средства: динамический микрофон AKG D77 S, ламповый микрофонный предусилитель ART TUBE MP Project Series USB, программа Sound Forge-7.0. Частота дискретизации встроенного АЦП была установлена равной 16 кГц. Длина одного сегмента данных во всех случаях составляла L = 80 отсчетов или т = 5 мс по длительности. Продолжительность записи по каждому диктору составила примерно полторы минуты.

По данным записям для каждого диктора с использованием специально созданной для этих целей на базе Matlab 6.5 информационной системы [11] сначала были выделены кластеры фонем {Xr } , а затем рассчитаны согласно определению (3) их эталонные реализации {хГ}. Требования к качеству ФБД регулировались двумя основными параметрами информационной системы: допустимым уровнем рассогласования Ар одноименных РЕ в

смысле Кульбака-Лейблера и их минимальной длительностью ALt. По каждому диктору рассматривались два варианта ФБД:

• с жесткими требованиями к однородности РЕ в пределах каждого кластера-фонемы -при Ар = 0.5 и AL = 8L отсчетов ( т = 40 мс по длительности);

• с относительно мягкими требованиями - при Ар = 1.0 и AL = 4L = 320 (т = 20 мс).

В обоих вариантах для расчета коэффициентов авторегрессии из выражения (5) применялась высокоскоростная рекуррентная процедура Берга-Левинсона [8]. Порядок АР-модели в ней был установлен одинаковым для всех дикторов и равным p = 20. Элементы матрицы информационных рассогласований |prv|| рассчитывались по той же формуле (5), но при подаче на вход r-го вычислителя эталонной реализации каждой v-й фонемы, т. е. при

* п

равенствах x = xv, v < R.

Полученные результаты иллюстрируются двумя таблицами экспериментальных данных.

В табл. 1 представлен фрагмент результирующей матрицы ||prv || для первого диктора в ее первом, т. е. жестком, варианте. Объем ФБД в данном случае составляет R = 32 единицы, а минимальная величина информационного рассогласования между фонемами prv не превышает 0.324 (выделено полужирным шрифтом). Поэтому, следуя (8), определим порог для правила (2) на уровне Р0 = 0.324. По таблицам Хм -распределения с M = 60 степенями свободы [12] найдем для этого случая вероятность ошибки первого рода: а = 0.047. Тогда величина рассеяния (15) и скорость создания информации (13) для первого диктора характеризуются следующими количественными показателями: sup H (X| X' ) = = а log R = 0.235 и sup I ( X, X ') = (1 -а) log R = 4.765 соответственно.

Аналогичные расчеты были выполнены и для двух других дикторов. Полученные результаты отражены в табл. 2. Кроме того, для сравнения был рассмотрен второй (мягкий) вариант ФБД первого диктора. Его показатели качества представлены в крайнем правом столбце той же таблицы (обозначен 1-й-б). Из анализа табл. 2 можно сделать несколько важных выводов. Во-первых, подтверждаются оценки качества речи тех же дикторов из работы [2], но только с более точными их сравнительными характеристиками: наивысшим качеством характеризуется речь второго диктора, однако речь третьего диктора ей почти не уступает по обобщенному показателю (13). Кроме того, получили строгое подтверждения интуитивные предположения [3], [5] в отношении существования некоего оптимума в па-

Таблица 1

r v

1 2 3 4 5 6 7 20 32

prv

1 0 1.024 14.792 0.8948 2.7431 1.273 0.5676 0.6758 2.3144

2 0.8046 0 10.524 1.8852 2.2442 2.6846 1.4351 1.3244 3.234

3 11.625 9.6803 0 11.877 6.5335 9.9982 15.95 13.92 4.1093

4 2.0194 1.3084 21.191 0 3.4887 0.9179 1.6385 1.4491 6.9007

5 3.2819 1.8624 3.2998 7.8007 0 5.9377 6.0817 5.1646 4.8477

6 7.2556 4.0163 16.064 0.7230 2.2032 0 6.2953 5.3611 5.2093

7 0.5402 0.9238 19.495 1.329 2.4384 1.2953 0 0.3247 6.863

8 6.9537 3.4832 0.6760 11.81 3.3038 13.159 13.456 10.053 3.2085

32 2.8951 9.8587 2.724 7.742 9.555 6.667 4.527 5.6414 0

Таблица 2

Показатель качества речи Диктор

1-й 2-й 3-й 1-й-б

Объем ФБД R 32 33 44 87

Порог ро 0.324 0.470 0.255 0.07

Вероятность ошибки а 0.047 0.010 0.088 0.332

Рассеяние информации H (XX'), бит 0.235 0.050 0.480 2.139

Скорость создания информации I (X, X' ), бит 4.765 4.994 4.979 4.304

раметрах системы фонетического анализа речи: первый, более жесткий вариант ФБД первого диктора характеризуется более высокими показателями качества речи по сравнению со вторым ее вариантом, несмотря на резкое (более чем в два раза) сокращение объема R. Сделанный вывод открывает принципиально новые перспективы для решения актуальнейшей задачи в области АОР - создания новых и модернизации существующих РБД большого объема R на основе радикального сжатия данных.

Обсуждение результатов. Задача анализа качества речи в большинстве случаев сводится исследователями к задаче об отклонении наблюдаемого сигнала относительно эталона. В рамках распространенного теоретико-вероятностного похода такая задача традиционно формулируется в терминах проверки статистических гипотез об однородности закона распределения. Задача имеет оптимальное решение, если воспользоваться нормальной, или га-уссовской аппроксимацией закона распределения речевого сигнала. Анализируемый (входной) речевой сигнал в таком случае сначала разбивается в дискретном времени на ряд последовательных сегментов (векторов) данных длиной в одну РЕ (~ 5.. .10 мс). После этого каждый парциальный сигнал рассматривается в пределах конечного списка фонем. Решение принимается в пользу той из них, которая отвечает принципу минимума статистики информационного рассогласования между входным сигналом и соответствующим эталоном. Проблема заключается в том, что указанный эталон - понятие субъективное. Никто до настоящего времени не дал его строгого определения. Возникает очевидное противоречие: наличие эталона - это условие оптимальной обработки речи, но для его (эталона) формирования потребуется, по-видимому, собственный эталон. В этом и состоит, главным образом, принципиальный общий недостаток большинства современных методов АОР. До настоящего времени указанное противоречие преодолевалось почти исключительно с применением эвристических вычислительных процедур, в частности по методу экспертных оценок. Например, все сколько-нибудь известные в мире программные разработки в области автоматического анализа качества устной речи реализуют принцип парных сравнений и корреляций, тестируя, тем самым, не столько сигналы, сколько системы их передачи и обработки. Предложенные в настоящей статье подход и новый критерий качества речи выходят далеко за рамки своих известных аналогов, причем выходят в принципиальном отношении. Тестирование речи по принципу не относительной, а абсолютной шкалы качества дает ключ к решению множества прикладных задач, которые до настоящего времени не только ни решались, но и не ставились ввиду своей сложности. Во-первых, это задача оптимизации и модернизации разнообразных РБД в условиях их естественного старения. На данный момент не создано ни одного сколько-нибудь эффективного подхода к ее решению. Например в современной информационной системе Nuance speech recognition 8.0*, все основные операции над РБД на фонетическом уровне выполняются вручную. А это весьма трудоемкая и дорогостоящая процедура. Еще одно перспективное направление для применения информационной теории качества

* http://www.nuance.com 26

речи - разнообразные задачи обучения, в частности обучения автоматизированных систем с голосовым управлением. Не надо, по-видимому, специально доказывать, что в этом направлении результат напрямую определяется качеством обучающего речевого материала.

Список литературы

1. ГОСТ Р 50840-95 Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. М.: Изд-во стандартов, 1996. 198 с.

2. Савченко В. В. Анализ качества речи на основе информационной теории восприятия // Изв. вузов России. Радиоэлектроника. 2008. Вып. 5. С. 22-32.

3. Савченко В. В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.

4. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.

5. Савченко В. В. Информационная теория обучения речи // Изв. вузов России. Радиоэлектроника. 2009. Вып. 3. С. 3-12.

6. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.

7. Савченко В. В., Акатьев Д. Ю. Автоматическое распознавание случайных сигналов по критерию минимального информационного рассогласования с переспросом // Изв. вузов России. Радиоэлектроника. 2006. Вып. 1. С. 20-29.

8. Марпл С. Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.

9. Савченко В. В. Фонема как элемент информационной теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2008. Вып. 4. С. 3-11.

10. Принципы цифровой обработки сигналов / под ред. А. В. Оппенгейма; пер с англ. М.: Мир, 1980. 550 с.

11. Св-во Роспатента РФ о гос. рег. программ для ЭВМ 2008615442. Информационная система фонетического анализа слитной речи: программа для ЭВМ / В. В. Савченко, Д. Ю. Акатьев, И. В. Губочкин и др. Выдано 14.11.08.

12. Мюллер П., Нойман П., Шторм Р. Таблицы по математической статистике / пер. с нем. М.: Финансы и статистика, 1982. 278 с.

13. Файнстейн. А. Основы теории информации / пер. с англ. М.: Изд-во иностр. лит., 1960. 136 с.

14. Савченко В.В. Автоматическое распознавание речи методом дерева на основе информационного ^+1)-элемента // Изв. вузов России. Радиоэлектроника. 2006. Вып. 4. С. 13-22.

V. V. Savchenko

Nizhniy Novgorod state linguistic university

Information theory of speech quality

On the basis of the information approach the new speech model with a casual choice of a speech signal within set of admissible realizations of a speech image is offered. The concept of "image " is defined in terms of the information theory ofperception of speech through set of the similar (same) speech units cluster united by criterion of a minimum of an information mismatch. The concept of the information standard of a speech image of the metrics of Kullback-Leybler, and on its basis - a speech database is simultaneously entered. Making a startfrom this concept and following the Shannon mathematical theory of communication, the new criterion of quality of oral speech is offered: a maximum of speed of creation of the information on an exit of a vocal path of the announcer. The example of its application in a problem of the phonetic analysis of speech is considered. Speech, speech mechanism, speech database, speech quality, information-theoretic approach, pattern recognition

Статья поступила в редакцию 13 апреля 2010 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.