Теория сигналов
УДК 621.372:519.72
В. В. Савченко
Нижегородский государственный лингвистический университет
I Анализ качества речи на основе информационной теории восприятия1
Излагаются базовые элементы информационной теории восприятия речи. Вводится понятие ее фонетического строя через описание каждой фонемы в виде кластера, составленного из множества элементарных речевых единиц по принципу минимума их информационного рассогласования. Ставится и решается задача оценивания качества речи по ее фонетическому строю. Дается теоретико-информационное обоснование критерия минимума требуемой избыточности речи.
Речь, речевой механизм, фонетический строй, качество речи, теоретико-информационный подход
Определяющей особенностью человеческого мозга является его способность к абстрактному, или образному мышлению. Каждый образ в сознании человека имеет собственную "речевую метку" - своего рода код данного образа. В зависимости от сложности описания образов варьируется в широких пределах и сложность их речевых кодов: от отдельных звуков (фонем) до целых слов и высказываний. По этим кодам образы и различаются между собой (опознаются) в процессе межличностных коммуникаций. В таком случае и сами коды-метки должны различаться между собой - это главное требование к качеству членораздельной речи.
С другой стороны, одно и то же явление в речи разных людей обозначается похожими, но все же разными даже на слух, "речевыми метками". Иными словами, каждая "речевая метка" в сознании человека-слушателя ассоциируется с некоторым собственным речевым образом, включающим в себя множество всех мыслимых его реализаций. Задача опознавания первичных образов в процессе межличностных коммуникаций преобразуется в таком случае в задачу классификации (различения) их меток-реализаций. С указанной точки зрения качество речи - понятие производное, зависящее прежде всего от характеристик различимости между собой или разборчивости используемого человеком-диктором набора речевых сигналов. Добавим к изложенному, что именно устная разговорная речь является наиболее информативной формой осуществления человеческих коммуникаций, а ее базовым определяющим звеном служит звуковой, или фонетический строй.
Как связаны его состав и свойства отдельных элементов с особенностями речевого механизма конкретного диктора? И как сравнить двух или более разных дикторов между собой по фонетическому строю их речи? Ответы на эти и подобные им вопросы и составляют главное содержание настоящей статьи, причем в изложенном материале использованы подходы и методы информационной теории восприятия речи (ИТВР) [1].
1 Работа выполнена при поддержке гранта РФФИ 07-07-12042-офи. 22
© Савченко В. В., 2008
Элементы ИТВР. Несмотря на существующие различия в разных метках одного и того же речевого образа (в дальнейшем будем называть их одноименными) все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. По-
этому можно утверждать, что одноименные метки-реализации хгу, у = 1, Зг, Зг >> 1, в сознании человека группируются в соответствующие множества Хг = {ху}, г = 1, Я, типа кластеров речевых сигналов с однородными распределениями. Каждый такой кластер имеет четко очерченные границы вокруг некоторого центра - эталонной метки данного образа. В ИТВР указанные эталоны определяются в строгом теоретико-информационном смысле: речевая метка хГ с Хг образует информационный центр-эталон г-го речевого образа, если в пределах множества Хг она характеризуется минимальной суммой информационных рассогласований по Кульбаку-Лейблеру относительно всех других его меток-реализаций
хгу, у = 1, Jr . Анализируемый (слышимый) речевой сигнал х в пределах конечного множества кластеров {Хг} отождествляется исследователем с тем Ху из них, которому отвечает минимум информационного рассогласования между вектором х и соответствующим эталоном х^, V < Я . Это известная [2] формулировка критерия минимума информационного
рассогласования (МИР) в задачах автоматической обработки и распознавания речи.
Главная цель обработки речи на базовом (фонетическом) уровне состоит в определении состава и свойств минимальных (элементарных) речевых единиц (ЭРЕ), полученных линейным членением речевого сигнала х , причем каждой фонеме соответствует свой собственный кластер ЭРЕ Хг, г = 1, Я. Именно через понятие информационного эталона последнего дается одновременно информативное и компактное описание каждой фонемы.
Множество же речевых меток {хГ} определяет в конечном итоге фонетический строй речи (ФСР) данного диктора. Задача анализа качества речи сводится в данном случае к статистическому (по выборке) оцениванию ФСР для разных дикторов и разных условий с последующим сравнением полученных результатов между собой. Это типичная задача статистической классификации сигналов с обучением.
Критерий МИР с обучением. Задача имеет оптимальное решение, если воспользоваться нормальной аппроксимацией закона распределения ЭРЕ общего вида Рг = N (Кг ),
где Кг - автокорреляционная матрица (АКМ) с размерами пхп, п > 1 [2], [3]. Анализируемый (входной) речевой сигнал Х0) в дискретном времени ^ = 0, 1, ... сначала разбивается на ряд последовательных сегментов (векторов) данных х = х 0) длиной в одну ЭРЕ (обычно, 5___15 мс) [4]. После этого каждый сегмент рассматривается в пределах конечного списка фонем {Хг}. Решение принимается в пользу фонемы Ру, V < Я, по признаку минимума у-й решающей статистики из следующего выражения:
рг ( х) = [1/( 2п)] [ 1г (Кк-1) - 1оё |КК-1| - п], г = 1Я , (1)
где K - выборочная оценка АКМ; tr(-) - трек матрицы. Статистика pv (x) определяет при
этом удельную (на один отсчет данных) величину информационного рассогласования (ВИР) [5] между выборочным распределением сигнала на входе и v-м гипотетическим нормальным распределением. В задачах с априорной неопределенностью в выражение (1) подставляют статистические оценки альтернативных АКМ по R классифицированным выборкам наблюдений. Это стандартная формулировка критерия МИР с обучением.
Предположим, что кластер каждой фонемы Xr представлен по-прежнему конечным
(объема Jr > 1) множеством своих векторов-реализаций xrj, j = 1, Jr , составленных из L последовательных во времени отсчетов одноименных ЭРЕ {xrj (t)} с периодом T = const.
Рассматривая каждую такую реализацию в режиме "скользящего окна" длиной n отсчетов (n « L), будем иметь (L -n) векторов-столбцов данных {xrj;} размером n = const каждый. Используя формулу среднего арифметического, определим по ним выборочную оценку для АКМ гипотетического нормального распределения Krj, j = 1, Jr , которая совместно с выражением (1) определяет матрицу (с размерами Jr х Jr) информационных рассогласований между одноименными метками вида
, jk = 1J . (2)
После суммирования ее элементов по столбцам получим следующее определение информационного центра-эталона кластера r-й фонемы:
хГ = xr0 = arg min prk, r = 1, R . (3)
k
Выборочная оценка АКМ KrQ при равенстве j = 9 и определяет, в конечном итоге, оптимальную r-ю решающую статистику в выражении (1). В зависимости от состава кластера Xr положение (значение) эталона (3) будет меняться. Чем больше объем Jr кластера, тем устойчивее и, следовательно, точнее определяется соответствующий эталон.
Таким образом, выражениями (1)-(3) представлен оптимальный по критерию МИР алгоритм автоматической классификации ЭРЕ в составе слитной речи с предварительным его обучением на заданном R-множестве (списке) фонем {Xr}.
При отсутствии априори классифицированных выборок, т. е. в задачах распознавании образов "без учителя", возникают проблемы. Автоматический анализ фонетического состава речи чаще всего относится именно к такому кругу задач. И статистические характеристики фонем, и их используемое каждым диктором число R в пределах национального языка зависят прежде всего от особенностей речевого аппарата диктора. Поэтому в данном случае требуется алгоритм с самообучением или адаптивный алгоритм, подобный предложенному в работе [6] как информационный (R +1) -элемент.
Синтез адаптивного алгоритма. Задача составления списка фонем сводится к последовательности задач статистической классификации "с учителем" при переменном (нарастающем) числе альтернатив R = 1, 2, .... 24
^г = ||Prjk||> Prjk - (V2n)
tr
к к—1
rj rk
log
K,
rj
Krk
n
На некотором временном интервале длительностью в одну ЭРЕ (т = 5___15 мс) зафиксируем конечное число отсчетов Ь речевого сигнала X и), получив тем самым минимальный сегмент данных = {х1, ..., хь} в качестве первой обучающей выборки Х} для оценивания АКМ первой ЭРЕ рассматриваемого речевого сигнала. Соответствующий закон распределения Р1 = N (К) - первый элемент первого кластера из формируемого списка фонем. Приравняем Я = 1 и возьмем для анализа второй сегмент данных Х2 = {хь+1, •••, Х2ь}. Следуя общему выражению для решающей статистики МИР (1), определим для него удельную ВИР:
р (X2, Хг ) = рг (X)х = ^ (4)
относительно первой ЭРЕ, т. е. при г = 1. Полученный результат сопоставим с некоторым пороговым уровнем пороговой величины рассогласований сверху между одноименными реализациями одних и тех же фонем устной речи:
Р ( X2, Хг ) <ро. (5)
При нарушении данного неравенства внесем в формируемый список фонем этот сегмент как второй элемент, а число выявленных фонем Я увеличим на единицу. В противном случае примем решение об объединении выборок Х1 и Х2 в один речевой образ Р1 в качестве одной ЭРЕ удвоенной длительности Ьг = 2Ь, если выборки смежные, или двух разных реализаций первой фонемы, если выборки не стыкуются. Равенство Я = 1 в обоих случаях сохраняется.
В форме условия (5) реализуется проверка гипотез об однородности выборок, а понятие фонемы определяется в данном алгоритме как кластер однородных ЭРЕ по критерию МИР. Это типичная формулировка информационного (Я +1) -элемента.
Вычисления по схеме (4), (5) повторяются для всех последующих сегментов данных из речевого сигнала Х (^), причем "нарастающим итогом" относительно изменяемого значения
Я = 2, 3, ____Каждый очередной сегмент данных сопоставляется по правилу (5) одновременно
со всеми Я множествами {Хг} из текущего списка фонем. При этом не исключается возможность объединения одного и того же сегмента данных с элементами одновременно нескольких разных множеств. В результате будет сформирован список фонем с некоторым числом элементов Я - важная характеристика как речевого сигнала, так и самого диктора: чем больше значение Я для конкретного диктора, тем богаче с фундаментальной фонетической точки зрения его речь. Это первый очевидный вывод по результатам любого фонетического анализа речи.
В рамках рассматриваемого адаптивного подхода возникает, однако, очевидная проблема: чрезмерно большое число фонем в речи диктора - признак ее нечеткости или недостаточно высокого качества произношения. С точки зрения качества речи первостепенный интерес, безусловно, представляет собой множество четких ЭРЕ, которое в таком случае и следует считать основным итогом ФАР. Поэтому логика подсказывает, что после выполнения алгоритма некоторые "фонемы" из окончательного списка можно исключить как маргинальные.
Следуя такой логике, рассортируем полученные множества {Xr} в два вида фонем -
четкие и сомнительные. В качестве критерия используем ограничение на минимальную длительность реализаций фонем:
Lr > Lo, (6)
где Lo = const - некоторый пороговый уровень.
Выражения (4)-(6) в совокупности определяют адаптивный алгоритм формирования R множеств реализаций каждой фонемы для последующего определения по ним соответствующего списка их информационных центров-эталонов (3). В результате создается адаптивная, самонастраиваемая на одного или на группу разных дикторов фонетическая база данных (ФБД) для ее дальнейшего применения в задачах ФАР согласно критерию МИР. Для эффективного решения подобных задач в работе [2] предложен адаптивный метод обеляющего фильтра, основанный на авторегрессионной (АР) модели ЭРЕ и на рекуррентных вычислительных процедурах их корреляционно-спектрального анализа [7].
Метод обеляющего фильтра. Главное достоинство АР-модели состоит, как известно [1], в возможности предварительной нормировки речевых сигналов по дисперсиям их порождающих процессов. Применительно к сигналам типа ЭРЕ такая нормировка обусловлена физическими особенностями голосового механизма человека: воздушный поток на входе его модели "акустической трубы" [4] имеет приблизительно одну и ту же интенсивность на интервалах длительностью в целое слово или в целую даже фразу. При учете этого свойства выражение для решающей статистики МИР (1) приобретет предельно простой вид:
2
1
Pr (x) = — £
F f=1
M
1 + X ar (m ) exp ( - jnmf/F ) m=1
M
1, (7)
2
1 + X ах ( т ) ехР ( - )
т=1
где / < F - дискретная частота; {ах (т)} и {аг (т)} - векторы АР-коэффициентов входного сигнала и г-го эталона соответственно (оба порядка М > 1). Это стандартная [8] формулировка метода обеляющего фильтра (МОФ) в частотной области.
Определение ФБД согласно списку эталонных ЭРЕ (3), полученному по МОФ в его адаптивной формулировке (4)-(7), - первый шаг по направлению к оценке качества речи. Вторым шагом в том же направлении будет анализ информационных свойств полученной ФБД.
В работе [3], в частности, показано, что эффективность МОФ зависит прежде всего от матрицы (имеющей размеры Я х Я) значений информационных рассогласований ||руг||
между гипотетическими распределениями центров разных фонем хГ с Хг, г = 1, Я, в пределах одного списка {хГ}. Это вытекает из следующего выражения для вероятности пере-путывания у-й фонемы с г-й в задаче их автоматического распознавания:
аУг ± Р {рг (х) < ру (х)хеХу } = [1 - Ф^,к (1 + рУг )], V Ф г < Я, (8)
где Р {■} - символ вероятности случайного события; Фк к- интегральная функция Р-распределения Фишера с (к, к) степенями свободы; к = Ь -М; Ь = т/Т »1. Чем больше ВИР между рассматриваемыми фонемами руг = рг ( х ) * , тем меньше вероятность
х _ ху
ошибок при их распознавании. Например, зафиксировав вероятность (8) на приемлемом уровне а уг = 0.05, для к = 60 придем с помощью таблиц Р-распределения [9] к пороговому значению ВИР, равному р* « 0.53. По своей сути данное значение определяет требования к минимальной различимости фонем по критерию МИР. Таким образом, матрица информационных рассогласований фонем ||руг|| (ИРФ) и (вслед за ней) матрица вероятностей перепутывания фонем ||ауг|| (ВПФ) - первый уровень теоретико-информационного
описания ФБД. Его цель - подготовка данных для анализа качества речи диктора.
Критерии качества. Следуя общим идеям теоретико-информационного подхода [1], будем рассматривать каждого диктора в роли некоторого источника сообщений X е {Хг},
определенного на Я-множестве его кластеров-фонем. Исчерпывающей характеристикой коммуникативных свойств такого источника может служить информационная емкость ФБД, или количество информации в расчете на одну фонему. В предположении об идеальном речевом механизме человека-диктора и безошибочном восприятии его речи слушателем указанное количество определяется известным выражением для шенноновской
энтропии дискретного источника сообщений X е {хГ} вида
R , R
v * ~ т ; ~ rr ^ы Pr • r=1 r=1
H (x) á £ P (X = x* ) log2 P (X = x* ) = £ Pr log2 Pr • (9)
При этом нужно учитывать естественное условие нормировки его закона распреде-Я
ления: £ рг = 1. В простейшем случае равновероятных фонем, когда \/г < Я: рг = 1/Я, г=1
получим максимальную энтропию: Н (X) = log2 Я бит на каждую фонему.
Ситуация, однако, резко усложняется, если учитывать проблему вариативности речи. Один и тот же диктор не произносит одинаково дважды даже одну и ту же фонему. В таком случае и восприятие его речи некоторым условным слушателем принципиально носит вероятностный характер. Критерий МИР - оптимальный вариант для такого рода восприятия. Иными словами, сигнал на выходе речевого тракта диктора X отображается в сознании другого человека - слушателя - несовпадающим с ним (в общем случае искаженным) речевым образом X' е {хГ} * X. В результате в процессе восприятия речи с вероятностью (8) возникают ошибки перепутывания отдельных фонем. При этом решающее значение имеет степень искажений каждого речевого образа X'.
Искаженный образ сигнала X' как дискретный источник сообщений характеризуется соответствующим "искаженным" законом распределения вероятностей своих состояний: qг = Р (X' = х* ) * рг, г = 1, Я, для которого по-прежнему выполняется тождест-
R
во ^ qr = 1. Следуя теории энтропии Шеннона и (9), определим для данного случая инфор-
г=1
мационную емкость результирующей ФБД по формуле разности двух энтропий - априорной и апостериорной - для Я-позиционного источника сообщений: I ( X, X') = Н ( X ) - Н ( ').
Апостериорная энтропия Н ( Х|Х') в рассматриваемом случае имеет смысл величины рассеяния полезной информации в процессе восприятия речи, или минимальной требуемой избыточности (МТИ) речевого сигнала для его безошибочного восприятия. В расчете на одну его фонему будем иметь относительную величину требуемой избыточности (ОВТИ) и соответствующий критерий качества речи вида:
П = Н (Х|Х ')/н (X) ^ шт. (10)
Чем меньше значение ОВТИ п, тем выше различимость (разборчивость) отдельных ЭРЕ в речи данного диктора, и тем меньше "переспросов" [10] она потребуют в среднем в процессе осуществляемых коммуникаций.
Результаты вычислений. Используя симметричную форму записи выражения для количества информации, получим следующее выражение:
Я Я Я
I (X, X') 4 н (X0 - н (X1X) = -X qr 1082 qr + Е Рг Е qvr ^2 qvr
Г =1 Г=1 У=1
или, в предположении о равной вероятности всех фонем
Я Я Я
I(X, X') = - £ qr 10Б2 qr + Я-1 ЕЕ qvr 1о§2 qvr , (11)
Г =1 Г =1 У=1
где qvr = Р (X' = х* X = х^) - условная вероятность формирования г-го речевого образа хГ, г = 1, Я, в сознании слушателя по результатам распознавания по критерию МИР текущей реализации фонемы х^ . При равенстве г = v qvv = Р (X' = х
вероятность безошибочного распознавания у-й фонемы. Определим в явном виде обе указанные вероятности.
Сопоставив условную вероятность qvr с вероятностью перепутывания у-й фонемы (8), путем несложных рассуждений при ауг ^ 1 придем к приближенному равенству
qvr = Р{рг (хС) = = Р{рг (хС)<Р1(хС), Рг (хС)<РЯ (хС)} ~
« Р {рг (хС ) <Ру (хС )} =аУГ . (12)
В таком случае набор вероятностей безошибочного восприятия фонем от данного диктора примет вид
Я Я _
qvv =1 - Е qvr -1 - Е ачг - а™, ^1 Я (13)
г=1,г Фч г=1, г ФЧ
X = xV ), v = 1,R есть
а вероятность появления каждой из них в сознании слушателя
Я Я _
Чг = Е РуЧуг = Я— Е Чуг, г = 1Я- (14)
Выражения (12)-(14) в совокупности определяют искомое количество информации (11), а вслед за ним, и МТИ речевого сигнала
Я Я Я
Н (X') = 1о§2 Я + £ Чг 1082 Чг - Я_1 ЕЕ Чуг 1о§2 Чуг (15)
г=1 г=1 У=1
в зависимости от параметров сформированной ФБД (главным образом, от ее матрицы условных вероятностей ||ауг||). При сделанных ранее допущениях о свойствах матрицы поЯ Я
лучим следующее приближение: Н («-Я-1 ЕЕ ауг 1о§2 ауг . Этот результат со-
г =1 У=1
вместно с (10) определяет алгоритм предельно упрощенного вида для вычислений ОВТИ:
( Я Я I \
п = Я"1
(16)
Е Е avr lo§2 avr lo§2 R
V r=1 v=1 / у
С точки зрения применения данного алгоритма весьма важно, что входящие в выражение (16) вероятности перепутывания фонем {avr, r ф v} , как и вероятности их безошибочного восприятия {a vv}, могут быть оценены по конечной выборке наблюдений с помощью стандартной формулы относительной частоты. При увеличении вероятностей перепутывания в сумме по всей ФБД качество речи пропорционально понижается. Количественные оценки указанной зависимости получены в ходе экспериментальных исследований предложенного критерия в типовой задаче ФАР (см. далее).
Программа экспериментальных исследований. Для экспериментальных исследований выбрана группа из трех дикторов - мужчин разного возраста и примерно одного уровня образования. Каждым из них был прочитан в среднем темпе один и тот же художественный текст из первой главы романа А. С. Пушкина "Капитанская дочка" объемом в одну машинописную страницу. Полученные речевые сигналы записывались в память компьютера. Для этого применялись специальные аппаратные и программные средства: динамический микрофон AKG D77 S, ламповый микрофонный предусилитель ART TUBE MP Project Series USB, программа Sound Forge-7.0. Частота дискретизации встроенного АЦП устанавливалась равной 16 кГц - стандартному значению при обработке разговорной речи. Продолжительность записи по каждому диктору составила полторы - две минуты.
Для каждого диктора согласно алгоритму ФАР (4)-(6) выделены множества четких одноименных ЭРЕ {Xr}, а затем в соответствии с определением (3) - их информационные центры-эталоны {хГ }. Длина сегмента данных во всех случаях составляла L = 80 отсчетов или т = 5 мс . Для расчета коэффициентов авторегрессии из выражения (7) применялась рекуррентная процедура Берга-Левинсона [7], обладающая наиболее высокой скоростью сходимости по сравнению с ее известными аналогами. Порядок АР-модели установлен для всех дикторов одинаковым и равным M = 30 - близкому к оптимальному ва-
риант в условиях эксперимента [8]. Элементы матрицы ИРФ ||руг|| рассчитывались по той же формуле (7), но при подаче на вход вычислителя эталонной реализации каждой у-й фонемы, т. е. при х = х^, у< Я, а элементы матрицы ВПФ ||ауг|| - по формуле (8). Число
степеней свободы распределения Фишера устанавливалось равным к = Ь - М = 60 для всех дикторов и всех вариантов ФБД.
Первым результатом проведенных исследований явился вывод об условном, субъективном характере самого понятия ФБД и, как следствие, сомнение в отношении объективности любых основанных на конкретной ФБД оценок качества речи. Так, в зависимости от предъявляемых требований (5), (6) к степени однородности распределений ЭРЕ в пределах каждого кластера Xr меняется не только их число Я, но и состав эталонов (3), а также свойства выделяемых фонем. Чем ниже порог по ВИР ро, т. е. чем выше требования к качеству каждой фонемы, тем меньше значение Я. При увеличении порога по длительности ЭРЕ Ьо число фонем Я в итоговом списке {Xr} также монотонно сокращается.
Какие именно значения обоих порогов следует тогда задавать при фонетическом анализе речи? На этот вопрос не существует однозначного ответа: для каждой решаемой задачи оптимальные значения будут разными.
Поэтому основная цель экспериментальных исследований состояла в изучении зависимости состава и свойств формируемых ФБД от личности диктора и от параметров адаптивного алгоритма ро и Ьо, а также в сравнении ФБД разных дикторов между собой по
информационному показателю ОВТИ (16). Полученные результаты иллюстрируются далее тремя таблицами экспериментальных данных.
Основные результаты. В табл. 1 представлен фрагмент результирующей матрицы ИРФ, а в табл. 2 - фрагмент результирующей матрицы ВПФ для ФБД первого диктора в первоначальном варианте, когда параметры алгоритма ФАР фиксировались на уровнях ро = 1.0 и Ьо = 4Ь = 320 (или 20 мс). Обе матрицы имеют одинаковый порядок Я = 87, т. е. по результатам ФАР для первого диктора было выявлено 87 четких фонем. Нули на главной диагонали матрицы ИРФ - признак идентичности распределений эталонов в пределах каждого отдельного кластера. Если не принимать их во внимание, то наиболее проблемными с точки зрения различимости при их восприятии, являются пары фонем с номерами (3,5), (3,6), (3,8), (5,6), (6,8) и другие - по признаку минимума их ВИР (4). Это же следует и из табл. 2: ее элементы - вероятности перепутывания фонем ауг - достигают своих максимальных значений на пересечении соответствующих строк и столбцов. Элементы на главной диагонали матрицы - вероятности безошибочного восприятия а уу - при этом анализе не учитываются.
Для сравнения сформирован второй вариант ФБД для того же (первого) диктора, но при других значениях параметров алгоритма: пониженном вдвое значении порога ро = 0.5 и
удвоенном значении порога Ьо = 8Ь (или 40 мс по времени действия ЭРЕ). Это случай существенно более жестких требований к качеству выделяемых из слитной речи фонем. Как
30
Таблица 1
V r
1 2 3 4 5 6 7 ... 87
pvr
1 0 3.7254 10.433 3.0455 12.963 11.345 15.789 7.5727
2 8.0565 0 2.1818 5.1829 2.8152 1.7326 2.196 14.621
3 7.4178 1.7205 0 8.7028 0.0700 0.5195 9.3816 3.9258
4 0.8999 3.5081 10.77 0 13.211 10.118 1.2804 12.995
5 8.6786 3.442 0.1161 8.4109 0 0.5400 9.5821 4.3292
6 11.715 1.3591 0.3075 5.5221 0.3120 0 4.4833 8.4461
7 2.1383 1.6098 10.571 1.0971 13.014 9.6922 0 14.309
87 182.9 539.6 223.02 167.75 101.45 216.79 556.77 0
Таблица 2
V r
1 2 3 4 5 6 7 ... 87
OCyr
1 0.9032 5.1-10-9 8.23-10-18 1.03-10-7 4.79 -10-20 1.16-10-18 3.66 -10-22 1.00-10-14
2 2.67 -10-15 0.925526 6.85 -10-6 1.84 10-11 3.03 -10-7 7.23 -10-5 6.37 -10-6 2.50 -10-21
3 1.55 -10-14 7.72 -10-5 0.231668 4.96-10-16 0.397061 0.053924 9.29-10-17 2.25 -10-9
4 0.007051 1.3110-8 3.93-10-18 0.687326 3.02 -10-20 1.67 -10-17 0.000856 4.5110-20
5 5.27-10-16 1.75-10-8 0.33 5 902 1.05-10-15 0.221698 0.048555 5.77-10-17 4.45-10-10
6 5.44-10-19 0.000554 0.150864 5.64 -10-12 0.147784 0.207958 2.44-10-10 9.57-10-16
7 8.56 -10-6 0.00014 6.07 -10-18 0.002366 4.35 -10-20 4.45 -10-17 0.885096 4.26 -10-21
87 4.98 -10-52 5.48 -10-66 1.42 -10-54 6.39-10-51 1.63 -10-44 3.27 -10-54 2.15 -10-66 0.910747
результат соответствующая матрица ИРФ (табл. 3) имеет существенно меньший, по сравнению с первоначальным, порядок Я = 32. Сильно изменился и состав проблемных пар фонем, одновременно резко сократилась частота их появления в таблице. Количественно данный эффект характеризуется следующим образом: относительная избыточность п составила 13.65 % в первом случае против 6.74 % во втором. Таким образом, во втором случае примерно вдвое сократилось число ошибок при восприятии выделенных фонем по сравнению с первым случаем, когда в среднем приблизительно каждая седьмая ЭРЕ из первоначального списка {Xr} браковалась как недостаточно четко произнесенная данным диктором.
Таблица 3
V r
1 2 3 4 5 6 7 ... 32
pvr
1 0 1.024 14.792 0.8948 2.7431 1.273 0.56761 2.3144
2 0.8046 0 10.524 1.8852 2.2442 2.6846 1.4351 3.234
3 11.625 9.6803 0 11.877 6.5335 9.9982 15.95 4.1093
4 2.0194 1.3084 21.191 0 3.4887 0.9179 1.6385 6.9007
5 3.2819 1.8624 3.2998 7.8007 0 5.9377 6.0817 4.8477
6 7.2556 4.0163 16.064 0.7230 2.2032 0 6.2953 5.2093
7 0.5402 0.92 3 8 19.495 1.329 2.4384 1.2953 0 6.863
32 2.8951 9.8587 2.724 7.742 9.555 6.667 4.527 0
Аналогичные результаты были получены для второго и третьего дикторов: 11.89 % против 4.82 % и 12.13 % против 6.56 % соответственно в двух рассматриваемых вариантах алгоритма ФАР. В пределах каждого варианта алгоритма, т. е. при его фиксированных параметрах, данные характеризивали индивидуальные особенности каждого диктора. В этом смысле информационные показатели (15), (16) - их объективная характеристика. При этом сравнении лучшим по критерию минимума ОВТИ (10) явился второй диктор. Важно отметить, что его показатели оставались лучшими одновременно во всех вариантах адаптивного алгоритма. В указанном выводе и заключается главный смысл проведенного экспериментального исследования.
Предложенная информационная теория качества речи - естественное продолжение и развитие ИТВР, рассчитанное на решение целого ряда актуальнейших задач, которые до настоящего времени или не ставились и не решались, или решались, но неудовлетворительным образом. Например, это задача автоматического анализа и сравнения разных дикторов по звуковому строю их речи. Не надо отмечать, по-видимому, насколько широки границы ее сферы приложения. Достаточно сослаться на множество разнообразных речевых баз данных, применяемых для обучения и настройки автоматических систем с голосовым управлением. Проблема оптимизации и периодического обновления их содержимого - одна из наиболее острых современных проблем в области теоретической и прикладной информатики. Рассмотренный в настоящей статье пример нацелен в том числе и на ее решение.
Библиографический список
1. Савченко В. В. Информационная теория восприятия речи // Изв. вузов. Радиоэлектроника. 2007. Вып. 6. С. 10-14.
2. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.
3. Савченко В. В. Различение случайных сигналов в частотной области // Радиотехника и электроника. 1997. Т. 42, № 4. С. 426-431.
4. Принципы цифровой обработки сигналов / Под ред. А. В. Оппенгейма. М.: Мир,1980. 550 с.
5. Кульбак С. Теория информации и статистика. М.: Наука, 1967. 408 с.
6. Савченко В. В. Автоматическое распознавание речи методом дерева на основе информационного (К+1)-элемента.// Изв. вузов России. Радиоэлектроника. 2006. Вып. 4. С. 13-22.
7. Марпл С. Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.
8. Савченко В. В., Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание речевых единиц методом обеляющего фильтра // Изв. вузов. Радиоэлектроника. 2007. Вып. 4. С. 11-19.
9. Мюллер П., Нойман П., Шторм Р. Таблицы по математической статистике / Пер. с нем. М.: Финансы и статистика, 1982. 278 с.
10. Савченко В. В., Акатьев Д. Ю. Автоматическое распознавание случайных сигналов по критерию минимального информационного рассогласования с переспросом // Изв. вузов России. Радиоэлектроника. 2006. Вып. 1. С. 20-29.
V. V. Savchenko
Nizhny Novgorod state linguistic university
Analysis of speech quality on the basis of the information theory of perception
Base elements of the information theory of speech perception are stated. The concept it phonetic building through the description of each phoneme in the form of cluster, made of set of elementary speech units by a principle of a minimum information mismatch, is entered. The problem of estimation of speech qualities on it phonetic building is put and solved. The information substantiation of criterion of a minimum of demanded speech redundancy is given.
Speeches, speech mechanism, phonetic build, quality of speech, theory and information approach
Статья поступила в редакцию 4 марта 2008 г.