МОДЕЛИРОВАНИЕ СИСТЕМ И ПРОЦЕССОВ X
УДК 621.372:519.72
РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ МЕТОДИКИ ФОРМИРОВАНИЯ ФОНЕТИЧЕСКОЙ БАЗЫ ДАННЫХ ДИКТОРА ИЗ НЕПРЕРЫВНОГО ПОТОКА ЕГО РАЗГОВОРНОЙ РЕЧИ
В. В. Савченко,
доктор техн. наук, профессор Д. Ю. Акатьев,
канд. техн. наук, доцент
Нижегородский государственный лингвистический университет
Ставится задача автоматического формирования фонетической базы данных диктора из непрерывного потока его устной речи. Предложена методика ее решения на основе когнитивной акустической модели минимальных звуковых единиц типа фонетического кластера в информационной метрике Кульбака — Лейблера. Рассмотрен пример практической реализации методики, представлены программа и результаты экспериментальных исследований.
Ключевые слова — речь, русская речь, фонема, фонетический анализ речи, критерий минимума информационного рассогласования.
Введение
При анализе разговорной (устной) речи на русском языке мы опираемся на наши точные знания в отношении его фонетического строя, количественного и качественного состава используемой фонетической системы, а также закономерностей ее функционирования в разговорной речи. Этими знаниями мы пользуемся, например, при транскрибировании потока речи. Однако при анализе разговорной речи на неизвестном языке нам недоступна, в общем случае, информация, относящаяся к его фонетической структуре. Тогда мы можем либо, опираясь на наш лингвистический опыт, давать участкам речевого потока приблизительную интерпретацию в рамках международного фонетического алфавита, либо, обратившись к акустическим понятиям, членить речь на некие минимальные звуковые единицы (МЗЕ) с соответствующими метками. Очевидно, что второй подход, положенный в основу информационной теории восприятия речи и ее когнитивной кластерной модели МЗЕ [1], со всех точек зрения наиболее информативен и универсален. Множество меток всех МЗЕ и составит в итоге звуковой строй данного диалекта (или языка)
или его фонетическую базу данных (ФБД). Ее решению с использованием нового математического аппарата информационной теории восприятия речи и посвящена настоящая статья.
Краткие теоретические сведения
Фонема — это нечленимая, т. е. элементарная (минимальная) речевая единица (ЭРЕ). Несмотря на существующие различия в реализациях Хг, у, } = 1, >> 1, некоторой Г-й фонемы, все
они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Можно поэтому утверждать, что одноименные реализации в сознании человека группируются в соответствующие классы или речевые образы фонем Хг ={ хг, у г = 1, Я, вокруг некоторого центра —
эталонной метки данного образа. В информационной теории восприятия речи указанные эталоны определяются в строгом теоретико-информационном смысле: речевая метка х* с Хг образует информационный центр-эталон Г-го речевого образа, если в пределах множества ХГ она характеризуется минимальной суммой информационных рассогласований по Кульбаку — Лейблеру относительно всех других его меток-реализаций хг, у, ] = 1, Jг.
Нетрудно увидеть, что именно в понятии информационного центра Г-го множества реализаций одноименных МЗЕ ХГ дается наиболее информативное описание свойств соответствующей фонемы. А множество всех информационных центров {х* } определяет понятие ФБД для данного диктора. Одновременно становится очевидным и механизм формирования самого этого множества. Сначала анализируемый (входной) речевой сигнал Х(Ь) в дискретном времени г = 0, 1, ... разбивается на ряд последовательных сегментов данных х(г) длиной в одну МЗЕ — примерно 1015 мс. После этого каждый такой парциальный сигнал рассматривается в пределах конечного списка фонем {ХГ} и отождествляется с той Xv из них, которая отвечает критерию минимума информационного рассогласования (МИР) относительно сигнала х(г). Это известная формулировка критерия МИР в задачах автоматического распознавания речи. Задача существенно упрощается, если воспользоваться гауссовой (нормальной) аппроксимацией закона распределения каждой фонемы вида PГ = Ы^у), где ^ — автокорреляционная матрица размера п х п, п > 1.
Выделим в анализируемом речевом сигнале Х(г) от некоторого диктора первые Ь отсчетов из соображений сохранения в них свойства приблизительной стационарности или однородности распределения PГ. Например, при стандартной частоте дискретизации телефонного канала связи 8 кГц обычно полагают Ь = 100 - 200 (это те же 10 -15 мс). Используем полученный минимальный сегмент данных xv = {х1, ..., хь} в качестве обучающей выборки Х1 для оценивания автокорреляционной матрицы первой МЗЕ из сигнала. Соответствующий закон распределения Pl = Ы(К 1) — это первый из элементов нашего будущего списка. После этого приравниваем Я = 1 и берем второй сегмент выборки для анализа: X2 = {хь + 1, ..., Х2ь}. Следуя выражению для решающей статистики МИР, определим для него удельную величину информационного рассогласования (ВИР) [2]
р(Х2, Хг) = Рг (х)|х=ха, г = 1 (1)
относительно первой МЗЕ. Полученный результат сопоставляется с порогом по ВИР в роли допустимой величины рассогласований между разными реализациями одних и тех же фонем устной речи:
р(Х2, Хг )< ро. (2)
Здесь р0 — пороговый уровень. При нарушении данного неравенства в нашем начальном списке фонем появится второй элемент, и вслед за этим приравниваем число выявленных фонем
Я = 2. В противном случае принимается решение об объединении выборок Х1 и Х2 в один речевой образ Pl в качестве или одной МЗЕ удвоенной длительности ЬГ = 2Ь, если выборки смежные, или двух разных реализаций первой фонемы, если выборки не стыкуются. Равенство Я = 1 в обоих случаях сохраняется.
Методика формирования ФБД
Вычисления по схеме (1), (2) повторяются циклически для всех последующих сегментов данных из речевого сигнала Х(г), причем повторяются «нарастающим итогом» для переменного значения Я = 2, 3, .... Каждый очередной сегмент данных сопоставляется по правилу (2) одновременно со всеми Я множествами {ХГ} из текущего списка фонем. При этом не исключается возможность объединения одного и того же сегмента данных с элементами одновременно нескольких разных множеств. В результате будем иметь список фонем с некоторым фиксированным числом элементов Я*. Это важная характеристика как анализируемого речевого сигнала, так и самого диктора. Чем больше значение Я* для конкретного диктора, тем богаче с фундаментальной, фонетической точки зрения его речь. В данном выводе и состоит, как нам кажется, главный смысл и назначение фонетического анализа речи. Однако здесь же возникает и очевидная проблема: чрезмерно большое число фонем в речи диктора — это признак ее нечеткости или неинформативности. С точки зрения качества устной речи первостепенный интерес, безусловно, представляет собой множество четких МЗЕ. Его, в таком случае, и следует считать основным итогом фонетического анализа речи. Поэтому логика подсказывает: после выполнения всех перечисленных выше вычислений некоторые «фонемы» из окончательного списка можно исключить как маргинальные.
Добавим к сказанному, что рассматриваемая методика имеет множество разнообразных реализаций за счет, главным образом, применения рекуррентных вычислительных процедур корреляционно-спектрального анализа. Среди них наибольший интерес представляет метод обеляющего фильтра, основанный на авторегрессионной (АР) модели МЗЕ. В работах [1, 2] было показано, что в асимптотике, когда п ^ ж, и при гауссовом распределении речевого сигнала PГ = с об-
ратной автокорреляционной матрицей ленточной структуры выражение для оптимальной решающей статистики из выражения (1) сводится к виду
( ) 1 ^\Аг (уЛ| ^ п (3)
рг (х) = 7+1 Ц „ Ч 2 -1 ^ 0, (3)
* +1 /=о| лх (]Г )|
где
Аг у) = 1 +£аг (т)е-*т/Р;
т=1
АхШ) =1 + I] ах (т)е~1%тГ/р. т=1
Здесь {ах(т.)}, {аГ(т.)} — два вектора АР-коэффициентов: входного сигнала и Г-го эталона, оба одного порядкар > 1, а в числителе и знаменателе подынтегрального выражения отображены обратные зависимости спектральной плотности мощности (СПМ) соответственно для Г-й фонемы, или ЭРЕ, и МЗЕ на входе. Это стандартная формулировка метода обеляющего фильтра в частотной области. Преимуществом данной интерпретации критерия МИР является, прежде всего, возможность его эффективной реализации в адаптивном варианте на основе быстрых вычислительных процедур АР-анализа, таких как метод Берга и др. Именно такой вариант метода обеляющего фильтра был реализован в дальнейшем для проведения его экспериментальных исследований в типовой задаче фонетического анализа речи.
Пример реализации
Для реализации предложенного алгоритма (1)— (3) была использована информационная система (ИС) фонетического анализа слитной речи [3]. На главном окне программы (рис. 1) отображаются главное меню и список дикторов, внесенных в БД. При выборе из списка любого диктора в правой части окна выводится краткая информация о нем.
Форма настроек ИС показана на рис. 2. Здесь задаются основные параметры для работы реализованных в ней алгоритмов.
Порядок АР-модели — целое число, большее единицы. Рекомендуется задавать его значение в пределах от 10 до 20. Порог по сегментации — это порог р0 из выражения (2). Рекомендуется задавать в диапазоне от 0,7 до 1,5 (порог разладки при сегментировании должен быть больше 0,5). Этот порог используется на этапе сегментирования входного сигнала на фонемы. Порог по ВИР
■ Рис. 1. Главное окно программы ИС фонетического анализа слитной речи
Выбор режима сегментации (♦ С объединением Фреймов С Без объединения Фреймов
Порядок АР-модели 20 Длина сегмента | 80
Порог по сегментации 1 Порог по количеству I 10 реализаций ЭРЕ в группе '
Порог по ВИР одноименных ЭРЕ нового диктора 1
Порог по длине ЭРЕ Порог по ВИР одноименных | ЭРЕ в группе 4 1.2
□ К Отмена |
■ Рис. 2. Форма настроек ИС
одноименных ЭРЕ нового диктора — любое число больше 0. Рекомендуется задавать в диапазоне от 0,8 до 2,0. Этот порог используется при объединении фонем, выделенных на этапе сегментирования в классы. Порог по длине ЭРЕ — целое число больше 0. Рекомендуется задавать в интервале от 3 до 7. Этот порог используется для задания минимального количества соседних МЗЕ или числа смежных сегментов, которые должна включать в себя фонема, для того чтобы она могла участвовать в процедуре классификации. Порог по ВИР одноименных ЭРЕ в группе — любое число больше 0. Рекомендуется задавать в интервале от 0,8 до 2,0. Этот порог используется при наполнении фонемами группы дикторов.
Длина сегмента задается в отсчетах и по умолчанию равна 80. Рекомендуется задавать ее в пределах от 80 до 320. Порог по количеству реализаций ЭРЕ в группе определяет минимальное количество выделенных реализаций, относящихся к одной фонеме, при котором данная фонема будет включена в БД. По умолчанию значение данного порога равно 10.
Форма расчета ВИР между фонемами разных дикторов или групп показана на рис. 3. Соответствующий режим выбирается кнопками «По дикторам» и «По группам».
Процесс создания ФБД на основе данной ИС выполняется в несколько этапов. На первом этапе формируется группа дикторов, и каждый из них проговаривает в среднем темпе лингвистически сбалансированный текст или отрывок из художественного произведения длительностью 1-2 мин. При этом объем текста составляет минимум 1-1,5 тыс. печатных знаков. Каждая такая запись с помощью звукового редактора сохраняется в виде соответствующего звукового файла.
На втором этапе экспериментальных исследований производится обработка полученных фай-
) Информационная система фонетического анализа слитной речи
Файл Дикторы Группы Инструменты Помощь
Список дикторов
Авдонин Вадим Владимирович Акатьев Дмитрий Юрьевич Аксенова Екатерина Александровна Аникина Татьяна Ев геньевна Артамонов Борис Николаевич Артамонова Елена Сергеевна Бабушкина Ирина Викторовна Баранов Иван Александрович Баранова Инна Филипповна Барычева Елена Сергеевна
— Информация о дикторе-----------------
Пол мужской Возраст 22 Ре тон Центральный регион
Число фонем 46
Габомі.ин_0.5_10 3 „ По,
|Габочкин_0.5_10 3 Г Пс"
*
Фоне** 1 0 5.88647 1.74853 1.50542 1.83805 0.881194 1
Фонема 2 4.89114 0 2.08893 7 .3061 0 .873528 14.5424 0.
Фонема 3 3.81082 4.47097 0 1.56295 1.94753 5.10213 0.
Фонема 4 9.08492 50.3574 3.72174 0 7.49031 0 .434727 6
Фонеме 5 4.37377 1.91372 0.87084 4 .82667 0 10.418 0.
Фонеме 6 3.08316 32.7333 3.5615 0.507077 7.11907 5
Фонема 7 3.52621 1.26809 0.333753 3.0431 0.423438 8.28943
Фонема Э 4.00421 12.7333 2.27037 2.49718 13.5116 2.89ЭЭ 6
Фонема 9 9.76643 38.2211 8.48965 7.9008 39.1293 3.53261 1
Фонема 10 9.63701 0.494 2.73573 11.2196 1 .3033 27.1713 1
Фонема 11 4.48346 5.30877 0.477456 2 .53369 0.699452 8.57881 0.
Фонема 12 9.801 22.3823 5.17585 3 .33295 26 .9244 3.44744 1
Фонема 13 14.169 5.20876 0.831848 8 .45418 0.657097 30.041 0.
Фонема 14 10.2045 1.55436 1.12296 8 .20195 0.381033 26.5336 0.
>
і Расчитэть ||
■ Рис. 3. Форма расчета ВИР между фонемами
лов по адаптивному алгоритму (1)—(3). В результате формируется множество персональных ФБД {Xг}, учитывающих особенности разных дикторов. Это главный результат автоматической обработки речевых сигналов.
На третьем, заключительном этапе обработки речевых сигналов отбирается для анализа несколько персональных ФБД. В пределах полученного множества осуществляется объединение отдельных элементов ФБД по принципу МИР общего вида (2). По результатам такого анализа делаются выводы об устойчивости объединенной ФБД к индивидуальным особенностям речи дикторов.
Основные результаты
Предложенная методика была реализована практически для группы дикторов [4], составленной из жителей севера Нижегородской области (всего 100 чел.) примерно одного возраста (25 -30 лет) и одного пола (мужчины). Каждым диктором был проговорен тестовый текст объемом около одной стандартной машинописной страницы, взятый из первой главы романа А. С. Пушкина «Капитанская дочка». Частота дискретизации встроенного АЦП была установлена равной 8 кГц — общепринятое значение при обработке разговорной речи. Продолжительность записи по каждому диктору составила не менее 1,5 мин. При этом длина Ь одного сегмента данных во всех случаях устанавливалась равной 80 отсчетам, или 10 мс по времени, порядок АР-модели р = 20, а пороги по ВИР и длине ЭРЕ — р0 = 1,1 и Ь0 = 320 отсчетов соответственно. В результате обработки полученных записей согласно методике (1)—(3) было создано 100 персональных ФБД {х*}. После их объединения в одну ФБД результирующий список включил в себя Д0 = 118 фонем. Для подтверждения
того, что фонемы полученной ФБД включают в себя фонемы всех дикторов из рассматриваемого множества, было проведено сопоставление объединенной и персональной ФБД одного из дикторов, которая содержала Щ = 57 фонем. Сопоставление производилось по матрице (57 х 57) ВИР между однотипными (в смысле МИР) МЗЕ. Ее фрагмент представлен в табл. 1.
Из таблицы видно, что все диагональные элементы матрицы ВИР существенно меньше по величине, чем элементы, находящиеся вне ее главной диагонали. Это очевидный признак высокой степени подобия соответствующих фонем в теоретико-информационном смысле. Нулевые значения ВИР означают, что фонемы с данными номерами были включены в группу в качестве эталонных. В подтверждение этому на рис. 4 показаны графики СПМ первой фонемы выбранного нами для анализа диктора (сплошная линия) и наиболее близкой к ней по критерию МИР (1) фонемы из объединенного списка фонем (штриховая линия).
Видно, что обе СПМ практически не отличаются друг от друга. Отметим, что аналогичный результат достигается и для всех других пар одноименных фонем.
На заключительном этапе экспериментальных исследований рассматривались результаты формирования ФБД при более высоких значениях порогов по ВИР и длине ЭРЕ: р0 = 1,5 и Ь0 = 400. При этом вычисления проводились по той же схе-
■ Таблица 1
Номер фонемы 1 2 3 53 54 55 56 57
1 0,382 1,905 3,637 1,263 4,583 3,515 2,066 10,67
2 1,290 0,333 0,564 9,815 20,09 4,483 10,17 115,5
3 3,928 1,113 0,381 18,32 40,74 6,846 18,35 274,3
55 2,796 1,778 1,568 9,703 6,763 0 6,109 59,72
56 1,463 2,523 3,079 4,202 27,39 5,834 0 65,64
57 10,62 10,05 19,05 51,84 67,90 25,45 17,41 0
30
0,0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4 0,45 0,5 Относительная частота ■ Рис. 4. СПМ двух фонем
■ Таблица 2
Номер фонемы 1 2 3 23 24 25 26 27
1 0,47 1,22 2,78 4,50 15,08 14,85 7,19 4,31
2 0,50 0,26 2,42 1,16 13,50 18,60 4,54 3,54
3 0,94 0,89 0,43 3,20 4,29 32,46 3,88 10,67
25 6,99 10,10 5,57 30,10 42,31 0,910 16,43 12,54
26 2,72 2,06 1,21 16,54 8,76 12,71 0,09 6,02
27 1,42 1,59 2,06 4,11 18,30 6,19 5,45 0,54
ме (1)—(3). В результате был сформирован объединенный список {Хг}, содержащий Д0 = 45 фонем. После его сопоставления с ФБД (27 х 27) нашего первого диктора была получена матрица ВИР, фрагмент которой показан в табл. 2.
Из сопоставления табл. 1 и 2 можно сделать важный вывод о том, что вне зависимости от значений параметров настроек ИС объединенная ФБД, сформированная по предложенной методике, сохраняет в себе необходимую информацию об особенностях произношения каждого отдельного диктора из заданной группы.
Заключение
Известно, что в мире на данный момент не существует высококачественного программного продукта в области автоматического распознавания речи (АРР) на русском языке. Причина кроется в его исключительных лингвистических особенностях [5], а также в известных (см. ГОСТ Р 50840-95 и др.) жестких нормативных требованиях к системам передачи и обработки русской
Литература
1. Савченко В. В. Информационная теория восприятия речи // Изв. вузов. Радиоэлектроника. 2007. Вып. 6. С. 10-14.
2. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50. № 3. С. 309-314.
3. Свидетельство Роспатента РФ о гос. рег. программы для ЭВМ. № 2008615442. Информационная система фонетического анализа слитной речи: программа для ЭВМ / В. В. Савченко, Д. Ю. Акатьев, И. В. Губочкин и др. Выдано 14.11.2008.
4. Свидетельство Роспатента РФ о гос. рег. базы данных. № 2009620512. Фонетическая база данных / В. В. Савченко, Д. Ю. Акатьев, И. В. Губочкин и др. Выдано 25.05.2009.
разговорной речи. До последнего времени данная проблема являлась главным препятствием на пути широкого распространения новых речевых технологий в России. И даже в самых передовых мировых разработках в области АРР, таких как Google Voice, Apple Siri и др., она до конца не преодолена: вероятность ошибки распознавания в них не опускается ниже 15-20 %. В отличие от существующих аналогов в предложенном выше исследовании была применена недавно созданная авторами информационная теория — совместно с кластерной моделью МЗЕ и общесистемным критерием МИР в информационной метрике Кульбака — Лей-блера. На данный момент это весьма перспективное направление в рамках набирающего силу фонетического подхода [6-8] к задачам АРР на русском языке. Его основное преимущество перед известными подходами и методами АРР состоит в достигаемой полной автоматизации процедуры формирования ФБД, при этом резко сокращается и время на реализацию данного процесса, а это главное условие высокого быстродействия в целом системы АРР при работе в режиме реального времени.
Таким образом, отталкиваясь от ряда основных положений информационной теории восприятия речи, авторы предлагают новую методику формирования ФБД в автоматическом режиме, обладающую широкими функциональными возможностями и перспективами для практического применения.
Работа выполнена при финансовой поддержке Министерства образования и науки РФ по государственному контракту № 07.514.11.4137 ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2013 годы».
5. Бабин Д. Н., Мазуренко И. Л., Холоденко А. Б.
Проблемы создания автоматического распознавателя слитной устной русской речи // Интеллектуальные системы в производстве. 2003. № 1. С. 4-23.
6. Кодзасов С. В., Кривнова О. Ф. Общая фонетика / РГГУ. — М., 2001. — 592 с.
7. Ронжин А. Л., Ли И. В. Автоматическое распознавание русской речи // Вестник Российской академии наук. 2007. Т. 77. № 2. С. 133-138.
8. Кипяткова И. С., Карпов А. А. Эксперименты по распознаванию слитной русской речи с использованием сверхбольшого словаря // Тр. СПИИРАН. 2010. Вып. 12. С. 63-74.