Научная статья на тему 'Экспериментальные исследования метода фонетического декодирования слов на конечной группе дикторов и конечном словаре'

Экспериментальные исследования метода фонетического декодирования слов на конечной группе дикторов и конечном словаре Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
33
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ РЕЧИ / ИНФОРМАЦИОННАЯ ТЕОРИЯ ВОСПРИЯТИЯ РЕЧИ / КЛАСТЕРИЗАЦИЯ / МЕТОД ФОНЕТИЧЕСКОГО ДЕКОДИРОВАНИЯ СЛОВ / VOICE RECOGNITION / INFORMATION THEORY OF SPEECH PERCEPTION / CLUSTERING / WORDS PHONETIC DECODING METHOD

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Граевский Кирилл Александрович

Приведены результаты экспериментального исследования метода фонетического декодирования слов на конечной группе дикторов и ограниченном словаре. Описана методика проведенного эксперимента и результаты, полученные с помощью информационной системы фонетического анализа речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Граевский Кирилл Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Experimental researches of words phonetic decoding method on finite group of speakers and on finite dictionary

Results of an experimental research of words phonetic decoding method on finite group of speakers and on finite dictionary are presented. The experiment technique and the results received by means of an information system of the speech phonetic analysis is described.

Текст научной работы на тему «Экспериментальные исследования метода фонетического декодирования слов на конечной группе дикторов и конечном словаре»

Известия вузов России. Радиоэлектроника. 2012. Вып. 1======================================

УДК 621.372:519.72

К. А. Граевский

Нижегородский государственный лингвистический университет

им. Н. А. Добролюбова

Экспериментальные исследования метода фонетического декодирования слов на конечной группе дикторов и конечном словаре

Приведены результаты экспериментального исследования метода фонетического декодирования слов на конечной группе дикторов и ограниченном словаре. Описана методика проведенного эксперимента и результаты, полученные с помощью информационной системы фонетического анализа речи.

Распознавание речи, информационная теория восприятия речи, кластеризация, метод фонетического декодирования слов

Задача автоматического распознавания речи (АРР) весьма актуальна в распознавании - одном из приоритетных направлений прикладной информатики, а также при создании искусственного интеллекта. Существует множество подходов к решению задачи АРР. Для создания системы АРР, работающей в режиме реального времени, предпочтительно использовать адаптивные алгоритмы с высокими динамическими свойствами. С указанной точки зрения представляет несомненный интерес недавно созданная информационная теория восприятия речи (ИТВР) [1], и в частности созданный в рамках данной теории метод фонетического декодирования слов (МФДС) как альтернатива существующим методам. МФДС решает проблему вычислительной сложности, которая ограничивает возможности распознавания существующих методов в работе с большими словарями [2].

В настоящей статье приводятся описание МФДС, программа и результаты его лабораторных испытаний.

Постановка задачи. В соответствии с ИТВР распознавание осуществляется в два этапа. На первом этапе распознаются минимальные речевые единицы (МРЕ) типа отдельных фонем. На втором - слова, фразы и целые тексты как соответствующим образом структурированные последовательности разных фонем.

Первый этап распознавания осуществляется в рамках теоретико-информационного подхода [3], [4]. Он хорошо известен и основан на критерии минимума информационного рассогласования (МИР) и методе обеляющего фильтра (МОФ) [3].

Под фонемой понимают минимальную единицу звукового (фонетического) строя национального языка. Разным языкам соответствуют разные списки фонем - и по составу, и по количеству элементов Я. Список фонем образует базовый уровень описания языка. Несмотря на существующие различия в реализациях некоторой г-й фонемы все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Поэтому можно утверждать, что одноименные реализации , ] = 1, , ^ 1, в сознании человека группируются в соответствующие классы или в речевые образы фонем

38

© Граевский К. А., 2012

Xr = {xrj }, r = 1, R, вокруг некоторого центра - эталонной метки данного образа. В информационной теории восприятия речи указанные эталоны определяются в строгом теоретико-информационном смысле: речевая метка x* ^ Xr образуется информационным центром-эталоном r-го речевого образа, если в пределах множества Xr она характеризуется минимальной суммой информационных рассогласований (ИР) по Кульбаку-Лейбле-

ру р( x/xr )> 0 относительно всех других его меток-реализаций xrj, j = 1, Jr. По своей

сути это статистический аналог понятия "центр массы" физического тела. Именно в понятии информационного центра (ИЦ) r-го множества реализаций Xr дается наиболее информативное описание свойств соответствующей фонемы. Одновременно становится очевидным и механизм формирования самого этого множества. Анализируемый (входной) речевой сигнал X (t) в дискретном времени t = 0, 1, ... сначала мысленно разбивается на ряд последовательных сегментов данных x (l), l = 1, 2, ..., длиной в одну МРЕ (т ~ 10.15 мс) каждый [5]. После этого каждый полученный парциальный сигнал рассматривается в пределах конечного списка фонем {Xr} и отождествляется с той Xv из них, которая отвечает

принципу минимума ИР р(x/xV) = min р(x/x* ) между вектором x (l) и соответствующим

r

ИЦ-эталоном xV, v < R. Это известная формулировка критерия МИР в задачах АРР [6].

Одной из наиболее эффективных реализаций критерия МИР служит МОФ. При этом решающая статистика примет вид р(x/xr ) = (1/2)[a2 (x-1], r = 1, R, где aj: (x) -

выборочная дисперсия отклика r-го обеляющего фильтра (ОФ), который основан на автоР

регрессионной модели (АР-модели) МРЕ общего вида: yr (l) = х(l)-£ arix(l-i),

i=1

l = 1, 2, ..., L, где ari - элемент вектора авторегрессионных коэффициентов.

Преимуществом приведенной формулировки принципа МИР является адаптивный вариант реализации МОФ, основанный на быстрых вычислительных процедурах, таких, как метод Берга [7].

Результатом первого этапа распознавания является выделение МРЕ в анализируемом речевом сигнале. К примеру, речевой сигнал, состоящий из одного слова, будет разбит на фонемы, которые, естественно, могут повторяться. Это можно записать, как {xj, x2, ..., xl}, ( * 1

x; e{xv}, где L - количество фонем в словаре. Данная последовательность является фонетическим кодом анализируемого слова. На этом первый этап заканчивается.

Второй этап распознавания состоит в распознавании слов, фраз и текстов как определенным образом структурированных последовательностей фонем. Другими словами, необходимо декодировать составленный на первом этапе фонетический код. На втором этапе используется МФДС. Он имеет ряд преимуществ перед существующими методами, так как использует специальный математический аппарат для преодоления проблемы больших речевых баз данных [6].

В связи с этим возникает вопрос оценки эффективности МФДС в реальных условиях. В настоящей статье указанный вопрос решается экспериментальным путем.

Алгоритм АРР. Для проведения эксперимента использовалась информационная система фонетического анализа речи (ИС ФАР) [8]. В начале эксперимента записаны произношения числительных от "ноля" до "девяти", по пять реализаций каждого. Для этого применялись аппаратные средства: динамический микрофон AKG 77 S и ламповый микрофонный предусилитель ART TUBE MP Project Series USB. Частота дискретизации 8 кГц. По всем реализациям в ИС ФАР была сформирована фонетическая база данных (ФБД), со следующими параметрами: порядок АР-модели - 12; порог по сегментации - 0.7; порог по величине информационного рассогласования (ВИР) одноименных МРЕ нового диктора

- 1.2; порог по длине МРЕ - 3. В автоматическом режиме система выделила 26 фонем. Далее все реализации обрабатывались с помощью ИС ФАР для получения фонетических кодов слов

- последовательностей опознанных фонетических символов, представленных в виде цифровых последовательностей, где каждой цифре соответствовал фонемный символ (табл. 1).

Для задания кодов эталонов по полученным результатам выявлены коды так называемых устойчивых фонем, встречающихся в каждой реализации. Например для числительного "два", таким кодом может являться последовательность: 3-8-21.

Для сравнения кодов разработан дополнительный блок для ИС ФАР, расположенный в подсистеме автоматического выделения фонем (рисунок). Исходными данными для блока являлась последовательность фонем x = {xj, Х2, ..., x^j, x;- e{xvj, которая формируется на выходе ИС ФАР. Данная последовательность сравнивалась с кодами эталонов слов

Таблица 1

Числительное Фонетический код Числительное Фонетический код

Ноль 3-9-23-15-11 Один 12-15-17-15-3-11

15-9-23-15-11-11 16-12-24-13-13-15-3

3-9-23-1-2 16-24-17-13-15-18

3-9-23-14-1-1 16-2-24-17-13-15

3-9-23-1-14-11 16-16-24-13-17-13-15-15

Два 3-8-21-9 Три 2-10-11

3-26-8-8-9-21-21 24-10-10-11-11

3-15-8-8-21-21-11 1-10-10-13-15

3-8-8-21-21 2-17-13-11-11

3-8-9-21-21-11 2-10-1-12

Четыре 5-5-17-2-17-15-11-11 Пять 12-1-6-12-11

5-17-16-17-11-11 1-5-24-11

5-17-15-2-10-15-11 1-1-5-7-1

5-15-17-1-11 2-24-1-5-15

24-15-17-1-11 2-24-15-5-7

Шесть 20-14-6-12-12-6 Семь 6-17-4-2

20-20-11-1-6-6-7 6-6-10-4

20-1-17-6-15-6-15 6-17-4-4

20-12-16-1-7-6-15-6-6 6-17-4-26

20-20-16-24-6-12-15 5-17-4-4

Восемь 15-3-9-5-6-7-10-26 Девять 3-17-2-17-25-7-11

23-9-5-26-26 18-3-17-2-12

9-19-5-5-10-1-26 3-17-17-2-11

19-5-10-1-26 15-13-10-2-2

19-5-10-26-26 3-10-2-6-6-12

У т = {УшЬ У m2, ••■, У тЬ }, нахоДяЩихся в базе данных (БД) кодов. Сравнение проходило в блоках сравнения (БС) в М каналах (по количеству эталонов). Далее в решающем устройстве (РУ) выбирался тот эталон, количество фонем в котором максимально.

Программа эксперимента. С помощью представленных аппаратных средств было записано по сто произношений числительных от "ноля" до "девяти". Они обрабатывались ИС ФАР с теми же порогами и ФБД. При анализе полученных кодов выявилась существенная проблема, заключающаяся в том, что в разных реализациях одного числительного (к примеру, "восемь") одна и та же фонема (к примеру, "в") может быть кодирована разными цифровыми символами (такими, как 19 и 11). Несмотря на это изначально необходимо определить вероятность распознавания при использовании своего кода-эталона для каждого числительного. В соответствии с этим задавались фонетические коды-эталоны числительных, состоящие из наиболее "устойчивых" фонем.

Эти коды были записаны в БД кодов (рисунок), после чего все реализации числительных по очереди поступали на вход ИС ФАР. Там они обрабатывались в блоке автоматического выделения фонем и поступали на вход дополнительного блока, где сравнивались с записанными в БД кодами-эталонами.

Фонетические коды числительных и результаты их распознавания приведены в табл. 2. В столбце "отказов" указаны вероятности отказа от распознавания (в пределах заявленного алфавита), а в столбце "перепутывания" - вероятности неверного определения истинного слова. Нетрудно заметить, что средний процент распознавания (54.2 %) весьма невысок. В рамках решаемой задачи данный результат неприемлем.

Для повышения эффективности распознавания предлагается использовать кластеризацию фонем методом ближайших соседей [9]. Она реализуется следующим образом. Вначале каждый объект формирует свой кластер. Затем наиболее близкие по расстоянию кластеры объединяются. В общем случае данная процедура проходит до объединения всех объектов в один кластер. В решаемой задаче объектом является фонема. Поскольку используемый алгоритм реализует критерий МИР, то расстояния между фонемами в метрике Кульбака-Лейблера отображаются в матрице величины информационного рассогласования (ВИР).

Фрагмент начальной матрицы ВИР представлен в табл. 3. Здесь каждая фонема представляет собой кластер. Матрица ВИР состоит из 26 кластеров. В данной матрице находится минимальное значение (нули на главной диагонали в расчет не берутся) и фонемы,

Таблица 2

Числительное Фонетический код Вероятность

правильного распознавания ошибок, в том числе

отказов перепутывания

Ноль 3-9 0.93 0.07 0

Один 16-13 0.58 0.33 0.09

Два 3-8-21 0.78 0.05 0.17

Три 2-10 0.45 0.55 0

Четыре 5-17-1 0.31 0.67 0.02

Пять 1-7 0.58 0.42 0

Шесть 20-6-7 0.35 0.53 0.12

Семь 5-10-4 0.37 0.60 0.03

Восемь 19-5-26 0.70 0.29 0.01

Девять 17-2-7 0.37 0.34 0.29

Таблица 3

Фонема Фонема

1 2 3 4 5 6 7 8 9

ВИР

1 0 0.28186 0.85808 1.1609 20.5873 27.9234 9.1435 20.2944 30.348

2 0.25896 0 1.0467 1.7859 17.7409 24.3094 9.7558 26.0307 39.004

3 1.3013 2.3781 0 1.655 13.9698 9.9046 8.6927 13.3171 20.1275

4 1.2987 1.5912 1.5722 0 64.1386 73.8441 47.0112 6.9985 9.2268

5 33.0941 31.0719 112.9887 89.7104 0 0.46263 0.93944 263.165 388.61

6 13.1507 13.4955 44.701 35.0458 0.56896 0 0.56988 99.7986 148.82

7 11.1228 12.2618 38.9947 29.1171 0.66861 0.57199 0 78.5368 117.69

8 6.4137 9.7251 2.4454 6.3218 26.3113 15.776 13.5303 0 0.5047

на пересечении которых было найдено минимальное значение, объединяются в один кластер, причем для оставшейся фонемы выбирается минимальное из двух имеющихся значений. При применении метода одиночной связи в его классическом варианте в результате должен остаться один кластер, который будет содержать в себе все фонемы. Чтобы не допустить этого, необходимо ввести порог, ограничивающий расстояние для объединения кластеров. Ограничивающий порог был подобран эмпирическим путем и установлен на уровне 0.6. После этого проведена кластеризация матрицы ВИР с данным порогом (табл. 4).

После кластеризации количество кластеров уменьшилось с 26 до 15. Четыре кластера включили в себя по три фонемы: 1,2,24; 4,11,26; 5,6,7; 10,13,17 и три кластера по две фонемы: 8,9; 12,25; 16,22.

По результатам кластеризации в разработанный блок ИС ФАР внесены необходимые изменения для того, чтобы фонемы, которые в процессе кластеризации были объединены в один кластер, система определяла как одну и ту же фонему. Логично предположить, что эти действия должны решить проблему множественности представления фонем, описанную ранее. Для проверки сделанного предположения в фонетических кодах слов (см. табл. 2) кластеры, состоящие из нескольких фонем, обозначены латинскими буквами (табл. 5). Тогда эти фонетические коды получили вид, представленный в табл. 6.

Коды табл. 6 записывались в БД разработанного блока как фонетические коды-эталоны числительных. Далее с помощью ИС ФАР обрабатывались по 100 реализаций каждого числительного. Процесс происходил следующим образом: звуковой файл загружался в ИС ФАР, где обрабатывался в блоке автоматического выделения фонем. В результате генерировалась после-

Таблица 4

Кластер Кластер

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1,2,24 3 4,11,26 5,6,7 8,9 10,13,17 12,25 14 15

ВИР

1,2,24 0 0.7262 1.1609 8.5446 20.2944 0.66846 2.2205 1.7849 1.6691

3 1.3013 0 1.4234 8.6927 13.3171 0.78172 1.724 3.1272 0.74963

4,11,26 1.2877 1.3886 0 15.336 2.9917 3.3846 4.0876 0.7861 0.94123

5,6,7 11.122 38.994 13.69 0 78.5368 5.0663 1.0818 18.497 15.7327

8,9 4.6999 2.4454 1.8931 13.53 0 4.6235 4.2146 4.1482 1.9785

10,13,17 1.2771 0.7593 5.6602 2.1595 35.945 0 1.4146 9.2584 3.8311

12,25 3.039 14.157 5.5466 1.2872 21.3289 1.9588 0 4.7608 7.0851

14 1.9111 2.5041 0.6116 20.323 8.8565 4.9409 5.0296 0 1.5422

15 1.9941 0.8651 0.6456 5.4201 10.2301 2.226 1.235 1.3153 0

16,22 2.0588 8.828 6.9234 6.8647 2.9879 3.1488 1.997 2.8859 5.1579

довательность фонем, которая впоследствии сравнивалась по описанному алгоритму с кодами эталонов в разработанном блоке. В табл. 7 представлены полученные результаты.

Общая вероятность распознавания по всем числительным в данном случае составила 86.1 %. Как можно видеть, вероятности восьми из десяти числительных находилась на приемлемом уровне. Но для числительных "четыре" и "восемь" вероятность распознавания составила 51 и 63 % соответственно, что неудовлетворительно. Однако для указанных числительных на ряду с выявленными могут использоваться и другие фонетические коды. Для числительного "четыре" это код 5-2-2, а для числительного "восемь" - 19-5-10-4. После учета кластеризации они принимают вид: "четыре": С-А-А; "восемь": 19-С-Е-В.

При использовании для распознавания каждого из этих числительных двух кодов одновременно: "четыре": С-Е-А и С-А-А, "восемь": 19-С-В и 19-С-Е-В вероятность правильного распознавания первого из них составила 90, второго - 96 %.

Эти результаты неплохо сочетаются с результатами для остальных числительных. Общая вероятность распознавания по всем числительным с учетом приведенных изменений составила 93.1 %.

Вероятности ошибок распознавания представлены в табл. 8, а табл. 9 содержит деталировку вероятностей перепутывания числительных друг с другом.

В процессе проведенного эксперимента исследована эффективность МФДС в задаче распознавания изолированных слов из ограниченного словаря с применением кластеризации фонем. Эксперимент разделялся на два этапа. Первый - распознавание числительных с использованием для каждого своего кода-эталона, состоящего из наиболее "устойчивых" фонем. На данном этапе была выявлена проблема, заключающаяся в том, что в разных реализациях одного числительного одна и та же фонема может быть кодирована разными цифровыми символами. Именно она стала причиной низкой вероятности распознавания, которая на данном этапе составила 54.2 %.

Для преодоления указанной проблемы потребовалось ввести несколько кодов-эталонов для каждого числительного. Решение этой задачи и скорректированные результаты распознавания получены на втором этапе эксперимента.

Таблица 5

Фонема Кластер

1, 2, 24 A

4, 11, 26 B

5, 6, 7 C

8, 9 D

10, 13, 17 E

12, 25 F

16, 22 G

Таблица 6

Числительное Код

исходный преобразованный

Ноль 3-9 3-D

Один 16-13 G-E

Два 3-8-21 3-D-21

Три 2-10 A-E

Четыре 5-17-1 C-E-A

Пять 1-7 A-C

Шесть 20-6-7 20-C-C

Семь 5-10-4 C-E-B

Восемь 19-5-26 19-C-B

Девять 17-2-7 E-A-C

Таблица 7

Числи- Вероятность правильного

тельное распознавания

Ноль 0.92

Один 0.95

Два 0.93

Три 0.90

Четыре 0.51

Пять 0.90

Шесть 0.92

Семь 0.96

Восемь 0.63

Девять 0.99

Таблица 8

Числительное Вероятность

отказов перепутывания

Ноль 0.07 0.01

Один 0.02 0.03

Два 0.04 0.03

Три 0.1 0

Четыре 0.07 0.03

Пять 0.08 0.01

Шесть 0.03 0.05

Семь 0 0.04

Восемь 0.04 0

Девять 0 0.01

Таблица 9

Входной стимул Результат распознавания

Ноль Один Два Три Четыре Пять Шесть Семь Восемь Девять

Вероятность перепутывания

Ноль 0 0 0.01 0 0 0 0 0 0 0

Один 0 0 0 0.03 0 0 0 0 0 0

Два 0.03 0 0 0 0 0 0 0 0 0

Три 0 0 0 0 0 0 0 0 0 0

Четыре 0 0 0 0.01 0 0 0 0.01 0 0

Пять 0 0 0 0.01 0 0 0 0 0 0

Шесть 0 0 0 0 0 0.05 0 0 0 0

Семь 0 0 0 0 0.04 0 0 0 0 0

Восемь 0 0 0 0 0 0 0 0 0 0

Девять 0 0 0 0.01 0 0 0 0 0 0

Задача решена использованием кластеризации фонем по принципу похожести. Принцип реализовывался объединением в один кластер фонем, ВИР между которыми имел наименьшее значение. При этом был введен ограничивающий порог. Результатом проделанной работы стало повышение вероятности распознавания по всем числительным до 93.1 %, что удовлетворяет требованиям, предъявляемым к системам подобного рода.

В настоящей статье показано, что при очевидном выигрыше в работе с большими словарями [6] МФДС сохраняет эффективность на высоком уровне и не проигрывает по данному показателю самым современным методам. Это дает возможность использовать разработанный МФДС в различных прикладных отраслях распознавания речи, например таких, как аудиопоиск ключевых слов в звуковых файлах большого объема.

Список литературы

1. Савченко В. В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып.6. С. 3-9.

2. Савченко В. В. Метод фонетического декодирования слов в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования // Изв. вузов России. Радиоэлектроника. 2009. Вып 5. С. 41-49.

3. Савченко В. В. Автоматическая обработка речи по критерию минимума информационного рассогласования на основе метода обеляющего фильтра // Радиотехника и электроника. 2005. Т. 50, № 3. С. 309-314.

4. Савченко В. В. Акатьев Д. Ю., Карпов Н. В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Изв. вузов России. Радиоэлектроника. 2007. Вып. 4. С. 35-42.

5. Levinson S. C. Mathematical models for speech technology. Chichester, England: John Wiley&Sons Ltd, 2005. 261 p.

6. Савченко В. В. Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульбака-Лейблера // Изв. вузов России. Радиоэлектроника. 2011. Вып. 3. С. 9-18.

7. Марпл С.Л.-мл. Цифровой спектральный анализ и его приложения. М.: Мир, 1990. 584 с.

8. Свид. о гос. рег. программы для ЭВМ № 2008615442. Информационная система фонетического анализа слитной речи / В. В. Савченко, Д. Ю. Акатьев, И. В. Губочкин и др. / Зарегистр. 15.09.2008.

9. Мандель И. Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.

K. A. Graevskiy

Nizhny Novgorod state linguistic university n. a. N. A. Dobrolubov

Experimental researches of words phonetic decoding method on finite group of speakers and on finite dictionary

Results of an experimental research of words phonetic decoding method on finite group of speakers and on finite dictionary are presented. The experiment technique and the results received by means of an information system of the speech phonetic analysis is described.

Voice recognition, information theory of speech perception, clustering, words phonetic decoding method Статья поступила в редакцию 14 апреля 2011 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.