УДК 004.934:004.934.2
ОСОБЕННОСТИ КЛАССИФИКАЦИИ ГОЛОСОВЫХ И ГЛУХИХ ФОНЕМ РУССКОГО ЯЗЫКА
© 2013 г. И.Ю. Беликов
Южно-Российский государственный South-Russian State
технический университет Technical University
(Новочеркасский политехнический институт) (Novocherkassk Polytechnic Institute)
Описываются особенности фонемной классификации русского языка на основе нечеткой логики для голосовых и глухих фонем с вероятностной оценкой. Приводятся результаты классификации слитной речи и возможные варианты развития предлагаемых методов.
Ключевые слова: фонемная классификация; фонемная модель речи; нечеткая логика; формантные признаки; акустические свойства речи.
This article describes the features of the Russian language phoneme classification based on fuzzy logic for voice and voiceless phonemes from the probabilistic assessment. The results of the classification of continuous speech and the possible development of the proposed methods.
Keywords: phoneme classification; phonemic language model; fuzzy logic; formant features; the acoustic properties of speech.
Для фонемной модели речи существуют проблемы описания фонемных признаков, разделения фонем, поиска их границ. Во многих случаях фонемы не имеют четких границ или могут иметь нечеткий фонемный переход, если фонемы имеют схожие места речевого образования [1]. В данной работе предлагается использовать результат метода разделения на фонемные группы при помощи бинарного дерева решений [2]. Для этого используются границы различных частотных интервалов энергии спектра. Полезный сигнал в данном случае можно выделять при помощи вычисления энтропии. В качестве анализируемой величины берется мгновенный спектр энергии сигнала в окне М, определяющем размер сегмента, представленный формулой
м 2
^(0 = Е Q(i,ш)2,
ш=0
где 0 < i < k , Q(i,ш) - значение вейвлет-коэффи-циентов Хаара [2]. Затем производится нормализация на каждом из Si уровней формулой
d (i) =
S (i)
max(g(i, m))
Полученная функция представляет собой функцию плотности вероятности спектра, которая подвергается анализу аналитической формулой:
d (i) =
0, d(i) <5; d (i), иначе,
Н = -Е d(0^d(0 .
k=1
В своих работах Г. Фант и Р. Якобсон (цит. по: [3]) отмечают первичные признаки фонем и продолжительность фонем, достаточную для накопления ее ощущения. Для голосовых звуков временной интервал М в среднем равен 0,063 с, а для глухих - 0,03 с. После выполнения анализа речевых сигналов на основе быстрого вейвлет-преобразования Хаара и бинарного дерева классификации, дополнив результаты Г. Фанта и Р. Якобсона, были установлены фонемные группы (в виде иерархий бинарного дерева решений): глухие-шипящие, глухие-нешипящие, звонкие-нешумные-голосовые, звонкие-нешумные-сонорные, звонкие-шумные. Рассмотрим подробнее особенности классификации голосовых и глухих фонем на основе нечеткой логики, наиболее подходящей для описания процессов в речевых сигналах. В качестве функции распределения берется Т-норма:
, Ь - х
1--, а < х < Ь;
Ь - а
F (x) =
, x - c ,
1--, b < x < c;
c - b
0, иначе,
где 5 - граница плотности вероятности спектра полезного сигнала и шума окружающей среды (паузы). В дополнительной очистке сигнал не нуждается, так как это происходит в процессе вычисления спектра на основе вейвлет-преобразования Хаара. В заключение считается энтропия (как мера неопределенности или беспорядка в некотором распределении) спектральной энергии сегмента речевого сигнала:
где ас - основание треугольника; Ь - вершина треугольника (максимальное значение треугольной нормы). При (Ь - а) = (с - Ь) имеем случай симметричной треугольной функции принадлежности, которая может быть однозначно задана двумя параметрами из тройки (а, Ь, с).
Голосовые фонемы по своему артикуляционному месту образования имеют четко выраженную, наиболее изученную формантную структуру. На основе предложенного вейвлет-преобразования Хаара, к фонемам с четко выраженными голосовыми свойствами относятся: «а», «о», «э». Для их однозначной класси-
фикации необходимо и достаточно определения двух первых формант и частоты основного тона [4].
На рис. 1 представлена формантная характеристика для двух гласных фонем в виде огибающей фор-мантных частот. По оси абсцисс откладываются номера уровней вейвлет-преобразования Хаара, по оси ординат численное значение энергии их коэффициентов. Для классификации голосовых фонем достаточно двух треугольных норм, вершины которых представлены в виде:
¿1 = ^ = 1 к ' 2 К
2 500 2 000 1 500 1 000 500 0
А > ■ ■
А 1 --- г__т__т —| - f\i i i i f --- ---1--- 1
1 i i ■ 1
1 i * / * L—"Д|
_ . J 1 L _ - .i-j. / 1__J___ L 1 Г i\ L L
-ri Ж l l l ............ I dl | 1 II 1 1 -
оно ослабевает, и частотная область 8 - 18 уровней усиливает свое влияние, тем самым становясь фонемой «с». Для «т», «ш», не имеющих дублирующих фонем, резонансные частоты представлены на рис. 3.
Параметры Т-нормы для фонемы «ш»:
h =
S (2), S (3);
IS (i)
h - -i-2-Ь2 - 12
I S(i)
i-10
[ 1 ^ 0
где К0 - частота основного тона; - первая формантная частота; К2 - вторая формантная частота.
Для глухих фонем под термином «формантные частоты», так как они находятся в области высоких частот и имеют не такую постоянную структуру, будем использовать понятие резонансных частот и их областей [1, 5]. Глухие фонемы имеют разделение на не шипящие - «к», «т» и протяженную фонему «х» и шипящие фонемы - «ф», «ш», «ц», «с», «ч», «щ». Фонемы «к», «ч», «ц» являются частным случаем фонем «х», «щ», «с». Для них характерно кратковременное усиление спектральной энергии в определенных областях (рис. 2), поэтому эти фонемы наиболее трудно различить между собой.
Для фонемы «ц» характерно усиление резонансной частоты на 2-м уровне вейвлет-преобразования Хаара. Через некоторое время (порядка 0,2 секунды от интервала времени накопления ощущения фонемы)
где $(/) - спектральная энергия вейвлет-преобразования Хаара на уровне i. Глухие фонемы имеют как четко выраженную картину резонансных частот, так и спектрально-временные полосы (на примере вершины второй треугольной нормы Ь2 ).
Для подсчета вероятности фонемы в данной точке отсчета речевого сигнала определяется суммарное значение всех Т-норм фонемной группы:
Р = кш( х) + кш( Х2) + Кс( X) + Кс( Х2) +... + Кч( Х1) + Кч( Х2).
Далее, по полученному значению Р определяется вероятность появления каждой из фонем на примере фонемы «ш»:
W -
гг ш
(Xi) + X2))T P '
где Жш - вероятность появления фонемы «ш»; Т -вероятность появления фонемной группы по результатам классификации бинарного дерева решений.
2 4 6 8 10 12 14 16 18 20 22 24 26
2 4 6 8 10 12 14 16 18 20 22 24 26 Рис. 1. Форманты голосовых фонем 2 000 Г
1 400
800 600 400
8 10 12 14 16 18 20 22 24 26
С 1___ L - - J L - - 1 - - J i 1___I___ 1___I___ L - _ J
: i
i
1 JL 1
r 1 r ---1---
, i/ Л А L--I
ГЧ \j / v 1 \ J
l / 1 \ r 1 Л
( yS 1 * 1
i i - 1 1 — г - 1---1 Г T---1 —^ i---1--- - г г - 1 -
2 4 6 8 10 12 14 16 18 20 22 24 26 Рис. 2. Огибающая резонансных частот дублирующих глухих фонем
Рис. 3. Огибающая резонансных частот глухих фонем
Подобным образом определяются значения вероятностного появления для всех фонем в группе. Остальные группы и их фонемы имеют нулевую вероятность. Бинарное дерево решений производит разделение полезного сигнала на фонемные группы, границы раздела выбираются с запасом и практически не зависят от индивидуальных особенностей диктора. Параметры Т-норм зависят от диктора и подбираются экспериментально.
В речевом сигнале в один и тот же промежуток
времени может находиться несколько достаточно
близких трудноразличимых фонем, входящих в одну
фонемную группу. Определение вклада фонемы по Т-
норме заключается в поиске максимально значимой
фонемы (рис. 4).
100 „
Э -------¡А -_--0
80 60 40 20 0
5000 10000 15000 20000
Рис. 4. Вероятность распределения фонем внутри группы
На рис. 4 по оси абсцисс откладываются дискретные отсчеты речевого сигнала, по оси ординат вероятность каждой из фонем в группе (указаны сверху). Внутри каждой области указаны итоговые ощущения фонем по интегральной оценке в окне М.
Результат классификации некоторых фонем на основе предложенных методов для одного диктора представлен в таблице. Так как глухие не имеют четкой структуры, то результат классификации немного хуже, чем у голосовых фонем.
Анализ фонем на основе Т-нормы с вероятностной оценкой согласуется с физическим принципом формирования ощущения фонем. Фонемы не имеют четких границ, исходя из акустических свойств рече-
Поступила в редакцию
вого тракта. Некоторые из них не имеют четких признаков и их идентификация происходит благодаря эвристическому анализу данных.
Результаты классификации фонем
№ п/п Фонема Количество измерений Количество правильной классификации Среднее значение вероятности фонемы в группе, %
1 «а» 100 96 76
2 «о» 100 92 68
3 «э» 100 94 71
4 «ш» 100 88 65
5 «щ» 100 85 62
6 «ф» 100 87 61
7 «х» 100 82 65
Подводя итог, можно сказать, что представленные особенности классификации фонем русского языка дают хорошие результаты для классификации непрерывной речи. Дальнейшее развитие заключается в разработке адаптивных алгоритмов определения параметров Т-функции, в использовании представленных методов на устройствах с программируемой логикой [6].
Литература
1. Чистович Л.А., Венцов А.В., Гранстрем М.П. Физиология речи. Восприятие речи человеком. СПб., 1976. 388 с.
2. Беликов И.Ю., Ковалев О.Ф. Метод поиска формантных частот в речевом сигнале на основе быстрого алгоритма вейвлет-преобразования Хаара // Изв. вузов. Сев.-Кавк. регион. 2012. № 1. С. 13 - 16.
3. Звегинцев В.А. Новое в лингвистике. М., 1961. Вып. 2. 637 с.
4. Фант Г. Акустическая теория речеобразования. М., 1964. 284 с.
5. Кириллов С.Н., Стукалов Д.Н. Анализ речевых сигналов на основе акустической модели // Техническая кибернетика. 1994. № 2. С. 147 - 153.
6. Суворова Е.А., Шейнин Ю.Е. Проектирование цифровых систем на УГО^ СПб., 2003. 576 с.
20 марта 2012 г.
Беликов Иван Юрьевич - аспирант, кафедра «Электронные вычислительные машины», Южно-Российский государственный технический университет (Новочеркасский политехнический институт). E-mail: [email protected]
Belikov Ivan Yuryevich - post-graduate student, department «Computer machines», South-Russia State Technical University (Novocherkassk Polytechnic Institute). E-mail: [email protected]