УДК 004.934.8’1 А.Н. Ручай
Улучшение надежности текстозависимой верификации диктора на основе формантного метода с помощью нового метода сегментации речевого сигнала
Предложен новый метод сегментации речевого сигнала на вокализованные сегменты для увеличения надежности текстозависимой верификации диктора на основе формантного метода.
Новый метод основан на оценке показателя сингулярности сигнала.
Ключевые слова: распознавание диктора, текстозависимая верификация диктора, форманты, ошибки первого и второго рода, сегментация речевого сигнала, сингулярность, показатель Гёльдера, непрерывное вейвлет-преобразование.
На данный момент задачу распознавания диктора нельзя считать решенной. Последние исследования в области голосовой биометрики были направлены на изучение формантного метода параметризации речевого сигнала [1-4].
В работе [4] рассматривается метод текстозависимой верификации диктора на основе анализа формантного набора, в котором речевой сигнал разбивается на сегменты. Стандартный метод покадровой обработки при этом приводит к появлению антиформант и сплошных спектров (см. [1,3]), что сказывается на точности вычисления формант и тем самым ухудшает надежность распознавания диктора.
В данной работе автором предложен новый метод для успешного разбиения речевого сигнала на непересекающиеся вокализованные сегменты. Данный метод основан на оценивании показателя сингулярности сигнала [5-7].
Сравнение метода покадровой обработки и нового предложенного метода позволяет утверждать, что новый метод сегментации позволяет уменьшить ошибки первого и второго рода в задаче текстозависимой верификации диктора.
Сегментация речевого сигнала для текстозависимой верификации диктора. В задаче текстозависимой верификации диктора на основе формантного метода формантные наборы должны вычисляться на определенных сегментах речевого сигнала.
В большинстве систем распознавания диктора используется метод покадровой обработки, в рамках которого сигнал разбивается на пересекающиеся кадры с определенной длиной и шагом смещения. Этот метод приводит к появлению провалов спектра сигнала, которые называют антиформантами, а также к сплошным спектрам [3, 8]. Вследствие данных недостатков значения формант могут быть неточными, что сказывается на надежности распознавания диктора.
Идеальным было бы вычисление формантных наборов на тех сегментах речевого сигнала, которые соответствуют фонемам, входящим в состав слова. Вследствие эффектов коартикуляции существующие методы сегментации речевого сигнала на изолированные фонетические сегменты, которые используют оценивание спектральных изменений между последовательностью речевых кадров, также могут приводить к неточным значениям формант (там же).
В статье предлагается новый метод сегментации речевого сигнала, который избавлен от появления антиформант и сплошных спектров, как в методе покадровой обработки. В новом предложенном методе сигнал сегментируется на непересекающиеся вокализованные сегменты, которые соответствуют не фонемам слова, а слогам, в основе которых лежат периодичные гласные звуки.
Предлагаемый метод заключается в оценке показателя сингулярности сигнала, в качестве кото -рого рассматривается показатель Гёльдера. Идея использовать показатель сингулярности сигнала в качестве выделения вокализованных сегментов речевого сигнала возникла после ознакомления со статьей [5], в которой исследуется вопрос о выделении транзиентов сигнала с помощью вычисления показателя Гёльдера.
Показатель Гёльдера как оценка сингулярности сигнала. В работах [6, 8] исследуется вопрос использования оценки сингулярности сигнала с помощью показателя Гёльдера в различных практических задачах.
В силу принципа неопределенности невозможно анализировать гладкость в отдельных точках по поведению преобразования Фурье. Поэтому для оценки сингулярности сигнала используется вейвлет-преобразование.
Будем считать, что сигнал представлен функцией f (t) вещественной переменной.
Согласно теореме Джаффара гладкость функции f (t) в точке v характеризуется поведением непрерывного вейвлет-преобразования.
Теорема Джаффара [6]. Пусть у - вещественный вейвлет с п нулевыми моментами и с бы-
2
строубывающими производными, тогда если функция f (t) є L (R) удовлетворяет условию Гёльде-ра с показателем а<п в точке v, то существует A такое, что для любого (u,s)єRхR + будет выполнено \Wf(u,s)\<Asa+^ /2 (l + |(u - v)/Sa), где Wf (u,s) - вещественное вейвлет-преобразование
функции f (t), s - масштабный коэффициент.
В частности, если f (t) удовлетворяет условию Гёльдера с показателем а в точке v , и выполняется неравенство \u -v\< Cs , то справедливо соотношение \ Wf (u,s) \< A'sa+1/2 .
Прологарифмировав обе части приведенного выше неравенства, возведенного в квадрат, полу-
2
чим при u = v соотношение log jWf (v , s)2 < logA" + (2a + l)logs , имеющее место для всех s є[0,+<»).
Отсюда следует, что показатель а гладкости функции f (t) в точке v является угловым коэффициентом опорной прямой к графику функции |Wf(v,s) в логарифмической шкале.
Сегментация речевого сигнала на основе оценки показателя сингулярности сигнала. Основная идея состоит в использовании показателя Гёльдера для разбиения речевого сигнала на вокализованные участки, которые соответствуют слогам.
В дальнейшем рассматриваем речевой сигнал как последовательность отсчетов f (t), t = 1,2,...,m, где m - число отчетов дискретизированного сигнала f (t).
В качестве вейвлета выберем вещественный вейвлет Гаусса 2-го порядка.
Так как рассматривается только речевой сигнал, то в этом случае должны анализироваться частоты от 20 до 4000 Гц, причем низкие частоты 200-1500 Гц, которые соответствуют первым трем формантам, должны быть полно представлены для лучшего выделения вокализованных сегментов.
Масштабные коэффициенты в вейвлет-преобразовании выберем, пользуясь соотношением fs = fwfk / s , где fs - псевдочастота, s - масштабный коэффициент; fk - частота дискретизации сигнала f (t), которая равна 11025 Гц; fw - частота центрального всплеска вейвлета, для вейвлет Гаусса 2-го порядка fw = 0,3, обоснованным в работе [9].
Тогда масштабные коэффициенты s = 1,2,...,16 будут соответствовать псевдочастотам 2003300 Гц и, как легко заметить, низкие частоты будут более полно представлены в псевдочастотах, которые соответствуют этим масштабным коэффициентам.
2
Построение опорной прямой к графику функции log s ^ log Wf (t, s) выполним следующим образом.
Для каждой точки t методом наименьших квадратов строится линейная зависимость y = (2a(t) + 1) x + P(t), минимизирующая функционал
16 2 Q(a,e,X) = X ((2a(t) + 1)x(s) + P(t) - y(s))2 ,
s=1
где (x(s), y( s)) = (log s, log Wf (t, s)|2), s = 1,...,16.
В качестве показателя сингулярности сигнала примем величину a(t).
Далее график показателя сингулярности a(t) сглаживается, как двумерные данные {(t,a(t ))}t=1,
с помощью метода, который был предложен Кливлендом [10]. Для полноты изложения опишем этот метод.
Введем параметр сглаживания l, 0 < l < 1. Выбор параметра l обусловлен длительностью слога, вследствие экспериментов было установлено, что длительность слога в среднем равна 200 мс [3]. В качестве параметра l возьмем число, обратное количеству сегментов, которое равняется l = f /5m ,
где fk - частота дискретизации сигнала f (t), которая равна 11025 Гц, и m - число отчетов дискретизированного сигнала f (t).
Окрестность Nt точки (t,a(t)) определяется как множество индексов i, которые соответствуют ближайшим r = |_lmj соседним точкам (i,a(i)) к точке (t,a(t)) в смысле евклидового расстояния.
Для каждой точки (t,a(t)), t = 1,...,m, методом наименьших квадратов строится линейная зависимость a(t) = at + btt по r точкам (i,a(i)) с индексами i из окрестности Nt, минимизирующая следующий функционал:
Q(at,bt,Nrt) = £ w-(at + bti-a(i))2.
ieN[
Здесь для каждой точки (i,a(i)) определяется локальный вес wj как
wi = W\-—11, где ht = max | i -11
V ht ) ieN[
и, следуя [10], в качестве W(z) выбирается функция
(1-| zp'3
W (z) =
(1-| z |3 )3,|
„г |<1,
0,| г |> 1.
Затем для каждой точки (Г,а(Г)) определим веса 8Г как 8Г = К (в Г/65), где е г =|а(Г)-а(Г) |, 5 -
К (г) Л1-1* Р )2.|г К1-
0,| * |>1.
Повторно для каждой точки (Г,а(Г)), Г = 1,...,т, методом наименьших квадратов строится линейная зависимость а(Г) = с + dtt по г точкам (/,а(/)) с индексами / из окрестности N , минимизирующая следующий функционал:
Q(ct Д,N1) = £ м>\8, (с( + dti-а(/))2 .
^N1
Полученную оценку а(г) примем за оценку показателя Гёльдера а(Г).
На рис. 1 приведены речевой сигнал / (Г) и сглаженный график показателя сингулярности а(Г) этого сигнала с параметром I = 0,3 . Окружностями отмечены начала вокализованных сегментов, квадратами - окончания. Было замечено, что эти выделенные точки соответствуют точкам локального минимума и максимума функции а(Г). Интервалы монотонного возрастания показателя сингулярности а(Г) выступают в роле вокализованных сегментов.
Для оценки качества работы предложенного метода сегментации речевого сигнала на вокализованные участки был проведен эксперимент. Для этого была собрана база голосов из 100 дикторов в возрасте от 16 до 63 лет, каждый диктор произносил 13 раз некоторое одинаковое для всех слово, содержащее 5 гласных звуков. Ко всем фразам из собранной базы был применен новый метод разбиения речевого сигнала на вокализованные сегменты с помощью оценки сингулярности сигнала. В результате были выделены вокализованные сегменты, которые полностью соответствовали 5 слогам в этом слове.
Также проводились эксперименты по сегментации с помощью предложенного метода с собранной речевой базой, состоящей из 1500 предложений длительностью 10 с дикторов в возрасте от 14 до 63 лет. Результаты экспериментов статистически подтвердили, что оценка показателя Гёльдера может быть успешно использована для сегментации речевого сигнала на вокализованные участки.
медиана величин S1v,sm, и
0.1 0.08 0.06 0.04
§ 0.02
Р
I °
< -о 02
-0.04 -0.06 -0.08 -0.1
1000 2000 3000 4000 5000 6000 7000
Время
Время
Рис. 1. Верхний рисунок - речевой сигнал, нижний - слаженный график показателя сингулярности а(?) для соответствующего речевого сигнала
Оценка надежности формантного метода текстозависимой верификации диктора на основе нового метода сегментации сигнала. Опишем метод получения оценки надежности текстозависимой верификации диктора на основе формантного метода с помощью покадровой обработки и нового метода сегментации сигнала, а также проведем сравнение этих оценок надежности [4].
Для этого были реализованы два метода сегментации: метод покадровой обработки и новый предложенный метод сегментации с помощью оценки сингулярности. Речевые сигналы из собранной голосовой базы разбивались на п участков. В новом предложенном методе сегментации п =5, что определяется числом слогов в слове. Для каждого сегмента вычисляем формантный набор стандартным методом [3], т.е. для каждой фразы га находим вектор признаков х(га).
Форманту обозначим как / = (м>,а), где w - частота форманты, а - амплитуда форманты.
Множество всех формант обозначим символом Н с К.
Под формантным набором понимаем набор формант Е = {}Ц=1 = {^,,а,)}Ц=1, где иеК и Wi < Wj, если г < ] . Множество всевозможных формантных наборов обозначим как V .
Сравнение фраз дикторов гаг и гаj■ осуществляется при помощи решающего правила при заданном пороговом значении X:
Г1, если 5(га,- ,га ,■) <Х;
Я (х(га,), х(га j)) = \ г 1 (1)
10, иначе,
где га, и га 1 - объекты распознавания, соответствующие , -й и 1 -й фразе дикторов. Меру близости
п
5(га, ,га 1) определим как 5(га, ,га 1) =—^Н(х\,х/), где х, и х 1 - векторы признаков объектов га, и
=1
га 1 (по числу сегментов п). Метрику в пространстве формантных наборов V введем соотношени-
1 и
ем Н( х,, х/) = —^ г (/^, /^), где х, = {/, }и=1 и х1 = {/^ }и=1 - формантные наборы для / -й координа-и/=1 г ] 1
ты векторов признаков х, и х 1, и = 8 как самое оптимальное значение [4]. Здесь
г(/¡/, 1^ | ^ - wtil I +са I а,! - а^ | - метрика в пространстве формант Н с весовыми коэффициентами ^ и са, которые определяют допустимый предел порогового значения X, с формантами /¡I = (^и,а,7) и /^ = (*£ ,а,1) в формантных наборах х, и х1. Следуя рекомендации в [4], для нормировки выберем ^ =1 и са =1000.
Чтобы получить количественную оценку надежности текстозависимой верификации диктора на основе формантного метода, необходимо найти ошибки первого и второго рода.
С этой целью по всевозможным фразам дикторов из собранной голосовой базы составим матрицу ^1300x1300, элементами которой являются 1 или 0, соответствующие результатам решающего правила (1).
При успешном распознавании дикторов в идеальном случае матрица М должна содержать единицу только в тех местах, где фразы соответствуют одному и тому же диктору. Значит, количество единиц для такой матрицы должно быть равно С1 =1300-13, а нулей должно быть С0 =1300-(1300-13). Стоит отметить, что матрица М является симметричной.
В построенной матрице М, в тех местах, где фразы соответствуют одному и тому же диктору, подсчитываем количество нулей й-0. А в тех местах, где фразы соответствуют разным дикторам, подсчитываем количество единиц . Ошибки первого л и второго Р2 рода введем следующим образом: Р1 = ^1 q и Р2 = /С0 .
Перебирая различные пороговые значения X, вычисляем ошибки первого рода Р1 (X) и второго рода Р2 (X) для этих пороговых значений. Для того чтобы сравнить надежность систем распознавания диктора на основе двух методов сегментации сигнала, фиксируем ошибку второго рода Р2^') ~ 0,01 и сравниваем ошибки первого рода при полученном пороге X'. В таблице приведены ошибки первого рода Р1^ ') и второго рода Р2^ ')« 0,01.
Если сравнивать оценки надежности распознавания диктора на основе метода покадровой обработки и нового предложенного метода сегментации сигнала, то можно сделать вывод, что ошибка первого рода уменьшилась на 20% при фиксированной ошибке второго рода.
Результаты сравнения двух методов сегментации речевого сигнала
Метод сегментации Ошибка 1 рода Ошибка 2 рода
Покадровая обработка 0,377 0,01
Оценка сингулярности сигнала 0,301 0,01
Выводы. На основании результатов экспериментов можно утверждать, что предложенный новый метод успешно разбивает речевой сигнал на непересекающиеся вокализованные сегменты и может быть применен к различным задачам.
Одной из таких задач является текстозависимая верификация диктора на основе формантного метода. Из экспериментов было установлено, что с помощью предложенного метода сегментации сигнала ошибка первого рода уменьшилась на 20% при фиксированной ошибке второго рода для распознавания диктора по сравнению со стандартным методом покадровой обработки.
Также стоит отметить, что предложенный метод сегментации может быть использован для выделения участков, содержащих отдельные фонемы, что требует дальнейших исследований.
Литература
1. Рамишвили Г. С. Автоматическое опознавание говорящего по голосу. - М.: Радио и связь, 1981. - 224 с.
2. Репалов С.А. Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи: дис. ... канд. физ.-мат. наук: 05.13.18 / С.А. Репалов. - Ростов-на-Дону, 2003. -140 с.
3. Аграновский А.В. Теоретические аспекты алгоритмов обработки и классификации сигналов / А.В. Аграновский, Д. А. Леднов. - М.: Радио и связь, 2004. - 164 с.
4. Ручай А.Н. Формантный метод текстозависимой верификации диктора // Вестник Челяб. гос. университет. Математика. Механика. Информатика. - 2010. - №23(204), вып. 12. - C. 121-131.
5. Хабибуллин РФ. Локализация транзиентов в звуковых сигналах с помощью оценки локального показателя Гёльдера / РФ. Хабибуллин, Л.И. Левкович-Маслюк / Препринт Института прикладной математики им. М.В. Келдыша РАН. - М., 2006.
6. Малла С. Вейвлеты в обработке сигнала. - М.: Мир, 2005. - 671 с.
7. Ручай А.Н. Текстозависимая верификация диктора на основе формантного метода с использованием нового метода сегментации речевого сигнала // Современные проблемы математики: тезисы 42-й Всерос. молод. конф. - Екатеринбург: УрО РАН, 2011. - C. 164-166.
8. Айфичер Э. Цифровая обработка сигналов: практический подход / Э. Айфичер, Б. Джервис. -М.: Вильямс, 2004. - 992 с.
9. Abry P. Ondelettes et turbulence. Multirésolutions, algorithmes de décomposition, invariance d'échelles. - Paris: Diderot Editeur, 1997.
10. Cleveland W.S. Smoothing by local regression: principles and methods / W.S. Cleveland, C.L. Loader // Statistical Theory and Computational Aspects of Smoothing. - New York: Springer, 1996. -P. 10-49.
Ручай Алексей Николаевич
Аспирант каф. компьютерной безопасности и прикладной алгебры ЧелГУ, г. Челябинск Тел.: 8 (351) 977-92-92 Эл. почта: [email protected]
Ruchay A.N.
Improvement in safety of formant method of text dependent verification of a speaker by a new method of segmentation of speech signal
The new method of segmentation of speech signal is introduced in this article, it improves the safety of the formant method of text dependent verification of a speaker. The new method is based on an exponent of signal singularity.
Keywords: speaker recognition, text dependent speaker verification, formant, false acceptance and rejection rate, segmentation of speech signal, singularity, Holder exponent, continuous wavelet transform.