Научная статья на тему 'Формантный метод текстозависимой верификации диктора'

Формантный метод текстозависимой верификации диктора Текст научной статьи по специальности «Математика»

CC BY
440
80
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГОЛОСОВАЯ БИОМЕТРИКА / ВЕРИФИКАЦИЯ ДИКТОРА / ТЕКСТОЗАВИСИМАЯ ВЕРИФИКАЦИЯ / ФОРМАНТА / РАСПОЗНАВАНИЕ ОБРАЗОВ / ОШИБКА ПЕРВОГО РОДА / ОШИБКА ВТОРОГО РОДА

Аннотация научной статьи по математике, автор научной работы — Ручай Алексей Николаевич

В работе продемонстрировано применение метода анализа формант к задаче текстозависимой верификации диктора, оценена надежность предлагаемого подхода с помощью ошибок первого и второго рода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Формантный метод текстозависимой верификации диктора»

ИНФОРМАТИКА

А. Н. РУЧАЙ

ФОРМАНТНЫЙ МЕТОД ТЕКСТОЗАВИСИМОЙ ВЕРИФИКАЦИИ ДИКТОРА

В работе продемонстрировано применение метода анализа формант к задаче текстозависимой верификации диктора, оценена надежность предлагаемого подхода с помощью ошибок первого и второго рода.

Ключевые слова: голосовая биометрика, верификация диктора, текстозависимая верификация, форманта, распознавание образов, ошибка первого рода, ошибка второго рода.

Введение

В настоящее время актуальной является разработка систем, предназначенных для идентификации диктора [1-6]. Такие системы активно развиваются в течение последних 40 лет [3; 7; 8]. За это время они прошли путь от простого сравнения голосов на слух до сложных математических моделей [1; 3; 8-10].

На данный момент задачу нельзя считать решенной, так как разработанные системы идентификации диктора по голосу не отличаются высокой надежностью. По этой причине продолжается поиск новых методов идентификации, в основном связанных с выбором индивидуальных параметров речи и её характеристик, которые обеспечивали бы высокую надежность работы системы [2; 7]. Последние исследования в области голосовой биометрики были направлены на исследования формантного метода параметризации речевого сигнала [1; 3].

В данной статье рассматривается метод текстозависимой верификации диктора на основе анализа формантного набора. В начале статьи дается определение форманты и формантного набора, подробно описывается метод извлечения формант.

Затем дается постановка задачи текстозависимой верификации диктора с помощью формантного метода, в которой описывается пространство наблюдений и решающее правило в терминах распознавания образов. На множестве формант и формантных наборах определяются меры близости. Приводятся результаты эксперимента по влиянию количества формант в формантном наборе на результаты распознавания.

В завершение статьи дается описание теста надежности текстозависимой верификации диктора, предлагается способ выбора порогового значения а для достижения приемлемых значений ошибок первого и второго рода. Приводятся графики зависимости ошибок первого и второго рода от порогового значения.

1. Форманты

Под речевым сигналом понимают колебания воздушной среды, порождаемые движениями артикуляторных органов диктора [11]. Опуская технические подробности, будем считать, что речевой сигнал представлен отсчетами функции s(t) вещественной переменной [12-14]. В работе будут рассматриваться только дискретные сигналы, которые описываются дискретными последовательностями s(n) = s(nT), где T = const — интервал дискретизации, n = 0,1, 2,... , N называются отсчетами функции.

В соответствие с линейной моделью речеобразования, которая была разработана Фантом [11; 15], речевой сигнал S(z) может быть описан через математическую модель синтеза в терминах z-преобразования как

S(z) = E(z) G(z),

где E(z) — функция возбуждения модели синтеза речевого сигнала, а G(z) — передаточная функция речевого тракта человека, которая представляется с помощью полюсного фильтра с функцией передачи

G(z) 11

-4М , А

1 - аг г г

г=1

где р — число полюсов функции передачи, совпадающее с порядком предсказания, аг — коэффициенты линейного предсказания (КЛП).

Основной принцип метода линейного предсказания состоит в том, что текущий отсчет речевого сигнала можно аппроксимировать линейной комбинацией р предшествующих отсчетов:

р

§(и) = аг з(п — г), п = п1,...,п2,

г=1

где ак — коэффициенты предсказания, а в(п — к) — к-е предыдущее значение сигнала в(п), р — порядок предсказания (для полосы частот, ограниченной максимальной частотой дискретизации 10 кГц, типичное значение р равно 12 [11]).

Определим ошибку предсказания как разность между предсказываемым и действительным значением п-го отчета:

p p

e(n) = s(n) — s(n) = s(n) — ai s(n — i) = hi s(n — i),

i=1 i=0

где Ьг = —аг, г = 1,... ,р и Ь0 = 1. Средний квадрат ошибки предсказания на конечном интервале [щ,^] имеет следующий вид:

. 2

П2 ¡Р \ 2 П2 Р Р

E =Y1e2(n) = 1 J2his(n—i)j = J2hi hjs(n—i) s(n—j ),

n=n\ n=ni \ i=0 / n=ni i=0 j=0

где {s(v^)}'n==ni — отрезок речевого сигнала.

Если ввести обозначение

П2

фл ) = s(n - i) s(n - j)>

П=П1

то (2) можно записать как

p p

E = bi bj p(i,j).

i=0 j=0

Коэффициенты bi при этом определяются однозначно минимизацией среднего квадрата разности Е между отсчетами речевого сигнала s(n) и их предсказанными значениями s(n) на конечном интервале [ni, n2] в (3), что сводится к решению системы уравнений:

дЕ

ai~ = 0> k = 1, дЬк

или в развернутом виде

Р

bi p(i, k) = 0, k = 1, 2,... ,p.

Используя (3) и (4), можно выразить Е в виде

p

£■

i=0

E = SbjY^biv(i’j) = b°Y^bi^(i’0)+SbjY^biv(i’j) = Sbi^(i’0) (b° = j=0 i=0 i=0 j=1 i=0

i=0

Таким образом, для решения системы уравнений (4) относительно коэффициентов предсказания следует первоначально вычислить величины p(i,k), где i Е [0,p] и k Е [1,p]. Только после этого можно переходить к нахождению коэффициентов bk.

Определив функцию передачи (1) по полученным коэффициентам bk, можно построить сглаженный спектр речевого сигнала s(n) [11], который определен как

10 log | G(z) \z=eiи = 10 log

1

A(z)

-2° log \A(z)\z=e

Получаемый спектр не является спектром исходного сигнала, потому что для вычисления КЛП используют сотни входных отсчетов, а самих коэффициентов Ък, где к = 1,... ,р, вычисляют не более двух десятков. Тем не менее полученный из КЛП спектр характеризует спектр исходного сигнала.

Понятие «форманты» было впервые введено Фланаганом в середине прошлого века [11; 15-17]. Под формантой понимают упорядоченную пару значения локального максимума амплитуды и частоты, на которой он достигается, соответствующая частота называется частотой форманты.

Форманту будем обозначать через f = (т,а), где т — частота форманты, а — амплитуда форманты. Множество всех формант будем обозначать символом Н С И2. Можно считать, что f = (т, а) Е Н, где т > 0 и а > 0.

2

z= e

Под формантным набором будем понимать набор формант

F = Ш!=1 = {(™г,аг)Уг=1,

где v Е N и wi = Wj, если i = j, и wi < Wj, если i < j. Обозначим через V множество всевозможных формантных наборов.

Найти форманты можно с помощью вычисления корней знаменателя передаточной функции A(z). Эти корни называют полюсами передаточной функции (1). Представим функцию A(z) в виде разложения на линейные множители

p p

A(z) = 1 -^2 ak z-k = Д(1 - zk z-1), k=1 k=1

где zk — корни функции A(z) при к = 1,... ,p.

Модуль сглаженного спектра определяется соотношением

p

10 log I G(z) \z=e^ = -20]Tlog 11 - ег(^-ш) | , (5)

k=1

где Uk = —i ln zk — корни функции A(z) на единичной окружности комплексной плоскости при к = 1,... ,p. Как видно из формулы (5), корни Uk однозначно характеризуют максимумы в сглаженном спектре, то есть однозначно определяют форманты.

Пример сглаженного спектра гласного ударного звука «а» и его формант показан на рис. 1. Форманты являются робастными характеристиками речевого сигнала, слабо изменяющимися под воздействием аддитивных и даже небольших мультипликативных шумов [1].

1 1001 2001 3001 4001 5001

Частота, Гц

Рис 1. Толстая линия — сглаженный спектр речевого сигнала гласного ударного звука «а»; квадратики — локальные максимумы данного спектра, которые соответствуют восьми формантам; тонкая линия — отсчеты ДПФ сигнала с частотой дискретизации 11025 Гц

2. Формантный метод текстозависимой верификации диктора

Определим центральные понятия классической постановки задачи верификации диктора по голосу [3; 18; 19].

Гипотетическим множеством П будем называть множество объектов распознавания ш Є П, где, соответственно, элемент ш Є П является речевым фрагментом, принадлежащим диктору.

Индикаторной функцией будем называть функцию д(ш): П ^ М, разбивающую множество П на т непересекающихся классов П^ ... , Пт, где разные классы соответствуют различным дикторам, а М = {1,... ,т} — множество дикторов. Индикаторная функция строится в процессе обучения системы верификации диктора.

Пусть х(ш): П ^ X — функция, которая ставит в соответствие каждому объекту ш Є П его образ х(ш) Є X, непосредственно воспринимаемый наблюдателем. Тогда множество X будем называть пространством наблюдения.

Решающее правило д(х): X ^ М позволяет наблюдателю распознать класс д(ш) объекта ш Є П, опираясь на его образ х(ш) в пространстве наблюдений X.

В задаче верификации диктор считается известным и необходимо по предъявленному фрагменту речи сделать заключение принадлежности его данному диктору. Другими словами, по заранее известному классу Пі и по образу х(ш) объекта ш, предъявленного фрагмента речи, решающее правило будет состоять из решений: объект распознавания ш принадлежит классу Пі или противное.

Текстозависимые системы верификации — это системы, которые используют грамматически один и тот же речевой сигнал, поэтому при обучении и при верификации диктор должен произносить одну и ту же фразу.

Элементами пространства наблюдений X являются векторы признаков, вычисленные на основе речевого сигнала. В предлагаемом методе верификации диктора речевой сигнал разбивается на кратковременные непересекающиеся вокализованные сегменты, для которых вычисляются формантные наборы Г.

Признаки объектов обозначим через хг Є V при і = 1,... ,п, где п — это число сегментов фразы.

Определим решающее правило д(х) для верификации диктора, используя критерий минимизации расстояния во введенной далее метрике от поступившего на вход вектора признаков наблюдения объекта ш до класса Пк верифицируемого диктора.

Пусть в результате обучения дикторов все множество объектов распознавания П было разбито на непересекающиеся подмножества Пі,... , Пт, каждое из которых отвечает соответствующему диктору. Обозначим объекты, относящиеся к каждому классу, следующим образом:

П1 {ш11 ,ш12,---,ш1йі }, Пт {шт1, шт2, , шткт }-

Определим г(/1, /2) как меру близости двух формант /1 = (/ш1, а1) и /2 = (/ш1, а2),

г//2) = с,,, |«>1 - Ш2І + Са |а1 - а2І,

(6)

где сш и са — весовые коэффициенты, которые определяются из условий нормировки частоты и амплитуды формант.

Далее, определим меру близости к(Г1,Г2) между двумя формантными наборами

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 'У

Н(ГиР2) = т(/и,/х), (7)

г=1

где = {/1г}'11=1 и = |/2г}Г=1 — формантные наборы.

Близость двух речевых образцов будем оценивать следующим образом:

1 п ■

¿(Ш1Р, Ш21) = п ^2 к(х1р, х321)’ (8)

п 3=1

р = 1,... ,к1, I = 1,... ,к2,

где Х1р есть значение ]-го признака р-го объекта 1-го класса, то есть объекта ; х2 — значение ^'-го признака 1-го объекта 2-го класса, то есть объекта ш%.

Рассмотрим величину Б (ш, {шq}) — меру близости между распознаваемым объектом ш и классом , д = 1, 2,... ,т, заданным своими объектами {шq}:

1

Б (ш, {ш }) = -г^ л(ш,ш), (9)

kq 1

4 q=1

где kq = |^ |.

Решающим правилом для верификации диктора является

9(х(ш))Лд' если Б(ш {ш}) <® (10)

I 0, иначе,

где а — пороговое значение, которое определяется в зависимости от требуемых ошибок первого и второго рода.

Под ошибкой первого рода будем понимать вероятность того, что результат решающего правила (10) будет равен значению 0, хотя должно быть д. То есть ошибкой первого рода является вероятность несовпадения векторов признаков речевых сигналов, принадлежащих одному и тому же диктору.

Под ошибкой второго рода будем понимать вероятность того, что результат решающего правила (10) будет равен значению д, хотя должно быть 0. То есть ошибкой второго рода является вероятность совпадения векторов признаков речевых сигналов, принадлежащих разным дикторам.

3. Оценка надежности текстозависимой верификации диктора на основе формантного метода

Для того чтобы получить количественную оценку надежности текстозависимой верификации диктора на основе формантного метода, необходимо найти ошибки перового и второго рода [2]. Под надежной текстозависимой верификацией диктора будем понимать успешное распознавание дикторов по голосу.

Была собрана база голосов из 10 дикторов, каждый диктор произносил 13 раз некоторое одинаковое для всех слово. Был поставлен эксперимент, в котором ошибки первого и второго рода определялись для этой базы голосов.

Предварительно все 130 фраз разбивались на кратковременные непересека-ющиеся вокализованные сегменты так, чтобы каждому сегменту соответствовал гласный звук слова. Так как фразы дикторов все одинаковы, то они разбиваются на одинаковое число сегментов, которое определялось числом гласных звуков в слове. Для каждого сегмента далее вычислялись векторы признаков, то есть формантные наборы.

Сравнение фраз дикторов происходило при помощи модифицированного решающего правила (10) при заданном пороговом значении а:

где шг и шз — объекты распознавания, соответствующие г-й и ]-й фразе дикторов при г,] Е [1,130]. Здесь аналогично (9) и (8)

где хі и х2 — векторы признаков объектов ші и (по числу сегментов). Метрика Н(х\,х*) в пространстве формантных наборов V вводится также, как в (7), следующим образом:

где х\ = {/¡і}і=1 и х* = {¡*1— формантные наборы для ¿-й координаты векторов признаков хі и х^ (по числу формант в формантных наборах). Здесь, как в (6), г (/¡і, ¡¡і) — метрика в пространстве формант Н,

с весовыми коэффициентами сш и са, которые определяют допустимый предел по-

наборах х\ и х*. Выберем сш = 1 и са = 1000.

Затем составим матрицу М130х130 по всевозможным фразам дикторов, элементами которой являются 1 и 0, соответствующие результатам решающего правила (11). При успешном распознавании дикторов в идеальном случае матрица М должна содержать единицу только в тех местах, где фразы соответствуют одному и тому же диктору. Значит, количество единиц для такой матрицы должно быть равно с1 = 130 • 13, а нулей должно быть с0 = 130 • (130—13). Стоит отметить, что матрица М является симметричной.

В построенной матрице М в тех местах, где фразы соответствуют одному и тому же диктору, подсчитываем количество нулей ^0. А в тех местах, где фразы соответствуют разным дикторам, подсчитываем количество единиц ¿1. Тогда

если Б(ші,ш2) < а; иначе,

(11)

і=і

г(Ій, ¡'¡і) = с™ Ні — т*й\ + са \а?ц — а\і^

рогового значения а, и с формантами ¡¡і = (ґш\1, аьй) и ¡¡і = (ґш\1, а\ь) в формантных

ошибки первого р1 и второго р2 рода находим по формулам

do dl

Р1 = — и Р2 = —.

с1 с0

Пороговое значение

Рис 2. Графики зависимости ошибок первого и второго рода от порогового

значения а

Перебирая различные пороговые значения а в пределах [0,100], вычисляем ошибки первого и второго рода для этих пороговых значений описанным выше способом. На рис. 2 приведены графики зависимости ошибок первого и второго рода от порогового значения. Для наглядности некоторые значения этой зависимости содержатся в табл. 1.

Таблица 1

Пороговое значение 19 28 29 30 42 57 71

Ошибка 1 рода 0.677 0.3967 0.377 0.3525 0.1148 0.0393 0.0115

Ошибка 2 рода 0 0.0068 0.0096 0.0147 0.1164 0.3700 0.6331

В качестве значений ошибок первого и второго рода можно выбирать точку пересечения графиков этих ошибок. Однако, лучше этот выбор сделать оптимальным относительно более важной ошибки второго рода. Так для порогового значения 29 (см. табл. 1) ошибка первого рода равна 0.377, а второго рода —

0.001.

Возможно, что ошибку первого рода можно уменьшить за счет увеличения длительности фразы. Если дикторы буду выбирать свои речевые фразы индивидуальным образом, то можно полагать, что ошибки первого и второго рода будут значительно меньше.

Приведем также график зависимости ошибки первого рода от второго (рис. 3).

Ошибка первого рода

Рис 3. График зависимости ошибки первого рода от второго рода

Были также проведены эксперименты по выбору количества формант в формантном наборе. В табл. 2 и 3 приведены значения ошибок первого и второго рода для числа формант от 7 до 9. В табл. 2 зафиксирована ошибка первого рода, в табл. 3 — ошибка второго рода. По результатам эксперимента можно заключить, что для достижения наименьших ошибок первого и второго рода необходимо выбрать число формант, равное восьми.

Таблица 2 Таблица 3

Количество Ошибка Ошибка

формант 1 рода 2 рода

7 0.4410 0.0101

8 0.3770 0.0096

9 0.4787 0.0097

Количество Ошибка Ошибка

формант 1 рода 2 рода

7 0.4967 0.0063

8 0.4984 0.0022

9 0.4987 0.0087

Заключение

Полученные количественные характеристики надежности текстозависимой верификации диктора на основе формантного метода дают основание считать возможным успешное распознавание диктора по голосу с помощью формантного метода.

В дальнейшем планируется рассмотреть различные походы при построении решающего правила, так как, возможно, этот выбор может улучшить надежность текстозависимой верификации диктора.

Список литературы

1. Аграновский, А. В. Теоретические аспекты алгоритмов обработки и классификации сигналов / А. В. Аграновский, Д. А. Леднов. — М. : Радио и связь, 2004. — 164 с.

2. Болл, Р. М. Руководство по биометрии / пер. с англ. Н. Е. Агаповой; Р. М. Болл, Дж. Х. Коннел, Ш. Панканти, Н. К. Ратха, Э. У. Сеньор. — М. : Техносфера, 2007. — 368 с.

3. Репалов, С. А. Разработка математических моделей и робастных алгоритмов идентификации дикторов по их речи : дис. ...канд. физ.-мат. наук / С. А. Репалов. — Ростов н/Д., 2003. — 140 с.

4. Ручай, А. Н. Реализация системы текстозависимой верификации диктора по голосу / А. Н. Ручай // Безопасность информационного пространства: Труды VII региональной научно-практической конференции студентов, аспирантов и молодых ученных. — Екатеринбург : УрГУПС, 2008. — С. 83-84.

5. Ручай, А. Н. Разработка текстозависимой системы идентификации диктора по голосу / А. Н. Ручай // Системная интеграция и безопасность: Сборник научной сессии ТУСУР-2009. — Томск : В-Спектр, 2009. С. 347-352.

6. Ручай, А. Н. Реализация текстозависимой системы идентификации диктора по голосу / А. Н. Ручай // Проблемы теоретической и практической математики: Труды 40-й Молодежной школы-конференции. — Екатеринбург : УрО РАН, 2009. С. 316-320.

7. Ручай, А.Н. Биометрика как метод идентификации диктора по голосовым данным / А. Н. Ручай // Студент и научно-технический прогресс: Тезисы докладов XXXI студенческой научной и межвузовской научно-практической конференции для студентов классических вузов. — Челябинск : ЧелГУ, 2007. — С. 97-98.

8. Рамишвили, Г. С. Автоматическое опознавание говорящего по голосу / Г. С. Ра-мишвили. — М. : Радио и связь, 1981. — 224 с.

9. Иванов, А. И. Биометрическая идентификация личности по динамике подсознательных движений / А. И. Иванов. — Пенза : ПГУ, 2000. — 188 с.

10. Иванов, А. И. Нейросетевые алгоритмы биометрической идентификации личности / А. И. Иванов. — М. : Радиотехника, 2004. — 144 с.

11. Маркел, Дж. Линейное предсказание речи / пер. с англ. Ю. Н. Прохорова и В. С. Звездина / Дж. Маркел, А. X. Грей. — М. : Связь, 1980. — 308 с.

12. Айфичер, Э. Цифровая обработка сигналов: практический подход / Э. Айфичер, Б. Джервис. — М. : Вильямс, 2004. — 992 с.

13. Рабинер, Л. Р. Цифровая обработка речевых сигналов / пер. с англ. М. В. Назарова и Ю. Н. Прохорова / Л. Р. Рабинер, Р. В. Шафер. — М. : Радио и связь, 1981. — 496 с.

14. Сергиенко, А. Б. Цифровая обработка сигнала / А. Б. Сергиенко. — СПб. : Питер, 2003. — 604 с.

15. Марпл-мл., С. Л. Цифровой спектральный анализ и его приложение / пер. с англ. О. И. Хабарова и Г. А. Сидоровой / С. Л. Марпл-мл. — М. : Мир, 1990. — 584 с.

16. Фланаган, Д. Л. Анализ, синтез и восприятие речи / пер. с англ. А. А. Пирагова; Д. Л. Фланаган. — М. : Связь, 1968. — 396 с.

17. Ручай, А. Н. К вопросу о формантном методе текстозависимой верификации диктора / А. Н. Ручай // Научная сессия ТУСУР-2010: Материалы докладов Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых. — Томск : В-Спектр, 2010. — Ч. 3. — С. 194-197.

18. Ручай, А. Н. К вопросу о законе распределения форманты, биометрической характеристики диктора / А. Н. Ручай // Проблемы теоретической и практической математики: Тезисы 41-й Всероссийской молодежной конференции. — Екатеринбург : УрО РАН, 2010. — С. 401-407.

19. Горелик, А. Л. Методы распознавания / А. Л. Горелик, В. А. Скрипкин. — М. : Высш. шк., 1989. — 232 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.