Научная статья на тему 'Текстонезависимый метод идентификации человека по его голосу'

Текстонезависимый метод идентификации человека по его голосу Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
243
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЕРИФИКАЦИЯ / ГОЛОСОВАЯ ИДЕНТИФИКАЦИЯ / ГОЛОСОВЫЕ ПРИЗНАКИ / КЕПСТР ГОЛОСОВОГО СИГНАЛА / МОДЕЛЬ ГАУССОВЫХ СМЕСЕЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Можаров Геннадий Петрович, Чеботарев Роман Сергеевич

Рассматрен языкои текстонезависимый методы голосовой идентификации человека, основанные на выделении из речевого сигнала признаков, характеризующих линейное предсказание поведения автокорреляционной функции кепстра голосового сигнала. На основе вектора признаков построена голосовая модель человека в виде максимально-правдоподобной смеси гауссианов, описывающих вектор признаков. Голосовая идентификация выполнена путем выбора модели, имеющей максимальную апостериорную вероятность ее восстановления по входному голосовому сигналу.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Можаров Геннадий Петрович, Чеботарев Роман Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Текстонезависимый метод идентификации человека по его голосу»

УДК 004.522

Г. П. Можаров, Р. С. Чеботарев

ТЕКСТОНЕЗАВИСИМЫЙ МЕТОД ИДЕНТИФИКАЦИИ ЧЕЛОВЕКА ПО ЕГО ГОЛОСУ

Рассматрен языко- и текстонезависимый методы голосовой идентификации человека, основанные на выделении из речевого сигнала признаков, характеризующих линейное предсказание поведения автокорреляционной функции кепстра голосового сигнала. На основе вектора признаков построена голосовая модель человека в виде максимально-правдоподобной смеси гауссианов, описывающих вектор признаков. Голосовая идентификация выполнена путем выбора модели, имеющей максимальную апостериорную вероятность ее восстановления по входному голосовому сигналу.

E-mail: chebotarev.roman@gmail.com

Ключевые слова: голосовая идентификация, верификация, голосовые признаки, кепстр голосового сигнала, модель гауссовых смесей.

Обработка голоса и речевые технологии являются сегодня одними из самых популярных направлений исследований. Повышенный интерес к этой области обусловлен большим спросом на результаты разработок систем речевого анализа, которые имеют самый широкий круг применения — от криминалистики и задач обеспечения безопасности до простых продуктов ежедневного пользования. Попытка классификации существующих речевых технологий приведена на рис. 1.

Рис. 1. Существующие речевые технологии

Одной из наиболее актуальных задач является создание технологий идентификации и верификации личности по голосу. Такие технологии могут быть использованы для построения системы контроля физического доступа на определенную территорию, систем контроля доступа к защищенной информации, для криминалистических исследований (контроль телефонного трафика операторов связи и автоматическое обнаружение представляющего интерес лица по голосу).

Применение технологии в совокупности с другими методами обработки речевой информации возможно, например, для решения задачи автоматизации работы call-центров (учет звонков с привязкой к клиентской базе, автоматический анализ и статистика запросов).

В настоящей статье рассмотрен разработанный автором языко- и текстонезависимый метод голосовой идентификации личности, а также проведен анализ точности его работы на большом количестве реальных голосовых данных, различающихся языками, условиями регистрации сигналов и гендерной принадлежностью личности.

Отличительными особенностями метода по сравнению с аналогичными технологиями западных разработчиков являются невысокие требования к качеству голосового сигнала и умеренная зависимость точности идентификации личности от условий регистрации голосового сигнала, которая варьируется в пределах ±5 % при широком изменении условий регистрации. Для сравнения, точность большинства современных технологий голосовой идентификации варьируется в пределах ±(10-15)% при аналогичном изменении условий регистрации голосового сигнала [1].

Под условиями регистрации голосового сигнала понимается совокупность устройства регистрации сигнала, акустической обстановки и формата хранения голосового сигнала.

Обзор существующих методов. Современные системы голосовой идентификации и верификации работают в двух режимах.

Режим обучения. Выделяются характерные признаки голоса человека, формируется его голосовая модель (голосовой отпечаток) на основе этих признаков и выполняется сохранение модели в базе данных.

Рабочий режим. Выделяются характерные признаки голосового сигнала человека и выполняется поиск в базе данных голосовой модели, соответствующей этим признакам (идентификация личности), или проверка принадлежности признаков к конкретной заданной голосовой модели (верификация личности).

Функциональная схема работы таких систем представлена на рис. 2.

Кроме этого, в режиме обучения также составляется так называемая универсальная фоновая модель (Universal Background Model,

Данные для идентификации или верификации

ID личности (голосовой модели) ■

_L

Данные обучения

Формирование вектора голосовых признаков

Поиск соответствующей голосовой модели и/или

Проверка принадлежности к заданной модели

Вердикт системы

Формирование Построение

вектора голосовой

голосовых модели

признаков человека

г Л Построение

универсальной

фоновой

модели V_>

UBM

База данных голосовой модели

Рис. 2. Функциональная схема системы голосовой идентификации/верификации личности

UBM), которая описывает некоторые усредненные голосовые характеристики всех людей, находящиеся в базе. В рабочем режиме на основании этой модели проводится вычисление степени уникальности голосового сигнала, которая позволяет судить о достоверности идентификации/верификации и является частью аппарата принятия конечного решения.

Наибольший интерес для исследований представляют языко- и текстонезависимые методы идентификации личности. Метод является языконезависимым, если он инвариантен к языку, на котором произносится речь для целей идентификации. Аналогично, метод называется текстонезависимым, если в процессе своей работы он не получает информации о том, какую именно фразу (или слово) будет произносить человек.

В настоящее время наиболее результативным подходом к решению задач языко- и текстонезависимой идентификации личности является построение голосовых моделей на основе моделей гауссовых смесей (Gaussian Mixture Model, GMM) [2, 3]. Сами модели, как уже было отмечено, строятся на основе некоторого набора голосовых признаков, формирование которых собственно и представляет основную сложность. Наиболее распространенным методом построения голосовых признаков является формирование вектора мел-частотных кепстраль-ных коэффициентов (Mel-Frequency Cepstral Coefficient, MFCC) из голосовой записи [1,2].

Однако, несмотря на достаточно хорошие результаты работы в лабораторных условиях, методика GMM-MFCC не может быть исполь-

зована для построения реальных систем голосовой верификации и идентификации. Причиной тому служат очень высокие требования к качеству голосового сигнала и сильная зависимость результатов от вида обучающего материала (на основе которого составляется база голосовых моделей и фоновая модель), и условий регистрации голосового сигнала. Также недостатком являются относительно большие временные затраты на формирование вектора голосовых признаков [1-4].

Таким образом, в настоящее время существует потребность в качественном методе выделения голосовых признаков человека, способном работать с голосовыми материалами среднего качества (например запись телефонного разговора) и менее чувствительном к изменению условий регистрации голосового сигнала.

Предлагаемый метод. Суть метода голосовой идентификации заключается в использовании разработанных автором способов выделения вектора голосовых признаков и построения на его основе модели голоса человека. Вектор голосовых признаков представляет собой вектор из 12 первых коэффициентов линейного предсказания поведения автокорреляционной функции кепстра голосового сигнала.

Вычислению кепстра предшествует специфическая фильтрация голосового сигнала в диапазоне высоты звука (обычно фильтрация звука осуществляется в частотном диапазоне), которая позволяет отсечь элементы частотного разложения, слабо влияющие на голосовые характеристики, и, наоборот, подчеркнуть области, содержащие наиболее важную информацию, характеризующую индивидуальные голосовые особенности диктора.

На основании полученных векторов-признаков строятся голосовые модели путем выбора максимально-правдоподобной 1024-компонентной ОММ, а также универсальная фоновая 1024-компонент-ная модель (ЦВМ).

Идентификация личности (выбор голосовой модели, наиболее соответствующей заданному голосовому сигналу) осуществляется методом максимизации апостериорной вероятности. Верификация представляется как задача бинарной классификации и выполняется путем одновременной проверки гипотез принадлежности голосового сигнала к заданной голосовой модели и отсутствия его принадлежности к универсальной фоновой модели.

В реализации метода используются голосовые сигналы с частотой дискретизации /д = 8 000 Гц (сопоставимо с качеством записи мобильного телефона) и максимальной длительностью 20 с.

Формирование вектора признаков. Как уже было отмечено, вектор голосовых признаков строится из 12 первых коэффициентов

Рис. 3. Этапы формирования вектора признаков

линеиного предсказания поведения автокорреляционной функции кеп-стра голосового сигнала. Построению кепстра предшествует фильтрация голосового сигнала в диапазоне высоты звука.

Формирование вектора голосовых признаков осуществляется по следующему алгоритму (рис. 3).

1. При необходимости исходный голосовой сигнал ограничивается по длительности (20 с) и приводится к частоте дискретизации /о = 8 000 Гц.

2. Проводится быстрое преобразование Фурье исходного сигнала, и вычисляются квадраты спектральных коэффициентов

в2 (и).

3. Частотный диапазон [0; 0,5/о ] разбивается на 14 критических полос восприятия звука, которые соответствуют равномерному разбиению диапазона высоты звука (г, барк), получаемой из частотной шкалы (и, Гц) по формуле

z = 6 log

и 600

+

Л

2+1

600/

Затем определяются спектральные энергетические траектории 1п в2 (г) во все критических полосах.

4. Выполняется фильтрация траекторий 1п в2 (г) с целью отсечь спектральные компоненты, скорость изменения которых отлична от скорости изменения соответствующих компонентов речи, и растяжения амплитуд спектральных коэффициентов, содержащих наиболее выраженные голосовые признаки. Разработанный в процессе исследований фильтр имеет дискретную передаточную функцию вида

Ф (z) = 0,1z

41 + z-1 - 3z-3 - 2z-4

1 - 0,9z

1

5. Энергетический спектр 1п в2(г) "склеивается" из 14 критических полос и возвращается в линейный частотный масштаб 1п в2 (и).

6. Выполняется обратное быстрое преобразования Фурье энергетического спектра, в результате которого получается кепстр С8(д), характеризующий частотно-энергетические особенности исходного сигнала в пространстве кепстрального (зависящего от частоты) времени д.

7. Вычисляется автокорреляционная функция Rс (к) кепстра С8(д):

Яс (к) = ^ М [Оа (д) • С5(д - к)],

где М [ • ] — операция вычисления математического ожидания. Поскольку метод предполагает использование 12 кепстральных коэффициентов, то вычислять автокорреляционную функцию можно только для к = 1... 13.

8. Представляя значения автокорреляционной функции Rс (1)... ... Яс (11) в виде матрицы Теплица

T =

Rc (1) Rc (2) Rc (2) Rc (1)

Rc (11)

Rc (10)

Rс (11) ••• Rс (2) Rс (1) а саму задачу вычисления линейного предсказания в виде

" Rс (1) Rс (2) Rс (2) Rс (1)

••• Rc (12) Ü2 -Rc (2)

••• Rc (11) a3 = -Rc (3)

Rc (2) Rc (1) ai3 -Rc (13)

Rс(12) •••

имеем возможность определить коэффициенты линейного предсказания поведения автокорреляционной функции эффективным с точки зрения вычислений рекурсивным методом Левинсона-Дарбина [5].

9. Кепстральные коэффициенты линейного предсказания вычисляются через рекуррентные соотношения

c i = -ß2;

n— 1 ,

Ек

~ck an—k,

k=1

n

П = 1,..., 11.

Таким образом, получаем итоговый вектор голосовых признаков X = |сь ... с 12}, достаточно хорошо характеризующий индивидуальные голосовые особенности человека, обусловленные физиологией его голосового тракта, и не зависящий от конкретной речевой информации, произносимой человеком.

Формирование голосовых моделей. Для построения голосовых моделей на основе векторов голосовых признаков используется 1024-

компонентная ОММ. Основная идея аппарата ОММ состоит в представлении плотности распределения вектора голосовых признаков X в виде взвешенной суммы гауссовых плотностей распределения:

м

Р (X) = ^ атРт (Х,^т,Дт),

т= 1

где рт (X, Б ) — гауссова плотность распределения с математическим ожиданием ^ и ковариационной матрицей Б, имеющей вид

Рт (Х,^,Б ) = 1 exp(-0,5(X - ^)тБ-1(Х -V2п det Б

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Фактически представление плотности р (X) в виде суммы М гаус-сианов соответствует разбиению множества голосовых параметров на М подклассов (как уже было отмечено, в предложенном методе М = 1024).

Также примечательно, что для ОММ не важен порядок следования друг за другом определенных голосовых сигналов, поскольку данный аппарат работает с накопленными статистиками параметров.

Задача верификации пользователя по голосу представляет собой бинарную классификацию. Формально задача представляет собой проверку двух гипотез:

Н0 — фразу У произнес человек £;

Н1 — фразу У произнес НЕ человек £.

Оптимальной проверкой для выбора одной из двух гипотез является отношение правдоподобия. При этом процедура принятия решения выглядит следующим образом:

р(у |Н0) [ — в ^ принимаем Н0;

Р(У |Н1) < в ^ принимаем Н1,

где р(У |Н) — функция плотности вероятности для гипотезы Н, оцененная на речевом сегменте У, а в — порог принятия решения. Математически гипотеза Н может быть определена моделью Л, которая характеризует диктора £ в пространстве признаков.

Для каждого человека на основании записей его речи строится голосовая модель. Для гипотезы Н1 строится универсальная фоновая модель, характеризующая всех возможных говорящих людей во всех возможных контекстах. Данная модель обучается на большом числе голосовых данных, сбалансированных по гендерному типу, а также по оборудованию и условиям регистрации голосового сигнала.

Таким образом, ОММ должны быть независимо обучены для каждого человека, т.е. для каждого человека должен быть найден набор параметров Л = {а, Б^}, г = 1... М (рис. 4). Исходными данными

для обучения являются векторы голосовых признаков X = {ci,... c12 }. Обучение GMM осуществляется по алгоритму максимального правдоподобия (Expectation-Maximization, EM). Правдоподобие модели Л на последовательности обучающих векторов T = {X1,... XT} может быть оценено как

p (T | Л) = ПР (X I А).

t=1

Идея алгоритма максимального правдоподобия заключается в последовательном изменении параметров модели An ^ An+1 таким образом, чтобы p (T | An+1) > p (T | An) до тех пор, пока не будет достигнут порог сходимости, или пока алгоритм не будет остановлен. В рассматриваемой методике оценка максимального правдоподобия проводится по алгоритму Баума-Уэлша, который традиционно используется для нахождения неизвестных параметров скрытых марковских моделей [6] (рис. 4).

Схожим образом формируется фоновая модель Ajjbm, за исключением того, что последовательность обучающих векторов T составляется из всех возможных векторов голосовых признаков X.

Идентификация и верификация. Группа людей G = {S1,... Sk} в системе голосовой идентификации представлена своими голосовыми отпечатками в базе GMM Л = {A1,... Ak}. Определение, какой из моделей в базе Л наиболее соответствует некоторый вектор признаков X, происходит путем выбора такой модели Am, которая имеет максимум апостериорной вероятности:

о р /л I ^ p(x|Am) Pr(Am) S = arg max Pr (Am X) = arg max -——- ,

1<m<k 1 <m<k p(X)

или с учетом равной вероятности появления каждого человека из базы

голосовых моделей

S = arg max p (X | Am).

l<m<k

После выбора наиболее соответствующей голосовой модели Am решается задача верификации:

p(X|Am) f — 0 ^ X соответствует модели Am; p(X |aubm) < 0 ^ X соответствует НЕ модели Am,

где порог 0 = 1, 65 был выбран в ходе экспериментов как оптимальный с точки зрения максимальной точности идентификации. Примечательно, что значение этого оптимального порога изменялось весьма незначительно при различных способах проведения эксперимента.

Экспериментальные результаты. Рассматриваемый метод голосовой идентификации был полностью реализован в среде Mathworks Matlab R2010. В качестве материалов для обучения и тестирования системы были использованы данные конкурсов систем распознавания дикторов NIST SRE в 2004, 2006 и 2008 гг. [7], из которых были отобраны фонограммы дикторов, имеющих по 6-10 голосовых записей длительностью около 16 с (табл.1). Фонограммы содержат большое число разнообразных фраз, произносимых на разных языках в условиях различной акустической обстановки (помещение, улица и т.п.).

Таблица 1

Используемая база фонограмм

Гендерный состав Общее число отобран- Каналы

ных участников и их фонограммы телефон-телефон микрофон-микрофон телефон-микрофон

М Дикторы 473 95 92 тел. + 95 мик.

Фонограммы 3928 910 1374

Ж Дикторы 626 122 121 тел. + 122 мик.

Фонограммы 5153 1173 1829

Были проведены всевозможные способы обучения универсальной фоновой модели (ЦВМ), формирование голосовых моделей всех дикторов и тестирование системы идентификации на этих данных. Фонограммы для обучения и тестирования случайно выбирались из доступных таким образом, чтобы фонограммы, использовавшиеся для построения голосовых моделей, не участвовали в тестировании.

Для обучения универсальной фоновой модели (ЦВМ) дополнительно были выбраны фонограммы из [7], не используемые ни для формирования голосовых моделей, ни для тестирования (табл. 2).

Таблица 2

Число фонограмм для обучения иВМ

Гендерный состав дикторов Каналы

телефон-телефон микрофон-микрофон телефон-микрофон

М 642 871 604

Ж 737 1342 597

В результате эксперимента были определены вероятности достоверной идентификации личности диктора по голосовой записи при различных данных для обучения иВМ и данных для тестирования. Результаты приведены в табл. 3, 4 и 5.

Таблица 3

Точность идентификации в канале телефон-телефон

Данные для обучения UBM Данные для тестирования

М Ж М + Ж

М 96,0% - -

Ж - 95,7% -

М + Ж 95,2% 94,9% 93,7%

Таблица 4

Точность идентификации в канале микрофон-микрофон

Данные для обучения UBM Данные для тестирования

М Ж М + Ж

М 97,2% - -

Ж - 97,9% -

М+Ж 96,1% 96,8 % 94,3 %

Таблица 5

Точность идентификации в канале телефон-микрофон

Данные для обучения UBM Данные для тестирования

М Ж М + Ж

М 92,1% - -

Ж - 92,6% -

М+Ж 91,6% 92,0% 90,4 %

Как следует из табл. 3-5, метод демонстрирует достаточно высокую точность текстонезависиомой голосовой идентификации лично-

сти, сравнимую с результатами ведущих мировых разработчиков подобного рода систем [1-4]. Имеет место умеренная зависимость точности идентификации от условий регистрации голосового сигнала (как для целей обучения и составления голосовых моделей, так и непосредственно для идентификации), а также тендерного состава базы голосовых моделей.

Анализ финальных и промежуточных результатов показал, что значительное число ошибок идентификации приходится на неверный выбор голосовой модели Am, соответствующей вектору признаков X. Важность этого замечания обусловлена тем, что система голосовой идентификации может выдавать ложный сигнал, даже в случае построения адекватных голосовых моделей, за счет одного только неполноценного аппарата выбора конкретной голосовой модели Am (или уведомления об отсутствии таковой), соответствующей конкретному вектору признаков X.

В будущем планируется провести анализ влияния условий регистрации голосового сигнала на кепстральные коэффициенты в целях разработки метода формирования вектора голосовых признаков, слабо чувствительных к условиям регистрации голосового сигнала. Также планируется разработка более совершенного классификатора голосовых моделей (т.е. выбора голосовой модели, наиболее соответствующей заданному вектору голосовых признаков). В настоящее время ведется исследование применимости для этих целей аппарата машин опорных векторов, в частности, быстро обучаемых лагранжевых машин (LSVM).

Заключение. Разработан метод языко- и тескстонезависимой голосовой идентификации личности, точность работы которого сопоставима с точностью систем голосовой идентификации ведущих мировых разработчиков.

Отличительной особенностью метода является умеренная зависимость точности идентификации от условий регистрации голосового сигнала (устройства регистрации сигнала, акустическая обстановка, каналы передачи сигнала).

Данный метод может быть положен в основу работы систем голосовой идентификации и верификации как коммерческого применения, так и систем, обеспечивающих контроль физического и информационного доступа с повышенными требованиями к защищенности.

СПИСОК ЛИТЕРАТУРЫ

1.Reynolds D. Experimental evaluation of features for robust speaker

identification // IEEE Trans. On Speech and Audio Processing, 1994. - Vol. 2.

No. 4. - Р. 639-643.

2. B i m b o t F. et al. A tutorial on text-independent speaker verification // EURASIP J. on Applied Signal Processing. - 2004. - No. 4. - Р. 430-451.

3. Reynolds D.,Rose R. Robust text-independent speaker identification using Gaussian mixture speaker models // IEEE Trans. On Speech and Audio Processing. - 1995. - No. 3. -Р. 72-83.

4. Hermansky H., Morgan N. RASTA processing of speech // IEEE Trans. On Speech and Audio Processing. - 1994. - Vol. 2. No. 6. - P. 578-589.

5. Musicus B. Levinson and fast Choleski algorithms for Toeplitz and Almost Toeplitz Matrices // RLE TR, MIT, 1998. - No. 538.

6. Welch L. Hidden Markov Models and the Baum-Welch algorithm // IEEE Information Theory Society Newsletter, 2003.

7. http://www.itl.nist.gov/iad/mig/tests/sre/

Статья поступила в редакцию 15.12.2011

i Надоели баннеры? Вы всегда можете отключить рекламу.