Аналитический обзор основных методов идентификации диктора по голосу

Алимурадов Алан Казанферович; Алиев Канбулат Абдулнасирович; Муртазов Фарид Шагаутдинович

РАЗДЕЛ 2 МОДЕЛИ, СИСТЕМЫ, МЕХАНИЗМЫ

В ТЕХНИКЕ

УДК 621.391; 519.21

АНАЛИТИЧЕСКИЙ ОБЗОР ОСНОВНЫХ МЕТОДОВ ИДЕНТИФИКАЦИИ ДИКТОРА ПО ГОЛОСУ

А. К. Алимурадов, К. А. Алиев, Ф. Ш. Муртазов

Представлен обзор методов, используемых для решения задачи идентификации по голосу. Уделяется внимание обобщенной структуре систем идентификации. Также приводятся краткие описания распространенных методов извлечения признаков, обсуждаются методы оценки систем распознавания и представления результатов таких оценок.

The article presents an overview of the methods used to solve the problem of voice identification. Attention is given to the generalized structure of the identification systems. Also describe some of the common methods of feature extraction, the methods for evaluating systems of recognition and presentation of the results of the evaluations.

Введение

Задача идентификации дикторов является актуальной в области речевых технологий. Связь идентификации дикторов с остальными областями обработки речи может быть отражена следующими отношениями.

Обработка речи может быть разбита на задачи: анализа/синтеза, распознавания, кодирования.

Распознавание охватывает подзадачи: распознавания речи, идентификации дикторов, идентификации языка.

Задача идентификации дикторов заключается в определении по образцу записи голоса, кому из ранее зарегистрированных пользователей принадлежит данный образец.

Обобщенная структура систем идентификации диктора

Работа систем идентификации содержит два основных этапа: регистрация дикторов в системе и сам процесс идентификации. Дикторы предварительно регистрируются в системе, записав свои голоса. Образец голоса каждого диктора обрабатывается с целью извлечения информативных признаков (ИП), которые могут быть использованы для дальнейшей идентификации.

На основе извлеченных ИП строятся шаблоны (в некоторых случаях более подходящим термином является «эталон») дикторов. Шаблон представляет собой некоторую структуру, позволяющую при данных ИП оценить степень подобия либо сразу принять решение.

В процессе идентификации происходит извлечение ИП из предъявленного образца, которые затем сравниваются с шаблонами всех зарегистрированных в системе пользователей либо предварительно отобранных.

Таким образом, общая схема системы идентификации реализуется с помощью следующих основных этапов [1] (рис. 1).

Этап 1 Этап 2 Этап 3

Этап обработки сигналов Этап построения шаблона Этап принятия решения

и- и-

Рис. 1. Обобщенная система идентификации

Этап 1. На данном этапе сигнал обрабатывается с целью выделить ИП, существенные для задачи идентификации.

Этап 2. При регистрации диктора данный этап использует полученный от первого этапа обработки сигналов набор ИП для построения шаблона. Построение шаблона может заключаться как в простом копировании ИП, так и в построении вероятностных шаблонов или других структур. После чего становится возможным при данных ИП вычислить степень подобия между признаками и сохраненным шаблоном.

Этап 3. Функции принятия решений традиционно выделяют в отдельный этап, хотя он может выполнять тривиальные функции или отсутствовать, если на втором этапе моделей вычисляются конечные решения. Для принятия решений используются степени подобия, вычисленные на уровне шаблонов, и, если необходимо, заданные пороги.

Регистрация и предобработка

На этапе регистрации информации осуществляется запись речевого сигнала диктора. На этапе оцифровки аналоговый сигнал представляется последовательностью мгновенных измерений значений амплитуд. Для записи и обработки речевого сигнала обычно используется частота дискретизации 8 или 16 кГц, более высокая частота дискретизации требует больших вычислительных затрат. Для представления отсчетов используется 8, 12 или 16 бит, также допустимы другие значения.

На качество идентификации влияет ряд факторов, связанных с записью и передачей речевого сигнала. Среди них можно выделить следующие:

- несовпадение канала;

- плохая акустика помещения;

- различное расстояние до микрофона и прочее.

Например, при использовании идентификации голоса, передаваемого по телефонному каналу, в общем случае нельзя гарантировать использование для регистрации и идентификации одного и того же микрофона и канала передачи, кроме того, необходимо учитывать влияние посторонних помех. Использование более качественной записи возможно, например, в приложении верификации по голосу для контроля доступа к помещению. В таком случае канал представляет собой микрофон, его кабель и аналого-цифровой преобразователь. Предварительная обработка сигнала может заключаться в удалении участков, не содержащих речь, а также в обработке частотным фильтром.

Выделение информативных признаков

Обработка речевого сигнала в данных системах позволяет выделить в сигнале информацию, релевантную для задачи идентификации по голосу, т.е. информацию, представляющую индивидуальные особенности голоса человека, или признаки.

Выделяют два вида признаков ИП: низкоуровневые (обусловленные анатомическим строением речевого аппарата) и высокоуровневые (приобретенные, связанные с манерой произношения).

Индивидуальность акустических характеристик голоса определяется тремя факторами: механикой колебаний голосовых складок, анатомией речевого тракта и системой управления артикуляцией.

Размеры голосовых складок, масса, жесткость и вязкие свойства складок, давление в легких находятся в основе процессов автоколебаний складок. Частота колебаний складок и форма импульсов объемной скорости потока, протекающего через голосовую щель, влияют на форму огибающей спектра речевого сигнала и его временные параметры.

Геометрические размеры различных отделов речевого тракта и боковые полости (грушевидные полости в области гортани, две носовые полости, гайморовы полости), а также механические свойства тканей речевого тракта определяют его резонансные частоты и скорость затухания колебаний на резонансных частотах. В спектре речевого сигнала это проявляется как частоты и ширина его пиков.

Система управления артикуляцией формирует просодические характеристики: динамику частоты основного тона, длительность фонетических сегментов, эффекты коартикуляции, которые по-разному проявляются у разных дикторов.

Важный ИП индивидуальности голоса - это частота основного тона (ОТ) [2], за ней следуют формантные частоты, размер флюктуаций ОТ и наклон спектра. Информативные признаки, связанные с частотой ОТ, обеспечивают наилучшую сегментацию голосов, а за ними следуют энергия сигнала и длительность сегментов. Логарифмическое представление ОТ более информативно, чем сама частота основного тона.

Другим наиболее важным ИП считаются формантные частоты [2]. В частности, четвертая форманта практически не зависит от типа фонемы и характеризует тракт. Это вытекает из свойств управляемости резонансными частотами речевого тракта. Механика артикуляции такова, что в области высоких частот на сужение в речевом тракте приходятся как пучность, так и узел соответствующих собственных функций акустических колебаний, и это не позволяет управлять частотами высших резонансов.

Метод кепстрального преобразования. В научных работах по идентификации голоса диктора доминирует метод кепстрального преобразования спектра речевых сигналов [3]. Схема этого метода такова: на интервале времени в 10-20 мс вычисляется текущий спектр мощности, а затем применяется обратное преобразование Фурье от логарифма этого спектра (кепстр) и находятся коэффициенты кепстра:

2

й = 2л/0, 0 - верхняя частота в спектре речевого сигнала, \S(jro, t)\2 - спектр мощности. Число кепстральных коэффициентов n зависит от требуемого сглаживания спектра и находится в пределах от 20 до 40.

Коэффициенты кепстрального преобразования формируют пространство, в котором и производится идентификация голоса диктора. Эти коэффициенты сокращенно обозначаются как MFCC - Mel Frequiency Cepstral Coefficients. Число используемых коэффициентов от 10 до 30. Часто используются первые и вторые разности по времени кепстральных коэффициентов, что втрое увеличивает размерность пространства принятия решений, но улучшает эффективность идентификации диктора.

Метод линейного предсказания кепстральных коэффициентов. Суть линейного предсказания заключается в том, что линейной комбинацией некоторого количества предшествующих отсчетов можно аппроксимировать текущий отсчет [3]:

г

'Е

к=1

akxn-k •

Весовые коэффициенты линейной комбинации аь ..., ар называются коэффициентами линейного предсказания. Нахождение коэффициентов линейного предсказания осуществляют с помощью рекурсивного алгоритма Дар-бина.

На основе полученных коэффициентов линейного предсказания рассчитываются кепстральные коэффициенты. Причем таких коэффициентов может быть сгенерировано больше, чем самих коэффициентов линейного предсказания:

"-1 £

ап+скап-к, 1 ^ п ^ р;

Cn

к =1 n n-1 к

ckan-k, n > p•

k=n-p n

Кепстр описывает форму огибающей спектра сигнала, в которой интегрируются характеристики источников возбуждения и формы речевого тракта. Было установлено, что огибающая спектра дает достаточную информацию для решения задачи идентификации голоса. Поэтому использование того или иного способа анализа огибающей спектра в целях идентификации голоса диктора оправдано.

В силу того, что в подавляющем большинстве систем идентификации диктора используется одно и то же пространство признаков в идее кеп-стральных коэффициентов, их первых и вторых разностей, основное внимание уделяется построению решающих правил. Наиболее популярны: метод аппроксимации плотности вероятности в пространстве признаков взвешенной смесью нормальных распределений (GMM - Gauss Mixture Models), метод опорных векторов (SVM - Support Vector Machines), метод скрытых Марковских моделей (HMM - Hidden Markov Models), искусственные нейронные сети, а также модификации факторного анализа.

Оценка методов

На точность работы систем идентификации оказывает влияние ряд факторов. Прежде всего, необходимо отметить изменчивость самого голоса. Эмоциональное состояние, усталость, возрастные изменения, простуда и многие другие факторы влияют на голос. Во-вторых, проблемой для систем идентификации является влияние окружающей среды, а также изменение условий записи.

Базы данных (корпуса), используемые для экспериментальной оценки, не всегда способны смоделировать перечисленные ситуации. Поэтому результат существенно зависит от того, насколько представительна база и как построен эксперимент. Для того чтобы получить представление об адекватности эксперимента реальным условиям применения, а также получить возможность сравнивать результаты, исследователи приводят детальную информацию о проведенных опытах. Такая информация, во-первых, должна содержать указание количества сессий записи и продолжительность интервалов между ними; во-вторых, описание условий записи (тип микрофона, канал передачи, зашумленность помещения и прочее), и являются ли условия различными для сессий регистрации и тестовых сессий (mismatched conditions). Результат также зависит от продолжительности материала, используемого в каждом тесте и для создания моделей, и от количества пользователей в базе.

Для оценки систем идентификации в большинстве случаев ограничиваются замкнутым множеством пользователей, т.е. все пользователи, проходящие попытку идентификации, зарегистрированы в системе. Результат зависит от количества зарегистрированных пользователей и от размера возвращаемого списка (чаще всего используют только один идентификатор) или от порога включения в список. Вероятность идентификации (истинно-положительной идентификации) оценивают как долю попыток идентификации, в результате которых был возвращен список кандидатов, содержащий верный идентификатор.

Для того чтобы представить результаты оценок в виде единого параметра, используют следующие способы. Один из них состоит в задании стоимостей ложного допуска (CFA) и ложного недопуска (CFR) и вычислении функции стоимости обнаружения (Detection Cost Function; DCF) [4]:

DCF = CFRPtarRFR + CFAPmpRFA,

где Ptar и Pimp - априорные вероятности попыток подлинного лица и «самозванца», Rfr и Rfa - полученные оценки вероятностей ошибок ложного недопуска и ложного допуска соответственно. Порог принятия решений оптимизируется, чтобы минимизировать значение функции стоимости.

Более популярной мерой является уровень равной вероятности ошибок (Equal Error Rate; EER), который представляет величину вероятности ошибок при таком пороге, при котором вероятности ошибок ложного допуска и ложного недопуска совпадают или наиболее близки по значению.

Список литературы

1. Будков, В. Ю. Многоканальная система анализа речевой активности участников совещания / В. Ю. Будков, М. В. Прищепа, А. Л. Ронжин // Третий междисциплинарный семинар «Анализ разговорной русской речи». - СПб., 2009. - С. 57-62.

2. Сорокин, В. Н. Верификация диктора по спектрально-временным параметрам речевого сигнала / В. Н. Сорокин, А. И. Цыплихин // Информационные процессы. -2010. - Т. 10, № 2. - С. 87-104.

3. Рабинер, Л. Р. Цифровая обработка речевых сигналов / Л. Р. Рабинер, Р. В. Шафер ; пер. с англ. - М. : Радио и связь, 1981. - 496 с.

4. Navratil, J. On linear DETs / J. Navratil, D. Klusacek // Internat. Conf. on Acoustics, Speech, and Signal Processing (ICASSP-07). - 2007.

УДК 621.391.83

Предложены модели системных характеристик линейных каналов связи на основе интегральных преобразований. Показаны способы формализации базисных ядер подобных преобразований, как на основе задания их конкретных форм, так и свойств передаваемых сигналов.

In this article are suggested linear channel system characteristic models suggested in paper on basis of integral transformations. Transformation kernel formalization techniques are displayed on basis of its shape rule and transmission property.

Хорошо известно, что при описании детерминированных каналов связи предпочтительнее оказывается использование моделей системных характеристик на основе интегральных преобразований, поскольку они позволяют рассмотреть наиболее общий вид каналов, а также избавиться от дополнительных искусственных ограничений, способных заметно снизить адекватность синтезируемых моделей.

Представления системной характеристики существенно упрощаются, если моделирование осуществляется на основе линейных операторов. Для дифференциальных уравнений вводится требование вещественности и независимости от сигналов коэффициентов дифференциального уравнения [1], что приводит его к линейному виду:

где n = 1,3, n = 1,3 - число рассматриваемых пространственных координат на

МОДЕЛИ СИСТЕМНЫХ ХАРАКТЕРИСТИК ЛИНЕЙНЫХ КАНАЛОВ СВЯЗИ НА ОСНОВЕ ИНТЕГРАЛЬНЫХ ПРЕОБРАЗОВАНИЙ

К. А. Батенков

(1)

входе и выходе соответственно; ak k (t, r), a'k' k', (t, r) - коэффициенты

Аналитический обзор основных методов идентификации диктора по голосу Текст научной статьи по специальности «Компьютерные и информационные науки»

Текст научной работы на тему «Аналитический обзор основных методов идентификации диктора по голосу»