Научная статья на тему 'Метод идентификации человека по голосу'

Метод идентификации человека по голосу Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
536
68
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГОЛОС / ИДЕНТИФИКАЦИЯ ПО ГОЛОСУ / УСТРАНЕНИЕ ШУМОВ / ФИЛЬТРАЦИЯ РЕЧИ / РАСПОЗНАВАНИЕ ДИКТОРА / АЛГОРИТМ ФИЛЬТРАЦИИ / БИЛАТЕРАЛЬНЫЙ ФИЛЬТР / АЛГОРИТМ УСТРАНЕНИЯ ТИХИХ ОБЛАСТЕЙ СИГНАЛА / КЕПСТРАЛЬНЫЕ КОЭФФИЦИЕНТЫ / ЧАСТОТА ОСНОВНОГО ТОНА / АВТОКОРРЕЛЯЦИОННЫЙ МЕТОД ОПРЕДЕЛЕНИЯ ЧАСТОТЫ ОСНОВНОГО ТОНА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тассов Кирилл Леонидович, Дятлов Роман Андреевич

В статье описан метод решения проблемы идентификации человека по голосу. Рассматриваются методики анализа и системы коэффициентов звукового потока. Приведены алгоритмы предварительной обработки сигнала и выделения критериев. Описана модификация сети встречного распространения и карты Кохонена.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Method of person identification by voice

The article describes the method of solving the problem of identifying a person's voice. We consider the methods of analysis and the audio coefficient systems. Algorithms for signal preprocessing and selection criteria are described. Network oncoming distribution and Kohonen maps modifications.

Текст научной работы на тему «Метод идентификации человека по голосу»

УДК 004.522

Метод идентификации человека по голосу

© К. Л. Тассов, Р. А. Дятлов МГТУ им. Н.Э. Баумана, Москва, 105005, Россия

В статье описан метод решения проблемы идентификации человека по голосу. Рассматриваются методики анализа и системы коэффициентов звукового потока. Приведены алгоритмы предварительной обработки сигнала и выделения критериев. Описана модификация сети встречного распространения и карты Кохо-нена.

Ключевые слова: голос, идентификация по голосу, устранение шумов, фильтрация речи, распознавание диктора, алгоритм фильтрации, билатеральный фильтр, алгоритм устранения тихих областей сигнала, кепстральные коэффициенты, частота основного тона, автокорреляционный метод определения частоты основного тона.

Введение. В настоящее время актуальной является разработка систем, предназначенных для идентификации диктора. Эти системы имеют широкую область применения: криминалистика (фоноскопи-ческая экспертиза), криптография, охранные системы и др. При их разработке важную роль играет выбор системы признаков и методов идентификации, использующих эти признаки.

Весь процесс обработки речевого сигнала можно разбить на несколько этапов:

• предобработка сигнала;

• выделение критериев;

• распознавание диктора.

Каждый этап представляет алгоритм или некоторую совокупность алгоритмов, что в итоге дает требуемый результат. На каждом этапе результат работы будет представлять собой входные параметры для следующего.

Предобработка сигнала. Необходимо понимать, что в результате оцифровки аналогового сигнала, полученного с микрофона, в сигнале будет содержаться шум, мешающий последующей обработке. Так как громкость высказывания зависит от окружающей среды и других факторов и не является постоянной величиной для двух высказываний, помимо устранения шума необходимо нормализовать амплитудную характеристику входного сигнала.

На данном этапе оцифрованные данные подвергаются фильтрации и устранению областей, не содержащих полезный сигнал. В качестве алгоритма устранения таких областей применяется авторский

метод устранения тихих областей сигнала. Для устранения высокочастотного шума применяют алгоритм билатеральной фильтрации [1].

Билатеральное фильтрование — это нелинейная техника фильтрования, которая расширяет понятие «сглаживание Гаусса», увеличивая показатели фильтра соответствующей им относительной амплитудой. Значения сигнала, которые сильно отличаются по амплитуде от центральной величины в окне, увеличиваются в меньшей степени, даже несмотря на то, что они могут находиться в непосредственной близости к центральной величине, что фактически является искривлением нелинейного фильтра Гаусса. Данный разновес основывается на значении амплитуды сигнала. В этом случае используются два фильтра Гаусса в локализованном соседстве дискретных значений сигнала: один — во временном домене (фильтр домена), другой — в домене амплитудной характеристики (ранговый фильтр).

Пусть входной сигнал х(^), тогда весовые коэффициенты — м>(1) и выходной сигнал — s(t). Для окна размером Ы:

и

(к ) = ■

-к)

2 Л2

• е

2Т 2

(1)

где А — коэффициент рангового фильтра; Т — коэффициент фильтра домена; х0 и ^ — амплитудная и временная характеристики сигнала в центре окна.

N

) = ! х (к)

и

(к)

к=0

и$>пш

(2)

где и$>пш — сумма коэффициентов

N

= ^ и (к).

(3)

к=0

На рис. 1 представлен пример сигнала до фильтрации, а на рис. 2 — после нее.

Рис. 1. Спектр амплитудно-временной характеристики

сигнала

Рис. 2. Спектр амплитудно-временной характеристики сигнала после процесса фильтрации

На следующем шаге отфильтрованный сигнал подвергается устранению областей, не содержащих полезный сигнал. Для этого все значения амплитудно-временного спектра переносятся в положительную область по оси амплитуд, и на всем временном отрезке, окнами в 25 мс, происходит усреднение значений амплитуд сигнала. Спектр принимает вид, представленный на рис. 3. По данному спектру можно судить о присутствии полезного сигнала.

Рис. 3. Амплитудный спектр сигнала, усредненного окнами в 25 мс

Далее необходимо определить верхнюю границу величин, не содержащих полезный сигнал. Для этого все значения спектра сортируют в порядке возрастания, и применяя метод золотого сечения находят два пороговых значения кусочно-линейной функции, для которых ошибка по амплитудной оси относительно исходного спектра минимальна. На рис. 4 представлена последняя итерация работы алгоритма в графическом виде, а на рис. 5 — результат работы вышеописанного алгоритма.

Рис. 4. График последней итерации алгоритма определения верхней границы бесполезного сигнала

Рис. 5. Результат работы алгоритма устранения областей, не содержащих полезный сигнал

Выделение критериев. Для идентификации диктора по голосу необходимо выделить характеризующие признаки сигнала. На данном этапе обработки сигнала происходит определение частот основного тона по всей временной оси окнами по 18 мс. В качестве критериев принимаются следующие величины:

• начальная частота — значение первого отсчета;

• конечная частота — значение последнего отсчета;

• максимальная частота — максимальное значение частоты основного тона по всем отсчетам;

• минимальная частота — минимальное значение частоты основного тона по всем отсчетам;

• средняя частота — среднее значение частоты основного тона по всем отсчетам;

• время максимума — координата максимального значения в процентах от общего количества отсчетов.

Для определения частоты основного тона используется алгоритм, основанный на процессе автокорреляции сигнала.

В основе метода выделения основного тона по автокорреляционной функции лежит теорема, утверждающая, что автокорреляционная функция периодического сигнала тоже периодическая и эти два периода совпадают. Автокорреляционная функция определяется по формуле

N - к-1

Яп (к)= ^ х (п + ш)х (п + ш + к), (4)

ш=0

где N — длина кадра анализа; п — текущая координата начала кадра анализа во всем сигнале; к — номер коэффициента функции автокорреляции.

Функция Я(к) достигает максимума при к = 0, следующий локальный максимум функция для периодического сигнала Х(п) с периодом Р имеет место при к = Р. Таким образом, определив положение максимума автокорреляционной функции вокализованного речевого сигнала, можно определить период основного тона. На рис. 6 представлен

спектр амплитудно-временнои характеристики речевого сигнала для слова «три» и спектр частот основного тона для данного сигнала.

о ь о

то 200

5 в

| -200

с

<

И

0.0

■Л ||11|Ц||Ш|Ц||

0.1

0.2 а)

0.3 0.4

100 50

1 1

0.0 0.1 0.2 0.3 0.4

0

Рис. 6. Спектр частот основного тона для слова «три»

Также в качестве характеризующих признаков используются мел-частотные кепстральные коэффициенты (МЧКК), [2, 3] основанные на двух ключевых понятиях — кепстр и мел-шкала.

Кепстр — это результат дискретного косинусного преобразования от логарифма амплитудного спектра сигнала. Мел-шкала моделирует частотную чувствительность человеческого слуха. Специалистами по психоакустике было установлено, что изменение частоты в 2 раза в диапазоне низких и высоких частот человек воспринимает по-разному. В частотной полосе до 1000 Гц субъективное восприятие удвоения частоты совпадает с реальным увеличением частоты в 2 раза, поэтому до 1000 Гц мел-шкала близка к линейной. Для частот выше 1000 Гц мел-шкала является логарифмической (рис. 7).

3200

3000

2800

2600

2400

2200

2000

§ 1800 а

а 1боо

Е 1400 §

1200 1000 800 600 400 200 0

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Шкала герц

Рис. 7. Мел-шкала

У

/ /

/

/ /

/

/ / !

1

Перевод из шкалы герц в шкалу мелов и обратно происходит по следующим формулам:

Рш1 /) = 1127,010481п+ 700) ;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(5)

^ (/те1 ) = 700(/я-,01048 -1). (6)

МЧКК — это значения кепстра, распределенные по мел-шкале с использованием банка фильтров.

Существует алгоритм нахождения МЧКК.

1. Прошедший предварительную обработку сигнал ^[г] разбивается на К кадров по N отсчетов, пересекающихся на половину длины:

^ [г Бп [г ], п = 1,..., К.

2. В каждом кадре проводится получение комплексного представления сигнала по частотам.

3. Находится спектральная плотность мощности получившегося сигнала:

Рп [к] = Ап [к]2; Ап [к] = .

(7)

(8)

4. Применение банка фильтров (рис. 8):

а) задается количество фильтров, а также начальная /1 и конечная /н частоты (/ не должна превосходить половины частоты дискретизации);

б) далее они переводятся в мелы:

// = ^шв1(/),

Л = ^шв1 (/Н) ;

\ ГШ ГШ

в) на мел-шкале отрезок /1 ,

разбивается на Р + 1 равных

непересекающихся подотрезков

ГШ ГШ

1вп = - ; Р +1

г) находятся их центры:

сш [г] = /п +г • 1вп,1< г < Р; и, переводя в шкалу Гц,

ГШ ГШ ] 1 , /1

1+1

1 < 1 < Р + 1 длины

(9) (10)

С [г] = ^ (ст [г ]) ,1< г < Р.

(11)

Это центральные частоты треугольных фильтров.

д) центры треугольных фильтров переводятся из герц в номера отсчетов массива Рп[к]:

М

[] = Тс[],1< г < р;

где ^ — частота дискретизации исходного сигнала;

(12)

Рис. 8. Банк фильтров

е) для каждого фильтра отсчеты спектральной плотности мощности умножаются на соответствующий фильтр:

М

X [г] = Е Рп [кН [к],1< г < Р .

(13)

к=1

н, [к ] =

0, к < ¡тР [г -1],

к - /тр [г -1]

fsmp [г] - 1тр [г -1]

Атр [г +1]-к

/тр [г - 1]< к < /тр [г]

(14)

ТГ, /тр [г ]< к < /тр [г + 1

Атр [г + 1]- /тр [г] ,0,к > /тр [г +1].

Взятие логарифма:

Хп [г] = 1п (Хп [г]) ,1< г < Р .

Дискретное косинусное преобразование:

(15)

С [ ] = ¿X [к (] [ к - I) р), 1 < ] < J, (16)

где С„[/] — массив кепстральных коэффициентов; J — желаемое число коэффициентов ^ < Р).

Распознавание диктора. На данном этапе обработки данных происходит идентификация диктора по характеризующим признакам. Для этого применяется модификация сети встречного распространения Кохонена — Гроссберга [4]. Слой Кохонена в описываемой модификации представляет собой самоорганизующуюся карту Кохонена [5, 6]. На рис. 9 представлена топология данной сети.

Нейрсмм #еиремы/)№£г0ергв

Рис. 9. Модификация сети встречного распространения

Во встречном распространении объединены два хорошо известных алгоритма: самоорганизующаяся сеть Кохонена и звезда Гроссберга.

В процессе обучения входные векторы ассоциируются с соответствующими выходными векторами. Они могут быть двоичными, состоящими из нулей и единиц, или непрерывными. Когда сеть обучена, приложение входного вектора приводит к требуемому выходному вектору. Обобщающая способность сети позволяет получать правильный выход даже при приложении входного вектора, который является неполным или слегка неверным.

Самоорганизующиеся карты Кохонена представляют собой нейронные сети, обучаемые без учителя. Они используются для классификации, организации и визуального представления больших объемов данных. Важной особенностью карт Кохонена является их способность отображать многомерные пространства признаков на плос-

кость, представив данные в виде двумерной карты, при помощи которой значительно упрощаются кластеризация и корреляционный анализ данных.

Алгоритм обучения основывается на соревновательном обучении без учителя. Он обеспечивает сохраняющее топологию отображение из пространства большой размерности в элементы карты, или нейроны, образующие двумерную решетку. Таким образом, это отображение является отображением пространства большей размерности на плоскость.

Свойство сохранения топологии означает, что карта Кохонена распределяет сходные векторы входных данных по нейронам, т. е. точки, расположенные в пространстве входов близко друг к другу, отображаются на близко расположенные элементы карты.

В совокупности, вышеописанные методы являются мощным инструментом классификации применительно к предметной области.

Результаты исследования функционирования метода. Темой исследования была выбрана оценка влияния наличия разнородных звуков в высказывании на качество идентификации диктора. Для проведения экспериментов были отобраны 20 дикторов: 10 женщин и 10 мужчин. Были разработаны следующие высказывания:

• «шиншилла шила шубу» — в дальнейшем «Высказывание 1»;

• «Клара украла кораллы» — в дальнейшем «Высказывание 2»;

• «шалость олигарха» — в дальнейшем «Высказывание 3».

Для каждого из дикторов было сделано по 600 записей каждого из высказываний с частотой дискретизации 44100 Гц. Тестовая и обучающая выборки для каждого из дикторов составили по 300 записей. В таблице приведены результаты экспериментов.

Таблица

Результаты экспериментов для каждого из высказываний

Высказывание Кол-во Позитивное срабатывание Негативное срабатывание

Высказывание 1 6000 4878 (81.3%) 1122 (18.7%)

Высказывание 2 6000 5928 (98.8%) 72 (1.2%)

Высказывание 3 6000 5772 (96.2%) 228 (3.8%)

Итог 18000 16578 (92.1%) 1422 (7.9%)

Заключение. В представленной работе произведен анализ предметной области, описаны алгоритмы предварительной обработки сигнала, алгоритмы выделения критериев и концепции функционирова-

ния классификатора, а также описан авторский алгоритм устранения областей, не содержащих полезный сигнал. Описываемый метод был реализован, и проведены исследования влияния разнородных звуков на качество идентификации диктора. Из результатов исследования видно, что преобладание тональных звуков в идентифицирующем выражении значительно улучшает качество работы изложенного метода.

ЛИТЕРАТУРА

[1] Ле Н.В. Предварительная обработка речевых сигналов для системы распознавания речи. Молодой ученый, 2011, № 5, т. 1, с. 74-76.

[2] Запрягаев С.А., Коновалов А.Ю. Распознавание речевых сигналов. Вестник ВГУ, 2009, № 2, с. 39-48.

[3] Chadawan Ittichaichareon, Siwat Suksri and Thaweesak Yingthawornsuk Speech Recognition using MFCC. International Conference on Computer Graphics, Simulation and Modeling (ICGSM'2012), July 28-29, 2012б Pattaya (Thailand).

[4] Сети встречного распространения. [Электрон. ресурс]. http://neuronets. chat.ru/nets.html

[5] Пригодность самоорганизующихся нейронных сетей (карт) Кохонена для задач визуализации и разведочного анализа данных. [Электрон. ресурс] http://www.neuropro.ru/memo32.shtml

[6] Ларионов И.Б. Карты Кохонена как способ восстановления мультимедийной информации. Омский государственный университет им. Ф.М. Достоевского, 2010. [Электрон. ресурс] http://jre.cplire.ru/koi/oct10/3/text.html

Статья поступила в редакцию 10.06.2013

Ссылку на эту статью просим оформлять следующим образом:

Тассов К.Л., Дятлов Р.А. Метод идентификации человека по голосу. Инженерный журнал: наука и инновации, 2013, вып. 6. URL: http://engj ournal.ru/catalog/it/biometric/1103.html

Тассов Кирилл Леонидович родился в 1966 г., окончил МГТУ им. Н.Э. Баумана в 1991 г. Старший преподаватель кафедры «Программное обеспечение ЭВМ и информационные технологии» МГТУ им. Н.Э. Баумана. Автор научных работ в области теории распознавания образов и цифровой обработки сигналов. e-mail: [email protected]

Дятлов Роман Андреевич родился в 1990 г. Студент кафедры «Программное обеспечение ЭВМ и информационные технологии» факультета «Информатика и системы управления» МГТУ им. Н.Э. Баумана с 2007 г. Область научных интересов: разработка средств анализа данных. е-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.