АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ПОЛА ДИКТОРА НА ОСНОВЕ РАСПРЕДЕЛЕНИЯ КОШИ В ОКТАВНОЙ ПОЛОСЕ ЧАСТОТ

Омельченко Сергей Васильевич

УДК 621.391

Б01: 10.15587/2313-8416.2019.172408

АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ПОЛА ДИКТОРА НА ОСНОВЕ РАСПРЕДЕЛЕНИЯ КОШИ В ОКТАВНОЙ ПОЛОСЕ ЧАСТОТ

В работе получены алгоритмы определения пола диктора на основе использования распределения Коши в октавной полосе частот со среднегеометрической частотой 125 Гц. Построены классификаторы на основе максимума логарифма функции правдоподобия. Рассмотрен алгоритм определения пола диктора, где учитывается не только логарифм распределения Коши в октавной полосе частот, но и оценки среднего значения частот формант и частот антиформант. Проведены исследования вероятности правильного распознавания алгоритмов определения пола диктора

Ключевые слова: распределение Коши, частоты формант, частоты антиформант, моментные функции, гендерное распознавание

1. Введение

Развитие методов искусственного интеллекта и диалоговых систем взаимодействия человека с машиной ставит новые задачи дальнейшего поиска новых эффективных методов определения гендерной принадлежности людей по их голосу. При использовании для настройки параметров системы распознавания речи результатов определения гендерной принадлежности позволит повысить качество работы систем распознавания речи.

Поэтому актуальным является исследование методов определения гендерной принадлежности людей по их голосу.

2. Литературный обзор

Для решения задачи распознавания пола по речи человека известно множество подходов к выбору признаков и правил принятия решений.

В работах [1, 2] в качестве признаков при определении пола дикторов применяются совместное использование оценок частоты основного тона и кеп-стральных признаков.

В работе [3] предложено использовать классификатор на основе обобщённого метода моментов (англ. GMM — Generalized Method of Moments). Точность определения пола для тестовых произнесенных слов на чешских и словацких языках была около 90 %.

В работе [4] для тендерного распознавания предложено использовать средние значения, коэффициенты асимметрии и эксцесса для частот основного тона и частот формант.

Известен подход [5], где использован многослойный перцептрон глубокой модели обучения с использованием акустических свойств голоса и речи для определения пола диктора. Для своих экспериментов они использовали набор данных из 3168 образцов человеческого голоса. При использовании такой модели классификации удалось достичь точности 96,74 %.

Алгоритмы гендерного распознавания использующие в качестве признаков частоту основного тона и Мел-кепстральные коэффициенты (MFCC) рассмотрены в [6]. Правило принятия решений построе

но на основе линейной и логистической регрессии. Для такого алгоритма точность правильного распознавания составила 95 %.

Исследования по совместному использованию в качестве признаков оценок частот формант и МБСС приведены в работе [7]. При этом точность правильного распознавания равнялась 94 %.

В роботе [8] использованы в качестве признаков МБСС, а решающие правила построены на основе полигауссовских смесей распределений. При этом система обеспечивает точность 92 % правильного распознавания.

Алгоритмы гендерного распознавания, использующие в качестве признаков коэффициенты линейного предсказания, коэффициенты отражения, представлены в литературе [9, 10]. Здесь используют для построения решающих правил скрытые марковские процессы и полигауссовские распределения.

Поэтому всем алгоритмам гендерного распознавания по звуковым сигналам присущи такие недостатки, как сложность реализации алгоритмов и не достаточное качество распознавания.

Из проведенного литературного анализа можно сделать вывод, что перспективным для решения поставленной задачи является поиск новых сочетаний признаков, алгоритмов принятия решений о поле человека.

3. Цель и задачи исследования

Целью работы является синтез новых эффективных методов определения пола людей по их речи.

Для достижения цели были поставлены следующие задачи:

1. Произвести выбор новых комбинаций информативных признаков, позволяющих осуществить разделение полов людей по их речи.

2. Выполнить синтез новых правил принятия решений о поле диктора.

3. Выполнить экспериментальную проверку предложенного метода определения пола на реальных звуковых сигналах и оценить вероятность их правильного распознавания.

4. Математическая постановка задачи тендерного распознавания

На вход системы определения пола поступает последовательность цифровых отсчетов речевого сигнала, введенного с микрофона через звуковую карту в персональный компьютер. Дискретизация речевого сигнала может быть выбрана 8 кГц, что соответствует полосе 4 кГц, как правило, используемой для передачи речи по телефонной связи.

Нужно выполнить синтез методов распознавания пола, которые по предъявленным реализациям в виде отсчетов речевых сигналов, выносили бы решения с максимальной средней вероятностью правильного распознавания.

Для решения задачи распознавания пола необходимо выполнить обнаружение речевой информации и найти совокупности временных границ начала и конца слова [11]. Это позволяет исключить из тендерного распознавания совокупности отсчетов, соответствующих шумам или помехам.

5. Алгоритмы тендерного распознавания по речевым сигналам

Выделенные, после сегментации речи, совокупности отсчетов, соответствующие речи диктора, разбиваются на одинаковые блоки в диапазоне 256512 отсчетов.

Цифровая фильтрация может быть выполнена

в виде:

x(t) = Re I (N)"2 X C (m)HKop (m) exp | i I Щ) m

m=0 1 2 N-1

С(m) = (2N)-2 X yi exp| -i

2 arm 2N

(1)

где yi =

^, г = 0,1,..., (N -1), 0, г = N, (N +1),..., (2N-1) чевого сигнала; (т) - передаточная характеристика цифрового фильтра; Яв - оператор взятия вещественной части сигнала; С(т) - спектр входного сигнала; - 1 -й отсчет ] -го блока входного сигнала; N - количество отсчетов в блоке.

На рис. 1 видно наличие существенных различий оценок плотностей вероятностей речевых сигналов в октавной полосе частот со среднегеометрической частотой 125 Гц для мужчин и женщин.

Для плотностей вероятностей для мужских и женских речевых сигналов используются распределения Коши, которые различаются параметрами масштаба.

Распределение Коши занимает особое место среди многочисленных функций распределения непрерывных случайных величин, известных в теории вероятностей.

--муж. | ------жен.

1

1 1 1 • 1

Jl Л.

-2

2 х

Рис. 1. Плотности вероятностей для мужских и женских речевых сигналов

Плотность распределения Коши имеет вид:

г (^ ) = -^, (2)

■■(ä2 +( x-м)2)'

где параметры X и ¡л называют параметрами масштаба и положения, соответственно. Параметр положения л совпадает с модой и медианой распределения, параметр масштаба X совпадает со срединным отклонением.

Распределение данного вида называют двух-параметрическим, приняв л = 0 получаем однопара-метрическое распределение.

Логарифм функции правдоподобия примет вид:

(

in N =Xln

j=i

л

■(Ä +(Xj-м, )2)

(3)

отсчеты ре- где X - параметр масштаба для г -го отсчета; л -параметр положения для г -го отсчета; п - количество отсчетов.

Зависимость логарифма функции правдоподобия мужского голоса от параметра масштаба приведена на рис. 2, а женского голоса - на рис. 3.

Рис. 2. Зависимость логарифма функции правдоподобия мужского голоса от параметра масштаба

г=0

Рис. 3. Зависимость логарифма функции правдоподобия женского голоса от параметра масштаба

Для оценивания формантных и антиформант-ных частот необходимо оценить параметры авторе-гресии скользящего среднего (АРСС) речевого сигнала. Для оценивания параметров АРСС, как правило, применяются процедуры раздельного оценивания параметров авторегрессии (АР) и параметров скользящего-среднего (СС).

Сначала оцениваются коэффициенты АР аи, например, методом Левинсона, а затем их оценки используют для построения обратного фильтра, который будет применен к исходным данным.

Алгоритм оценивания ошибки предсказания описывается выражением:

Плотности распределения Коши для указанного параметра мужского голоса для масштаба 2 = 0,08 приведены на рис. 4, а женского голоса с параметром масштаба 2 = 0,4 - на рис. 5.

Рис. 4. Плотность распределения Коши для указанного параметра масштаба 0,08

Рис. 5. Плотность распределения Коши для указанного параметра масштаба 0,4

Номер типа сигнала для распределения Коши в октавной полосе частот со среднегеометрической частотой 125 Гц находят в виде:

= argmax (

lnN , u = 1,2)

(4)

где arg min (f (j), j = 0, L) - функция вычисления номера j, при котором функция f (j) максимальна на множестве j = 0, L.

f

У, = x, "Z<

(5)

где аи - оценки коэффициентов АР; р - порядок модели АР.

Последовательность остаточных ошибок на выходе этого фильтра должна характеризовать процесс скользящего среднего, к которому будет применена процедура оценивания СС-параметров.

Оценка нормированной корреляционной функции ошибки предсказания сигнала:

К = 1

" (T +1" j)-(L2 +1" L1)

L2 T" j

(6)

Z Ш ■ y(v)),

где V - номер выборки; Т - количество отсчетов в периоде наблюдения.

Коэффициенты регрессии Ь = (Ь0, Ь ,••••, Ь )

вычисляются как нормированная корреляционная функция ошибки предсказания в виде:

ь = Kyu

К

(7)

y0

Передаточная характеристика фильтра, описывающая голосовой тракт человека может представлена в виде:

H

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

п2ж

T

Z

(

ikn2n Л

Ьк • е T

1 "Z

iknln Л

(8)

Формантные частоты оцениваются в соответствии с выражением:

fv=\F I318 loc max H (n2L\, n = 0, M \, (9)

u=1

k=1

k=0

Z(u) - функция округления числа

i N

где M = ZI--1

l 2

u к целому; arglocmax(x) - векторная функция,

ставящая в соответствие последовательности отсчетов x,x,•••,xN упорядоченное множество, которое состоит из индексов ,

Л,Л,---,fL , уд°влетв°ря-ющих условию локального максимума:

где л - центральный момент четвертого порядка, с - среднеквадратическое отклонение.

Решение о гендерной принадлежности выносится в соответствии с выражением:

= arg max

fi fi-1 , fi f 1

J=1 7=1

4 4

Z kEfj.» \ESfj -Esfsrj) + Hka,j.u imfaj ~ mfaSrj ) +

7=1 4

7=1

XA-a/f.v,,и ■ (Asfüj - Asfagrj) + £kaEsju ■ (Esfaj -Esfagrj), u = 1,2

Затем определяется оценка антиформантных частот в соответствии с выражением:

A =

где M = Z| —-1

N

arg /ос min | H

п2ж

n = 0,M , (10)

Z(u) - функция округления числа

u к целому; arg loc min (x) - векторная функция,

ставящая в соответствие последовательности отсчетов x,X,•••,xN упорядоченное множество, которое состоит из индексов f, f,—, f , удовлетворяющих условию локального минимума:

Среднее значение частот формант и частот антиформант оценивают в соответствии с выражениями:

1 N

mf = 7тХ f

N'

1 N

mfa = „X f k ■

N k=1

при этом т/к, т/к - усредненные по реализациям значения частот формант и антиформант; Ау/, а/ -коэффициент асимметрии формант и атиформант; EsfJ, Еу/^ - оценки коэффициентов эксцесса для частот у-ой форманты и у-ой антиформанты; , fagr, А/г, Asfagrj, , Esfag^J - граничные коэффи-

циенты для двух полов.

6. Экспериментальные исследования

Проведены экспериментальные исследования предложенных алгоритмов определения пола диктора на персональном компьютере с использованием цифровых отсчетов, введенных с микрофона.

Для распознавания были использованы эталоны в виде совокупности отсчетов, соответствующих произнесенным цифрам от одного до десяти. Для оценивания вероятности правильного распознавания последовательно были предъявлены всего 200 эталонов, в формировании которых участвовали 10 мужчин и 10 женщин.

Вероятность правильного распознавания при равновероятном использовании мужских и женских эталонов имеет вид:

m m

рРГ = — ■ 0,5 + ■ 0,5, п„ п

где 4 - оценка форманты для к -ой выборки; ^ -

оценка антиформанты для к -ой выборки; N - количество выборок.

Используя центральные моменты л порядка к вычисляем коэффициент асимметрии:

As = 4,

C

где л - центральный момент третьего порядка, с среднеквадратическое отклонение.

Эксцесс вычисляется по формуле:

Es = M - 3, с

где тт, т - количество принятий правильных решений о мужчина и женщинах дикторах; ит, -общее количество испытаний при предъявлении эталонов для дикторов мужчин и женщин, соответственно.

При принятия решений в соответствии с формулой (4) при использовании логарифма функции правдоподобия и распределения Коши средняя вероятность правильного распознавания составила Р = 0,91, а для алгоритма совместного принятия

решений в соответствии с формулой (11) -Ррг = 0,96 . Проведенные экспериментальные исследований алгоритмов подтверждают возможности определения пола диктора с использованием совокупности выбранных информативных признаков и решающих правил.

7. Выводы

1. Выбраны новые классификационные признаки, включающие совместное использование различий параметров распределения Коши в октавной полосе частот для различных полов и оценок среднего значения частот формант и частот антиформант, их коэффициентов асимметрии и эксцесса.

2. Выполнен синтез нового правила принятия решений о поле диктора на основе совместного ис-

пользования логарифма функции правдоподобия распределения Коши в октавной полосе частот, учете оценок средних значений, коэффициентов асимметрии и эксцесса частот формант и антиформант.

3. Методом статистических испытаний проведена проверка предложенных алгоритмов гендерного распознавания. Получена оценка вероятности правильного распознавания пола диктора - 0,9.

Литература

1. Калюжный А. Я., Семенов В. Ю. Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями // Акустичний вюник. 2009. Т. 12, № 2. С. 31-38.

2. Practical Considerations for Real-Time Implementation of Speech-Based Gender Detection / Scheme E., Castillo-Guerra E., Englehart K., Kizhanatham A. // Lecture Notes in Computer Science. Berlin, Heidelberg: Springer, 2006. P. 426-436. doi: http://doi.org/10.1007/11892755_44

3. Pribil J., Pribilova A., Matousek J. GMM-based speaker gender and age classification after voice conversion // 2016 First International Workshop on Sensing, Processing and Learning for Intelligent Machines (SPLINE). IEEE, 2016. P. 1-5. doi: http://doi.org/10.1109/splim.2016.7528391

4. Omelchenko S. Development of the method of automatic determination of the speaker gender on the basis of joint evaluation of frequency moments of basic tons and formant frequencies // Technology audit and production reserves. 2018. Vol. 3, Issue 2 (41). P. 29-33. doi: http://doi.org/10.15587/2312-8372.2018.134977

5. Buyukyilmaz M., Cibikdiken A. O. Voice Gender Recognition Using Deep Learning // Proceedings of 2016 International Conference on Modeling, Simulation and Optimization Technologies and Applications (MS0TA2016). Atlantis Press, 2016. P. 409-411. doi: http://doi.org/10.2991/msota-16.2016.90

6. Levitan S. I., Mishra T., Bangalore S. Automatic identification of gender from speech // Proceeding of Speech Prosody. 2016. P. 84-88. doi: http://doi.org/10.21437/speechprosody.2016-18

7. Faek F. Objective Gender and Age Recognition from Speech Sentences // Aro, The Scientific Journal of Koya University. 2015. Vol. 3, Issue 2. P. 24-29. doi: http://doi.org/10.14500/aro.10072

8. Harb H., Liming C. Gender identification using a general audio classifier // 2003 International Conference on Multimedia and Expo. ICME'03. Proceedings (Cat. No.03TH8698). IEEE, 2003. doi: http://doi.org/10.1109/icme.2003.1221721

9. Сорокин В. Н., Макаров И. С. Определение пола диктора по голосу // Акустический журнал. 2008. Т. 54, № 4. С. 659-668.

10. Robust GMM Based Gender Classification using Pitch and RASTA-PLP Parameters of Speech / Zeng Y., Wu Z., Falk T., Chan W. // 2006 International Conference on Machine Learning and Cybernetics. Dalian, 2006. P. 3376-3379. doi: http://doi.org/10.1109/icmlc.2006.258497

11. Пресняков И. Н., Омельченко С. В. Помехоустойчивые алгоритмы сегментации речи в системах обработки // Радиотехника. 2003. № 131. С. 165-177.

Рекомендовано до публгкацИ д-р техн. наук Безрук В. М.

Дата надходження рукопису 28.05.2019

Омельченко Сергей Васильевич, кандидат технических наук, доцент, кафедра информационно-сетевой инженерии, Харьковский национальный университет радиоэлектроники, пр. Науки, 14, г. Харьков, Украина, 61166

E-mail: serhii.omelchenko@nure.ua

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Омельченко Сергей Васильевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Омельченко Сергей Васильевич

Текст научной работы на тему «АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ПОЛА ДИКТОРА НА ОСНОВЕ РАСПРЕДЕЛЕНИЯ КОШИ В ОКТАВНОЙ ПОЛОСЕ ЧАСТОТ»