Научная статья на тему 'Оценка влияния помех на точность определения пола диктора методом кумулянтных коэффициентов'

Оценка влияния помех на точность определения пола диктора методом кумулянтных коэффициентов Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
174
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ ДИКТОРА / ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ / КУМУЛЯНТНЫЕ КОЭФФИЦИЕНТ

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Пилипенко К. П., Продеус А. Н.

В работе произведена оценка влияния аддитивного шума и погрешности измерений классификационных признаков на точность классификации пола диктора по классификационным признакам в виде кумулянтных коэффициентов и выборок анализируемого речевого сигнала. Показана целесообразность построения адаптивной системы классификации, функционирующей с учетом влияния помех. Сравнение предложенного метода классификации пола дикторов с конкурентными методами свидетельствует, что предложенный метод обеспечивает более высокую точность классификации, устойчив к влиянию шумовых помех и намного проще при технической реализации

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Пилипенко К. П., Продеус А. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Оценка влияния помех на точность определения пола диктора методом кумулянтных коэффициентов»

КУСТИКА

шашг

Электронный журнал «Техническая акустика» http://www .ejta.org

2013, 6

К. П. Пилипенко, А. Н. Продеус

Национальный технический университет Украины «Киевский политехнический институт», Украина, 03056, г. Киев-56, проспект Победы, 37, e-mail: [email protected]

Оценка влияния помех на точность определения пола диктора методом кумулянтных коэффициентов

В работе произведена оценка влияния аддитивного шума и погрешности измерений классификационных признаков на точность классификации пола диктора по классификационным признакам в виде кумулянтных коэффициентов у 4 и у 6 выборок анализируемого речевого сигнала. Показана

целесообразность построения адаптивной системы классификации, функционирующей с учетом влияния помех. Сравнение предложенного метода классификации пола дикторов с конкурентными методами свидетельствует, что предложенный метод обеспечивает более высокую точность классификации, устойчив к влиянию шумовых помех и намного проще при технической реализации.

Ключевые слова: классификация диктора, цифровая обработка сигналов, кумулянтные коэффициенты.

ВВЕДЕНИЕ

Определение пола диктора является одной из задач голосовой биометрии, направленной на обеспечение безопасности функционирования систем удаленного доступа к информации, а также позволяющей проводить более точную настройку систем автоматического распознавания речи [1, 2].

Решение данной задачи принципиально не отличается от решения любой другой задачи автоматического распознавания образов и состоит из стандартных этапов:

1) формирование обучающей и тестовой баз данных;

2) выбор классификационных признаков;

3) построение решающего правила (классификатора);

4) тестирование системы классификации.

Одним из наиболее важных этапов, определяющим, в конечном счете, качество классификации, является выбор классификационных признаков.

Как правило, в качестве информационного параметра, по которому проводится идентификация пола диктора, используют частоту основного тона (ЧОТ). Однако, как показывает практика, одной частоты тона недостаточно для достоверной классификации пола диктора, поэтому вектор признаков дополняют кепстральными

Получена 25.06.2013, опубликована 14.08.2013

параметрами [1, 2], либо параметрами модели голосового тракта человека [3]. Указанные подходы основаны на использовании спектрально-временных характеристик речевого сигнала, а необходимые для их технической реализации вычислительные алгоритмы весьма сложны. Между тем, в работе [4] показана принципиальная возможность использования, в данной классификационной задаче, кумулянтных коэффициентов анализируемого речевого сигнала, что позволяет кардинально упростить вычислительные алгоритмы, вплоть до исключения ЧОТ из состава вектора признаков.

Целью данной работы является оценка влияния аддитивной гауссовской помехи, неизбежно присутствующей в реальном речевом сигнале (фоновый шум, шум транспорта, шум бытовых приборов и т. п.), на точность работы классификатора, использующего кумулянтные коэффициенты у 4 и у 6 анализируемого речевого сигнала

в качестве классификационных признаков. Кроме того, произведена оценка влияния дисперсии оценок этих коэффициентов на распознавание пола диктора.

1. КЛАССИФИКАЦИОННЫЕ ПРИЗНАКИ

В работе [5] показано, что вероятностные свойства речевых сигналов мужских и женских голосов наиболее существенно отличаются в октавных полосах частот с центральными частотами 125 Гц и 8000 Гц. Это различие хорошо видно на рис. 1, где представлены графики оценок плотностей вероятностей мгновенных значений речевых сигналов мужского и женского голосов в октавной полосе частот с центральной частотой 125 Гц.

p(x)

5

Рис. 1.

Оценки плотностей вероятностей мгновенных значений речевых сигналов

-2 -1 0 1 2 х

В работах [6, 7] показано, что такие плотности вероятностей могут быть аппроксимированы одновершинной двухкомпонентной смесью нормальных распределений, однозначно определяемой кумулянтными коэффициентами у4 и у6 .

Представленное на рис. 1 различие плотностей вероятностей послужило основой для выбора, в качестве классификационных признаков при классификации пола диктора, кумулянтных коэффициентов у 4 и у 6, которые, в отличии значений в максимуме или дисперсии, являются более «чувствительными» [4]:

4

3

2

0

Y 3

у4 Г-3

Y 6-15 + 30, Д 2

д 2

где Дк — центральный момент к -го порядка.

На рис. 2 представлены значения оценок коэффициентов у4 и Уб для речевых

сигналов в октавной полосе частот со средней частотой 125 Гц [4]. При этом анализу подвергались записи русской и украинской речи 19 мужчин и 15 женщин. Как следует из рис. 2, выбор параметров у4 и у6 в качестве классификационных признаков

действительно обеспечивает хорошее различение мужских и женских голосов. Более того, может создаться впечатление, что выбор лишь одного из этих двух параметров достаточен для обеспечения хорошего качества классификации.

0 о.

О - жен.

» - муж.

■Л

____ О ООО

0 0

ОО

40

Y4

Рис. 2. Оценки кумулянтных коэффициентов у 4 и Уб

В данной работе, для получения достоверного вывода о целесообразности использовании пары признаков у4 и у6 , использованы речевые сигналы корпуса

английской речи Т1М1Т, содержащего 6300 предложений, по 10 предложений записанных каждым из 630 дикторов из 8 основных диалектических регионов США. Обучающая база данных была сформирована на основе записей, сделанных 460 англоязычными дикторами, среди которых 325 мужчин и 135 женщин. Длительность каждой записи составляет 30 секунд с частотой дискретизации 16000 Гц. Контрольная (тестовая) база состоит из 160 сигналов, записанных при тех же условиях что и сигналы обучающей базы.

12 000

10 000

8 000

6 000

4 000

2 000

2 000

0

0

20

30

50

60

70

2. ПОСТРОЕНИЕ КЛАССИФИКАТОРА

Как и в работе [4], для построения решающего правила используем статистическую модель, именуемую логистической регрессией [9]. В частности, для бинарной классификации, где задача состоит в определении принадлежности объекта к одному из двух классов, классы можно обозначить как «0» и «1». В этом случае решающее правило принимает вид:

класс 0, Ъ0 (х) < 0,5;

х е

класс 1, Ъ0 (х) > 0,5;

Ъв (х) = Е(вГх) =-^-г-, (1)

1 + е 0 х

где е (2) = —1— — логистическая функция, 0 - вектор параметров, а процесс

1 + е-2

классификации будет заключается в вычислении функции Ъ- (х) для каждого

классифицируемого объекта.

Для оценки вектора параметров 0 необходимо располагать обучающей выборкой, состоящей из вектора признаков х и вектора у, содержащего обозначение класса. Оценивание вектора параметров 0, как и в работе [4], произведем с использованием метода максимального правдоподобия. Функция правдоподобия имеет вид:

у(') , , (.^ а-У)

Ь(0) = П(( (х(/))) (1 -Ъ, I х

(Го))г (-ъ.(ж

1=1

Удобнее максимизировать не функцию правдоподобия, а ее логарифм:

1ов Ь (0) = £ у () 1св Ъ0 (х()) + (1 - у ()) 1св (1 - Ъ (х())). (2)

1=1

Для максимизации функции (2) целесообразно применить метод градиентного спуска, который позволяет после некоторого количества итераций получить оценку вектора параметров 0. На каждом итерационном шаге . -е значение вектора параметров 0 будет равно:

е. :=е. + а(у(')-Ъе(х('^х)),

где := — оператор присваивания.

Учитывая характер распределения значений оценок кумулянтных коэффициентов у4 и у6 на плоскости (рис. 2), представим Ъд (х) в виде:

Ъ0 (х) =-Т—-1--у.

1+ехр |- ^+е11^ у4)+е21п ( Уб+20)+ез 1п2 (у4)+е41п3 (у4))}

Применяя метод максимального правдоподобия к обучающей базе данных речевого корпуса Т1М1Т и назначая классу «женщина» индикатор «0», а классу мужчина -индикатор «1», получим значения координат вектора параметров 0 :

00 =-27,5463; 01 =-13,7775; 02 = 14,3670; 03 = 2,4287; 04 =-3,1333, откуда следует:

^ (х) = 1

1+ехр {27,5463+13,77751п (у4) -14,3671п (у6 + 20) -2,42871п2 (у4) + 3,13331п3 (у4)}

(3)

Для построения на плоскости (у 4, у 6) границы, разделяющей оба класса, приравняем функцию (3) значению 0,5. В результате получим:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

у6=6,8028е(~°,1690+°,21811п(у4))1п2(у4 V/590 - 20 . (4)

График границы (4) и значения обучающей выборки представлены на рис. 3, где, в частности, хорошо видно, что при классификации пола дикторов недостаточно использовать лишь один параметр из пары параметров у 4 и у6.

1200

1000

800

<у> 600

400

200

2 4 6 8 10 12 14 16 18

у4

Рис. 3. График границ классов и значения кумулянтных коэффициентов для обучающей

выборки

Учитывая соотношения (1), (5) и (6), нетрудно представить решающее правило в удобном для вычислений виде:

х е

гкласс 0, Н(у4, у6) = 0; класс 1, Н (у 4, у 6) = 1,

Н(у4, у6) = 58п( 6,8028е

(0,1690+0,21811п( у 4) )1п2( у 4) у0,9590

у4,959° -20-у6

где 8§п(-) — единичная функция (функция Хевисайда).

0

3. ВЛИЯНИЕ АДДИТИВНОГО ГАУССОВСКОГО ШУМА

Рассмотрим влияние аддитивного гауссовского шума на точность распознавания пола диктора.

Влияние аддитивного гауссовского шума на полезный сигнал, имеющий распределение в виде смеси нормальных распределений, рассмотрено в работе [10]. При этом отмечено, что закон распределения суммы сигнала и шума также представляет собой смесь распределений, а значения кумулянтных коэффициентов у 4

и у. речевых сигналов можно оценить с учетом влияния шума:

У 4 * * (5)

у. у 6'+' (6)

где SNR = a2Jа2 — отношение сигнал-шум; а" и аП — дисперсии сигнала и шума, соответственно; у 4'+n) и у.'+n) — кумулянтные коэффициенты зашумленных речевых сигналов.

Подставляя (5) и (6) в (4), получим выражения для границы классов, позволяющие учитывать наличие аддитивного гауссовского шума в записанном речевом сигнале

1 f_____|-0,1690+0,2181ln| B 2у4 jj ln21 В2у4 L 2 j0,9590 ^

7 6=F

где B =

6,8028ev v "" v ';(в2у4 у -20

V J

1 + SNR

(7)

SNR

На рис. 4 изображены графики границ (7) для различных значений отношения сигнал-шум.

Рис. 4.

Графики границ классов для различных значений отношения сигнал-шум

Соответствующая функция Н (у 4, у 6) будет иметь вид: Н(у4,у6) = ввп(6,8028е(-0Д690+0,21811п(В2у^М52у^(в2у4)Т590 - 20-В3у6). (8)

4. ВЛИЯНИЕ ДИСПЕРСИИ ОЦЕНОК

При достаточно большом объеме выборки речевого сигнала законы распределения оценок параметров у4, у6 можно считать асимптотически нормальными [11]. Для

упрощения анализа влияния дисперсии оценок параметров у4 , у6 на точность

классификации, будем считать случайные величины У4 и у6 некоррелированными

(более тщательные исследования с учетом их коррелированности предполагается провести в дальнейшем).

Запишем выражение для плотности вероятностей двумерной случайной величины

^ у6 ):

(4 -У4 )2 ((6 -У 6 )2

Р(У4, у6)=--е у4

2ст2 2ст2

2™Т4 °Т6

е

у6

2 2

где у4, у6 — соответствующие оценки параметров у4 и у6; Оу4 , Оу4 — дисперсии оценок у4 и у6, полученные в работе [12]:

2 = 21у2 - 60у2 (18 + у6 ) + 120у4 (3 + 2у6 ) + 60у4 - 200у4 = 15пу 4 ,

1Т(48125у4 - 8750у4 (90 + у6 ) -1050у4у22 (90 + у6 ) + пу 4 4

+11340у4у6 + 693у6 +1125у4 (1125 + 118у6 + у2) + + 50у4(11925 + 7350у6 + 209у2)).

Предположим, что пара параметров (у4, у6) принадлежит классу «1» (мужчины).

Тогда вероятность того, что оценка этих параметров выйдет за пределы класса «1» и попадет в класс «0» (женщины), будет равна

2 2 ((4- у 4 ) ((6 -У 6 )

1 2 2 ^ 2ст2

Р10 = 1 -Т—1- I е у4 й-у, | е у6 ау6, (9)

2^аТ4°Т6 -1 /(у,)

где / (74 ) — функция, разделяющая классы на плоскости (у 4, у 6 ) (7).

2

аТ4 = ,

4 125пу4

Вероятность того, что оценка параметров (у4, у6) попадет в область «1» при

условии, что на самом деле она принадлежит классу «0», аналогично (9), будет равна

2 2 ((4-у 4 ) (б- у 6 )

Р01 = --| е у4 ёу4 | е уб ёуб.

У4°У6 /(Т4)

На рис. 5 изображены области, соответствующие различным вероятностям ошибочной классификации, в зависимости от пары значений коэффициентов (у 4, у б),

для N = 5 -105 и N = 104. На этих же рисунках показаны значения параметров (у 4, уб ) для тестовой выборки.

Нетрудно видеть, что даже в случае сравнительно короткой реализации

протяженностью 104 выборок (при частоте дискретизации 10 кГц это соответствует времени анализа всего 1 с) лишь незначительная часть классифицируемых объектов попадает в область, где вероятность ошибки распознавания за счет дисперсии оценок превышает 0,1.

5. ОЦЕНКА ТОЧНОСТИ КЛАССИФИКАЦИИ

В табл. 1 приведены значения ошибок классификации при разных отношениях сигнал-шум. При этом тестовая выборка зашумленных сигналов была сформирована из тестовой выборки речевого корпуса Т1М1Т путем добавления к речевым сигналам шумовой помехи (дискретный белый шум).

Таблица 1

Ошибка распознавания, %

Мужчины Женщины Средняя

Без шума 1,85 5,77 3,81

= 20йВ 1,85 6,01 3,93

8Ж = 10йВ 2,78 7,69 5,24

N = 0йВ 7,41 9,62 8,52

Как следует из табл. 1, значительное увеличение ошибки классификации наблюдается лишь при весьма малых отношениях сигнал-шум (0 дБ и менее). Поясняется это учетом в решающем правиле, в соответствии с соотношением (8), наличия помехи в речевом сигнале.

Сравнение ошибок распознавания для предложенной в данной работе системы классификации с ошибками классификации для конкурентных систем классификации (табл. 2) показывает, что предложенная система классификации лучше конкурентных систем для условий отсутствия фонового шума. К сожалению, аналогичное сопоставление для наиболее интересных в инженерных приложениях отношений сигнал-шум (0.. .15 дБ) невозможно, поскольку в литературе отсутствуют данные об устойчивости конкурентных систем классификации к воздействию шумовых помех.

Таблица 2

Вектор признаков Количество дикторов Ошибки, %

Сорокин В Н. [3] ЧОТ+4 параметра гол. щели 429 4,7

Семенов В.Ю. [1] ЧОТ+10 кепстральных коэф. 61 0.9

Пилипенко К.П. 2 кумулянтных коэф. 630 3,8

В заключение подчеркнем, что системы классификации на основе кумулянтных коэффициентов у4 и у6 представляются привлекательными еще и потому, что

позволяют достигать хороших результатов при сравнительной простоте технической реализации.

ЗАКЛЮЧЕНИЕ

1. В работе произведена оценка влияния аддитивного шума на точность классификации пола диктора по классификационным признакам в виде кумулянтных коэффициентов у4 и у6 выборок анализируемого речевого сигнала. Показана

целесообразность построения адаптивной системы классификации, функционирующей с учетом маскировки речевого сигнала аддитивным шумом.

2. Произведена оценка степени влияния дисперсии оценок кумулянтных коэффициентов на устойчивость функционирования предложенной системы классификации. Показано, что даже при сравнительно небольшом времени анализа (примерно 1 с) ошибка классификации не превышает 10%.

3. Сравнение предложенного метода классификации пола дикторов с конкурентными методами свидетельствует, что предложенный метод обеспечивает более высокую точность классификации, устойчив к влиянию шумовых помех и намного более прост в плане технической реализации (в частности, благодаря отказу от ЧОТ в качестве основного классификационного признака).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ЛИТЕРАТУРА

1. Калюжный А. Я., Семенов В. Ю. Метод идентификации пола диктора на основе моделирования акустических параметров голоса гауссовыми смесями // Акустичний вюник. - 2009. - Т. 12, № 2. - С. 31-38.

2. Scheme E., Castillo-Guerra E., Englehart K., Kizhanatham A. Practical Considerations for Real-Time Implementation of Speech-Based Gender Detection // Lecture notes in computer science. - 2006. - № 4225. - Р. 426-436.

3. Сорокин В. Н., Макаров И. С. Определение пола диктора по голосу // Акустический журнал. - 2008. - Т54, №4. - С. 659-668.

4. Пилипенко К.П., Продеус А.Н. Использование кумулянтных коэффициентов для определения пола диктора // Электроника и связь. - 2012. - № 1(66). - С. 13-17.

5. Дидковский В. С., Продеус А. Н. Сопоставление формантных свойств украинской и русской речи // Электроника и связь. Тематический выпуск «Электроника и нанотехнологии». - 2009. - Ч.2. - С. 88-94.

6. Красильников А. И., Пилипенко К. П. Применение двухкомпонентной гауссовской смеси для идентификации одновершинных симметричных плотностей вероятностей // Электроника и связь. - 2008. - № 5(46). - С. 20-29.

7. Красильников А. И., Пилипенко К. П. Одновершинная двухкомпонентная гауссовская смесь. Коэффициент эксцесса // Электроника и связь. - 2007. -№ 2(37). - С. 32-38.

8. Малахов А. Н. Кумулянтный анализ случайных негауссовских процессов и их преобразований. - М.: Сов. радио, 1978. - 376 с.

9. Friedman J., Hastie T., Tibshirani R. The Elements of Statistical Learning. - Springer. -2008. - 739 p.

10. Pylypenko K. P. Identification of the probability density of the sum of the signal with gaussian mixture distribution and gaussian white noise // Электроника и связь. - 2012. -№ 3(68). - С. 24-28.

11. Кендалл М. Теория распределений / М. Кендалл, А. Стьюарт; пер. с англ.

В. В. Сазонова, А. Н. Ширяева; под. ред. А. Н. Колмогорова. - М.: Наука, 1966. -588 с.

12. Пилипенко К. П. Ошибки идентификации плотности вероятностей одновершинной двухкомпонентной смесью распределений // Тези доповщей XIV мiжнародноi науково'1 конференцп iм. акад. М. Кравчука, 19-21 квггня 2012 р., м. Кшв. - С. 105106.

i Надоели баннеры? Вы всегда можете отключить рекламу.