Научная статья на тему 'Проблемы инициализации систем сегментации дикторов на основе вариационного байесовского анализа'

Проблемы инициализации систем сегментации дикторов на основе вариационного байесовского анализа Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
121
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАЙЕСОВСКИЙ АНАЛИЗ / BAYESIAN ANALYSIS / ВАРИАЦИОННЫЙ МЕТОД / VARIATION METHOD / СЕГМЕНТАЦИЯ ДИКТОРОВ / SPEAKERS' SEGMENTATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кудашев Олег Юрьевич, Пеховский Тимур Сахиевич –.

Приведено описание модели, используемой для решения задачи сегментации дикторов. На основе сделанных предположений приведены итерационные формулы аппроксимации функции апостериорного распределения параметров модели диктора и предложен оригинальный способ инициализации значений параметров модели. Приведена схема системы сегментации дикторов, реализованной на основе разработанного подхода. Применение разработанной системы дало относительную редукцию ошибки до 26% как на англоязычных, так и русскоязычных речевых базах.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кудашев Олег Юрьевич, Пеховский Тимур Сахиевич –.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INITIALIZATION PROBLEMS OF SPEAKERS’ SEGMENTATION SYSTEMS BASED ON VARIATION BAYESIAN ANALYSIS

This paper presents a model description used for the speakers’ segmentation task. The iterative formulas approximating distribution of a posteriori speakers’ model parameters based on the made assumptions are given and the new original method for initializing model parameters is offered. The scheme of a speakers’ segmentation system based on developed approach is presented. The application of developed system gives relative reduction in error rate up to 26% both at Russian and English speech data bases.

Текст научной работы на тему «Проблемы инициализации систем сегментации дикторов на основе вариационного байесовского анализа»

Литература

1. Chen H., Haimovich A.M. Iterative estimation and cancellation of clipping noise for OFDM signals // IEEE Commun. Lett. - 2003. - V. 7. - № 7. - P. 305-307.

2. Zhidkov S.V. Detection of clipped code-division multiplexed signals // Electronics Letters. - 2005. - V. 41. -№ 25. - P. 1383-1384.

3. Kim J. Method and apparatus for evaluating audio distortion. - US Patent 005402495, Int.Cl. H04B 15/00, 1995.

4. Riemer T.E., Weiss M.S., Losh M.W. Discrete Clipping Detection by Use of a Signal Matched Exponentially Weighted Differentiator // Proceedings of the IEEE Southeastcon'90. - USA: New Orleans, Louisiana, 1990. - P. 245-248.

5. Otani T., Tanaka M., Ota Y., Ito S. Clipping detection device and method. - US Patent 20100030555 A1, Int.Cl. G10L 21/02, 2010.

6. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов: Пер. с англ. / Под ред. Ю.Н. Прохорова, М.В. Назарова. - М: Радио и связь, 1981. - 496 с.

7. Чураев С.О., Адамова А.Д., Палташев Т.Т. Реализация алгоритма шумоподавления в речевом тракте систем мобильной связи на базе СБИС // Научно-технический вестник СПбГУ ИТМО. - 2011. -№ 1 (77). - С. 72-76.

Алейник Сергей Владимирович - ООО «ЦРТ-Инновации», научный сотрудник, [email protected] Матвеев Юрий Николаевич - ООО «ЦРТ-Инновации», доктор технических наук, главный научный сотрудник, НИУ ИТМО, профессор, [email protected] Раев Андрей Николаевич - ООО «ЦРТ», директор научно-исследовательского департамента,

[email protected]

УДК 004.93+57.087.1

ПРОБЛЕМЫ ИНИЦИАЛИЗАЦИИ СИСТЕМ СЕГМЕНТАЦИИ ДИКТОРОВ НА ОСНОВЕ ВАРИАЦИОННОГО БАЙЕСОВСКОГО АНАЛИЗА

О.Ю. Кудашев, Т.С. Пеховский

Приведено описание модели, используемой для решения задачи сегментации дикторов. На основе сделанных предположений приведены итерационные формулы аппроксимации функции апостериорного распределения параметров модели диктора и предложен оригинальный способ инициализации значений параметров модели. Приведена схема системы сегментации дикторов, реализованной на основе разработанного подхода. Применение разработанной системы дало относительную редукцию ошибки до 26% как на англоязычных, так и русскоязычных речевых базах. Ключевые слова: байесовский анализ, вариационный метод, сегментация дикторов.

Введение

Задача сегментации дикторов состоит в выделении речевых сегментов фонограммы и кластеризации (объединении) выделенных сегментов по принадлежности к одному диктору. Сегментация дикторов является неотъемлемой частью задач, связанных с обработкой речи. К таким задачам можно отнести, например, автоматическую идентификацию голоса говорящего (диктора), индексацию аудиоданных.

В последнее время методы байесовского факторного анализа показали высокую эффективность как в задачах голосовой идентификации [1, 2], так и в задачах сегментации дикторов [3, 4]. Работа [5] является ярким примером алгоритма сегментации дикторов, основанного на вариационном байесовском анализе. Однако, как и в любом итерационном алгоритме, возникает вопрос о начальной инициализации значений.

Целью данной работы является разработка и применение алгоритма инициализации начальных значений параметров модели, основанной на вариационном байесовском анализе. В отличие от работы [6], исследуется система сегментации дикторов для широкого спектра приложений, в частности, на различных русскоязычных и англоязычных речевых базах.

Применение вариационного байесовского анализа к задаче сегментации дикторов

Пусть X - данные; 6 - совместный набор параметров модели и скрытых переменных. Задачей байесовского анализа является поиск максимально точного приближения Q(6) для функции апостериорного распределения параметров модели Р (б|X):

Р (61X). ^«(И,

где Р(X) = |Р(X|6)Р(6)d6 .

ПРОБЛЕМЫ ИНИЦИАЛИЗАЦИИ СИСТЕМ СЕГМЕНТАЦИИ ДИКТОРОВ ...

Доказано, что решением данной задачи является функция 2(0), обеспечивающая максимум нижней границы L(Q):

l (Q ) = J Q(0)rn pX^ d 0.

Наиболее распространенными численными методами решения задачи байесовского анализа являются вариационные байесовские методы [7].

В основе как методов сегментации дикторов, так и методов текстонезависимой голосовой идентификации лежит статистическое моделирование распределения акустических признаков. Наиболее эффективным типом генеративной модели диктора признана смесь гауссовых распределений (Gaussian Mixture Models, GMM), аппроксимирующая распределение акустических признаков. При этом модель каждого диктора получается из универсальной фоновой модели (Universal Background Model, UBM) путем адаптации только средних значений гауссоид без изменений матриц ковариаций. Объединение полученных таким образом векторов средних значений называют супервектором средних диктора. Введем следующие предположения:

- речевые сегменты на фонограмме выделены, при этом на каждом сегменте присутствует ровно один диктор;

- количество дикторов известно;

- супервектор средних диктора имеет следующее априорное распределение:

S = р + Vy ,

где ц - супервектор средних UBM; V - матрица «собственных голосов»; y - случайный вектор с нормальным стандартным распределением.

Последнее предположение является основой факторного анализа и дает не только мощный инструмент для методов сегментации дикторов, но также значительно уменьшает вычислительную сложность алгоритмов.

Введем следующие обозначения:

- M - число речевых сегментов на фонограмме;

- S - число дикторов;

- X = (xj,..., xM) - данные, полученные на каждом из сегментов фонограммы;

- I = (ij,...,iM) - набор индикаторов для каждого сегмента фонограммы (ims=1, если на сегменте m говорит диктор s и равен нулю в обратном случае);

- л = (л,..., лм) - априорные вероятности присутствия диктора s на сегменте;

- Y = (y1,..., y S) - вектора в пространстве собственных голосов, отвечающие моделям соответствующих дикторов;

S

- P(im) = n<ms - априорное распределение im ;

s=1

P(Y) имеет нормальное стандартное распределение.

В соответствии с вариационным байесовским анализом, сделаем следующее предположение о факторизации:

Q(Y, I) = Q(Y )Q( I),

M S

Q(i) = ППqm ,

m=1 s=1

S

Q(Y) =П N (ys К, Л-1).

Тогда формулы для вариационного приближения искомых функций имеют следующий общий вид:

ln Q(Y) = E, [ln P(X, Y, Iл)] + const, (1)

lnQ(I) = Ey [lnP(X, Y,!л)] + const. (2)

Подробный вывод формул представлен в работе [5].

Таким образом, применяя последовательно формулы (1), (2), можно получить приближенные значения qms, являющиеся апостериорной вероятностью присутствия диктора s на сегменте m.

Система сегментации дикторов

Алгоритм вариационного байесовского анализа, вообще говоря, гарантирует сходимость только в окрестности локального максимума функции L(Q). Следовательно, для эффективного применения алгоритма, описанного в предыдущем разделе, необходимо произвести удачную инициализацию начальных значений qms.

Авторами была рассмотрена задача сегментации дикторов при S=2 (диалог). Инициализация начальных значений qm1, qm2 осуществляется путем применения алгоритма K-средних для векторов ym каждого из сегментов фонограммы с дальнейшей кластеризацией. Подробное описание такой кластеризации приведено в работе [6].

Общая схема взаимодействия блоков разработанной системы сегментации дикторов представлена на рисунке. Такая система состоит из шести основных блоков.

1. блок выделения речевых сегментов (Voice Activity Detector, VAD);

2. блок выделения речевых акустических признаков (Feature Extractor, FE);

3. блок построения векторов {ym }M=1 для каждого сегмента фонограммы (F-mapping);

4. блок кластеризации множества векторов {ym}M=1 на множества С1, C2 при помощи алгоритма K-средних (í-means);

5. блок перегруппировки множеств C1, C2 в соответствии с формулой (EV)

Ci* = {m :(< y >i -< y >2)• (ym-< y >1) > 0},

C2* = {m :(< y > 2 - < y >1) • (y m - < y > 2) > 0} ,

где < y >1=Ci S y m ; < y >2=птг S y m ;

meq |C2| meC2

6. блок перегруппировки множеств C1, C2 на основе вариационного байесовского анализа (VBA).

Инициализация начальных значений qm1, qm 2 осуществляется следующим образом:

= Г 0,999 m e Cs q- \rand() m í Cs

Окончательная группировка множеств C1, C2 осуществляется после применения вариационного байесовского анализа в соответствии с формулой C1* = {m :qm1 > qm2}, C2* = {m :qm2 > qm1}.

Речевые

VAD

данные

C1, C2

Результат сегментации

C1, C2

VBA

FE

EV

C1, C2

Y-mapping

Á-means

C1, C2

Рисунок. Схема взаимодействия блоков системы сегментации дикторов

Таким образом, происходит взаимодействие между дискриминативным (EV) и генеративным (VBA) блоками [6].

Результаты экспериментов

Основной метрикой эффективности системы сегментации дикторов является показатель вероятности ошибки сегментации (Diarization Error Rate, DER):

^ длина речевых сегментов, неверно отнесенных к диктору , „„„.

DER =-----100%.

длина всех речевых сегментов

Помимо описанной системы, в экспериментах также была применена схема, отличающаяся отсутствием блоков Y-mapping, A"-means и EV. При этом инициализация блока VBA происходило 6 раз путем рандомизации значений qm1, qm2. Из шести полученных множеств Q, C2 выбирались те, которые обеспечивали наибольшее значение нижней границы L(Q).

В качестве речевых акустических признаков использовались первые 13 MFCC (Mel-Frequency Cepstral Coefficients) коэффициентов, без нормализации и вычитания среднего значения. Для обучения UBM и матрицы собственных голосов V использовались следующие речевые базы: NIST 2002, NIST 2003, NIST 2004, NIST 2005, NIST 2006, NIST 2008, RuSTeN [8]. Суммарное количество дикторов указанных баз обучения составило 3620. Количество гауссовых распределений UBM бралось равным 512. Размерность матрицы собственных голосов для блоков A"-means и EV составила 10, а размерность матрицы собственных голосов для блока VBA - 50.

В таблице представлены сравнительные результаты экспериментальных исследований реализованной системы сегментации дикторов (столбец DER), системы, основанной на рандомизации значений

ПРОБЛЕМЫ ИНИЦИАЛИЗАЦИИ СИСТЕМ СЕГМЕНТАЦИИ ДИКТОРОВ .

qmi, Чт2 (столбец DER random), а также процент относительной редукции. В тестировании участвовали как англоязычные базы данных (NIST 2002, NIST 2008), так и русскоязычные базы компании ООО «Центр речевых технологий» (НАРКОКОНТРОЛЬ, МВД, СУБТИТРЫ). Базы НАРКОКОНТРОЛЬ и МВД представляют собой записи телефонных разговоров длительностью 1-3 мин. База СУБТИТРЫ состоит из коротких записей (20-50 с) новостных интервью, включающих разговор двух дикторов.

Наименование Число Язык Канал Средняя DER, DER Редукция,

базы данных файлов продолжительность записей % random, % %

NIST 2002 88 англ. телефон 1 мин 5,15 7,03 26

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

NIST 2008 1172 англ. телефон 5 мин 5,55 5,86 5,3

НАРКОКОНТР ОЛЬ 17 русский телефон 1 мин 45 с 4,8 4,97 3,4

МВД 83 русский телефон 2 мин 5,77 5,95 3

СУБТИТРЫ 103 русский радио 30 с 4,53 4,75 4,6

Таблица. DER систем сегментации дикторов

Заключение

Как видно из таблицы, применение предварительной инициализации блоком EV обеспечило относительную редукцию DER на всех тестируемых базах. При этом необходимо отметить, что результаты справедливы как для англоязычных, так и для русскоязычных корпусов. На англоязычной базе с короткими произнесениями (NIST 2002) относительная редукция DER составила 26%. Разброс величины редукции обусловлен, главным образом, разнообразными условиями тестирования. Помимо усиления системы сегментации дикторов, использование дискриминативного блока EV имеет еще одно важное практическое значение. Разработанная авторами схема позволяет свести к минимуму число обращений к блоку VBA (в среднем 2-3 раза). Поскольку этот блок имеет наибольшую вычислительную сложность, происходит значительное уменьшение времени работы всей системы.

Разработанная система успешно внедрена и используется в системах автоматической голосовой идентификации, разработанных на кафедре «Речевые информационные системы», являющейся базовой кафедрой компании ООО «Центр речевых технологий». Также указанная система имела успешное применение в составе системы автоматической индексации записей новостных передач.

Литература

1. Kenny P., Ouellet P., Dehak N., Gupta V., Dumouchel P. A study of inter-speaker variability in speaker verification // IEEE Trans. Audio, Speech and Lang. Process. - July 2008. - V. 16. - № 5. - P. 980-988.

2. Castaldo F., Colibro D., Dalmasso E., Laface P., Vair C. Compensation of Nuisance Factors for Speaker and Language Recognition // IEEE Trans. Audio, Speech, Lang. Process. - September 2007. - V. 15. - № 7. - P. 1969-1978.

3. Tranter S., Reynolds D. An overview of automatic speaker diarization systems // IEEE Trans. Audio, Speech, Lang. Process. - September 2006. - V. 14. - № 5. - P. 1557-1565.

4. Reynolds D., Kenny P., Castaldo F. A Study of New Approaches to Speaker Diarization // Proc. Interspeech - 2009. - Р. 1047-1050.

5. Kenny P. Bayesian Analysis of Speaker Diarization with Eigenvoice Priors. - Technical report, Centre de recherche informatique de Montreal (CRIM). - Montreal, Canada. - May 2008. - 17 р.

6. Пеховский T.C., Шулипа A.K. Гибрид генеративных и дискриминативных моделей для задачи диаризации в коротком телефонном диалоге // Proc. of the XIV International Conference «Speech and Computer» SpeCom'11. - Kazan, Russia, 2011. - Р. 389-394.

7. Bishop M. Pattern Recognition and Machine Learning. - New York: Springer, 2006. - 738 р.

8. Linguistic Data Consortium [Электронный ресурс]. - URL: http://www.ldc.upenn.edu/, свободный. Яз. англ. (дата обращения 10.03.2012).

Кудашев Олег Юрьевич - Санкт-Петербургский национальный исследовательский университет информа-

ционных технологий, механики и оптики, аспирант, [email protected] Пеховский Тимур Сахиевич - ООО «ЦРТ-инновации», кандидат физ.-мат. наук, ведущий научный сотрудник,

[email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.