Алгоритм сравнения фонограмм на основе каналонезависимых информативных признаков
Киселёв В.В., Ткаченя А.В.
Проводится исследование информативных признаков с целью формирования каналонезависимого пространства признаков для повышения эффективности голосового анализа, для решения задачи определения сходства между фонограммами на основе метода динамического программирования.
• голосовой анализ • машинное обучение • выбор информативных признаков • мел-кепстральные коэффициенты • метод динамического программирования
The research of informative feature vectors to form channel-independent feature space to improve the efficiency of speech analysis for solving the problem of comparing phonograms on the basis of dynamic time warping.
• speech analysis • machine learning • feature selection • Mel-frequency cep-stral coefficients • Dynamic Time Warping
Введение
Важнейший этап при создании систем автоматического голосового анализа — выделение оптимального набора информативных признаков, так как их выбор оказывает значительное влияние на эффективность классификации. При решении большинства прикладных задач анализу подвергаются голосовые данные, полученные при различных условиях записи. Изменение характеристик канала приводит к изменению анализируемого пространства признаков, что ведёт к снижению эффективности классификации.
Для снижения влияния характеристик канала на эффективность работы систем голосового анализа необходимо использовать каналонезависимые информативные признаки. В последнее время исследования в этом направлении приобрели особую актуальность [1, 2]. Тем не менее, большинство существующих способов получения каналонезависимых информативных признаков характеризуются большими времен-
3
ными и аппаратными затратами. Это затрудняет их использование в задачах, требующих анализа сигнала в реальном времени.
В экспериментальной части данной работы приводится сравнение полученной эффективности для случая использования исходных информативных признаков и полученных кана-лонезависимых на примере задачи определения сходства между фонограммами на основе метода динамического программирования (Dynamic Time Warping — DTW). Суть метода заключается в последовательном сравнении анализируемой записи с образцом. При помощи метода динамического программирования происходит сравнение массивов информативных признаков анализируемой записи и образца произношения. Данный подход часто используется для построения простых систем распознавания речи [3, 4].
Рис. 1. Блок-схема алгоритма сравнения фонограмм
Рис. 2. Блок-схема сравнения двух фонограмм
4
1. Алгоритм сравнения фонограмм
Анализ фонограмм выполняется в соответствии со схемой, приведённой на рис. 1.
Так, анализируемая запись сравнивается с каждым из образцов правильного произношения, а конечный результат анализа вычисляется как медианное значение результатов сравнений отдельных фонограмм. Выбор медианного значения в качестве результата анализа требуется для получения устойчивой оценки степени сходства фонограмм и обусловлен необходимостью исключения чрезмерной адаптации на конкретный образец произношения.
Порядок сравнения массивов мел-кепстральных коэффициентов (Mel-frequency cepstral coefficients — MFCC) каждой фонограммы-образца произношения с анализируемой записью схематично показан на рис. 2.
Особенность предложенного алгоритма сравнения двух фонограмм заключается в использовании блока нормирования на длительность образца произношения, что позволяет снизить временные и аппаратные затраты на сравнение анализируемой записи с образцом произношения.
2. Выбор информативных признаков
Восприятие тонов человеческим ухом носит нелинейный характер. Количественное описание этой нелинейности задаётся так называемой мел-шкалой, определяемой эмпирическим соотношением:
В( f ) = 1125ln(1 + f /700)
Речевой сигнал можно представить как свёртку двух функций изначального вида акустической волны s(t) (исходного сигнала) и фильтра Ц^) (зависящего от параметров голосового тракта), параметры которого должны быть оценены как
/ (г ) = s(t)® Ъ(г)
В частотной области получаем
¥ (ш) = £ (ш)- Н (ш)
Полученный спектр F(ra) нужно расположить на мел-шкале (рис. 3):
W (ш) =
0
2(ш- f [m -1])
(f [m +1]- f [m - l])(f [m]- f [m -1]) 2(f [m +1]-<)
(f [m +1]- f [m - 1])(f [m +1]- f [m])
ш < f [m -1] f [m - 1]<ш< f [m]
f [m] < ш < f [m +1] ш > f [m +1]
0
где m =1,2,...,M; M — количество треугольных фильтров.
Рис. 3. Треугольные фильтры, используемые для получения мел-спектра
Для дискретного случая / [т] может быть вычислено следующим образом:
В/)-в/ Г
M +1
I, В_1(й )= 700(exp(b/1125)-1),
где / и/ — минимальная и максимальная частоты фильтров в Гц; ¥ — частота дискретизации сигнала в Гц; М — количество фильтров; N— размер БПФ.
5
F.
V" S У
6
Найдём логарифмированную энергию сигнала на выходе каждого из фильтров:
X [m] = h
j F (ш)| 2Wm (ш)Нш
0 < m < M
Для фильтров с плавной передаточной функцией MFCC является гомоморфным преобразованием, что позволяет получить выражение
X[m]= jh (f(и)2Wm(ш))Нш,
(ш)Нш, 0 < m < M
Тогда спектр Р(ш) можно представить как сумму исходного сигнала и фильтра: 1п (^(ш)2)=Ь (б2(ш)-Н2(ш))=Ь Б2(ш)+Ь Н2(о)
Теперь необходимо преобразовать эту сумму так, чтобы получить непересекающиеся наборы характеристик исходного сигнала и фильтра. Для этого вводится преобразование кепстров:
1
C[n] = — JIX[да] |eiffl"db — вещественный кепстр;
2П -п
1 п
C[n] = — [X[m] emndю — комплексный кепстр, 2п J
где ш — частота в радианах.
Такой подход позволяет получить характеристики речевого сигнала (мел-кепстральные коэффициенты — MFCC), которые минимально зависят от индивидуальных особенностей говорящего, а значит, могут быть очень полезны в задачах распознавания [5].
3. Построение каналонезависимых информативных признаков
При решении прикладных задач анализируются данные, полученные при различных условиях записи, что ведёт к изменению анализируемого пространства признаков и, в свою очередь, к снижению эффективности классификации. Для достижения устойчивой работы и снижения разброса эффективности голосового анализа необходимо использовать каналонезависимые информативные признаки.
Так как в сигнале могут присутствовать шумы, то вначале каждая запись проходит детектор речи, основанный на анализе оценки мощности сигнала в полосе от 300 до 4000 Гц [6], с целью выделения речевых (участки сигнала, в которых присутствует речь) и неречевых участков (участки с шумом). Далее на полученных речевых участках осуществляется классификация вокализованных и невокализованных участков, основанная на нахождении нормализованной кросс-корреляционной функции [7].
Часто в литературе можно встретить подход к нормировке параметров канала связи (адаптации коэффициентов наблюдений) посредством вычитания средних значений коэффициентов вещественного кепстра. Такой подход позволяет эффективно бороться с мультипликативными искажениями, вносимыми различными каналами связи.
Вычитание средних значений мел-кепстральных коэффициентов вместо вычитания средних значений коэффициентов вещественного кепстра накладывает определённые ограничения на виды допустимых мультипликативных искажений, однако является более эффективным в вычислительном плане. При этом встречаются различные способы оценки среднего значения мел-кепстральных коэффициентов:
1. Оценка средних значений на неречевых участках. Этот способ позволяет эффективно
бороться с мультипликативными искажениями канала связи, сохраняя информацию об индивидуальных голосовых характеристиках диктора.
2. Оценка средних значений как на вокализованных, так и на невокализованных участках речи.
3. Оценка средних значений только на вокализованных участках речи. Позволяет нормиро-
вать коэффициенты наблюдений как к каналу связи, так и к голосу диктора. При этом за счёт того, что средние значения оцениваются только на вокализованных участках речи, дисперсии оценок оказываются меньше, чем при оценке средних на вокализованных и невокализованных участках речи.
При необходимости работы в реальном времени популярным способом вычитания среднего является применение фильтра с коэффициентами Ь = [1; — 1], а = [1; — 0,97]. При этом инициализация фильтра выполняется таким образом, чтобы х = х у = 0.
Амплитудно-частотная характеристика (АЧХ) и фазо-частотная характеристика (ФЧХ) такого фильтра приведены на рис. 4.
Рис. 4. АЧХ (сплошная линия) и ФЧХ (пунктирная линия) фильтра
Для того чтобы информативные признаки стали каналонезависимыми, было предложено провести оценку средних значений только на вокализованных участках речи. Это было обусловлено тем, что вычитание средних значений коэффициентов вещественного кепстра приводит к возрастанию вычислительных затрат, что затрудняет использование этого метода в реальном времени. При оценке средних значений на неречевых участках сохраняется информация об индивидуальных голосовых характеристиках дик-
7
8
тора, что снижает эффективность сравнения фонограмм. А случай оценки средних значений на вокализованных и невокализованных участках речи даёт большую дисперсию оценок, что также приводит к снижению эффективности.
Такой шаг позволяет эффективно бороться с мультипликативными искажениями, вносимыми различными каналами связи. Полученные каналонезависимые мел-кепстральные коэффициенты нормированы как к каналу связи, так и к голосу диктора, что значительно повышает эффективность алгоритма сравнения фонограмм.
4. Сравнение фонограмм
Сопоставление последовательностей мел-кепстральных коэффициентов осуществляется методом динамического программирования [5]. DTW позволяет найти оптимальное соответствие между двумя заданными последовательностями. При этом мера подобия этих последовательностей не зависит от изменения нелинейного масштаба времени. Эти свойства DWT наилучшим образом подходят для решения поставленной задачи сравнения фонограмм.
С целью формирования матрицы локальных расстояний ё.. для каждой пары сравниваемых MFCC-коэффициентов вычисляется L1-метрика:
d = У |MFCCn - MFCCr
5 | п }
Определение матрицы интегральных расстояний Б.. выполняется с использованием локальных ограничений Итакуры [8].
D. = mir
Di-2, j-1 + di-1,j D-i,j-i
D-1,j-2 + di,j-1
+ d.
Расстоянием между сравниваемыми записями является значение матрицы интегральных расстояний с максимальными индексами Бтах ¡тах_.
Нормировка интегрального расстояния на длительность анализируемой записи позволяет в первом приближении использовать функции распределения, полученные для других фонограмм, и таким образом избежать трудоёмкой процедуры определения фактических функций распределения интегральных расстояний:
D = D
max_ i,max_ j
/N
Определение значения сходства между фонограммами выполняется на основе определения значений функций распределения «своих» (правильное произношение фонограммы — Р& , сплошная линия), «чужих» (неправильное произношение — ^ , пунктир) и их точек пересечения (с^ ; Рее ) (рис. 5):
[1 + - )/к
Sim =
1 -(f - F )/(1 - F. )
если Dn ^ qe
еСЛИ qe < Dn
2
Рис. 5. Функции распределения «своих» и «чужих» для фразы ««акклиматизироваться в
Константинополе»
5. Результаты эксперимента
Рассмотрим результаты экспериментального исследования описанного способа формирования каналонезависимого пространства признаков для построения классификатора и сравнения эффективности предложенного алгоритма оценки сходства фонограмм при использовании исходных и каналонезависимых информативных признаков (таблица).
Разработанный алгоритм сравнения фонограмм предназначен для контроля правильности произношения слов и выражений при обучении языкам. Работа алгоритма предусматривает запись пользователем требуемой речевой фонограммы и получение комплексной оценки меры подобия записанного сигнала с заданными образцами произношения (см. рис. 1).
База образцов произношения записывается на конденсаторном микрофоне BEHRINGER C-2 (с частотным диапазоном 20-20000 Гц и соотношением сигнал/шум 75 дБ) с использованием внешней звуковой карты Creative E-MU 0202 USB 2.0. Тестирование алгоритма сравнения фонограмм осуществлялось на гарнитуре A4Tech HS-5P (с частотным диапазоном 20-20000 Гц и соотношением сигнал/шум 97 дБ), подключённой к встроенной звуковой карте.
Для проведения эксперимента были выбраны три типа фонограмм: одиночное слово, фраза (до семи слов) и скороговорка. В тестировании принимали участие четыре диктора (двое мужчин и две женщины), не вошедшие в обучающую выборку.
9
Проверка эффективности работы алгоритма оценки сходства фонограмм проводилась на файлах, записанных при соотношении сигнал/шум 15 и 30 дБ (SNR), клиппированном сигнале (clipping), одиночной ошибке произнесения (1 miss), множественной ошибке произнесения (N miss).
Заключение
Предложенный способ построения каналонезависимых информативных признаков характеризуется низкими временными и аппаратными затратами. Это позволяет их использовать в системах голосового анализа без значительного снижения производительности конечного программного комплекса.
Использование каналонезависимых информативных признаков приводит к повышению точности разделения правильного и неправильного произношения фонограммы (см. таблицу). При этом эффективность классификации зашумленных и клиппированных сигналов значительно возросла в среднем на 20-25%.
Таблица
Степень сходства анализируемых записей при различных шумах и
искажениях
Информативный признак SNR15 dB SNR 30 dB clipping 1 miss N miss
Одно слово
MFCC-коэффициенты 57% 92% 46% 75% 42%
Каналонезависимые MFCC-коэффициенты 79% 93% 68% 77% 44%
Фраза (до семи слов)
MFCC-коэффициенты 54% 88% 37% 80% 45%
Каналонезависимые MFCC-коэффициенты 76% 90% 60% 79% 40%
Скороговорка
MFCC-коэффициенты 53% 89% 38% 83% 49%
Каналонезависимые MFCC-коэффициенты 74% 91% 63% 80% 42%
10
В качестве дальнейшей работы представляется целесообразным протестировать эффективность применения описанных каналонезависимых информативных признаков для классификации психоэмоционального состояния человека по его речи.
Литература
1. Amplitude Modulation Filters as Feature Sets for Robust ASR: Constant Absolute or Relative Bandwidth? / Moritz N. [et al.] // Interspeech 2012. Portland, Oregon, 2012. September 9-13. P. 76-83.
2. Hooking up spectro-temporal filters with auditory-inspired representations for robust automatic speech recognition / Meyer Bernd T. [et al.] // Interspeech 2012. Portland, Oregon, 2012. September 9-13.P. 132-141.
3. Performance of DTW speech recognizer on packet switched network / I. Kraljevski [et al.] // Proc. of 7th ETAI Conf. Ohrid, Macedonia, 2005. P. 89-96.
4. Paliwal K.K. On the use of line spectral frequency parameters for speech recognition // Proc. of Digital. SignalProcessing2. Bombay, India, 1992. P. 80-87.
5. Rabiner L., Juang B.-H. Fundamentals of speech recognition. Prentice-Hall, Inc.Upper Saddle River, NJ, USA,1993.
6. Sakhnov K., Verteletskaya Е., Simak В. Approach for energy-based voice detector with adaptive scaling factor // IAENG Intern. Journal of Computer Science. 2009. № 36 (4). P. 48-53.
7. Talkin D. A Robust Algorithm for Pitch Tracking // Speech Coding and Synthesis. 1995. P. 495-518.
8. Keogh E., Ratanamahatana С.А. Exact indexing of dynamic time warping. USA: University of California — Riverside, 2004.
Сведения об авторах
Киселёв Виталий Владимирович,
директор ООО «Речевые технологии», кандидат технических наук, г. Минск, Беларусь. С 1999 г. профессионально занимается системами синтеза и распознавания речи, диалоговыми речевыми системами. Автор более 25 научных публикаций в области речевых технологий. Основные научные интересы связаны с системами обработкой и анализом текста и речи, системами синтеза, распознавания речи, поиска ключевых слов. E-mail: [email protected]
Ткаченя Андрей Владимирович,
младший научный сотрудник ООО «Речевые технологии». Область научных интересов — системы анализа и индексирования аудиосигналов, скрытые Марковские модели в задачах распознавания речи. Беларусь, г. Минск, пер. Уральский, 15. E-mail: [email protected]
11