Алгоритм обнаружения речевой активности на основе статистик основного тона в задаче распознавания диктора

Симончик Константин Константинович; Галинина Ольга Сергеевна; Капустин Алексей Игоревич

СПИСОК ЛИТЕРАТУРЫ

1. Глушков, В.М. Введение в АСУ [Текст]/ В.М. Глушков. -Киев: Техника, 1972.-312 с.

2. Фишберн, П. Теория полезности для принятия решений [Текст]/П. Фишберн.-М.: Наука, 1978.-352 с.

3. Петров, К.Э. Компараторная структурно-параметричекая идентификация моделей скалярного многофакторного оценивания: Монография [Текст]/ К.Э. Петров, В.В. Крючковский. -Херсон: Олди-плюс, 2009.-294 с.

4. Подиновский, В.В. Парето-оптимальные решения многокритериальных задач [Текст]/В.В. Подиновский, В.Д. Ногин.-М.: Наука, 1982.-254 с.

5. Петров, Э.Г. Методы и средства принятия решений в социально-экономических и технических системах [Текст]/Э.Г. Петров, М.В. Новожилова, И.В. Гребенник [и др.].-Херсон: Олди-плюс, 2003.-380 с.

6. Ивахненко, А.Г. Самоорганизация прогнозирую-

щих моделей [Текст]/А.Г. Ивахненко, И.А. Мюллер.-К.: Техника, 1985.-233 с.

7. Cover, T.M. Geometrical and statistical of systems of linear inequalities with applications in pattern recognition [Текст]/Т.М. Cover//IEEE Trans. On Electronic Com-puters.-1965.-№ 14-P. 326-334.

8. Стерпин, М.Ю. Метод представления знаний в интеллектуальных системах поддержки экспертных решений [Текст]/М.Ю. Стерпин, Г.И. Шевелев//Новости искусственного интеллекта.-2003-№ 4(58), С. 24-33.

9. Борисов, А.Н. Обработка нечеткой информации в системах принятия решений [Текст]/А.Н. Борисов, А.В. Алексеев, Г.В. Меркурьев [и др.].-М.: Радио и связь, 1989.

10. Алефельд, Г. Введение в интервальные вычисления [Текст]/Г. Алефельд, Ю.Херцбергер; пер. с англ.-М.: Мир, 1987.-360 с.

УДК 621.391

К.К. Симончик, О.С. Галинина, А.И. Капустин

АЛГОРИТМ ОБНАРУЖЕНИЯ РЕЧЕВОЙ АКТИВНОСТИ НА ОСНОВЕ СТАТИСТИК ОСНОВНОГО ТОНА В ЗАДАЧЕ РАСПОЗНАВАНИЯ ДИКТОРА

В настоящее время активно развивается направление голосовой биометрии, включающее две смежные задачи распознавания диктора по голосу: задачу верификации, состоящую в определении личности говорящего, и задачу идентификации, отвечающую за проверку принадлежности фонограммы конкретному диктору. Открытым остается вопрос, связанный с улучшением качества работы алгоритмов верификации/идентификации в реальных условиях и снижением вероятности ошибки.

На стадии предобработки сигнала в системах распознавания диктора по голосу важную роль играет детектор речевой активности (англ. voice activity detector, VAD) - алгоритм, классифицирующий исходные участки фонограммы как речь или не речь. VAD представляет собой один из компонентов предобработки речевого сигнала в приложениях, работающих с голосовыми данными, и наиболее широко применяется в сфере теле-

коммуникаций и телефонии [1]. Помимо этого, алгоритмы VAD используются в задачах распознавания речи [2, 3] и диктора [4, 5], локализации источника речевого сигнала, улучшения качества речи и т. д.

Вопрос качественного выделения участков речи тщательно исследуется специалистами различных направлений. Основное внимание уделяется выделению шумоустойчивых признаков и выбору правил классификации речь/не речь. Чаще всего используются алгоритмы на основе анализа энергии сигнала, обнаружения основного тона [1], спектрального и кепстрального анализа [4], измерений числа переходов сигнала через нуль [1], статистическом моделировании [6], информационном подходе [1], использования порядковых фильтров [3], а также алгоритмы, основанные на объединении разных подходов. Но, несмотря на значительное количество реализаций VAD и глубокие исследования в этой области, существую-

щие решения не полностью отвечают требованиям, продиктованным особенностями задачи распознавания диктора по голосу.

В данной статье предлагается новый алгоритм VAD, являющийся модификацией алгоритма на основе статистик основного тона, предложенного в [7]. VAD исследуется как компонент системы распознавания диктора по голосу, в связи с чем основной целью его работы является улучшение качества работы системы в целом. На примере предложенной модификации алгоритма VAD и алгоритма VAD на основе энергии проводится анализ влияния выбора VAD на качество системы распознавания диктора.

VAD в задаче верификации диктора по голосу

Рассматривается система автоматической верификации по голосу на основе моделей смесей гауссовских распределений (СГР) и классификации методом опорных векторов (англ. support vector machine, SVM), подробно описанная в [8]. В качестве информативных акустических признаков выбраны мелчастотные кепстральные коэффициенты (англ. mel-frequency cepstral coefficients, MFCC).

В рассматриваемой задаче необходимо тщательно контролировать характер звуковых данных, подаваемых на вход системы обучающих и тестовых данных, не допуская обработки неречевых фрагментов сигнала, поскольку рассматриваемая система очень чувствительна к подобного рода ошибкам.

Для оценки качества системы используется стандартный для задач распознавания образов критерий - результирующее значение равновероятной ошибки пропуска/отклонения всей системы верификации (англ. equal error rate, EER):

ERR = FA = FR (1)

где FR (false reject) - вероятность ложного отка-

за (вероятность ошибки первого рода); FA (false acceptance) - вероятность ложной идентификации (вероятность ошибки второго рода).

На вход алгоритма верификации подаются акустические признаки, выделенные на речевых сегментах фонограммы. Сегментация на участки речь/не речь является результатом работы алгоритма, типичный пример использования VAD в системе верификации изображен на рис. 1.

Основные подходы к выделению речевых участков. В связи с широким применением алгоритмов детектирования речевой активности предложено множество подходов к классификации участков речь/не речь. Тем не менее, к настоящему времени не найдено универсальных алгоритмов, демонстрирующих высокое качество работы в различных приложениях.

Для мобильной и IP-телефонии используются, в частности, алгоритмы, описанные в стандартах ITU-T и ETSI. Например, в [9] приводится сравнение алгоритмов VAD стандарта G.729 и адаптивного кодирования с переменной скоростью (англ. adaptive multi rate, AMR), а также алгоритма FVAD, являющегося доработкой G.729. Первый алгоритм реализует подход, основанный на характеристике, определяющейся количеством переходов через нуль (zero crossing rate, ZCR), а также использующий информацию о мощности сигнала как во всей полосе частот, так и в отдельных частотных полосах. Второй алгоритм использует оценку соотношения сигнал/шум. Сравнение этих алгоритмов показывает, что среди них нет существенно выделяющихся с точки зрения качества поиска участков речь/не речь [9].

В [1] описываются и сравниваются основные подходы к выделению речевой активности для протокола VoIP, в частности, приводятся такие оценки работы алгоритмов, как доля неверно классифицированных кадров и величина сжатия.

;;;;; l'ilP;;;;;; ;

Фонограмм

VAD

Выделение характеристик

Сегментация речь/не речь

Речевые ( участки

Система верификации

EER

Рис. 1. Схема работы системы верификации диктора по голосу с использованием детектора речевой активности

Наиболее подробное описание различных методов VAD, с точки зрения систем распознавания речи, приводится в статье [3]. Сравниваются алгоритмы G.729, алгоритм на основе огибающей долговременного спектра (англ. long term spectral envelope, LTSE), опирающийся на вычисление статистик дивергенции долговременного спектра (англ. long term spectral divergence, LTSD), алгоритм на основе порядковых фильтров (англ. order statistic filter, OSF), алгоритм, основанный на статистической модели (англ. Likelihood ratio test, LRT), алгоритм AMR. Исследования показывают, что лучшее качество работы демонстрирует алгоритм LTSE.

В [5] приводится сравнение алгоритма VAD на основе определения частоты основного тона (ОТ) c использованием оценок автокорреляции, алгоритма спектральной энергии и алгоритма LTSE. Результаты экспериментов на нескольких типах данных показывают, что применение метода на основе вычисления оценки спектральной энергии дает, в целом, лучшее качество системы распознавания диктора.

Таким образом, учитывая результаты исследований известных алгоритмов VAD, представленных в литературе (как самих по себе, так и с точки зрения оценки их влияния на качество верификации), можно предположить, что алгоритм на основе оценки спектральной энергии позволяет снизить величину ошибки системы распознавания по голосу существеннее, чем другие методы. В [5] также показано, что в системах верификации этот подход демонстрирует лучшие результаты, чем подход, основанный на выделении основного тона. Тем не менее, в данной работе анализируется возможность повышения качества распознавания диктора по голосу за счет использования улучшенного алгоритма VAD, построенного на поиске вокализованных участков речи. Для сравнения приводятся результаты работы системы с алгоритмом VAD на основе оценки спектральной энергии.

Алгоритм на основе оценки энергии сигнала. Рассматривается алгоритм, основанный на оценке уровня энергии, состоящий в вычислении отношения средней мощности сигнала на речевом сигнале и последующем выставлении порога мощности, по которому принимается решение о наличии речи на данном участке сигнала [1].

Простая схема алгоритма состоит в вычислении логарифма среднеквадратического отклонения на каждом кадре:

где X - j-е значение на кадре /; X - среднее значение на кадре.

Для удаления возможных помех, не лежащих в речевом диапазоне частот (например, сетевых помех на частоте 50-60 Гц), используется фильтр с бесконечной импульсной характеристикой, подавляющий низкие частоты сигнала. Такой фильтр, рассчитанный методом Чебышева, обеспечивает минимальные искажения сигнала по амплитуде и по групповой задержке в области пропускания, очищая речевой сигнал от сетевых помех.

Мощность в каждом сегменте сигнала сравнивается с порогом, величина которого выставляется в 5 % от средней мощности сигнала по всей фонограмме. Превышение мощности сигнала в сегменте величины порога позволяет классифицировать его как речевой сегмент.

Алгоритм выделения вокализованных участков речи. Основная идея выделения вокализованных участков речи основана на том, что методы, применяемые экспертами в области голосовой биометрии, используют гласные и назализованные согласные. Негативной стороной является потеря некоторых согласных. Однако взрывные согласные и аффрикаты обладают меньшей идентификационной значимостью, поэтому можно предположить, что потеря некоторой части незначимого речевого материала будет компенсироваться качественным удалением неречевых участков. Это позволит, например, снизить зависимость качества распознавания от искажений канала в паузах. В основе представленного выделителя речи лежит спектральный анализ речевого сигнала. На каждом кадре спектрограммы производится поиск положений максимумов, соответствующих гармоникам основного тона (ОТ), по которым оценивается значение частоты ОТ. При этом в сигнале возможно отсутствие нижних гармоник ОТ, что характерно для телефонного канала с полосой частот 300-3400 Гц. Ниже приводится пошаговое описание алгоритма.

Шаг 1. Вычисление спектрограммы по каждому фрагменту сигнала с использованием быстрого преобразования Фурье и взвешивающего окна Хана, построение гистограмм энергий в каждой спектральной полосе и суммарной гистограммы по всем спектральным полосам в полезном диапазоне частот 180-3500 Гц.

Шаг 2. Оценка по полученным гистограммам порогов отношения мощностей сигнал/шум, общего по всему спектру сигнала и отдельно в каждой спектральной полосе, а также оценка полезного диапазона частот.

Шаг 3. Усреднение спектра по частотным полосам прямоугольным окном с шириной, равной значению ОТ на предыдущем кадре, нормировка исходного спектра на усредненный с целью усиления гармоник ОТ.

Шаг 4. Оценка положения и качества (выраженности) спектральных максимумов, вычисление значения ОТ по положению максимумов.

Шаг 5. Пункты 3, 4 выполняются в обратном направлении по речевому сигналу (спектрограмме).

Шаг 6. Из двух полученных кривых строится одна, таким образом, чтобы она, по возможности, сохраняла непрерывность, кроме того, на этом же этапе отбрасываются ложные значения частоты ОТ.

Работа выделителя речи проверяется наложением полученных кривых ОТ на кепстр и спектрограмму (см. рис. 2). В приведенном примере частота ОТ определяется точно, несмотря на отсутствие в большей части сигнала первой гармоники.

Таким образом, можно обозначить преимущества использования детектора речи на основе анализа частоты ОТ:

выделение речевого сигнала происходит, в т. ч., на относительно зашумленных участках (соотношение сигнал/шум до 10 дБ),

непрерывность значения основного тона и принадлежность его области диапазону частот, типичных для речи.

В качестве речевых участков, как упоминалось выше, используются только вокализованные звуки, шипящие согласные отбрасываются.

Тестирование качества работы детекторов речи

При сравнении алгоритмов детектирования речевой активности критерием качества служит

а)

б)

Рис. 2. Наложение кривой ОТ на спектрограмму и кепстр: а - кривая ОТ наложена на спектрограмму; б - на кепстр

по горизонтальной оси - I, с; по вертикальной - частота, Гц

ошибка EER системы верификации, включающей речевой детектор. Оценка ошибки непосредственно детектирования речевых участков на фонограмме выходит за рамки данной работы, и потому не производится.

Тестирование системы верификации проводится на речевой базе NIST 2004 общим объемом 918 фонограмм. База содержит фонограммы дикторов-мужчин, записанные в различных телефонных каналах с использованием различных микрофонов (обычный сотовый телефон, аналоговый телефон, цифровой телефон, гарнитура, громкая связь и пр.). Соотношение сигнал/шум записей варьируется в диапазоне 10-30 дБ. Исследуемая система является тексто- и языконе-зависимой, поэтому тестирование выполняется на фонограммах, содержащих речь дикторов на английском, русском и китайском языках. Для проведения экспериментов конфигурация и настройки всех модулей системы фиксированы, варьируются только параметры детектора речи.

Уровень ошибки EER системы с энергетическим детектором речи составил 12,1 %. В таблице приведена зависимость EER от параметров детектора речи на основе выделителя ОТ.

Очевидно, что VAD на основе выделителя основного тона обеспечивает меньшую величину EER, что обусловлено двумя причинами.

Во-первых, рассматриваемая система верификации по голосу, использующая в качестве информационных акустических признаков мел-кепстральные коэффициенты, чувствительна, в первую очередь, к ошибке ложного детектирования шума как речи. Детектор на основе выделителя ОТ предъявляет более жесткие требования к частотной характеристике сигнала, исключая тем самым помехи большой амплитуды, не являющиеся речью.

Во-вторых, при автоматической верификации по голосу, так же как и при экспертной, более

СПИСОК Л

1. Prasad, R. Comparison of Voice Activity Detection Algorithms for VoIP [Текст]Ж. Prasad [et al.]//In proc. 7th IEEE symp. on Computers and Communications (ISCC'02).-2002.-R 530.

2. Gorriz, J.M. Bispectra Analysis-Based VAD for Robust Speech Recognition. [Текст]Л.М. Gorriz [et al.]// Lecture Notes in Computer Science.-Springer, 2005. -P. 567-576.

Влияние параметров детектора речи на качество системы верификации (значение EER, %)

Смещение окна анализа, мс Ограничения на изменение ОТ в пределах сегмента речи, %

Есть Нет

3 5,6 6,0

6 5,8 6,0

12 6,1 6,9

информативными оказываются вокализованные участки речи.

В статье предлагается модификация алгоритма детектирования речевой активности на основе выделения основного тона. Разработан и протестирован алгоритм VAD с использованием информации о статистиках основного тона, проведено сравнение влияния выбора алгоритма VAD на качество работы системы тексто- и языконезависимой системы верификации диктора по голосу.

Определено, что выбор детектора речевой активности существенно влияет на результаты работы системы распознавания диктора по голосу. Исследование качества верификации показывает, что наименьшую ошибку в данном случае обеспечивает использование детектора речевой активности на основе выделителя ОТ.

Однако стоит заметить, что не существует алгоритма VAD, решающего наилучшим образом различные задачи. Например, в задаче определения границ речевых участков предложенный алгоритм не будет иметь такого преимущества, как в задаче распознавания диктора по голосу.

Дальнейшее направление исследований -изучение поведения разработанного алгоритма в различных условиях.

3. Ramírez, J. Voice Activity Detection. Fundamentals and Speech Recognition System Robustness. [TeKCT]/J. Ramírez [et al.]//Robust Speech Recognition and Understanding.-I-Tech Education and Publishing, Austria, 2007.-P. 1-22.

4. Hernandez, G. Noise Robust Voice Detector for Speaker Recognition [TeKCT]/G. Hernandez [et al.]//In Proc. 19th International conf. on Pattern Recognition, IEEE.-2008.-P 1-4.

5. Hautamaki, V. Improving Speaker Verification by Periodicity Based Voice Activity Detection [Текс^/V. Hautamaki [et al.]// In Proc. 12th International conf. on Speech and Computer. -M., 2007.-Vol. 2. -P. 645-650.

6. Sohn, J. A statistical model-based voice activity detection. [Текст]/! Sohn, N.S. Kim, W. Sung//IEEE Signal Proc. Lett.-1999.-№ 6.-P. 1-3.

7. Labutin, P. Speaker identification based on the statistical analysis of f0 [Текст]/P. Labutin, S. Koval, A. Raev//In Proc. IAFPA. -2007, Plymouth, UK.

8. Капустин, А.И. Система верификации дикторов по голосу на основе использования СГР-SVM подхода

[Текст]/А.И. Капустин, К.К. Симончик//Тр. XII Между -нар. конф. «Цифровая обработка сигналов и ее применение» (DSPA-2010).-M.-T 2.-С. 207-210.

9. Beritelli, F. Performance Evaluation and Comparison of G.729/AMR/Fuzzy Voice Activity Detectors. [Текст]/Е. Beritelli [et al.]//IEEE Signal Proc. Lett.-2002.-Vol. 9.-№ 3.

10. Tuononen M., Hautamaki R. G., Franti P. Automatic voice activity detection in different speech applications [Текст]/М. Tuononen, R.G. Hautamaki, P. Franti//In Proc. 1st international conf. on Forensic Applications and Techniques in Telecommunications, Information, and Multimedia Workshop.-2008.-P. 1-6.

УДК 658.310.11:681.3.06

Л.И. Гололобов

МОДЕЛИ СОВМЕСТИМОСТИ МАТЕМАТИЧЕСКИХ МЕТОДОВ ИССЛЕДОВАНИЯ ПОДСИСТЕМ «ЧЕЛОВЕК» И «ТЕХНИКА»

Исследование и разработка автоматизированных систем управления (АСУ) основывается на эргономическом и техническом подходах, дополняющих друг друга и направленных на решение одной и той же проблемы обработки и передачи данных. Эргономический связан с изучением работы человека на технике и созданием оптимальных условий деятельности [1-3], технический исследует функционирование техники с учетом требований обеспечения деятельности, где на передний план выступают проблемы производительности технических средств [4, 5].

Математические модели, разработанные в рамках каждой теории, воспроизводят сложные процессы деятельности и функционирования техники в определенном диапазоне условий, требований и локальных критериев. Причем одна группа фактов объясняется одной теорией, а другая - другой. Необходимо отметить, что подход, основанный на выделении подсистем «человек» и «техника», усиливает стремление проигнорировать факты одной теории в рамках другой и приводит к недостаточной проработке математических моделей подсистем «человек» и «техника». Это порождает многочисленные и трудноразрешимые проблемы совместимости математических методов исследования этих подсистем. В то же время деятельность человека и функциониро-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

вание техники в АСУ настолько взаимосвязаны, что их моделирование раздельно на уровне указанных подсистем не позволяет в полной мере исследовать деятельность операторов и функционирование техники в совместной обработке и передаче данных как целостный процесс, выявить его закономерность и свойства.

АСУ, в которой исследуется целостная технологическая среда «человек-техника», предназначена для управления объектами, функционирующими в экстремальных по времени условиях. АСУ представляет собой совокупность технических средств автоматизации и связи для обработки и передачи данных об обстановке и по функциям управления объектами, иерархической организационной структуры системы и методов управления, в которой работы должны выполняться в темпе проводимых мероприятий.

Рассматривается работа операторов на технике и функционирование техники (объект исследования) для установления закономерности совместной обработки и передачи данных операторами и техническими средствами и разработки моделей совместимости (предмет исследования), через которые объединяются (цель) математические методы исследования подсистем «человек» и «техника».

Текст научной работы на тему «Алгоритм обнаружения речевой активности на основе статистик основного тона в задаче распознавания диктора»