Научная статья на тему 'Алгоритм детектирования музыкальных фрагментов в задачах речевой обработки'

Алгоритм детектирования музыкальных фрагментов в задачах речевой обработки Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
171
53
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА РЕЧЕВОГО СИГНАЛА / ДЕТЕКТИРОВАНИЕ МУЗЫКИ / СЕГМЕНТАЦИЯ АУДИОСИГНАЛА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Козлов Александр Викторович, Лоханова Александра Ивановна, Симончик Константин Константинович

Проведен обзор существующих методов выделения музыкальных фрагментов в речевом сигнале. Предложен новый алгоритм детектирования на основе анализа изменения мощности спектральных максимумов. Качество детектирования музыкальных фрагментов доказано экспериментально с помощью предложенного алгоритма

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Козлов Александр Викторович, Лоханова Александра Ивановна, Симончик Константин Константинович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A review of the existing classification and separation algorithms is presented. A new algorithm based on spectral peak's power analysis is proposed. Quality of music detection with the new algorithm was proved experimentally

Текст научной работы на тему «Алгоритм детектирования музыкальных фрагментов в задачах речевой обработки»

-►

Проблемы передачи и обработки информации

УДК 621.391

А.В. Козлов, А.И. Лоханова, К.К. Симончик

АЛГОРИТМ ДЕТЕКТИРОВАНИЯ МУЗЫКАЛЬНЫХ ФРАГМЕНТОВ В ЗАДАЧАХ РЕЧЕВОЙ ОБРАБОТКИ

В различных приложениях, используемых для обработки речи, возникает необходимость обнаружения и подавления (маскирования) музыкальных фрагментов [1—3].

На сегодняшний день это особенно актуально для таких сфер применения, как задачи речевой обработки, анализ контента (Интернет, радио, телевидение), создание современных слуховых аппаратов.

Данная работа, в первую очередь, ориентирована на применение в задачах речевой обработки, таких, как идентификация и верификация диктора по голосу, распознавание речи и т. п. Для этих целей необходимо, прежде всего, выделить из входного сигнала речевые фрагменты, отбросив паузы и участки, содержащие различные виды помех. В контексте этой задачи музыка представляет собой помеху, которую необходимо детектировать и исключить из дальнейшего анализа. Таким образом, детектор музыки - неотъемлемая часть предварительной обработки сигнала, цель которой - выделение фрагментов, на которых применение алгоритмов речевой обработки является корректным.

Для других приложений музыкальные фрагменты могут, напротив, рассматриваться не как помехи, а как целевые. Тем не менее, алгоритм детектирования музыкальных фрагментов также применим и для этих задач.

Алгоритмы детектирования музыкальных фрагментов

Решается задача анализа речевого сигнала на предмет наличия музыкальных фрагментов. Предполагается, что помимо музыки речевой сигнал может также содержать речь, паузы и различного рода помехи. Необходимо провести анализ звукового сигнала и автоматически уста-

новить границы музыкальных и немузыкальных фрагментов.

Существующие методы детектирования музыкальных фрагментов. Для решения задачи детектирования музыкальных фрагментов имеется несколько подходов, опирающихся на различные признаки и применяющих различные классификаторы.

Для анализа сигнала, как правило, используется его осциллограмма, либо спектрограмма. Под понятием «спектрограмма» понимаем функцию частотно-временного представления сигнала х(т), полученную с помощью преобразования Фурье:

* 1

2 1 Иптк

Х{п,к)= + * , (1)

N

т---

2

где ^(т) - весовое окно (например, Хэмминга); N - размер окна анализа; к - шаг смещения окна; п - номер окна анализа; к - частотный индекс.

Прежде всего рассмотрим некоторые из множественных отличий, наблюдающихся между музыкальным и речевым сигналами [1].

• Наиболее известной характеристикой речевого сигнала является основной тон. Эта характеристика представляет собой частотную модуляцию сигнала. Речевой сигнал имеет единственный основной тон, тогда как музыкальный сигнал может иметь различное количество основных тонов.

• Частота основного тона человека колеблется в пределах 50-500 Гц, диапазон изменения частоты основного тона музыкального сигнала может быть значительно шире.

• Более 90 % мощности речевого сигнала находится в диапазоне до 4 кГц, музыкального - до 20 кГц.

3900 3600 3300 3000 2700 2400 2100 1800 1500 1200 ЭОО ООО 300

о

йёШш

Рис. 1. Осциллограмма и спектрограмма сигнала, содержащего речевые (слева) и музыкальные (справа) участки

• Средний спектр речевого сигнала имеет весьма специфическую форму, тогда как форма спектра музыкального сигнала может быть произвольной.

• В результате слоговой динамики речи длительность основного тона имеет малую вариативность, для музыки, напротив, характерна большая вариативность длительности тона.

• Для основного тона и гармоник речевого сигнала наблюдается плавное изменение частоты. Частота основного тона для большинства музыкальных инструментов плавно изменяться не может.

Рассмотренные различия между музыкальным и речевым сигналом нашли свое отражение в тех или иных признаках, вычисляемых для определения вида сигнала [1-7].

Наиболее часто применяются следующие признаки:

частота пересечения нуля (zero crossing rate) ZCR = 0,5¿ sgn[;c(n)] - sgn[x(n -1)]; (2)

n=l

динамика изменения спектра во времени (spectral flux)

sf = ||x - XJ; (3)

спадание спектра (roll-off)

Fi:£x2(fc) = 0,95£x2(fc); (4)

k=1 k=1 центр масс спектра (spectral centroid) К к

SC = ZkX(k)/^X(k)-, (5)

k=1 k=l кепстральные коэффициенты (cepstral coefficients);

частоты основных тонов (fundamental frequencies);

длительная активность частоты (continuous frequency activation) и пр.

Исследование различных работ свидетельствует о том, что при проведении разделения непосредственно по значениям признаков, ошибка классификации составляет не менее 15 %. Улучшение результатов классификации может быть достигнуто, если принимать во внимание некоторую совокупность признаков. Механизмы принятия решения по совокупности признаков также варьируются от простой линейной комбинации до применения нейронных сетей и прочих классификаторов. Однако в результате такого подхода алгоритмы выделения музыкальных фрагментов приобретают трудоемкость, неприемлемую для их применения как вспомогательных в приложе-

ниях, работающих в реальном времени. Также стоит отметить, что выбор эффективной комбинации признаков представляет собой непростую задачу, которая, как правило, решается перебором различных комбинаций и влечет за собой большие вычислительные затраты [1—7].

Алгоритм детектирования музыкальных фрагментов на основе анализа изменения мощности спектральных максимумов. Предпосылкой разработки данного алгоритма является то, что динамика изменения во времени спектрограммы речевого сигнала отличается по своим характеристикам от динамики изменения спектрограммы музыкального сигнала. Музыкальные фрагменты фонограммы в своем спектральном представлении имеют больше стационарных участков, чем речевые фрагменты, что приводит к появлению в спектрограмме звукового сигнала хорошо заметных горизонтальных полос (рис. 1), являющихся следствием длительных музыкальных тонов.

Подобное изменение спектрограммы можно отследить с помощью анализа динамики спектра во времени. Как правило, используется следующая статистика (spectral flux) [8]:

f-i

SF(n)= XHÍ¡X(n,k)\-\X(n-l,k)\), (6)

N

где H (x) =

x + x

- функция ограничения сигна-

ла х до области неотрицательных значений.

В данной статье предлагается использовать модифицированный алгоритм отслеживания динамики изменения спектра. Во-первых, производится предобработка спектрограммы для выделения частотных областей, содержащих пики спектральной плотности Х(п, к). Во-вторых, с целью уменьшения чувствительности алгоритма к изменениям мощности сигнала, применяется нормализация. И, наконец, отслеживаются не только положительные, но и отрицательные изменения мощности по частотным полосам спектрограммы.

Рассмотрим более подробно основные этапы вычислений алгоритма.

1) Вычисление спектрограммы. Входной сигнал предварительно приводится к частоте дискретизации 11 025 Гц. Далее, с использованием весового окна Хэмминга, вычисляется спектрограмма Х(п, к) входного сигнала. Экспериментальным путем были установлены оптимальные параме-

тры размера окна анализа (1024 отсчета), и шага окна анализа (256 отсчетов).

2) Вычитание сглаженного спектра. Для определения сглаженного спектра используется однородный фильтр, применяемый к амплитуде сигнала в частотной области:

1,-1 1 2

Тй{п,к) = ^Х(п>пш1(тах(£ +1,1),Ю), (7)

2

где параметр Ь - размерность фильтра, был выбран экспериментально равным 21.

Хетрк(п, к) = Х(п, к) - Тй{п, к). (8)

Вычитание сглаженного спектра служит для усиления слабых максимумов, что дает возможность учесть их в последующем анализе.

3) Ограничение до области неотрицательных значений:

X'(n, к) = H(Xemph(n, к))

где

H (x) =

x + x

2

(9) (10)

4) По соседним кадрам вычисляются статистики, отражающие динамику спектра: N ,

SF'(n) =

^\Х'(п,к)-Х\п-1,к)\

к=—

(11)

N_

Т

^Х\п,к) + Х\п-\,к)

. 2

С целью уменьшения чувствительности алгоритма к изменениям мощности сигнала применена нормализация на суммарную мощность сигнала по двум кадрам.

5) Далее, для выделения фрагментов, содержащих музыку, используется пороговый классификатор, срабатывающий на участках, где значение функции БГ'(п) принимает значение менее некоторого порога Я0. Для увеличения надежности, решение принималось на основании статистики значений БГ'(п), накопленной на двухсекундном интервале. Точность границ музыкальных и немузыкальных фрагментов достигается за счет перекрытия фрагментов анализа, по которым рассчитывается статистика БГ'(п).

На рис. 2 представлена схема всей системы, реализующей оценку модифицированного потока спектра.

Рис. 2. Схема работы детектора музыки на основе анализа динамики спектральных максимумов

Экспериментальные исследования детектора музыкальных фрагментов. Методика оценки качества алгоритмов детектирования музыки включает в себя подбор аудиобазы данных, применение алгоритма и расчет ошибок детектирования первого и второго рода.

Для тестирования использовалась база КМШ. 2004, включающая в себя около 1400 музыкальных записей различных жанров, ритмов и уровня громкости [2, 3], а также речевая база данных, содержащая около 1000 фонограмм.

Ошибки вычисляются следующим образом. Пусть 5 - множество всех музыкальных сег-

тип г с

FR =

Length{S'speech n Smusic) Length(S music) При этом выполняется соотношение:

Length(S S ) =

<-? 4 speech music'

= Length(S' ^ S' ) = L,

speech mus c

(13)

(14)

ментов фонограммы, Ss

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

speech

множество речевых

сегментов. Результатом работы алгоритма являются два множества сегментов, определенных алгоритмом как музыкальные S' и речевые S' ,.

mus c speech

Тогда вероятность ошибки ложного детектирования музыки (false accept rate, FAR) вычисляется как отношение общей длины фрагментов речи или шума, определенных алгоритмом как музыкальные, к общей длительности немузыкальных фрагментов на фонограмме:

Length(S'music n Sspeech)

где L - общая длина фонограммы.

Для оценки качества алгоритмов порог R0 выбирается таким образом, чтобы оценить равновероятную ошибку (Equal error rate):

EER = FR = FA.

В таблице представлены результаты сравнительного анализа наиболее популярных алгоритмов, применяемых на практике, а также предлагаемого алгоритма на основе анализа изменения мощности локальных максимумов спектра.

Сравнительный анализ алгоритмов детектирования музыкальных фрагментов

FA -

(12)

Length(S speech)

Вероятность ошибки ложного отклонения музыки (false reject rate, FRR) вычисляется как отношение общей длины фрагментов музыки, определенных алгоритмом как речевые, к общей длительности немузыкальных фрагментов на фонограмме:

Применяемые на практике алгоритмы

Признак EER

Частота пересечения нуля 19 %

Спадание спектра 21 %

Центр масс спектра 25 %

Динамика изменения спектра во времени 23 %

Предлагаемый алгоритм

Признак EER

Динамика локальных максимумов спектра 11 %

Как видно из таблицы, значение равновероятной ошибки предложенного алгоритма приблизительно в два раза ниже используемых на практике алгоритмов. Данное наблюдение подтверждает гипотезу о том, что на речевых фрагментах изменение положения спектральных максимумов происходит более динамично. Это обусловлено особенностью спектра человеческой речи, максимумы которого определяются значениями гармоник частоты основного тона, постоянно меняющегося в процессе произнесения. Большинство музыкальных инструментов (в первую очередь, струнные) не имеют возможности менять свои характеристики в процессе генерации звука, поэтому динамика спектра, оцениваемая алгоритмом, мала.

Для решения задачи детектирования музыкальных фрагментов проведен обзор существую-

щих методов. Рассмотренные методы нельзя рекомендовать для применения на практике в силу либо большой ошибки детектирования, либо неприемлемой вычислительной сложности.

В результате анализа особенностей музыкального сигнала, отличающих его от речевого, предложен новый алгоритм детектирования музыкальных фрагментов на основе динамики спектральных максимумов. Экспериментальные исследования на представительной базе показали, что предложенный алгоритм имеет большую эффективность по сравнению с существующими аналогами. Полученный уровень ошибки 11 %, а также небольшая вычислительная сложность данного алгоритма удовлетворяют требованиям реальных приложений.

СПИСОК ЛИТЕРАТУРЫ

1. Al-Shoshan, A.I. Speech and Music Classification and Separation: A Review [Текст]/А.1. Al-Shoshan//Joumal of King Saud University.-2006.-Vol. 19. -Engineering Sciences (1). -P. 95-133.

2. [Электронный ресурс] http://www.music-ir. org/mirex/2009/index.php/Main_Page MIREX - Music Information Retrieval Evaluation eXchange

3. [Электронный ресурс] http://www.ismir.net/ ISMIR - The International Society for Music Information Retrieval

4. Barbedo, J.G.A. Robust and Computationally Efficient Speech/Music Discriminator [Текст]/ J.G.A. Barbedo, A.A Lopes//Journal of the Audio Engineering Society.-2006.-Vol. 55.-№ 7/8.-P. 571-588.

5. Carey, M.J. Comparison of features for speech,

music discrimination [TeKCT]/M.J. Carey, E.S. Parris, H.A Lloyd-Thomas//In Proc. 1999 IEEE International conf. on Acoustics, Speech, and Signal Processing.-1999.-Vol. 1.-P. 149-152.

6. Scheirer, E. Construction and evaluation of a robust multifeature speech/music discriminator [TeKCT]/E. Scheirer, M. Slaney//In Proc. IEEE International conf. on Acoustics, Speech, and Signal Processing.-1997.-Vol. 1.-P. 1331-1334.

7. Widmer, G. Automatic music detection in television productions [TeKCT]/G. Widmer [et al.]//In Proc. of the International conf. on Digital Audio Effects.-2007.

8. Dixon, S. Onset detection revisited. [TeKCT]/S. Dixon//In Proc. of the International conf. on Digital Audio Effects.-2006.-P. 133-137

УДК 519.81

В.В. Крючковский, Э.Г. Петров, Н.А. Брынза

ИНФОРМАТИВНАЯ ПРЕДПОЧТИТЕЛЬНОСТЬ СТАТИСТИЧЕСКОЙ ФОРМЫ ПРЕДСТАВЛЕНИЯ ИСХОДНЫХ ДАННЫХ В УСЛОВИЯХ ИНТЕРВАЛЬНОЙ НЕОПРЕДЕЛЕННОСТИ

С незапамятных времен человечество, используя бессмертный метод проб и ошибок, интуицию и опыт, вырабатывало наилучшие решения в самых различных областях. Принятие решений в каждой реальной задаче - проблема многослож-

ная, обусловленная разнообразием объективно существующих альтернатив и ограниченная возможностями лица, принимающего решение (ЛПР).

В условиях широкого и интенсивного внедрения информационных технологий и вычисли-

i Надоели баннеры? Вы всегда можете отключить рекламу.