Анализ алгоритма кодирования аудио волны на основе спектрограмм

Жарких Александр Александрович; Павлов Илья Алексеевич

Жарких А.А., Павлов И.А. Анализ алгоритма кодирования аудио волны... УДК [621.391 + 517.443] : 004.934

Анализ алгоритма кодирования аудио волны на основе спектрограмм

А.А. Жарких1, И.А. Павлов2

1 Судоводительский факультет МА МГТУ, кафедра радиотехники и радиотелекоммуникационных систем

Политехнический факультет МГТУ, кафедра высшей математики и программного обеспечения электронно-вычислительных машин

Аннотация. Рассмотрен алгоритм кодирования аудио волны (АКАВ), а также алгоритм восстановления аудио волны после АКАВ для её хранения в стандартных форматах и воспроизведения. Описывается множество признаков, формируемых на основе АКАВ. Это множество содержит вектор модулей ординат глобальных экстремумов и вектор разностей абсцисс соседних глобальных экстремумов. Анализируется возможность использования данного множества в системе распознавания аудио сигналов. На основе различных показателей проводится сравнение исходного аудио сигнала и восстановленного после АКАВ.

Abstract. In this work the algorithm of audio wave coding (AAWC) and the algorithm of audio wave recovery after AAWC for storing this wave and its playback have been considered. The set of features extracted on the base of AAWC have been described. This set contains the vector of constant-sign intervals and the vector of global extremes on each of these intervals. The possibility of using this set in the audio signals recognition system has been analyzed. On the base of various factors the comparison of source audio signal and signal recovered after AAWC has been realized.

Ключевые слова: распознавание аудио сигналов, распознавание речи, распознавание изолированных слов, информативные признаки, анализ во временной области, алгоритм кодирования аудио волны, спектральный анализ, дискретное преобразование Фурье, спектрограмма

Key words: audio signals recognition, speech recognition, isolated words recognition, informative features, time-domain analysis, algorithm of audio wave coding, frequency-domain analysis, discrete Fourier Transform, spectrogram

1. Введение

Цель работы - количественная и визуальная оценка изменений в аудио сигнале после использования алгоритма кодирования аудио волны (АКАВ).

В работах (Лейтес, Соболев, 1969; Соболев, 2006) был предложен алгоритм кодирования речевой волны (АКРВ). Авторы алгоритма утверждали, что восстановленный после кодирования речевой сигнал имеет приемлемую разборчивость при прослушивании. Мы использовали данный алгоритм в системе распознавания изолированных слов русского языка для формирования признаков. Тестирование различных вариантов алгоритма показало изменение разборчивости анализируемого сигнала в широком диапазоне. Результаты распознавания кодированных фрагментов давали также различную точность распознавания. Эти результаты потребовали от нас более тщательного математического анализа АКРВ. В силу того, что мы стали применять этот алгоритм к различным аудио сигналам, мы перешли от авторского названия алгоритма кодирования речевой волны к АКАВ.

В данной работе коротко излагаются алгоритмы кодирования аудио сигнала и обратного восстановления на основе АКАВ. После этого описывается алгоритм распознавания (Жарких, Павлов, 2008; Павлов, Жарких, 2007), основанный на параметрах кода аудио волны. Далее приведены результаты сравнения исходных аудио сигналов с аудио сигналами, преобразованными алгоритмами кодирования и восстановления на основе АКАВ. Сравнение проводится во временной, частотной и частотно-временной областях.

2. Формирование информативных признаков на основе АКАВ

Под признаком понимается некий параметр исходного сигнала, отражающий свойство, важное для распознавания. Выделять информативные признаки аудио сигнала можно как во временной, так и в частотной области. Для получения признаков, описывающих аудио волну, применялся алгоритм кодирования аудио волны (АКАВ), использующий временное представление аудио сигнала. АКАВ осуществляет поиск глобальных экстремумов на интервалах постоянного знака аудио волны. Исходной информацией для алгоритма является массив дискретных значений аудио сигнала x = (x0, xb..., xn, ..., xL-1) и количество отсчетов L в этом массиве. На выходе алгоритм формирует два результирующих вектора:

вектор модулей ординат глобальных экстремумов y = (y1, y2,..., y, .••, yJ), где yj = max | xn | на j-ом интервале постоянного знака аудио волны; вектор разностей абсцисс соседних глобальных экстремумов t = (tb t2,..., tj, ..., J), где tj = arg y - arg y4 (величины tj выражаются в количестве шагов дискретизации кодируемого аудио сигнала). Совокупность двух указанных векторов является компактным описанием аудио волны, которая может быть восстановлена по правилу (Соболев, 2006):

x (-1)j-1 • yj-1 + (-1)j • yj j-1 yj-1 + yj (П ,Л (1)

Xn =-J—-J- + (-1)1 ■ 2 •cos(—4), (1)

2 2 tj

где i = 1..tj, j = 1..J. Таким образом, для каждого аудио сигнала получается вектор информативных признаков: (y1, y2,..., yJ, t1, t2,..., tJ), состоящий из 2J компонент. Эти признаки в дальнейшем используются при распознавании сигналов. АКАВ применялся совместно с низкочастотной Фурье-фильтрацией (Гольденберг и др., 1990), что позволило гибко управлять размером вектора информативных признаков.

3. Алгоритм распознавания аудио сигнала на основе АКАВ признаков

Для распознавания аудио сигналов использовался метод сравнения с эталонами с последующим нахождением степени сходства с эталонами. Степень сходства между аудио записями и эталонами рассчитывалась на основе алгоритма динамического программирования (Рабинер, Шафер, 1981).

На вход алгоритма подавались входной и эталонный векторы информативных признаков: (yby2,..., yi,...,Ум, t1, t2,..., tj,..., tu), (Yb Y2,..., Yj,..., YN, T1, T2,..., Tj,..., TN). Алгоритм дает возможность найти функции fy и fY , позволяющие для любого элемента входного вектора признаков найти соответствующий ему элемент эталонного вектора признаков. На основе данного алгоритма определялась степень сходства входного и эталонного векторов признаков.

Степень сходства между парами (yi, ti) и (Yj, Tj) рассчитывалась по формуле:

=

'min{yi ,Yj } min(ti,Tj }

-— • 0)l +-— • (02

max{yj, Yj} max{tj, Tj}

/Ц + ( ), (2)

где I = 1,..., М;] = 1,..., N т1, т2 - весовые коэффициенты, т1 + т2 = 1.

Алгоритм распознавания показал различную степень правильного распознавания изолированных слов русского текста. Если использовались дополнительные фильтры, то степень распознавания изменялась от 50 до 97 процентов. При кодировании АКАВ разборчивость аудио сигнала как правило ухудшалась. Однако прямой корреляции между ухудшением качества распознавания и ухудшением разборчивости при прослушивании не наблюдалось. То есть были варианты приемлемые при прослушивании и хорошие по распознаванию, но были и варианты плохие при прослушивании и хорошие при распознавании. Это и привело авторов к необходимости тщательного математического анализа результатов применения АКАВ.

4. Сравнение исходного сигнала и восстановленного после АКАВ

Для различных вариантов аудио сигналов были проведены сравнения исходных записей с записями, восстановленными после АКАВ. Сравнения проводились во временной, частотной и частотно-временной областях. Рассматривались три варианта образцов: фрагменты записей речевых сигналов фиксированного говорящего, фрагменты записей классической музыки, фрагменты записей современной музыки.

Для анализа поведения аудио сигнала часто используют спектрограммы. Спектрограмма представляет собой функцию двух переменных: время и частота. Таким образом, аудио сигнал, представляющий собой функцию времени, т.е. функцию одной переменной, преобразуется в спектрограмму являющейся функцией двух переменных.

Для визуализации речи использовалась спектрограмма на основе кратковременного преобразования Фурье. Термин кратковременное преобразование Фурье означает, что преобразование Фурье осуществляется на коротких временных участках аудио сигнала по сравнению с его длительностью. Традиционно в таком преобразовании используется специальное окно, позволяющее определенным образом сгладить данные.

Для построения спектрограммы аудио сигнал разбивается на короткие сегменты одинаковой длительности по времени. К каждому из этих сегментов применяется быстрое преобразование Фурье (естественно, аудио сигнал записан в виде дискретных отсчетов). На каждом из сегментов спектр является комплексно-значной функцией номера отсчета (или момента времени). Известно, что комплексно-значную функцию невозможно построить в одной системе координат на плоскости. Поэтому традиционно при анализе спектра строят амплитудный и фазовый спектр любого сигнала. Амплитудный спектр представляет собой модуль комплексного спектра, а фазовый - его аргумент. Спектрограмма

представляет собой объединение амплитудных спектров, вычисленных на коротких сегментах, в функцию двух переменных или матрицу.

Согласно многим источникам и самостоятельным экспериментам авторов, амплитудный спектр плохо представляется в линейном масштабе. Это плохое представление характерно как для кратковременного преобразования Фурье, так и для преобразования Фурье на более длинных реализациях. Это связано с тремя обстоятельствами: с особенностью человеческого зрения (ограниченная разрешающая способность и нелинейное восприятие изображения), с особенностями представления изображений и графиков на компьютере, а также с конкретными значениями амплитудных спектров, возникающих в процессе вычисления. Если преобразование Фурье осуществляется на длинных отрезках записи, то типичной является ситуация, когда несколько низкочастотных составляющих имеют очень большое значение, а большое количество (70-85 %) более высокочастотных составляющих имеют существенно меньшие значения и представляются как будто бы шумом. При этом отличие между максимальным значением низкочастотной составляющей и более высокочастотной составляющей может составлять несколько десятков порядков. Если преобразование Фурье осуществляется на коротких промежутках, то возможна ситуация, когда амплитудный спектр имеет некий шумоподобный характер. Выделить вклад определенных гармоник оказывается очень сложно. В частности, при сборке кратковременных амплитудных спектров в спектрограмму проявляется только часть спектральных составляющих, а большая часть теряется.

Традиционно для визуализации амплитудного спектра аудио сигнала и спектрограммы, в частности, используется логарифмическая шкала в децибелах:

S(k) = 20 • logio X(k)|, (3)

где k = 0,...,N-1, N - количество отсчетов в спектре, |X(k)| - k-е значение отчета амплитудного спектра исходного сигнала, S(k) - результирующее значение отчета амплитудного спектра. Однако эта шкала, на взгляд авторов, является неудобной, т.к. в ней неправильно обрабатываются нулевые значения амплитуд. Если значение амплитуды становится близким к нулю, но положительным, то в логарифмической шкале это соответствует большому отрицательному значению. Минимальное значение амплитуды, которое можно представить в шкале децибел, не нарушив физического смысла, равно i.

Авторы используют альтернативный способ визуализации амплитудного спектра и спектрограммы, в частности, в работах (Жарких, Коннов, 2007; Zharkikh, Pavlov, 2008). Визуализация спектрограммы проводится на основе функции гиперболического тангенса и представлена формулой:

A(r, k ) = [255 • th(a^ \xr (k )|)], (4)

где \Хг(к)\ - к-е значение отсчета амплитудного спектра сегмента г, а - параметр для управления визуализацией, А(г, к) - значение пикселя изображения спектрограммы, хранящейся в виде матрицы, в которой г - индекс столбца, соответствующий диапазону временной шкалы = 0, ЯТ, 2ЯТ,..., (^-1)ЯТ спектрограммы и к - индекс строки, соответствующий диапазону частотной шкалы ¥к = №/Ы, к = 0, 1, ..., N/2 спектрограммы, Т - период дискретизации сигнала, ^ - частота дискретизации сигнала. В выражении (4) кратковременное преобразование Фурье вычисляется согласно формуле (ЯаЬтвг, 8ска/вг, 2009):

г^-1 -]2Пкт

N

Xr (k) = ^ x(m)w(rR - m)e N , (5)

m=rR

где L - размер сегмента (в отсчетах), N - количество дискретных отсчетов, используемых для вычисления быстрого преобразования Фурье (БПФ), w(m) - окно, используемое для вычисления кратковременного преобразования Фурье, NR - количество сегментов, на которые разбивается сигнал, R -смещение сегмента (в отсчетах).

Множитель 255 выбран из тех соображений, чтобы все значения амплитудного спектра были представлены на картинке в градациях серого. К сожалению, авторы пока не разработали методику оптимального подбора параметра а и подбирают его в процессе вычисления.

Функция гиперболического тангенса преобразует интервал [0; +œ) в интервал [0; 1), поэтому любые значения амплитуды будут отображены на рисунке спектрограммы. Кроме этого, рисунок является более качественным и контрастным, чем это позволяет сделать шкала децибел. Авторы предполагают и дальше разрабатывать эту методику визуализации, т.к. результаты (Жарких, Коннов, 2007; Zharkikh, Pavlov, 2008) и данной работы показывают, что такая визуализация позволяет выявить некоторые детали и особенности спектра, что не всегда позволяют сделать другие средства.

При моделировании использовались следующие значения параметров аудио сигналов и параметров вычисления спектрограммы:

Time (seconds) Time (seconds)

Рис. 1. Фрагмент речевого сигнала, соответствующий фразе, произнесенной одним из авторов

Рис. 2. Фрагмент классической музыки, соответствующий музыкальному произведению "Менуэт",

композитор Вольфганг Амадей Моцарт

(а)

(в)

(б)

(г)

Рис. 3. Фрагмент современной музыки, соответствующий песне "What Is Love" музыканта Haddaway

Формат аудио сигнала: PCM WAV; Частота дискретизации (Fs): 22050 Гц; Число уровней квантования (разрядность): 16 бит; Окно (w(n)): окно Хэмминга; Размер сегмента (L): 512 отсчетов (23 мс); Смещение сегмента (R): 170 отсчетов (8 мс); Перекрытие сегментов (L-R): 342 отсчета (15 мс); Размер БПФ (N): 512 отсчетов (23 мс); Параметр для управления визуализацией (а): 1.

Для удобства сравнения исходного сигнала и восстановленного после АКАВ строилось изображение разности спектрограмм этих сигналов. Для амплитуд спектрограмм A\(r, k) и A2(r, k) изображение разности строилось с использованием формулы:

A3(r, k) = |Aj (r, k) - A2 (r, k )|. (6)

Несколько характерных примеров спектрограмм приведены на рис. 1-3. На всех рисунках: график (а) - исходный сигнал, график (б) - спектрограмма исходного сигнала, график (в) -спектрограмма сигнала, восстановленного после АКАВ, график (г) - разность спектрограмм исходного сигнала и восстановленного после АКАВ.

Кроме этого проводились следующие оценки, которые осуществлялись на основе метрики L2:

• Нормированное расстояние между исходным и восстановленным после АКАВ сигналом:

р(x,у) = x- у /( x + у )

(7)

в выражении (5)

x =

N -1

X x»2

m=0

где N - количество временных отсчетов, хт - значение отчета исходного сигнала, ут - значение отчета сигнала, восстановленного после АКАВ. Аналогичным образом рассчитывались \|у\\ и \\х-у\\.

• Коэффициент корреляции во временной области между исходным и восстановленным после АКАВ сигналом:

k ( x, y) = ( x, y)/(I x||-||y|| ), (8)

в выражении (6) N—

(x y) = X xm ^ •

m =0

• Коэффициент корреляции в частотной области между исходным и восстановленным после АКАВ сигналом:

K(X, Y) = Re(£ Xm • Ym") /(XII • Y|) • (9)

m=0

5. Заключение

Результаты анализа АКАВ позволяют сделать следующие выводы:

1) Сигнал, полученный в результате кодирования на основе АКАВ, требует для хранения объем памяти в 4-5 раз меньше, чем исходный сигнал.

2) Во всех случаях действие АКАВ эквивалентно пропусканию сигнала через фильтр нижних частот.

3) Во многих случаях применение АКАВ приводит также к режекции средней части спектра в области нижних частот.

4) Нормированное расстояние между исходным и восстановленным после АКАВ сигналом для аудио сигналов различного класса составляет приблизительно 0.22-0.5.

5) Коэффициент корреляции во временной области между исходным и восстановленным после АКАВ сигналом для различных типов аудио сигналов изменяется от 0.5 до 0.92.

6) Коэффициент корреляции в частотной области между исходным и восстановленным после АКАВ сигналом для различных типов аудио сигналов изменяется от -0.24 до 0.35. Такие маленькие величины связаны с изменением фазы в восстановленном сигнале и интерференцией сигналов при вычислении коэффициента корреляции.

7) Анализируя графики разности спектрограмм исходного сигнала и восстановленного после АКАВ, можно сделать вывод, что для всех трех вариантов образцов лучше всего сохраняется частотный диапазон 0-1000 Гц.

Литература

Rabiner L.R., Schafer R.W. Theory and application of digital speech processing. Prentice Hall Inc., 2009. (In preparation)

Zharkikh A., Pavlov I. Audio signal feature extraction based on the algorithm of audio wave coding. Pattern Recognition and Image Analysis: New Information Technologies: Conference Proceedings, Nizhny Novgorod, v.2, p.355-358, 2008.

Гольденберг Л.М., Матюшкин Б.Д., Поляк М.Н. Цифровая обработка сигналов. М., Радио и связь, 256 с., 1990.

Жарких А.А., Коннов Е.В. Управляемая визуализация спектра изображения. Докл. Всеросс. конф. "Математические методы распознавания образов - 13", М., МАКС Пресс, с.319-323, 2007.

Жарких А.А., Павлов И.А. Реализация программного модуля распознавания речевых сигналов. Сборник материалов VIII Междунар. конференции "Распознавание-2008", Курск, Курск. гос. техн. ун-т, ч. 1, с.158-159, 2008.

Лейтес Р.Д., Соболев В.Н. Цифровое моделирование систем синтетической телефонии. М., Связь, 120 с., 1969.

Павлов И.А., Жарких А.А. Программный модуль выделения информативных признаков речевого сигнала. Материалы 15 межрегиональной научно-техн. конференции "Обработка сигналов в системах наземной связи и оповещения", М., НТОРЭС им. А.С. Попова, с.223-224, 2007.

Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М., Радио и связь, 496 с., 1981.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Соболев В.Н. Простые алгоритмы экономного кодирования и декодирования речевой волны. Материалы 14 межрегиональной научно-техн. конференции "Обработка сигналов в системах наземной связи и оповещения", М., НТОРЭС им. А.С. Попова, с.172-174, 2006.

Анализ алгоритма кодирования аудио волны на основе спектрограмм Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жарких Александр Александрович, Павлов Илья Алексеевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жарких Александр Александрович, Павлов Илья Алексеевич

Analysis of algorithm of audio wave coding on the basis of spectrograms

Текст научной работы на тему «Анализ алгоритма кодирования аудио волны на основе спектрограмм»