Научная статья на тему 'О сжатии речевых сигналов'

О сжатии речевых сигналов Текст научной статьи по специальности «Математика»

CC BY
620
77
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О сжатии речевых сигналов»

УДК 621.391

Е.Г. ЖИЛЯКОВ, д-р техн. наук, БелГУ (г. Белгород, Россия),

С.П. БЕЛОВ, канд. техн. наук, БелГУ (г. Белгород, Россия),

Е.И. ПРОХОРЕНКО

О СЖАТИИ РЕЧЕВЫХ СИГНАЛОВ*

У статті запропоновано один з шляхів рішення проблеми зменшення об‘єму при бітовому представленні звукових даних. Це - комплексний метод, який досягнуто завдяки застосуванню основаному при видвіженні на перший план та кодуванні сигналів звуку та пауз за допомогою моделей авторегресії з наступним сжиманням сигналу за допомогою субполос кодування.

In article is offered one of the ways of decision a problem of reduction of volume of bit presentation voice data. This is the complex method reached by using, founded on highlighting and coding in input an voice a signal a pause with the help of models an autoregression with the following compression of signal by means of sub-band of coding.

Постановка проблемы. Одна из главных целей исследований свойств речевых сигналов - определение возможности уменьшения объемов кодированных речевых данных без ухудшения качества воспроизведения речи. Данная задача представляет интерес как в контексте уменьшения скорости передачи для данной ширины полосы передачи в системах телекоммуникаций, так и для записи звуковых файлов, содержащих речевые данные, на жесткие носители информации.

Анализ литературы. Речевые сигналы представляются посредством речевых данных, под которыми, в контексте данной работы, понимается результат кодирования звуков речи с помощью некоторых методов. В современных цифровых системах речевые сигналы представляют в дискретном виде и сохраняют, в соответствии с некоторыми правилами, значения дискретных отсчетов. В процессе записи исходные речевые данные должны быть преобразованы таким образом, чтобы сократить объем их битового представления.

При записи речевых данных в файл сокращение объема может быть достигнуто за счет кодирования пауз, объем которых в речевых данных значителен [1]. Кодирование пауз заключается в определении интервала, на котором отсутствуют звуки речи, фиксации начала этого интервала и его длительности. Кроме того, для воспроизведения речи с комфортным звучанием необходимо определить некоторые параметры этого интервала, например значения математического ожидания и наименьшего среднеквадратичного отклонения. Очевидно, что длительность пауз между

* Работа финансировалась в рамках гранта Белгородского государственного университета.

словами, фразами зависит от дикторов. Кроме того, известно, что речь состоит из фонем перемежающихся паузами, которые так же целесообразно кодировать. Например, в системах IP-телефонии и мобильной связи применяются кодеры с переменной скоростью кодирования речевого сигнала, в основе которых лежит классификатор входного сигнала, который выделяет во входном речевом сигнале активную речь и паузы, определяющий степень его информативности и, таким образом, задающий метод кодирования и скорость передачи речевых данных. Наиболее простым классификатором речевого сигнала является детектор активности речи (VAD - Voice Activity Detector), который выделяет во входном речевом сигнале активную речь и паузы. Фрагменты, классифицированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0,1 - 0,2 кбит/с) или не передаются вообще. В некоторых случаях целесообразно более детально осуществлять классификацию фрагментов, соответствующих активной речи [2, 3].

Другим методом сокращения объема речевых данных может служить субполосное кодирование, с помощью которого осуществляется сжатие речевого сигнала за счет учета его частотных свойств. То есть при неравномерном заполнении частотного диапазона за счет разделения сигнала на субполосы возможно уменьшить суммарное число бит, отводимых на кодирование сигнала. При этом погрешность в смысле дисперсии ошибки восстановления не должна быть большой [4, 5].

Цель статьи. В данной работе рассматривается проблема сжатия речевых данных. При этом основное внимание уделяется задаче обнаружения и кодирования пауз. Кроме того, на уровне экспериментальных исследований оценивается возможность сжатия данных с исключением пауз на основе субполосного кодирования [6].

1. Основы метода обнаружения пауз

Пауза в речевом сигнале - отрезок, содержащий более или менее нерегулярные случайные изменения, т.е. процесс, который можно отнести к классу случайных. Если принять, что вероятностная структура паузы не изменяется со временем, то тогда сигнал можно считать случайным стационарным процессом.

Сигнал, соответствующий звукам, не является стационарным, так как формируется при активном воздействии речевого аппарата. Процедура обнаружения пауз может быть основана на принципе обнаружения отличий характеристик сигналов на данном интервале по сравнению с характеристиками сигнала в паузе.

Для описания характеристик сигнала в паузе, в данной работе используется модель авторегрессии [7], или стохастическое разностное уравнение, которое можно представить следующим образом:

р

у(п) - т ="^ак (у(п - к) - т) + а0и{,

к=1

где т - математическое ожидание у(п); щ - некоррелированная последовательность с единичной дисперсией и нулевым математическим ожиданием; сто - параметр, определяющий уровень среднеквадратичной погрешности предсказания на основе линейной комбинации вида:

Отрезки речевого сигнала, которые не относятся к паузе, будут отличаться по структуре от сигнала в паузе, т.е. для каждого звука адекватна своя модель генерации, возможно отличная от модели авторегрессии. Таким образом, можно сформулировать следующие гипотезы:

Н0: отрезок сигнала генерируется по схеме (1) с известными параметрами ак, т, сто, р.

Н: отрезок сигнала генерируется по схеме, отличной от (1).

Для проверки этих гипотез необходимо ввести решающую функцию (РФ). В данной работе были использованы результаты, полученные в [8], где найдена, не имеющая мертвых зон векторная решающая функция Хи(г), в качестве компонент которой используются статистики максимальной чувствительности:

р

(2)

(3)

к=1

к=1

(4)

5'і(т) = ^г(к)2(к + і -2), і = 3, ...,т ,

(5)

к=1

где 2(і) последовательность вида

р

(6)

к=0

Соотношения для границ доверительных интервалов РФ имеют вид

аі (т) = -Ьі (т), Ьі (т) = к4т-і + 2 ,

(7)

где к - некоторый коэффициент.

Реально модель авторегрессии и ее параметры неизвестны, и их можно только оценить по значениям реализаций случайных последовательностей. В данной работе рассматривается один из возможных подходов к решению этой задачи с применением принципа адаптации к реализациям пауз речевых сигналов, используемых при формировании звуковых файлов. Для оценки параметров модели (1) используется метод наименьших квадратов [9].

2. О субполосном преобразовании речевых сигналов

—^

Пусть далее х = (х ,...Хл? )Т - вектор, компоненты которого

представляют собой вещественнозначные отсчеты речевого сигнала на

некотором интервале регистрации так, что индексы однозначно связаны с

моментами эквидистантной дискретизации.

Соответствующими большими буквами будем обозначать трансформант Фурье

N

Х(у) = £ х^-1(к-1» , (8)

к=1

где V - нормированная круговая частота,

V = юД = 2л/Д, (9)

где / - частота в герцах, а Д - длина интервала временной дискретизации речевого сигнала, которая предполагается эквидистантной.

Известно [2], что модуль спектра речевого сигнала обладает рядом особенностей, среди которых отметим:

- наличие максимумов, которые соответствуют почти периодическим компонентам (основной тон и форманты);

- нестационарность (изменчивость), которая обусловлена различиями генерации сигнала в зависимости от произнесенного звука;

- хорошей повторяемостью формы в случае произнесения одного и того же звука.

Поэтому для анализа речевых сигналов достаточно широкое распространение получил подход на основе так называемого кратковременного спектра, когда вычисляется последовательность квадратов модулей вида

Х „ (V, )|2 =

-Лк-гН

к=1

где V, - конкретное значение частоты из некоторого множества, например

2

ж

V = (,-1)8, 8=-; г = 1, 2, ... , N - М.

г ь,

Здесь М - длина интервала анализа. При выборе М ищется компромисс между стремлением, с одной стороны, иметь возможность отделить проявления компонент с различными квазипериодами (частотное разрешение, которое при неизменности характеристик улучшается с ростом М), а, с другой стороны, учитывается существенная нестационарность сигнала, связанная с неизбежной сменой произносимых звуков. Заметим, что артикуляция гортани меняется и при генерации одного и того же звука.

На основе вычисления (10) строятся двумерные графики, ось абсцисс которых представляет собой временные отсчеты (г), а ось ординат - отсчеты частоты V,.

Эти графики принято называть спектрограммами. В настоящее время процедура их создания реализована в виде программной поддержки, что свидетельствует о востребованности такого анализа.

Отметим, однако, что более целесообразно вычислять значения интегралов вида:

Рг,М,г = ||Хг,М М|2 ;

VEVІ

(12)

(13)

Имеются в виду доли энергии анализируемого отрезка сигнала, которые сосредоточены в частотных интервалах вида (13).

Нетрудно доказать [10] справедливость представления

где Уг,М = (хг ,...ХХг+М-1)Т ; Аг =1р'т,п } т,п = 1,...,М I

ж(т - п)

у2г Чг

(14)

(15)

Отметим, что представление (14) позволяет вычислять значения интеграла вида (12) в области трансформант Фурье.

П = < п,т

т = п

ж

Таким образом, соотношение (14) представляет собой новый инструмент, позволяющий анализировать спектральные плотности отрезков речевых сигналов.

Очевидно, что соотношение (14) позволяет модифицировать спектрограммы, которые будут более адекватны процессу слухового восприятия звука.

С позиций сжатия битовых представлений отрезков сигналов существенной является возможность пренебречь частью частотных составляющих, энергии которых малы (в относительном смысле). При этом важно осуществить переход от векторов отсчетов во временной области уг м

к векторам ууг м , которые непосредственно отражают свойства в различных

интервалах оси частот (субполосное кодирование).

Положим:

*г,М,, = В,УгМ ’ (16)

где В, =Ь„т } т = 1,...:/М; п = 1,...°;

= М(у„ - у„) ; (17)

О, (-1)п Єіп(у2г • п) + 8ІП(у1г • п)

------, т Ф по

пО, - т £

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

— (у2, - У1,) соь(пОуь), т = пО,. п

Можно доказать справедливость утверждения

|\угм (у) - 2г,м (О,у) 2 іїу = тіп І \УгМ (у) - ^(О,у)| 2 dу, (18)

где W(О,у) - спектр любого другого вектора той же, что и ?гМ, размерности.

Иными словами, спектр вектора 2Г М, является наилучшим приближением в смысле евклидовой нормы разностей для спектра исходного вектора угМ в выбранном частотном интервале и в этом смысле вектор вида

(16) является оптимальным.

Если теперь выбрать разбиение оси частот на Ь непересекающихся интервалов вида

п

п

Уп = 0, У2,г = У1,г+1, I = 1, 2, ..., I,

(19)

то вектор

м = ВВ • Л

гг м Д^-'^гЖ ,£

(20)

где ВВ - блочная матрица размерности М х М ,

ВВ =

В,

V Вь у

(21)

будет оптимальным в смысле возможности наилучшей аппроксимации исходного спектра в каждом из частотных интервалов (в смысле (18)).

Соотношение (21) естественно называть субполосным преобразованием. Важно, что в виду неособенности матрицы ВВ имеет место обратная операция, то есть:

ям = ВВ 1 2^г,м • (22)

Иными словами, соотношения (20) и (22) представляют собой прямое и обратное субполосное преобразование.

Если теперь, исходя их некоторых соображений (например,

энергетических), в векторе 22гм обнулить часть компонент, то это будет способствовать сжатию данных, тогда как представление (22) позволит восстановить исходный вектор.

3. Экспериментальное исследование эффективности сжатия

Для оценки работоспособности предложенного метода определения в речевых сигналах отрезков, соответствующих паузам между словами, фразами и фонемами были проведены вычислительные эксперименты.

В виде файлов речевых данных была записана лекция, прочитанная двумя различными дикторами.

С использованием разработанных прототипов программных средств, позволяющих реализовывать предложенный выше метод кодирования пауз, в каждом файле речевых данных был выделен отрезок данных, достоверно соответствующий отсутствию речевого сигнала, и определены оценки параметров модели (1). С использованием этих оценок вычислялась решающая функция S2(x) (4).

Таблица

Объем, Мбайт Качество воспроизведения после декодирования

Исходный файл Файл с закодированными паузами Файл, полученный в результате субполосного кодирования

6,25 3,52 0,46 Неразборчиво

0,76 Низкое

1,3 Слова разборчивы, но приходится незначительно напрягать внимание

1,9 Высокое

5,24 3,86 0,53 Неразборчиво

0,85 Низкое

1,38 Слова разборчивы, но приходится незначительно напрягать внимание

2,14 Высокое

Выбор значений т и к осуществлялся исходя из принципа максимальной чувствительности к отличию отрезка сигнала от паузы. Это позволяет, до определенной степени, гарантировать отсутствие искажений данных, относящихся к отрезкам, соответствующим звучанию голоса. Искажения возникают при ошибочном исключении таких данных. Вместе с тем, основной целью является исключение максимального объема данных, относящихся к паузам. Представляется, что этим требованиям будет отвечать РФ, значения которой в паузе близки к границам вида (7), но пересекают их с заданной вероятностью ложной тревоги, уровень которой, в свою очередь, гарантирует малую степень искажений речевых сообщений. В соответствии с выражением (7) качество процедуры обнаружения и удаления пауз будет зависеть от длины отрезка т и параметра к. Экспериментально установлено, что при выборе т порядка 3 и к порядка 30 обеспечивается приемлемая степень искажения речевых сообщений и регистрируется достаточный объем данных, соответствующий паузам.

Если значения РФ на /-м интервале не превышали пороговых значений (7), то значения дискретных отсчетов речевых сигналов на данном интервале удалялись, а пауза кодировалась значениями номеров начальных отсчетов и длительностью. Случаи отнесения к паузе отрезков, длина которых меньше некоторой, игнорировались, так как в противном случае при воспроизведении

речи появляются шумовые эффекты в виде тресков. Таким образом, формировались последовательности, представляющие собой речевые данные, не содержащие отрезков, соответствующих паузам речевого сигнала.

Сжатие оставшихся битовых представлений сигналов производилось посредством субполосного кодирования с различным числом обнуляемых компонент, что оказывало существенное влияние на качество воспроизведения восстановленного сигнала. Качество воспроизведения речи, полученной после восстановления речевых данных, оценивалось несколькими независимыми экспертами. В таблице приведены количественные значения объемов файлов речевых данных, полученных на различных этапах сжатия. При этом можно обеспечить изменение коэффициента сжатия в широких пределах.

Выводы. Результаты вычислительного эксперимента свидетельствуют о том, что предлагаемый комплексный метод позволяет уменьшать объем файлов речевых данных от пяти до десяти раз при сохранении высокой степени качества воспроизведения речевых сообщений.

Список литературы: 1. Росляков А.В., Самсонов М.Ю., Шибаева И.В. 1Р-телефония. - М.: Эко-Тредз, 2001. - 250 с. 2. Шелухин О.И., Лукьянцев Н.Ф. Цифровая обработка и передача речи. - М.: Радио и связь, 2000. - 456 с. 3. Артюшенко В.М., Шелухин О.И., Афонин М.Ю. Цифровое сжатие видиоинформации и звука. - М.: Издательско-торговая корпорация "Дашков и К", 2003. - 426 с. 4. Сергиенко А.Б. Цифровая обработка сигналов. - СПб.: Питер, 2005. - 752 с. 5. Смоленцев Н.К. Основы теории вейвлетов. Вейвлеты в Ма1ЪаЬ. - М.: ДМК Пресс, 2005. - 200 с. 6. Жиляков Е.Г., Попов И.Г., Чижов И.И. Программный комплекс сжатия-восстановления звуковых файлов при передаче по каналам Интернет. - Свидетельство № 4314 об отраслевой регистрации разработки от 22 февраля 2005 года. - Федеральное агентство по образованию. 7. Андерсен Т. Статистический анализ временных рядов. - М.: Мир, 1976. - 760 с. 8. Жиляков Е.Г., Шпилевский Э.К. Статистики максимальной чувствительности в задаче обнаружения изменений параметров процессов авторегрессии // Заводская лаборатория. - 1992. - № 7 - С. 31 - 34. 9. Жиляков Е.Г., Корсунов Н.И., Лагода Д.П. Методы и алгоритмы обработки экспериментальных данных в атомно-абсорбционной спектрометрии. - К.: Наукова думка, 1992. - 122 с. 10. Жиляков Е.Г., Попов И.Г., Чижов И.И. О субполосном кодировании сигнала // Вестник НТУ "ХПИ", 2004. - № 46. - С. 10 - 19.

Поступила в редакцию П.10.2005

i Надоели баннеры? Вы всегда можете отключить рекламу.