Научная статья на тему 'О новом методе компрессии речевых сигналов на основе прореживания'

О новом методе компрессии речевых сигналов на основе прореживания Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
227
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
речевой сигнал / сжатие данных / прореживание / интерполяция / среднеквадратическое отклонение
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О новом методе компрессии речевых сигналов на основе прореживания»

УДК 621.391

НА ОСНОВЕ ПРОРЕЖИВАНИЯ

В статье предложен новый метод уменьшения битовых представлений речевых данных на основе прореживания. Данный метод может быть применен в любых приложения связанных с компрессией речевого сигнала, например в 1Р-телефонии. В основе метода лежат оригинальные математические методы цифровой обработки сигналов, что делает его принципиально не схожим с существующими на сегодняшний день методами сжатия речевых данных с потерями.

Ключевые слова: речевой сигнал, сжатие данных, прореживание, интерполяция, среднеквадратическое отклонение.

Введение

В современных системах IP-телефонии, конференц-связи, голосовой почты, мобильной связи и т.д. получили широкое распространение различные методы сжатия речевых данных с потерями. Подобных технологий как правило работают по следующему алгоритму: оцифрованный с помощью АЦП (аналого-цифрового преобразователя) речевой сигнал сжимается при помощи одного из методов компрессии, наиболее популярный из которых — G.723.1 — занимает полосу 5,3/6,3 Кбит/с.

Напомним, что битрейтом принято называть количество бит необходимых для кодирования секунды мультимедиа потока.

В условиях публичных сетей интернет почти все используемые в настоящее время кодеки оказались весьма восприимчивы как к задержкам, так и к потерям пакетов. Так, по оценкам MOS (Mean Opinion Score - усредненное мнение экспертов) при задержках более 150—200 мс начинается заметное ухудшение качества связи, а при «массовых потерях» IP-пакетов, когда теряется существенная часть предыстории временного ряда (оцифрованных голосовых отсчетов) в канале можно услышать характерное искажение сигнала — «бульканье». В таких случаях, как правило, применяют кодек G.711 и дополнительно используют так называемый алгоритм сокрытия потерь (PLC, Packet Loss Concealment). Но и в этом случае многие эксперты оказываются неудовлетворенны результатами работы алгоритма сжатия.

Общая характеристика современных методов сжатия речевого сигнала с потерями (кодеков) приведена в табл. 1.

Таблица1

Современные кодеки

Кодек Качество Битрейт, Кбит/c Устойчивость к потерям пакетов Задержка, вносимая кодеком, мс

G.711 высокое 64 Низкая 0,125

G.729 среднее 8 очень низкая 15

G723.1 среднее 6,3/5,3 очень низкая 37,5

GSM- FR/EFR Среднее 13/12,2 очень низкая 20

Несложно заключить, что для приближения восстановленного речевого сигнала к оригиналу существующим методам сжатия речевого сигнала с потерями необходимо увеличивать битрейт, что создает дополнительную нагрузку на каналы передачи данных и, как следствие, приводит к увеличению потери пакетов. Таким образом, необходимо снизить объем битовых представлений речевых сигналов без существенной потери субъективного качества, что позволит производить резервирование переда-

И.И.ЧИЖОВ Т.Н.СОЗОНОВА

Белгородский

государственный

университет

e-mail: chizhov@bsu.edu.ru

ваемого сигнала в режиме реального времени без дополнительной нагрузки на канал связи, т.к. степень сжатия каждого их потоков выше, и существенно снизит риск потери пакетов при передаче по сети Интернет.

Данные предложения позволяют говорить о необходимости разработки нового метода сжатия речевых данных с потерями.

Разработка нового метода сжатия речевых данных

Целью предлагаемого метода является уменьшение битовых представлений речевого сигнала за счет удаления неинформативной, в психоаккустическом смысле (т.е. удаление которых не отражается на субъективном качестве сигнала), составляющей сигнала (шумов, пауз и т.д.) со степенью сжатия в 1,5 — 2 раза превышающей аналогичный параметр у кодеков G723.1 (которые обладают наименьшим битрейтом из стандартизованных в настоящее время). Для достижения данной цели, на этапе кодирования решаются две последовательные задачи:

— прореживание исходного речевого сигнала с оставлением значимых, в психоаккустическом смысле, составляющих;

— снижение энтропии полученных последовательности путем блочной комбинации по принципу подобия выбранных в ходе решения первой задачи значений и их статистическое сжатие арифметическим методом.

Рассмотрим предлагаемый метод уменьшения битовых представлений речевого сигнала более подробно.

На первом этапе кодирования речевого сигнала осуществляется оценка первой производной по вариационному методу.

Данный метод численного дифференцирования был выбран из соображения повышения устойчивости получаемых оценок производных, так как существенным недостатком существующих подходов к численному дифференцированию сигнала по его дискретным значениям является неустойчивость получаемых оценок производных.

Повысить устойчивость оценок производных можно путем использования ва-

ад

риационного принципа минимизации квадрата евклидовой нормы || / ||2 = | /2(х)ёх

—ад

оценки первой производной аппроксимирующей функции /(^) = ёи (^)/ Л при выполнении интерполяционных условий

иг = г7(/А^) = , г = 0,1,..., N. (1)

где Аt — интервал дискретизации.

Так же, с позиций повышения устойчивости оценок производных предлагается использовать класс аппроксимирующих функций с финитными областями определения трансформант Фурье (с финитными спектрами Фурье), что вместе с тем позволяет получать устойчивые оценки производных высших порядков как результат дифференцирования частотного представления для первой производной

/^| Г(ю)ехр()ёю / 2п, О = [—О2 ,—01) и [01,О2 );0 < 01 < О2 < ад,

юеО

где предполагается, что соотношение для трансформанты Фурье первой производной Г(ю) получается в результате минимизации её нормы с учётом интерполяционных условий (1). Ясно, что правая часть последнего соотношения является дифференцируемой произвольное количество раз.

Рассмотрим более подробно математические основы метода.

Пусть в результате измерений в эквидистантных точках ti = iАt г = 0,...,N, интервала

t е [0, NАt], (2)

области определения некоторого сигнала и(£) получен набор дискретных значений сигнала

и = (и0,..., иы )т, и/ = и (/А£), / = 0,..., N (3)

где символ Т означает транспонирование.

Из соображений адекватности представляется целесообразным областью определения аппроксимирующей функции считать всю числовую ось, т.е.

— ад < £ < ад. (4)

При этом на основе физических соображений можно утверждать, что речевые сигналы являются непрерывными со всеми своими производными. Таким образом, для достижения адекватности необходимо, чтобы в любой точке области определения существовали и были непрерывными производные любого порядка, причем выполнялись неравенства

I u № )(t)

2

dt < да,к = G,1....

(5)

В основе дальнейших построений используется представление

£

и (£) = и 0 +| / (г)йТг, (6)

0

которое позволяет по оценке производной вычислить интерполирующую функцию. Очевидно, что при этом должны выполняться интерполяционные равенства вида (з).

Для повышения устойчивости вычислений оценок производных речевого сигнала по регистрируемым дискретным значениям предлагается использовать аппроксимирующие функции с финитными спектрами Фурье, которые представимы в виде

/(г) = |^(о)в^ё®, (7)

2- о

oeQ

где Q — интервал оси частот

Q = [— Q2 ,—Q1) ^ [Qj, Q2) Qj < да; Q2 < да .F (ю) — трансформанта Фурье, связанная с модельной функцией дуальным (7) соот-

ношением

+да

F(o) = | f (т)е jOTdT. (В)

Выбор области определения Q трансформанты Фурье определяется исходя из статистических свойств речевого сигнала.

Подстановка представления (7) в правую часть (6) позволяет получить соотношение для интерполирующей функции на основе трансформанты Фурье производной

. fcot ^

sin I — I jot

1 г V 2 J —

u(t) = uG H---------------I F(o)-------------------------/— e 2 do, (9)

9 7T J ft) /

G 2-Іп ' ' °2

так что условиям интерполяции (1) нетрудно придать вид

. ( со АН Л

1 г Sin V 2 J —' v /

- / F(й)4аИе 2 do= '/a,• <10>

2- J oAt

oeQ /2

где

vl = (Щ - u0),і = 1,...,N. (11)

Для отбора конкретной аппроксимации из класса (7) предлагается использовать вариационный принцип минимизации евклидовой нормы оценки производной, что также повышает устойчивость вычислений. На основе представления (7) и равенства Планшереля, этому принципу нетрудно придать вид

ад 1

| / 2(т)йт =— || Е (ю)|2 й® = тіп,

-ад 2^ ®єО (12)

Таким образом, задача сводится к поиску решения вариационной изоперимет-рической задачи, определяемой условием (12) и ограничениями вида (10). В работе показано, что искомое решение представимо в виде

. ( соДїі 1 ^ МП 1 2 і -—і р(а) Р е 2 • (13)

1 /2

когда йёО и Е(®) = 0нулю в противном случае.

Для вычисления вектора множителей Лагранжа Р = (Р.,...,Рм)т следует воспользоваться подстановкой представления (13) в левые части равенств (10). В результате нетрудно получить систему линейных алгебраических уравнений (СЛАУ), которым должен удовлетворять набор коэффициентов в (13)

Ар = V = О^..^ vN )Т •

где

1 ^2

А = К-}; ал = - {тт А

хк ) . ( хі

.БІП | — І БІП І —

\а,„?; а,.,, = — I------- ——-соб

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ж О ( х 1

х(к -1)

(14)

йх; О = ДїО , г = 1,2. (15)

V 2 у

В строгом смысле симметричная матрица с элементами вида (15) является положительно определенной. Отметим, что если интервал интегрирования в (15) удовлетворяет условию

О2 -Ц = NAt(О 2 -01) > 2ж, (16)

то определитель матрицы А будет заметно больше нуля, следовательно решение СЛАУ вида (14) будет устойчивым. Если же, в целях повышения гладкости решения, интервал интегрирования удовлетворяет условию

N (О 2 -О1) < ж, (17)

то определитель матрицы А будет близок к нулю, следовательно решение СЛАУ вида (14) будет неустойчивым. В этом случае при вычисления вектора 3 предлагается использовать псевдообратную матрицу А+.

А += 61А-^ , (18)

А = diag(Лl,...,ЯJ), \> Я2 > ... > А, > 0, ^ = ^..^ qJ) .

Отметим, что с позиций рассматриваемой проблемы неравенство (16) позволяет управлять параметрами интерполяционного процесса, чем обеспечивается его сходимость при любом шаге дискретизации At.

На основе соотношений (13) и (15) нетрудно получить вычислительную формулу для оценивания производной сигнала по его дискретным значениям

. f oAt Л

f (т) = - £ 4 ^ cos o (т - iAt2 )]o . (19)

Вследствие того, что речевой сигнал представляет собой эквидистантный набор дискретных значений и, как правило, анализируется оконным способом, то с учетом СЛАУ (14) можно получить следующую вычислительную формулу.

} = (/(гД...,/(гь ))т = БЛ+V , (20)

где

B = {bki}; k = 1,...,L; i = 1,...,N.

. f oAt Л о sin I----i I ,

ьч = h J o^b cos°(rk- iA‘A)do

h о oAt/

01 /2 (21)

Удобство применения этих формул заключается в том, что матрицы B и А могут быть вычислены заранее и многократно использоваться при обработке каждого окна анализа, что значительно ускоряет процесс вычислений.

Применение данного вариационного метода численного дифференцирования позволяет получить более точные оценки производной речевого сигнала, что способствует точному выбору экстремальных значений сигнала.

На следующем этапе обработки речевого сигнала производится сравнение нормы соседних экстремумов с пороговым значением, выбранным исходя из статистических свойств конкретного речевого сигнала с отбрасыванием значений, не превосходящих установленное пороговое значение, что позволяет отделить неинформативный сигнал от паузы

\\Y(i +1) - Y(i)|| > porog

где Y(i) — экстремумы сигнала; porog - пороговое значение.

Далее осуществляется удаление из полученной последовательности неинформативной, в психоаккустическом смысле, составляющей (шумы, погрешности регистрации и т.д.) для чего осуществляется оценка производной второго порядка полученной последовательности по вариационному методу, основанному на дифференцировании выражения для первой производной, с последующей выборкой экстремальных значений второй производной.

Продифференцировав выражение (7), получим

(р(т) = f = j JF(о)ое]атdo ,

dT 2h ®^o ’ (23)

F (o) - трансформанта Фурье.

Используя вариационный принцип минимизации евклидовой нормы производной (12) и условия интерполяции (1), получаем вычислительные формулы для оценки второй производной. Искомое выражение будет иметь вид

. f o At Л N о sin I-----i I ,

р(т)=df (т) /dT=h X a- J2——0 sin 0 (iAt2- T>do

h 1=1 01 /2 (24)

Так как оценка второй производной осуществляется в фиксированных эквидистантных значениях, нетрудно получить вычислительные соотношения

ф = (ББ1) Л+V

где

ББ1 = {(**1) „}

окАї

бій І

2

? V 2 )

(**1)к’ = ] ґоАЛ о81п

оАї

2

оАї| к - — V 2 М

(25)

Таким образом, предложенный метод оценки производных позволяет сохранить исходные значения сигнала, снизить вычислительные нагрузки за счет предварительного вычисления всех используемых матриц и многократного их использования для каждого окна анализа речевого сигнала.

На основе соотношения (25) нетрудно получить представление для квадрата евклидовой нормы предлагаемой оценки второй производной

» 4 N

12 - Г 2

Я(Д0 а=1

Ф ||2 = | ф2(т)ёт =----- ^ ДДк | ео8[юАї(і - к)/2]в1п(юАй/2)$лп(оАїк /2)ёо

Имея в виду определения (14) и предполагая неособенность матрицы с элементами (15), правую часть последнего соотношения нетрудно представить в виде

|| ф ||2 = —^-VтЛ-1ОЛ-1у /М

11 ^ " (Аг)2

где

с = к* }; gik = | біп(хі / 2) біп(хк / 2) сов(х(/' - к) / 2)ёх / п

о1

По теореме о среднем, последние соотношения можно представить в виде

02

gіk = { х2 біп( хі/2)біп( хк/2)ео8(х(і - к)/2)йХ /(х 2п) = С (і, к)* аік

, (26)

С (і, к) є [01,О 2) _

где 4 ’ ’ 15 2' — средняя точка интервала интегрирования, зависящая от сочета-

ний индексов; а'к — определяются представлениями (15).

Поэтому, имея в виду соотношение (24), нетрудно получить приближённое соотношение

|| ф||2 * (Ц + П2)/2* утЛ-'V / А( = (Ц +П2)/2*|| / ||2 <П2 || / ||2

которое показывает, что получаемая оценка второй производной будет иметь минимальную верхнюю границу евклидовой нормы.

На последнем этапе кодирования полученная последовательность представляет собой речевой сигнал, разделенный на блоки определенной длины, зависящей от статистических свойств определенного участка сигнала, что снижает энтропию выходной последовательности и способствует максимальному сжатию статистическим (арифметическим) методом.

Рассмотрим этап восстановления речевого сигнала из кодированной последовательности.

На первом этапе восстановления происходит декодирование полученной битовой последовательности по статистическому (арифметическому) методу.

На следующем этапе осуществляется восстановление речевого сигнала по полученным информативным составляющим, представленным в виде дискретных отсчетов, путем интерполяции по вариационному методу.

В основе вариационного метода интерполяции используется выражение (6), позволяющее представить функцию через ее производную первого порядка. При этом должны выполняться интерполяционные равенства вида (1)

Аналогично изложенному выше методу численного дифференцирования, полагаем, что производная интерполирующей функции должна обладать финитным спектром, то есть имеет место представление вида (7). Из соображений повышения устойчивости вычислений к воздействиям случайных ошибок измерений, а так же из соображений целесообразности построения функции с наименьшей в смысле евклидовой нормы производной скорости изменения значений для отбора интерполирующей функции используется вариационный принцип минимизации евклидовой нормы оценки производной.

Представление для интерполирующей функции после подстановки в (9) соотношения (13) принимает вид:

Вектор коэффициентов здесь должен удовлетворять СЛАУ вида (14), условия устойчивого решения которой определяются неравенством (16) .

Отметим еще одну возможность организации вычислений. Если заранее известен набор тк, к = 1,...,Ь интервала [0,], в которых предполагается в дальнейшем

вычисление интерполирующих функций. Тогда, используя (27) с учетом СЛАУ (14) можно получить следующую вычислительную формулу

В качестве интервала интегрирования в представлениях (27) и (29) предлагается использовать частотный интервал, в котором сосредоточена максимальная доля энергии отрезка речевого сигнала.

Для подтверждения работоспособности предлагаемого метода сжатия речевых данных были проведены вычислительные эксперименты на реальных речевых сигналах, полученных в условиях неидеальной шумовой обстановки, отобранных из генеральной совокупности по методу квотируемой выборки.

Стоит отметить, что в современной науке отсутствует общепринятая численная мера оценки качества звучания звукового сигнала, вместо которой применяется оценка субъективного качества на основе экспертных оценок.

Наиболее типичные из результатов экспериментов по оценке субъективного качества сжатого с потерями речевого сигнала (по десятибалльной шкале) приведены в таблице 2.

В качестве исходных файлов использовались файлы в формате .wav, с частотой дискретизации 8 кГц и глубиной дискретизации 16 бит на отсчет, т.е. с битрейтом 128 кбит/с.

Степень сжатия рассчитывалась по следующей формуле:

где Уисх - объем исходного файла в формате .wav; Усж - объем полученной после сжатия статистическим (арифметическим) методом последовательности.

и (г) = и0 +

и = (и (г),..., и (rL ))T = и 0 eL + CA+v = Rv + и 0 eL;

(28)

где

Результаты вычислительных экспериментов

Таблица 2

№ п/п Имя файла Степень сжатия Оценка субъективного качества Битрейт

1 Фраза 1 50,2 5 2,55

2 Фраза 2 51,1 5 2,50

3 Фраза 3 52,3 5 2,45

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4 Фраза 4 50,5 5 2,53

5 Фраза 5 51,9 5 2,47

Выводы

Несложно заметить, что во всех случаях степень сжатия предлагаемого метода более чем в 2 раза превысила степень сжатия у кодеков G723.1 при аналогичном субъективном качестве, что и являлось целью исследования.

В заключении стоит отметить, что приведенный в статье метод сжатия речевых данных базируется на оригинальных математических методах цифровой обработки речевых сигналов, что делает его свободным от любых нарушений авторских и патентных прав владельцев современных методов сжатия речевых данных с потерями.

Литература

1. Артюшенко, В. М. Цифровое сжатие видеоинформации и звука [Текст] : учеб. пособие / В. М. Артюшенко, О. И. Шелухин, М. Ю. Афонин ; под ред. В. М. Артюшенко. - М. : Дашков и К, 2003. - 426 с.

2. Баранов, Л. А. Квантование по уровню и временная дискретизация в цифровых системах управления [Текст] / Л. А. Баранов. - М. : Энергоатомиздат, 1990. - 304 с.

3. Витерби, Э. Д. Принципы цифровой связи и кодирования [Текст] / А. Д. Витерби, Дж. К. Омура ; пер. с англ. и под ред. К. Ш. Зигангирова. - М. : Радио и связь, 1982. - 536 с. : ил. -(Статистическая теория связи ; вып. 18).

4. Вологдин, Э. И. Слух и восприятие звука [Текст] : учеб. пособие / Э. И. Вологдин. -СПб. : СТ «Факультет ДВО», 2004. - 52 с.

5. Голд, Б. Цифровая обработка сигналов [Текст] : пер. с англ. / Б. Голд, Ч. Рейдер. -М. : Сов. радио, 1973. - 376 с.

6. Грудинин, А. С. Кодирование сигналов звукового вещания в базисе дискретного косинусного преобразования [Текст] / А. С. Грудинин, А. М. Синильников // Техника средств связи. - 1986. - Вып. 3. - С. 3-10. - (Сер. ТРПА).

7. Жиляков, Е. Г. О субполосном кодировании сигнала [Текст] / Е. Г. Жиляков, И. Г. Попов, И. И. Чижов // Вестник НТУ (ХПИ) : сб. науч. тр. - Харьков, 2004. № 46. - С. 10-20. -(Тем. вып. «Информатика и моделирование»).

8. Жиляков, Е. Г. Оптимальный синтез квантователя по уровню [Текст] / Е. Г. Жиля-ков, И. Г. Попов, И. И. Чижов / / Вестник НТУ (ХПИ) : сб. науч. тр. - Харьков, 2004. - № 46. -С. 101-106. - (Тем. вып. «Информатика и моделирование»).

9. Ковалгин, Ю. А. Цифровое кодирование звуковых сигналов : учеб. пособие [Текст] / Ю. А. Ковалгин, Э. И. Вологдин. - СПб. : КОРОНА-принт, 2004. - 240 с.

THE NEW METHOD OF SPEECH COMPRESSION BASED ON DECIMATION

In the article the new method of speech compression is given. This

I.I. CHIZHOV method can be used in such applications as IP-telephony and so on. This

T N SOZONOVA method is based on the own mathematical methods this is why it is com-

pletely different from the other methods of speech compression.

Belgorod state university

Key words: speech signal, data compression, decimation, interpola-e-mail: chizhov@bsu.edu.ru tion, the relative error.

i Надоели баннеры? Вы всегда можете отключить рекламу.