Научная статья на тему 'Об одном методе сжатия речевого сигнала'

Об одном методе сжатия речевого сигнала Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
154
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЕЧЕВОЙ СИГНАЛ / СЖАТИЕ ДАННЫХ / ПРОРЕЖИВАНИЕ / ИНТЕРПОЛЯЦИЯ / СРЕДНЕКВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Чижов И.И., Балабанова Т.Н., Деев И.В., Бавыкин В.В.

В статье предложен новый метод сжатия речевого сигнала на основе неэквидистантной дискретизации, позволяющий передать максимум энергии сигнала минимумом его значений. Также приведены результаты вычислительных экспериментов, показывающие сохранение частотных компонент сигнала выше частоты Найквиста при применении данной передискретизации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об одном методе сжатия речевого сигнала»

208 НАУЧНЫЕ ВЕДОМОСТИ

Серия История. Политология. Экономика. Информатика. 2011. №19 (114). Выпуск 20/1

УДК 621.391

ОБ ОДНОМ МЕТОДЕ СЖАТИЯ РЕЧЕВОГО СИГНАЛА

ИИ. ЧИЖОВ Т.Н. БАЛАБАНОВА И.В. ДЕЕВ В.В. БАВЫКИН

Белгородский государственный национальный исследовательский университет

В статье предложен новый метод сжатия речевого сигнала на основе неэквидистантной дискретизации, позволяющий передать максимум энергии сигнала минимумом его значений. Также приведены результаты вычислительных экспериментов, показывающие сохранение частотных компонент сигнала выше частоты Найквиста при применении данной передискретизации.

e-mail: chizhov@bsu.edu.ru Ключевые слова: речевой сигнал, сжатие данных, прореживание, ин-

sozonova@bsu.edu.ru терполяция, среднеквадратическое отклонение.

deev@bsu.edu.ru

bavykin@bsu.edu.ru

В настоящее время, объем аудиоданных в информационно-телекоммуникационных системах ежегодно значительно увеличивается. В первую очередь это обусловлено тем, что звук является наиболее естественной для человека формой информационного обмена, поэтому с ростом производительности информационнотелекоммуникационных систем тенденция к переходу на подобные формы обмена информацией будет только усиливаться.

Таким образом, для повышения эффективности функционирования информационно-телекоммуникационных систем необходимо существенно уменьшить объем речевых данных передаваемых по каналам связи и хранимых на локальных накопителях, для чего целесообразно решить задачу их сжатия, т.е. уменьшения битовых представлений данных этого типа.

Стоит отметить, что современные методы сжатия речевых данных, несмотря на их значительную эффективность, уже достигли некоторого предела степени сжатия и дальнейший рост этого показателя не наблюдается уже порядка 10 лет, кроме того, все они обладают рядом несовершенств, таких как умышленная подмена естественного речевого сигнала, его синтетическим аналогом, являющимся результатом восстановления коэффициентов некой модели линейного предсказания, адекватность которых как в отечественной, так и в зарубежной литературе доказана не была.

Таким образом, актуальность данного направления исследований обусловлена, необходимостью создания новых методов сжатия речевых данных на новых теоретических основах, что позволит не только увеличить существующие степень сжатия, но и освободиться от обозначенных выше несовершенств. Одним из подобных подходов является применение неэквидистантной дискретизации сжимаемых сигналов, с целью передачи максимума энергии сигнал минимумом его значений. Стоит отметить, что в этом случае сжатый сигнал является «естественным», т.е. представляет собой исходный сигнал с отброшенными компонентами, суммарная энергия которых незначительна по сравнению с суммарной энергией сохраненных компонент сигнала.

Разработка нового метода сжатия речевых данных

Для поиска энергетическизначимых отсчетов сигнала необходимо принять во внимание, что энергия сигнала вычисляется по формуле (1).

гЫ

(1)

где x(t) - это отсчеты сигнала.

НАУЧНЫЕ ВЕДОМОСТИ

Серия История. Политология. Экономика. Информатика. 2011. №19 (114). Выпуск 20/1

209

Достаточно очевидно, что для передачи максимума энергии сигнала минимумом значений необходимо, чтобы для каждого выбираемого нами отсчета сигнала x(t0) выполнялось условие:

Пусть t,U 0 '+ ' г "L 'r S)r'"0 (2),

Для поиска, x(t0) представляется целесообразным применить лемму Ферма, говорящую о том, что необходимым и достаточным условием того, что t =t0 будет выполнение условия (3) :

Подобный метод дискретизации сигнала по его энергетическизначимым компонентам позволяет передать максимум энергии сигнала, минимумом отсчетов, что позволят уменьшить объем битового представления сигнала без существенного снижения субъективного качества восстановленного сигнала.

При восстановлении прореженного сигнала могут быть использованы различные методы интерполяции: полиномиальная, сплайн-интерполяция. Стоит отметить, что для решения задачи интерполяции сигнала по неэквидистантно расположенным узлам интерполяции предлагается новый вариационный метод интерполяции, являющийся обобщением вариационного метода интерполяции для эквидистантного случая. Отметим, что при применении вариационного метода интерполяции погрешность восстановления сигналов, дискретизованных неэквидистантно уменьшается по сравнению с применением кубических сплайнов.

Формулировка задачи:

Пусть имеется N+1 эквидистантных отчетов.

U = U (tk) = U (Ш), k = 0,1,..., N

(4)

В процессе обработки на основании некоторого критерия выбираются для передачи (или хранения) г отсчетов.

M = I + 2,

где I - определяется адаптивно. При этом всегда оставляются U0 и Uw , так, что сохраня-

ется вектор

Z = (Z0 , Z1,..,ZI,ZM ) ,

Z 0 = U0; ZM = UN .

Для остальных компонент выполняется условие принадлежности множеству необходимых отчетов, т.е.

Zk g{U3,...,Un_1},k = 1,...,I,

Причем имеется ввиду, что если Zk = Ui(k), Zk+r = UI (k+r), то i(k) < i(k + r).

Здесь символ i(m) означает получаемое в процессе прореживания соответствие индексов исходной эквидистантной последовательности отчетов индексам выборки из нее, причем имеет место равенства iO=0MN

Положим

Zk =i(k )At (5)

V (6)

(7)

u (t) = T -~U 0 + j f(y)dy, (8)

0

где f(y) - имеет смысл производной.

210 НАУЧНЫЕ ВЕДОМОСТИ

Серия История. Политология. Экономика. Информатика. 2011. №19 (114). Выпуск 20/1

Тогда для компонент (6) вектора (7) должны выполняться равенства

Vr = J f (y)dy, r = 1,..., M.

(9)

^—1

Для аппроксимации производной воспользуемся классом функций с финитной областью трансформанты Фурье.

Положим

. Q

f (У) = — JF(ay»da, 2n—□

(10)

причем из этого класса отбираем функции, удовлетворяющие минимальной норме оценки производных.

Так что должно выполняться условие

» л Q 2

J f 2(y)dy = — J|F(o)\ da

= min.

(11)

Подстановка представления (10) в (9) позволяет получить соответствующее ограничивающее условие

1 Q j Ф Tr j Ф Тг ,

\ г eJ r — eJ r 1

— J F (a)-----------da = Ur. (12)

In—q jo

Соотношения (11) и (12) определяют вариационную изопериметрическую задачу, общее решение которой имеет вид:

F (Ф) = — ZA

— g-jWTk —e jWTk—1

-. (13)

к=1 —jo

Подстановка этого выражения в равенства вида (12) позволяет получить систему линейных алгебраических уравнений относительно вектора множителей Лагранжа

(14)

где

am = kk jr, k = U.M,

aM =

1 Q (ejaTr—ejaTr—i)(e-jaTk—e-jaTk—1)J (15)

1 da.

2n

—Q

a

Имея ввиду соответствие (5), полагая л - /'ФсС = С. Уг.

Представление (15) можно переписать в виде

At Q (ejxi(r) — ejxi(r—1) )(e~jxi(k) — e—jxi(k—1))

aM =

urk

2n

dx.

x

После преобразований в подынтегральном выражении нетрудно получить соотношение

M

At Q ejx^i(r)—i(k)] — ejx^i(r)—i(k—1)] — ejx^i(r—1)—i(k)] + ejx^i(r—1)—i(k—1)]

At (•<

2n J

dx.

x

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ввиду симметрии интервала интегрирования по x окончательно имеем

Q

Q

НАУЧНЫЕ ВЕДОМОСТИ

Серия История. Политология. Экономика. Информатика. 2011. №19 (114). Выпуск 20/1

211

aM = ark

At Q cos[x[i(r) - i(k)]] At Q cos[x[i(r) - i(k -1)]]

At г I

2к J

x

dx----[

к l

-dx +

x

+

At Q cos [x[i(r -1) - i(k)]] At г cos[x[i(r -1) - i(k -1)]]

At Г i

к J

x

dx + — [ к i

dx

Положим

b = — f mn q j

At Q cos[x(m - n )]

dx.

(16)

x

Тогда как легко показать выполняются равенства

ark = bi(r),i(k) - bi(r),i(k-1) - bi(r-1),i(k) - bi(r-1),i(k-1) , r, k = A”,M.

aM

Т.е. для rk можно воспользоваться соответствующими значениями компонент матрицы В, которые заранее рассчитаны.

При выполнении условия

AQ^>2k

Матрица Аm будет не особенной, так что решение (14) имеет вид

Р=4МУ. ц

Восстановление пропущенных отчетов исходной последовательности осуществляется на основе (8), так что с учетом (4) выполняется равенство

, q

U (iAt) = U0 +— f F (a)

2к ("i

jaAt+i

- 1

da,

-q ja

так что с учетом равенства (13) получаем

м 1' Q(ojAtai iv -ja4 _ -jWTk-1 \

U(iAt) = Uо + £& — f 1------------)(-1------------ida

— 2к J ™

k=1

0

2

x

0

q

или

U (iAt) = Uо + £ CM pt.

k=1

где

гм — 1 f * = 2к J

Q jaAt (i-i(k)) ja.At (i-i (k-1)) - jaAt+i(k) . - jaA+i(k-1)

1q

г e

- e

- e

+ e

2

-da.

a

Полагая x = Ata, с учетом симметрии области интегрирования относительно начала координат нетрудно получить

CM = At Q cos[x[i - i(k)]]^ At Q cos[x[i - i(k - 1)]]й

1 к J v2 7Г J V2

к

At Q cos[x[i(k )]], Q cos[xi (k - 1)]

к о x

Цdx + f

dx

Таким образом, имеем

CiX b; bi bn ^ + bd

(17)

■'ik ui,i(k) tyi,i(k-1) ty0,i(k ) u0,i(k-\)’>

Т.е. элементы соответствия также можно вычислить согласно (17), используя выборочные значения элементов матрицы В вида (16).

г

о

о

2

x

о

212 НАУЧНЫЕ ВЕДОМОСТИ

Серия История. Политология. Экономика. Информатика. 2011. №19 (114). Выпуск 20/1

Таким образом, неэквидестантная дискретизация может быть успешно применена в алгоритмах сжатия звуковых сигналов.

Для демонстрации эффективности неэкидистантной дискретизации были проведены серии вычислительных экспериментов. Сравним типичные результаты, полученные при передискретизации речевого сигнала в 2 раза и при неэквидистантной дискретизации.

x 10

Рис. 1. Сигнал передискретизированный в 2 раза (среднеквадратическое отклонение 0,4089)

50

100

150

t,c

0

Рис. 2. Сигнал передискретизированный неэквидистантно (среднеквадратическое отклонение 0,2641)

Стоит отметить, что количество отсчетов, сохраняемых в обоих случаях примерно одинаково. Если взглянуть на спектр сигнала прореженного эквидистантно в 2 раза, то несложно заметить что теряется часть спектра выше У частоты дискретизации^й), что представлено на рис. 3.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

НАУЧНЫЕ ВЕДОМОСТИ

Серия История. Политология. Экономика. Информатика. 2011. №19 (114). Выпуск 20/1

213

Начиная с У Бд спектр

обраща зтся Е нол ь

t т

М' У и - ..Л. - -JV k-

f-Гц

x 10

6

5

4

ш 3

2

0

Рис. 3- Спектр исходного (синий) и восстановленного (зеленый) сигналов, при передискретизации в 2 раза

Вместе с тем спектр того же сигнала, дискретизованного неэквдистантно, демонстрирует сохранение ширины спектра и потеря энергии незначительна даже в области высоких частот, что можно увидеть на рис. 4.

6 5 4

ш 3 2 1 0

0 500 1000 1500 2000 2500 3000 3500 4000

f,m

-4

x 10

U ’ Ал^/чЛ 1/Ал

Рис. 4- Спектр исходного и восстановленного сигналов, при неэквидистантной дискретизации

Выводы

Таким образом, несложно заметить, что применение неэквидистантной дискретизации по энергетическизначимым компонентам сигнала позволяет гарантированно сохранить (с некоторой потерей энергии) спектральные компоненты сигнала с частотами выше У исходной частоты дискретизации^й), т.е. частоты Найквиста, что невозможно гарантировать при эквидистантной дискретизации. Данное утверждение подтверждается не только визуальным сравнением спектров исходного и прореженных сигналов, но и полученными среднеквадратическими отклонениями прореженных сигналов от исходного сигнала.

214 НАУЧНЫЕ ВЕДОМОСТИ

Серия История. Политология. Экономика. Информатика. 2011. №19 (114). Выпуск 20/1

Литература

1. Артюшенко, В. М. Цифровое сжатие видеоинформации и звука [Текст] : учеб. пособие /

B. М. Артюшенко, О. И. Шелухин, М. Ю. Афонин ; под ред. В. М. Артюшенко. - М. : Дашков и К, 2003. - 426 с.

2. Баранов, Л. А. Квантование по уровню и временная дискретизация в цифровых системах управления [Текст] / Л. А. Баранов. - М. : Энергоатомиздат, 1990. - 304 с.

3. Витерби, Э. Д. Принципы цифровой связи и кодирования [Текст] / А. Д. Витерби, Дж. К. Омура ; пер. с англ. и под ред. К. Ш. Зигангирова. - М. : Радио и связь, 1982. - 536 с. : ил. - (Статистическая теория связи ; вып. 18).

4. Вологдин, Э. И. Слух и восприятие звука [Текст] : учеб. пособие / Э. И. Вологдин. -СПб. : СТ «Факультет ДВО», 2004. - 52 с.

5. Голд, Б. Цифровая обработка сигналов [Текст] : пер. с англ. / Б. Голд, Ч. Рейдер. - М. : Сов. радио, 1973. - 376 с.

6. Грудинин, А. С. Кодирование сигналов звукового вещания в базисе дискретного косинусного преобразования [Текст] / А. С. Грудинин, А. М. Синильников // Техника средств связи. -1986. - Вып. 3. - С. 3-10. - (Сер. ТРПА).

7. Жиляков, Е. Г. О субполосном кодировании сигнала [Текст] / Е. Г. Жиляков,

8. И. Г. Попов, И. И. Чижов // Вестник НТУ (ХПИ) : сб. науч. тр. - Харьков, 2004.

9. № 46. - С. 10-20. - (Тем. вып. «Информатика и моделирование»).

10. Жиляков, Е. Г. Оптимальный синтез квантователя по уровню [Текст] / Е. Г. Жиляков, И. Г. Попов, И. И. Чижов // Вестник НТУ (ХПИ) : сб. науч. тр. - Харьков, 2004. - № 46. -

C. 101-106. - (Тем. вып. «Информатика и моделирование»).

11. Ковалгин, Ю. А. Цифровое кодирование звуковых сигналов : учеб. пособие [Текст] / Ю. А. Ковалгин, Э. И. Вологдин. - СПб. : КОРОНА-принт, 2004. - 240 с.

THE NEW METHOD OF SPEECH COMPRESSION

I.I. CHIZHOV T.N. BALABANOVA I.V. DEEV V.V. BAVYKIN

Belgorod National Research University

e-mail: chizhov@bsu.edu.ru sozonova@bsu.edu.ru deev@bsu.edu.ru bavykin@bsu.edu.ru

In the article the new algorithm of nonequidistant sampling is given. The mail idea of the method is to save the maximum part of signal energy by minimum number of digits. The results of experiments which proves the theoretical ideas are also given.

Key words: speech signal, data compression, decimation, interpolation, sampling.

i Надоели баннеры? Вы всегда можете отключить рекламу.