щ
ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ
УДК 621.391.037.372
СЖАТИЕ РЕЧЕВЫХ ДАННЫХ НА ОСНОВЕ ПРОРЕЖИВАНИЯ РЕЗУЛЬТАТОВ ОПТИМАЛЬНОЙ ЛИНЕЙНОЙ ЧАСТОТНОЙ ФИЛЬТРАЦИИ
Е.Г.ЖИЛЯКОВ А.В. БОЛДЫШЕВ НА. ЧЕКАНОВ
Белгородский
государственный национальный исследовательский университет
e-mail: [email protected]
В статье изложен подход к сжатию речевых данных на основе прореживания результатов оптимальной линейной фильтрации речевого сигнала. Приведены результаты вычислительных экспериментов по оценке эффективности предлагаемого подхода.
Ключевые слова: информационно-телекоммуника-
ционные системы, сжатие речевых данных, оптимальная линейная фильтрация, заданная доля энергии.
Введение.
Информационный обмен является важнейшим средством развития общественных процессов, включая производственные силы. Одной из наиболее удобных и естественных форм информационного обмена для человека являются речевые конструкции (речевые сообщения). Реализация информационного обмена речевыми сообщениями, включая их архивное хранение и передачу, осуществляется с помощью компьютерных технологий. При этом речевые сигналы хранятся и передаются в виде некоторых кодовых комбинаций, совокупность которых естественно называть речевыми данными. Совокупность бит, используемых для кодирования речевых данных, называется объемом битовых представлений.
Одной из основных проблем современных информационно-телекоммуникационных систем является ограниченность их ресурсов, необходимых для реализации информационного обмена, а именно пропускной способности для передачи данных и объемы памяти жестких носителей для хранения.
Поэтому не вызывает сомнения необходимость выбора такого способа кодирования, который обеспечивает минимум объемов битовых представлений хранимых и передаваемых данных при сохранении приемлемого, с точки зрения пользователя, качества воспроизведения исходных речевых сообщений.
Теоретические основы.
В данной работе приводится описание алгоритма сжатия исходных речевых данных на основе прореживания результатов оптимальной линейной частотной фильтрации [1].
Пусть / = (/ь )т исходный речевой сигнал длительностью L отсчетов. где Т - операция транспонирования.
НАУЧНЫЕ ВЕДОМОСТИ Мррм Серия История. Политология. Экономика. Информатика. -]0-|
2012. №7(126). Выпуск 22/1
Обработка речевого сигнала осуществляется по отрезкам, для этого исходный сигнал / разбивается на отрезки равной длинны:
х = (/(1-Х)*ы+1,---, /т ) ,
где N - длительность окна анализа;
М=Ц/^ - количество отрезков.
Частотный диапазон [о,п] разбивается на R частотных интервалов следующим образом:
Л Ші Ш
ДШо г| і к ... а
п
0 ^----------------2Дшо-? ^-------2Дшо-------у
-01 01 02 Оіг 02г
1 ... р
Рис.1. Пример разбиения частотной оси
где л=(2р+і)Дюо; йіг=(2г-і)Дюо и Й2Г=Й!Г+2ДЮ0, г=1,..,R-l - нижняя и верхняя границы заданного частотного интервала; Дюо=(^2г-^іг)/2 =2л/(^і) - задает полуширину частотного интервала; Юг=(^2г+^іг)/2 - центральная частота г-го частотного интервала.
Частотный интервал, расположенный вблизи нуля (с границами [о, йіг) и центральной частотой ю=о), будем называть нулевым.
При выборе количества частотных интервалов должно выполняться условие N / Я > 4.
Для каждого частотного интервала рассчитывается субполосная матрица, причем для нулевого интервала она имеет вид:
г 0 і sm[Дю0 (і - к)1 .,
А0 = {ак}=--------(—т)---, і,к=і,..^, г=о; (2)
п(і - к)
для остальных частотных интервалов:
А = г л зіп[а,,(і - к_)]-5іп[й1, (і - к)], г=і. д_і' , к=і.,(з)
п(і - к)
Субполосные матрицы являются симметричными и неотрицательно определёнными, поэтому их можно представить в виде разложения по их собственным векторам и числам [і]:
А = От и От г=0,1,..л-1 (4)
где Ог = ,Ч2,••,Чм} - матрица собственных векторов; Ьг = diag(K1,..,) - диагональ-
ная матрица собственных чисел.
^ >Х2 > ••• >ЛМ > 0
Собственные числа количественно равны сосредоточенным в выбранных частотных интервалах долям энергий соответствующих собственных векторов [2]. Т.е. если собственное число равно единице, значит вся энергия соответствующего собственного вектора, сосредоточенна в выбранном частотном интервале, иначе энергия этого вектора просачивается за пределы этого интервала.
В [2] показано, что величина собственных чисел, индексы которых превосходят значение
Г N *2* Дю0
3 = 2 ---------0 + 4 (5)
_ 2п }
пренебрежимо мала по сравнению с единицей (квадратные скобки означают целую часть от результата) •
В ряде работ [3,4] описана процедура определения минимального количества частотных интервалов, в которых сосредоточена т-ая (подавляющая, порядка 0.92) доля
НАУЧНЫЕ ВЕДОМОСТИ
Серия История. Политология. Экономика. Информатика. 2012. № 7 (126). Выпуск 22/1
161
энергии отрезка речевого сигнала. Для последовательности изложения необходимо напомнить основные моменты этой процедуры: вычисление распределения энергии по частотным интервалам, упорядочивание их по убыванию, определение количества и порядковых номеров частотных интервалов, сумма которых составляет т-ую долю энергии от общей:
P = х гА;х (6)
ит т
ЕР) > т II Х II2 = х2 (7)
к=1 ¡=1
где ит - минимальное количество частотных интервалов (множество Rm), в которых сосредоточена т-ая доля энергии; Рг - энергия в выбранном частотном интервале; Р(к) - порядковая статистика Р(к+1) > Р(к),Р(к) е {Р1,...,РЯ }; || х ||2 - энергия анализируемого отрезка сигнала.
Таким образом, имея сведения о номерах частотных интервалов, можно с помощью оптимальной линейной частотной фильтрации выделить частотные компоненты, соответствующие только этим интервалам [1]:
у, = А,хТ = хвд;,г е Ят (8)
=1
к
где «к = (х, Чг) б
к - скалярное произведение анализируемого отрезка сигнала и собственного вектора.
Используя тригонометрические преобразования ^т(а)^т(@)), можно преобразовать выражение (з) к следующему виду:
sin
A,, = 2 —I
Q 2 - Q,
2r 1r (i - к)
cos
Q2r +Ql" (i - к)
2 J (9)
n(i - к)
= 2 sin[Arn0 (i ^ k)] cos[m, (i - к)] = 2a° cos[rn r (i - к)] n(i - к)
В [5] показана справедливость следующих аппроксимаций собственных векторов субполосных матриц Ar для любого частотного интервала:
qrk,2i-i = q0°,icosk(i-1)] и qrk,2, = q°,,-sin[c°,(i-1)]rGRm (10)
Выражение (8) с учетом (10) можно преобразовать к виду:
Я = Gc Е Х2к-1а2к-iq0 + Gr Е ^2ка lA = Gcrr + GsZ*r ,r G Rm (ll)
к=1 к =1
где Gc = diag(cos(cQr (0)), cos(cor (1)),... ,cos(cor (N -1)));
Gr = diag(sin(<Br(0)),sin(ra,(1)),...,sin(ra,(N-1)));
Выражение (11) представляет собой сумму произведений синусов и косинусов на соответствующие огибающие Z и z, . Выделить эти огибающие можно следующим образом:
zrc = Qo QoGJr , r G Rm
К = Q0QlGJr , r G Rm
(12)
^ — ^п^п ^ у , г е Я
г г^п^п £ ^ г ’ т
Уменьшение количества исходных речевых данных осуществляется за счет прореживания компонент выделенных огибающих 2СГ и !£ с шагом:
В = 2 р +1 = 2(Я -1) +1 = 2Я -1 (13)
Таким образом, количество значений, которое необходимо хранить равно:
м = ит *2([т / В] +1) (14)
где [] - целая часть от результата.
НАУЧНЫЕ ВЕДОМОСТИ Серия История. Политология. Экономика. Информатика. 163
2012. №7(126). Выпуск 22/1
Для того, чтобы восстановить сигнал по его прореженным значениям необходимо сперва сформировать вектор, который будет состоять из прореженных значений и нулей на местах интерполируемых значений.
1гс., г = 1, Ю,2 В,..., Ю г’ , 1 = [я/ю]
' 10,г Ф 1,Ю,2Ю,...,Ю
) (15)
„; ,г = 1,Ю,2Ю,..., Ю
г= ] г,г’ ; , 1 = [я/ю]
10, г Ф 1,Ю,2Ю,..., Ю
где [] - целая часть от результата.
Фактически при прореживании (12) прореживается именно компоненты , которая отражает сосредоточенность энергии в выбранном частотном интервале, поэтому необходимо получить частотную компоненту, энергия которой не будет просачиваться за пределы частотного интервала. Данное преобразование осуществляется аналогично (12).
~с = бобо1 сг,г 6 Кт (1б)
~ ; = бобО , г 6 к
Далее необходимо получить частотные компоненты, которые соответствуют частотным интервалам г=1,R-l. Согласно (10) получаем:
V = Gzc + G ~;, г 6 К (17)
/у аг;г^т V / у
Восстановление исходного отрезка речевого сигнала осуществляется путем суммирования всех частотных компонент:
ит
Е уг (18)
г=1
Вычислительные эксперименты.
В рамках исследования предложенного подхода к сжатию речевых данных были проведены вычислительные эксперименты. В качестве исходных данных были выбраны отрезки речевых сигналов, соответствующие различным звукам русской речи. Звуки были выделены «на слух» из различных произнесенных фраз. Длительность окна анализа N была выбрана 129 отсчетов, количество частотных интервалов R=32, что соответствует требованию N / К > 4 .
В табл. 1 приведено количество отрезков речевого сигнала, соответствующих различным звукам, которые подвергались обработке.
Таблица 1
Количество анализируемых звуков русской речи
Количество звуков Количество звуков Количество звуков Количество звуков
А 71 З 21 П 23 Ч 15
Б 26 И 49 Р 30 Ш 15
В 17 И 18 С 31 Щ 12
Г 16 К 29 Т 34 Ы 19
Д 22 Л 31 У 18 Э 18
Е 19 М 27 Ф 16 Ю 11
Е 11 Н 33 Х 16 Я 12
Ж 15 О 26 Ц 20
Для каждого звука был вычислен коэффициент сжатия:
Серия История. Политология. Экономика. Информатика. 2012. №7(126).ИМі2с№22/126). Выпуск 22/1
К =-----Я-----
и *2*М
т
где М - количество отсчетов, оставшихся после прореживания.
Далее вычислялся средний коэффициент сжатия:
¿V
Кс„д =Е К / ¿V
г=1
где Zv - общее количество каждого анализируемого звука.
В табл. 2 приведены результаты вычисления среднего коэффициента сжатия.
Таблица 2
Коэффициенты сжатия для каждого звука речи. Ксред средний коэффициент сжатия. N=129, К=32
м Звук 0,90 0,92 0,94 0,96 т Звук 0,90 0,92 0,94 0,96
А 3,63 3,34 2,98 2,57 П 4,70 4,31 3,71 3,10
Б 4,97 4,67 4,22 3,42 Р 4,52 4,08 3,63 3,05
В 4,31 3,92 3,48 2,96 С 4,20 3,05 3,33 2,80
Г 4,33 3,91 3,49 3,02 Т 3,52 3,27 2,87 2,42
Д 4,66 4,05 3,73 3,11 У 4,55 4,28 3,75 3,11
Е 4,45 4,08 3,69 3,19 Ф 4 3,65 3,20 2,65
Е 4,44 4,06 3,62 2,99 Х 3,96 3,68 3,23 2,71
Ж 4,05 3,70 3,27 2,73 Ц 4,02 3,66 3,24 2,70
З 4,36 4,04 3,63 3,14 Ч 3,96 3,62 3,20 2,67
И 5,74 5,38 4,87 4,19 Ш 3,83 3,50 3,10 2,59
И 5,55 5,01 4,49 3,88 Щ 3,86 3,53 3,12 2,60
К 4,14 3,81 3,39 2,84 Ы 4,90 4,48 3,77 3,13
Л 5,35 4,90 4,36 3,64 Э 4,28 3,94 3,48 2,93
М 6,66 5,94 5,22 4,21 Ю 4,41 4,11 3,61 2,98
Н 6,76 6,13 5,35 4,35 Я 4,31 3,97 3,49 2,93
О 5,02 4,58 3,99 3,40
Средний коэффициент сжатия по всем звукам русской речи составляет порядка 4-6 раз, при т=0.92.
На рисунке 2 в качестве пример приведены графики, соответствующие исходным и восстановленным звукам «а» и «ж».
а) б)
Рис. 2. Исходный сигнал (пунктирная линия) и восстановленный (сплошная линия):
а) звук «а»; б) звук «ж» т=о.д2
uavuuliii вьялшпрти--------------Серия История. Политология. Экономика. Информатика.-165
пАучныь ьькмм°5идно из^риведенных выше рисунков, что форма восстановленного сигнала практическИ*®совпа1Да1е^г №с7 ф§рмойи^ходного, исключение составляют лишь «края» сигна- ла. Практически полное совпадение формы восстановленного и исходного сигнала свиде- тельствует о возможности получения высокого качества воспроизведения восстановлен- ного речевого сообщения.
Выводы.
Проведенные вычислительные эксперименты показали, что предлагаемый подход к сжатию может обеспечить сокращение исходного размера речевого сообщения в 5 раз при сохранении достаточно высокого качества воспроизведения.
Работа выполнена в рамках программы РНПВШ ГК№ 8.2251.2011
Литератур
а
1. Гантмахер Ф.Р. Теория матриц / Ф.Р. Гантмахер. - М.: Физматлит, 2004. - 560с.
2. Жиляков Е.Г. Вариационные методы анализа и построения функций по
эмпирическим данным: моногр. / Е.Г. Жиляков. - Белгород: Изд-во, 2007. - БелГУ, 2007.-
160.Гантмахер, Ф.Р. Теория матриц / Ф.Р. Гантмахер. - М.: Физматлит, 2004. -560с.
3. Болдышев А.В. О различиях распределения энергии звуков русской речи и
шума /А.В. Болдышев, А.А. Фирсова // материалы 12-ой Международной конференции и вы- ставке «ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ и ЕЁ ПРИМЕНЕНИЕ - DSPA’2010» 31 мар- та - 02 апреля 2010 года, г. Москва.
4. Прохоренко Е.И. Метод сжатия речевых данных на основе составной
субполос-
ной матрицы / Е.И. Прохоренко, А.В. Болдышев, А.В. Эсауленко // Журнал «Вопросы Ра- диоэлектроники», серия электроника и вычислительная техника (ЭВТ). Выпуск №1 Мо- сква 2011. с. 60-72.
5. Жиляков Е.Г. О вычислении собственных функций субполосного ядра / Е.Г. Жиляков, С.В. Туяков // Вопросы радиоэлектроники. Сер. Электронная вычислительная техника (ЭВТ). - 2011. - Вып. 1. - С. 25-34.
SPEECH COMPRESSION DATA BASED ON THE THINNING RESULTS OF OPTIMAL LINEAR FREQUENCY FILTRATION
E.G. ZHILYAKOV A.V. BOLDYSHEV N.A. CHEKANOV
BelgorodNational Research University
e-mail: [email protected]
The article describes an approach to compression of speech da- ta based on the thinning results of optimal linear filtration of the speech signal. The results of computational experiments to evaluate the effectiveness of the proposed approach.
Key words: Information and communication systems, speech data compression, optimal linear filtrations, given part of the energy.