Научная статья на тему 'Сжатие речевых данных на основе прореживания результатов оптимальной линейной частотной фильтрации'

Сжатие речевых данных на основе прореживания результатов оптимальной линейной частотной фильтрации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
134
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫЕ СИСТЕМЫ / СЖАТИЕ РЕЧЕВЫХ ДАННЫХ / ОПТИМАЛЬНАЯ ЛИНЕЙНАЯ ФИЛЬТРАЦИЯ / ЗАДАННАЯ ДОЛЯ ЭНЕРГИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жиляков Е. Г., Болдышев А. В., Чеканов Н. А.

В статье изложен подход к сжатию речевых данных на основе прореживания результатов оптимальной линейной фильтрации речевого сигнала. Приведены результаты вычислительных экспериментов по оценке эффективности предлагаемого подхода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сжатие речевых данных на основе прореживания результатов оптимальной линейной частотной фильтрации»

щ

ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ

УДК 621.391.037.372

СЖАТИЕ РЕЧЕВЫХ ДАННЫХ НА ОСНОВЕ ПРОРЕЖИВАНИЯ РЕЗУЛЬТАТОВ ОПТИМАЛЬНОЙ ЛИНЕЙНОЙ ЧАСТОТНОЙ ФИЛЬТРАЦИИ

Е.Г.ЖИЛЯКОВ А.В. БОЛДЫШЕВ НА. ЧЕКАНОВ

Белгородский

государственный национальный исследовательский университет

e-mail: boldyshev@bsu.edu.ru

В статье изложен подход к сжатию речевых данных на основе прореживания результатов оптимальной линейной фильтрации речевого сигнала. Приведены результаты вычислительных экспериментов по оценке эффективности предлагаемого подхода.

Ключевые слова: информационно-телекоммуника-

ционные системы, сжатие речевых данных, оптимальная линейная фильтрация, заданная доля энергии.

Введение.

Информационный обмен является важнейшим средством развития общественных процессов, включая производственные силы. Одной из наиболее удобных и естественных форм информационного обмена для человека являются речевые конструкции (речевые сообщения). Реализация информационного обмена речевыми сообщениями, включая их архивное хранение и передачу, осуществляется с помощью компьютерных технологий. При этом речевые сигналы хранятся и передаются в виде некоторых кодовых комбинаций, совокупность которых естественно называть речевыми данными. Совокупность бит, используемых для кодирования речевых данных, называется объемом битовых представлений.

Одной из основных проблем современных информационно-телекоммуникационных систем является ограниченность их ресурсов, необходимых для реализации информационного обмена, а именно пропускной способности для передачи данных и объемы памяти жестких носителей для хранения.

Поэтому не вызывает сомнения необходимость выбора такого способа кодирования, который обеспечивает минимум объемов битовых представлений хранимых и передаваемых данных при сохранении приемлемого, с точки зрения пользователя, качества воспроизведения исходных речевых сообщений.

Теоретические основы.

В данной работе приводится описание алгоритма сжатия исходных речевых данных на основе прореживания результатов оптимальной линейной частотной фильтрации [1].

Пусть / = (/ь )т исходный речевой сигнал длительностью L отсчетов. где Т - операция транспонирования.

НАУЧНЫЕ ВЕДОМОСТИ Мррм Серия История. Политология. Экономика. Информатика. -]0-|

2012. №7(126). Выпуск 22/1

Обработка речевого сигнала осуществляется по отрезкам, для этого исходный сигнал / разбивается на отрезки равной длинны:

х = (/(1-Х)*ы+1,---, /т ) ,

где N - длительность окна анализа;

М=Ц/^ - количество отрезков.

Частотный диапазон [о,п] разбивается на R частотных интервалов следующим образом:

Л Ші Ш

ДШо г| і к ... а

п

0 ^----------------2Дшо-? ^-------2Дшо-------у

-01 01 02 Оіг 02г

1 ... р

Рис.1. Пример разбиения частотной оси

где л=(2р+і)Дюо; йіг=(2г-і)Дюо и Й2Г=Й!Г+2ДЮ0, г=1,..,R-l - нижняя и верхняя границы заданного частотного интервала; Дюо=(^2г-^іг)/2 =2л/(^і) - задает полуширину частотного интервала; Юг=(^2г+^іг)/2 - центральная частота г-го частотного интервала.

Частотный интервал, расположенный вблизи нуля (с границами [о, йіг) и центральной частотой ю=о), будем называть нулевым.

При выборе количества частотных интервалов должно выполняться условие N / Я > 4.

Для каждого частотного интервала рассчитывается субполосная матрица, причем для нулевого интервала она имеет вид:

г 0 і sm[Дю0 (і - к)1 .,

А0 = {ак}=--------(—т)---, і,к=і,..^, г=о; (2)

п(і - к)

для остальных частотных интервалов:

А = г л зіп[а,,(і - к_)]-5іп[й1, (і - к)], г=і. д_і' , к=і.,(з)

п(і - к)

Субполосные матрицы являются симметричными и неотрицательно определёнными, поэтому их можно представить в виде разложения по их собственным векторам и числам [і]:

А = От и От г=0,1,..л-1 (4)

где Ог = ,Ч2,••,Чм} - матрица собственных векторов; Ьг = diag(K1,..,) - диагональ-

ная матрица собственных чисел.

^ >Х2 > ••• >ЛМ > 0

Собственные числа количественно равны сосредоточенным в выбранных частотных интервалах долям энергий соответствующих собственных векторов [2]. Т.е. если собственное число равно единице, значит вся энергия соответствующего собственного вектора, сосредоточенна в выбранном частотном интервале, иначе энергия этого вектора просачивается за пределы этого интервала.

В [2] показано, что величина собственных чисел, индексы которых превосходят значение

Г N *2* Дю0

3 = 2 ---------0 + 4 (5)

_ 2п }

пренебрежимо мала по сравнению с единицей (квадратные скобки означают целую часть от результата) •

В ряде работ [3,4] описана процедура определения минимального количества частотных интервалов, в которых сосредоточена т-ая (подавляющая, порядка 0.92) доля

НАУЧНЫЕ ВЕДОМОСТИ

Серия История. Политология. Экономика. Информатика. 2012. № 7 (126). Выпуск 22/1

161

энергии отрезка речевого сигнала. Для последовательности изложения необходимо напомнить основные моменты этой процедуры: вычисление распределения энергии по частотным интервалам, упорядочивание их по убыванию, определение количества и порядковых номеров частотных интервалов, сумма которых составляет т-ую долю энергии от общей:

P = х гА;х (6)

ит т

ЕР) > т II Х II2 = х2 (7)

к=1 ¡=1

где ит - минимальное количество частотных интервалов (множество Rm), в которых сосредоточена т-ая доля энергии; Рг - энергия в выбранном частотном интервале; Р(к) - порядковая статистика Р(к+1) > Р(к),Р(к) е {Р1,...,РЯ }; || х ||2 - энергия анализируемого отрезка сигнала.

Таким образом, имея сведения о номерах частотных интервалов, можно с помощью оптимальной линейной частотной фильтрации выделить частотные компоненты, соответствующие только этим интервалам [1]:

у, = А,хТ = хвд;,г е Ят (8)

=1

к

где «к = (х, Чг) б

к - скалярное произведение анализируемого отрезка сигнала и собственного вектора.

Используя тригонометрические преобразования ^т(а)^т(@)), можно преобразовать выражение (з) к следующему виду:

sin

A,, = 2 —I

Q 2 - Q,

2r 1r (i - к)

cos

Q2r +Ql" (i - к)

2 J (9)

n(i - к)

= 2 sin[Arn0 (i ^ k)] cos[m, (i - к)] = 2a° cos[rn r (i - к)] n(i - к)

В [5] показана справедливость следующих аппроксимаций собственных векторов субполосных матриц Ar для любого частотного интервала:

qrk,2i-i = q0°,icosk(i-1)] и qrk,2, = q°,,-sin[c°,(i-1)]rGRm (10)

Выражение (8) с учетом (10) можно преобразовать к виду:

Я = Gc Е Х2к-1а2к-iq0 + Gr Е ^2ка lA = Gcrr + GsZ*r ,r G Rm (ll)

к=1 к =1

где Gc = diag(cos(cQr (0)), cos(cor (1)),... ,cos(cor (N -1)));

Gr = diag(sin(<Br(0)),sin(ra,(1)),...,sin(ra,(N-1)));

Выражение (11) представляет собой сумму произведений синусов и косинусов на соответствующие огибающие Z и z, . Выделить эти огибающие можно следующим образом:

zrc = Qo QoGJr , r G Rm

К = Q0QlGJr , r G Rm

(12)

^ — ^п^п ^ у , г е Я

г г^п^п £ ^ г ’ т

Уменьшение количества исходных речевых данных осуществляется за счет прореживания компонент выделенных огибающих 2СГ и !£ с шагом:

В = 2 р +1 = 2(Я -1) +1 = 2Я -1 (13)

Таким образом, количество значений, которое необходимо хранить равно:

м = ит *2([т / В] +1) (14)

где [] - целая часть от результата.

НАУЧНЫЕ ВЕДОМОСТИ Серия История. Политология. Экономика. Информатика. 163

2012. №7(126). Выпуск 22/1

Для того, чтобы восстановить сигнал по его прореженным значениям необходимо сперва сформировать вектор, который будет состоять из прореженных значений и нулей на местах интерполируемых значений.

1гс., г = 1, Ю,2 В,..., Ю г’ , 1 = [я/ю]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

' 10,г Ф 1,Ю,2Ю,...,Ю

) (15)

„; ,г = 1,Ю,2Ю,..., Ю

г= ] г,г’ ; , 1 = [я/ю]

10, г Ф 1,Ю,2Ю,..., Ю

где [] - целая часть от результата.

Фактически при прореживании (12) прореживается именно компоненты , которая отражает сосредоточенность энергии в выбранном частотном интервале, поэтому необходимо получить частотную компоненту, энергия которой не будет просачиваться за пределы частотного интервала. Данное преобразование осуществляется аналогично (12).

~с = бобо1 сг,г 6 Кт (1б)

~ ; = бобО , г 6 к

Далее необходимо получить частотные компоненты, которые соответствуют частотным интервалам г=1,R-l. Согласно (10) получаем:

V = Gzc + G ~;, г 6 К (17)

/у аг;г^т V / у

Восстановление исходного отрезка речевого сигнала осуществляется путем суммирования всех частотных компонент:

ит

Е уг (18)

г=1

Вычислительные эксперименты.

В рамках исследования предложенного подхода к сжатию речевых данных были проведены вычислительные эксперименты. В качестве исходных данных были выбраны отрезки речевых сигналов, соответствующие различным звукам русской речи. Звуки были выделены «на слух» из различных произнесенных фраз. Длительность окна анализа N была выбрана 129 отсчетов, количество частотных интервалов R=32, что соответствует требованию N / К > 4 .

В табл. 1 приведено количество отрезков речевого сигнала, соответствующих различным звукам, которые подвергались обработке.

Таблица 1

Количество анализируемых звуков русской речи

Количество звуков Количество звуков Количество звуков Количество звуков

А 71 З 21 П 23 Ч 15

Б 26 И 49 Р 30 Ш 15

В 17 И 18 С 31 Щ 12

Г 16 К 29 Т 34 Ы 19

Д 22 Л 31 У 18 Э 18

Е 19 М 27 Ф 16 Ю 11

Е 11 Н 33 Х 16 Я 12

Ж 15 О 26 Ц 20

Для каждого звука был вычислен коэффициент сжатия:

Серия История. Политология. Экономика. Информатика. 2012. №7(126).ИМі2с№22/126). Выпуск 22/1

К =-----Я-----

и *2*М

т

где М - количество отсчетов, оставшихся после прореживания.

Далее вычислялся средний коэффициент сжатия:

¿V

Кс„д =Е К / ¿V

г=1

где Zv - общее количество каждого анализируемого звука.

В табл. 2 приведены результаты вычисления среднего коэффициента сжатия.

Таблица 2

Коэффициенты сжатия для каждого звука речи. Ксред средний коэффициент сжатия. N=129, К=32

м Звук 0,90 0,92 0,94 0,96 т Звук 0,90 0,92 0,94 0,96

А 3,63 3,34 2,98 2,57 П 4,70 4,31 3,71 3,10

Б 4,97 4,67 4,22 3,42 Р 4,52 4,08 3,63 3,05

В 4,31 3,92 3,48 2,96 С 4,20 3,05 3,33 2,80

Г 4,33 3,91 3,49 3,02 Т 3,52 3,27 2,87 2,42

Д 4,66 4,05 3,73 3,11 У 4,55 4,28 3,75 3,11

Е 4,45 4,08 3,69 3,19 Ф 4 3,65 3,20 2,65

Е 4,44 4,06 3,62 2,99 Х 3,96 3,68 3,23 2,71

Ж 4,05 3,70 3,27 2,73 Ц 4,02 3,66 3,24 2,70

З 4,36 4,04 3,63 3,14 Ч 3,96 3,62 3,20 2,67

И 5,74 5,38 4,87 4,19 Ш 3,83 3,50 3,10 2,59

И 5,55 5,01 4,49 3,88 Щ 3,86 3,53 3,12 2,60

К 4,14 3,81 3,39 2,84 Ы 4,90 4,48 3,77 3,13

Л 5,35 4,90 4,36 3,64 Э 4,28 3,94 3,48 2,93

М 6,66 5,94 5,22 4,21 Ю 4,41 4,11 3,61 2,98

Н 6,76 6,13 5,35 4,35 Я 4,31 3,97 3,49 2,93

О 5,02 4,58 3,99 3,40

Средний коэффициент сжатия по всем звукам русской речи составляет порядка 4-6 раз, при т=0.92.

На рисунке 2 в качестве пример приведены графики, соответствующие исходным и восстановленным звукам «а» и «ж».

а) б)

Рис. 2. Исходный сигнал (пунктирная линия) и восстановленный (сплошная линия):

а) звук «а»; б) звук «ж» т=о.д2

uavuuliii вьялшпрти--------------Серия История. Политология. Экономика. Информатика.-165

пАучныь ьькмм°5идно из^риведенных выше рисунков, что форма восстановленного сигнала практическИ*®совпа1Да1е^г №с7 ф§рмойи^ходного, исключение составляют лишь «края» сигна- ла. Практически полное совпадение формы восстановленного и исходного сигнала свиде- тельствует о возможности получения высокого качества воспроизведения восстановлен- ного речевого сообщения.

Выводы.

Проведенные вычислительные эксперименты показали, что предлагаемый подход к сжатию может обеспечить сокращение исходного размера речевого сообщения в 5 раз при сохранении достаточно высокого качества воспроизведения.

Работа выполнена в рамках программы РНПВШ ГК№ 8.2251.2011

Литератур

а

1. Гантмахер Ф.Р. Теория матриц / Ф.Р. Гантмахер. - М.: Физматлит, 2004. - 560с.

2. Жиляков Е.Г. Вариационные методы анализа и построения функций по

эмпирическим данным: моногр. / Е.Г. Жиляков. - Белгород: Изд-во, 2007. - БелГУ, 2007.-

160.Гантмахер, Ф.Р. Теория матриц / Ф.Р. Гантмахер. - М.: Физматлит, 2004. -560с.

3. Болдышев А.В. О различиях распределения энергии звуков русской речи и

шума /А.В. Болдышев, А.А. Фирсова // материалы 12-ой Международной конференции и вы- ставке «ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ и ЕЁ ПРИМЕНЕНИЕ - DSPA’2010» 31 мар- та - 02 апреля 2010 года, г. Москва.

4. Прохоренко Е.И. Метод сжатия речевых данных на основе составной

субполос-

ной матрицы / Е.И. Прохоренко, А.В. Болдышев, А.В. Эсауленко // Журнал «Вопросы Ра- диоэлектроники», серия электроника и вычислительная техника (ЭВТ). Выпуск №1 Мо- сква 2011. с. 60-72.

5. Жиляков Е.Г. О вычислении собственных функций субполосного ядра / Е.Г. Жиляков, С.В. Туяков // Вопросы радиоэлектроники. Сер. Электронная вычислительная техника (ЭВТ). - 2011. - Вып. 1. - С. 25-34.

SPEECH COMPRESSION DATA BASED ON THE THINNING RESULTS OF OPTIMAL LINEAR FREQUENCY FILTRATION

E.G. ZHILYAKOV A.V. BOLDYSHEV N.A. CHEKANOV

BelgorodNational Research University

e-mail: boldyshev@bsu.edu.ru

The article describes an approach to compression of speech da- ta based on the thinning results of optimal linear filtration of the speech signal. The results of computational experiments to evaluate the effectiveness of the proposed approach.

Key words: Information and communication systems, speech data compression, optimal linear filtrations, given part of the energy.

i Надоели баннеры? Вы всегда можете отключить рекламу.