СЖАТИЕ РЕЧИ С ИСПОЛЬЗОВАНИЕМ СУБПОЛОСНОГО ПРЕОБРАЗОВАНИЯ

Свиридова И.В.; Подпругин А.И.; Гончаров Д.В.; Бондаренко В.А.

УДК 004.932

Свиридова И. В. ассистент

кафедра прикладной информатики и информационных технологий

НИУ «БелГУ» Россия, г.Белгород Подпругин А. И. студент магистратуры 1-го года обучения

НИУ«БелГУ» Россия, г.Белгород Гончаров Д.В. ассистент кафедра информационных и робототехнических систем НИУ «БелГУ» Россия, г. Белгород Бондаренко В. А. аспирант 2-го года обучения институт инженерных и цифровых технологий

НИУ «БелГУ» Россия, г.Белгород

СЖАТИЕ РЕЧИ С ИСПОЛЬЗОВАНИЕМ СУБПОЛОСНОГО

ПРЕОБРАЗОВАНИЯ

Аннотация: в данной статье описан процесс сжатия речи, а также практическое его применение с использованием субполосного преобразования.

Ключевые слова: сжатие речи, алгоритмы, преобразование.

Sviridova I. V. assistant

Department of Applied Informatics and Information Technologies

NRU "BelGU" Russia, Belgorod A.I. Podprugin 1st year master's student NRU ""BelGU" Russia, Belgorod D.V. Goncharov assistant

Department of Information and Robotic Systems

NRU "BelGU" Russia, Belgorod Bondarenko V.A.

2nd year postgraduate student Institute of Engineering and Digital Technologies

NRU "BelGU" Russia, Belgorod

SPEECH COMPRESSION USING SUBBAND TRANSFORM

Abstract: This article describes the speech compression process, as well as its practical application using subband transform.

Keywords: speech compression, algorithms, conversion.

С целью исследования возможности использования субполосного преобразования для очистки речевого сигнала от шумов различного происхождения, были проведены вычислительные эксперименты с реальными речевыми данными.

Словесное описание алгоритма субполосного преобразования на основе банка КИХ - фильтров.

1. Задать параметры N - длина анализируемого отрезка сигнала, R -количество частотных интервалов.

2. Рассчитать импульсные характеристики для R-2 полосовых КИХ-фильтров, выбирая их полосу пропускания и частоты среза в соответствии с

Vk = [-Uk 2 -Ukl) ^ [ukb Uk 2), k = 1 ^ ... , R

R

I Mk = N , -UM 2 = -П UM 2 = n

k=1

Я /Г 14 Я , Я

Q = Uk2-Uk1 = - = С0П^ D kl = (k -1)-; U k 2 = k~, R R R

Mk = M = N k R

Обратное субполосное преобразование (синтез) на основе использования банков КИХ-фильтров

Процедура прореживания выходных последовательностей КИХ-фильтров не является оптимальной в смысле минимума погрешностей аппроксимации спектров исходных векторов в выбранных частотных диапазонах, что приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи.

Сущность субполосного преобразования состоит в том, что для отрезков сигнала вычисляется вектор yy = (yx, y2,...y^), состоящий из

подвекторов уг = (у1г,у2г,...у7г), которые отражают частотные свойства исходного сигнала в некотором частотном интервале. При этом в данном случае ось частот разбивается на Я равновеликих частотных интервалов:

Ук = ["«к2 "«кО ^ [«к1> «к2)

Субполосное преобразование осуществляется по формуле: уу =

(1)

где АА - блочная матрица вида:

АА =

Щхй п

Q - матрицы собственных векторов матрицы А; Ь - вектор собственных чисел, J - количество собственных чисел матрицы А.

Если в качестве вектора исходных значений х используется отрезок речевого сигнала длительностью К, тогда вектор субполосного преобразования вычисляется по формуле. С использованием полученных значений подвекторов субполосного преобразования вычисляется распределение энергии сигнала по заданным частотным интервалам.

Полученные значения энергии упорядочиваются по возрастанию (рисунок 1), при этом сохраняются номера частотных интервалов. Выбираются значения энергий для тех частотных интервалов, в которых сосредоточена некоторая доля энергии, например, 95%.

Рисунок 1 - Распределение Рисунок 2 - Распределение

энергии, сосредоточенной в R = 32 энергии по интервалам ^ = 32, N = 256)

Значения подвекторов субполосного преобразования квантуются по уровню и записываются в информационный блок совместно со служебной информацией, содержащей номера частотных интервалов. Алгоритм сжатия представлен на рисунке 3.

1

1.

СЬргик ИЫЧШМиННН

Сигнала Кодировании ■ЫАЙМННЙ

пауз ШфП

1

1ынж

■а! уровню

Рисунок 3 - Функциональная схема системы сжатия речевых данных

Для определения параметров субполосного преобразования - длины анализируемого отрезка N, количества частотных интервалов R было проведено большое количество вычислительных экспериментов. В качестве предварительной обработки были обнаружены и закодированы паузы. Таким образом, процедуре сжатия подвергается собственно звуковой сигнал. В ходе экспериментов для различных значений длин отрезков речевых данных N = 64, 128, 256, 512 отсчетов, диапазон частот разбивается на R = 8, 16, 32 интервалов. Некоторые результаты приведены в таблице, в которой используются следующие обозначения:

N - длинах отрезков речевых данных; К - степень сжатия за счет субполосного преобразования, которая определяется по формуле: К = V1/V2, (3) где V1 - объем исходного файла; V2 - объем сжатого файла.

Таблица 1 - Степень сжатия речевых данных при различных N

N K (при Я=8) K (при Я=16) K (при Я=32)

64 1,52 1,18 1,22

128 1,81 1,71 1,54

256 1,97 2,38 2,64

512 2,09 2,48 2,80

Необходимо отметить, что в таблице приведены результаты сжатия речевых данных только за счет субполосного преобразования, без учета сжатия за счет удаления пауз и квантования сигнала.

Таким образом, на основе полученных результатов можно говорить о высокой эффективности применения данного подхода к сжатию данных, т.к. он позволяет существенно сократить объем речевых данных при их передаче и хранении, при сохранении относительно высокого качества воспроизведения восстановленного сигнала.

В результате работы алгоритма достигается сжатие данных в 1,5 - 3 раза в зависимости от выбора длины анализируемого отрезка N и количества частотных интервалов R, при сохранении качества воспроизведения восстановленных данных

Практическое применение алгоритма сжатия речевых данных с использованием субполосного преобразования позволит ускорить процесс обмена информацией в обществе, а также уменьшить объем памяти, необходимой для хранения речевых данных.

Использованные источники:

1. Жиляков Е.Г., Белов С.П, Прохоренко Е.И. УМК по ОРД в ИТС[текст]/. Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко: БелГУ, Белгород 2008г.

2. Бернард Скляр, Цифровая связь Теоритические основы и практическое применение. Второе издание: Москва. 2003.

СЖАТИЕ РЕЧИ С ИСПОЛЬЗОВАНИЕМ СУБПОЛОСНОГО ПРЕОБРАЗОВАНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Свиридова И.В., Подпругин А.И., Гончаров Д.В., Бондаренко В.А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Свиридова И.В., Подпругин А.И., Гончаров Д.В., Бондаренко В.А.

SPEECH COMPRESSION USING SUBBAND TRANSFORM

Текст научной работы на тему «СЖАТИЕ РЕЧИ С ИСПОЛЬЗОВАНИЕМ СУБПОЛОСНОГО ПРЕОБРАЗОВАНИЯ»