УДК 621.391
Е.Г. ЖИЛЯКОВ, д.т.н., проф. НИУ "БелГУ", Белгород,
А.В. БОЛДЫШЕВ, аспирант НИУ "БелГУ", Белгород,
А.В. КУРЛОВ, аспирант НИУ БелГУ, Белгород,
А.А. ФИРСОВА, аспирант НИУ "БелГУ", Белгород,
А.В. ЭСАУЛЕНКО, магистр НИУ "БелГУ", Белгород
ОБ ИЗБИРАТЕЛЬНОМ ПРЕОБРАЗОВАНИИ ЧАСТОТНЫХ КОМПОНЕНТ РЕЧЕВЫХ СИГНАЛОВ В ЗАДАЧЕ СЖАТИЯ
В статье приведены результаты вычислительных экспериментов по апробации метода сжатия речевых данных на основе избирательного преобразования частотных компонент речевых сигналов, полученных с помощью нового метода субполосного частотного анализа/синтеза. Ил.: 1. Табл.: 2. Библиогр.: 8 назв.
Ключевые слова: частотные компоненты речевых сигналов, сжатие речевых данных, субполосный частотный анализ/синтез.
Постановка проблемы и анализ литературы. Одной из особенностей звуков русской речи является сосредоточенность энергии в достаточно узких частотных диапазонах, суммарная ширина которых гораздо меньше частоты дискретизации [1 - 5]. Эта особенность может быть использована в различных направлениях области обработки речевых сообщений, в том числе, в задаче сжатия речевых данных, для этого необходимо точно определить, в каком количестве частотных интервалов сосредоточена основная доля энергии [4, 6]. Чтобы определить количество частотных интервалов, в которых сосредоточена основная доля энергии, можно воспользоваться понятием частотной концентрации, которая определяется минимальным количеством частотных интервалов, в которых сосредоточена заданная доля энергии отрезка речевого сигнала [6]:
Кя = N / Я , (1)
где 1т - минимальное количество частотных интервалов, в которых сосредоточена заданная доля энергии отрезка речевого сигнала, так что имеет место
N = шш ; (2)
Я - количество частотных интервалов, на которые разбивается
частотный диапазон;
/ - обозначает один из анализируемых речевых отрезков,
порождаемых звуком русской речи;
N - значение длины анализируемого отрезка;
т - доля общей энергии, задаваемая для определения минимального количества частотных интервалов, в которых она сосредоточена.
Для правых частей (2) выполняется неравенство
N
£р(к)N ^т\\хм\\2=т£ х2, (3)
к=1 /=1
где XN = (х1,...Хм)Т - анализируемый отрезок речевых данных;
Т - операция транспонирования.
Индекс в скобках, у слагаемых суммы слева соотношения (3) означает, что части энергий Рш упорядочиваются по убыванию:
Р(к)Ы &{РгЫ, Г = 1 ..., К}; Р(к +1^ - Р(к)Ы, к = 1,.,К ■ (4)
В качестве примера в таблице 1 приведено минимальное количество частотных интервалов, составляющих заданную долю энергии, для звука русской речи "И".
Таблица 1. Минимальное количество частотных интервалов и частотная концентрация при различных значениях параметра т (звук "И")
т 1ЇШ Кп
0,98 5 0,3175
0,96 3 0,1875
0.9 - 0,94 2 0,125
0.86 - 0,88 1 0,0625
При заданной доле энергии 0,98 частотная концентрация для приведенного примера составляет 0,3125. Для большинства звуков русской речи величина частотной концентрации составляет порядка 0,35 и только для шумоподобных звуков - порядка 0,55 - 0,60 [6]. На основании сведений о количестве и расположении частотных интервалов, в которых сосредоточена заданная доля энергии, можно осуществить сжатие речевых данных за счет хранения только составляющих речевого сигнала, соответствующих этим частотным интервалам.
Целью статьи является анализ эффективности сжатия речевых данных за счет использования предлагаемого метода субполосного частотного анализа/синтеза.
Одним из способов получения составляющих речевого сигнала, соответствующих выбранным частотным интервалам, является субполосный частотный анализ/синтез. В настоящее время наибольшее
распространение получил метод на основе банка КИХ-фильтров, однако, этот метод обладает рядом недостатков, которые приводят к увеличению погрешностей восстановления данных [3]. В ряде публикаций [1 - 3] описывается метод субполосного анализа/синтеза, оптимальный с точки зрения минимума среднеквадратической погрешности аппроксимации трансформант Фурье исходного отрезка речевого сигнала в заданном частотном интервале, а также показаны преимущества этого метода перед современными аналогами. В основе предлагаемого метода лежит математический аппарат с использованием субполосных матриц вида:
Аг = {агк ) = {8ш(уг (г - к)) - 8ш(уг-1(/ - к))}/%(г - к), г, к = 1,...,И , (5)
где \г и уг-1 верхняя и нижняя границы частотного интервала.
Эта матрица является симметричной и неотрицательно определённой, поэтому она обладает полной системой ортонормальных собственных векторов, соответствующих неотрицательным собственным числам [3, 7]. На основе этих матриц можно вычислять точные значения долей энергий отрезков речевых сигналов в выбранных частотных интервалах
Данный математический аппарат можно использовать для получения частотных компонент исходного анализируемого отрезка речевого сигнала, которые отражают заданную долю энергии, сосредоточенную в выбранных частотных интервалах I. Для этого будет использован метод субполосного преобразования, основанный на формировании составной матрицы, которая вычисляется как сумма субполосных матриц, соответствующих выбранных частотных интервалов, составляющих заданную долю энергии т
где А(г) - субполосные матрицы, соответствующие тем частотным интервалам, которые составляют заданную долю энергии т.
Составная матрица обладает полной системой ортонормальных собственных векторов (8), соответствующих неотрицательным собственным числам (9):
Рг = ХАГХТ ■
(6)
Ат
аЖ
А! = £А(г) ,
(7)
г=1
(21:= {?ш> ?£2,..., },
(8)
Ьт = diag(Xll,..., Х1М) ■ (9)
Собственные числа количественно равны сосредоточенным в выбранных частотных интервалах долям энергий соответствующих собственных векторов и удовлетворяют условию
0<^< 1, к = 1,...,N ■ (10)
Субполосное преобразование осуществляется следующим образом
ут=у[ЬтОттХ, (11)
где - корень из диагонального элемента, соответствующего
определенному собственному вектору.
С точки зрения сжатия речевых данных, можно поставить задачу нахождения минимального количества собственных значений составной матрицы, при оставлении которых будет достигаться максимальная степень сжатия. Сжатие исходных речевых данных будет осуществляться за счет хранения вектора субполосного преобразования, размерностью равной минимальному количеству ненулевых собственных значений. При этом важным условием является минимизация погрешности восстановления исходного отрезка речевых данных, т.е. обеспечение высокого качества воспроизведения исходного речевого сообщения. Выражение (6) можно представить как
^ N
рт=£ Утг + £ У т ,
г=1 г=‘/Т+1
■! Т
где £ уЕг - первое слагаемое, в котором - собственные значения
г=1
суммарной матрицы, величина которых достаточно большая;
N
£ у Тг - второе слагаемое, в котором X г - собственные значения
г=•/Т+1
суммарной матрицы, величина которых достаточно мала (близка к 0).
Доля энергии второго слагаемого, настолько мала, что ею можно пренебречь без получения существенных искажений. Таким образом, для оценки минимального количества собственных значений ,
необходимых для восстановления исходного отрезка речевого сигнала без существенных потерь, можно использовать следующее выражение
■]Ъ N
!> г /I і * с, і=1 і=1
где с - некий порог, который показывает, какую долю составляют собственные значения, величина которых близка к 0.
Вычислительные эксперименты. В качестве исходных данных использовано большое количество речевого материала, который был получен в результате записи естественной речи различных дикторов. Для проведения экспериментальных исследований были выбраны следующие параметры: порог с = 0.89 + 0.995, длительность отрезка речевых данных N = 160, количество частотных интервалов Я = 16, заданная доля энергии отрезка речевого сигнала т = 0,86^0,98. В качестве примера в табл. 2 приведено минимальное количество собственных значений J Е для звука русской речи "И".
Таблица 2. Звук "И", N = 160, Я = 16
0.86 - 0.88 0.9 - 0.94 0.96 0.98
0.89 - 0.9 10 18 28 46
0.91 10 19 29 47
0.92 - 0.93 10 19 29 48
0.94 - 0.95 11 20 30 49
0.96 11 20 31 51
0.97 12 21 32 52
0.98 12 22 33 54
0.99 13 22 34 56
0.995 14 23 36 58
Как видно из приведенных результатов вычислительных экспериментов, минимальное количество собственных значений составной матрицы для данного звука в среднем составляет порядка 40, что позволяет говорить о возможность четырехкратного сокращения объема памяти, требуемого для хранения данного звука. Однако, выбираемое количество собственных значений будет сказываться на качестве воспроизведения речевого сообщения. Ниже на рис. 1 приведена полученная степень сжатия для всех звуков русской речи. Степень сжатия определялась следующим образом [8]:
К = N / ^.
звуки русской речи
Рис. Степень сжатия для различных звуков русской речи (с = 0.92, т = 0.92)
Выводы. Проведенные вычислительные эксперименты показали высокую эффективность разработанного метода с позиции сжатия речевых данных при сохранении приемлемого для пользователя качества воспроизведения. Предлагаемый подход к сжатию речевых сигналов в среднем позволяет достичь сжатия в 6 - 7 раз без существенной потери качества воспроизведения. Этот показатель можно увеличить за счет использования известных алгоритмов обнаружения и удаления пауз.
Список литературы: 1. Жиляков Е.Г. Методы обработки речевых данных в
информационно-телекоммуникационных системах на основе частотных представлений: монография / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Белгород: Изд-во БелГУ, 2007. -136 с. 2. Шелухин О.И. Цифровая обработка и передача речи / О.И. Шелухин, Н.Ф. Лукьянцев. - М.: Радио и связь, 2000. - 456 с. 3. Жиляков Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: монография / Е.Г. Жиляков. -Белгород: Изд-во БелГУ, 2007. - 160 с. 4. Прохоренко Е.И. Новый метод оптимального субполосного преобразования в задаче сжатия речевых данных / Е.И. Прохоренко, А.В. Болдышев, А.А. Фирсова, А.В. Эсауленко // Журнал "Вопросы радиоэлектроники", серия ЭВТ. - Вып. №1. - М.: 2010. - С. 49 - 55. 5. Ковалгин Ю.А. Цифровое кодирование
звуковых сигналов / Ю.А. Ковалгин, Э.И. Вологдин. - Изд-во: Корона Принт, 2004. - 240 с. 6. Болдышев А.В. О различиях распределения энергии звуков русской речи и шума / А.В. Болдышев, А.А. Фирсова // Материалы 12-ой Международной конференции и выставки "Цифровая обработка сигналов и её применение. - "DSPA'2010". - М.: 2010. -С. 204 - 207. 7. Гантмахер Ф.Р. Теория матриц / Ф.Р. Гантмахер. - М.: Физматлит, 2004. -560 с. 8. Сизиков В.С. Математические методы обработки результатов измерений: учебник для вузов / В.С. Сизиков. - СПб.: Политехника, 2001. - 240 с.
УДК 621.391
Про виборче перетворення частотних компонент мовних сигналів в завданні стиснення / Жіляков Е.Г., Болдишев А.В., Курлов А.В., Фірсова А.А., Есауленко А.В.
// Вісник НТУ "ХПІ". Тематичний випуск: Інформатика і моделювання. - Харків: НТУ "ХПІ". - 2011. - № 17. - С. 37 - 43.
У статті приведені результати обчислювальних експериментів по апробації методу стиснення мовних даних на основі виборчого перетворення частотних компонент мовних сигналів, отриманих за допомогою нового методу субсмугового частотного аналізу/синтезу. Іл.: 1. Табл.: 2. Бібліогр.: 8 назв.
Ключові слова: частотні компоненти мовних сигналів, стиснення мовних даних, субполосний частотний аналіз/синтез.
UDK 621.391
About electoral transformation frequency component of vocal signals in the task of compression / Zhilyakov E.G., Boldyshev A.V., Kurlov A.V., Firsova A.A., Esaulenko A.V.
// Herald of the National Technical University "KhPI". Subject issue: Information Science and Modelling. - Kharkov: NTU "KhPI". - 2011. - №. 17. - P. 37 - 43.
In this article the results of calculable experiments are resulted on approbation of method of compression of vocal data on the basis of electoral transformation frequency component of vocal signals, got by the new method of subband frequency analysis/synthesis. Figs.: 1. Tabl.: 2. Refs.: 8 titles.
Keywords: frequency components of speech signals, compress speech data, sub-band frequency analysis/synthesis.
Поступила в редакцію 03.02.2011