Научная статья на тему 'Об избирательном воздействии на частотные компоненты речевых сигналов в задаче сжатия'

Об избирательном воздействии на частотные компоненты речевых сигналов в задаче сжатия Текст научной статьи по специальности «Математика»

CC BY
105
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ИНФОРМАЦИОННО-ТЕЛЕКОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ / СЖАТИЕ РЕЧЕВЫХ ДАННЫХ / СУБПОЛОСНОЕ ПРЕОБРАЗОВАНИЕ / ЧАСТОТНЫЙ ИНТЕРВАЛ / ЗАДАННАЯ ДОЛЯ ЭНЕРГИИ

Аннотация научной статьи по математике, автор научной работы — Болдышев А. В.

В работе изложен новый подход к избирательному воздействию на частотные компоненты речевых сигналов, основанный на использовании субполосных преобразований по составным частотным интервалам. Приведены результаты вычислительных экспериментов по оценке эффективности разработанного метода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Об избирательном воздействии на частотные компоненты речевых сигналов в задаче сжатия»

УДК 621.391.037.372

ОБ ИЗБИРАТЕЛЬНОМ ВОЗДЕЙСТВИИ НА ЧАСТОТНЫЕ КОМПОНЕНТЫ РЕЧЕВЫХ СИГНАЛОВ В ЗАДАЧЕ СЖАТИЯ

Белгородский

государственный

университет

А. В. БОЛДЫШЕВ

В работе изложен новый подход к избирательному воздействию на частотные компоненты речевых сигналов, основанный на использовании субполосных преобразований по составным частотным интервалам. Приведены результаты вычислительных экспериментов по оценке эффективности разработанного метода.

e-mail:

[email protected]

Ключевые слова: информационно-телекоммуникационные технологии, сжатие речевых данных, субполосное преобразование, частотный интервал, заданная доля энергии.

Введение

Одной из основных тенденций развития информационно-телекоммуникационных технологий является обеспечение естественных для человека форм информационного обмена (речь, визуальные отображения действительности). Реализация информационного обмена речевыми сообщениями, включая их архивное хранение и передачу, осуществляется с помощью компьютерных технологий. При этом речевые сигналы хранятся и передаются в виде некоторых кодовых комбинаций, совокупность которых естественно называть речевыми данными. Поэтому не вызывает сомнения необходимость выбора такого способа кодирования, который обеспечивает минимум объемов битовых представлений хранимых и передаваемых данных при сохранении приемлемого, с точки зрения пользователя, качества воспроизведения исходных речевых сообщений. Решение этой проблемы позволяет минимизировать затраты объемов компьютерной памяти для хранения данных и времени их передачи в информационно-телекоммуникационных системах (ИТС).

Можно указать достаточно много направлений и областей, для которых решение проблемы минимизации объемов битовых представлений речевых данных имеет существенное значение:

- корпоративные информационно-телекоммуникационные системы, в которых используются средства аудио- и видеоконференцсвязи;

- системы постоянного мониторинга речевого и визуального обмена (аэропорты, видеонаблюдение, вокзалы и т.п.);

- хранение и передача речевых данных средствами Интернет;

- информационно-телекоммуникационные системы удаленного взаимодействия, в том числе системы дистанционного образования.

Таким образом, проблема уменьшения объемов битовых представлений речевых данных (сжатия) является актуальной, а её решение позволит существенно повысить эффективность использования средств ИТС при реализации современного информационного обмена на основе речевых сообщений.

Актуальность этой проблемы также можно проиллюстрировать наличием ряда исследовательских компаний и институтов, которые занимаются обширными и многоаспектными исследованиями для решения различных задач в области обработки речевых данных, например, консорциум «Российские речевые технологии»,

Серия История. Политология. Экономика. Информатика. 2010. № 13 (84). Выпуск 15/1

ООО «Сакрамент» (Беларусь), Институт проблем передачи информации РАН; Институт Фраунгофера и фирма Thomson (формат MP3 pro).

Для сжатия речевых данных разработаны различные процедуры обработки, основой которых служат необратимые преобразования исходных данных, например, за счет более грубого квантования по уровню. Существующие методы сжатия звуковых данных с использованием грубого квантования по уровню основываются на психоакустической модели (например, формат MP3 pro) [1], что приводит к необходимости применения так называемых субполосных преобразований отрезков (векторов) отсчетов речевых сигналов, позволяющих получить другие векторы, подвекторы которых отражают частотные свойства исходного вектора в выбранных диапазонах оси частот. Компоненты этих подвекторов подвергаются квантованию по уровню. Для субполосного преобразования обычно используется процедура прореживания выходных последовательностей КИХ-фильтров, настроенных на соответствующие участки оси частот. Однако, такая процедура субполосного преобразования не является оптимальной в смысле достижения минимальных погрешностей аппроксимации в выбранных частотных диапазонах трансформант Фурье исходных векторов. Это приводит к увеличению погрешностей восстановления данных по квантованным значениям и, как следствие, к ухудшению качества воспроизводимой речи.

Таким образом, центральной, с точки зрения хранения и передачи, проблемой реализации в ИТС речевого обмена является создание эффективных методов сжатия, полученных на этапе регистрации речевых данных с возможностью дальнейшего воспроизведения исходных речевых сообщений с приемлемым для пользователя качеством.

Теоретические основы

Одной из особенностей звуков русской речи является сосредоточенность энергии в достаточно узком частотном диапазоне [2,3]. Эта особенность может быть использована в различных направлениях области обработки речевых сообщений: сжатие речевых данных, обнаружение и кодирование пауз, распознавание речи, очистка от шумов. При этом необходимо точно определять, в каком количестве частотных интервалов сосредоточена необходимая доля энергии. Далее эту особенность будем называть частотная концентрация, которая определятся минимальным количеством частотных интервалов, в которых сосредоточена заданная доля энергии [4]:

WNR = N / R, (1)

im

где ¿nr - минимальное количество частотных интервалов, в которых сосредоточена

заданная доля энергии отрезка речевого сигнала;

m - заданное значение доли энергии сигнала;

R - количество частотных интервалов, на которые разбивается частотный диапазон;

N -длительность анализируемого отрезка.

lNr = min dmR, (2)

В качестве типичного примера на рис. 1 приведено распределение энергии отрезка речевого сигнала, соответствующего звуку «а» по частотным интервалам (рис. 1а), и количество частотных интервалов, соответствующих различным значениям величины m (рис. 1б).

Рис. 1. Распределение энергии отрезка речевого сигнала, соответствующего звуку «а» по частотным интервалам, и количество частотных интервалов, соответствующее различным значения т, при N=160 и R=l6

Как видно из рисунка, основная энергия отрезка речевого сигнала, сосредоточена менее чем в половине частотных интервалов, т.е. её частотная концентрация менее 50%. Так для большинства звуков русской речи величина частотной концентрации составляет порядка 35% и только для шумоподобных звуков - порядка 55-60% [4].

Имея сведения о номерах частотных интервалов, в которых сосредоточена заданная доля энергии, можно осуществить сжатие речевых данных за счет избирательного воздействия (например, квантования по уровню) и хранения только составляющих речевого сигнала, соответствующих этим частотным интервалам.

Одним из способов получения составляющих речевого сигнала, соответствующих выбранным частотным интервалам, является субполосное преобразование. В настоящее время наибольшее распространение получил метод субполосного преобразования на основе банка КИХ-фильтров, однако, этот метод обладает рядом недостатков, которые приводят к увеличению погрешностей восстановления данных [2].

В ряде публикаций [5-7] описывается новый метод субполосного преобразования, оптимальный, с точки зрения минимума среднеквадратической погрешности аппроксимации, - трансформант Фурье исходного отрезка речевого сигнала в заданном частотном интервале. В этих работах также показаны преимущества этого метода перед современными аналогами.

В основе метода лежит новый математический аппарат с использованием субполосной матрицы вида:

4 = {ак }; 7, к = 1,.., N, (3)

с элементами:

а^ = (7 - к)) - sin(vr- к))}/п(г' - к);i, к = 1,..,N, (4)

где vr и vr-1 верхняя и нижняя границы частотного интервала.

Эта матрица является симметричной и неотрицательно определённой, поэтому она обладает полной системой ортонормальных собственных векторов, соответствующих неотрицательным собственным числам [8] .

На основе этих матриц можно вычислять точные значения долей энергий отрезков речевых сигналов в выбранных частотных интервалах (5):

Серия История. Политология. Экономика. Информатика. 2010. № 13 (84). Выпуск 15/1

Рг = хАгхТ, (5)

где х = (х\,...,хN)Т - анализируемый отрезок речевых данных; Т - операция транспонирования.

Данный математический аппарат можно использовать для осуществления избирательного воздействия на выбранные частотные интервалы на основе субполосного преобразования путем формирования составной матрицы, которая вычисляется как сумма субполосных матриц, соответствующих выбранным частотным интервалам, составляющим заданную долю энергии т:

Ат = IА,, (6)

I=1

где А^ - субполосные матрицы, соответствующие тем частотным интервалам, которые составляют заданную долю энергии т.

Составная матрица обладает полным системой ортонормальных собственных векторов (7), соответствующих неотрицательным собственным числам (8):

от = ^ — чтм }, (7)

LE = ^^ЕЬ- ^ЕМ ) . (8)

Собственные числа количественно равны сосредоточенным в выбранных частотных интервалах долям энергий, соответствующих собственным векторам и удовлетворяют условию:

0<< 1,к = 1,...,N. (9)

Субполосное преобразование осуществляется следующим образом:

Ут=4^тОТх, (10)

где х = (Х1,...,хм)Т - анализируемый отрезок речевых данных;

Т

01е - матрица собственных векторов;

LЕ - собственные числа, соответствующие собственным векторам.

Имеет место обратное субполосное преобразование:

х = отут . (11)

Для оценки эффективности разработанного метода проводились вычислительные эксперименты по оценке погрешности [9] аппроксимации отрезков исходного речевого сигнала в выбранных частотных интервалах (13). В качестве исходных были использованы речевые данные, полученные в результате записи естественной речи различных дикторов, из которых выделялись отрезки, соответствующие определенным звукосочетаниям. Для проводимых экспериментов параметры для исследования речевого материала - количество частотных интервалов R=l6 и длительность анализируемого отрезка N=160.

8 =

X * Аг * ХТ

где X - исходный отрезок речевого сигнала;

X - восстановленный отрезок речевого сигнала; Аг - субполосная матрица вида (3).

(X -X)* Аг *(X -Х)Т , (12)

В табл. 1 приведены типичные результаты по оценке погрешности восстановления исходного отрезка речевого сигнала при использовании составной матрицы и КИХ-фильтра. При проведении вычислительных экспериментов величина параметра т для составной матрицы изменялась в диапазоне от 0,84 до 0,98, для КИХ-фильтра была выбрана длительность импульсной характеристики 5 = 1024.

Таблица 1

Погрешность восстановления исходного отрезка речевого сигнала в заданных частотных интервалах

Номер частотного Погрешность восстановления исходного отрезка речевого

интервала сигнала в заданных частотных интервалах

предлагаемый метод КИХ-фильтр (51024)

1 2,9896*10^5 0,14154

2 1,5425*10-15 0,11291

3 1,2771*10-15 0,24117

4 4,3957*10-15 0,44707

5 4,9288*10-15 0,7355

6 1,10З8*10-15 0,4721

7 1,6473*10-15 0,18875

8 1,1405*10-14 0,58453

9 1,1175*10-14 0,39325

10 2,1б45*10-14 0,36162

11 8,2484*10-14 0,86369

12 3,7525*10-14 0,26371

13 6,0482*10-14 0,47618

14 3,0724*10-14 0,30675

15 1,8253*10-14 0,4378

16 1,9927*10-14 0,68117

По результатам проведенных вычислительных экспериментов можно судить о значительном превосходстве предлагаемого метода субполосного преобразования перед субполосным преобразованием на основе КИХ-фильтров.

На рис. 2 представлены типичные результаты вычислительных экспериментов по апробации разработанного метода.

а) б)

Рис. 2. Отрезок речевого сигнала, соответствующий звуку «а»: а) сплошная линия - исходный сигнал; пунктир (маркер точка) - восстановленный

сигнал с использованием составной матрицы (СМ) при т = 1; б) пунктирная линия - исходный сигнал; пунктир (маркер точка) - восстановленный сигнал с использованием банка КИХ-фильтров

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Серия История. Политология. Экономика. Информатика. 2010. № 13 (84). Выпуск 15/1

Как видно из приведенных рисунков, форма сигнала, восстановленного с использованием составной субполосной матрицы, с высокой точностью повторяет форму исходного сигнала в отличие от сигнала, восстановленного с использованием банка КИХ-фильтров. Таким образом, можно утверждать о том, что при использовании метода субполосного преобразования на основе составной матрицы можно достичь высокого качества воспроизведения исходных речевых сигналов.

Для различных значений параметра т был проведен анализ зависимости количества неотрицательных собственных чисел (8), соответствующих собственным векторам (7), величина которых значительно больше нуля. Результаты представлены на рис. 3.

16 31 46 61 76 91 106 121 136 151 количество собственных чисел

----т=0.98

-- т=0.96-

0.94 -- т=0.92

-т=0.9 -т=0.84

1.2

У 0.8

т=1

0.6

ю

О 0.4

0.2

0

Рис. 3. Величины собственных чисел при различных значениях параметра т (звук «а»)

В табл. 2 приведены данные о количестве собственных чисел, величина которых значительно больших нуля (>0.01), при различных значениях параметра т.

Таблица 2

Количество собственных чисел, больших нуля при различных значениях параметра m (звук «а»)

Величина доли энергии Количество собственных чисел,

(т) значительно больших нуля (>0.01)

1 160

0,98 81

0.96-0,94 71

0,92 57

0,9-0,86 49

0.84 38

Так как собственные числа численно равны энергии собственного вектора, па-падающей в заданный частотный интервал, то при осуществлении субполосного преобразования можно пренебречь теми собственными векторами, собственные числа которых близки к нулю. Таким образом, можно уменьшить длину вектора субполосного преобразования, а следовательно, и объем данных, необходимых для хранения или передачи в 2-4 .

Субполосное преобразование осуществляется по формуле:

где х = (х1,...,хм )т — анализируемый отрезок речевых данных;

Оте - матрица собственных векторов, собственные числа которых больше нуля.

Обратное субполосное преобразование будет осуществляться по формуле:

х = Ое у1Е . (14)

Ниже, в табл. 3, приведены результаты вычислительных экспериментов по оценке погрешности восстановления исходного отрезка речевого сигнала (12) с использованием составной субполосной матрицы при различных значениях параметра т. Номера частотных интервалов упорядочены в соответствии с величиной доли энергии, содержащейся в них.

Таблица 3

Погрешность восстановления отрезка речевого сигнала, соответствующего звуку «а», при различных значениях m

Номер частотного интервала да Задаваемая доля общей энергии, которая сосредоточена в минимальном количестве частотных интервалов (т)

1 0.98 0.96 0.94 0.92 0.9 0.84

2 1,5425*10-15 0,013274 0,02046 5 0,02046 5 0,02699 3 0,02699 3 0,02699 3

3 1,2771*10-15 0,036811 0,04726 0,04726 0,04687 1 0,04687 1 0,046871

6 1,10З8*10-15 0,010284 0.12446 0.12446 0.12458 0,12934 0.17951

7 1,6473*10-15 0,037149 0,04260 2 0,04260 2 0.04982 5 0.05754 5 —

1 2,989б*10- 15 0,041878 0,06581 4 0,06581 4 0.07026 2 — —

10 2,1б45*10-14 0,13488 0,138 0,138 — — —

5 4,9288*1015 0.20619 — - - — —

4 4,3957*10-15

Результаты, приведенные в табл. 3, свидетельствуют о том, что избирательное воздействие на выбранные частотные интервалы с использованием составной субполосной матрицы позволяет достигать меньших величин погрешности восстановления исходных речевых данных по сравнению с КИХ-фильтром, даже при уменьшении параметра т.

Как видно из рис. 4, форма отрезка речевого сигнала, восстановленного с использованием составной матрицы, даже при величине параметра т=о,92 достаточно близка к форме исходного отрезка речевого сигнала. Этот факт позволяет говорить о целесообразности использования такого подхода в задачах обработки речевых данных и конкретно в задаче сжатия, т.к. близость формы восстановленного сигнала к исходной позволяет говорить о достаточно высокой степени разборчивости и узнаваемости диктора.

Серия История. Политология. Экономика. Информатика. 2010. № 13 (84). Выпуск 15/1

Длительность фрагмента сигнала (отсчетов)

Рис. 4. Отрезок речевого сигнала, соответствующий звуку «А»: пунктирная линия - исходный сигнал; пунктир (маркер точка) - восстановленный сигнал с использованием составной матрицы (СМ) при т = 0,92

Выводы

Проведенные вычислительные эксперименты показали высокую эффективность разработанного метода с позиции сжатия речевых данных при сохранении заданного качества воспроизведения. Экспериментально было установлено, что предлагаемый метод избирательного воздействия на частотные компоненты речевого сигнала на основе использования суммы субполосных матриц обладает малой погрешностью восстановления. Таким образом, использование этого метода позволяет со значительной степенью точности восстановить исходный отрезок речевых данных. Этот факт позволяет утверждать о сохранении высокой степени разборчивости и узнаваемости в восстановленных речевых сообщениях.

Работа выполнена в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы (мероприятие 1.3.2 шифр лота: 20101.3.2-214-005, шифр заявки: 2010-1.3.2-214-005-020).

Литература

1. Ковалгин, Ю.А. Цифровое кодирование звуковых сигналов: учеб. пособие / Ю. А. Ковалгин, Э. И. Вологдин // СПб. : КОРОнА-принт, 2004. - 240 с.

2. Жиляков, Е.Г. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений: моногр. / Е.Г. Жиляков, С.П.Белов, Е.И. Прохоренко / / Белгород, 2007. - 136 с.

3. Шелухин, О.И. Цифровая обработка и передача речи / О.И. Шелухин, Н.Ф. Лукь-янцев; под ред. О.И. Шелухина / / М.: Радио и связь, 2000. - 456с.: ил.

4. Болдышев А.В. О различиях распределения энергии звуков русской речи и шума /А.В. Болдышев, А.А. Фирсова // Материалы 12-й Междунар. конф. и выставки «ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ и ЕЁ ПРИМЕНЕНИЕ - DSPA'2010» 31 марта - 02 апреля 2010 года, г. Москва.

5. Прохоренко Е.И. Новый метод оптимального субполосного преобразования в задаче сжатия речевых данных / Е.И. Прохоренко, А.В. Болдышев, А.А. Фирсова, А.В. Эсауленко // Журнал «Вопросы Радиоэлектроники», серия электроника и вычислительная техника (ЭВТ). Выпуск №1 Москва 2010. с. 49-55.

6. Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. / Е.Г. Жиляков. - Белгород: Изд-во, 2007. - БелГУ, 2007.- 160.

7. Жиляков, Е.Г. Вариационные методы частотного анализа звуковых сигналов / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Труды учебных заведений связи. - СПб, 2006. -№ 174. - С.163-170.

8. Гантмахер, Ф.Р. Теория матриц / Ф.Р. Гантмахер. - М.: Физматлит, 2004. - 560 с.

9. Сизиков, В.С. Математические методы обработки результатов измерений: учебник для вузов / В.С. Сизиков. - СПб.: Политехника, 2001.

ABOUT ELECTORAL AFFECTING TO FREQUENCY COMPONENTS OF SPEECH SIGNALS IN RESOLVE OF COMPRESSION

Belgorod State University

A. V. BOLDYSHEV

e-mail:

[email protected]

In the article expounded the new method of the electoral affecting on frequency components of speechl signals, based on the use of subband transformations on component frequency intervals. The results of calculable experiments are resulted as evaluated by efficiency of the developed method.

Key words: informatively-telecommunication technologies, compression of speech data, sub-band transformation, frequency interval, set parts of energy.

i Надоели баннеры? Вы всегда можете отключить рекламу.