Научная статья на тему 'Метод сжатия речевых данных на основе оптимального субполосного преобразования по составным частотным интервалам'

Метод сжатия речевых данных на основе оптимального субполосного преобразования по составным частотным интервалам Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
174
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод сжатия речевых данных на основе оптимального субполосного преобразования по составным частотным интервалам»

УДК 621.391.037.372

МЕТОД СЖАТИЯ РЕЧЕВЫХ ДАННЫХ НА ОСНОВЕ ОПТИМАЛЬНОГО СУБПОЛОСНОГО ПРЕОБРАЗОВАНИЯ ПО СОСТАВНЫМ ЧАСТОТНЫМ ИНТЕРВАЛАМ

А.В. БОЛДЫШЕВ

Белгородский

государственный

университет

В статье изложен подход к сжатию речевых данных на основе квантования по уровню оптимальных субполосных преобразований отрезков речевых сигналов по составным частотным интервалам. Приведены результаты вычислительных экспериментов по оценке эффективности разработанного метода.

e-maih 1ю[email protected] Ключевые слова: информационно-телекоммуникационные тех-

нологии, сжатие речевых данных, оптимальное субполосное преобразование, составные частотные интервалы, заданная доля энергии.

Введение

Информационный обмен является важнейшим средством развития общественных процессов, включая производственные силы. Одной из наиболее удобных и естественных форм информационного обмена для человека являются речевые конструкции (речевые сообщения). Реализация информационного обмена речевыми сообщениями, включая их архивное хранение и передачу, осуществляется с помощью компьютерных технологий. При этом речевые сигналы хранятся и передаются в виде некоторых кодовых комбинаций, совокупность которых естественно называть речевыми данными. Совокупность бит, используемых для кодирования речевых данных, называется объемом битовых представлений. На сегодняшний день актуальной считается проблема выбора такого способа кодирования, который обеспечивает минимум объемов битовых представлений хранимых и передаваемых данных при сохранении приемлемого, с точки зрения пользователя, качества воспроизведения исходных речевых сообщений. Решение этой проблемы позволяет минимизировать затраты объемов компьютерной памяти для хранения данных и времени их передачи в информационно-телекоммуникационных системах (ИТС).

В качестве примера можно указать следующие направления и области использования ИТС, для которых эта проблема имеет существенное значение:

- корпоративные информационно - телекоммуникационные системы, в которых используются средства аудио и видео конференцсвязи;

-

порты, видеонаблюдение, вокзалы и т.п.);

-

голосовая почта, системы экспресс сообщений);

-

ствия, в том числе системы дистанционного образования;

-

Таким образом, проблема уменьшения объемов битовых представлений речевых данных (сжатия) является актуальной, а её решение позволит существенно повысить эффективность использования средств ИТС при реализации современного информационного обмена на основе речевых сообщений.

Теоретические основы

Одной из особенностей звуков русской речи является сосредоточенность энергии в достаточно узких частотных диапазонах, суммарная ширина которых гораздо меньше частоты дискретизации [1,2]. Эта особенность может быть использована в раз-

Серия История. Политология. Экономика. Информатика. 2011. № 1 (96). Выпуск 17/1

личных направлениях области обработки речевых сообщений: сжатие речевых данных, обнаружение и кодирование пауз, распознавание речи, повышения качества звучания речевых сообщений. В [3,4] приведены результаты исследований по оценке частотной концентрации звуков русской речи, т.е. оценке минимального количества частотных интервалов, в которых сосредоточена заданная доля энергии. Результаты проведенных исследований показали, что для большинства звуков русской речи величина частотной концентрации составляет порядка 0.35 и только для шумоподобных звуков -порядка 0.55-0.60. Полученные сведения о количестве и расположении частотных интервалов, в которых сосредоточена заданная доля энергии, можно осуществить сжатие речевых данных за счет хранения только составляющих речевого сигнала, соответствующих этим частотным интервалам.

Одним из способов получения составляющих речевого сигнала, соответствующих выбранным частотным интервалам является субполосное преобразование. В настоящее время наибольшее распространение получил метод субполосного преобразования на основе банка КИХ-фильтров, однако, этот метод обладает рядом недостатков, которые приводят к увеличению погрешностей восстановления данных [5].

В ряде публикаций [5,6] описывается метод субполосного преобразования, оптимальный с точки зрения минимума среднеквадратической погрешности аппроксимации трансформант Фурье исходного отрезка речевого сигнала в заданном частотном интервале, также в них показаны преимущества этого метода перед современными аналогами. В основе метода лежит математический аппарат с использованием субполосной матрицы вида:

А = {аггк) = (I - к)) - мпО^О' - к))}/п(1 - к),I, к = 1,.., N , (1)

где уг и vr_1 верхняя и нижняя границы частотного интервала.

Эта матрица является симметричной и неотрицательно определённой, поэтому она обладает полной системой ортонормальных собственных векторов, соответствующих неотрицательным собственным числам [7].

Этот математический аппарат можно использовать для получения компонент исходного речевого сигнала, соответствующих выбранным частотным интервалам. Для этого необходимо сформировать специальную составную матрицу, которая вычисляется как сумма субполосных матриц, соответствующих выбранных частотным интервалам, составляющих заданную долю энергии т:

А>> С2)

¿=1

где Iт - минимальное количество частотных интервалов, в которых сосредоточена заданная доля энергии отрезка речевого сигнала;

t - обозначает один из анализируемых речевых отрезков, порождаемых звуком русской речи; R - количество частотных интервалов, на которые разбивается частотный диапазон; N - длительность анализируемого отрезка; т - доля общей энергии, задаваемая для определения минимального количества частотных интервалов, в которых она сосредоточена[з]; А1 - субполосные матрицы, соответствующие тем частотным

интервалам, которые составляют заданную долю энергии т.

Составная матрица обладает полным системой ортонормальных собственных векторов (3), соответствующих неотрицательным собственным числам (4):

01= {Ч И, Чц,--, qEN Ь (3)

= ^ (Яп,..,^). (4)

Необходимо отметить, что собственные числа количественно равны сосредоточенным в выбранных частотных интервалах долям энергий соответствующих собственных векторов и удовлетворяют условию:

0 <АЕк < 1,к = 1,...,N. (5)

Для того, чтобы получить субполосный вектор, который будет отражать частотные свойства исходного отрезка речевых данных можно воспользоваться следующим выражением:

Л =4L^QIX, (6)

где X = (Xj,...,xN)T - анализируемый отрезок речевых данных; QZ - матрица собственных векторов; ~ корень из диагонального элемента, соответствующего определенному собственному вектору.

Энергию отрезка речевого сигнала сосредоточенную в выбранных частотных интервалах можно определить как [5]:

N

(7)

i=1

С точки зрения сжатия речевых данных, можно поставить задачу нахождения минимального количества собственных значений составной матрицы, при оставлении которых будет достигаться максимальная степень сжатия. Сжатие исходных речевых данных будет осуществляться за счет хранения вектора значений размерностью равной минимальному количеству ненулевых собственных значений. При этом важным условием является минимизация погрешности восстановления исходного отрезка речевых данных, т.е. обеспечение высокого качества воспроизведения исходного речевого сообщения.

Представим выражение (7) в виде двух слагаемых:

Jz N

P=Z у2Л + £ у2А> (8)

i=1 i=J z+1

J z

где £ y2iÄi - первое слагаемое, в котором Äi - собственные значения суммарной мат-

i=1

N

рицы, величина, которых достаточно большая, £ у^.Д. - второе слагаемое, в котором

i=J z+1

Äi - собственные значения суммарной матрицы, величина, которых достаточно мала (близка к о).

Доля этой энергии, которую составляет второе слагаемое, настолько мала, что предполагается ей можно пренебречь без получения существенных искажений. Таким образом, для оценки минимального количества собственных значений jz, необходимых для восстановления исходного отрезка речевого сигнала без существенных потерь, можно использовать следующее выражение:

£л / £ л * с, (9)

i=1 i=1

где с - некий порог, который показывает, какую долю составляют собственные значения, величина которых близка к о.

В качестве примера в таблице 1 приведено минимальное количество собственных значений jz для звука русской речи «Б». При проведения экспериментальных исследований были выбраны следующие параметры: порог с = 0.89 ^ 0.995, длительность отрезка речевых данных N=160, количество частотных интервалов R=i6, заданная доля энергии отрезка речевого сигнала т=о.86^0.98 в скобка указан параметр N).

Как видно из приведенных результатов вычислительных экспериментов, минимальное количество собственных значений составной матрицы для данного звука в среднем составляет порядка 40, что позволяет говорить о возможность четырехкратного сокращения объема памяти, требуемого для хранения сведений о данном звука.

Ниже на рис. 1 приведена полученная степень сжатия для всех звуков русской речи. Степень сжатия определялась следующим образом [8]:

К = N / J*. (ю)

Таблица 1

Звук «Б», N=160, R=l6

^орог~с ——— 0.86-0.92 (2) 0.94 (3) 0.96-0.98 (4)

0.89 18 27 36

0.9-0.91 19 28 37

0.92 19 29 37

0.93-0.94 19 29 38

0.95- 0.96 20 30 39

0.97 20 31 39

0.98 21 32 40

0.99 21 33 41

0.995 22 34 41

С учетом выбора порога с, выражения для получения вектора субполосного преобразования примет вид:

= (и)

где X = (х1з...,xN)т - анализируемый отрезок речевых данных, ^ - матрица собственных векторов, количество которых соответствует *

АБВГДЕЁЖЗИИКЛМНОПРСТУФХЦЧШЩЫЭЮЯ звуки русской речи

Рис. 1. Степень сжатия для различных звуков русской речи (с=о.92, т=о.92)

Для увеличения степени сжатия можно подвергнуть полученные вектора (и) квантованию по уровню. Ниже в таблице 2 приведены результаты экспериментальных исследований по оценке степени сжатия при использовании процедуры квантования по уровню для звука «Б». В качестве примера в таблице 2 приведены результаты для следующих параметров: т=о.86^0.98, с=0.92, количество разрядов квантования п=1^5. Коэффициент сжатия определялся следующим образом:

Ксж = Уисх / Усж > (12)

где ¥исх - объем отрезка исходного сигнала, соответствующего определенному звуку,

который определяется количеством бит, требуемых для хранения отсчетов исходной последовательности на жестком носителе;

Уж - объем сигнала, соответствующего определенному звуку, полученного в результате преобразования, определяемый количеством бит, которые должны быть выделены в памяти ЭВМ для хранения квантованных значений у*, так и служебной информации, в которую включаются данные о параметрах квантования и сведения о номе-

т

Таблица 2

Звук «Б», с=0.92

т 0.86 0.88 0.9 0.92 0.94 0.96 0.98

п=5 9.27 9.27 9.27 9.27 6.46 5.20 5.20

п=4 10.76 10.76 10.76 10.76 7-57 6.12 6.12

п=3 12.80 12.80 12.80 12.80 9.14 7-44 7-44

П=2 15.80 15.80 15.80 15.80 11-53 9.48 9.48

П=1 20.64 20.64 20.64 20.64 15.61 13.06 13.06

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Как видно из приведенной таблицы, использование квантования по уровню результатов субполосного преобразования позволяет значительно увеличить коэффициент сжатия исходных речевых данных.

Ниже на рис. 2 приведены результаты вычислительных экспериментов для всех звуков русской речи, при с=0.92, т=о.92, п=1,2.

а) б)

Рис. 2. Степень сжатия для различных звуков русской речи (с=о.92, т=о.92), а) п=2, б) п=1

Приведенные в табл. 2 и на рис. 2 результаты показывают, что предлагаемый подход к сжатию речевых данных позволяет добиться высоких показателей степени сжатия.

Таблица 3

Результаты сжатия различных речевых сигналов

Исходный речевой сигнал Коэффициент сжатия

Отрывок новостей Количество разрядов квантования

1 2 3 4 5

30,04 21,63 16,9 13,87 и,7б

Оценка качества воспроизведения

4,0 I 4Д 1 4,2 I 4,2 I 4,3

Фраза №1 диктор мужчина (Системы синтеза речи, традиционно классифицируются по способу генерации речевых сигналов) Количество разрядов квантования

1 2 3 4 5

18 13Д5 ю,37 8,55 7,28

Оценка качества воспроизведения

4 | 4Д 1 4,2 | 4,2 | 4,3

Фраза №1 диктор женщина Количество разрядов квантования

1 2 3 4 5

18,18 14Д5 11,09 8,95 7,52

Оценка качества воспроизведения

4 | 4Д 1 4Д 1 4,2 | 4,3

Отрывок из диалога двух людей Количество разрядов квантования

1 2 3 4 5

20,5 14,35 11,12 9,07 7,66

Оценка качества воспроизведения

4Д 1 4Д 1 4,2 I 4,2 I 4,3

Еще одним немаловажным критерием оценки методов сжатия речевых данных является оценка качества воспроизведения подвергнутых процедуре сжатия записей. Для оценки качества воспроизведения была использована шкала объективной оценки MOS [9,10]. Результаты оценки некоторых звукозаписей, подвергнутых сжатию, приведены в таблице 3.

Выводы. Проведенные вычислительные эксперименты показали высокую эффективность предлагаемого подхода к сжатию речевых данных. Предлагаемый метод позволяет сократить исходный объем речевых данных до 20-30 раз при сохранении достаточно высокого качества воспроизведения.

Работа выполнена в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы ГК№ 14.740.11.0494 от 01 октября 2010.

Литература

1. Жиляков, Е.Г. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений: моногр. / Е.Г. Жиляков, С.П.Белов, Е.И. Прохоренко // Белгород, 2007. - 136 с.

2. Шелухин, О.И. Цифровая обработка и передача речи / О.И. Шелухин, Н.Ф. Лукьян-цев; под ред. О.И. Шелухина // М.: Радио и связь, 2000. - 456 е.: ил.

3. Болдышев A.B. О различиях распределения энергии звуков русской речи и шума / A.B. Болдышев, A.A. Фирсова // материалы 12-ой Международной конференции и выставке «ЦИФРОВАЯ ОБРАБОТКА СИГНАЛОВ и ЕЁ ПРИМЕНЕНИЕ - DSPA2010» 31 марта - 02 апреля 2010 года, г. Москва.

4. Прохоренко Е.И. Метод сжатия речевых данных на основе составной субполосной матрицы / Е.И. Прохоренко, AB. Болдышев, AB. Эсауленко // Журнал «Вопросы Радиоэлектроники», серия электроника и вычислительная техника (ЭВТ). Выпуск №1 Москва 2011. - С. 60-72.

5. Жиляков, Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. / Е.Г. Жиляков. - Белгород: Изд-во, 2007. - БелГУ, 2007.- 160.

6. Жиляков, Е.Г. Вариационные методы частотного анализа звуковых сигналов / Е.Г. Жиляков, С.П. Белов, Е.И. Прохоренко // Труды учебных заведений связи. - СПб, 2006. -№ 174. - С. 163-170.

7. Гантмахер, Ф.Р. Теория матриц / Ф.Р. Гантмахер. - М.: Физматлит, 2004. - 560 с.

8. Сизиков, B.C. Математические методы обработки результатов измерений: учебник для вузов / B.C. Сизиков. - СПб.: Политехника, 2001.

9. Recomendation Р.800. Methods for subjective determination transmission quality [Электронный ресурс] //http://www.itu.int: Международный союз электросвязи

10. Тропченко А.Ю., Тропченко A.A. Методы сжатия изображений, аудиосигналов и видео [текст]: Учебное пособие - СПб: СПбГУ ИТМО, 2009. - 108 с.

COMPRESSION OF SPEECH DATA BASED ON THE OPTIMAL SUBBAND TRANSFORMATION OF COMPOSITE FREQUENCY INTERVALS

A.V. BOLDYSHEV ^he article describes approach to compression of the speech data

based on the quantization level of optimal subband transformations seg-

Belgorod State University ments of speech signals in a composite frequency intervals. Results of

computational experiments to evaluate the effectiveness of the method.

e-mail: [email protected]

Key words: Information and communication technology, speech data compression, optimal subband transformation, compound frequency intervals, given part of the energy.

i Надоели баннеры? Вы всегда можете отключить рекламу.