УДК 004.94
DOI 10.18413/2411-3808-2019-46-4-700-709
ОБ ИСПОЛЬЗОВАНИИ СУБПОЛОСНОГО АНАЛИЗА И СИНТЕЗА СИГНАЛОВ В ОБЛАСТИ ОПРЕДЕЛЕНИЯ КОСИНУС-ПРЕОБРАЗОВАНИЯ ПРИ РЕШЕНИИ
ЗАДАЧ СЖАТИЯ РЕЧЕВЫХ СИГНАЛОВ
ON THE USE OF SUBBAND ANALYSIS AND SIGNAL SYNTHESIS IN THE FIELD OF DETERMINING THE COSINE TRANSFORM IN SOLVING PROBLEMS OF SPEECH SIGNAL COMPRESSION
Е.Г. Жиляков1, Д.И. Трубицына1, Е.И. Прохоренко1, А.В. Болдышев2 E.G. Zhilyakov1, D.I. Trubitsyna1, E.I. Prokhorenko1, A.V. Boldyshev2
1)1 Белгородский государственный национальный исследовательский университет, Россия, 308015, г. Белгород, ул. Победы, 85 2) Белгородский филиал ПАО «Ростелеком» Россия, 308009, г. Белгород, пр. Б. Хмельницкого, д. 81
1)1 Belgorod National Research University, 85 Pobedy St, Belgorod, 308015, Russia 2) Belgorod branch of PJSC Rostelecom Russia, 308009, Belgorod, 81 B. Khmelnitsky Ave
E-mail: [email protected], [email protected], [email protected],
alexeiboldyshev@mail .ru
Аннотация
В данной статье представлены результаты использования субполосного анализа и синтеза речевых сигналов в области определения косинус-преобразования. Выявлены некоторые свойства субполосных матриц, произведена оценка собственных чисел и собственных векторов субполосных матриц в области определения косинус преобразования. Приведены примеры собственных векторов субполосной матрицы как во временной области, так и в частотной области. На основе того, что процедура субполосного преобразования является обратимой, выполнено восстановление исходного вектора по небольшому количеству вещественных чисел. Представлены результаты восстановления речевого сигнала.
Abstract
Information exchange based on speech is the most natural for a person, so you can observe a steady increase in the volume of speech data (sound recordings of lectures, audiobooks, sound warning systems in railway and bus stations, airports, voice assistants, navigation systems, podcasts) in information and telecommunication systems. The emergence of the need to store long-term records makes it advisable to compress them, which is reduced to the procedure of transcoding the speech data of the source file, in which the volume will be less than the original. Therefore, it seems appropriate to develop a method of data compression that allows you to effectively reduce the amount of bit representations of the segment of the speech signal. This article presents the results of the use of subband analysis and synthesis of speech signals in the field of determining the cosine transform. Some properties of subband matrices are revealed, eigenvalues and eigenvectors of subband matrices are estimated in the domain of cosine transformation. Examples of eigenvectors of a subband matrix in both the time domain and the frequency domain are given. Because the subband transformation procedure is reversible, the original vector is reconstructed from a small number of real numbers. The results of speech signal recovery are presented.
Ключевые слова: сжатие речевых сигналов, субполосный анализ, обработка речевых сигналов, косинусное преобразование, субполосные матрицы, собственные числа и вектора. Keywords: speech signal compression, subband analysis, speech signal processing, cosine transform, subband matrices, eigenvalues and eigenvectors.
1. Актуальность
В связи с тем, что информационный обмен на основе устной речи является наиболее естественным для человека, наблюдается устойчивый рост объемов речевых данных (звукозаписи лекций, аудиокниги, системы звукового оповещения в железнодорожных и авто -вокзалах, аэропорты, голосовые помощники, системы навигации, подкасты) в информационно-телекоммуникационных системах, которые выполнят их хранение и передачу [Болдышев, Прохоренко, Эсауленко, 2011; Болдышев, 2013.].
Для выполнения обработки и передачи речевых сообщений средствами компьютерной техники необходимо преобразовать его в цифровой формат, т. е. выполнить дискретизацию по времени и по уровню речевого сигнала. Под речевым сигналом понимается результат регистрации электромагнитных колебаний, получаемых на выходе микрофона в результате воздействия акустических колебаний [Жиляков, Белов, Прохоренко, 2005; Жиляков, Белов, Прохоренко, 2007].
Объём сохраняемых данных составляет:
К = /Д • п • Г, (бит),
где /Д - частота дискретизации; п - размерность двоичного кода одного отсчета; Т - время регистрации данных.
Тогда для хранения двадцатичетырехчасовой записи переговоров диспетчерских служб при частоте дискретизации /д = 8 кГц и уровню квантования, равному 8 бит, потребуется величина, равная:
V = 8 000 • 8 • 86 400 = 5 529 600 бит = 5,5 • 109 бит.
Таким образом, необходимость хранения длительных записей делает целесообразным их сжатие, что сводится к процедуре перекодирования речевых данных исходного файла, при котором объем будет меньше, чем у исходного.
Известными способами сокращения объемов речевых данных являются кодирование пауз (УАО), использование методов линейного предсказания, кодирование данных на основе кодеков МР-3, ООО и т. д. Современные методы кодирования пауз являются недостаточно эффективными, так как не позволяют с высокой точностью определить начало и конец паузы. Методы линейного предсказания нашли применение в системах 1Р-телефонии и мобильной связи. Данный метод позволяет стандартизовать количество коэффициентов линейного предсказания р=8-12 и создать кодовые книги. Однако в связи с этим теряется узнаваемость диктора и возникают сложности с адекватным определением возбуждающего воздействия. Методы на основе субполосного кодирования приспособлены в основном для обработки музыкальных данных, что не позволяет учитывать присутствие пауз в речевых сообщениях [Сергеенко, Баринов, 2009; Трубицына, 2015; Шелухин, Лукьянцев, 2000].
Поэтому представляется целесообразным разработать такой метод сжатия данных, который позволяет с высокой точностью определять начало и конец паузы и позволит уменьшить объем битовых представлений отрезка речевого сигнала в присутствии речи. Для достижения высокой эффективности сжатия необходимо использовать математический аппарат, адекватно отражающий свойства речевых сигналов, которые обусловлены нестационарностью речевых сигналов и высокой концентрацией энергии их отрезков в малой доле частотной полосы. Последнее свойство соответствует представлению о том, что слуховой аппарат человека функционирует, как набор фильтров с пересекающимися частотными характеристиками, что позволяет выделять информационные компоненты, отражающие свойства звуков речи [Жиляков, Белов, Прохоренко, 2007; Фирсова, 2013].
Таким образом, адекватным подходом к решению задачи сжатия речевых данных является субполосный анализ, позволяющий исключить компоненты речевого сигнала, слабо влияющие на восприятие речевых сообщений (неинформационные компоненты) и синтезировать (восстанавливать) речевые сообщения на основе сохранения информационных компонент [Болдышев, 2013; Прохоренко, Болдышев, Фирсова, Эсауленко, 2010].
2. Субполосный анализ и синтез дискретных сигналов с использованием
косинусного преобразования
Для реализации субполосного подхода предлагается использовать косинусное преобразование [Белов, Жиляков, Коськин, Трубицына, 2019.] следующего вида:
X(z)=ï?=1xicos(zi), (1)
которое является периодическим и поэтому в качестве области определения рассматривается следующий интервал оси z
ze[0,2n], (2)
где х = (х1,х2,... ,Xi,... ,xN )т (T- символ транспонирования) - отсчеты анализируемого речевого сигнала.
Ввиду справедливости тригонометрического тождества:
cos((2n — z)i) = cos(zi), (3)
имеет место симметрия:
X(z) = X(2n — z),0<z<n. (4)
Данное свойство позволяет рассматривать только половину области определения (2). В свою очередь справедливо свойство ортогональности:
2 f^ cos(zi) cos(zm) dz/n = ôim, (5)
где öim - символ Кронекера.
_ f1,i = m öim=l0,i*m •
Поэтому справедливо и обратное преобразование следующего вида:
xm = 2 f^ X(z) cos(zm) dz/n, (6)
и равенство Парсеваля относительно эвклидовых норм (энергии):
Y3=ixl[ = 2fiX2(z)dz/it, (7)
N - количество отсчетов в окне анализа.
Соотношение (7) можно представить в субполосном виде:
m2 = Y.hxl = i?=iPr ($)> (8)
Рг(х) = 2 f*2-r-1 X2 (z)dz/n, г = 1,.., R, (9)
%1,0 = 0, %2,R-1 = п, < %2,i•
В дальнейшем характеристику вида (9) будем именовать частью энергии отрезка сигнала, попадающей в соответствующий частотный интервал.
С позиций анализа сигналов представляется целесообразным использовать концентрацию энергии в узкой частотной доле частотной полосы, т. е. справедливость неравенства:
7 = 1-ZreL1^r (*)/№« 1, (10)
где Lj - некоторое подмножество частотных интервалов, причем
int|Li| < R (11)
и
ZreLi(^2,r-i-^i,r-i)/^«1, (12)
где символ int означает мощность множества (количество частотных интервалов).
Подставив в (9) определение (1), нетрудно получить представление для части энергии:
Pr(x) = xTßrx,r = 1,...,й , (13)
где ßr - субполосная матрица вида:
ßr = + Сг, (14)
где = (affc) - субполосная матрица , элементы которой определяются в соответствии с соотношениями [2]:
affc = (sin(Z2r(i — fc) — sin(Z1r(i — fc)))/^(t — fc), (15)
Cr = (c[fc) - элементы матрицы Cr вычисляются в соответствии с соотношениями:
c[fc = (sin(Z2r(i + fc) — sin(Z1r(i + fc)))/rc(i + fc). (16)
Соотношение (13) позволяет вычислить части энергии непосредственно в области значений речевых сигналов.
С каждым из частотных интервалов можно связать векторы, удовлетворяющие вариационному требованию:
F(x,y) = min(F(x,u),V и е ßw, (17)
где (Р(х,Й) = |ВД - + |У(2)|2^/2я;
^(Ю = Е¿l1u¿cos(zi);
^г = [^1,г, ^2,г) - частотный интервал.
Решением вариационной задачи (17) является вектор:
уг = 5гх, (18)
причем имеют место аддитивные свойства:
Х = 2«=1УГ, (19)
и выполняется равенство
= 2 ^(г) cos(íz)dz/я, (20)
то есть компоненты слагаемых (18) полностью определяются соответствующими отрезками трансформанты косинус-преобразования.
Концепция исключения неинформационных компонент при сжатии реализуется заменой (17) приближенным представлением:
х — хв = Еге^Уг, (21)
которое определяет и способ синтеза при восстановлении сообщений.
Для реализации этой концепции целесообразно воспользоваться свойствами субполосной матрицы (14).
3. Некоторые свойства субполосной матрицы
Субполосная матрица вида (14) является симметричной и неотрицательно определенной. Поэтому она обладает полной системой ортонормальных собственных векторов , соответствующих неотрицательным собственным числам кг и удовлетворяющих соотношениям (21), (22), (23):
к1г91г = Вг91г; (21)
(91г>9кг) = ^тп=1 9т1 ' 9тк = 1,1 = к; (21)
(91г'9кг) = 0Л^к. (22)
Для простоты полагаем, что неотрицательные собственные числа, соответствующие им собственные векторы, упорядочены по убыванию:
к1г > к2г>...> кМг > 0. (23)
Для симметричной матрицы существуют собственные векторы д^, которые соответствуют собственным числам к £г, так что справедливо представление:
Вг = ^=1к1Г91Г91Г = СГНГСГ , (24)
где вг = (91г, ■■,93ыг) - ортонормированная матрица собственных векторов, причем
вгт вг = СГСГТ = I = й1а9(1, ■..,!), (25)
Н = й1а9(кг1г, к2г, ■.., кЫг) - диагональная матрица собственных чисел.
Трансформанты косинусного преобразования собственных векторов являются ортогональными в выбранном частотном интервале:
2 вь-ф Скг(г) йг = 0Л±к, (26)
2 \С1Г^)\2й1/п = 1,1 = 1,..,N , (27)
к1г = 2%\С1г^)\2йг/п, (28)
Здесь в^^г) - трансформанта косинусного преобразования собственного вектора 91Г, которая определяется в соответствии с соотношением:
^гОО = 1У=191Гсоз(г1). (29)
Таким образом, собственные числа количественно равны сосредоточенным в выбранных частотных интервалах долям энергий соответствующих собственных векторов, которые обладают свойством двойной ортогональности (26), (27).
Причем из справедливости равенства Парсеваля (7) получаем важное неравенство:
к1г<2%\С1г&\2йг/п=1. (30)
Так как вся область определения косинус-преобразования включает частотный интервал 2Г, тос учетом (26) из (27) получаем неравенство:
0<к1г <1, ¿ = 1,..^, (31)
которое определяет диапазон изменений значений собственных чисел.
В современных алгоритмах кодирования длина окна анализа выбирается порядка 16-20 мс, что соответствует 128-160 отсчетам при частоте дискретизации /д= 8 кГц. Выбор окна анализа N = 128 отсчетов обусловлен тем, что в среднем длительность гласных звуков 15 мс, а согласные от 8 до 30 мс, и это поможет избежать захвата фрагментов, соответствующих другим звукам. Количество частотных интервалов выбирается R = л-/(4л-/М) [Санников, 2003; Сапожков, Михайлов, 1983].
Исследования проводились при N = 128, R=32, ширина частотного интервала равна Дг= 4л"/М, выбор данной длины обусловлен тем, что хотя бы один собственный вектор должен быть близок к единице.
В таблице 1 приведены значения собственных чисел для первого частотного интервала субполосной матрицы ßr.
Таблица 1 Table 1
Значения собственных чисел при ширине частотного интервала Дг= Z2,r-1 - Z1r-1 = N = 128, R = 32 The values of the eigenvalues when the width of the frequency interval Дг= Z2r-1 - Z1r-1 = N = 128, R = 32
№ Нижняя граница частотного интервала Верхняя граница частотного интервала Собственные числа субполосной матрицы ßr
^2,7—1
1 1,0000
2 0,9996
3 0,9749
4 0,9349
5 0 я/32 0,3099
6 0,0088
7 6,13e-05
8 2,00e-07
9 3,59e-10
10 3,88e-13
В результате вычислительного эксперимента было определено, что величина собственных чисел, индексы которых превосходят:
Л-1 = №2,7-1 - г^-О/гс] - 1 , (32)
[ ] - целая часть числа,
принимают значения близкие к единице.
На рисунке 1 представлены собственный вектор и его энергетический спектр для наибольшего собственного числа субполосной матрицы 5Г из таблицы 1 для частотного интервала от до
Длина собственного вектора, отчётов
а)
_
О 0.1 0.2 0.3 0.4 0.5 0.8 0.7 0.8 О.Э 1
Нормированная частота
б)
Рис. 1. Собственный вектор субполосной матрицы Вг: а) во временной области; б) в частотной области Fig. 1. Eigenvector of a subband matrix Br: a) in time domain; b) in frequency domain
В связи с этим представление субполосной матрицы (24) можно с достаточной степенью точности заменить следующей:
где
.....Л/г1Г), (34)
ненулевые собственные числа субполосной матрицы 5Г,
= (01Г' (35)
собственные вектора субполосной матрицы 5Г.
Соотношение (33) позволяет сократить количество собственных векторов в субполосной матрице косинус-преобразования, что приводит к уменьшению трудоемкости вычислений частей энергии отрезка речевого сигнала и сокращает количество вычислительных операций.
4. Восстановление речевого сигнала
Процедура субполосного преобразования является обратимой, поэтому для восстановления исходного сигнала воспользуемся соотношением (36):
= Е?=1Уг ~ Е^Уг , (36)
где R1 - количество информационных частотных интервалов, в которых сосредоточена подавляющая доля энергии
уг = Вгх = ^¿1^9* ■ (37)
На основе вектора у можно восстановить исходный вектор Хв в соответствии с соотношением:
ХВ = = 91г , (38)
где
01г = (хм,д1г)л = 1, ...,]Г1, (39)
- проекции исходного вектора хн на отображение собственных векторов.
Таким образом, информация о левой части полностью содержится в коэффициентах при собственных векторах субполосной матрицы косинус-преобразования в его правой части, что позволяет осуществить восстановление исходного вектора на основе небольшого количества вещественных чисел, и значениями собственных чисел из таблицы 1, которые остаются неизменными.
На рисунке 2 представлен фрагмент восстановленного и исходного речевого сигнала.
Рис. 2. Фрагмент сигнала, соответствующий звуку «И» (пунктирная линия - исходный сигнал,
сплошная линия - восстановленный сигнал) Fig. 2. The fragment of the signal corresponding to the sound "I" (dotted line - the original signal, solid
line - the restored signal)
В ходе экспериментов было определено, что для восстановления речевого сигнала с достаточной степенью разборчивости могут быть использованы три собственных числа, значения которых близки к единице.
Список литературы
1. Белов С.П., Жиляков Е.Г., Коськин А.В., Трубицына Д.И. 2019. Субполосный анализ и синтез сигналов в рамках косинусного преобразования. Информационные системы и технологии, 4 (114): 13-22.
2. Болдышев А.В., Прохоренко Е.И., Эсауленко А.В. 2011. Метод сжатия речевых данных на основе составной субполосной матрицы. Вопросы Радиоэлектроники, серия электроника и вычислительная техника (ЭВТ), 1: 60-72.
3. Болдышев А.В. 2013. Разработка и исследование методов и алгоритмов субполосного кодирования речевых сообщений при хранении и передаче речевых данных. Автореф. дис. ... канд. техн. наук. Белгород, 26.
4. Жиляков Е.Г., Белов С.П., Прохоренко Е.И., Черноморец А.А., Паболкова Н.С. 2010. Моделирование речевых сигналов на основе частотных представлений. Белгород. ООО «ГиК», 158.
5. Жиляков Е.Г., Белов С.П., Прохоренко Е И. 2005. О сжатии речевых сигналов. Вестник Национального технического университета «ХПИ», 56: 32-41.
6. Жиляков Е.Г., Белов С.П., Прохоренко Е И. 2007. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений. Белгород. Издательство БелГУ, 136.
7. Прохоренко Е.И., Болдышев А.В., Фирсова А.А., Эсауленко А.В. 2010. Новый метод оптимального субполосного преобразования в задаче сжатия речевых данных. Вопросы Радиоэлектроники, серия электроника и вычислительная техника (ЭВТ), 1: 49-55.
8. Санников В.Г. 2003. Методы кодирования речевых сигналов. Москва. Инсвязьиздат МТУСИ, 61.
9. Сапожков М.А., Михайлов В.Г. 1983. Вокодерная связь. Москва. Радио и связь, 248.
10. Сапожков М.А. 1963. Речевой сигнал в кибернетике и связи. Москва. Государственное издательство литературы по вопросам связи и радио, 452.
11. Сергеенко В.С., Баринов В.В. 2009. Сжатие данных, речи, звука и изображений в телекоммуникационных системах. Москва. ИП «РадиоСофт», 360.
12. Сергиенко А.Б. 2002. Цифровая обработка сигналов. СПб., Питер, 603.
13.Трубицына Д.И. 2015. 13-ая Курчатовская молодежная научная школа. Москва. Сборник аннотаций 13-ой Курчатовской молодежной научной школы: 176.
14. Фирсова А.А. 2013. Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов. Автореф. дис. ... канд. техн. наук. Белгород, 22.
15.Шелухин О.И., Лукьянцев Н.Ф. 2000. Цифровая обработка и передача речи. Москва. Радио и связь, 456.
References
1. Belov S.P., Zhilyakov E.G., Koskin A.V., Trubitsyna D.I. 2019. Subpolous analysis and synthesis of signals within the framework of cosinus conversion. Information systems and technologies, 4 (114): 13-22.
2. Boldyshev A.V., Prokhorenko E.I., Esaulenko A.V. 2011. Metod szhatiya rechevikh dannikh na osnove Subpolosnoj matritsy [Method of Compression of Speech Data on Basis of Composite Sub-Band Matrix]. Voprosy Radioehlektroniki, seriya ehlektronika i vychislitelnaya tekhnika (EHVT), 1: 60-72.
3. Boldyshev A.V. 2013. Razrabotka i issledovanie metodov i algoritmov subpolosnogo kodirovaniya rechevyh soobshchenij pri hranenii i peredache rechevyh dannyh [Development and research of methods and algorithms of subband encoding of speech messages during storage and transmission of speech data]. Abstract. dis. ... cand. of technical sciences. Belgorod, 26.
4. Zhilyakov E.G., Belov S.P., Prokhorenko E.I., Chernomorets A.A., Pabolkova N. S. 2010. Modelirovanie rechevyh signalov na osnove chastotnyh predstavlenij [Modeling of speech signals based on frequency representations]. Belgorod, Publ. OOO «GiK», 158.
5. Zhilyakov E.G., Belov S.P., Prokhorenko E.I. 2005. O szhatii rechevyh signalov [On the compression of speech signals]. Vestnik Natsional'nogo tekhnicheskogo universiteta «KHPI», 56: 32-41.
6. Zhilyakov E.G., Belov S.P., Prokhorenko E.I. 2007. Metody obrabotki rechevykh dannykh v informatsionno-telekommunikatsionnykh sistemakh na osnove chastotnykh predstavleniy [Methods of speech data processing in information and telecommunication systems based on frequency representations]. Belgorod. Publ. Izdatel'stvo BelGU, 136.
7. Prokhorenko E.I., Boldyshev A.V., Firsova A.A., Esaulenko A.V. 2010 Novyj metod optimal'nogo subpolosnogo preobrazovaniya v zadache szhatiya rechevykh dannykh [The method of optimal subband transformation in the problem of speech data compression]. Voprosy Radioehlektroniki, seriya ehlektronika i vychislitelnaya tekhnika (EHVT), 1: 49-55.
8. Sannikov V.G. 2003. Metody kodirovaniya rechevyh signalov [Methods of encoding speech signals]. Moscow. Publ. Insvyaz'izdat MTUSI, 61.
9. Sapozhkov M.A., Mikhailov V.G. 1983. Vokodernaya svyaz' [Vocoder communication]. Moscow. Publ. Radio i svyaz', 248.
10. Sapozhkov M.A. 1963. Rechevoj signal v kibernetike i svyazi [Speech signal in Cybernetics and communication]. Moscow. Publ. Gosudarstvennoe izdatel'stvo literatury po voprosam svyazi i radio, 452.
11. Sergeenko V.S., Barinov V.V. 2009. Szhatie dannyh, rechi, zvuka i izobrazhenij v telekommunikacionnyh sistemah [Compression of data, speech, sound and images in telecommunication systems]. Moscow. Publ. IP «RadioSoft», 360.
12. Sergienko A.B. 2002. Cifrovaya obrabotka signalov [Digital signal processing]. Saint Petersburg. Publ. Piter, 603.
13. Trubitsyna D.I. 2015. 13-aya Kurchatovskaya molodezhnaya nauchnaya shkola [13th Kurchatov youth scientific school]. Moscow. Collection of abstracts of the 13th Kurchatov youth scientific school: 176.
14. Firsova A.A. 2013. Razrabotka i issledovanie subpolosnyh metodov i algoritmov segmentacii rechevyh signalov [Development and research of subband methods and algorithms of segmentation of speech signals]. Abstract. dis. ... cand. of technical sciences. Belgorod, 22.
15. Shelukhin O.I., Lukyantsev N.F. 2000. Cifrovaya obrabotka i peredacha rechi [Digital speech processing and transmission]. Moscow. Publ. Radio i svyaz, 456.
Ссылка для цитирования статьи For citation
Жиляков Е.Г., Трубицына Д.И., Прохоренко Е.И., Болдышев А.В. 2019. Об использовании субполосного анализа и синтеза сигналов в области определения косинус-преобразования при решении задач сжатия речевых сигналов. Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика. 46 (4): 700-709. DOI 10.18413/2411-3808-2019-464-700-709
Zhilyakov E.G., Trubitsyna D.I., Prokhorenko E.I., Boldyshev A.V. 2019. On the use of subband analysis and signal synthesis in the field of determining the cosine transform in solving problems of speech signal compression. Belgorod State University Scientific Bulletin. Economics. Information technologies. 46 (4): 700-709 (in Russian). DOI 10.18413/2411-3808-2019-46-4-700-709