Уплотнение информации, содержащейся в управляющих сигналах вокодеров
Ключевые слова: вокодеры, сигналы-параметры, информация, дополнительное сжатие, конечные разности, способы кодирования, старт-стопный принцип, адаптация
Исследована эффективность различных алгоритмов кодирования управляющих ситалов, передаваемых в вокодерных системах. Алгоритмы учитывают специфические свойства этих сигналов: кусочную непрерывность, наличие пауз и резких скачков, различную скорость изменения в пределах отдельных временных интервалов, устойчивость дифференциальных законов распределения мгновенных значений и конечных разностей, кратковременные корреляционные связи. Свойства управляющих сигналов-параметров существенно отличаются от свойств речевого сигнала, что обуславливает возможность дополнительного сжатия информации. Описаны результаты, полученные на реальных сигналах-параметрах для старт-сто-пных слабо искажающих методов кодирования (дифференциальная ИКМ, адаптивная дифференциальная ИКМ) и старт-стопных неискажающих методов (двухрежимное, субоптимальное, адаптивное блочное и оптимальное кодирование). Указаны достоинства и недостатки исследованных алгоритмов. Доказана возможность дополнительного сокращения объёма передаваемой информации более чем в два раза. Полученные результаты позволяют разработчику вокодерной системы того или иного типа выбирать оптимальный компромисс между сложностью алгоритма кодирования, скоростью его работы, объемом дополнительной памяти, степенью равномерности информационного потока и величиной коэффициента дополнительного статистического сжатия.
Соболев В.Н.,
Профессор кафедры Теории электрических цепей МТУСИ
В условиях перегрузки существующих систем связи, т.е. при недостаточной пропускной способности группы обычно доступных телефонных каналов (например, в экстремальных ситуациях или при появлении некоторых видов помех) возникает необходимость в сжатии речевого сигнала. Та же проблема существует в системах передачи данных различного характера при их снабжении речевыми комментариями и в информационно-справочных системах с речевыми ответами при хранении больших объёмов информации в запоминающих устройствах. В этих случаях для сжатия речи обычно используют вокодеры [1,2].
речевой с мі мя.1
И|</) Выделитель т - 1,/ Сингоатор
сні на.іов-па-рамеїрок речевою сигналя
Рис. 1. Блок-схема вокодера
Эти свойства проявляются в различных сигналах-параметрах в разной степени. Дополнительное сжатие достигается в результате применения предлагаемых здесь алгоритмов экономного кодирования значений параметров 5,(0- Теоретические исследования эффективности большинство из этих алгоритмов затруднено. Поэтому в данной работе проводилось экспериментальное исследование с применением средств вычислительной техники на реальных речевых фрагментах, вводимых в ЭВМ. Характерными особенностями алгоритмов являются старт-стопный принцип их работы, адаптация и переход от кодирования значений сигналов-параметров к кодированию их приращений. В подтверждение целесообразности учёта этих особенностей на рис. 2 приведены траектории одного из сигналов-параметров - мелодической кривой 7'0(/). на
рис. 3 - фрагменты мелодической дискретизированной
сши'шрованиынкриврй ТЛп ■ А/) и последовательности конечных разноречевой СИ1 НЯ.1 , .
стей ДТц (п ■ А/), а на рис. 4 - дифференциальные законы распределения длительностей периодов основного тона Та и приращений ДТп, где символы ш и Г обозначают
Коэффициент сжатия, обеспечивающий восстановление разборчивой речи приемлемого качества в вокодерных системах, обычно достигает десяти и более раз. Он обуславливается переходом от передачи самого речевого сигнала и|(/) к передаче информации об ансамбле его медленно меняющихся сигналов-параметров Я/(Г), где / = 1, / - номер параметра (см. рис. 1).
Однако сигналы-параметры 8,(/) в свою очередь содержат избыточную информацию [3]. В данной работе предлагаются способы её уменьшения и описываются результаты исследования эффективности этих способов. Возможность дополнительного сжатия основана на следующих специфических свойствах управляющих сигналов-параметров:
- существенно меньший динамический диапазон конечных разностей Д5,(1) = 5,(0 - 5,(/ - ДО по сравнению с динамическим диапазоном мгновенных значений соответствующего сигнала-параметра .9,(0, где Аг - постоянная отсчёта сигнала-параметра во времени;
- наличие временных интервалов с примерно равными значениями приращений Д5,(0, т.е. участков быстрого и медленного изменения сигналов-параметров 5,(0;
- наличие пауз и резких скачков сигналов-параметров 5,(0, и, следовательно, больших значений в последовательности приращений Д5,</);
- достаточно устойчивые одномерные гистограммы значений Д5,(0;
- наличие кратковременной автокорреляции в последовательностях Д5,(0-
/ 0 и прпршцъппп / \ I д «
принадлежность к множеству мужских и женских голосов соответственно.
• решгы сіигюк
Рис. 2. Траектории мелодического параметра речевого сигнала
б)
Рис. 3. Фрагменты дискретизированной мелодической кривой (а) и последовательности конечных разностей (6)
Рис. 4. Дифференциальные законы распределения длительностей периодов основного тона 7"0 и приращений дТ'д
Упомянутые алгоритмы делятся на алгоритмы, слабо искажающие и неискажающие передаваемые сигналы-параметры. К слабо искажающим алгоритмам относятся старт-стопная дифференциальная ИКМ (СДИКМ) и адаптивная стартстопная дифференциальная ИКМ (АСДИКМ) [4, 5]. Старт-стопное кодирование означает выключение механизма кодирования во время паузы (с передачей информации лишь о её длительности), передачу квантованного мгновенного значения сигнала-параметра ¡Щ[8,{/гД/)/ВД], непосредственно следующего после паузы (при п = I), полным /{-разрядным двоичным кодом и дальнейшую передачу значений приращений Д§,(/7-Д/) до следующей паузы (п = 1+1, 1+2, 1+3...) укороченным /'-разрядным кодом (/</?) ". Здесь (IS¡ — значение кванта для /-го параметра. Под дифференциальной ИКМ будем понимать процесс дифференцирования оцифрованного сигнала, т.е. расчёт и передачу его конечных разностей первого порядка с использованием такого количества двоичных разрядов г, которое обуславливает малую вероятность возникновения ошибок и их незначительную величину. Ошибки вызывают так называемую перегрузку по крутизне, когда истинное значение очередной разности оказывается больше максимальной допустимой величины Атах = 2Г — 1, где г — количество разрядов, отведённых для
кодирования приращения. Тогда в качестве Дл,(и-Д/) передаётся значение А,Н(П. .модуль кода которого состоит только из
единиц. Ошибки не накапливаются, а нивелируются в процессе вычисления последующих приращений, так как каждое очередное значение Дл",(и-Д/) определяется как разность между истинным значением сигнала-параметра на и-ом шаге ¡п1[8,(л,Д/)/</5/] и значением, восстанавливаемым местным цифровым интегратором на предыдущем шаге:
П - 1
А?,(«’Д/) = ¡п1[5,(>»-Д/)/</Я] - ¡т[5,(/-ДО/ОД] - ^ Ау,(£-Д/),
*=/ + 1
где / - номер предшествующего постпаузного значения, точно переданного одной Я-разрядной или двумя /-разрядными кодовыми комбинациями.
К достоинствам рассмотренного метода СДИКМ относятся равномерность информационного потока и относительная простота алгоритма кодирования, к недостаткам - наличие некоторых искажений передаваемого сигнала и невысокий коэффициент статистического сжатия к = Л/г • Здесь /? минимальное количество разрядов, обеспечивающее неза-
При использовании аиаюгового выделителя сигналов-параметров необходимо на выходе соответствующего блока (рис. I) включить многоканальный анаюго-цифровой преобразователь, осуществляющий перевод 5)(1) —»¡lU[Sí(n■Al)/dSJ.
метные на слух искажения речи при использовании обычной ИКМ применительно к сигналу-параметру 8,(1). Абсолютная величина относительной погрешности при передаче приращений не превышает 10%, длительность искажённого участка с вероятностью 0,1 не превышает 60 мс. Ошибки возникают в основном после паузы или в моменты резких скачков сигнала-параметра, где они не сильно влияют на качество слухового восприятия. При приемлемом качестве воспроизведения сигнала-параметра коэффициент сжатия к достигает значений 1,4 ...1,7.
При реализации метода АСДИКМ, введение адаптации кодирующего алгоритма можно осуществить либо посредством изменения во времени значения шага квантования, либо путём подстраивания длины кодовой комбинации к текущим свойствам передаваемого сигнала. В последнем случае после паузы передаётся мгновенное значение параметра ¡т[8,(и Д0^ как и при СДИКМ, а далее осуществляется переход в режим кодирования приращений. Для кодирования первого приращения используется максимальное количество разрядов (например, Л - 1), далее разрядность г выбирается исходя из складывающейся ситуации в информационном потоке. При этом возможны различные правила адаптации алгоритма кодирования. Разберём наиболее простое из них. Если кажаый из т | старших разрядов модуля предшествующего приращения содержит нуль, го принимается гп = /;,_| + р,
где Гп - количество двоичных разрядов (включая знаковый) для отображения значения я-ой передаваемой разности. Если каждый из разрядов модуля предшествующего приращения (исключая q последних) содержит единицу, то принимается гп = /'„_)+ 1 • Значения целых констант
р е {0,1} и д е {1, 2,3, 4} выбираются в процессе конструирования алгоритма в зависимости от допустимой степени риска вхождения в режим перегрузки по крутизне. Рассмотренный метод АСДИКМ по сравнению с методом СДИКМ реализуется более сложным алгоритмом, однако обладает преимуществами по всем рабочим показателям: среднему количеству бит на отсчёт передаваемого сигнала-параметра п, вероятности вхождения в режим
перегрузки по крутизне, максимальному и среднему значениям погрешности, кратности ошибок, максимальной и средней длительностям искажённого участка передаваемого сигнала-параметра, коэффициенту статистического сжатия к: = Я/р, который может достигать значения
2,15. Абсолютная величина относительной ошибки не превышает 5%, длительность искажённого участка с вероятностью 0,1 не превышает 30 мс. Погрешности настолько малы, что пракгически не влияют на качество синтезированной речи, кроме того, они в 90% случаев компенсируются в течение одного или двух кадров. Единственным недостатком метода АСДИКМ является неравномерность информационного потока.
Перейдём к рассмотрению алгоритмов, не искажающих передаваемые сигналы. Они базируются на принципах двухрежимного кодирования, адаптивного субол-тимального кодирования, адаптивного блочного кодирования и оптимального кодирования конечных разностей и их комбинаций и построены с учётом упомянутых ранее специфических свойств речевых сигналов-параметров. Все неискажающие алгоритмы порождают неравномерный информационный поток.
Сущность двухрежимного кодирования [6] заключается в том, что на участках медленного изменения передаваемого параметра реализуется режим кодирования приращений с использованием малого числа разрядов (обыч-
но /• = 1 или 2), а в моменты быстрых изменений и после паузы передаче подлежит мгновенное значение сигнала-параметра /¿-разрядными кодовыми комбинациями. Общая структура вырабатываемых кодовых комбинаций такова:
д — при кодировании паузы,
Y = < gvqS - при кодирована приращения,
- при кодировании мгновенного значения, где С - бит признака параметр \ пауза; v - бит кода режима; q - знак приращения, <5 - один или два бита модуля приращения; Я - группа, состоящая из R разрядов, предназначенных для отображения мгновенного значения параметра, включая его знак.
Достоинством метода является простота алгоритма кодирования, недостатком - относительно низкий коэффициент статистического сжатия к — R/р , достигающий значения 1,78.
При адаптивном субоптимальном кодировании |7] также используется сочетание старт-стопного принципа с приёмом изменения длины кодовой комбинации в зависимости от складывающейся ситуации в рисунке передаваемого сигнала-параметра. Однако в отличие от АСДИКМ во избежание появления ошибок в информационный поток вводятся специальные (служебные) кодовые комбинации для управления процессом смены режима кодирования. Предпосылкой переключения в режим с меньшим количеством разрядов служит наличие нулей в старших разрядах ранее закодированного значения с последующей коррекцией в случае угрозы перегрузки по крутизне. При отсутствии такой угрозы дополнительные служебные комбинации в информационный поток не вводятся. В противном случае, когда очередное значение приращения не может быть передано в ранее установленном режиме, передаётся сигнал перехода в новый режим кодирования с большей на один бит длиной кодовой комбинации. Этот сигнал выражается в старом режиме кодирования таким сочетанием символов вторичного алфавита, которое отличается от всех возможных неслужебных комбинаций (например, одним из следующих сочетаний: -0, -00, -ООО ...). Примеры введения служебных кодовых комбинаций:
Фрагменты последовательности Фрагменты последовательности
кодируемых значений: кодовых комбинаций:
+1; +2 01; 10; 010
+1; +5 01; ifl; 100; 0101
+1;-10 01; 10: 100: 1000: 11010
П; +61; +1; +2 0111101: 00001: 100: 010
Здесь знак “+” изображён нулём, знак ” изображён единицей; символ П обозначает паузу; служебные комбинации, сигнализирующие о переходе в режим с большим количеством разрядов, подчёркнуты; нули, рассматривающиеся в качестве сигнала для перехода в режим с меньшим количеством разрядов, отмечены верхней чертой. Допустимые разрядности неслужебных кодовых комбинаций (включая знаки) таковы: 7,5,4,3,2.
Коэффициент статистического сжатия у рассмотренного алгоритма достигает значения 2,01. Он меньше, чем у алгоритма АСДИКМ, а неравномерность информационного потока больше. Однако данный метод в отличие от АСДИКМ является неискажающим, так как ошибки при кодировании в принципе исключены.
При блочном адаптивном кодировании используется тот факт, что передаваемые сигналы-параметры имеют отдельные участки с разными (но одинаковыми в пределах каждого участка) скоростями изменения. Адаптация заключается в подстройке количества кодовых комбинаций т и их длин /• в каждом блоке под текущие свойства передаваемого сигнала. Величина г выбирается алгоритмом по наибольшему модулю приращения в каждом блоке с наперёд заданным максимальным допустимым количеством приращений М. Исходя из приве-
дённых соображений, целесообразно использовать следующие форматы блоков:
/; Я — формат 1 для записи длительности паузы; г\ Рр S - формат 2 для записи последовательности приращений;
rj рр а д - формат 3 для записи мгновенного значения параметра и последовательности приращений.
Здесь I] - поле для записи номера формата (разрядность поля 2 бита); Я - поле для записи числа отсчётов в паузе или её фрагменте (разрядность поля равна минимальному количеству разрядов для записи числа отсчётов в паузе средней длины); /? - поле для записи разрядности г каждого приращения в данном блоке (разрядность поля 3 бита); р — поле для записи количества т приращений в блоке (разрядность поля равна int (logi(M-\) + \))> 3 - поле для последовательностей приращений в блоке (разрядность поля равна тт. она изменяется во времени в зависимости от величин /;; и г, которые определяются поведением кодируемого сигнала-параметра); а - поле для мгновенного значения сигнала-параметра, следующего непосредственно после паузы (разрядность поля равна /?).
Для некоторых сигналов-параметров формат 3 не используется. Постоянная величина М является свободным параметром алгоритма. Её значение определяется разумным компромиссом между возможной задержкой во времени при декодировании и величиной коэффициента статистического сжатия. Обычно выбирают Л/е {б, 7,... 10}- При таком выборе среднее количество бит на отсчёт р = 1,94... 1,89 , а
коэффициент статистического сжатия достигает значений 2,13 ... 2,21 (см. рис. 5).
При разработке алгоритмов, базирующихся на методе оптимального кодирования, для каждого сигнала-параметра методом Хаффмана были построены двоичные деревья на основании дифференциальных законов распределения конечных разностей первого и второго порядков или закона распределения двухэлементных комбинаций разностей первого порядка. Составлены алгоритмы оптимального кодирования, которые в процессе своей реализации выстраивают информационные потоки, заменяя мгновенные значения сигнала и значения конечных разностей и их сочетаний оптимальными кодовыми комбинациями:
.$, = =(5,) А?, = Ф( Av,) Av2, = У( Av2,)
[A(i/i A ia)] = A|Ai,i Asl7], где E. Ф. Ч* и A - операторы преобразования ИКМ-комбинаций в оптимальные кодовые комбинации.
Примеры деревьев для кодирования мелодического сигнала-параметра приведены на рис. 6 (а-для разностей первого пордка, 6 - для разностей второго порядка). Найденные соответствия между элементами первичного алфавита (Av, или Av",) и оптимальными кодовыми комбинациями (ОКК для Av, и ASi) приведены в табл. 1. Исследовались три варианта оптимального кодирования при следующих структурах информационного потока оптимальных кодовых комбинаций для межпаузных отрезков /'-го параметра:
5,( 1 A/) Av,(2 A/) Av,(3 A/) Av,(4 A/) (I)
.?,( I -A/) Av,(2 A/) Av‘,(3-A/) Av’,(4-A/) (2)
1 A/) (Av,(2 A/), Av,(3 A/)] [Av,(4-A/), Av,(5 A/)] (3)
Как видим, вариант (1) соответствует кодированию конечных разностей первого порядка As,, вариант (2) -кодированию разностей второго порядка A(s ,), вариант (3) — кодированию двухэлементных кодовых комбинаций [Ain Ava]. В результате испытаний установлено, что коэффициент статистического сжатия для вариантов (1), (2) и (3) описанного алгоритма достигает следующих значений: 2,22,2,33 и 2,37 (соответственно).
2.2
2.1
2.0
1.9
1.8
/ *•
/
Р
33
3.6
Таблица 2
2 4 6 8 10 12 14 М
Рис. 5. Показатели эффективности компрессии
-10
I I
о I
-10
-12
-13 •
Рис. 6. Деревья для оптимального кодирования конечных разностей мелодического сигнала-параметра
Таблица 1
Для рашостсй первою порялка Для рашостсй второю иорялки
I ASi Pi OKK // A*2/ Pi OKK /1
1 0 0.2547 11 2 0 0,2998 и 2
2 -1 0,1993 01 2 1 0,2059 01 2
3 1 0.1556 101 3 •1 0,1738 101 3
4 -2 0.1043 001 3 2 0,0844 001 3
5 2 0.0761 1001 4 -2 0,0706 1001 4
6 -3 0.0492 10001 5 -3 0,0317 10001 5
7 3 0.0348 00011 5 D 0,0300 00011 ahcde/ц 5+7
8 D 0.0300 mnOabcdefg 5+7 3 0,0282 00010 5
9 -4 0.0265 00001 5 -4 0,0155 100001 6
10 4 0.0193 100001 6 4 0,0127 000011 6
11 5 0.0124 000001 6 -5 0,0090 000001 6
12 -5 0.0107 1000001 7 6 0,0072 1000001 7
13 -6 0,0076 0000001 7 5 0,0069 0000101 7
14 6 0,0048 10000001 8 -6 0,0041 10000001 8
15 -7 0.0038 00000001 8 -7 0,0034 10000000 8
16 7 0.0024 000000001 9 7 0,0034 00001001 8
17 9 0.0021 000000000 9 -8 0,0034 00001000 8
18 -8 0.0017 1000000011 10 8 0,0021 00000011 8
19 8 0.0017 1000000010 10 -9 0,0021 00000010 8
20 -10 0.0014 1000000001 10 10 0,0014 000000011 9
21 10 0.0010 10000000001 11 9 0,0010 0000000101 10
22 -9 0.0007 10000000000 11 -11 0,0010 0000000100 10
23 - - - - -10 0,0007 0000000011 10
24 - - - - -12 0,0007 0000000010 10
25 - - - - -13 0,0007 0000000001 10
26 - - - 12 0,0003 0000000000 10
Метол кодирования
Дифференциальная ИКМ
Адаптивная дифференциальна» ИКМ
Двухрсжимнос кодирование
Адаптивное субоптнмальное кодирование
Блочное адаптивное кодирование
Оптимальное кодирование разностей первого порядка
Оптимальное кодирование разностей второго порядка
Оптимальное кодирование двухэлементных кодовых комбинаций
Информационный поток
равномерный
неравномерный
неравномерный
неравномерный
неравномерный
неравномерный
неравномерный
неравномерный
Искажения си піала
несущест-
венные
отсутствуют
отсутствуют
отсутствуют
Среднее колич. бит на отсчет
3.18 ... 3.29
3.15
3.00
2.95
Коэффициент сжатия
1.78
2.13... 2.21
2.22
2.37
Основные характеристики всех исследованных алгоритмов, полученные в результате испытаний на реальных речевых сигналах приведены в табл. 2. При использовании большинства предлагаемых алгоритмов достигается более чем двукратный выигрыш в скорости передачи информации для самых ёмких сигналов-парамегров (таких как основной тон). Для большинства других параметров (несущих информацию об огибающей амплитудного спектра) целесообразно исключить из рассмотренных ап-горитмов процедуру кодирования мгновенных значений после пауз и увеличить значение кванта Это приведёт к дальнейшему повышению коэффициента статистического сжатия. Тогда, например, при коэффициенте сжатия вокодера К = 10, общий коэффициент сжатия системы может составить К = К- К =10 (2,5...3) = 25...30 раз. Все значения величины К приведены здесь без учёта возможности компактного кодирования пауз. Учёт этой возможности дополнительно увеличит значение К примерно в 1,8 раза.
Литература
1. Вокодерная телефония / Под ред. A.A. Пирогова. М.: Связь, 1974, 536 с.
2. Сапожков М.А., Михайлов В.Г. Вокодерная связь. - М.: Радио и связь, 1983, 246 с.
3. Соболев B.H. Информационные технологии в синтетической телефонии. - М.: ИРИАС, 2007, 360 с.
4. Соболев IJ.il. Экономное кодирование дискретизированных мелодических кривых. - Сб. материалов Московской городской научно-технической конференции, посвящённой дню Радио. - М., 1989. -. 54-55.
5. Соболев B.H. Адаптивное кодирование вокодерных сигналов. Сб. научных трудов Международного симпозиума «Вероятностные методы и обработка случайных сигналов и полей». Львов — Харьков -Тернополь, 1993, том 3, часть 2, С. 5-10.
6. Соболев В.Н. Машинная имитация двухрежимного кодека для интонационного сигнала-параметра вокодера. - Сб. тезисов докладов четвёртой Межрегиональной конференции «Обработка сигналов в системах двусторонней телефонной связи». М., 1995. С. 71-74.
7. С оболев В.Н. Адаптивное многорежимное кодирование интонационных контуров. - Труды МТУСИ, М., 2004, С. 50-53.
8. Соболев В.Н. Исследование возможностей блочного кодирования мелодического параметра в вокодерных системах. -Материалы пятой Международной научно-технической конференции «Перспективные технологии в средствах передачи информации». Владимир. 2003. С. 119-121.
9. Соболев В.Н. Оптимальные коды для передачи мелодии речи в вокодерных устройствах. - Сб. тезисов докладов пятой Межрегиональной конференции «Обработка сигналов в системах двусторонней телефонной связи». Новосибирск. 1995. С. 104-107.
COMPRESSION OF THE DATA CONTAINED IN THE VOCODERS CONTROL SIGNALS
Sobolev V.N.
Abs rad. Efficiency of different coding algorithms of control signals transmitted in vocoder systems has been investigated. Algorithms take into consideration specific features of these signals: piecewise continuity, presence of pauses and sharp jumps, different changes rates within particular time intervals, stability of differential distribution laws of dynamic values and finite differences, short time correlation links. Characteristic features of control signals-parameters differ substantially from those of a voice signal. This makes additional data compression possible. The results obtained on real signals-parameters for start-stop coding methods with low distortion (i.e. differential PCM, adaptive differential PCM) and start-stop non-distorting methods (such as two-mode coding, suboptimum coding, adaptive block coding and optimum coding) have been described. The advantages and disadvantages of the algorithms under investigation are pointed out. The possibility of additional more than two-fold reduction of the transmitted data volume has been proved. The results obtained let a designer of a vocoder system of any type make an optimum compromise concerning algorithms coding complexity, its operating rate, additional storage volume, data flow uniformity degree and a magnitude of additional statistic compression factor.
Key words: vocoders, signals-parameters, data, additional compression, coding methods, start-stop concept, adaptation, Unite differences.