У
Эффективность блочного кодирования конечных разностей сигналов-параметров вокодера
Ключевые слова: вокодер, сигналы-параметры, избыточность, сжатие информации, блочное кодирование, коэффициенты частных корреляций, конечные разности, мелодический параметр, !Р-телефония.
С целью дополнительного сжатия речевой информации, передаваемой в вокодерных устройствах, исследованы свойства коэффициентов частных корреляций речевого сигнала. Найдены граничные значения динамического диапазона каждого из восьми коэффициентов. Установлено, что усредненное значение модулей конечных разностей каждого коэффициента существенно меньше усредненного значения модулей соответствующего коэффициента. Рассчитано количество бит, приходящихся на один кадр речевого сигнала, при непосредственной передаче конечных разностей каждого коэффициента. Рассчитано также среднее количество бит на кадр при блочном кодировании для каждого коэффициента и для полного ансамбля сигналов-параметров, несущих информацию о временных зависимостях конечных разностей восьми коэффициентов частных корреляций и о текущей длительности периода основного тона. Даны предельные оценки сокращения объема информации и скорости ее передачи в вокодере, использующем описанные методы кодирования. Приведены рекомендации по уменьшению пагубного влияния помех и по включению служебных комбинаций в общий информационный поток.
Соболев В.Н.,
профессор кафедры Теории электрических цепей МТУСИ, [email protected]
В вокодерных системах [1-4] вместо речевого сигнала по каналу связи передаются медленно меняющиеся сигналы-параметры (СП), описывающие динамику его спектральной плотности. На приемной стороне восстанавливается сигнал, аналогичный (по звучанию) исходному речевому сигналу. Обычно ограничиваются 9-16 сигналами-параметрами (в зависимости от типа вокодера и желаемого качества воспроизведения речи, синтезируемой в приемной части системы). Скорость изменения каждого СП примерно на два порядка меньше скорости изменения самого речевого сигнала. Поэтому вокодеры позволяют существенно сжать полезную информацию о речевом сигнале. При цифровой обработке речевой сигнал анализируется по кадрам, частота следования которых является также частотой дискретизации его сигналов-параметров. Однако, как правило, не учитывается тот факт, что сигналы-параметры вокодеров в свою очередь обладают избыточностью. Ее устранение или уменьшение может привести к повышению эффективности вокодерных систем.
В ряде вокодеров в качестве сигналов-параметров используются коэффициенты частных корреляций [5] и сведения об основном тоне речи [3], передающиеся на приемную сторону методом ИКМ без учета их избыточности. Сокращенное описание этих параметров должно базироваться на их статистических свойствах.
В целях выявления потенциальных возможностей сжатия информации, заключенной в коэффициентах частных корреляций (КЧК), производилось компьютерное исследование, результаты которого представлены в данной статье. По речевому сигналу //(/), дискретизированному с частотой 8 кГц, компьютер вычислял значения КЧК с использованием весового окна Хемминга длиной в 37 мс, на котором располагалось 296 отсчетов. Шаг расчета коэффициентов АТ составлял 10 мс, что соответст-
вует частоте дискретизации сигналов-параметров равной 100 Гц. Таким образом, на интервале АТ размещалось 80 отсчетов речевого сигнала, требующих для их непосредственной передачи (при использовании восьмиразрядной ИКМ) 640 бит информации. Дальнейшему анализу подвергались временные зависимости полученного ансамбля (г • АТ), где А:=1,8 — номер сигнала-параметра; /=1,2,номер точки отсчета к-\о параметра. В качестве примера на рис. 1 представлены фрагменты временнь/х зависимостей трех типичных сигналов-параметров (В\, Вт, и Вь) для фразы «Мальчика звали Сашей», произнесенной одним из дикторов-мужчин.
я. мЬ 1# л, 1 . „
1Т1Г 1 " И1 ^ щ Цг г 1 Ч | ' |Г "1
Рис. 1. Фрагменты временных зависимостей трех коэффициентов частных корреляций
Анализ большого количества различных фрагментов речи, произнесенной несколькими дикторами разных полов, позволил сделать вывод о том, что динамический диапазон коэффициентов частных корреляций ограничивается далеко не теоретическими значениями В = +1 и В ■ = — 1 • Его ширина зависит от
та \meop тт. теор ‘
номера параметра к и для ряда параметров существенно
меньше теоретического значения П =В —В.. =2-
г Чпеор тпатеор Мг\vaneop
Установленные на представительном речевом материале
граничные значения Втт и Д. и значения ширин
динамического диапазона Ок = Вк тах - Вк ,Ып коэффициентов частных корреляций для русской речи приведены в левой части табл. 1. Для сравнения в правой части той же таблицы приведены значения соответствующих величин для английской речи, принятые в алгоритме 1.РС-Ю. Как видим, характер изменения динамического диапазона при переходе от одного коэффициента к другому для русской и английской речи практически одинаков, расхождения соответствующих значений £), колеблются от 2 до 10%.
Таблица 1
Номер параметра к Характеристики КЧК
для русской речи для английской речи
Вк min В к пш Dk В к min В, гпач Dk
1 -1,00 0,85 1,85 -0,97 0,92 1,89
2 -0,72 0,92 1,64 -0,73 0,95 1,68
3 -0,88 0,72 1,60 -0,88 0,64 1,52
4 -0,66 0,81 1,47 -0,58 0,86 1,44
5 -0,69 0.59 1,28 -0,52 0,72 1,24
6 -0,69 0,75 1.44 -0,48 0,85 1,33
7 -0,70 0,69 1,39 -0,64 0,80 1.44
8 -0.44 0.78 1,22 -0,51 0,85 1,36
Резервы сокращения объема передаваемой информации далеко не исчерпываются возможностью уменьшения динамического диапазона при кодировании КЧК. Другой (более существенный) скрытый резерв заключается в том, что соседние значения каждого параметра Вк(1-АТ) и Вк ((/' -1) -АТ) коррелированны между
собой. Поэтому хранение и передача их конечных разностей
ДВк(1АТ) = Вки-АТ) - Вк((/-1)• АТ)
при соответствующем методе кодирования может оказаться экономичнее хранения и передачи самих мгновенных значений. В этом нетрудно убедиться, сравнив временные зависимости конечных разностей (рис. 2) с соответствующими зависимостями самих параметров (рис. 1).
А В, 00
00
-04
оо
-04
IL - - I. . .1 м J. ... .1 „
-РЄ
J ,1. Хіу-,
Рис. 2. Фрагменты временных зависимостей конечных разностей трех коэффициентов частных корреляций
Как видим, средние значения модулей конечных разностей значительно меньше среднего значения модулей соответствующих коэффициентов корреляций. Однако их динамические диапазоны различаются незначительно вследствие наличия относительно редких больших скачков в последовательности конечных разностей. Поэтому использование обычной дифференциальной ИКМ не приводит к существенному уменьшению количества бит, приходящегося на один кадр речевого сигнала. Действи-
тельно, расчет разрядностей кодовых комбинации при использовании ДИКМ, выполненный по формуле
Рк дики = l + int(log2((A5
k max ^к min )' 2 ))'
где АВ
, и АВ, • — максимальное и минимальное к max к min
значения разностей к-го параметра, показал, что общее количество бит на кадр при переходе от ИКМ к ДИКМ (без ухудшения точности передачи информации) снижается всего лишь на 5 бит вследствие уменьшения длин кодовых комбинаций каждого из пяти старших коэффициентов на один разряд (см. третий столбец табл. 2). Более полное использование скрытого резерва экономии может обеспечить блочная дифференциальная ИКМ (БДИКМ).
Таблица 2
Сигналы- -параметры Количество бит р, приходящихся на один кадр при различных методах кодирования
ИКМ ДИКМ БДИКМ
Во 8 5 3.50
В\ 8 8 4,37
Вг 8 8 5,33
Вз 8 8 5,37
в< 8 7 5,15
Вь 8 7 5,14
Вь 8 7 4,92
Вп 8 7 4,89
В* 8 7 5,01
Ансамбль В\ ... В» 64 59 40,2
Ансамбль В» — Bg 72 64 43,7
Производился пересчет каждой последовательности мгновенных значении Вк(1-АТ) в последовательность
разрядностей конечных разностей 1-го порядка, выраженных в целочисленном виде, по формуле:
г* (/-АТ) =
2 при АВк^АГ) < 0,5 ;
1 + йи[1оа(ю0| Д$(/ ДГ)|+1)] при Д£^(/Д7)>0,5,
где функция выделения целой части числа; / = 1, /, /
- общее количество разностей АВк (/ • АТ) в £-ой
последовател ьности.
Последовательности гк (/’• Д7’) разбивались на блоки
длиной в N чисел (разрядностей). В каждом блоке отыскивалась максимальная разрядность гк тах(/)> где
j = \,J - номер блока, J = in^(I/М) - общее количество
блоков в последовательности. Отыскивалась также максимальная разрядность /• к у х в каждой последовательности гк(1-АТ)- Далее рассчитывалось среднее количество бит на кадр р . по формуле:
|0Ё2 (Г* Мах - 1)
N
О)
У
Таблица 3
Номер параметра к Среднее количество бит на кадр рк при блочном кодировании конечных разностей АВК
N=2 N=4 N=5 N = 10 15 N=20
] 4,62 4,37 4,37 4,78 4,96 5,43
2 5,45 5,30 5,33 5,54 5,89 6,03
3 5,43 5,33 5,37 5,52 5,58 5,72
4 5,33 5,21 5,15 5,18 5,46 5,62
5 5,25 5,18 5,14 5,38 5,65 5,92
6 5,19 5,06 4,92 5,14 5,44 5,52
7 5,00 4,93 4,89 5,09 5,23 5,42
8 5,23 5,12 5,01 5,08 5,22 5,41
Содержимое второго и третьего столбцов в табл. 4 отражает эмпирически установленную с использованием формулы (1) зависимость среднего количества бит на кадр р к от длины блока N при предварительном
введении восьми- и семиразрядной ИКМ (в первом столбце указаны значения Я, равные 8 и 7 соответственно).
Таблица 4
Зависимость среднего объёма информации, передаваемой в одном кадре, от длины блока, бит
Предварительная ИКМ Блочное дифференциальное импульсное кодирование
Л*,*=Ц8 Длина блока N Р Р + Ро
2 41,5 45,0
4 40,5 44,0
5 40,2 43,7
10 41,7 45,2
15 43,4 46,9
20 45,1 48,6
2 33,2 35,7
4 32,3 34,8
5 31,7 34,2
10 33,5 36,0
15 35,3 37,8
20 36,2 38,7
Как видим, с уменьшением длины блока от 20 до 5 среднее количество бит на кадр при передаче ансамбля из восьми параметров монотонно убывает. При N < 5 оно возрастает. Таким образом, оптимальным значением количества разностей каждого параметра в блоке является N = 5 (см. также рис. 3).
Поэтому в последнем столбце сводной табл. 2 указаны значения рк ,<)ик для /V = 5. Вышеупомянутые результаты расчета были получены для ансамбля, состоящего из восьми параметров. Соответствующие данные для ансамбля из девяти параметров, включающего мелодический параметр В0, несущий информацию об изменяющейся длительности периода основного тона (ОТ), приведены в последнем столбце табл. 4 и последней строке сводной табл. 2. Средняя разрядность для значений АВ0 принята равной 3,5 при точности БДИКМ, соответствующей восьмиразрядной ИКМ [6,7], и равной 2,5 при точности, соответствующей семиразрядной ИКМ.
В данной работе был применен простой алгоритм блочного кодирования мелодического параметра (МП), отличающийся от адаптивного алгоритма, описанного в [6, 7]. Поэтому значение среднего количества бит на кадр для МП получилось немного больше, чем в упомянутых работах. Целесообразность использования простого алгоритма объясняется различиями свойств МП и параметров, несущих информацию о КЧК, а также стремлением унифицировать принципы обработки всех СП в вокодере данного типа.
Эксперименты показали, что смена диктора практически не приводит к изменению величины р бдик . Даже
при замене диктора-мужчины диктором-женщиной различие в значениях не превышает нескольких процентов.
На рис. 4 приведен пример структуры двух соседних блоков в потоке передаваемой информации о значениях конечных разностей А-го параметра при /V = 5 (т.е. при размещении пяти разностей в каждом блоке). Первый прямоугольник на рисунке в каждой строке предназначен для записи информации о разрядности максимальной разности в данном блоке /• к тах (у) > последующие прямоугольники — для записей самих разностей А В/, ■ Выделенные части прямоугольников соответствуют областям переменной длины, заполняемым значащими цифрами двоичных кодовых комбинаций. Границы между значащими цифрами и незначащими нулями, располагающимися в левой части каждой области, изменяются от блока к блоку в зависимости от складывающейся ситуации в последовательности значений конечных разностей Д Вк{1АТ).
int(log 2Ігк АЛи )) Гк max(/) rkma\(j) rk m*xij) rknax{f) rk m*x(j)
m
тЦЦ> ,((* ,*„)) Пт„(/+1) г1тлх0+\) гкшх{/+1) г1т„(/+1)
Рис. 4. Пример структуры соседних блоков передаваемой информации о конечных разностях Л>го параметра
Данные о среднем количестве бит на кадр, приведенные в табл. 2, получены для передачи информации о девяти сигналах-параметрах (включая мелодический параметр В») при обычном темпе телефонных разговоров. Таблица 2 дает возможность сравнить эффективность разных методов кодирования (ИКМ, дифференциальной ИКМ, блочной дифференциальной ИКМ), а табл. 4 позволяет выяснить влияние разрядности предварительной ИКМ на коэффициент сжатия передаваемой информации. Общий коэффициент сжатия вокодера равен Г1в =Пр • Пп' где Пи ~ коэффициент сжатия речевого сигнала, г]п - коэффициент статистического сжатия
сигналов-параметров. В таблице 5 приведены рассчитанные значения коэффициентов сжатия г)р. 1]ц и г/и для
типичных случаев. Как видим, при использовании ДИКМ для девяти параметров, представляемых с точностью, свойственной восьмиразрядной ИКМ, объем передаваемой информации уменьшается примерно в 15 раз. Используя цифровую адаптивную ДИКМ, можно приблизить значение коэффициента сжатия к семнадцати, т.е. при сохранении прежнего объема передаваемой информации вместо одного телефонного канала можно организовать примерно 17 вокодерных каналов, без потери точности передачи управляющих сигналов-параметров. При этом нижняя предельная оценка скорости передачи информации в одном канале уменьшится с 64 до 3,8 кбит/с.
Таблица 5
Вил коэффициента Значение ко эффициента сжатия информации
при блочном кодировании восьми параметров и N-5 по сравнению при блочном кодировании девяти параметров н Ыт 5 по сравнению
с 8-разрядной ИКМ с 7-разряд но и ИКМ с 8-рачрядной ИКМ с 7-разрядной ИКМ
пР =.0 64 5“ =.о 56 ™ =8.89 72 — =8.89 63
Пп — = 1,59 40,2 *-«1.77 31.7 72 — = 1.65 4.Я.7 34,2
Пв ^-.5.9 40.2 **=17,7 31.7 640 і < . = 14,6 43.7 -16.4 34.2
речевого сигнала (в рассмотренном примере N = 5, К = 9, Л = 8). Кроме того, упомянутые терминалы должны содержать АЦП и ЦАП, а также бысгродействующие микропроцессорные устройства, обеспечивающие переход от ИКМ-последовательностей к последовательностям Д&.(/'-Д7’)
(и наоборот) и осущетвляющие упаковку передаваемых и распаковку принимаемых пакетов.
На рис. 5 представлена схема, поясняющая процедуры пакетизации (слева) и депакетизации (справа).
М-\с
I АД.ОН 1 АД|<2) |; ... | АД,(5)|
I Ai?:i I)| |АД;І2) I ... I Afljsil:
ABiKDl :|АЛ»С!) І:... І АД,(5)І
1
М-Іб
Щ ЛЛ|(І)[ЛД,С||...|ЛЯ,ІЯ|
и WI)|.W2) U
■]
Щ ЛЯ,!1>|ЛД,С)|...|ЛЯ,!Я| Я .\Д.<І)|ДЯ,ч:і ...(~А8_Ч5)|
М-2а
і
1 Afli(l)| ! 1 .. 1 Д«.<5)|
1 денні |Afi:(2) 1 .. 1 Л«:<5>1
1 Л8КПІ |Aft<2) 1 .. 1 ЛВ«<5)|
М-2 б
1
t
Реализация выигрыша от применения описанного метода кодирования возможна при пакетной передаче информации, допустимой дополнительной задержке речевого сигнала в канале, равной N ■ АТ (в нашем примере 50 мс), и при замене телефонного канала несколькими вокодерными каналами, т.е. при использовании технологии Frame Relay, ATM или IP-телефонии [9]. Для хранения информации о текущем кадре необходимо иметь в передающей и приемной частях каждого вокодерного канала оперативное запоминающее устройство (ЗУ) с циклически обновляемым содержанием. Минимальный объем этого устройства в битах равен N- К ■ R, где N -количество отсчетов в блоке, К — количество сигналов-параметров, R - максимальная разрядность отсчетов
|ц»і(Ч|лДі<:і|..лд,(5Я лд.чі)|дв.<:і |... -^"1 .ш,<:і|...^я|
1Р-ССТЬ
Рис. 5. Пояснение процедур упаковки и распаковки пакетов
В передающей части после выполнения процедуры, осуществляемой АЦП и местным быстродействующим микропроцессорным устройством, двумерный массив М-1я заполняется в течение интервала АТ значениями АВк(у) по кадрам (т.е. по столбцам).
и(1) -» и(п-Ж) —> Вк(;' • АТ) -» АВк(/ • АТ), (2)
При этом происходит естественная задержка на величину г = N ■ АТ. Затем массив М-1о по строкам преобразуется микропроцессорным устройством в одномерный массив М-16, состоящий из сжатых блоков разной длины. Физически массивы М-1а и М-16 могут сохраняться в течение разных интервалов времени в одном и том же месте ЗУ. После адресации содержание массив М-16 направляется в 1Р-сеть в виде фрейма из восьми блоков, представляющего собой отрезок непрерывной последовательности бинарных символов. Далее процедура повторяется.
Здесь описан вариант, при котором в пакете содержится один фрейм. При увеличении объема ЗУ возможно объединение нескольких фреймов в каждом пакете. Это увеличит задержку, но уменьшит объем информации, затрачиваемый на адресацию пакетов.
В приемной части после получения соответствующего пакета из 1Р-сети и записи его в массив М-2а производится распаковка, заключающаяся в получении строк массива М-26. После ее окончания сформированный массив в виде последовательности столбцов подвергается обработке ме-
rk
стным микропроцессорным устройством и ЦАП, выполняющими в обратном порядке процедуру (2). В процессе создания синтезированного сигнала и(() необходимо согласования скорости депакетизации и процедуры синтеза. Здесь также массивы М-1я и М-16 могут сохраняться в разделенном времени в одном и том же месте ЗУ.
Во избежание накопления погрешностей и с целью уменьшения пагубного влияния помех следует применять старт-стопный принцип кодирования [8], при котором в начале речевой паузы передается служебная комбинация, содержащая информацию о длине паузы, а после ее окончания - мгновенное значение сигнала-параметра с последующей блочной передачей конечных разностей. Для распознавания служебной комбинации в ее начало нужно включать сочетание символов, которое не может появляться в потоке информации о значениях конечных разностей. Кроме указанных полезных эффектов этот прием может дополнительно сократить объем передаваемой информации за счет компактного кодирования пауз.
Другим способом борьбы с действиями помех является введение корректирующего устройства, содержащего переключаемый местный декодер, в кодирующую часть на передающей стороне вокодера. Оно должно сравнивать значение синтезированного сигнала-параметра с его исходным значением и в случае отклонения вносить соответствующую поправку в виде дополнительного слагаемого. Поскольку процессор на передающей стороне работает с целочисленными значениями и использует целочисленную арифметику, накопления погрешностей (при исправном и не подверженном помехам процессоре) быть не может. Естественно, этот способ в состоянии предотвратить искажения только от помех, воздействующих на кодирующую часть вокодера, а не на речевой сигнал или подлежащие кодированию сигналы-параметры и сигналы, распространяющиеся по линии связи.
Выше был рассмотрен идеальный случай, не полностью учитывающий специфику пакетной передачи: задержку пакетов в сети, пропадание пакетов, относитель-
но длинный адрес пакета, неравномерность информационного потока, наличие помех. Эти факторы снижают качество синтезированной речи. Приемами борьбы с последствиями, вызываемыми указанными факторами, являются: удлинение пакетов путем объединения нескольких фреймов внутри каждого пакета, замена информации о значениях Д5* информацией о значениях В* в первом кадре первого или каждого фрейма каждого пакета (без передачи информации о длинах соответствующих комбинаций), замена цифрового БДИК цифровым АДИК с адаптацией величины кванта к среднему уровню параметров в блоке, уменьшение точности передачи старших коэффициентов, введение цифровой буферизации в терминалах. Этими приемами можно довести качество па-кетно-передаваемой речи до качества, приемлемого в коммерческой телефонии, при максимальном возможном значении коэффициента сжатия.
1. Пирогов А.А. Синтетическая телефония. - М.: Связьиздат, 1963, 119 с.
2. Фланаган Д.Л. Анализ, синтез и восприятие речи. - М.: Связь, 1968.-396 с.
3. Вокодерная телефония. Методы и проблемы / Под ред. А.А. Пирогова. - М.: Связь, 1974. - 535 с.
4. Сапожков М.А.. Михайлов В / Вокодерная связь. - М.: Радио и связь, 1983. - 247 с.
5. Sailo S. Nakatu К.A. Fundamentals of Speech Signal Processing. -Tokyo: Academic Press, 1985. -266 p.
6. Соболев В.Н. Информационные технологии в синтетической телефонии. - М.: ИРИАС, 2007. - 360 с.
7. Соболев В.Н. Исследование возможностей блочного кодирования мелодического параметра в воколерных системах // Материалы пятой Международной научно-технической конференции «Перспективные технологии в средствах передачи информации». - Владимир, 2003. -С.119-121.
8. Соболев В.Н. Уплотнение информации, содержащейся в управляющих сигналах вокодеров // T-Comm: Телекоммуникации и транспорт. - М., 2012, №11. - С. 58-61.
9. Гольдштейн Б.С.. Пинчук А.В.. Суховицкий A.J1 IP-Телефония. -М.: Радио и связь, 2001. 336 с.
Литература
Efficiency of vocoder's signal-parameters finite differencies block coding Sobolev V.N., MTUCI, Russia, [email protected]
Abstract
For additional compression of speech data transmitted in vocoder devices, the properties of speech signal partial correlations factor have been explored. Dynamic range boundary values of each of eight factors have been found. It has been ascertained that mean value of finite differences modules of each factor is considerably less than modules mean value of the corresponding factor. The number of bits per one speech signal frame under direct transmission of each factor finite difference has been calculated. For each factor the average number of bits per a frame under block coding has also been calculated as well as for a complete assemble of signals parameters that carry the information on finite differences temporal dependencies of the eight partial correlations factors and on the current duration period of the fundamental tone. Limit estimates of the information volume reduction and velocities of its transmission in a vocoder using the described coding methods have been given. The recommendations on reducing harmful effect of interference and for including of aux'liary combinations into the common information stream are presented.
Keywords vocoder, signals parameters, redundancy, data compression, block coding, partial correlations factors, finite differences, tune parameter, IP Telephony.
References
1. Pirogov AA. Synthetic telephony. M.: Svyaz’izdat, 1963, 119 p.
2. Flanagan D.L Analysis, synthesis and perception of speech. M.: Svyaz, 1968. 396 p.
3. Vocoder telephony. Methods and Problems/ Ed. A.A. Pirogov. M.: Svyaz, 1974. 535 p.
4. Sapozhkov MA., Mikhailov V.G. Vocoder communication. M.: Radio and Svyaz, 1983. 247p.
5. Saito S, Nakata K.A. Fundamentals of Speech Signal Processing. Tokyo: Academic Press, 1985. 266 p.
6. Sobolev V.N. Information technology in telephone number is synthetic ones. M.: IRIAS, 2007. 360 p.
7. Sobolev V.N. Feasibility study block coding parameter melodic vocoder systems / Proceedings of the Fifth International Scientific Conference "Advanced technologies in information transfer." Vladimir, 2003. Pp. 119-121.
8. Sobolev V.N. Seal the information contained in Governors signals vocoders / T-Comm: Telecommunications and transport. M., 2012, № 11. Pp. 58-61.
9. Goldstein B.S., Pinchuk AV, SuhovitskyA.L. IP-Telephony. M.: Radio and Svyaz, 2001. 336 p.