Развитие алгоритмов сжатия речи

Шалаева М.Б.

РАЗВИТИЕ АЛГОРИТМОВ СЖАТИЯ РЕЧИ М.Б. Шалаева

В статье изложены следующие этапы исследования: сравнение современных алгоритмов кодирования речи по различным показателям, выявление тенденций развития и определения наиболее перспективных методов, выбор общих для большинства алгоритмов функциональных блоков с целью их последующей модернизации.

Введение

В настоящее время большую популярность приобрела компьютерная телефония -технология, основанная на передаче голосовых сообщений через сети, изначально предназначенные для трафика данных. Ее достоинством является снижение затрат на междугородние и международные переговоры для многих компаний и частных лиц, недостатком - относительно низкое качество синтезированной речи по сравнению с традиционными телефонными сетями общего пользования (ТфОП).

Организация этапов преобразования оказывает существенное влияние на неизбежные задержки передачи и чувствительность к потерям речевых пакетов. Совершенствование алгоритмов кодирования, наряду с сетевыми политиками, обеспечивает конкурентоспособность современных телекоммуникационных технологий.

Основная часть

Технологии преобразования речи можно разделить на две группы [1]:

• аппроксимация (кодирование) формы речевой волны;

• параметрическое компандирование речи (вокодерные преобразования).

Кодеры формы волны аппроксимируют изменение сигнала во времени. Они требуют наибольших скоростей передачи, но имеют наилучшие показатели качества воспроизведенной речи.

При параметрическом компандировании моделируется процесс речеобразования человека. В кодере из речевого сигнала вычисляются определенные параметры, передаваемые к декодеру, в котором они применяются для восстановления формы исходного сигнала. Использование исключительно параметрических методов приводит к потере натуральности звучания голоса и большой чувствительности к фоновым шумам. Во-кодерные преобразования отличаются наименьшими требованиями к полосе пропускания.

Один из способов повышения эффективности использования полосы пропускания состоит в применении гибридных методов, основанных на принципах линейного предсказания и объединяющих параметрическое компандирование и кодирование формы волны. Большинство гибридных кодеров используют замкнутое кодирование (метод «анализ через синтез») на передающей стороне, что позволяет подкорректировать определенные параметры посредством сравнения результата синтеза с оригиналом. Это, безусловно, увеличивает время обработки, но обеспечивает лучшие показатели при передаче.

В табл. 1 представлены наиболее распространенные алгоритмы и области их применения [2, 3, 5-11]. Алгоритмы указаны в порядке убывания битовой скорости потока. В таблице приняты следующие сокращения:

ACELP (Algebraic Code Excited Linear Prediction) - линейное предсказание с алгебраическим возбуждением;

ADPCM (Adaptive Differential Pulse Code Modulation) - адаптивная дифференциальная импульсно-кодовая модуляция;

CS-ACELP (Conjugate Structure Algebraic Code Excited Linear Prediction) - линейное предсказание сопряженной структуры с алгебраическим возбуждением; LD-CELP (Low Delay Code Excited Linear Prediction) - линейное предсказание с кодовым возбуждением и малой задержкой;

LPC (Linear Predictive Coding) - кодирование на основе линейного предсказания; MP-MLQ (Multi Pulse Maximum Likelihood Quantization) - метод квантования по максимуму правдоподобия;

PCM (Pulse Code Modulation) - импульсно-кодовая модуляция;

RPE-LTP-LPC (Regular Pulse Excitation Long Time Prediction Linear Predictive Coding) -кодирование на основе линейного предсказания c долговременным предсказанием с регулярным импульсным возбуждением;

SB-ADPCM (Sub-Band Adaptive Differential Pulse Code Modulation) - адаптивная дифференциальная импульсно-кодовая модуляция с делением на поддиапазоны; VSELP (Vector Sum Excited Linear Prediction) - линейное предсказание с векторным возбуждением.

Алгоритм Скорость, кбит/с Стандарт Год Приложение

Аппроксимация формы речевой волны

PCM 64, 56, 48 ITU-T G.711 1960 Общественные телефоны

SB-ADPCM 64, 56, 48 ITU-T G.722 1986 Передача широкополосных сигналов

ADPCM 32 ITU-T G.721 1984 Общественные телефоны

ADPCM 40, 32, 24, 16 ITU-T G.726 1984 Общественные и цифровые беспроводные телефоны

Гиб ридные методы кодирования

LD-CELP 16 ITU-T G.728 1992 Общественные телефоны, видеотелефоны

RPE-LTP-LPC 13 ETSI GSM 06.10 1992 Европейские цифровые сотовые системы

CS-ACELP 11.8, 8, 6.4 ITU-T G.729, G.729 Annex A 1997 Передача речи в сетях Frame Relay, ATM, в системах телесвязи Франции

MP-MLQ 6.3 ITU-T G.723.1 1996 Передача речи в видеотелефонии

VSELP 5.6 ETSI GSM 06.20 Европейские цифровые сотовые системы

ACELP 5.3 ITU-T G.723 1996 Передача речи в видеотелефонии

Вокодерные преобразования

LPC-10 2.4 ANSI Специальные системы

Таблица 1. Алгоритмы кодирования речи

Как правило, определяющими для выбора метода кодирования являются такие показатели, как:

• качество голоса по пятибалльной шкале экспертных оценок MOS (Mean Opinion Score, Рекомендация ITU-T P.800);

• задержка алгоритма;

• помехоустойчивость;

• степень ухудшения качества сигнала при квантовании QDU (Quantization Distortion Units);

• распространенность, поддержка производителями оборудования и др.

Одна из задач исследования состояла в выявлении зависимостей качества речи, задержек алгоритмов кодирования и других показателей от пропускной способности.

В табл. 2 приведены данные по соответствию качества речи, MOS, задержек передачи и типов каналов, удовлетворяющих предъявленным требованиям [4, 12, 13].

Качество Лучшее Хорошее Среднее Плохое Стандарт

MOS > 4.5 4-4.5 3.5-4 3-3.5 ITU-T P.800, P.830

Задержка, мс < 150 < 250 < 350 < 450 ETSI TS 101 329

< 150 < 260 < 400 > 400 ITU-T G.114

Тип канала ТфОП Спутниковый ТфОП + спутниковый Допустимо для VoIP

Таблица 2. Соответствия MOS, задержек передачи и типов каналов

На рис. 1 изображены сглаженные зависимости оценок MOS от требований к битовой скорости потока, построенные автором статьи по усредненным результатам исследований ITU Study Group 15 и данным Р.Кокса (IEEE Communications Magazine, сентябрь 1997 г.)

MOS

5--

4--

Гибридные кодеры

Кодеры формы волны

3 - -Вокодеры

2--

1

2

4

8

16 32 64

Скорость, кбит/с

Рис. 1. Зависимость оценок MOS от скорости потока для кодеров формы волны,

вокодеров и гибридных кодеров

Следует отметить, что значения MOS можно встретить во многих информационных источниках, при этом отклонения составляют не более 0.4 балла, что допустимо, поскольку «хорошая» или «плохая» связь- это субъективная оценка, зависящая от ожиданий абонентов, их капиталовложений и других факторов.

Указанные в табл. 2 значения задержек следует считать ориентировочными, можно встретить и другие, особенно у провайдеров.

На количественный показатель задержки оказывают воздействие [1]:

• алгоритмы кодирования/декодирования информации;

• сеть;

• операционная система;

• буфер устранения джиттера.

Следует отметить, что только среда передачи в среднем задерживает сигнал на 10-150 мс в зависимости от длины и типа каналов связи.

Как правило, более сложные алгоритмы кодирования обеспечивают лучшее сжатие при практически неизменном качестве речи. Становится очевидным, что для уменьшения битовой скорости, а, следовательно, и составляющих сетевой задержки, неизбежно увеличение задержки алгоритмов кодирования.

Безусловно, временная задержка кодирования зависит от быстродействия устройства, выполняющего преобразование. Поэтому представленные ниже графики, по мнению автора статьи, правильнее рассматривать с точки зрения относительных, а не абсолютных значений.

На рис. 2 изображены сглаженные зависимости общих задержек алгоритмов от битовой скорости потока. Численные значения задержек взяты из описаний рекомендаций ITU-T, ETSI и др., размещенных на сайтах www.axenet.ru,www.vocal.com.

Задержка кодирования, мс

160 -1 Вокодеры

140 - ----

120-100 - - \ Гибридные

80-60-40 20 + 0

кодеры

Кодеры формы

в°лны Скорость,

1-1—* / /

1 2 4 8 16 32 64 кбит/с

Рис. 2. Зависимость задержки кодирования от скорости потока для кодеров формы

волны, вокодеров и гибридных кодеров

Задержки декодирования могут существенно изменяться в зависимости от организации буфера устранения джиттера.

Помехоустойчивость. Максимальное значение - 10 баллов. Значения для разных типов преобразований: аппроксимация формы речевой волны - 8-10 баллов, гибридные методы кодирования - 2-4 балла, вокодерные преобразования - 1 балл.

Степень ухудшения качества сигнала при квантовании. Один QDU соответствует ухудшению качества при оцифровке с использованием стандартной процедуры PCM. Согласно рекомендациям ITU-T, для международных вызовов величина QDU не должна превышать 14. Следует отметить, что передача разговора по международным магистральным каналам ухудшает качество речи, как правило, на 4 QDU. При передаче разговора по национальным сетям должно теряться не более 5 QDU. Значения QDU для некоторых алгоритмов: ADPCM (32кбит/с), LD-CELP (16кбит/с) и CS-ACELP (8кбит/с) - 3.5, ADPCM (24кбит/с) - 7. Следовательно, для качественной передачи речи процедуру компрессии/декомпрессии желательно применять в сети только один раз. В некоторых странах это является обязательным требованием регулирующих органов, предъявляемым к сетям, подключенным к ТфОП.

В результате обзора услуг провайдеров IP-телефонии можно сделать вывод, что в настоящее время наибольшую популярность приобрели алгоритмы MP-MLQ и CS-ACELP, выполненные по стандартам ITU-T G.723.1 и G.729 Annex A, соответственно.

Вторая задача исследования состояла в выявлении тенденций развития алгоритмов для определения наиболее перспективных методов. Анализ последних разработок

показал, что в первую очередь учитываются скорость алгоритма и оценка качества речи, причем именно в указанной последовательности.

Минимизация скорости привела к появлению методов, основанных на интерполяции спектрально-временных алгоритмов параметрического компандирования [l]. Но большинство разработок ведется в области гибридных методов. В последних разработках кодеров применяются:

• алгоритмы долговременного и кратковременного предсказания;

• кодовые книги, хранящие различные виды сигналов возбуждения;

• подавление пауз, которые обычно занимают до б0% длительности разговора;

• переменная скорость кодирования, учитывающая:

o разделение сегментов речевого сигнала на основе фонетической или энергетической классификации; o возможность применения различных систем кодирования на разных сегментах;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• настройка на говорящего абонента.

Кроме приведенных выше выводов, была поставлена третья задача исследования, которая заключалась в выборе общих для большинства алгоритмов функциональных блоков с целью их последующей модернизации. Примеры:

• блок предсказания;

• блок спектрально-временного преобразования.

Последний блок представляет наибольший интерес, поскольку используется для решения различных задач. Спектральное представление сигнала позволяет:

• уменьшить объем передаваемых данных;

• осуществить фильтрацию - селекцию желаемой полосы частот в обрабатываемом сигнале:

o подавлять шумы обнулением компонент на нежелательных частотах; o выделить достаточную полосу частот для воспроизведения разборчивой речи и особенностей (тембра) говорящего, т.е. содержащую три первых формант-ных частоты (как правило, используется полоса частот от 300 до 3400 Гц) [1];

• выполнить классификацию сегмента сигнала (вокализованный, невокализованный глухой, невокализованный фрикативный звук, шум) [1] и др.

Заключение

В результате были выполнены:

• сравнение современных алгоритмов кодирования речи по различным показателям;

• выявление тенденций развития и определение наиболее перспективных методов;

• выбор общих для большинства алгоритмов кодирования речи функциональных блоков с целью их последующей модернизации.

Результаты исследования послужили основой для модернизации блоков спектрально-временного преобразования, программные модели которых на настоящий момент разработаны в среде Matlab.

Литература

1. Быков С.Ф., Журавлев В.И., Шалимов И.А., Цифровая телефония, учебное пособие для ВУЗов. М.: Радио и связь, 2003.

2. ETSI Recommendation GSM 0б.10. Full rate (FR) vocoder regular pulse excitation - long term prediction linear predictive coder (RPE-LTP), 1992.

3. ETSI Recommendation GSM 0б.20. Half rate (HR) vocoder vector-sum excited linear prediction (VSELP), 199б.

4. ITU-T Recommendation G.114. One-way transmission time, 199б.

5. ITU-T Recommendation G.711. Pulse code modulation (PCM) of voice frequencies, 1988.

6. ITU-T Recommendation G.722. 7 kHz audio-coding within 64 kbit/s, 1988.

7. ITU-T Recommendation G.723.1. Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbit/s, 1996.

8. ITU-T Recommendation G.726. 40, 32, 24, 16 kbit/s adaptive differential pulse code modulation (ADPCM), 1990.

9. ITU-T Recommendation G.728. Coding of speech at 16 kbit/s using low-delay code excited linear prediction, 1992.

10. ITU-T Recommendation G.729. Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear-prediction, 1996.

11. ITU-T Recommendation G.729 Annex A. Reduced complexity 8 kbit/s CS-ACELP speech codec, 1996.

12. ITU-T Recommendation P.800. Methods for subjective determination of transmission quality, 1996.

13. ITU-T Recommendation P.830. Subjective performance assessment of telephone-band and wideband digital codecs, 1996.

Развитие алгоритмов сжатия речи Текст научной статьи по специальности «Компьютерные и информационные науки»

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шалаева М.Б.

Текст научной работы на тему «Развитие алгоритмов сжатия речи»