Научная статья на тему 'Речевое кодирование'

Речевое кодирование Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1359
148
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
речевое кодирование / типичные методы речевого кодирования / направление развития речевого кодирования. / speech coding / typical methods of speech coding / direction of development of speech coding.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Куанышев А. Н.

В данной статье в основном представлены теоретические основы кодирования речи, классификация методов и несколько типичных методов кодирования речи, анализируются характеристики и среда применения каждого метода, а также кратко анализируются три основных направления развития современного кодирования речи в целом: речевое кодирование с очень низкой скоростью, речевое кодирование с переменной скоростью и несжатое речевое кодирование, а также объясняются области их применения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SPEECH CODING

This article mainly presents the theoretical foundations of speech coding, classification of methods and several typical methods of speech coding, analyzes the characteristics and application environment of each method, and briefly analyzes the three main directions of development of modern speech coding in general: speech coding with a very low speed, variable-speed speech coding and uncompressed speech coding, as well as their applications are explained.

Текст научной работы на тему «Речевое кодирование»

УДК 004

Куанышев А.Н.

Евразийский Национальный Университет имени Л.Н.Гумилева

DOI: 10.24411/2520-6990-2020-11488

РЕЧЕВОЕ КОДИРОВАНИЕ

Kuanyshev A.N.

Eurasian National University named after L.N.Gumileva

SPEECH CODING

Аннотация

В данной статье в основном представлены теоретические основы кодирования речи, классификация методов и несколько типичных методов кодирования речи, анализируются характеристики и среда применения каждого метода, а также кратко анализируются три основных направления развития современного кодирования речи в целом: речевое кодирование с очень низкой скоростью, речевое кодирование с переменной скоростью и несжатое речевое кодирование, а также объясняются области их применения.

Abstract

This article mainly presents the theoretical foundations of speech coding, classification of methods and several typical methods of speech coding, analyzes the characteristics and application environment of each method, and briefly analyzes the three main directions of development of modern speech coding in general: speech coding with a very low speed, variable-speed speech coding and uncompressed speech coding, as well as their applications are explained.

Ключевые слова: речевое кодирование, типичные методы речевого кодирования, направление развития речевого кодирования.

Key words: speech coding, typical methods of speech coding, direction of development of speech coding.

Речевое кодирование является средством оцифровки аналоговых речевых сигналов. После оцифровки речевого сигнала его можно передавать, сохранять или обрабатывать как цифровые данные, поэтому он обладает преимуществами обычных цифровых сигналов. В исследованиях почти полувека исследователи из разных стран приложили немало усилий, чтобы провести множество исследований генеза человека, механизма слуха, психологических факторов, характеристик временной области и характеристик частотной области речевых сигналов. Различные способы кодирования сигнала были предложены под разными углами.

Технологию оцифровки голоса в основном можно разделить на две категории. Первый метод заключается в цифровом кодировании аналоговых сигналов при условии, что они максимально соответствуют исходной форме сигнала. Тремя наиболее часто используемыми методами являются дифференциальная ИКМ (DPMM) импульсной кодовой модуляции (CP M) и инкрементная модуляция, второй тип метода заключается в выполнении некоторой обработки аналогового сигнала, но только во время диалога и прослушивания. Вокализованная часть закодирована. Второй тип способов оцифровки речи в основном связан с речевыми кодеками, используемыми в узкополосных системах передачи или цифровых устройствах хранения с ограниченной емкостью. Устройства, использующие этот тип технологии, обычно называют вокодерами (речевыми кодерами). Технология Vocoder сейчас начинает внедряться, особенно для Frame Relay и IP-голосовой связи премиум-класса.

В последние годы благодаря прогрессу в исследованиях архитектуры процессора цифровых сигналов, человеческой речи и распознавания быстро развивалась технология речевых кодеков. Новая технология кодеков не только обеспечивает

аналоговое преобразование, но также предоставляет сложные режимы прогнозирования, которые могут анализировать голосовой ввод и передавать голос с наименьшей пропускной способностью.

Чтобы сделать сигнал пригодным для обработки, передачи и хранения, нам необходимо сжать речевой сигнал. Речевое кодирование - это получение как можно меньшего количества данных при обеспечении качества речи. Поэтому речевое кодирование часто называют кодированием со сжатием речи.

Возможность кодирования с компрессией речи

1. Существует много избыточной информации в речевом сигнале, а именно: выборка речевого сигнала имеет сильную корреляцию, вокализованный речевой сегмент имеет квазипериодическую характеристику, форма канала и скорость его изменения ограничены, распределение вероятностей символов передачи неоднородна.

2. Человеческое ухо не чувствительно к некоторой информации в звуковом сигнале, то есть человеческое ухо более чувствительно к низкочастотным компонентам, чем высокочастотные компоненты в звуке, человеческое ухо не чувствительно к фазовым характеристикам речевого сигнала; Маскирующий эффект, то есть один звук приводит к тому, что орган слуха становится менее чувствительным к другому звуку. Степень маскировки зависит от интенсивности маскирующего звука и частотной зависимости между маскирующим звуком и маскированным звуком.

Именно по этим причинам мы можем обрабатывать речевые сигналы различными способами, основываясь на том, что различные методы кодирования появляются в теоретических исследованиях и практических приложениях.

3. Принцип и применение технологии кодирования речи

3.1 Техническая классификация речевого кодирования

Существует три основных способа кодирования речи: кодирование формы волны, вокодер и гибридное кодирование. В последние годы «практическое кодирование» постепенно начинает входить в практическое применение. Как правило, методы кодирования речи со скоростью кодирования ниже 64 кбит / с называются кодированием со сжатием речи. Технология. Четыре метода кодирования представлены ниже.

3.1.1 Кодирование формы волны

Кодирование формы волны выполняется на речевых формах волны. Этот метод уменьшает количество битов в каждой выборке голоса при сохранении относительно хорошего качества речи. Кодирование формы волны включает в себя кодирование во временной области и кодирование в частотной области.

(1) Кодирование во временной области

Кодирование во временной области в основном включает в себя импульсную кодовую модуляцию (PCM), дифференциальную импульсную кодовую модуляцию (DPCM), инкрементную модуляцию (AM), адаптивную дифференциальную

импульсную кодовую модуляцию (ADPCM), адаптивную инкрементную модуляцию (ADM) и адаптивное прогнозирующее кодирование (APC) и т. Д.

Линейный PCM использует тот же уровень квантования для количественного определения. Он не использует природу звука, поэтому информация не сжимается. Логарифмический PCM использует статистические характеристики амплитуды речевого сигнала и сжимает амплитуду в соответствии с логарифмическим преобразованием. Во время декодирования на принимающей стороне он экспоненциально расширяется. Этот метод широко используется в цифровой телефонной связи. Самым большим недостатком PCM является высокая цифровая скорость и широкая полоса частот, занятая во время передачи.

Дифференциальная импульсная кодовая модуляция (DPCM) - это кодирование, основанное на разностном сигнале смежных значений выборки. На рисунке 1 показана блок-схема принципа DPCM. ADPCM разработан на основе DPCM. Параметры его квантователя и предиктора могут быть адаптивными к наилучшему или близкому к лучшему состоянию параметра в соответствии со статистическими характеристиками входного сигнала. ADPCM является одним из менее сложных кодировок речи методы.

Рисунок 1. DPCM принципиальная блок-диаграмма

Инкрементная модуляция основана на том, увеличивается или уменьшается мгновенное значение сигнала, то есть согласно инкрементному кодированию аналоговый сигнал кодируется однобитовой двоичной кодовой последовательностью. Этот метод прост и легок в реализации, но поскольку порядок фиксирован, шум квантования Мощность фиксирована, поэтому, когда сигнал уменьшается, отношение сигнал / шум (SNR) уменьшается. Для улучшения динамического диапазона этого метода вводится адаптивная технология для изменения величины порядка со статистическими характеристиками входного сигнала. Это называется адаптивной инкрементальной модуляцией (ADM).

APC - это метод кодирования, который точно прогнозирует текущие выборки из значений прошлых выборок на основе статистических характеристик речи и использует адаптивный прогнозатор для повышения точности прогнозирования. Чем точнее прогноз, тем ниже скорость кодирования.

(2) Кодирование в частотной области.

Способы кодирования в частотной области в основном включают в себя кодирование поддиапазонов (SBC) и адаптивное кодирование с преобразованием (ATC)

SBC использует полосовой фильтр, чтобы разделить речевой частотный диапазон на несколько поддиапазонов, и выполняет выборку и кодирование отдельно. Метод кодирования может использовать ADPCM или ADM, а скорость SBC может достигать 9,6 кбит / с. Переменная SBC может сделать структуру поддиапазона не фиксированной. Вместо этого он изменяется вместе с формантой, что еще больше увеличивает скорость кодирования. При скорости 4,8 кбит / с этот метод может иметь фиксированное качество речи SBC, эквивалентное 7,2 кбит / с.

ATC сначала делит речевой сигнал по времени. Каждый сегмент сигнала обычно имеет от 64 до 512 выборок, а затем каждый фрагмент речевых данных во временной области преобразуется в частотную область путем ортогонального преобразования, и получают соответствующие наборы коэффициентов частотной области. Каждый компонент каждой группы коэффициентов отдельно квантуется, кодируется и передается, и каждая группа коэффициентов, декодированных на приемной стороне, затем обратно преобразуется из частотной области во временную область, чтобы восстановить сигнал периода, и, наконец, каждый период подключается к речевому сигналу. Код ATC позволяет получать

высококачественную речь со скоростью от 12 до 16 кбит / с.

3.1.2 Вокодер

Так называемый вокодер анализирует и извлекает характерные параметры речевого сигнала на основе модели произношения и передает только те параметры, которые могут синтезировать речевую информацию. Ему не нужно воспроизводить форму волны исходной речи. Поскольку параметры модели имеют очень небольшой объем данных по

сравнению с речевым сигналом. Таким образом, скорость кодирования параметрического кодирования очень низка, но качество речи, полученное этим способом кодирования, не является идеальным. Типичные вокодеры включают в себя тип спектральной полосы, тип форманты и вокодер, состоящий из анализа с линейным предсказанием (LPC). Рисунок 2 - кодер с линейным предсказанием.

Рисунок 2 Линейный прогнозирующий кодер

3.1.3 Смешанное кодирование Поскольку первые два типа методов кодирования имеют свои преимущества и недостатки, более поздние исследователи стали больше думать о том, как объединить их для формирования алгоритма кодирования с лучшей производительностью. Гибридное кодирование основано на этой идее. Его представителем является метод, называемый «Аналитический синтез» (ABS), в котором используется технология слухового взвешивания для нахождения субъективного вектора возбуждения с наименьшими искажениями на основе замкнутого контура.

Из-за различных используемых моделей сигналов возбуждения этот метод Было получено множество новых способов кодирования. Типичные способы включают в себя кодирование с линейным предсказанием с остаточным возбуждением (RELP), кодирование с многоимпульсным возбуждением с линейным предсказанием (MPC), кодирование с кодовым возбуждением с линейным предсказанием (CELP). Рис.3 - функциональная блок-схема кодера RPE-LTP.

Рисунок 3 КРЕ-ЬТР Кодировщик упрощенной блок-схемы

3.1.4 Перцептивное кодирование Большинство технологий кодирования также включают психоакустические принципы слуховой системы человека, а именно технологию кодирования персептрона. Этот метод кодирования исполь-

зует психоакустические характеристики человеческого уха. Любой компонент, который невидим человеческому уху, не кодируется и не передается, чтобы уменьшить объем данных, не влияя на качество звука (см. Рисунок 4).

Вход сигнала ^ Анализ фильтрации волн Квантование и кодирование Формирование битового потока

Психоакустическая модель

Выход сигнала Отображение временной области в частотной области Восстановление образца частотной области Декодирование битового потока

Рисунок 5 Блок-схема кодека индикатор (перцептрон)

3.2 Качество кодирования речи и скорость кодирования

Соотношение между качеством речи и скоростью кодирования показано на рисунке 5.

Метод кодирования РСМ 64 кбит / с для высокого качества

Речь с использованием формы волны корреляции и спектральных характеристик может

Сжатие до 24 - 32 кбит / с, дальнейшее использование

Одновременно с тональной структурой может выполняться формирование шума.

Уменьшено до 9,6 кбит / с. Но если уменьшенное количество бит превышает

После указанного числа качество голоса резко ухудшится, вокодирование

Можно уменьшить количество бит больше, но качество речи плохое.

Гибридное кодирование объединяет кодирование формы волны и вокодеры.

Получите лучшее качество речи с более низкой скоростью кодирования.

3.4 Стандарты и приложения речевого кодирования

Практически используемый алгоритм кодирования речи будет всесторонне учитывать различные факторы и объединять вышеупомянутые типы методов кодирования для получения наилучшей производительности кодирования при определенных условиях. После нескольких лет разработки появилось несколько технических стандартов, и они применяются в различных областях. Смотрите следующую таблицу для деталей:

/ TECHNICAL science

Классификация алгоритм Название Скорость передачи данных Норма Применение средняя оценка мнении

кодирование формы сигнала РСМ Импульсная кодовая модуляция 64 G.711 Публичная сеть ISDN 4.0-4.5

ADPCM адаптивная дифференциально-импульсная кодовая модуляция 32 16-40 G.721 G.726

SB-ADPCM Боковая полос? о вдаптиэнсй иыптлкнсЛ КШЮЭСЙ МОЛ»ЛВШ1вЙ 16-40 48-64 G.727 G.722

Кодирование параметров LPC-10E Линейное прогнозирующее кодирование 2.4 FS-1015 Конфиденциальное общение 2.5-3.5

Смешанное кодирование CELP Кодовая книга стимулов 1_РС 4.8 FS-1016 Военные связи 3.7-4.0

RPE-LTP регулярное импулпсное возбуждений, кодирование с долгосрочный предсказанием 13 GSM Мобильная связь

LD-CELP Кодовое возбуждение с низкой задержкой 16 G.728 Публичная сеть ISDN

CS-ACELP Сопряженная структура цифрового возбуждения 1.РС 8 G.729 IP-Voc Мобильная связь

MELP Кодирование о линейным предсказанием смешанного возбужден ия 2.4 FS-1015 Конфиденциальное общение

MP-MLQ Многоимпульсное генерация квантования с максимальным правдоподобием цифрового возбуждения 5.3/6.3 G.723.1 PSTN

АСЕ LP SQVH Скалярное квантованное векторное кодирование хаффмана 24/32 G.722.1 Публичная сеть 4.2

АС-3 Перцептивное кодирование 300 Звук 5.0

MPEG Кодирование с поддержкой нескольких поддиапазонов 128 CD

Направление развития речевого кодирования

В настоящее время существует три основных направления кодирования речи. Одним из направлений является дальнейшее снижение скорости кодирования речи. Другое направление - речевое кодирование с переменной скоростью. Конечно, есть еще одно направление развития: речь не сжимается. Это связано с тем, что текущая ширина полосы пропускания быстро росла, а стоимость передачи значительно снизилась. Стоимость кодирования речи стала неэкономичной по сравнению со снижением затрат на передачу. Стоимость передачи без сжатия еще ниже.

4.1 Направление развития речевого кодирования - речевое кодирование с очень низкой скоростью

4.1.1 Речевое кодирование с очень низкой скоростью

Речевое кодирование с очень низкой скоростью относится к речевым кодекам со скоростями ниже 2400 бит / с. Он имеет широкий спектр применений в области конфиденциальной связи, голосовой почты, сетевой связи и ^-телефона. Особенно в информационной битве, он широко используется в индивидуальной боевой технике связи.

4.1.2 Необходимость речевого кодирования с очень низкой скоростью

В современных коммуникациях эффективность и экономичность использования каналов остаются важными целями исследования. Технология кодирования речи с очень низкой скоростью является обязательным направлением исследований в

области речевого общения. В реальной связи некоторые каналы трудно расширить и имеют плохое качество, такие как коротковолновые каналы, некоторые каналы широко используются, и их сложно обновить в краткосрочной перспективе, а некоторые - в особых условиях, таких как военная связь в условиях сильных помех и т. Д. Дорогие каналы, каждый сэкономленный бит означает экономическую выгоду. В этих условиях чрезвычайно низкоскоростное кодирование речи является очень привлекательным. С развитием услуг цифровой связи высококачественная технология кодирования речи с чрезвычайно низкой скоростью станет горячей точкой исследования.

4.2 Направление развития речевого кодирования речевого кодирования с переменной скоростью

4.2.1 Речевое кодирование с переменной скоростью

Речевое кодирование с переменной скоростью означает, что во время процесса связи система связи динамически регулирует скорость кодирования речи в соответствии с потребностями, достигает гибкого компромисса между качеством синтезированной речи и пропускной способностью системы и максимизирует эффективность системы. В широко используемых и перспективных системах мобильной связи с множественным доступом с кодовым разделением каналов (CDMA) используемый алгоритм кодирования речи с переменной скоростью оказывает очень важное влияние на пропускную способность системы и качество вызова. По мере совершенствования технологии области ее

TECHNICAL SCIENCE / <<Ш1ШетУМ~^®УГМа1>#7(1Ш,2©2©

применения становятся все шире и шире, не только ограничиваются системами мобильной связи, но также имеют хорошие перспективы применения в 1Р-телефонах, Интернете и спутниковой связи.

4.2.2 Необходимость разработки речевого кодирования с переменной скоростью

Вообще говоря, традиционное кодирование речи, скорость кодирования алгоритма кодирования с более высокой скоростью проще гарантировать, но он занимает больше сетевых ресурсов, скорость кодирования алгоритма кодирования с более низкой скоростью занимает меньше сетевых ресурсов, но трудно гарантировать качество диалога. В последние годы быстро развиваются системы связи. С развитием мобильной связи, особенно с развитием мобильной связи третьего поколения, предъявляются повышенные требования к алгоритмам кодирования со сжатием речи, которые требуют не только более низких скоростей кодирования для увеличения пропускной способности системы, но и Требуется высокое качество синтетического звука для обеспечения качества звонка. С традиционными методами кодирования трудно удовлетворить оба требования одновременно. В этой ситуации предлагается способ кодирования со сжатием речи с переменной скоростью. Он может динамически регулировать скорость кодирования в соответствии с потребностями, достигать гибкого компромисса между качеством синтезированной речи и пропускной способностью системы и максимизировать производительность системы.

4.3 Направление развития речевого кодирования несжатого речевого кодирования

Кодирование речи с очень низкой скоростью и речевое кодирование с переменной скоростью являются основными направлениями развития современного кодирования речи. Но некоторые системы связи все еще используют несжатое кодирование речи. Это связано с тем, что текущая полоса пропускания передачи быстро растет, особенно развитие волоконно-оптической связи, что значительно снизило стоимость передачи.Стоимость кодирования речи стала неэкономичной по сравнению с экономией затрат на передачу. Стоимость еще ниже. Поэтому в этих системах используются алгоритмы кодирования несжатого речи, и большинство из них напрямую используют кодирование ИКМ для передачи. Это может обеспечить высокое качество голосовой связи и более простое оборудование связи, что значительно снижает расходы на связь. Несжатое кодирование речи в основном используется в наземных системах микроволновой связи и оптоволоконной связи.

Конечно, в дополнение к трем основным направлениям развития речевого кодирования, поиск наилучшей модели возбуждения речи и посто-

янное понимание механизма слуховой системы человека станут основной исследовательской работой в ближайшем будущем.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Речевое кодирование является важным аспектом обработки речевого сигнала, и оно наиболее тесно связано с полем связи. А распознавание речи, синтез речи, улучшение речи и другие аспекты имеют много общего с кодированием речи в теории и методе. Поэтому системное и всестороннее понимание современного направления развития кодирования речи имеет большое значение для развития работ в области речевого общения. Речевое кодирование является хорошо известной областью и новой областью. С приходом информационного века к кодированию речи предъявляются новые требования, и технология кодирования речи, безусловно, будет развиваться дальше.

Список литературы

1. Ван Вэньсин, Анализ и применение технологии речевого кодирования, Журнал Технологического института Цзяоцзо (издание «Естествознание»), май 2002 г.

2. Чжоу Бо, Сюй Мэн, Исследования в области технологий цифрового речевого кодирования, развития информационных технологий и экономики и науки, том 18, № 3, 2008

3. Сюэй Чжан, Цифровая обработка речи и моделирование Matlab, Электронная индустрия прессы, 2014

4. Лян Янься. Исследование технологии низкоскоростного многоканального возбуждения с линейным предсказанием кодирования речи [D]. Xidian University 2011

5. Цзи Чжэ Исследование алгоритмов низкоскоростного кодирования речи Университет Цин-хуа 2011-04-01

6. Он Хунхуа. Исследование алгоритма кодирования речи на сверхнизких скоростях. Университет Цинхуа 2011-05-01

7. Лю Хуа; Гао Фейян; Ли Цзюньхун Улучшение и моделирование алгоритма кодирования речи ACELP

8. Технология кодирования речи Ши Нина в технологии беспроводной связи в цифровой связи 2011-09-15

9. Чжоу Jiawei Совершенствование и реализация алгоритма адаптивного многоскоростного кодирования речи Сианьский университет электронных технологий 2013-03-01

10. Чжан Чжунхуи, Фан Юань Объективная оценка компьютерного приложения схемы кодирования речи 2014-06-15

11. Ли Чжэн; Цзян Шэнси; Цуй Хуэйцзюань; Тан Кун. Улучшенная устойчивая к ошибкам схема модели кодирования речи SELP. Электроакустическая технология 2010-06-17

12. Гу Юаньцинь речевое и канальное кодирование в мобильной связи Гуандунские коммуникационные технологии 2007-08-15

i Надоели баннеры? Вы всегда можете отключить рекламу.