Информатика, вычислительная техника и управление
УДК 669.01(075)
ОБЗОР МЕТОДОВ И АЛГОРИТМОВ СЖАТИЯ РЕЧЕВОЙ ИНФОРМАЦИИ В СИСТЕМАХ ЦИФРОВОЙ РАДИОСВЯЗИ
С.Л. Подвальный, А.Д. Рощупкин
Данная статья представляет собой обзорный анализ существующих методов и алгоритмов сжатия речевой информации. В статье раскрывается актуальность и необходимость развития средств информационного обмена. Показано, что наиболее естественной и удобной формой информационного обмена являются речевые сообщения. Таким образом, автор подводит к мысли, что повышение эффективности передачи речевых сообщений посредством радиосвязи способствует развитию информационной сферы деятельности человека, которая, в свою очередь, является определяющим фактором развития оборонного, интеллектуального и экономического потенциала государства и человеческого общества в целом.
В статье подробно рассматриваются основные направления кодирования речи, методы кодирования формы сигнала и алгоритмы кодирования источника сигнала. Перечислены и проанализированы основные типы вокодеров, представлена их классификация, описаны основные характеристики и области применения. Сформулирована основная задача алгоритмов сжатия речевых сигналов, показана их практическая эффективность на примере цифровой радиостанции, организующей канал передачи данных. Продемонстрирована актуальность разработки новых высокоэффективных алгоритмов сжатия, открывающих перспективы для развития средств цифровой радиосвязи
Ключевые слова: речевой сигнал, кодирование, декодирование, кодек, сжатие, вокодер
Вводная часть. В настоящее время смело можно утверждать, что информационная сфера деятельности человека является определяющим фактором развития оборонного, интеллектуального и экономического потенциала государства и человеческого общества в целом. Для развития данной сферы деятельности средства информационного обмена должны обеспечивать прием и передачу больших объемов данных вне зависимости от местонахождения человека. Так же происходит повышение интенсивности
информационного обмена на основе речевых сообщений. Это обусловлено тем, что речевые сообщения являются наиболее естественной и удобной формой информационного обмена. Одним из вариантов решения поставленной задачи является организация средств радиосвязи.
С момента зарождения радиосвязи ведутся научно-исследовательские работы по
совершенствованию средств связи. На сегодняшний день передовыми средствами связи являются системы аналоговой и цифровой радиосвязи. Цифровая связь повсеместно используется для передачи аналоговых сигналов (например речь). Цифровые системы радиосвязи позволяют разрабатывать алгоритмы шифрования данных (с целью обеспечения сокрытия передаваемой информации), алгоритмы помехоустойчивого кодирования (для борьбы с возникающими в канале связи ошибками), алгоритмы сжатия данных (в целях эффективного описания исходной информации, как следствие - снижения требований к памяти и полосе частот, связанных с хранением и
Подвальный Семен Леонидович - ВГТУ, д-р техн. наук, профессор, e-mail: spodvalny@yandex.ru Рощупкин Андрей Дмитриевич - ВГТУ, аспирант, e-mail: andrey.roshupkin@bk.ru
передачей дискретных реализаций исходных данных) [42]. Цифровая радиосвязь как средство интенсивного информационного обмена в сфере деятельности человека имеет ряд проблем: ограниченность частотного ресурса, ограниченность пропускной способности канала связи, дальность связи и другие.
Таким образом, с целью совершенствования цифровых средств радиосвязи разработка эффективных алгоритмов сжатия речевых сигналов является актуальной научно-исследовательской задачей.
Основная часть. Основные элементы цифровой системы радиосвязи, в том числе и алгоритмы сжатия речевой информации в виде кодера, обобщенно показаны на рис. 1, где в качестве источника информации выступает аналоговый речевой сигнал.
Модуляция -.
- -1_
Канал а шумом
Демодуляция ^—^
Рис. 1. Структурная схема цифровой системы радиосвязи
Основная задача алгоритмов сжатия речевых сигналов это предельно возможное сжатие сигнала, представленного в цифровой форме, другими словами, предельно возможное устранение избыточности речевого сигнала, но при сохранении приемлемого качества передачи речи. Компромисс между степенью сжатия и сохранением качества выбирается исходя из требований к разрабатываемому техническому средству, а
проблема получения высокой степени сжатия без чрезмерного снижения качества составляет основную трудность при разработке алгоритмов сжатия.
Максимально возможная пропускная способность канала связи не зависит от способа физического кодирования, так как определяет возможности линии при гипотетическом наилучшем способе кодирования. Практическая пропускная способность канала существенно зависит от способа физического кодирования информации. Одна и та же линия связи может иметь разную пропускную способность при разных способах кодирования. При этом необходимо стремится выбрать способ кодирования так, чтобы максимально использовать возможности линии [36]. Приведем пример, две одинаковые приемо-передающие станции УКВ диапазона работают с равных условиях, однако, одна станция передает речевые сигналы в цифровом канале на скорости 4,8 кбит/с, а другая станция на скорости 2,4 кбит/с. При одной и той же пропускной способности канала связи, например 4,8 кбит/с, цифровой поток речевого сигнала с меньшей скоростью может быть повторно закодирован избыточными помехоустойчивыми кодами. В результате чего, на приемной стороне цифровой поток со скоростью 2,4 кбит/с может быть принят на более удаленном расстоянии от источника сигнала [28]. Другими словами, низкоскоростные кодеры обеспечивают более надежную связь при канальных помехах. Помимо этого эффективные низкоскоростные кодеры обеспечивают более высокое качество речи при работе в сильно зашумленных окружающих условиях. Кодирование речи с низкой скоростью уменьшает объем цифровой информации, требуемой для реализации речевых сообщений [33].
Направления кодирования речевых сигналов.
Исторически сложилось два основных направления кодирования речи: кодирование формы сигнала и кодирование источника сигнала.
Рис. 2. Направления кодирования речевых сигналов
Метод кодирования формы сигнала (рис. 3) основан на использовании статистических характеристик сигнала и практически не зависит от механизма формирования сигнала. Кодеры этого типа обеспечивают высокое качество передачи речи (разборчивость и натуральность речи), но отличаются меньшей по сравнению с методом кодирования источника сигнала экономичностью.
Самый распространенный представитель данного направления кодирования это аудиокодек G.711 - стандарт для представления восьми битной компрессии голова типа Pulse Code Modulation с частотой дискретизации 8000 раз в секунду и объемом 8 бит на отсчет. Таким образом, G.711 кодек создаёт поток около 64 кбит/с.
x(t)
Рис. 3. Визуальное представление метода кодирования формы сигнала
Метод кодирования источника сигнала подразумевает кодирование параметров сигнала и основывается на известных данных о механизмах речеобразования. Другими словами, анализируется модель голосового тракта, которая приводит к системам анализ-синтез, получившим название вокодерных систем [43]. На сегодняшний день в системах цифровой радиосвязи используется преимущественно вокодерные системы, как более экономичные с приемлемым качеством передачи речи.
Классификация вокодеров. Все
существующие на сегодняшний день вокодеры можно разделить на два основных класса: речеэлементные и параметрические.
В речеэлементных вокодерах при передаче распознаются произнесенные элементы речи (фонемы), и передаются только их условные номера.
В параметрических вокодерах из речевого сигнала выделяют два типа параметров:
- параметры, характеризующие огибающую спектра речевого сигнала, (фильтровую функцию);
- параметры, характеризующие источник речевых колебаний (генераторную функцию). Основные параметры - моменты появления и исчезновения основного тона, моменты появления и исчезновения шумового сигнала, частота основного тона, ее изменение во времени. После по этим параметрам на приеме синтезируют речь [34].
По принципу определения параметров фильтровой функции речи выделяют следующие вокодеры:
- ортогональные;
- полосные канальные;
- липредеры;
- формантные;
- гомоморфные.
Ортогональные вокодеры. Огибающая мгновенного спектра в ортогональных вокодерах раскладывается в ряд по выбранной системе ортогональных базисных функций. Вычисленные коэффициенты этого разложения передаются на
приемную сторону. Широкое распространение получили гармонические вокодеры, использующие разложение в ряд Фурье.
Рассмотренные вокодеры обеспечивают сжатие сигнала до 1200 - 4800 бит/с, позволяя восстановить в декодере частоту основного тона с дискретностью в несколько герц и с невысокой точностью огибающую спектра сигнала с периодом изменения 16-40 мс, при этом даже при достаточно высокой разборчивости речи теряются многие индивидуальные особенности диктора.
Из-за сложности определения параметров генераторной функции появились полувокодеры (Voice Excited Vocoder, VEV), в которых вместо сигналов основного тона используется полоса речевого сигнала до 800 - 1000 Гц, которая кодируется, например, адаптивная дискретная импульсная кодовая модуляция, и вместо характеристик основного тона передается на выход кодера. Такой алгоритм позволяет сжать речь до 4800-9600 бит/с, сохраняя генераторную функцию гортани (частоту и закон изменения основного тона) диктора.
Полосные вокодеры. В полосных вокодерах спектр речи делится на определенное количество полос (каналов) аналоговыми или цифровыми полосовыми фильтрами. Большее число каналов в вокодере дает большую натуральность, качество и разборчивость речи. С каждого полосового фильтра сигнал поступает на детектор и фильтр низких частот с частотой среза Fcp. Таким образом, сигналы на выходе каждого канала изменяются с частотой менее Fcp. Их передача возможна в аналоговом или цифровом виде.
Полосные вокодеры различных типов способны сжимать речевые сигналы в диапазоне 2400 - 9600 бит/с. Для данного типа вокодеров качество речи монотонно зависит от скорости передачи. Так, лучше всего вокодеры звучат при скорости потока 9600 бит/с, а при скорости 2400 бит/с речь для большинства слушателей становится почти неразборчивой.
Липредеры. Вокодеры с линейным предсказанием (LPC - Linear Prediction Coding) или липредеры основаны на оригинальном математическом аппарате. При кодировании с линейным предсказанием моделируются различные параметры человеческой речи, которые передаются вместо отсчетов или их разности, требующих значительно большей пропускной способности канала. Следует заметить, что буферы, необходимые для хранения потоков данных, увеличивают задержку кодирования.
Данные вокодеры обеспечивают сжатие сигнала до скорости 1000 бит/с, с приемлемым уровнем разборчивости.
Основным недостатком низкоскоростных LPC вокодеров данного типа является высокая чувствительность субъективного качества синтезированной речи к ошибкам в расчете параметров возбуждения синтезирующего фильтра, а так же к амплитудно-частотным искажениям
спектра входной речи. Это является следствием несовершенства функциональной модели вокодера и ограниченного объема передаваемой информации. Прямая оценка параметров возбуждения, без коррекции на основе сравнения синтезированного сигнала с исходным сигналом, приводит к тому, что даже единичные ошибки в оценке спектральной огибающей сигнала, частоты основного тона, границ озвученных участков и. т. д. хорошо заметны на слух. Низкоскоростные LPC вокодеры, в отличие от CELP вокодеров, не сохраняют форму волны передаваемого сигнала, лишая возможности введения простого критерия оценки ошибки во временной области в виде энергии взвешенного разностного сигнала [21].
Формантные вокодеры. В формантных вокодерах огибающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант -центральная частота, амплитуда и ширина полосы частот.
Исходя из этого, при использовании формантного вокодера по каналу связи нужно передать дискретизированные по времени и квантованные по амплитуде величины.
Учитывая плавность изменения во времени выше перечисленных сигнальных параметров параметров, дискретизацию можно проводить с частотой 40 Гц, квантование в среднем 16 уровнями (4 бита), а частоты основного тона - 128 уровнями (7 бит), что в сумме потребует канала связи с пропускной способностью, равной 1700 бит/с.
На одном из вокодеров формантного типа со скоростью 1200 бит/с получена слоговая разборчивость высокого уровня Разборчивость речи при использовании формантных вокодеров и передаче со скоростью 2400 бит/с превышает разборчивость обычной телефонной связи [32].
На приемном конце линии связи при восстановлении (синтезе) речи, применяются управляемые формантные контуры, генератор шума, модуляторы, сумматоры.
Гомоморфные вокодеры. Гомоморфная обработка позволяет разделить генераторную и фильтровую функции, образующие речевой сигнал.
Гомоморфная обработка речевого сигнала приводит к весьма удобному описанию, где основные параметры сигнала отделены друг от друга, т. е. информация о сигнале возбуждения расположена в области больших времен, а информация о речевом тракте и форме импульса возбуждения - в области малых времен кепстра (термин «кепстр» является в настоящее время общепринятым для обозначения обратного преобразования Фурье логарифма спектра мощности сигнала; «комплексный кепстр» означает комплексный логарифм).
Зависящий от времени комплексный спектр фактически содержит ту же информацию, что и текущий спектр сигнала, который, в свою очередь, является точным описанием речевого сигнала. Кепстральное представление, однако, не использует
информации о фазе сигнала, содержащейся в преобразовании Фурье, и поэтому кратковременный кепстр не позволяет единственным образом описать речевое колебание. Тем не менее, на основе кепстра можно оценить формантные частоты, период основного тона и классифицировать сигнал как вокализованный или невокализованный.
В гомоморфном вокодере кепстр вычисляется 1 раз через каждые 10 - 20 мс. Период основного тона и признак тон/шум оцениваются по кепстру, а компоненты кепстра в области малых времен (примерно первые 30 отсчетов) квантуются и кодируются для передачи или хранения. По квантованным отсчетам кепстра в области малых времен в синтезаторе восстанавливается импульсная реакция и вычисляется свертка с функцией возбуждения, которая была восстановлена в синтезаторе по информации об основном тоне, признаке тон/шум и соответствующих амплитудах [43].
Характеристики вокодеров. Качество речи вокодеров является монотонной функцией от скорости передачи. На рис. 4 наглядно представлена зависимость качества речи от скорости передачи речевых данных. Помимо этого, эффективность работы вокодеров напрямую зависит от задержки в обработке и от производительности вычислительных систем.
Качостпо речи
Отличное Хорошее Среднее Низкое
И КМ кодеки
+
Вокадерные
1 2 < « 32 64 ^
Скорость передачи данных
Рис. 4. Зависимость качества работы вокодера от скорости передачи данных
В настоящее время большинство вокодеров работают на фиксированной скорости вне зависимости от характеристик входного сигнала, однако целью современных разработок являются вокодеры с переменной скоростью. Общим решением является использование фиксированной скорости для речи и низкой скорости для фоновых шумов. Способ выполнения механизма сжатия пауз важен для повышения качества передачи речи, однако часто выигрыш от компрессии пауз не реализуется. Проблемой является то, что при больших фоновых шумах сложно провести различия между речью и шумом [29]. Другая проблема заключается в том, что если механизм сжатия пауз неправильно выявил состояние речи, начало речи может быть потеряно, что значительно ухудшает разборчивость кодированной речи. Способ
генерации комфортного шума должен быть таким, чтобы кодер и декодер оставались синхронизированными, даже если в течение некоторого интервала времени передача данных не осуществляется. Это позволяет сгладить переходы между сегментами активной и неактивной речи.
Вокодеры часто выполняются на основе цифровых сигнальных процессоров. В соответствии с компьютерной терминологией их производительность может быть измерена в млн. операций в секунду, объеме памяти с произвольным доступом к оперативной памяти и объеме постоянной памяти. Производительность определяет стоимость вокодера, поэтому при определении типа вокодера для тех или иных приложений разработчик должен сделать соответствующий выбор. В случаях, когда вокодер совместно использует процессор с другими приложениями, разработчик должен решить, сколько ресурсов можно выделить для вокодера. Вокодеры, использующие менее 15 млн. операций в секунду, считаются
низкопроизводительными, использующие 30 или более млн. операций в секунду являются высокопроизводительными [35]. Однако увеличение производительности приводит к увеличению стоимости и большим затратам энергии. Энергетические затраты важны для приложений в портативной аппаратуре, так как при больших затратах энергии сокращается время между подзарядками батарей или возникает необходимость использовать батареи большей емкости, что, в свою очередь, приводит к большей цене и весу. Однако, обеспечить устойчивую радиосвязь на больших дальностях связи, только за счет применения высокоэффективных алгоритмов сжатия речи, так же не менее важная задача.
Заключительная часть. Приведенный в статье обзорный анализ методов и алгоритмов сжатия речевой информации показал, что развитие средств цифровой радиосвязи, влекущее за собой развитие информационной сферы деятельности человека, открывает широкие перспективы для дальнейшего использования и внедрения новых алгоритмов сжатия речи.
Основной проблемой реализации
информационного обмена является ограниченность ресурсов технических средств связи (пропускная способность канала связи, объемы памяти, производительность). Поэтому не вызывает сомнения необходимость выбора такого способа сжатия речевой информации, который обеспечивает минимум объемов битовых представлений хранимых и передаваемых речевых данных при сохранении приемлемого, с точки зрения пользователя, качества воспроизведения исходных речевых сообщений. Именно это является предметом дальнейших научных исследований.
Литература
1. Atal, B. S. Speech Analysis and Synthesis by Linear Prediction of the Speech Wave / B. S. Atal, J. Acoust // Soc. Am. - 1990. - vol. 65. - p. 47.
2. Atal, В. S. Efficient vector quantization of LPC parameters at 24 bits/frame / B. S. Atal, J. R. Remde // International conference on Acoustics, Speech and Signal Processing. - 1993. - vol. 6. - № 2. - p.13.
3. Barnwell, Т. An Improved Mixed Excitation Linear Prediction (MELP) Coder / T. Barnwell, T. Unno, K. Truong // Proc. of ICASSP-99. - 1999. - pp. 245-248.
4. Deller, J. R. Discrete-Time Processing of Speech Signals / J. R. Deller, J. G. Proakis, J. H. L. Hansen // Macmillan Publishing Company, New York, NY. - 1993. - p. 167.
5. Fant, G. С. Acoustic Theory of Speech Production / G. C. Fant // Mouton and Co.,'s - Gravenhage, The Netherlands. - 1990. - p. 81.
6. Flanagan, J. L. Source-System Interactions in the Vocal Tract / J. L. Flanagan // Ann. New York Acad. Sci. -1998. - vol. 155. - pp. 9-15.
7. Hauenstein, M. On the application of a psychoacoustically motivated speech-quality measure in CELP speech-coding / M. Hauenstein, N. Goertz // In the proc. Of the 9 European Signal processing conference. - 1998. - pp. 1421-1424.
8. Markel, J. D. Formant Trajectory Estimation from a Linear Least-Squares Inverse Filter Formulation / J. D. Markel // Speech Communications Research Laboratory, Santa Barbara, California. - 1991. - № 3. - p. 248.
9. Moon, T. K. Mathematical Methods and Algorithms for Signal Processing / T. K. Moon, W. C. Stirling // Prentice Hall, Upper Saddle River, NJ. - 2000. - p. 127.
10. The New Federal Standard at 2400 bps / A. V. McCree, L. M. Supplee, R. P. Cohn, J. S. Collure // International Conference on Acoustics, Speech, and Signal Processing. - 1997. - pp. 21-49.
11. A 2.4 kbit/s MELP Coder Candidate for the New U. S. Federal Standard / A. V. McCree, K. Truong, E. George and others // International Conference on Acoustics, Speech, and Signal Processing. - 1996. - рр.200-203.
12. Rabiner, L. R. Fundamentals of Speech Recognition / L. R. Rabiner B. H. Juang // Prentice-Hall International, Inc. Englewood Cliffs, New Jersey. - 1993. - vol. 5. - pp. 384407.
13. Rose, R. C. Design and Performance of an Analysis-by-Synthesis Class of Predictive Speech Coders [Text] / R. C. Rose, T. P. Barnwell // International Conference on Acoustics, Speech, and Signal Processing. - 1990. - vol. 38. - № 9. -p.93.
14. Tuan, V. N. Robust Glottal Closure Detection Using the Wavelet Transform / V. N. Tuan, C. d'Alessandro // European Conference on Speech Communication and Technology, Budapest, Hungary. - 1999. - pp. 2805-2808.
15. Wang, C. Robust Pitch Tracking for Prosodic Modeling in Telephone Speech / C. Wang, S. Seneff // International Conference on Acoustics, Speech, and Signal Processing. - 2000. - vol. 3. - pp. 1343-1346.
16. Yang, W. Enhanced Modified Bark Spectral Distortion (EMDSD): An Objective Speech Quality Measure Based On Audible Distortion And Cognition Model / W. Yang // A Dissertation of the Requirement for the Degree Doctor of Philosophy. - 1999. - p.207.
17. Yeldener, S. A 4 kb/s Toll Quality Harmonic Excitation Linear Predictive Speech Coder / S. Yeldener // International Conference on Spoken Language Processing. -1996. - pp. 481-484.
18. Ying, G. S. A Probabilistic Approach to AMDF Pitch Detection / G. S. Ying, L. H. Jamieson, C. D. Michell // International Conference on Spoken Language Processing. -1996. - pp. 1201-1204.
19. Андреев, И. В. Реализация многоканальных речевых CELP кодеков на DSP TMS320 / И. В. Андреев, В. В. Бабкин, А. Е. Знамеровский // Цифровая обработка сигналов и ее применение: 2-я междунар. конф. - М.: Стандартинформ , 1999. -Т.2. С. 283-287.
20. DSP для систем IP-телефонии / И. В. Андреев, В. В. Бабкин, А. В. Кондроутский, А. В. Заборовский,
A. Е. Знамеровский // Исследования в области DSP: 3-я европейская конф. - М.: Стандартинформ, 2000. -Т.1. С. 85-89.
21. Бабкин, В. В. LPC вокодер 1000-1200 бит/с /
B.В. Бабкин // Цифровая обработка сигналов и ее применение (DSPA-2000): труды 3-ей междунар. конф.-М., 2000. С. 8.
22. Бабкин, В. В. Сравнение помехоустойчивости различных алгоритмов оценки периода основного тона речи / В. В. Бабкин // 54-я НТК: тез. докл. СПб.: СПб. ГУТ, - 2001. - 98 с.
23. Бабкин, В. В. Архитектура модуля обработки сигналов двухканального шлюза ЕР-телефонии / В. В. Бабкин // Техника и технология связи: 2-я междунар. НТК. СПб.: СПб. ГУТ, -2000. -75 с. (опубликована в журнале "Электросвязь" №7, 2000).
24. Бабкин, В. В. Реализация двухскоростного CELP вокодера на цифровом сигнальном процессоре ADSP-2181 / В. В. Бабкин // 52-я НТК: тез. докл. СПб.: СПб. ГУТ, -1999. - 37 с.
25. Быков, С. В. Цифровая телефония: учеб. пособие для вузов / С. В. Быков, В. И. Журавлев, И. А. Шалимов. М.: Радио и связь, 2003. - С. 66-72.
26. Галушкин, А. И. Теория нейронных сетей: учеб. пособие для вузов / А. И. Галушкин.- М.: ИПРЖР, 2000. -416 с.
27. Гольденберг, Л. М. Цифровая обработка сигналов: Справочник / Л. М. Гольденберг, Б. Д. Мапошкин, М. Н. Поляк. М.: Радио и связь,- 1985. - 312 с.
28. Дежурный, И. И. Концепция развития систем сухопутной подвижной радиосвязи в Российской Федерации / И. И. Дежурный // Электросвязь. 1994. №4.-
C. 21.
29. Иванов, А. А. Концепция модернизация сети общего пользования / А. А. Иванов, О. И. Фаерберг,
К. Ю. Никашев //Электросвязь. - 2008. - №8.- С. 18-23.
30. Коротаев, Г. A. Методы линейного предсказания / Г. А. Коротаев // Зарубежная Радиоэлектроника. 1980. -С. 10-17.
31. Лившиц, М. З. Широкополосный CELP - кодер с мультиполосным возбуждением и многоуровневым векторным квантованием по кодовой книге с реконфигурируемой структурой / М. З. Лившиц, М. Парфенюк, А. А. Петровский // Цифровая обработка сигналов. -2005. -№2. -С. 20-35.
32. Литвинцева, А.В. Использование линейного предсказателя речи в программной модели низкоскоростного вокодера для передачи речи по гидроакустическому каналу связи / А. В. Литвинцева,
М. А. Оболонин // Современные проблемы науки и образования. -2013. -№3. -С. 58-64.
33. Максимов, М.И. Проектирование низкоскоростных речепреобразующих устройств для каналов с высоким процентом ошибок / М. И. Максимов, Н. А. Сидорова, О. В. Чернояров //Электросвязь. -2008. -№7. -С. 48-50.
34. Меккель, А. М. Влияние переходов «аналог-цифра и «цифра-аналог» при построении сетей на основе перспективных технологий / А. М. Меккель// Электросвязь.- 2008. -№6. -С. 41-48.
35. Нейман, В. И. Интернет-телефония и перспективы ее развития / В. И. Нейман, Д. А. Селезнев // Электросвязь. - 2008. - С. 6-9.
36. Поляков, А. Н. Об одном из способов решения задачи определения оптимальных управляющих параметров системы низкоскоростной компрессии речевой информации / А. Н. Поляков // Телекоммуникации.- 2008. -№3.- С. 18.
37. Попов, О. Б. Цифровая обработка сигналов в трактах звукового вещания: учеб. пособие для вузов /
О. Б. Попов, С. Г. Рихтер. - М., 2007. - С. 341.
38. Рабинер, Л. Р. Цифровая обработка речевых сигналов / Л. Р. Рабинер, Р. В. Шафер ; Пер. с англ. под ред. М. В. Назарова, Ю. Н. Прохорова. - М.: Радио и связь, 1981. - С. 496.
39. Радзишевский, А. Ю. Основы аналогового и цифрового звука / А. Ю. Радзишевский. - М.: Изд. дом "Вильямс", 2006. - С. 105-109.
40. Сапожков, М. А. Вокодерная связь / М. А. Сапожков, В. Г. Михайлов.- М.: Радио и связь, 1983. -С. 248.
41. Соболев, В. Н. Выделение основного тона методом гребенчатой фильтрации / В. Н. Соболев //Автоматическое распознавание слуховых образов АРСО-12: тез. докл. и сообщений 12-го Всесоюз. семинара. Киев-Одесса, 1982. - С. 141-143.
42. Украинцев, Ю. Д. История связи и перспективы развития телекоммуникаций: учеб. пособие / Ю. Д. Украинцев, М. А. Цветов. УлГТУ, 2009. - 128 с.
43. Шелухин, О. И. Цифровая обработка и передача речи / О. И. Шелухин, Н. Ф. Лукьянцев.- М.: Радио и связь, 2000. - С. 102-106.
Воронежский государственный технический университет
REVIEW OF METHODS AND ALGORITHMS OF SPEECH INFORMATION COMPRESSION IN DIGITAL COMMUNICATION SYSTEMS
S. L. Podvalny1 , A. D. Roshupkin2
'Ph.D, Professor, Voronezh State Technical University, Voronezh, Russian Federation
e-mail: spodvalny@yandex.ru 2Graduate, Voronezh State Technical University, Voronezh, Russian Federation, e-mail: andrey.roshupkin@bk.ru
This article reviews the existing methods and algorithms for compressing voice information. The article reveals the urgency and necessity of developing the means of information exchange. It is shown that voice messages are the most natural and convenient way of information exchange. Hence, the author suggests that increasing the efficiency of voice communication via radio communication contributes to the development of the information exchange in human society, which in its turn is the crucial factor in the development of the defense, intellectual and economic potential of the state and society as a whole. The article examines in detail the main directions of speech coding development. Methods of encoding a waveform and algorithms for coding a signal source are reviewed alongside. The main types of vocoders are listed and analyzed, their classification is introduced, the main characteristics and fields of application are described. The main task of speech compression algorithms is formulated, their practical efficiency is shown using the example of a digital radio station, which manages a data transmission channel. The article emphasizes the urgency of the development of new highly effective compression algorithms that open up perspectives for the development of digital radio communication facilities
Key words: speech signal, coding, decoding, codec, compression, vocoder
References
1. Atal B. S., Acoust J., "Speech Analysis and Synthesis by Linear Prediction of the Speech Wave, " Soc. Am. 65 (1990): 47.
2. Atal В. S., Remde J. R., "Efficient vector quantization of LPC parameters at 24 bits," International Conference on Acoustics, Speech and Signal Processing 6 -2 (1993): 13.
3. Barnwell Т., Unno T., Truong K., "An Improved Mixed Excitation Linear Prediction (MELP) Coder, " Proc. of ICASSP 99 (1999): 245-248.
4. Deller J. R., Proakis J. G., Hansen J. H. L., "Discrete-Time Processing of Speech Signals" Macmillan Publishing Company, (1993): 167.
5. Fant G. С., "Acoustic Theory of Speech Production, " Mouton and Co.,'s - Gravenhage, (1990): 81.
6. Flanagan J. L., "Source-System Interactions in the Vocal Tract, " Annual - New York Academy of Science 155 (1998): 9-15.
7. Hauenstein M., Goertz N.. "On the application of a psychoacoustically motivated speech-quality measure in CELP speech-coding, " European Signal Processing Conference, 9 (1998): 1421-1424.
8. Markel J. D., "Formant Trajectory Estimation from a Linear Least-Squares Inverse Filter Formulation," Communications Research Laboratory, Santa Barbara, California 3 (1991): 248.
9. Moon T. K., Stirling W. C., "Mathematical Methods and Algorithms for Signal Processing, " Prentice Hall, Upper Saddle River, NJ., (2000): 127.
10. McCree A. V., Supplee L. M., Cohn R. P., Collure J. S., "MELP: The New Federal Standard at 2400 bp, " International Conference on Acoustics, Speech, and Signal Processing, (1997): 21-49.
11. McCree A. V., Truong K., George E. and others, "A 2.4 kbit/s MELP Coder Candidate for the New U. S. Federal Standard," International Conference on Acoustics, Speech, and Signal Processing, (1996): 200-203.
12. Rabiner L. R., Juang B. H., "Fundamentals of Speech Recognition, " Prentice-Hall International, Inc. Englewood Cliffs, New Jersey 5 (1993): 384-407.
13. Rose R. C., Barnwell T. P., "Design and Performance of an Analysis-by-Synthesis Class of Predictive Speech Coders, " International Conference on Acoustics, Speech, and Signal Processing, 38 (1990): 9- 93.
14. Tuan V. N., d'Alessandro C., "Robust Glottal Closure Detection Using the Wavelet Transform, " European Conference on Speech Communication and Technology, Budapest, Hungary, (1999): 2805-2808.
15. Wang C., Seneff S., "Robust Pitch Tracking for Prosodic Modeling in Telephone Speech, " International Conference on Acoustics, Speech, and Signal Processing, 3 (2000): 1343-1346.
16. Yang W., "Enhanced Modified Bark Spectral Distortion (EMDSD): An Objective Speech Quality Measure Based On Audible Distortion And Cognition Model, " Dissertation of the Requirement for the Degree Doctor of Philosophy, (1999): 207.
17. Yeldener S. A., "4 kb/s Toll Quality Harmonic Excitation Linear Predictive Speech Coder, " International Conference on Spoken Language Processing, (1996): 481-484.
18. Ying G. S., Jamieson L. H., Michell C. D., "A Probabilistic Approach to AMDF Pitch Detection," International Conference on Spoken Language Processing, (1996): 1201-1204.
19. Andreev I. V., Babkin, V. V., Znamerovskij A. E., "Implementation of multichannel speech CELP codecs on DSP TMS320" ("Realizaciya mnogokanal'nyh rechevyh CELP kodekov na DSP TMS320") Second International Conference Digital Signal Processing and its Applications, (1999): 283-287.
20. Andreev I. V., Babkin V. V., Kondroutskij A. V., Zaborovskij A. V., Znamerovskij A. E., DSP "Units for IP-Telephony Systems " ("DSP dlya sistem IP-telefonii), " Third European Conference Research in the field of the DSP, (2000): 85-89.
21. Babkin V. V., "LPC vocoder 1000-1200 bit/sec" ("LPC vokoder 1000-1200 bit/s"), Third International Conference Digital Signal Processing and its Applications, (2000): 8.
22. Babkin V. V., "Comparison of noise immunity of different algorithms for estimating the pitch period of speech ("Sravnenie pomekhoustojchivosti razlichnyh algoritmov ocenki perioda osnovnogo tona rechi") 54-th Scientific and Technical Conference (2001): 98.
23. Babkin, V. V., "The architecture of the signal processing module of the two-channel IP-telephony gateway"("Arhitektura modulya obrabotki signalov dvuhkanal'nogo shlyuza IR-telefonii"), Second International Scientific and Technical conference (2000): 75.
24. Babkin V. V., "Realizaciya dvuhskorostnogo CELP vokodera na cifrovom signal'nom processore ADSP-2181 [Implementation of a two-speed CELP vocoder on the digital signal processor ADSP-2181]," 52-nd Scientific and Technical Conference (1999): 37.
25. Bykov S. V., Zhuravlev V. I., SHalimov I. A., "Cifrovaya telefoniya: Ucheb. posobie dlya vuzov [Digital telephony: Proc. Manual for high schools]," Radio and Communication (2003): 66-72.
26. Galushkin A. I., "The theory of neural networks" ("Teoriya nejronnyh setej"), Educational. Manual for High Schools (2000): 416.
27. Gol'denberg L. M., Maposhkin B. D., Polyak M. N., "Handbook on Digital Signal Processing" ("Cifrovaya obrabotka signalov"), Radio and Communication (1985): 312.
28. Dezhurnyj I. I., "The concept of development of terrestrial mobile radio systems in the Russian Federation" ("Koncepciya razvitiya sistem suhoputnojpodvizhnoj radiosvyazi v Rossijskoj Federacii"), Telecommunications (1994): 21.
29. Ivanov A. A., Faerberg O. I., Nikashev K. YU., "The concept of modernizing the public network" ("Koncepciya modernizaciya seti obshchegopol'zovaniya"), Telecommunications 8 (2008): 18-32.
30. Korotaev G. A., "Methods of linear prediction" ("Metody linejnogo predskazaniya"), Foreign Radioelectronics (1980):
10-17.
31. Livshic M. Z., Parfenyuk M., Petrovskij A. A., "Broadband CELP encoder with multiband excitation and multilevel vector quantization with a codebook with a reconfigurable structure" ("Shirokopolosnyj CELP - koder s mul'tipolosnym vozbuzhdeniem i mnogourovnevym vektornym kvantovaniem po kodovoj knige s rekonfiguriruemoj strukturoj"), Digital Signal Processing 2 (2005): 20-35.
32. Litvinceva A.V., Obolonin M. A., "Using a linear predictor of speech in the software model of a low-speed vocoder for voice transmission over a hydroacoustic communication channel" ("Ispol'zovanie linejnogo predskazatelya rechi v programmnoj modeli nizkoskorostnogo vokodera dlya peredachi rechi po gidroakusticheskomu kanalu svyazi"), Modern Problems of Science and Education, 3 (2013): 58-64.
33. Maksimov M. I., Sidorova N. A., CHernoyarov O. V., "Designing low-speed speech-converting devices for channels with a high percentage of errors " ("Proektirovanie nizkoskorostnyh rechepreobrazuyushchih ustrojstv dlya kanalov s vysokim procentom oshibok"), Telecommunications 7 (2008): 48-50.
34. Mekkel' A. M., "The impact of "analog-digital" and "digital-analog" transitions in building networks based on advanced technologies" ("Vliyanie perekhodov «analog-cifra i «cifra-analog» pri postroenii setej na osnove perspektivnyh tekhnologij"), Telecommunications 6 (2008): 41-48.
35.. Nejman V. I., Seleznev D. A., "Internet telephony and prospects for its development" ("Internet-telefoniya i perspektivy ee razvitiya"), Telecommunications ( 2008): 6-9.
36. Polyakov A. N., "On one of the ways to solve the problem of determining the optimal control parameters of a system of low-speed compression of speech information" ("Ob odnom iz sposobov resheniya zadachi opredeleniya optimal'nyh upravlyayushchihparametrov sistemy nizkoskorostnojkompressii rechevoj informacii"), Telecommunications (2008): 18.
37. Popov O. B., Rihter S. G., "Digital processing of signals in the paths of audio broadcasting" ("Cifrovaya obrabotka signalov v traktah zvukovogo veshchaniya"), Textbook for High Schools (2007): 341.
38. Rabiner L. R., Shafer R. V., "DigitalProcessing of Speech Signals" ("Cifrovaya Obrabotka Rechevyh Signalov"), Radio and Communication, (1981): 496.
39. Radzishevskij A. Y. "Basics of analog and digital sound" ("Osnovy analogovogo i cifrovogo zvuka"), "Viliams"Publishing House (2006): 105-109.
40. Sapozhkov M. A., Mihajlov V. G., "VocoderRadio" ("Vokodernaya svyaz'"), Radio and Communication (1983): 248.
41. Sobolev V. N., "The selection of the main tone by comb filtering" ("Vydelenie osnovnogo tona metodom grebenchatoj fil'tracii"), 12-th All-Union Seminar Automatic Recognition of Auditory Images (1982): 141-143.
42. Ukraincev Y. D., Cvetov M. A., "The history of communication and the prospects for the development of telecommunications" ("Istoriya svyazi iperspektivy razvitiya telekommunikacij"), Textbook for high schools (2009): 128.
43. Sheluhin O. I., Luk'yancev N. F., "Digital processing and voice transmission" ("Cifrovaya obrabotka i peredacha rechi"), Radio and Communication, (2000): 102-106.