Научная статья на тему 'Методология сжатия речевого сигнала с использованием вейвлет-преобразования'

Методология сжатия речевого сигнала с использованием вейвлет-преобразования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
596
74
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЖАТИЕ РЕЧИ / ВЕЙВЛЕТ / ДИСКРЕТНОЕ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЕ (ДВП) / ДИСКРЕТНОЕ КОСИНУСНОЕ ПРЕОБРАЗОВАНИЕ (ДКП)

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хеин Мин Зо

Основной целью речи является сообщение, точнее передача сообщений. Сжатие речи это цифровой сигнал, который сжимается с использованием различных техник. Существует много методов для анализа речи. Использование вейвлет-преобразования для анализа речи привлекательно, поскольку оно обладает способностью анализировать разные части сигнала в разных масштабах. В этой статье представлен метод преобразования для сжатия речевого сигнала.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хеин Мин Зо

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методология сжатия речевого сигнала с использованием вейвлет-преобразования»

УДК 004.67:004.942

МЕТОДОЛОГИЯ СЖАТИЯ РЕЧЕВОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ

© 2018 Хеин Мин Зо

аспирант кафедры программного обеспечения и администрирования информационных систем, е-таИ: ке1пт1птам13@,%та11. сот

Курский государственный университет

Основной целью речи является сообщение, точнее - передача сообщений. Сжатие речи - это цифровой сигнал, который сжимается с использованием различных техник. Существует много методов для анализа речи. Использование вейвлет-преобразования для анализа речи привлекательно, поскольку оно обладает способностью анализировать разные части сигнала в разных масштабах. В этой статье представлен метод преобразования для сжатия речевого сигнала.

Ключевые слова: сжатие речи, вейвлет, дискретное вейвлет-преобразование (ДВП), дискретное косинусное преобразование (ДКП).

Ранние компьютеры предназначались для вычислений. Однако с появлением разного рода достижений в области технологий компьютеры стали разрабатываться не только для выполнения вычислительных операций, но и для более широкого круга сфер их применения. Одной из них является представление и хранение нечисловой информации в формате двоичного кода. Представленные таким образом данные требуют большего пространства для хранения и более длительного времени доступа. Еще один вариант - передача данных. Время передачи будет продолжительнее, поскольку данные, которые будут отправлены, также имеют больший размер. В связи с этими недостатками представления данных в виде двоичного кода возникает необходимость в их сжатии.

Речь играет важную роль в мультимедийной системе. Речь - это очень простой способ для людей передавать информацию друг другу. С пропускной способностью только 4 кГц речь может передавать информацию с эмоциями человеческого голоса. Сжатие речи - это техника преобразования человеческой речи в эффективно кодированный формат, который впоследствии может быть декодирован для получения близкого приближения исходного сигнала. Рост потребностей в мультимедийной связи требует эффективного использования передачи информации большого объема. Чтобы передавать речевую информацию большого объёма, необходимо сжать данные. Сжатие - это процесс преобразования потока входных данных (исходного потока или необработанных данных) в другой поток данных (называемый выходными или сжатыми), который имеет меньший размер.

В течение последнего десятилетия вейвлет-преобразование стало мощным и надежным математическим инструментом для анализа нестационарного сигнала и использовалось в широком спектре приложений обработки сигналов, таких как сжатие речи, изображения и видео, речевое дешумирование, распознавание образов и обработка сигналов электрокардиограммы (ЭКГ). Недавно было разработано много новых алгоритмов на основе вейвлет-преобразования или вейвлет-пакетов трансформирования [1] для сжатия речевых сигналов. Сегодня сжатие речи очень полезно в нашей жизни.

Вейвлет-преобразование может эффективно использоваться для представления человеческой речи с меньшим числом бит, которое может быть декодировано для получения близкого приближения исходного речевого сигнала. Сжатие уменьшает использование ресурсов, таких как пространство для хранения и пропускная способность. Речевое сжатие означает сжатие локализованного сигнала для различных приложений, таких как высококачественная база данных речевых сигналов, мультимедийные приложения, музыкальная база данных и интернет-приложения. Сжатие речи и сокращение битовой скорости используются в системе кодирования. Применяя алгоритм сокращения скорости передачи битов, минимальные биты используют для сравнения исходной информации [2].

Существуют в основном два метода сжатия: алгоритмы сжатия без потерь и с потерями.

0 Алгоритмы сжатия данных без потерь позволяют точную реконструкцию исходных данных из сжатых данных.

0 Алгоритмы сжатия с потерями не позволяют совершенной реконструкции данных, но обеспечивают хорошие значения степени сжатия по сравнению с алгоритмами сжатия без потерь.

Методы сжатия можно разделить на три функциональные категории.

0 Прямые методы. Образцы сигнала непосредственно обрабатываются для обеспечения сжатия.

0 Методы трансформации: такие как преобразование Фурье (ПФ), дискретное вейвлет-преобразование (ДВП) и дискретное косинусное преобразование (ДКП).

0 Методы извлечения параметров: они применяются для извлечения некоторых особенностей сигнала, которые позже используются для его восстановления.

Дискретное вейвлет-преобразование (ДВП) основано на поддиапазонном кодировании, что позволяет быстро вычислить вейвлет-преобразование,! легко реализовать и сократить время и ресурсы вычислений. В непрерывном вейвлет-преобразовании сигналы анализируются с использованием набора основных функций, которые связаны друг с другом простым масштабированием и переходом. В случае ДВП временное масштабное представление цифрового сигнала получается с использованием цифровых технологий фильтрации. Сигнал, подлежащий анализу, пропускается через фильтры с различными частотами отсечки в разных масштабах [3].

Мы можем использовать Дискретное косинусное преобразование (ДКП) для сжатия речи из-за высокой корреляции в соседнем коэффициенте. Энергетическое уплотнение ДКП эффективно, так как мы часто можем восстановить последовательность очень точно из нескольких коэффициентов ДКП, это свойство ДКП очень полезно для приложений, требующих сокращения данных [4].

Частота является одним из важнейших параметров характеристики речевого сигнала. Рассмотрим в качестве примера человеческий голос. Для многих сигналов низкочастотное содержимое является наиболее важной частью, которая отвечает за идентичность сигнала. Высокочастотный контент передает детали сигнала. Рассмотрим речевой сигнал. Итак, если удалить высокочастотные компоненты, голос звучит по-другому, но можно догадаться, что человек говорит. Однако если удалить некоторое число низкочастотных компонентов, мы услышим тарабарщину. Исходный сигнал £ проходит через два фильтра и представляется в виде двух сигналов (А и Б).

Рис. 1. Представление исходного сигнала 8

На рисунке 1 представлено вейвлет-разложение как разложение исходного сигнала £ на разные полосы частот, и это разложение проводится путем выбора соответствующей вейвлет-функции с требуемыми моментами исчезновения и уровнем разложения.

В этой статье описан метод сжатия речи на основе метода преобразования, то есть ДКП и ДВП. Когда мы применяем алгоритм вейвлет-преобразования на речевом сигнале, исходный сигнал может быть представлен в терминах вейвлет-расширения (используются коэффициенты в линейной комбинации вейвлет-функций), аналогично в случае преобразования ДКП речь может быть представлена в терминах коэффициента ДКП. Таким образом, сжатие данных может быть выполнено с использованием только соответствующих коэффициентов ДВП и ДКП. Алгоритм преобразования и пороговое значение фактически не сжимают сигнал, они просто предоставляют информацию о сигнале, которая позволяет сжимать данные стандартными методами кодирования.

Сжатие речи достигается за счет пренебрежения малыми коэффициентами как незначительными данными и их отбрасывания, а затем применяется схема квантования и кодирования по коэффициентам. Алгоритм сжатия речи выполняется в следующих шагах:

1) алгоритм преобразования по речевому сигналу;

2) порог трансформированного коэффициента;

3) квантование;

4) кодирование.

Следуя вышеизложенных четырех шагов, мы получим сжатый речевой сигнал. Для реконструкции речевого сигнала, обратного вышеуказанным процессам, выполняются декодирование, де-квантование, обратное преобразование. Для базы данных используются четыре разных образца речевого сигнала.

речевой сигнал

Рис. 2. Блок-схема технологии сжатия

Методы преобразования ДКП и ДВТ используются на речевом сигнале. Мы можем реконструировать последовательность очень точно только из немногих коэффициентов ДКП, это свойство преобразования ДКП используется для сжатия данных. Локализация особенности вейвлета вместе со свойством частотно-временного разрешения делают их хорошо подходящими для речевого кодирования. Для приложения сжатия используется разреженное кодирование вейвлета. Идея сжатия сигнала с использованием вейвлетов в первую очередь связана с относительной скудностью представления вейвлет-домена для сигнала. Вейвлеты концентрируют речевую информацию (энергию и восприятие) в нескольких соседних коэффициентах [5]. Поэтому в результате принятия вейвлет-преобразования сигнала многие коэффициенты будут либо нулевыми, либо пренебрежимо малыми величинами. Затем сжатие данных достигается за счет обработки малых значений коэффициентов как незначительных данных и, таким образом, их отбрасывания.

Сжатие речи осуществляется с помощью пренебрежения малыми и менее значимыми коэффициентами и данными и отбрасыванием их. Затем речевой сигнал подвергается процессу квантования и кодирования. Именно благодаря этому информация передается практически без потерь и искажений, что особенно важно в тех областях, где требуется максимальная точность: медицина, судебная экспертиза, криминалистика и другие сферы применения технологии анализа речевых сигналов. Проблема сжатия речевого сигнала является крайне актуальной в настоящее время, так как наблюдается увеличение роли мультимедийной связи в различных областях современной науки и техники.

Библиографический список

1. Joseph S. M. Spoken digit compression using wavelet packet // IEEE international conference on signal and image processing (ICSIP-2010). 2010. P. 255-259.

2. Srinivasan Pramila, Jameason Leah H. High Quality Audio Compression Using an Adaptive Wavelet Packet Decomposition and Psychoacoustic Modelling // IEEE Trans. On Signal Proc. 1999. Vol. XX, No. V.

3. Raut Rajeshree & Kullat Kishore. SDR Design with Advanced Algorithms for Cognitive Radio // IJACS. 2011. Vol. 1. No. 4. P: 134-141.

4. Signal Processing Toolbox Documentation. URL: www.mathworks.com/help/toolbox/signal/ref/dct.html Cached

5. Kinsner W. and Langi A. Speech and Image Signal Compression with Wavelets // IEEE Wescanex Conference Proceedings, IEEE. New York, NY, 1993. P. 368-375.

i Надоели баннеры? Вы всегда можете отключить рекламу.