СРАВНИТЕЛЬНАЯ ХАРАКТЕРИСТИКА ПРОГРАММНЫХ КОМПЛЕКСОВ ДЛЯ АНАЛИЗА И ОБРАБОТКИ РЕЧЕВЫХ СИГНАЛОВ С ИСПОЛЬЗОВАНИЕМ ВЕЙВЛЕТОВ
DOI 10.24411/2072-8735-2018-10200
Хеин Мин Зо,
Курский государственный университет, г. Курск, Россия, [email protected]
Довгаль Виктор Митрофанович,
Курский государственный университет, г. Курск, Россия, [email protected]
Ключевые слова: обработка речевых сигналов, алгоритмы обработки речи, теория вейвлет-преобразования, вейвлет-анализ речевых сигналов, программные комплексы для обработки речевых сигналов.
Данная статья посвящена проблеме обработки и анализа речевых сигналов на основе ставшего одним из наиболее актуальных в последнее время метода вейвлет-преобразования. Растущая актуальность и несомненная практическая ценность стала причиной появления большого количества программных комплексов, позволяющих осуществлять обработку речевых сигналов на базе данного метода. Однако каждый из этих комплексов имеет существенные различия в интерфейсе, предоставляемых инструментах обработки, функциях, обладает рядом достоинств и недостатков. На данный момент написано большое количество пособий и рекомендаций по работе к конкретными программными комплексами, но эти материалы носят разрозненный и бессистемный характер. В статье предпринята попытка систематизации теоретического материала и описания сходств и различий, достоинств и недостатков трёх наиболее популярных программных комплексов: 1) Пакет расширения систем MATLAB 6.0/6.1/6.5 Wavelet Toolbox 2/2.1/2.2; 2) Программный комплекс Mathcad; 3) Wavelet Explorer системы Mathematica. Данная статья будет полезна специалистам, занимающимся проблемой обработки речевых сигналов с использованием метода вейвлет-пре-образования, так как содержит материал, имеющий практическую ценность, а также позволит в определенной мере облегчить работу специалиста, связанную с выбором оптимального для реализации конкретной задачи программного комплекса.
Информация об авторах:
Хеин Мин Зо, аспирант кафедры программного обеспечения и администрирования информационных систем Курского государственного университета, г. Курск, Россия
Довгаль Виктор Митрофанович, д.т.н., профессор кафедры программного обеспечения и администрирования информационных систем Курского государственного университета, г. Курск, Россия
Для цитирования:
Хеин Мин Зо, Довгаль В.М. Сравнительная характеристика программных комплексов для анализа и обработки речевых сигналов с использованием вейвлетов // T-Comm: Телекоммуникации и транспорт. 2018. Том 12. №12. С. 48-53.
For citation:
Hein Min Zo, Dovgal V.M. (2018). Comparative characteristics of software systems for analysis and processing of speech signals using wavelets. T-Comm, vol. 12, no.12, pр. 48-53. (in Russian)
7TT
В последние годы стало очевидно, что традиционный аппарат представления произвольных функций и сигналов, в том числе речевых, в виде рядов Фурье (или фурье-представлений) оказывается малоэффективным для функций С локальными особенностями, в частности для импульсных и цифровых сигналов, получивших весьма широкое распространение. Это связано с тем, что базисная функция рядов Фурье представляет собой синусоиду, которая по своей природе является гладкой и строго периодической функцией. Как об этом давно говорили критики рядов Фурье, такая функция на практике (в условиях ограничения числа членов ряда или спектра разложения) принципиально не способна описывать произвольные сигналы и функции. Иными словами, ни один из известных методов представления сигналов и функций не мог считаться эффективным для представления импульсных, нестационарных сигналов.
Решением данной проблемы стало изобретение метода вейвлет-анализа. В первую очередь следует отметить, что вей влеты по существу являются новыми математическими понятиями и объектами, в связи с этим они весьма перспективны в решении многих математических задач приближения (интерполяции, аппроксимации, регрессии и т.д.) функций и сигналов. Вей влет-обработка сигналов обеспечивает возможность весьма эффективного сжатия сигналов, в том числе и речевых, и их восстановления с малыми потерями информации, а также решение задач фильтрации сигналов. Таким образом, вейвлеты существенно пополняют набор традиционных средств обработки сигналов и изображений.
Основные методы теории вейвлетов базируются на работах классиков математической науки: А.Н. Колмогорова, Л. Лебега, Л. Хаара, К. Шеннона. Значительный вклад в развитие теории вейвле [-преобразования в начале XX века внес Л. Хаар, впервые наглядно показавший, что в приложении к практическим задачам вейвлегы во многом более удобны, нежели применявшиеся до этого преобразования Фурье.
Вейвлеты применялись на практике еще в 50-е годы при фильтрации сигналов, по расцвет теории вейвлетов приходится на 80 - 90-е годы XX века. Именно в этот период были получены законченные теоретические результаты и разработаны эффективные методы их практического применения.
Конец XX века ознаменовался работами таких блестящих исследователей, как Гроссман, Гуппилауд и Морле, в 1982 г. сформулировавших основные идеи непрерывного вейвлет-преобразования, Нельзя не отметить вклад Ингрид Добеши, разработавшей в 1988 г, вейвлеты с компактным носителем. Ее монография «Десять лекций по вейвлетам» стала классической, Наибольшее внимание к данной теории было уделено в США,
До России информация о теории вейвлетов добралась с опозданием на 8-10 лет. В 1999 г, появились первые работы по теории вейвлетов на русском языке, в 2001 г, свет увидели переводы «Десяти лекций по вейвлетам» И. Добеши и «Введения в вейвлеты» Чарльза К. Чуй. Одним из первых русских ученых, заинтересовавшихся данной проблемой, стал С.Б. Стечкин. Он и его ученики стали работать над теорией вейвлетов, позже к ним присоединились математики из Петербурга и Новосибирска [1],
К основным достоинствам вейвлетов, ставших причиной их растущей популярности, как было отмечено выше, можно отнести их принципиальную возможность представлять не-
стационарные сигналы, например, состоящие из разных компонент, действующих в разные промежутки времени, модулированные сигналы и т.д. Такие сигналы в наше время находят куда более широкое применение, чем стационарные или квазистационарные (искусственно сводящиеся к стационарным) сигналы, а также процессы и системы, их порождающие. Как известно, ряды и преобразования Фурье в классическом виде принципиально непригодны для представления нестационарных сигналов, процессов и систем. Поэтому возможность их представления вейвлетами трудно переоценить.
В настоящее время существует огромное количество работ, посвященных теории вейвлетов, написанных учеными из самых разных стран мира. Появились инструментальные средства по вейвлетам в системах Matlab, Mathcad и Mathematica, что, безусловно, упрощает прикладные расчеты. Таким образом, можно говорить о растущей популярности теории вейвлет-преобразовапий, о чем свидетельствует большое количество работ, посвященной этой теме.
Рассмотрим 3 наиболее популярных и актуальных на данный момент программных комплекса, которые целесообразно использовать в процессе анализа и обработки речевых сигналов, компрессии, очистке от шума или реконструкции в частности:
1) Пакет расширения систем MATLAB 6.0/6,1/6.5 Wavelet Toolbox 2/2.1/2.2;
2) Прог раммный комплекс Malhcad;
3) Wavelet Explorer системы Mathematica.
Однако, несмотря на то, что каждый из данных программных комплексов, обладает широким функционалом для работы с речевыми сигналами, можно говорить о том, что они всё же имеют отличительные черты, а также обладают видимыми отличиями в инструментарии и визуальном оформлении. Рассмотрим каждый из перечисленных комплексов более подробно, отметим его основные особенности.
Несмотря на то, что существует немало работ и практических пособий, иллюстрирующих принципы работы данных программных комплексов, однако пи в одной из работ на данный момент не изложена кратко и четко специфика каждого из комплексов, а также его основные отличия. Именно поэтому, на наш взгляд, было необходимо провести анализ имеющейся литературы, касающейся проблемы вей влет-преобразования, структурировать имеющийся материал и кратко изложить в рамках одной статьи основные особенности каждого из программных комплексов, с тем чтобы исследователь, целью которого является обработка речевого сигнала методом вей влет-преобразования, смог выбрать наиболее оптимальный программный комплекс, исходя из удобства его интерфейса, функциональности и простоты использования..
Пакет расширения систем MATLAB 6.0/6.1/6.5 Wavelet Toolbox 2/2.1/2.2 - одно из новейших и мощных инструментальных средств для изучения, создания и применения вейвлетов и проведения вейвлет-нреобразований.
Пакет представляет пользователю обширные и одновременно уникальные возможности для работы с вейвлетами, причем как в командном режиме, так и с помощью специальных средств графического интерфейса пользователя (GUI) данного пакета.
Y
каждая из которых отвечает за ту или иную функцию преобразования вейвлета, таких, как декомпозиция, очистка or шума, компрессия и т.д. Иными словами, исследователь, имеющий конкретную цель работы с анализируемым сигналом, может нажатием той или кнопки осуществить требующуюся операцию и просмотреть результаты операции в том же окне на графиках, располагающихся слева и по центру рабочего экрана. При этом дополнительные сведения о математическом представлении того или иного типа вей мета в виде функции не требуются, что может значительно облегчить работу специалиста.
Обратимся к рассмотрению второго программного комплекса. Он, на наш взгляд, обладает более сложным интерфейсом и требует от специалиста особых навыков работы с ним. Основной особенностью данного комплекса является математическое представление вейвлетов в виде функций. Имея представление о специфике изображения речевых сигналов виде функций в зависимости от особенностей сигнала и выбранного типа вейвлета, пользователь имеет возможность произвести требующиеся операции по анализу и обработке речевых 'сигналов с использованием данного программ ного комплекса. Однако, та же особенность программы затрудняет или замедляет процесс ее использования менее квалифицированному пользователю.
Разработчики данного программного комплекса - системы Mathcad одними из первых ввели в нее средства для работы с вей влетам и. В ядре системы имеются всего две функции такого рода - для прямого и обратного вей влет-преобразований с вей влетам и Добеши DB4, Остальные средства сосредоточены в пакетах расширения системы, которые поставляются отдельно и перед использованием нуждаются в обычной инсталляции их. Вместе с пакетами расширения инсталлируются и становятся доступными электронные книги по ним. Пакет расширения системы Mathcad для реализации численных расчетов Numeric Recipes содержит восемь функций для вейвлет-преобразований [3J.
Рассмотрим особенности интерфейса системы Fia примере алгоритма очистки речевого сигнала от шума. Примером эффектной очистки реальных сигналов от шума является обработка данных с установки для исследования ядерно-магнитного резонанса (ЯМР). Данные ее работы представлены в векторе пшг. На графике (рис. 3.) отчетливо видна заметная шумовая компонента данных.
Очистка емшала от шумов с помощью функции waveshrirtk
0 Ríftiínci Е ^Frogruti Fü»í\MCAD2CCl/handbookWAVElJ;TSW(vtd»fmcd(R)
i 0.. toaríínmr) - 1
w ave s himkí y, filter) :=
I -12001
пшг1 - wave shnni^nair, d¿ublfct(4))
IODO
Рис. 3. Пример обработки данных от установки для исследования ядерно-магнитного резонанса
J M axD WTLe vel(y) w dvrt(y,J,filt«() X <— 2 - leg(length(y)j
n <— mediant | W - median^w) |) с X-a
Jmax i— if(J > S, J - 4,1) for € 1,, Imax
d._ г— get_detail(w,js)
d. delta shrinkfd. ,ci
js - \ JS t
w t— put_detail| w , js, cl^j
уг мЬ^ТР^ЯИег) Уг
Рис. 4. Программный модуль функции иауезЬгтк
С помощью функции \\ауе5Ьш1к(уЛЬет), использующей для фильтрации ограничения детализирующих коэффициентов в описываемом программном комплексе, можно существенно уменьшить уровень шумов, сохранив достаточно сложный характер сигнала от установки.
Более сложные методы обработки сигнала могут базироваться на адаптивных алгоритмах, предусматривающих выбор наилучшего базиса и отсечение части детализирующих коэффициентов в соответствии с особенностями сигнала. При этом возможно задание различных типов порог ов для отсечения вейвлет-коэффициентов [4]. Они представлены ка рис, 5 своими передаточными характеристиками.
Типы порогов для отсечения вейолет-коэффициентов
к:- -1,-99 1
I
•ОД :- -ц í10ftM - Х[ III < c.S,*v«¡Kl«| - с)]
Safl<I,JÍ>
-i
.с.'.______ jP' *
У У
-1 -0.1 О 03 I
т
Рис, 5. Тины порогов для отсечения вен влет-коэффициентов
Таким образом, к достоинствам данного комплекса можно отнести математическое представление вейвлета и его трансформаций в виде функции, наглядно иллюстрирующих квалифицированному специалисту особенности проведенных с вей влетом операций, эту же особенность можно считать одновременно и недостатком комплекса, если работать с ним требуется менее квалифицированному в некоторых областях специалисту. Помимо общей концепции организации и интерфейса программы в числе недостатков также более узкий набор вейвлетов, представленный исключительно вейвлегами семейства Добеши, по сравнению с выше проанализированным комплексом, предоставляющим широкий выбор типов вейвлетов.
Задание сложного сигнала humps и его прямое веивлет-преооразовэние
,чТ
bumps
:=(4 5 3 4 J 4.2 2.1 43 3.1 5.1 42;'
Pbimips = С-1 1J -23 4 м Ы 16 ™ 81J
ivbulrtp„( Mi ,00i 006 .01 JO! 03 01 01 005 OOS .003)T
10 hbwnps. К 1024 i:-0.H-l
bumps(j[) --
jj = 0
I +
' Pbumps
;= l-l . y. := bwnps^xj
У» 2J5 0
1
1 ) J ■ J L ^
0.2
0.4
Q6
0 8
1
J - M i*DWTLsvil(y) ffltsiсойеЦб) "'bumps " dwl(y .filtti) 10
^шгцм. 0
-10
№кЫ ii к 'и
mf 1" Г| 1
200 400
600 800
1000
Рис. 6. Задание сложного сигнала и его вей влет-пре образован не
Наконец, обратимся к рассмотрению третьего программного комплекса. Его главной особенностью является представление операций по обработке речевых сигналов в виде команд для командой строки. Данную особенность можно считать или достоинством, ила недостатком программы, в зависимости от уровня подготовки специалиста, с ней работающего. Отметим, что существуй" большое число пособий, обучающих работе с данным программным комплексом, с конкретным описанием команд, необходимых для обработки того или иного речевого сигнала, что, на наш взгляд, не является существенным препятствием для использования данного программного комплекса.
Система компьютерной математики Mathematics 4/5 является мировым лидером среди систем символьной математики (компьютерной алгебры) и разделяет это лидерство с другой системой этого же класса Maple 8/9. Последние версии Mathematics 4 и особенно Mathematica 5 содержат значительно усовершенствованные алгоритмы численных вычислений, что сделало их подлинно универсальными математическими системами, одинаково пригодными для выполнения аналитических вычислений и численных расчетов.
Для систем Mathematica 4/4.1/5 разработано свыше двух десятков внешних пакетов расширения, среди которых видное место занимает пакет Wavelet Explorer, содержащий средства вей влет-технологии обработки сигналов и изображений, Этот пакет выполнен как документ системы Mathematica и хранится в виде файла Wavelets.m в директории MathApps. 1 (осле инсталляции пакета все его функции становятся определенными и доступными, а в справочной базе данных формируется раздел, соответствующий этому пакету расширения и представляющий собой типичную электронную книгу с «живыми» примерами [5].
Рассмотрим специфику функционирования данного программного комплекса также на примере процесса очистки сигналов от шума. Как отмечалось ранее, технически она реализуется подобно операции компрессии, т.е. применением того или иного алгоритма удаления части вейвлет-коэффициентов. Эта операция основана на общеизвестном факте, что шумы имеют высокочастотные компоненты спектра, которые и удаляются при очистке сигналов от шума. Ниже иллюстрируется решение данной задачи в нескольких вариантах на базе данного программного комплекса. В данном программном комплексе удобнее задавать алгоритмы работы с речевыми сигналами в виде команд, вводимых в командной строке. Покажем на конкретных примерах, какие программы отвечают за тот или иной процесс обработки сигнала.
Прежде всего, подготовим сигнал с шумом, подвергающийся в дальнейшем очистке. В состав пакета Wavelet Explorer входит файл shocknoi.dat с записью дискретных отсчетов зашумленного сигнала. Приведенные ниже команды считывают этот файл, создают массив data зашумленного сигнала и строят его график в виде графика функции и(х):
data = Get [ToFiieNane [( "Wavelets" , "Data" ) , " shoclcnoi .dat"] ] ;
ListPlot [data, plotJoined -> True, AxeaLabfll -> ( " x ', "и[х)"И
График обрабатываемого сигнала представлен на рис. 6.
Для очистки сигнала зададим онлайновый фильтр s4 порядка, выполним прямое вейв лет-преобразование массива data с компрессией на основе адаптируемого порога с начальным значением 1.5 и затем обратное преобразование. Все это реализуется приведенными ниже командами [6]:
— EpIineFilterJ4. в]; vtdata = HaveletTransform[datar s4];)
Compress|Re5t[wtdata], 15, Shrinking -> True];
InverseWaveletTran3form[Join[{wtdata[[1J J), s4] ;
ListPlot[%, PlotJoined -> True, AjtesLabel -> fx", "u(x)")J
Очищенный от шума сигнал представлен на рис. 7. Нетрудно заметить, что шумовая компонента сигнала практически исчезла, а детальность сигнала осталась достаточно хорошей.
и(х)
Рис. 7. График зашумленного сигнала
Рис. 8. График сигнала, очищенного от шума методом с адаптивным порогом
Y
Таким образом, но нашему мнению, наиболее совершенным, полным в плане набора функций обработки речевых сигналов с использованием вей влетов, а также наглядным и относительно простым в использовании можно считать первый программный комплекс.
В заключение отметим, что имеющиеся пособия по обработке сигналов с использованием вейвлетов разного типа позволяют освоить функционал любой из вышеназванных программ. Однако, немаловажным фактором является сфера применения вей влет-анализа речевого сигнала. Так, если самоцелью анализа речевого сигнала является выявление его особенностей, которые можно изобразить в виде математической формулы или графика и оставить в таком виде, то использование второго и третьего программного комплекса является оптимальным.
Если же из в ей влет-анализа требуется извлечь дополнительную информацию, напрямую следующую из особенностей полученного изображения графика вейвлета, предпочтителен выбор программы с наиболее простым п понятным интерфейсом, позволяющим осуществить преобразования быстрее и проще, как в рамках первого программного комплекса.
Например, если целью вей в лет-анализа речевого сигнала является идентификация личности говорящего, оценка его эмоционального состояния, оценка подлинности фонограммы (что требуется, например, в сфере судмедэкспертизы), на наш взгляд, целесообразнее воспользоваться первым программным комплексом для анализа и обработки сигнала с последующей его визуализацией и представлением его в виде сонограммы.
Литература
1. Мама С Вейвлеты в обработке сигналов. М: Мир. 2005. С. 92-98.
2. Штарк Г. Применение всйвлстов для ЦОС, М: Техносфера, 2007. С. 78-81.
3. Смоленцев U.K. Основы теории вейвлетов. Вейвлеты в MATLAB. М.: ДМК-Пресс. 2005. С. 45-46.
4. Дьяконов В.П. Вейвлеты. М: Солон-Р, 2010. С. 32-36.
5. Дворянкин C.B.. Клочкова E.H.. Калуяеын Р.В, Маскирование речевых сообщений на основе современных компьютерных технологий IIСпециальная техника, 2001. № 3. С. 92-94,
6. Дьяконов B.TI. Вейвлеты. Or теории к практике. М.: СОЛОН-Р, 2002, С, 18-28.
COMPARATIVE CHARACTERISTICS OF SOFTWARE SYSTEMS FOR ANALYSIS AND PROCESSING OF SPEECH SIGNALS USING WAVELETS
Hein Min Zo, Kursk state University, Kursk, Russia, [email protected] Viktor M. Dovgal, doctor of engineering, Kursk state University, Kursk, Russia, [email protected]
Abstract
This article is devoted to the problem of processing and analysis of speech signals on the basis of the wavelet transform method, which has become one of the most relevant in recent years. The growing relevance and undoubted practical value became the reason for the emergence of a large number of software systems that allow the processing of speech signals on the basis of this method. However, each of these systems has significant differences in the interface provided by the processing tools, functions, has a number of advantages and disadvantages. At the moment, a large number of manuals and recommendations for specific software packages have been written, but these materials are fragmented and unsystematic. This article attempts to systematize the theoretical material and describe the similarities and differences, advantages and disadvantages of the three most popular software systems: 1) MATLAB 6.0/6.1/6.5 Wavelet Toolbox 2/2.1/2.2; 2) Mathcad; 3) Wavelet Explorer of Mathematica. This article will be useful for specialists dealing with the problem of speech signal processing using the wavelet transform method, as it contains material that has practical value, and will allow to facilitate the work of a specialist related to the selection of the optimal for the implementation of a specific task of the software complex.
Keywords: speech signal processing, speech processing algorithms, wavelet transform theory, wavelet analysis of speech signals, software systems for speech signal processing.
References
1. Mallat S. (2005). Wavelet tour of signal processing. Moscow: Peace, pp. 92-98.
2. Stark G. (2007). Application of wavelets for DSP. Moscow: Technosphere, pp. 78-81.
3. Smolentsev N.K. (2005). Fundamentals of the theory of wavelets. Wavelets in MATLAB. Moscow: DMK-Press, pp. 45-46.
4. Dyakonov V.P. (2010). Wavelets. Moscow: Solon-R, 2pp. 32-36.
5. Dvoryankin S.V., Klochkova E.N., Kalugin R.V. (2001). Masking voice messages on the basis of modern computer technology. Special equipment. No. 3, pp. 92-94.
6. Dyakonov V.P. (2002). Wavelets. From theory to practice. Moscow: SALT-R, pp. 18-28.
Information about authors:
Hein Min Zo, post-graduate student of the Department of software and administration of information systems, Kursk state University, Kursk, Russia Viktor M. Dovgal, doctor of engineering, Professor of software and administration of information systems, Kursk state University, Kursk, Russia
f I л