АЛГОРИТМ СЕГМЕНТАЦИИ РЕЧЬ/ПАУЗА НА ОСНОВЕДЕКОМПОЗИЦИИ НА ЭМПИРИЧЕСКИЕ МОДЫ И ОДНОМЕРНОГО РАССТОЯНИЯ МАХАЛАНОБИСА

Алимурадов А. К.; Тычков А. Ю.; Чураков П. П.; Агейкин А. В.; Кулешов А. П.; Чернов И. А.

УДК 004.934

DOI: 10.53815/20726759_2021_13_3_4

А. К. Алимурадов1, А. Ю. Тычков1, П. П. Чураков1, А. В. Агейкин1, А. П. Кулешов2, И. А. Чернов1

хФГВОУ ВО «Пензенский государственный университет» 2ФГВУ «НМИЦ ТИО имени академика В. И. Шумакова» Минздрава России

Алгоритм сегментации речь/пауза на основе декомпозиции на эмпирические моды и одномерного расстояния Махаланобиса

Задача сегментации речь/пауза представляет собой точное обнаружение границ начала и окончания информативных участков речи (вокализованной, невокализованной речи и пауз). Сегментация на информативные участки является важным этапом предварительной обработки речи. Точность сегментации влияет на работоспособность практически всех речевых приложений (распознавание речи, голосовое управление, идентификация диктора, преобразование речи в текст и др.). В статье представлен алгоритм сегментации речь/пауза, суть которого заключается во фрагментировании речи и декомпозиции фрагментов на эмпирические моды для последующего анализа одномерного расстояния Махаланобиса дискретных отсчетов времени каждой моды в отдельности. Проведено исследование алгоритма в сравнении с исходным алгоритмом на основе анализа одномерного расстояния Махаланобиса и известными способами сегментации на основе анализа количества пересечения сигнала через нулевую ось и кратковременной энергии. В соответствии с полученными результатами исследований сделан вывод, что разработанный алгоритм сегментации обеспечивает наилучшее обнаружение границ начала и окончания информативных участков речи с ошибками первого и второго рода 4,576% и 1,421% соответственно.

Ключевые слова: обработка речевых сигналов, сегментация речи, вокализованная и невокализованная речь, декомпозиция на эмпирические моды, одномерное расстояние Махаланобиса.

А. К. Alimuradov1, A. Yu. Tychkov1, P. P. Churakov1, A. V. Ageykin1,

21

1Federal State Budgetary Educational Institution of Higher Education «Penza State University»

2

Transplantology and Artificial Organs», Ministry of Health of the Russian Federation

Speech/pause segmentation algorithm based on empirical mode decomposition and one-dimensional Mahalanobis

distance

Speech/pause segmentation is an accurate detection of the boundaries of the beginning and the end of informative speech sections (voiced and unvoiced speech, and pauses). Segmentation into informative sections is an important stage in speech preprocessing. The segmentation accuracy affects the performance of almost all speech applications (speech recognition, voice control, speaker identification, speech-to-text conversion, etc.). The article presents a speech/pause segmentation algorithm for fragmentation of speech, and decomposition of fragments into empirical modes for subsequent analysis of onedimensional Mahalanobis distance for discrete timing of each mode. The study of the algorithm is carried out in comparison with the original algorithm based on the analysis of onedimensional

@ Алимурадов А. К., Тычков А. Ю., Чураков П. П., Агейкин А. В. Кулешов А. П., Чернов И. А., 2021 (с) Федеральное государственное автономное образовательное учреждение высшего образования

«Московский физико-технический институт (национальный исследовательский университет)», 2021

Mahalanobis distance, and the known segmentation methods based on the analysis of zero-crossing rate and short-term energy. Based on the obtained research results, we conclude that the developed segmentation algorithm provides the best detection of the boundaries of the beginning and the end of informative speech sections with the first and second kind errors of 4.576 % and 1.421 %, respectively.

Key words: speech signal processing, speech segmentation, voiced and unvoiced speech, empirical mode decomposition, onedimensional Mahalanobis distance.

1. Введение

Задача сегментации речь/пауза представляет собой точное обнаружение границ начала и окончания информативных участков речи. Данная задача является одной из важнейших в предварительной обработке речи практически для всех прикладных приложений речевых технологий.

В соответствии с физиологией речевого аппарата слитная речь человека содержит три вида информативных участков:

- пауза или тишина (отсутствие воспроизводимой речи);

- невокализованная речь (воспроизведение речи осуществляется без участия вибраций голосовых связок; апериодическая речь случайного характера);

- вокализованная речь (воспроизведение речи осуществляется с участием вибраций голосовых связок; квазипериодическая речь).

Точное обнаружение границ начала и окончания информативных участков речи не только повышает качество предварительной обработки, но и способствует снижению вычислительных затрат речевых приложений. В зависимости от назначения речевых приложений информативные участки речи имеют разную значимость. Например, в приложениях распознавания речи, голосового управления и преобразования речи в текст паузы в анализируемых речевых сигналах являются неинформативными и удаляются на этапе предварительной обработки. Объясняется это тем, что основной набор информативных параметров дикторов (амплитудно-частотных, спектрально-временных, кепстральных и др.) сосредоточен в вокализованной и невокализованной речи. И, наоборот, в приложениях, предназначенных для выявления патологии голоса человека, нарушений моторики речевого аппарата или оценки психоэмоционального состояния паузы в речевых сигналах максимально информативны. Например, при анализе скорости, ускорения и энтропии распределения вокализованных, невокализованных участков и пауз, а также при анализе средней продолжительности пауз в речи.

На сегодняшний день задача сегментации речь/пауза решается разными способами, которые можно разделить на частотные и временные. Первые основаны на анализе мел-частотных кепстральных коэффициентов (Mel-Frequency Cepstral Coefficients, MFCC) fl] и линейно-частотных кепстральных коэффициентов (Linear-Frequency Cepstral Coefficients, LFCC) [2]. В основе вторых анализируются следующие параметры речи: количество пересечения сигнала через нулевую ось (Zero-Crossing Rate, ZCR) [3], отклонение автокорреляционной функции (Autocorrelation Function, ACR) [4], кратковременная энергия (Short Time Energy, STE) [5], а также одномерное расстояние Махаланобиса (One Dimensional Mahalanobis Distance, ODMD) [6]. Частотные способы сегментации речь/пауза в сравнении с временными обладают большей помехоустойчивостью. Однако наибольшую практическую популярность получили временные способы, так как для их реализации необходима меньшая вычислительная мощность.

В данной статье представлен алгоритм сегментации речь/пауза на основе декомпозиции на эмпирические моды (Empirical Mode Decomposition, EMD) и ODMD. В основе алгоритма заложено применение функции плотности вероятности фонового шума и предположение, что распределение вероятности фонового шума в реальных речевых сигналах, имеет

гауссовский характер. Данное свойство фонового шума используется в качестве критерия сегментации речь/пауза. Сегментация речь/пауза осуществляется посредством анализа ()Г)\1Г) для каждого дискретного отсчета времени речевого сигнала. Суть алгоритма заключается в фрагментировании речи и декомпозиции фрагментов на эмпирические моды (ЭМ) для последующего анализа ()Г)\1Г) дискретных отсчетов времени каждой ЭМ в отдельности.

Данная статья является результатом научной работы, посвященной исследованию и разработке эффективных алгоритмов и способов обработки речевых сигналов [7-9], выполняемой при финансовой поддержке Совета по грантам Президента РФ, проект № МК-490.2020.8.

Структурно статья состоит из шести разделов. Второй раздел посвящен краткому обзору существующих способов сегментации речь/пауза, а также адаптивному методу разложения нестационарных данных - КАИ). Третий, четвертые и пятый разделы посвящены описанию и исследованию алгоритма, а также анализу результатов исследований. Последний раздел посвящен выводам и перспективам дальнейших исследований.

2. Материалы и методы

2.1. Сегментация речь/пауза

Как отмечалось ранее, способы на основе анализа ЪСК и БТЕ, являются самыми распространенными в задачах сегментации речи на информативные участки. Однако в упомянутых способах до сих пор не решена основная проблема, ограничивающая их массовое применение. Ограничения связаны с выбором и обоснованием корректных пороговых значений, соответствующих вокализованной, невокализованной речи и паузам. Ниже представлены аналитические выражения, используемые для вычисления ЪСК и БТЕ. функция ЪСК основана на сравнении знаков соседних дискретных отсчетов времени и определяется по следующей формуле:

те

ZCRS = 0, 5 ^ 1зпд(х(п)) — здп(х(п — 1))| — п), (1)

п=-те

где х(п) - речевой сигнал; п - дискретный отсчет времени; 8 - номер фрагмента; вдп(х) -знаковая функция (,вдп(х)=1 при х > 0 и вдп(х) = — 1 щи х < 0); и> - функция анализируемого окна.

Для прямоугольного анализируемого окна формула (1) принимает следующий вид:

N -1

гСК3 = 0, 5 ^ 1зпд(х(з — 1)И + п + 1) — здп(х(з — 1)И + п)|, (2)

п= 1

где N - количество дискретных отсчетов во фрагменте.

Функция БТЕ представляет собой сумму квадратов амплитуд дискретных отсчетов времени и определяется по следующей формуле:

те

Е3 = ^ [х(п^(з — п)]2. (3)

п=-те

Для прямоугольного анализируемого окна формула (3) принимает следующий вид:

N

Е3 = ^[ф — 1)И + п]2. (4)

п= 1

Способ сегментации речь/пауза на основе анализа ЪСК построен на предположении, что количество пересечений для участков невокализованной речи и пауз с фоновым шумом больше по сравнению с участками вокализованной речи. Аналогично построен способ

на основе анализа БТЕ - энергия вокализованной речи больше, чем энергия невокализо-ванной речи и пауз с фоновым шумом. Однако данные предположения не совсем корректные, так как остается не решенным главный вопрос - насколько текущие значения 7(Т» и БТЕ должны быть больше, чем пороговые для правильной сегментации информативных участков. Кроме того известно, что пороговые значения могут варьироваться для каждого конкретного анализируемого речевого сигнала. В работе [10] авторами была предпринята попытка выбрать и обосновать пороговые значения ЪСК и БТЕ, соответствующие вокализованной, невокализованной речи и паузам. В соответствии с выводами в работе [10] точность сегментации составила 65% в сравнении с сегментацией, выполненной вручную.

Способ сегментации на информативные участки на основе анализа ()Г)\П) построен на статистических свойствах фонового шума [6]. В соответствии с физиологией воспроизведения речи человек перед произношением выдерживает вынужденную начальную паузу, длительностью не менее 200 мс, которая соответствует фоновому шуму. Предполагается, что распределение вероятности фонового шума, регистрируемого во время начальной паузы, имеет гауссовский характер, а остальные информативные участки вокализованной и невокализованной речи имеют другое распределение. В этом случае функция плотности вероятности распределения фонового шума является критерием и используется для сегментации речь/пауза.

В основе вычисления ()Г)\1Г) лежит функция плотности вероятности нормального распределения:

р^ = е"2 (' (5)

л/2 рга

где ^ т а математическое ожидание и стандартное отклонение независимых случайных величин у.

Как известно кривая функции плотности вероятности нормального распределения имеет форму симметричного колокообразного импульса. Независимые случайные величины имеют тенденцию группироваться около среднего значения. Пик нормального распределения соответствует у = а ширина пропорциональна стандартным отклонениям а. Аналитическое выражение ()Г)\П) имеет следующий вид:

г = ^, (6)

а

где выражение \у — является естественной мерой расстояния от у к среднему значению (численно вероятности подчиняются следующим выражениям: |у—у\ < а = 0,68, \у—< 2а = 0,95 и |у — < 3а = 0,997).

В работе [11] представлен подробный сравнительный анализ результатов сегментации речь/пауза, полученных с помощью способов на основе анализа ЪСК, БТЕ и СЮМБ. В соответствии с выводами в работе [11] способ на основе анализа СЮМБ эффективнее для отдельных словосочетаний, чем способы на основе анализа ЪСК и совместного анализа ЪСК и БТЕ на 5,6% и 13,18% соответственно. Для слитной речи эффективность составляет на 8,88% и 9,59% соответственно.

2.1. Адаптивный метод разложения нестационарных данных

Речь представляет собой нестационарный сигнал, формируемый речевым аппаратом человека в нелинейных режимах. Традиционно из-за простоты в реализации многие задачи обработки речи решаются с использованием преобразования Фурье [14]. Стационарность исследуемых сигналов является основным условием эффективности спектрального анализа Фурье. Частично условие стационарности выполняется разделением речевых сигналов на фрагменты длительностью от 20 до 30 мс, которые можно считать условно стационарными. При анализе фрагментов большей длительности спектральный анализ Фурье нестационарных речевых сигналов становится малоэффективным.

Некоторые задачи обработки речи также успешно решаются на основе вейвлет-преобразования [4]. Использование сдвига и масштабирования базисной функции в частотно-временной области позволяет анализировать нестационарную речь на различных масштабах и точно определять положение характерных локальных особенностей речи во времени (кратковременные всплески или провалы сигнала, разрывы и ступеньки и т.д.) Практическая ценность вейвлет-преобразования заключается в быстрых вычислительных алгоритмах. Недостатком вейвлет-преобразования является неполная адаптивность - необходимость априорных сведений о базисной функции, ее особенностях и свойствах.

EMD - представляет собой адаптивный метод разложения нестационарных данных [12], основным преимуществом которого является полная адаптивность. Базисные функции, используемые для разложения, извлекаются непосредственно из исходного сигнала и позволяют учитывать только ему свойственные особенности. В рамках EMD многократно осуществляется процесс просеивания, в результате которого исследуемый сигнал раскладывается на ЭМ и конечный неделимый остаток. Процесс просеивания включает в себя обязательное выполнение следующих действий:

Действие 1. Определение среднего значения верхней и нижней огибающих исследуемого сигнала.

Действие 2. Вычитание среднего значения верхней и нижней огибающих из исследуемого сигнала.

Действие 3. Многократное повторение действий 1 и 2 до тех пор, пока среднее значение не будет близко к нулю.

Действие 4. Выделение сигнала первой ЭМ, у которого среднее значение верхней и нижней огибающих максимально приблизилось к нулю в соответствии с критерием останова.

Действие 5. Вычитание первой ЭМ из исследуемого сигнала.

Действие 6. Повторение действий 1-5 до тех пор, пока не будет получен монотонный сигнал (конечный неделимый остаток), из которого невозможно извлечь ни одну ЭМ.

I

x(n) = ^ IMFi(n) + гI (п), (7)

г=1

где х(п) - исследуемый сигнал; IMFi(п) - сигнал ЭМ; г - номер ЭМ; I - количество ЭМ; ri(п) - конечный неделимый остаток.

Метод EMD впервые был представлен в 1998 году [12]. На сегодняшний день исследователями со всего мира представлены различные методы декомпозиций:

- множественная декомпозиция на эмпирические моды (Ensemble Empirical Mode Decomposition, EEMD) [13];

комплементарная множественная декомпозиция на эмпирические моды (Complementary Ensemble Empirical Mode Decomposition, CEEMD) [14];

- полная множественная декомпозиция на эмпирические моды с адаптивным шумом (Complete Ensemble Empirical Mode decomposition with Adaptive Noise, CEEMDAN) [15];

- улучшенная полная множественная декомпозиция на эмпирические моды с адаптивным шумом (improved Complete Ensemble Empirical Mode decomposition with Adaptive Noise, iCEEMDAN) [16].

Каждый последующий вид декомпозиции разрабатывался с целью устранения недостатков предыдущих методов. Наиболее адаптивным для обработки речи является метод iCEEMDAN, особенность которого заключается в добавлении к исследуемому сигналу контролируемого белого шума малой амплитуды. Создание новых нулей и экстремумов сигнала (локальных особенностей) за счет добавления шума позволяет устранить известные недостатки предыдущих методов декомпозиции: эффект смешивания ЭМ; остаточный шум; неполнота разложения; неинформативные «паразитные» ЭМ, получаемые на ранних этапах декомпозиции.

Пример разложения речевого сигнала методом iCEEMDAN представлен на рис. 1. Фрагмент вокализованной речи длительностью 100 мс разложен на восемь ЭМ. В левой части рисунка представлены исследуемый сигнал и полученные ЭМ, в правой части - спектральные плотности мощности соответственно. Разными цветами обозначены частотные диапазоны полученных ЭМ. В соответствии с результатом разложения можно отметить, что частотный диапазон у каждой последующей ЭМ понижается от высокочастотного до низкочастотного. Это подтверждает, что метод iCEEMDAN функционирует как диадиче-ский набор фильтров.

Рис. 1. Результат разложения фрагмента вокализованной речи методом ЮЕЕМБА]Ч: (а) исследуемый сигнал, (б)-(и) полученные ЭМ1-ЭМ8. Слева амплитуда осциллограмм представлена в вольтах, время - в дискретных отсчетах. Справа уровень спектральных плотностей мощности представлен в дБ, частота в Гц

Существующие методы декомпозиций нашли практическое применение в различных областях обработки: анализ сигналов природных явлений (уровень поверхности мирового океана, сейсмосигналы, климатические данные [12, 17]); анализ биомедицинских сигналов (ЭКГ, ЭМГ, ультразвук [18-20]); анализ акустических и речевых сигналов [21, 22]; анализ текстуры изображений с помощью двумерных методов декомпозиции [23] и др.

3. Описание алгоритма сегментации

На рис. 2 представлен алгоритм сегментации речь/пауза на основе на основе КАИ) и СЮМБ. Суть работы алгоритма заключается в фрагментировании речи и декомпозиции фрагментов на ЭМ (блоки 1-4) для последующего анализа ()Г)\П) дискретных отсчетов времени каждой ЭМ в отдельности (блоки 5-9). Блок 10 не относится к алгоритму сегментации и предназначен для сравнения результатов с сегментацией, осуществленной вручную. Рассмотрим подробнее блоки обработки алгоритма сегментации.

Блок 1. Фрагментирование представляет собой линейное разделение речевого сигнала на отрезки (фрагменты) равной длительности. Фрагментирование основано на кратковременном анализе, в рамках которого фрагменты обрабатываются так, как если бы они были короткими речевыми сигналами с отличающимися свойствами. В соответствии со структурой алгоритма сегментации от длительности анализируемых фрагментов зависит результат последующей декомпозиции (блок 2). В работе [24] авторами представлены результаты исследований влияния длительности анализируемых речевых сигналов на частотно-избирательные свойства различных методов декомпозиции. В соответствии с полученными результатами в работе [24] сделан вывод, что для корректного частотно-временного анализа методом ¡('ККАИ)Л.\ длительность анализируемых фрагментов должна быть от 10 до 50 мс.

Фрагментирование речевого сигнала осуществляется следующим образом:

5 = ^, (8)

где 5 - количество фрагментов в исследуемом речевом сигнале х(п); Ь - количество дискретных отсчетов времени в одном фрагменте (Ь = 80 при частоте дискретизации 8000 Гц и длительности фрагмента 10 мс).

х3+1{п)=х[{8 -Ь) + 1:(8 + 1) ■Ь], (9)

где 5 = 0,1,2,... Б - номер фрагмента.

Блок 2. Как отмечалось ранее, наиболее адаптивным для обработки речевых сигналов является метод К'ККАИХЛХ. Кратко математический аппарат метода улучшенной декомпозиции выглядит следующим образом:

х3^ (п) = х8(п) + (п), (10)

где х8^ (п) - фрагмент речевого сигнала с белым шумом; (п) - белый шум; ] = 1, 2,...,.] - реализации белого шума.

I

хв] (п) = £ 1МРам(п) + г8м(п), (11)

г=1

ШГМ = £ ЩМ-, (12)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Г8,1 (п) = . (13)

3=1 °

Отличительной особенностью iCEEMDAN от других методов декомпозиции с добавлением шума (ЕЕМБ, СЕЕМБ и СЕЕМБА1Ч) является локальное разложение белого шума на шумовые моды параллельно с разложением исследуемого сигнала. Использование шумовых мод в качестве добавляемого контролируемого белого шума на каждом этапе процесса просеивания обеспечивает полноту разложения [16].

Рис. 2. Структура алгоритма сегментации речь/пауза

На рис. 3 представлен пример, иллюстрирующий полноту разложения методом ЮЕЕМБАЗМ. Исходный речевой сигнал, разложенный на ЭМ, представлен на рис. 3(а). Реконструированный сигнал, посредством суммирования полученных ЭМ, представлен на рис. 3(6). Разница между исходным и реконструированным сигналами представлена на рисунке 3(в). Максимальное значение разницы между сигналами составляет 2,22 • 10"16В, что является незначительным и может быть отнесено к погрешности среды математического моделирования.

В алгоритме сегментации применяются следующие настройки метода ЮЕЕМБАЗМ: стандартное отклонение амплитуды шума от амплитуды сигнала - не более 20%; количество реализаций белого шума - 100; допустимое максимальное количество просеивающих итераций - 50; отношение стандартных отклонений сигнала и шума на всех этапах процесса просеивания ЭМ неизменное.

Блок 3. В соответствии с результатом декомпозиции каждый фрагмент исходного речевого сигнала представлен набором ЭМ, полученных методом iCEEMDAN (см. рис. 4).

Для оптимизации вычислительных затрат алгоритма сегментации осуществляется объединение ЭМ фрагментов исходного речевого сигнала в новые модовые речевые сигналы:

£

хто<!е{(га) = ^ [(в • V) + 1 : (в + 1) • Ц, (14)

в=1

где хтойе^ (га) - модовый речевой с игнал; г = 1, 2,... ,1 - количество ЭМ в наборах для каждого фрагмента.

Рис. 3. Обеспечение полноты разложения методом ЮЕЕМБАМ: (а) исходный речевой сигнал, (б) реконструированный речевой сигнал, (в) разница между исходным и реконструированным сигналами

Количество сформированных модовых речевых сигналов зависит от количества ЭМ, полученных для каждого фрагмента. На рис. 4 визуально представлен процесс формирования четырех модовых речевых сигналов.

Блок 4. Формирование информативных сигналов на основе комбинирования модовых речевых сигналов осуществляется по следующей формуле:

хт/о(п) = а • х(п) + Ь • хто(е 1 (п) + с • хто(е2(п) + ( • хшо(е3(п) + е • хто(е4(п), (15)

где а,Ъ,с,(,е - коэффициенты, определяющие участие исходного и модовых речевых сигналов в формировании информативных сигналов (коэффициенты принимают только три значения: -1, 0, 1).

Суть формирования информативных сигналов заключается в поиске уникального сигнала, содержащего максимально достоверную информацию о границах начала и окончания участков вокализованной, невокализованной речи и пауз. В соответствии с ранее проведенными исследованиями [25] в табл. 1 представлены оптимальные информативные сигналы.

Блок 5. В соответствии с физиологией воспроизведения речи осуществляется вычисление математического ожидания и дисперсии для начальных 200 мс, соответствующих вынужденной паузе (фоновому шуму). При частоте дискретизации 8000 Гц начальная пауза составляет 1600 дискретных отсчетов:

1 1600 ^ = ^00 ^ 01 (п),

п=1

а =

\

1 1600

ШЮ п?щ (п) - М)2, ^

п=1

где хт/Ог(п) - информативный сигнал.

Блок 6. Определение статуса речь/пауза дискретных отсчетов времени информативного сигнала заключается в вычислении и анализе ОБМБ:

\xinfOjjn) - > 3 а ~ '

где п = 1, 2,..., N - дискретный отсчет времени.

При выполнении условия дискретный отсчет времени соответствует речи, и наоборот, если условие не выполняется, то отсчет соответствует паузе.

Таблица1

Оптимальные информативные сигналы

№ п/п Информативный сигнал Значение коэффициентов Комбинирование медовых речевых сигналов

1 xinfoi a=0, b=l, c=0, d=0, e=0 xmodei

2 xinf02 a=0, b=0, c=l, d=0, e=0 xmode2

3 xinfos a=0, b=0, c=0, d=l, e=0 xmodes

4 xinfoi a=0, b=0, c=0, d 0. e=l xmodei

5 xinfos a=0, b=l, c=l, d=0, e=0 xmodei + xmode2

6 xinfOQ a=0, b=l, c=l, d=l, e=0 xmodei + xmode2 + xmode3

7 xinfoi a=0, b=l, c=l, d=l, e=l xmodei + xmode2 + xmode3 + xmode4

8 xinfog a=0, b=0, c=l, d=l, e=0 xmode2 + xmode3

9 xinfog a=0, b=0, c=l, d=l, e=l xmode2 + xmode3 + xmode4

10 xinfoio a=0, b=0, c=0, d=l, e=l xmode3 + xmode4

11 xinfoil a=0, b=0, c=l, d=0, e=l xmode2 + xmode4

12 xinfoi2 a=0, b=l, c=0, d=l, e=l xmodei + xmode3 + xmode4

13 xinfois a=0, b=l, c=l, d=0, e=l xmodei + xmode2 + xmode4

14 xinfoi4 a=l, b=-l, c=0, d=0, e=0 x — xmodei

15 xinfois a=l, b=0, c=-l, d=0, e=0 x — xmode2

16 xinfoia a=l, b=0, c=0, d=-l, e=0 x — xmode3

17 xinfoii a=l, b=0, c=0, d=0, e=-l x — xmode4

18 xinfoig a=l, b=-l, c=-l, d=0, e=0 x — xmodei — xmode2

19 xinfoig a=l, b=-l, c=-l, d=-l, e=0 x — xmodei — xmode2 — xmode3

20 xinfo2o a=l, b=0, c=-l, d=-l, e=-l x — xmode2 — xmode3 — xmode4

21 xinf02l a=l, b=0, c=0, d=-l, e=-l x — xmode3 — xmode4

22 xinf022 a=l, b=0, c=-l, d=0, e=-l x — xmode2 — xmode4

23 xinf023 a=l, b=0, c=-l, d=-l, e=0 x — xmodei — xmode3

24 xinf024 a=l, b=-l, c=0, d=0, e=-l x — xmodei — xmode4

Блок 7. Фрагментирование информативного сигнала осуществляется аналогично, как и фрагментирование исходного речевого сигнала (блок 1).

Блок 8. Определение статуса речь/пауза фрагментов информативного сигнала заключается в проверке следующего условия: количество дискретных отсчетов в анализируемом фрагменте, соответствующих речи или паузе, должно быть больше или равно половине общего числа отсчетов во фрагменте. То есть не менее 40 дискретных отсчетов времени при длительности 10 мс и частоте дискретизации 8000 Гц.

Блок 9. В соответствии с физиологией речевого аппарата человек не может кратковременно (в течение 20 мс) изменить воспроизводимую речь на паузу и наоборот. Данный физиологический аспект заложен в основе исправления ошибок сегментации - поиске некорректно определенных фрагментов речь/пауза. На рис. 5 представлен пример, иллюстрирующий ошибки сегментации речь/пауза.

Блок 10. Сегментация речевых сигналов на информативные участки вручную осуществлялась специалистами с помощью многоплатформенного аудиоредактора звуковых файлов «Audacity», производитель «Audacity Tea» (audacitvteam.org).

Рис. 4. Объединение ЭМ фрагментов исходного речевого сигнала в новые модовые речевые сигналы: (а) исходный речевой сигнал, (б) фрагменты речевого сигнала, (в) ЭМ фрагментов, (г) новые модовые речевые сигналы

Рис. 5. Ошибки сегментации речь/пауза (линией красного цвета обозначен результат сегментации, линией синего цвета - сегментация, осуществленная вручную, фоном серого цвета обозначены некорректно определенные фрагменты)

4. Исследование алгоритма сегментации

Для исследований алгоритма сегментации речь/пауза была сформирована база речевых сигналов. Запись речевых сигналов осуществлялась посредством специально разработанной методики, в рамках которой дикторы зачитывали следующий текстовый материал:

- статья из рекламно-информационной газеты, включающая публицистический текст на русском языке (не менее 200 слов);

- краткое детское литературное произведение, включающее фонетически сбалансированный текст на русском языке (не менее 200 слов);

- счёт чисел от 0 до 99 на русском языке (100 слов).

Запись осуществлялась в обычном лабораторном помещении с естественным шумовым фоном. Произношение диктором - размеренное. Параметры и пространственные характеристики микрофона не изменялись для всех регистрируемых дикторов.

Эффективность разработанного алгоритма сегментации оценивалась посредством определения ошибок первого и второго рода. Основной задачей сегментации является точное обнаружение границ начала и окончания информативных участков вокализованной и нево-кализованной речи, поэтому ошибкой первого рода считалось ошибочное присваивание речевому фрагменту статуса «пауза». Ошибкой второго рода считалось ошибочное присваивание фрагменту паузы статуса «речь». Ошибки первого и второго рода определялись в сравнении с результатом сегментации, осуществленной вручную.

Программная реализация алгоритма сегментации речь/пауза выполнена в среде математического моделирования «Matlab» производитель«MathWorks» (www.mathworks.com). Программная реализация метода улучшенной ПМДЭМАШ была заимствована из работы [26].

Исследования алгоритма сегментации проводились в сравнении со способами, основанными на анализе ZCR [3], STE [5], и ODMD [6]. В табл. 2 представлены усредненные результаты сегментации речь/пауза, полученные с помощью упомянутых выше способов. В табл. 3 представлены усредненные результаты, полученные разработанным алгоритмом сегментации речь/пауза.

Таблица2

Усредненные результаты сегментации речь/пауза, полученные способами на

основе анализа ZCR, STE и ODMD

Ошибка Ошибка

№ п/п Способ сегментации речь/пауза первого рода, % второго рода, %

1 Способ на основе анализа ZCR 23,11 3,019

2 Способ на основе анализа ЭТЕ 10,52 2,841

3 Способ на основе анализа ZCR и БТЕ 7,322 5,328

4 Способ на основе анализа ОБМБ 21,96 0,888

5. Анализ результатов исследований

На рис. 6 представлен пример, иллюстрирующий результаты сегментации речь/пауза сигнала длительностью 10 секунд, представляющего собой сочетание следующих слов на русском языке: шанс, шар, баян, Лара, нормально. Слова подобраны таким образом, чтобы в них содержались разные по способу образования звуки: гласные, сонорные, шумные смычные (взрывные, фрикативные) и шумные щелевые.

(а)

(б)

(в)

(г)

(Д)

со

со СП

< .

<.

1 2 3 4 5

Дискретные отсчеты времени

I I _I I И Ж Т г^ _I_ -ч у 1т Ш1

01 2345676 Дискретные отсчеты времени хю4

Рт III

01 2345676 Дискретные отсчеты времени хю4

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I ¥ I I I I -ч 1г Тт* III

01 2345676 Дискретные отсчеты времени хю4

I I ¿ж. 1Г тТ*

01 2345676 Дискретные отсчеты времени хю4

I Пл., Т I I

Рис. 6. Пример, иллюстрирующий результаты сегментации речь/пауза (линией красного цвета обозначены результаты сегментации, линией синего цвета - сегментация, осуществленная вручную), (а) способ на основе анализа ZCR, (б) способ на основе анализа ЯТЕ, (в) способ на основе анализа ZCR и ЯТЕ, (г) способ на основе анализа ОБМБ, (д) разработанный алгоритм сегментации

Среди широко распространенных на практике способов (табл. 2) наилучший результат сегментации участков вокализованной и невокализованной речи с ошибкой первого рода 7,322% достигается способом на основе анализа ZCR и ЭТЕ (рис. 6(в)). По отдельности способы на основе анализа ZCR, ЭТЕ обеспечивают неудовлетворительный и средний результаты сегментации - 23,112% и 10,526% соответственно (рис. 6(а), (б)). Повышение точности обнаружения границ начала и окончания вокализованной и невокализованной речи при совместном анализе ZCR и ЭТЕ объясняется совокупной эффективностью кратковременного анализа фрагментов с отличающимися свойствами (рис. 6(в). Наихудший результат сегментации с ошибкой первого рода 23,112% отмечается у способа на основе анализа ZCR. Объясняется это трудностью отличить фрагменты пауз с фоновым шумом и фрагменты, содержащие слабые шумные щелевые и фрикативные звуки. Например, у тихо произнесенных звуков «ш» и «с» значение ZCR близко к значению, соответствующему паузе с фоновым шумом. На рис. 6(а) это отчетливо наблюдается при сегментации

первого слова «шанс». Фрагментам звука «с» в слове «шанс» ошибочно присвоены статусы «пауза».

Наилучший результат сегментации участков пауз с ошибкой второго рода 0,888% достигается способом на основе анализа ()Г)\П) (рис. 6(г)). Наихудший результат с ошибкой второго рода 5,328% отмечается у способа на основе анализа ЪСК и БТЕ. Данный факт также объясняется совокупностью ошибок сегментации, так как по отдельности способы на основе анализа ЪСК и БТЕ обеспечивают приемлемые результаты - 3,019% и 2,841% соответственно.

ТаблицаЗ

Усредненные результаты, полученные разработанным алгоритмом

сегментации речь/пауза

№ п/п Разработанный алгоритм сегментации речь/пауза Ошибка первого рода, % Ошибка второго рода, %

1 Инфорь 1ативный сигнал 1 5,034 1,243

2 Инфорь 1ативный сигнал 2 4,576 1,953

3 Инфорь 1ативный сигнал 3 10,29 0,888

4 Инфорь 1ативный сигнал 4 56,29 0,888

5 Инфорь 1ативный сигнал 5 4,576 1,421

6 Инфорь 1ативный сигнал 6 5,492 0,888

7 Инфорь 1ативный сигнал 7 20,137 1,243

8 Инфорь 1ативный сигнал 8 8,009 0,888

9 Инфорь 1ативный сигнал 9 25,4 1,243

10 Инфорь ттивный сигнал 10 34,783 1,243

11 Инфорь штатный сигнал 11 29,062 0,888

12 Инфорь штатный сигнал 12 22,654 0,888

13 Инфорь штатный сигнал 13 21,053 0,888

14 Инфорь штатный сигнал 14 29,291 0,888

15 Инфорь штатный сигнал 15 26,087 0,888

16 Инфорь штатный сигнал 16 23,112 0,888

17 Инфорь штатный сигнал 17 14,416 0,888

18 Инфорь штатный сигнал 18 38,902 0,888

19 Инфорь штатный сигнал 19 64,76 0,888

20 Инфорь штатный сигнал 20 31,35 1,243

21 Инфорь штатный сигнал 21 16,476 0,888

22 Инфорь штатный сигнал 22 19,908 0,888

23 Инфорь штатный сигнал 23 32,265 0,888

24 Инфорь штатный сигнал 24 18,535 0,888

В соответствии с усредненными данными в табл. 3 наилучший результат сегментации участков вокализованной и невокализованной речи с ошибкой первого рода 4,576% достигается разработанным алгоритмом сегментации при анализе информативного сигнала 5 (рис. 6(д)). В соответствии с формулой (15) и значениями коэффициентов а, Ь, с, й, е информативный сигнал 5 представляет собой сумму первого и второго модовых речевых сигналов (табл. 1). Объясняется это тем, что сумма первого и второго модовых речевых сигналов содержат максимально достоверную информацию о границах начала и окончания участков вокализованной, невокализованной речи (рис. 4(г), 6(д)). Наименьшая ошибка первого рода 4,576% также отмечается при анализе информативного сигнала 2. Однако в сочетании с ошибкой второго рода 1,421% эффективнее анализировать информативный сигнал 5. Наихудший результат сегментации с ошибкой первого рода 64,76% отмечается при анализе

информативного сигнала 19, представляющего собой разность исходного речевого сигнала и суммы первого, второго и третьего модовых речевых сигналов.

Наилучший результат сегментации участков пауз с ошибкой второго рода 0,888% отмечается сразу у 17 информативных сигналов. Однако в сочетании с ошибкой первого рода (8,009%) эффективнее анализировать информативный сигнал 8 (сумму второго и третье модовых речевых сигналов). Наихудший результат сегментации с ошибкой второго рода 1,953% отмечается у информативного сигнала 2 (второго модового речевого сигнала).

6. Выводы

Подводя итоги анализа результатов исследований можно сделать следующие выводы:

1. Наилучший результат сегментации речи на информативные участки с ошибками первого и второго рода - 4,576% и 1,421% соответственно достигается разработанным алгоритмом сегментации при анализе информативного сигнала 5.

2. Детализированный анализ результатов, полученных разработанным алгоритмом, выявил, что ошибки сегментации в основном наблюдаются в пограничных областях между участками речи и пауз (рис. 6(д)). Так как в большинстве практических случаев параметры глухие сонорных и шумных (смычных, щелевых) звуков, соответствуют параметрам паузы с фоновым шумом. Как правило, ошибочно сегментированные участки имеют длительность менее 20 мс. Следовательно, мелкие ошибки сегментации в пограничных областях, практически не будут влиять на эффективность предварительной обработки в прикладных приложениях речевых технологий.

3. В сравнении со способами на основе анализа ZCR, STE и ODMD разработанный алгоритм сегментации обеспечивает повышение эффективности сегментации участков вокализованной и невокализованной речи на 2,745% при ошибке первого рода 4,576%.

4. В зависимости от приоритета решаемой задачи сегментации речь/пауза, у исследователей имеется возможность выбирать между способами, обеспечивающими необходимые значения ошибок первого и второго рода. В случае с разработанным алгоритмом сегментации имеется дополнительная возможность выбирать между анализируемыми информативными сигналами.

В перспективе коллективом авторов планируется выполнение исследований, посвященных:

- модернизации алгоритма сегментации посредством совместного анализа нескольких информативных сигналов, обладающих наименьшими значениями ошибок первого и второго рода;

- применению других методов декомпозиции с целью повышения эффективности разработанного алгоритма сегментации;

- анализу помехоустойчивости разработанного алгоритма сегментации.

Литература

1. Martin A., Charlet D., Mauuary L. Martin A. Robust speech/non-speech detection using LDA applied to MFCC // Salt Lake City, UT, USA. 2001. V. 1. P. 237-240.

2. Hlavnicka J., Cmejla R., Tykalova T., Sonka K., Ruzicka E., Rusz J. Automated analysis of connected speech reveals early biomarkers of Parkinson's disease in patients with rapid eye movement sleep behaviour disorder // Scientific Reports. 2017. V. 7, N 12. P. 13.

3. Atal В., Rabiner L.R. A pattern recognition approach to voiced unvoiced-silence classification with applications to speech recognition // IEEE Trans. Acoust. Speech Signal Process. 1976. V. 24, N 3. P. 201-212.

4. Huang X., Acero A., Hon H.-W. Spoken Language Processing. Guide to Algorithms and System Developmen. New Jersey: Prentice Hall, 2001. 980 p.

5. Childers D.G., Hand М., Larar J.M. Silent and voiced/unvoied/ mixed excitation (four-way), classification of speech // IEEE Transaction on ASSP. 1989. V. 37, N 11. P. 1771 1774.

6. Duda R.O, Hart P.E., Strok D.G. Pattern Classification // New Jersey: A Wilev-Interscience Publ.John Wiley k, Sons, Inc., 2001. P. 688.

7. Алимурадов А.К., Тычков А.Ю., Чураков П.П., Султанов Б.В. Способ определения формантной разборчивости речи для оценки психоэмоционального состояния операторов систем управления с высокой степенью ответственности // Измерение. Мониторинг. Управление. Контроль. 2019. № 4(30). С. 58-69.

8. Алимурадов А.К., Тычков А.Ю., Чураков П.П., Арт,а,монов Д.В. Помехоустойчивый алгоритм определения просодических характеристик речевых сигналов для систем оценки психоэмоционального состояния человека // Известия высших учебных заведений. Поволжский регион. Технические науки. 2019. № 3(51). С. 3-16.

9. Алимурадов А.К., Тычков А.Ю., Чураков П.П. Оценка психоэмоционального состояния человека на основе декомпозиции на эмпирические моды и кепстрального анализа речевых сигналов // Вестник Пензенского государственного университета. 2018. № 2(22). С. 89-95.

10. Greenwood М.А., Kinghorn A. SUVing: automatic silence/unvoiced/voiced classification of speech // Undergraduate Coursework, Department of Computer Science, The University of Sheffield, UK. 1999. P. 4.

11. Saha G., Chakroborty S., Senapat S. A new silence removal and endpoint detection algorithm for speech and speaker recognition applications // Eleventh National Conference on Communications (NCC-2005) (Jan. 28-30, 2005). Kharagpur, India. P. 51-61.

12. Huang N.E., Zheng Sh., Steven R.L. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis // Proceedings of the Royal Society of London. 1998. A 454. P. 903-995.

13. Zhaohua W., Huang N.E. Ensemble empirical mode decomposition: A noise-assisted data analysis method // Advances in Adaptive Data Analysis. 2009. N 1(1). P. 1-41.

14. Yeh J.-R., Shieh J.-S., Huang N.E. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method // Advances in Adaptive Data Analysis. 2010. N 2(2). P. 135-156.

15. Torres M.E., Colominas M.A., Schlotthauer G., Flandrin P. A complete Ensemble Empirical Mode decomposition with adaptive noise // 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP-11) (May 22-27, 2011). Prague, Czech Republic. P. 4144-4147.

16. Colominasa M.A., Schlotthauera G., Torres M.E. Improved complete ensemble EMD: a suitable tool for biomedical signal processing // Biomed. Signal Proces. 2014. V. 14. P. 1929.

17. Wu Z., Schneider E., Ни Z., Cao L. The impact of global warming on ENSO variability in climate records // Tech. report, Cent. Ocean. Stud. 2002. V. 110. P. 25.

18. Labate D., La Foresta F., Occhiuto G., Morabito F.C., Lay-Ekuakille A., Vergallo P. Empirical mode decomposition vs. wavelet decomposition for the extraction of respiratory signal from single-channel ECG: A comparison // IEEE Sensors Journal. 2013. V. 13, N 7. P. 2666-2674.

19. Andrade A.O., Nasuto S., Kyberd P., Sweeney-Reed C.M., Van Kanijn F.R. EMG signal filtering based on Empirical Mode Decomposition // Biomedical Signal Processing Control. 2006. V. 1, N 1. P. 44-55.

20. Zhang Y., Gao Y., Wang L., Chen J., Shi X. The removal of wall components in doppler ultrasound signals by using the empirical mode decomposition algorithm // IEEE Transactions on Biomedical Engineering. 2007. V. 54, N 9. P. 1631-1642.

21. US patent N 6,862,558 B2. Empirical mode decomposition for analyzing acoustical signals / N.E. Huang. The United States of America as represented by the Administrator of the National Aeronautics and Space Administration. US 200310033094 Al. data 01.03.2005. 147 p.

22. Huang H., Pan J. Speech pitch determination based on Hilbert-Huang transform // Signal Processing. 2006. V. 86, N 4. P. 792-803.

23. Nunes J.C., Bouaoune Y., Delechelle E., Niang O., Bunel P. Image analysis by bidimensional empirical mode decomposition // Image and Vision Computing. 2003. V 21, N 12. P. 1019-1026.

24. Али,мура,doe А.К., Фокина, E.A., Журина A.E. Исследование влияния длительности анализируемых речевых сигналов на частотно-избирательные свойства декомпозиции на эмпирические моды // Новые информационные технологии и системы: сборник научных статей XVI Международной научно-технической конференции (г. Пенза, 2729 ноября 2019 г.). Пенза : Изд-во ИГУ. 2019. С. 201-205.

25. Alimuradov А.К., Churakov P.P., Tychkov A.Yu., Artemov 1.I., Kuzmin A. V. Improvement of the Efficiency of Voice Control Based on the Complementary Ensemble Empirical Mode Decomposition // 2016 International Siberian Conference on Control and Communications (SIBCON 2016) (May 12-14, 2016). Moscow, Russia. P. 6.

26. National University of Entre Rios. The Laboratory of Signals and Nonlinear Dynamics, Faculty of Engineering [Электронный ресурс]. Официальная страница. Дата обращения: 01.05.2021. Режим доступа: http://www.bioingenieria.edu.ar/grupos/ldnlys.

References

1. Martin A., Charlet D., Mauuary L. Martin A. Robust speech/non-speech detection using LDA applied to MFCC. Salt Lake City, UT, USA. 2001. V. 1. P. 237-240.

2. Hlavnicka J., Cmejla R., Tykalova Т., Sonka K., Ruzicka E., Rusz J. Automated analysis of connected speech reveals early biomarkers of Parkinson's disease in patients with rapid eye movement sleep behaviour disorder. Scientific Reports. 2017. V. 7, N 12. P. 13.

3. Atal В., Rabiner L.R. A pattern recognition approach to voiced unvoiced-silence classification with applications to speech recognition. IEEE Trans. Acoust. Speech Signal Process. 1976. V. 24, N 3. P. 201-212.

4. Huang X., Acero A., Hon H.-W. Spoken Language Processing. Guide to Algorithms and System Developmen. New Jersey: Prentice Hall, 2001. 980 p.

5. Childers D.G., Hand M., Larar J.M. Silent and voiced/unvoied/ mixed excitation (four-wav), classification of speech. IEEE Transaction on ASSP. 1989. V. 37, N 11. P. 1771-1774.

6. Duda R.O, Hart P.E., Strok D.G. Pattern Classification. New Jersey: A Wiley-Interscience Publ.John Wiley k Sons, Inc., 2001. P. 688.

7. Alimuradov A.K., Tychkov A.Yu., Churakov P.P., Sultanov B.V. Method to determine formant speech intelligibility for estimating psvcho-emotional state of control system operators with a high degree of responsibility. Measuring. Monitoring. Management. Control. 2019. N 4(30). P. 58-69.

8. Alimuradov A.K., Tychkov A. Yu., Churakov P.P., Artamonov D. V. A noise-robust algorithm to determine prosodic characteristics of speech signals for systems of human psvcho-emotional state assessment. University proceedings. Volga region. Technical sciences. 2019. N 3(51). P. 3-16.

9. Alimuradov A.K., Tychkov A. Yu., Churakov P.P. An assessment of human psycho-emotional state based on the empirical mode decomposition and cepstral analysis of speech signals. Vestnik of Penza State University. 2018. N 2(22). P. 89-95.

10. Greenwood M.A., Kinghorn A. SUVing: automatic silence/unvoiced/voiced classification of speech. Undergraduate Coursework, Department of Computer Science, The University of Sheffield, UK. 1999. P. 4.

11. Saha G., Chakroborty S., Senapat S. A new silence removal and endpoint detection algorithm for speech and speaker recognition applications. Eleventh National Conference on Communications (NCC-2005) (Jan. 28-30, 2005). Kharagpur, India. P. 51-61.

12. Huang N.E., Zheng Sh., Steven R.L. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis. Proceedings of the Royal Society of London. 1998. A 454. P. 903-995.

13. Zhaohua W., Huang N.E. Ensemble empirical mode decomposition: A noise-assisted data analysis method. Advances in Adaptive Data Analysis. 2009. N 1(1). P. 1-41.

14. Yeh J.-R., Shieh J.-S.,Huang N.E. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method. Advances in Adaptive Data Analysis. 2010. N 2(2). P. 135-156.

15. Torres M.E., Colominas M.A., Schlotthauer G., Flandrin P. A complete Ensemble Empirical Mode decomposition with adaptive noise. 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP-11) (May 22-27, 2011). Prague, Czech Republic. P. 4144-4147.

16. Colominasa M.A., Schlotthauera G., Torres M.E. Improved complete ensemble EMD: a suitable tool for biomedical signal processing.Biomed. Signal Proces. 2014. V. 14. P. 19-29.

17. Wu Z., Schneider E., Hu Z., Cao L. The impact of global warming on ENSO variability in climate records. Tech. report, Cent. Ocean. Stud. 2002. V. 110. P. 25.

18. Labate D., La Foresta F., Occhiuto G., Morabito F.C., Lay-Ekuakille A., Vergallo P. Empirical mode decomposition vs. wavelet decomposition for the extraction of respiratory signal from single-channel ECG: A comparison. IEEE Sensors Journal. 2013. V. 13, N 7. P. 2666-2674.

19. Andrade A.O., Nasuto S., Kyberd P., Sweeney-Reed C.M., Van Kanijn F.R. EMG signal filtering based on Empirical Mode Decomposition. Biomedical Signal Processing Control. 2006. V. 1, N 1. P. 44-55.

20. Zhang Y., Gao Y., Wang L., Chen J., Shi X. The removal of wall components in doppler ultrasound signals by using the empirical mode decomposition algorithm. IEEE Transactions on Biomedical Engineering. 2007. V. 54, N 9. P. 1631-1642.

21. US patent N 6,862,558 B2. Empirical mode decomposition for analyzing acoustical signals. N.E. Huang. The United States of America as represented by the Administrator of the National Aeronautics and Space Administration. US 200310033094 Al. data 01.03.2005. 147 p.

22. Huang H., Pan J. Speech pitch determination based on Hilbert-Huang transform. Signal Processing. 2006. V. 86, N 4. P. 792-803.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

23. Nunes J.C., Bouaoune Y., Delechelle E., Niang O., Bunel P. Image analysis by bidimensional empirical mode decomposition. Image and Vision Computing. 2003. V. 21, N 12. P. 1019-1026.

24. Alimuradov A.K., Fokina E.A., Zhurina A.E. Investigation of the influence of the duration of the analyzed speech signals on the frequency-selective properties of the decomposition into empirical modes. New Information Technologies and Systems: Proceedings of the XVI

International Scientific and Technical Conference (Penza, November 27-29, 2019). Penza : PSU Publishing House. 2019. P. 201-205.

25. AHmuradov A.K., Churakov P.P., Tychkov A.Yu., Artemov I.I., Kuzmin A.V. Improvement of the Efficiency of Voice Control Based on the Complementary Ensemble Empirical Mode Decomposition. 2016 International Siberian Conference on Control and Communications (SIBCON 2016) (May 12-14, 2016). Moscow, Russia. P. 6.

26. National University of Entre Rios. The Laboratory of Signals and Nonlinear Dynamics, Faculty of Engineering [Online]. Official Website. Accessed: May 01, 2021. Available: ht tp: / / www. bioingenieria.edu. ar/grup os/ldnlvs.

Поступим в редакцию 23.06.2021

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алимурадов А. К., Тычков А. Ю., Чураков П. П., Агейкин А. В., Кулешов А. П.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алимурадов А. К., Тычков А. Ю., Чураков П. П., Агейкин А. В., Кулешов А. П.

SPEECH/PAUSE SEGMENTATION ALGORITHM BASED ON EMPIRICAL MODE DECOMPOSITION AND ONE-DIMENSIONAL MAHALANOBISDISTANCE

Текст научной работы на тему «АЛГОРИТМ СЕГМЕНТАЦИИ РЕЧЬ/ПАУЗА НА ОСНОВЕДЕКОМПОЗИЦИИ НА ЭМПИРИЧЕСКИЕ МОДЫ И ОДНОМЕРНОГО РАССТОЯНИЯ МАХАЛАНОБИСА»