Научная статья на тему 'Помехоустойчивый адаптивный алгоритм сегментации «Сигнал/пауза» для систем распознавания речи'

Помехоустойчивый адаптивный алгоритм сегментации «Сигнал/пауза» для систем распознавания речи Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
651
127
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОБРАБОТКА РЕЧЕВЫХ СИГНАЛОВ / СЕГМЕНТАЦИЯ «СИГНАЛ/ПАУЗА» / РАСПОЗНАВАНИЕ РЕЧИ / КОМПЛЕМЕНТАРНАЯ МНОЖЕСТВЕННАЯ ДЕКОМПОЗИЦИЯ НА ЭМПИРИЧЕСКИЕ МОДЫ / PROCESSING OF SPEECH SIGNALS / "SIGNAL/PAUSE" SEGMENTATION / SPEECH RECOGNITION / COMPLEMENTARY MULTIPLE EMPIRICAL MODE DECOMPOSITION

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Алимурадов Алан Казанферович, Чураков Петр Павлович

Актуальность и цели. Объектом исследования являются этапы обработки речевых сигналов, применяемые в системах распознавания речи. Предметом исследования является задача сегментации «сигнал/пауза», представляющая собой обнаружение границ участков сигнала и пауз в общем потоке речевых сигналов. Цель работы - разработка и исследование помехоустойчивого алгоритма сегментации «сигнал/пауза», адаптивного к агрессивно зашумленной среде. Материалы и методы. В разработке алгоритма использовались: метод адаптивной обработки нелинейных и нестационарных сигналов - комплементарная множественная декомпозиция на эмпирические моды; метод обработки статистических данных - независимый компонентный анализ; метод разграничения с использованием понятий нормального распределения и одномерного расстояния Махаланобиса. Результаты. Разработан и исследован помехоустойчивый адаптивный алгоритм сегментации «сигнал/пауза» для систем распознавания речи. Представлена блок-схема алгоритма с подробным математическим описанием. Указаны преимущества по сравнению с известными алгоритмами сегментации «сигнал/пауза», применяемыми в системах распознания речи. Разработанный алгоритм обеспечивает повышение коэффициента действительного обнаружения в среднем на 13 %. Выводы. Сопоставление результатов исследований позволяет сделать вывод, что разработанный помехоустойчивый адаптивный алгоритм сегментации «сигнал/пауза» рекомендуется для практического применения в системах распознавания речи, используемых в агрессивно зашумленной среде.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Алимурадов Алан Казанферович, Чураков Петр Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NOISE-ELIMINATING ADAPTIVE ALGORITHM OF «SIGNAL/PAUSE» SEGMENTATION FOR SPEECH RECOGNITION SYSTEMS

Background. The research object is the stages of speech signals processing, applied in speech recognition systems. The research subject is the problem of "signal/pause" segmentation that represents detection of signal and pauses’ boundaries in the overall flow of speech signals. The purpose of the work is to develop and research a noise-eliminating algorithm of "signal/pause" segmentation, adaptive to aggressively noisy environment. Materials and methods. At development of the algorithm the following methods were used: a method of adaptive processing of nonlinear and non-stationary signals the Complementary Multiple Empirical Mode Decomposition; a statistical data processing method the Independent Component Analysis; a differentiation method using the concepts of normal distribution and one-dimensional Mahalanobis distance. Results. The noise-eliminating algorithm of "signal/pause" segmentation for speech recognition systems was developed and investigated. The article adduces a flowchart of the algorithm with a detailed mathematical description. The work specifies the advantages compared with the known algorithms of "signal/pause" segmentation, used in speech recognition systems. The developed algorithm increases the valid detection coefficient by 13 % on average. Conclusions. Comparison of the research results allows to conclude that the developed noise-eliminating algorithm of "signal/pause" segmentation is recommended for practical application in speech recognition systems, used in aggressively noisy environment.

Текст научной работы на тему «Помехоустойчивый адаптивный алгоритм сегментации «Сигнал/пауза» для систем распознавания речи»

Известия высших учебных заведений. Поволжский регион

УДК 004.934

А. К. Алимурадов, П. П. Чураков

помехоустойчивый адаптивный алгоритм

СЕГМЕНТАЦИИ «СИГНАЛ/ПАУЗА» ДЛЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ

Аннотация.

Актуальность и цели. Объектом исследования являются этапы обработки речевых сигналов, применяемые в системах распознавания речи. Предметом исследования является задача сегментации «сигнал/пауза», представляющая собой обнаружение границ участков сигнала и пауз в общем потоке речевых сигналов. Цель работы - разработка и исследование помехоустойчивого алгоритма сегментации «сигнал/пауза», адаптивного к агрессивно зашумленной среде.

Материалы и методы. В разработке алгоритма использовались: метод адаптивной обработки нелинейных и нестационарных сигналов - комплементарная множественная декомпозиция на эмпирические моды; метод обработки статистических данных - независимый компонентный анализ; метод разграничения с использованием понятий нормального распределения и одномерного расстояния Махаланобиса.

Результаты. Разработан и исследован помехоустойчивый адаптивный алгоритм сегментации «сигнал/пауза» для систем распознавания речи. Представлена блок-схема алгоритма с подробным математическим описанием. Указаны преимущества по сравнению с известными алгоритмами сегментации «сиг-нал/пауза», применяемыми в системах распознания речи. Разработанный алгоритм обеспечивает повышение коэффициента действительного обнаружения в среднем на 13 %.

Выводы. Сопоставление результатов исследований позволяет сделать вывод, что разработанный помехоустойчивый адаптивный алгоритм сегментации «сигнал/пауза» рекомендуется для практического применения в системах распознавания речи, используемых в агрессивно зашумленной среде.

Ключевые слова: обработка речевых сигналов, сегментация «сиг-нал/пауза», распознавание речи, комплементарная множественная декомпозиция на эмпирические моды.

A. K. Alimuradov, P. P. Churakov

NOISE-ELIMINATING ADAPTIVE ALGORITHM OF «SIGNAL/PAUSE» SEGMENTATION FOR SPEECH RECOGNITION SYSTEMS

Abstract.

Background. The research object is the stages of speech signals processing, applied in speech recognition systems. The research subject is the problem of "sig-nal/pause" segmentation that represents detection of signal and pauses’ boundaries in the overall flow of speech signals. The purpose of the work is to develop and research a noise-eliminating algorithm of "signal/pause" segmentation, adaptive to aggressively noisy environment.

Materials and methods. At development of the algorithm the following methods were used: a method of adaptive processing of nonlinear and non-stationary signals -

82

University proceedings. Volga region

№ 2 (34), 2015 Технические науки. Информатика, вычислительная техника

the Complementary Multiple Empirical Mode Decomposition; a statistical data processing method - the Independent Component Analysis; a differentiation method using the concepts of normal distribution and one-dimensional Mahalanobis distance.

Results. The noise-eliminating algorithm of "signal/pause" segmentation for speech recognition systems was developed and investigated. The article adduces a flowchart of the algorithm with a detailed mathematical description. The work specifies the advantages compared with the known algorithms of "signal/pause" segmentation, used in speech recognition systems. The developed algorithm increases the valid detection coefficient by 13 % on average.

Conclusions. Comparison of the research results allows to conclude that the developed noise-eliminating algorithm of "signal/pause" segmentation is recommended for practical application in speech recognition systems, used in aggressively noisy environment.

Key words: processing of speech signals, "signal/pause" segmentation, speech recognition, complementary multiple empirical mode decomposition.

Введение

Обработка речевых сигналов - это область науки, в которой осуществляется фильтрация, усиление, кодирование, сжатие и восстановление речи [1]. Применительно к системам распознавания речи обработка включает в себя следующие задачи: фильтрация и подавление шума, сегментация на информативные участки, определение информативных параметров и распознавание [2].

Сегментация «сигнал/пауза» представляет собой обнаружение границ участков сигнала и пауз в общем потоке речевых сигналов. Сегментация является одной из главных задач обработки, так как от точности обнаружения границ сигнала и пауз зависит эффективность распознавания.

На практике все речевые сигналы в той или иной степени являются зашумленными. В зависимости от интенсивности шум может существенно исказить результаты распознавания, поэтому исследование и разработка помехоустойчивых алгоритмов сегментации, адаптивных к агрессивно зашумленной среде, являются весьма актуальными. Работа в направлении помехоустойчивой сегментации речевых сигналов ведется достаточно активно. На сегодня разработано большое количество различных алгоритмов, среди которых наибольшую практическую популярность получили:

- алгоритмы, основанные на использовании значений кратковременной энергии (Short-time Energy, STE) [3];

- алгоритмы, основанные на использовании количества переходов сигнала через нуль в короткие промежутки времени (Short-time Zero-crossing Rate, ZCR) [4].

В алгоритмах, использующих методы STE и ZCR, присутствуют ограничения, связанные с установкой пороговых значений. Метод STE основан на предположении о том, что энергия вокализованного участка речи больше, чем невокализованного. Это предположение не всегда подтверждается, так как не известно, на сколько энергия вокализованного участка должна быть больше энергии невокализованного. Очень часто значения энергий вокализованных и невокализованных участков варьируются в широких диапазонах для каждого конкретного случая. Метод ZCR основан на точном правиле раз-

Engineering sciences. Computer science, computer engineering and control

83

Известия высших учебных заведений. Поволжский регион

граничения: если количество переходов сигнала через нуль в определенный короткий промежуток времени превышает значение 50, то этот участок соответствует паузе (тишине с фоновым шумом); если количество переходов меньше или равно 12, то этот участок соответствует сигналу. В работе [5] был реализован и исследован помехоустойчивый алгоритм с совместным использованием методов STE и ZCR. Точность сегментации в среднем составила всего лишь 63 % при отношении сигнал/шум (SNR) 10 дБ.

В данной статье авторами предлагается помехоустойчивый адаптивный алгоритм сегментации «сигнал/пауза» с использованием:

- адаптивной фильтрации на основе методов комплементарной множественной декомпозиции на эмпирические моды (КМДЭМ) [6] и независимого компонентного анализа (НКА) [7];

- правила разграничения на основе понятий нормального распределения и одномерного расстояния Махаланобиса [8, 9].

В работе алгоритма используются статистические свойства фонового шума, а также физиологический аспект формирования речевых сигналов и не используется никаких пороговых значений. Данная статья является продолжением ранее опубликованных работ авторов [10-13].

1. Теоретические основы алгоритма

1.1. Речевой сигнал и его основные свойства

Речевой сигнал представляет собой нелинейный и нестационарный сигнал сложной формы, характеристики которого быстро меняются в течение времени [1]. При кратковременном анализе (от 5 до 100 мс) характеристики речевых сигналов становятся стационарными. В соответствии с физиологическим аспектом формирования речи человек перед произношением делает кратковременную паузу - обычно 200 мс или более. Этот участок паузы не содержит речи и соответствует тишине с фоновым шумом. На рис. 1 представлен пример речевого сигнала - словосочетание «На костюм капнула хна» с паузой перед произношением.

Рис. 1. Речевой сигнал - словосочетание «На костюм капнула хна» с паузой перед произношением

1.2. Комплементарная множественная декомпозиция на эмпирические моды

Важным условием помехоустойчивой сегментации речевых сигналов является возможность формирования адаптивного базиса, функционально

84

University proceedings. Volga region

№ 2 (34), 2015 Технические науки. Информатика, вычислительная техника

зависимого от содержания самого сигнала. Такой подход реализуется в математическом аппарате, называемом КМДЭМ (комплементарная множественная декомпозиция на эмпирические моды) [6]. Комплементарная множественная декомпозиция на эмпирические моды основана на методе ДЭМ [14].

ДЭМ представляет собой адаптивную технологию разложения сигнала на внутренние функции, называемые эмпирическими модами (ЭМ). Особенность заключается в том, что базисные функции, используемые для разложения, извлекаются непосредственно из исходного сигнала. При разложении модель сигнала не задается заранее, ЭМ вычисляются в ходе процедуры отсеивания с учетом локальных особенностей (таких как экстремумы и нули сигнала) и внутренней структуры каждого конкретного сигнала. Таким образом, ЭМ не имеют строгого аналитического описания, но должны удовлетворять двум условиям, гарантирующим определенную симметрию и узкопо-лосность базисных функций [13]:

- общее число экстремумов равняется общему числу нулей с точностью до единицы;

- среднее значение двух огибающих - верхней, интерполирующей локальные максимумы, и нижней, интерполирующей локальные минимумы, -должно быть приближенно равно нулю.

В результате ДЭМ из исходного сигнала x(n) извлекается конечное число ЭМ и результирующий остаток:

I-1

x(n) = ^ MFi (n) + ri (n), (1)

i=1

где IMFi (n) - полученные после разложения ЭМ; ri (n) - остаток разложения, i = 1, 2, ..., I - номер ЭМ; n - дискретный отсчет времени.

При всех указанных преимуществах адаптивности метода ДЭМ недостатком, важным для его практического применения, является смешивание ЭМ, состоящих из различных частей сигнала несоизмеримых по частотному и амплитудному масштабам и находящихся в различных участках ЭМ.

Для решения данной проблемы смешивания ЭМ был предложен новый метод декомпозиции, основанный на многократном добавлении к сигналу бесконечно малой амплитуды белого шума с прямыми и инверсными значениями и вычислении среднего значения ЭМ и остатка как конечного истинного результата:

" yj(n)" "1 1 " x(n)

yj (n)* 1 -1 Wj (n)

(2)

где Wj (n) - добавленный белый шум; yj (n) - сумма зашумленного речевого

*

сигнала x(n) с белым шумом; yj(n) - сумма зашумленного речевого сигнала x( n) с инверсным по знаку белым шумом;

1

IMFi (n) =- 2 MFji (n); J j=1

(3)

Engineering sciences. Computer science, computer engineering and control

85

Известия высших учебных заведений. Поволжский регион

1

ri (n) = 7 Z rji(n),

ji

1

(4)

где IMFji (n), rji (n) - ЭМ и остаток, полученные при различных декомпози-

*

циях сигналов yj(n) и yj(n) , j = 1, 2, ..., 7 - количество циклов декомпозиций (добавлений к сигналу белого шума).

Малый по амплитуде белый шум позволяет получить ЭМ, сопоставимые с частями сигнала несоизмеримых масштабов и находящиеся в различных участках. Вычисление среднего значения полученных ЭМ как конечного истинного результата обеспечит полное удаление остаточного белого шума за счет пары прямых и инверсных значений, независимо от того, сколько сигналов шума использовалось.

Следует отметить общие правила для корректной работы метода КМДЭМ:

1. При добавлении белого шума может возникнуть эффект маскировки высокочастотной составляющей, если количество циклов декомпозиции не будет достаточно большим.

2. Уровень среднеквадратического отклонения амплитуды добавляемого белого шума должен быть на уровне присутствующего в сигнале шума (если уровень известен), в противном случае шум не должен быть больше, чем 20 % от исходного сигнала.

3. Важными исходными параметрами для КМДЭМ является амплитудный (или энергетический) уровень добавляемого белого шума и количество циклов декомпозиции.

1.3. Характер распределения функции распределения вероятности

В соответствии с теоремой центрального предела распределение суммы независимых случайных величин приближается к определенному конечному виду, известному как нормальное распределение. Функция плотности вероятности нормального распределения имеет очень важное практическое значение:

где х - независимые случайные величины; ц - математическое ожидание; о - стандартное отклонение.

Кривая плотности вероятности нормального распределения описывается колоколообразным импульсом. Распределение симметрично относительно среднего значения, пик проходится на x = ц, ширина импульса пропорциональна стандартным отклонениям о. При нормальном распределении данные независимых случайных величин имеют тенденцию группироваться около среднего значения. Численно вероятности подчиняются выражениям:

2

(5)

|х-ц|<с = 0,68,

(6)

86

University proceedings. Volga region

№ 2 (34), 2015 Технические науки. Информатика, вычислительная техника

|x -ц|< 2а = 0,95, (7)

lx-|i|< 3а = 0,997. (8)

Выражение |x — ц| является естественной мерой расстояния от x к среднему значению. Оно называется одномерным расстоянием Малаханобиса, измеряется в единицах стандартного отклонения и аналитически выражается следующим образом:

r =

\x — М-|

?

а

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(9)

где r - одномерное расстояние Малаханобиса.

Одномерное расстояние Махаланобиса - это функция, которая сама по себе является моделью линейного классификатора [7, 8]. Предполагается, что присутствующий в речевом сигнале фоновый шум, имеет гауссовский характер, а остальные присутствующие шумы имеют иное распределение. В этом случае соответствующие свойства функций распределения присутствующих в сигнале шумом являются критериями и используются для сегментации «сигнал/пауза» [15].

2. Описание работы алгоритма

На рис. 2 представлена блок-схема разработанного авторами помехоустойчивого адаптивного алгоритма сегментации «сигнал/пауза» речевых сигналов для систем распознавания речи. Алгоритм функционально делится на две части. В первой части (блоки 3-5) реализована адаптивная фильтрация [16]:

- разложение исходного речевого сигнала на ЭМ методом КМДЭМ;

- определение ЭМ с основным шумом;

- непосредственная фильтрация с применением метода НКА.

Во второй части (блоки 6-10) реализована сегментация «сигнал/пауза»:

- определение статических свойств фонового шума первых 200 мс;

- разграничение отчетов «сигнал/пауза» с применением одномерного расстояния Махаланобиса;

- непосредственная сегментация «сигнал/пауза» с учетом физиологического аспекта формирования речевых сигналов.

Рассмотрим подробнее основные этапы работы алгоритма.

Блок 2. В представленном алгоритме ввод речевого сигнала x(n) осуществляется со следующими параметрами: частота дискретизации 8000 Гц, разрядность квантования 16 бит (n - дискретный отсчет времени 0 < n < N, N - количество дискретных отсчетов в сигнале).

Блок 3. В представленном алгоритме метод КМДЭМ реализован со следующими настройками: уровень СКО амплитуды добавляемого белого шума - 0,1 мВ, количество циклов декомпозиции J = 50 (j = 1,2,..., J ). В соответствии с ранее представленными формулами (3), (4), речевой сигнал раскладывается на ЭМ IMFi (n) и остаток r (n).

Блок 4. В основе определения ЭМ с основным шумом лежит физиологический аспект формирования речи первые 200 мс (1600 отсчетов -

Engineering sciences. Computer science, computer engineering and control

87

Известия высших учебных заведений. Поволжский регион

20 фрагментов по 80 отсчетов, при частоте дискретизации 8000 Гц) речевой сигнал содержит лишь только фоновые шумы.

Рис. 2. Блок-схема помехоустойчивого адаптивного алгоритма сегментации «сигнал/пауза» речевых сигналов

88

University proceedings. Volga region

№ 2 (34), 2015 Технические науки. Информатика, вычислительная техника

Определение ЭМ с основным шумом осуществляется с использованием весового энергетического коэффициента, который определяется по следующей формуле:

— -е-

ae,i = ——^, (10)

—i

20

Т ei, s+1

где ei =

s=1

20

- среднее значение энергии первых 20 фрагментов сигнала

ЭМ; —i - значение энергии ЭМ; ае г- - весовой энергетический коэффициент

определения статуса ЭМ; i - номер ЭМ.

Если коэффициент ае г- приближается к минимальному значению, то

соответствующая ЭМ считается модой с основным шумом (содержащей большую часть составляющих шума). Если коэффициент ае г- приближается

к единице, то соответствующая ЭМ считается модой, содержащей полезный сигнал.

Блок 5. После анализа всех ЭМ и определения моды с основным шумом осуществляется непосредственная фильтрация. ЭМ с основным шумом и речевой сигнал обрабатываются с помощью метода НКА, в результате чего выделяются составляющие отфильтрованного речевого сигнала и шума. НКА описывается следующим математическим аппаратом. Имеется набор наблюдаемых векторов - матрица X (в нашем случае это вектор речевого сигнала и ЭМ с основным шумом), которые являются линейными комбинациями независимых компонент - матрица Y (в нашем случае это чистый речевой сигнал и фоновый шум). Модель независимых компонент может быть записана следующим образом:

X = W ■ Y , (11)

где W - матрица весов для перехода из Y в X .

Цель метода независимых компонент состоит в определении матрицы

W

-1

с помощью которой можно будет определить матрицу независимых

компонент Y по формуле

Y = W-1 ■ X .

(12)

Блок 6. Опираясь на физиологический аспект формирования речи первые статические характеристики шума |1 (математическое ожидание) и а (стандартное отклонение) первых 200 мс определяются по формулам [15]:

1

1600

1600

Т[y(n)];

n=1

а =

1600

S0 Т [y( n)-4

1600

(13)

(14)

n=1

где y(n) - речевой сигнал после фильтрации.

2

Engineering sciences. Computer science, computer engineering and control

89

Известия высших учебных заведений. Поволжский регион

Блоки 7-9. После нахождения ц и а первых 200 мс для определения статуса «сигнал/пауза» каждого отсчета речевого сигнала осуществляется вычисление одномерного расстояния Малаханобиса и проверка условия

Н4> 3. (15)

а

Если условие выполняется, то фрагмент соответствует сигналу и наоборот, если не выполняется, то отсчет соответствует паузе.

Блок 10. После определения статуса «сигнал/пауза» всех отсчетов осуществляется фрагментирование речевого сигнала на отрезки по 20 мс (160 отсчетов). Далее определяется статус каждого фрагмента. Для фрагмента сигнала необходимым условием является, чтобы число отсчетов, соответствующих сигналу, было больше или равно половине общего числа отсчетов.

Блок 11. Вывод речевого сигнала без пауз представляет собой суммирование фрагментов сигнала и удаление фрагментов пауз. Далее сигнал без пауз анализируется в соответствии с этапами обработки систем распознавания речи.

3. Исследование алгоритма

В качестве критерия эффективности разработанного алгоритма сегментации «сигнал/пауза» использовался коэффициент действительных обнаружений [15].

Коэффициент действительного обнаружения (Detection rate, DR) - безразмерная величина, равная отношению правильно обнаруженных фрагментов сигнала к общему числу фрагментов:

DRpeech = S--------------------X100%, (16)

Scor.speech ' Sn.cor.speech

где Scor speech - действительный фрагмент сигнала; Sn cor speech - мнимый фрагмент сигнала.

Для исследования алгоритма сформирована тестовая выборка из 50 чистых речевых сигналов, включающая в себя односложные и многосложные словосочетания. К каждому тестовому сигналу добавлялся аддитивный фоновый белый шум. Изменяя уровень шума, для каждого тестового сигнала получили речевые сигналы со значениями SNR от 0 до 25 дБ с шагом 5 дБ.

Результаты исследования оценивались в сравнении с известными методами сегментации, программная реализация которых имеется в открытом доступе STE [3], ZCR [4] и STE+ZCR [5]. В табл. 1 и на рис. 3 представлен сравнительный анализ результатов сегментации.

Как видно из результатов, разработанный алгоритм обеспечивает наилучший результат сегментации (особенно с малыми значениями SNR):

- в среднем на 14,72 % лучше, чем STE;

- в среднем на 14,24 % лучше, чем ZCR;

- в среднем на 10,65 % лучше, чем STE + ZCR.

90

University proceedings. Volga region

№ 2 (34), 2015 Технические науки. Информатика, вычислительная техника

Таблица 1

Результаты сегментации с помощью известных методов и разработанного алгоритма

SNR,дБ DR % ■‘-'■^'-speech? /0

STE ZCR STE+ZCR Разработанный алгоритм

0 36,3 37,1 43,2 63,9

5 41,5 44,9 50,5 67,15

10 57,9 59,3 62,1 70,9

15 66,3 64,6 67,4 73,1

20 68,2 68,3 70,3 75,3

25 71,3 70,2 72,4 79,5

Рис. 3. Результаты сегментации с помощью известных методов и разработанного алгоритма

Заключение

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Разработан и исследован помехоустойчивый адаптивный алгоритм сегментации «сигнал/пауза» для систем распознавания речи. Представлена блок-схема алгоритма с подробным математическим описанием. Приведены результаты исследований в сравнении с известными алгоритмами сегментации «сигнал/пауза» STE, ZCR и STE + ZCR, применяемыми в системах распознания речи. В соответствии с полученными результатами разработанный алгоритм обеспечивает повышение коэффициента действительного обнаружения в среднем на 13 %.

Сравнительный анализ результатов исследований позволяет сделать вывод о том, что разработанный помехоустойчивый адаптивный алгоритм сегментации «сигнал/пауза» может найти практическое применение в системах распознавания речи, используемых в «агрессивной» зашумленной среде.

Список литературы

1. Рабинер, Л. Р. Цифровая обработка речевых сигналов : пер. с англ. / Л. Р. Ра-бинер, Р. В. Шафер. - М. : Радио и связь, 1981. - 496 с.

Engineering sciences. Computer science, computer engineering and control

91

Известия высших учебных заведений. Поволжский регион

2. Чураков, П. П. Изучение методов анализа и обработки сигналов : учеб. пособие : в 2 ч. Ч. 1 : Современные методы обработки речевых сигналов / П. П. Чураков, А. Ю. Тычков, А. К. Алимурадов. - Пенза : Изд-во ПГУ, 2014. - 72 с.

3. Atal, B. A pattern recognition approach to voiced-unvoiced-silence classification with applications to speech recognition / B. Atal, L.R. Rabiner // Acoustics, Speech, and Signal Processing, IEEE Transactions. - 1976. - Vol. 24 (3), Jun. - P. 201-212.

4. Childers, D. G. Silent and Voiced/Unvoied. Mixed Excitation (Four-Way), Classification of Speech / D. G. Childers, M. Hand, J. M. Larar // IEEE Transaction on ASSP. -1989. - Vol. 37 (11), Nov. - P. 1771-1774.

5. Greenwood, M. SUVing: Automatic Silence/ Unvoiced/ Voiced Classification of Speech : Undergraduate Coursework, Department of Computer Science / M. Greenwood, A. Kinghorn. - The University of Sheffield, UK, 1999. - 4 p.

6. Yeh, J.-R. Complementary ensemble empirical mode decomposition: A novel noise enhanced data analysis method / J.-R. Yeh, J.-S. Shieh, N. E. Huang // Advances in Adaptive Data Analysis. - 2010. - Vol. 2 (2). - P. 135-156.

7. Richard, O. D. Pattern Classification / O. D. Richard, E. H. Peter, G. St. David. -A Wiley-interscience publication, John Wiley & Sons, Inc, Second Edition, 2001. -41 p.

8. Hyvarinen, A. Independent component analysis: algorithms and applications / A. Hyvarinen, E. Oja // J. Neural Networks. - 2000. - P. 411-430.

9. Sarma, V. Studies on pattern recognition approach to voiced-unvoiced-silence classification / V. Sarma, D. Venugopal // Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP '78. - 1978. - Vol. 3, Apr. - 4 p.

10. Алимурадов, А. К. Применение преобразования Гильберта-Хуанга в задаче выделения информативных признаков речевых сигналов / А. К. Алимурадов, А. Ю. Тычков // Международный научно-исследовательский журнал. - 2013. -№ 5-1 (12). - С. 57-58.

11. Алимурадов, А. К. Применение комплементарной множественной декомпозиции на эмпирические моды для анализа речевых сигналов / А. К. Алимурадов, Ю. С. Квитка // Измерение. Мониторинг. Управление. Контроль. - 2014. -№ 4 (10). - С. 69-75.

12. Алимурадов, А. К. Адаптивная компенсация помех речевых сигналов с использованием комплементарной множественной декомпозиция на эмпирические моды / А. К. Алимурадов // Молодежь и XXI век - 2015 : материалы V Междунар. молодежной науч. конф. (26-27 февраля 2015 г.) : в 3-х т. / Юго-Зап. гос. ун-т. -Курск : Университетская книга, 2015. - Т. 2. - С. 96-99.

13. Алимурадов, А. К. Адаптивный алгоритм предварительной обработки речевых сигналов для оценки частоты основного тона / А. К. Алимурадов // Проблемы автоматизации и управления в технических системах - 2015 : сб. тр. XXXI Междунар. науч.-техн. конф. (Пенза 19-21 мая 2015 г.). - Пенза : Изд-во ПГУ, 2015. -С. 103-106.

14. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis / N. E. Huang, Shen Zheng, R. L. Steven // Proceedings of the Royal Society of London A. - 1998. -Vol. 454. - P. 903-995.

15. Saha, G. A New Silence Removal and Endpoint Detection Algorithm for Speech and Speaker Recognition Applications / G. Saha, Chakroborty Sandipan, Senapat Suman // Proceedings of the NCC. - 2005, Jan. - 5 p.

16. Алимурадов, А. К. Фильтрация речевых сигналов с использованием метода множественной декомпозиции и оценки энергии эмпирических мод / А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2012. - № 2 (22). - С. 50-61.

92

University proceedings. Volga region

№ 2 (34), 2015 Технические науки. Информатика, вычислительная техника

References

1. Rabiner L. R., Shafer R. V. Tsifrovaya obrabotka rechevykh signalov: per. s angl. [Digital processing of speech signals: transl. from engl.]. Moscow: Radio i svyaz', 1981, 496 p.

2. Churakov P. P., Tychkov A. Yu., Alimuradov A. K. Izuchenie metodov analiza i obrabotki signalov: ucheb. posobie: v 2 ch. Ch. 1: Sovremennye metody obrabotki rechevykh signalov [Study of analysis and signal processing methods: a tutorial in 2 parts: Part 1: Modern methods of speech processing]. Penza: Izd-vo PGU, 2014, 72 sp.

3. Atal B., Rabiner L. R. Acoustics, Speech, and Signal Processing, IEEE Transactions. 1976, vol. 24 (3), Jun, pp. 201-212.

4. Childers D. G., Hand M., Larar J. M. IEEE Transaction on ASSP. 1989, vol. 37 (11), Nov., pp. 1771-1774.

5. Greenwood M., Kinghorn A. SUVing: Automatic Silence/ Unvoiced/ Voiced Classification of Speech : Undergraduate Coursework, Department of Computer Science. The University of Sheffield, UK, 1999, 4 p.

6. Yeh J.-R., Shieh J.-S., Huang N. E. Advances in Adaptive Data Analysis. 2010, vol. 2 (2), pp. 135-156.

7. Richard O. D., Peter E. H., David G. St. Pattern Classification. A Wiley-interscience publication, John Wiley & Sons, Inc, Second Edition, 2001, 41 p.

8. Hyvarinen A., Oja E. J. Neural Networks. 2000, pp. 411-430.

9. Sarma V., Venugopal D. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP ’78. 1978, vol. 3, Apr., 4 p.

10. Alimuradov A. K., Tychkov A. Yu. Mezhdunarodnyy nauchno-issledovatel’skiy zhur-nal [International research journal]. 2013, no. 5-1 (12), pp. 57-58.

11. Alimuradov A. K., Kvitka Yu. S. Izmerenie. Monitoring. Upravlenie. Kontrol’ [Measurement. Monitoring. Management. Control]. 2014, no. 4 (10), pp. 69-75.

12. Alimuradov A. K. Molodezh’ i XXI vek - 2015: materialy VMezhdunar. molodezhnoy nauch. konf. (26-27 fevralya 2015 g.): v 3 t. [The Youth and the XXIth century-2015: proceedings of the Vth International young scientists' conference (February 26-27, 2015), in 3 volumes]. Kursk: Universitetskaya kniga, 2015, vol. 2, pp. 96-99.

13. Alimuradov A. K. Problemy avtomatizatsii i upravleniya v tekhnicheskikh sistemakh -2015: sb. tr. XXXI Mezhdunar. nauch.-tekhn. konf. (Penza 19-21 maya 2015 g.) [Problems of automation and control in technical systems-2015: proceedings of the. XXXIst International scientific and technical conference, Penza, May 19-21, 2015]. Penza: Izd-vo PGU, 2015, pp. 103-106.

14. Huang N. E., Zheng Shen, Steven R. L. Proceedings of the Royal Society of London A. 1998, vol. 454, pp. 903-995.

15. Saha G. A, Chakroborty Sandipan, Senapat Suman. Proceedings of the NCC. 2005, Jan., 5 p.

16. Alimuradov A. K., Churakov P. P., Tychkov A. Yu. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki [University proceedings. Volga region. Engineering sciences]. 2012, no. 2 (22), pp. 50-61.

Алимурадов Алан Казанферович аспирант, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

E-mail: [email protected]

Alimuradov Alan Kazanferovich Postgraduate student, Penza State University (40 Krasnaya street, Penza, Russia)

Engineering sciences. Computer science, computer engineering and control

93

Известия высших учебных заведений. Поволжский регион

Чураков Петр Павлович

доктор технических наук, профессор, кафедра информационно-измерительной техники и метрологии, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40)

E-mail: [email protected]

Churakov Petr Pavlovich Doctor of engineering sciences, professor, sub-department of information-measuring technology and metrology, Penza State University (40 Krasnaya street,

Penza, Russia)

УДК 004.934 Алимурадов, А. К.

Помехоустойчивый адаптивный алгоритм сегментации «сиг-нал/пауза» для систем распознавания речи / А. К. Алимурадов, П. П. Чураков // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2015. - № 2 (34). - С. 82-94.

94

University proceedings. Volga region

i Надоели баннеры? Вы всегда можете отключить рекламу.