УДК 621.391
О КОМПЬЮТЕРНОЙ ОЧИСТКЕ РЕЧИ ОТ ШУМОВ С ПРИМЕНЕНИЕМ ФИЛЬТРУЮЩЕЙ СУБПОЛОСНОЙ МАТРИЦЫ
А.В. КУРЛОВ А.С. БЕЛОВ А.В. ЭСАУЛЕНКО СЛ. БАБАРИНОВ
В статье рассматривается метод обработки речевых данных, позволяющий повысить разборчивость записанных речевых сигналов при их воспроизведении за счет очистки от шума. Проведено компьютерное моделирование предлагаемого метода с целью проверки его работоспособности.
Белгородский
государственный
университет
Ключевые слова: речевые сообщения, субполосная матрица, фильтрация, частотные интервалы, шум.
e-mail: belov_AS@bsu.edu.ru
Широкое использование речевых сообщений человеком в качестве формы обмена информацией является неотъемлемой частью современных тенденции развития информационного обмена. Для человека речевые сообщения являются одной из наиболее часто используемых естественных форм информационного обмена. Кроме непосредственного обмена речевыми сообщениями в настоящее время существенное значение приобрели технологии, обеспечивающие речевой информационный обмен на расстоянии, включая создание хранилищ речевых данных различного назначения: фонотеки, голосовая почта, аудиозаписи видеоконференций, записи лекционных курсов.
В процессе записи речевые данные подвержены влиянию внешних воздействий. Примером таких воздействий являются шумы, которые появляются вследствие неидеальности записывающей аппаратуры, собственных шумов микрофонов, внешней шумовой обстановки, различных электромагнитных наводок. Эти факторы вносят искажения в речевой сигнал, что приводит к ухудшению разборчивости человеком речевых сообщений при их воспроизведении.
В связи с этим, в области цифровой обработки речевых сигналов особое внимание уделяется задачам, связанным с шумоочисткой и повышением разборчивости речевых сообщений, что позволяет говорить об актуальности исследований в данной области [1].
В основе применяемого в статье метода очистки речи от шумов используется тот факт, что энергия звуков речи сосредоточенна в малом количестве частотных интервалах. Поэтому для решения задачи определения информационных частотных интервалов, где сосредоточенна подавляющая доля энергий, в работе, используется представлением:
РгЫ (х) = ХЫ ЛгМХЫ '
где ЛгЫ = субполосная матрица с элементами вида:
(1)
sin [i , (i - k)]- sin [i , -1(i - k)]
n(i - k)
, i Ф k
i = k
I п
границы частотных интервалов Vr = п, V0 = 0; г = 1,...,R.
ХЫ = (хг,...,хЫ)т - вектор значений анализируемых отчетов отрезка обрабатываемого
входного речевого сигнала, которые соответствуют значениям аргумента Ш, т.е. х{ = x(iДt), i,k = 1,...,N; N - значение длительности обрабатываемого отрезка речевого сигнала; Уг_х, Уг - границы частотного интервала. Ось частот в диапазоне от о до п разбивается на ^ ^^^^^^^^^^ ^^^^^^^^^ ^данаковой ширины, равной п / R . В каждом частотном интервале определяются значения долей энергий. Для ускорения вычислений долей энергии для обрабатываемого отрезка речевого сигнала в заданных частотных интервалах используется выражением
Ры =Е ¿ш (аЫ )2> k = 1,.., N Г = 1,.., R, (3)
к=1
где ЛгкЫ - собственные числа субполосной матрицы АЫ, агш - скалярные произведения анализируемого вектора и соответствующего ортогонального собственного вектора агш = (чкы, Хы )> ¿шЧкы = Ат4ш, к = 1,.., Ы;г = 1,.., Я. Количество элементов в выражении (з) определяется из условия
(4)
V - V J = V V-1 • N
L п
где, N - длительность анализируемого отрезка речевого сигнала. Выражение вида [2]
Kr = fNRR / R (5)
позволяет оценить характеристику сосредоточенности энергии звуков русской речи в малом количестве достаточно узких частотных интервалах, где fNR - минимальное
количество частотных интервалов (частотная концентрация), в которых сосредоточена заданная доля энергии анализируемого отрезка речевого сигнала.
fZ = min dNR. (6)
Для правых частей выполняется неравенство
d'NR n
Е P(.r) N ^ mW*N II2 = mZ x2' (7)
r=1 i=1
Здесь m - задаваемая доля общей энергии, которая должна быть сосредоточена в указанном минимальном количестве частотных интервалов. PrN - упорядоченные по убыванию доли энергий
P(r)N *{PrN ,r = l,.., R}; P( r+\) N < P(r) N ,r = U, R, (8)
Было установлено, что для отрезков сигнала, содержащего звуки речи выполняется неравенство
wNR=fNmm / R < 0,5, (9)
а для отрезков сигнала, порожденными только шумами
wNr = fNR / R > 0,7. (io)
Данное свойство звуков русской речи, использовано для построения процедуры определения информационных и не информационных частотных компонент.
Под информационными компонентами будем понимать компоненты, попадающие в частотные интервалы, сумма долей энергий которых составляет 0,92 от общей доли энергии содержащейся во всех частотных интервалах. Остальные компоненты, не входящие в эту сумму будем считать неинформационными. Очевидно, что эти компоненты будут обладать малой энергией и вследствие чего могут быть отнесены к шумовым.
Далее, на основании выражения (з) вычисляются доли энергии для каждого частотного интервала, затем упорядочиваются по убыванию (8). При этом запоминаются номера частотных интервалов. Частотные интервалы, сумма долей энергий которых составляет значение т=о.92, принимаются за информационные, а частотные интервалы, не входящие в эту сумму долей энергий, принимаются за неинформационные.
Таким образом, получаем номера частотных интервалов r е R1, которые относятся к информационным.
Процедура фильтрации осуществляется в соответствии с принципом минимизации погрешности приближения к идеальному случаю:
) f X (m),mefi r Y(m) = ln ^n ' (11)
[0,® £ nr
n r = [-Vr ,-Vr-i) ^ [Vr-i,Vr). (12)
— f \X (m) - Y (m)|2 dm+ — f \Y (m)|2 da = min, (13)
где X(m) - трансформанта Фурье исходного сигнала, Y(m) - трансформанта Фурье отфильтрованного сигнала.
Таким образом, фильтрация информационных частотных интервалов определяется выражением:
XN = ^ ArN ' XN > (14)
reRi
где xN - вектор значений выходного отфильтрованного речевого сигнала, xN - вектор значений анализируемого речевого сигнала, r - информационные частотные интервалы, ArN - фильтрующая субполосная матрица с элементами вида (2) с информационными частотными интервалами r е R1.
Для проверки работоспособности предложенного алгоритма было проведено компьютерное моделирование.
В качестве речевых сигналов были взяты отрезки, порождаемые звуками «а», «о», «ч», «ш», вырезанные из исходного анализируемого фрагмента сигнала с частотой дискретизации 8ооо Гц и разрядностью 16 бит. Звуки выбирались исходя из того, что бы у одних (а, о) подавляющая доля энергии была сосредоточена в низкочастотной области, а у других (ч, ш) в высокочастотной.
Зашумление фрагментов речевого сигнала проводилось по формуле:
Uk = Xk +zk, (15)
где ик - затмленный сигнал, Хк - исходный си гнал, ак = с Пк~ выборка из
I у X 2
нормального распределения, с = ц ——— , а ц - определяет отношение шум/сигнал
КУп
задаваемое в разах, к = 1,..., N. В данной работе были выбраны параметры моделирования q=o.з, N=60. R=10.
Далее к зашумленным отрезкам речевого сигнала применялась процедура, определяемая выражением (14). Используя представление (3), были получены распределения долей энергии по частотным интервалам для каждого звука. Результаты моделирования представлены на рис. 1-6.
Рис. 1. Распределение долей энергии по частотным интервалам: а) соответствующие исходному звуку «а»; б) звуку «о»
Р 0-7 г
Р 0.7
Р
—ф-Ф-Ф-'Т
10
а)
б)
Рис. 2. Распределение долей энергии по частотным интервалам: а) соответствующие исходному звуку «ч»; б) звуку «ш»
Р
0.35 -
0.3 -
0.25 -
0.2 -
0.15 -
0.1 -
0.05 -
о — 1
а)
б)
10 II
Рис. 3. Распределение долей энергии по частотным интервалам: а) соответствующие зашумленному звуку «а»; б) после процедуры фильтрации
—Ф-ф-ф-ф—
а) б)
Рис. 4. Распределение долей энергии по частотным интервалам: а) соответствующие зашумленному звуку «о»; б) после процедуры фильтрации
р
а)
б)
Рис. 5. Распределение долей энергии по частотным интервалам: а) соответствующие зашумленному звуку «ч»; б) после процедуры фильтрации
Р 0.7 г
а)
10 К
р 0.7
-
4 5
б)
Рис. 6. Распределение долей энергии по частотным интервалам: а) соответствующие зашумленному звуку «ш»; б) после процедуры фильтрации
9 10 II
Серия История. Политология. Экономика. Информатика. 2011. № 1 (96). Выпуск 17/1
Анализ результатов моделирования показывает, что с помощью предложенных процедур фильтрации удается в значительной степени снизить уровень частотных компонент, обладающих малой энергией. Причем эффект фильтрации достигается не зависимо от частотного диапазона, в котором сосредоточены информационные компоненты, будь то низкочастотная (рисунок з б, 4 б) или высокочастотная (рисунок 5 б, 6 б) области, что позволяет говорить об адекватности использования предлагаемого метода в задаче очистки речевых сигналов от шумов.
Необходимо отметить, что частотные компоненты полезного сигнала, определенные как информационные, остаются без изменения, в то время как неинформационные путем избирательного воздействия подавляются, благодаря чему удается в значительной степени снизить уровень шумов в речевом сигнале.
Работа выполнена при финансовой поддержке РФФИ (проект № 10-07-00326-а).
Литература
1. Чучупал В.Я. Цифровая обработка зашумленных речевых сигналов [Текст] / В.Я. Чу-чупал, А.С. Чичагов, К.АМаковкин. - Вычислительный центр РАН, М.1998г. - 52 с.
2. Жиляков Е.Г. Вариационные методы анализа и построения функций по эмпирическим данным: монография. Белгород: Изд-во БелГУ, 2007. - 160 с.
3. Жиляков Е.Г. Вариационные методы анализа сигналов на основе частотных представлений [Текст]/ Е.Г. Жиляков, С.П. Белов, А.А. Черноморец. - «Вопросы радиоэлектроники», сер. ЭВТ, 2010, вып. 1. - С. 10-25.
OF COMPUTER CLEANING OF SPEECH FROM NOISE USING FILTERS SUBSTRIP MATRIX
A.V. KURLOV AS. BELOV A.V. ESAULENKO S.L. BABARINOV
Belgorod State University
e-mail: Kurlov@bsu.edu.ru e-mail: belov_AS @bsu.edu.ru
The article discusses a method of processing voice data, which increases the intelligibility of recorded speech signals when they are playing through the removal of noise. A computer simulation of the proposed method to test its efficiency.
Key words voice messages, substrip matrix, filtering, frequency intervals, noise.