Научная статья на тему 'Оценка речевой маски модифицированным методом спектрального вычитания'

Оценка речевой маски модифицированным методом спектрального вычитания Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
183
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВАЯ МАСКА / SPEECH MASK / СПЕКТРАЛЬНОЕ ВЫЧИТАНИЕ / SPECTRAL SUBTRACTION / ОТНОШЕНИЕ СИГНАЛ-ШУМ / SIGNAL TO NOISE RATIO

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кручок Д. Н.

В статье рассмотрена оценка речевой маски зашумленного сигнала, для задачи идентификации диктора. В качестве метода оценки используется модифицированный алгоритм спектрального вычитания. Спектр сигнала получается с помощью слухового банка фильтров в шкале Мел. Оценка маски выполняется путём сравнения отношения сигнал-шум частотно-временных компонент с пороговым значением.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кручок Д. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article considers the estimation of the speech mask of a noisy signal for the task of speaker identification. As a method of estimation, a modified algorithm of spectral subtraction is used. The spectrum of the signal is obtained with the aid of an auditory filter bank in the Mel scale. Evaluation of the mask is performed by comparing the signal-to-noise ratio of the time-frequency components with the threshold value.

Текст научной работы на тему «Оценка речевой маски модифицированным методом спектрального вычитания»

определяеющий точки переключения оптимального управления.

Список литературы

1. Дубинин В., Борохова Н.В., Пашков А.В., Ремизов А.В. Плоская статика. Варианты курсового задания. - Москва, 2015. - 48 с.

2. Калмыков В.Н., Волков П.В., Мещеряков Э.Ю. Разработка интегрированных технологических схем интенсивного освоения запасов приграничных зон карьеров // Комбинированная геотехнология: комплексное освоение и сохранение недр земли материалы международной научно-технической конференции: сборник трудов. 2009. С. 31-33.

3. Палеев Д.Ю., Лукашов О.Ю. Программа расчета вентиляционных режимов в шахтах и рудниках // Горная промышленность. 2007. № 6 (76). С. 20-23.

4. Тимирязев В.А., Хостикоев М.З., Дудко С.В., Таиров И.Е., Вэй Пью Маунг Эффективность комплексной технологии изготовления деталей сложной геометрии на современных многоцелевых станках // Технология машиностроения. 2014. № 11. С. 11-15.

5. Федорчук Ю.М. Азработка способов вовлечения сульфаткальциевых отходов фтороводородных производств в круговорот промышленного использования // Международный журнал прикладных и фундаментальных исследований. 2013. № 11-2. С. 151155.

6. Хостикоев М.З. Управление геометрией инструмента в процессе обработки // Горный информационно-аналитический бюллетень (научно-технический журнал). 2011. № 4. С. 319-321.

Кручок Д.Н.

ОЦЕНКА РЕЧЕВОЙ МАСКИ МОДИФИЦИРОВАННЫМ МЕТОДОМ СПЕКТРАЛЬНОГО ВЫЧИТАНИЯ

Белорусский государственный университет информатики и радиоэлектроники

Ключевые слова: речевая маска, спектральное вычитание, отношение сигнал-шум.

Аннотация: В статье рассмотрена оценка речевой маски зашумленного сигнала, для задачи идентификации диктора. В качестве метода оценки используется модифицированный алгоритм спектрального вычитания. Спектр сигнала получается с помощью слухового банка фильтров в шкале Мел. Оценка маски выполняется

путём сравнения отношения сигнал-шум частотно-временных компонент с пороговым значением.

Keywords: speech mask, spectral subtraction, signal to noise ratio.

Abstract: The article considers the estimation of the speech mask of a noisy signal for the task of speaker identification. As a method of estimation, a modified algorithm of spectral subtraction is used. The spectrum of the signal is obtained with the aid of an auditory filter bank in the Mel scale. Evaluation of the mask is performed by comparing the signal-to-noise ratio of the time-frequency components with the threshold value.

Речевая маска - маска, которая применяется для маркировки сигнала каждого компонента во временно-частотной области по наличию шума (тишины) или речи [1]. Разметка данным образом зашумленного сигнала, позволит из него восстановить предполагаемый «чистый» речевой сигнал и проводить с ним дальнейшие преобразования, согласно требуемой цели. Для задачи идентификации диктора в акустических шумах, реконструированный «чистый» сигнал можно использовать для получения характеристического вектора.

Пусть имеется дискретный зашумлённый сигнал x[t]. На рисунке 1 представлена схема получения спектрограммы этого сигнала. Сигнал разбивается на сегменты (фреймы или кадры) с перекрытием, каждый кадр умножается на оконную функцию, для сглаживания крайних значений сегмента. Далее получают амплитуды сигнала в частотной области с помощью преобразования Фурье, пропускают их через банк фильтров в шкале Мел, и полученные значения будут представлять собой энергию сигнала, разбитого по частотным полосам. Для определённости установим следующие параметры:

- длина кадра - 25 мс;

- длина перекрытия - 15 мс;

- оконная функция - окно Хэмминга;

- количество фильтров в банке - 30.

Значения спектральной плотности мощности Sp[n, fc]

J-

Значения спектрограммы 5"[тг,/с] — 10 - logi0 (5р[тг, /с]}

Рисунок 1 - Схема получения спектрограммы сигнала (п- номер кадра;

Л-номер фильтра)

Полученные спектрограммы представлены на рисунке 2. Содержание используемого речевого выражения: «штурман просил продолжать разворот». Частота дискретизации 16 кГц. Тип используемого шума - babble. Уровень зашумления минус 5дБ.

Рисунок 2 - Спектрограммы сигнала. «Чистый» речевой сигнал (слева) и зашумлённый (справа)

В данном случае, когда есть априорная информация о сигнале, можно получить «идеальную» речевую маску: сравнить значение отношения сигнал-шум (БЫК) для каждого временно-частотного компонента с пороговым значением и сделать вывод о надёжности/ненадёжности данного компонента. Для этого из спектрограмм чистого (заранее известного) Б и зашумленного X сигналов получаем спектральные плотности мощности Бр и Хр. Далее вычисляем СПМ шума, по формуле [2]:

Np = Xp - Sp

(1)

Вывод о надёжности/ненадёжности для каждого компонента считается по формуле БЫК:

SNRn, к ] = 10-1 og10 (Sp[n, к ] / Np[n, к ])

1, если SNR[n,к] >6, 0, в противном случае

m[n, к ] =

(2)

где, в- порог в дБ, обычно ве[-3 дБ;3 дБ]. Полученная «идеальная» маска представлена на рисунке 3.

"Штурман просил продолжать разворот" Порог для речевой маски - 0 дБ

50 100 150 200

Номер кадра

Рисунок 3 - «Идеальная» речевая маска

Как видно из рисунков 2 и 3 значения спектральной маски, равные единице, соответствуют спектрограмме «чистого» сигнала. Полученная маска используется для разделения зашумленного сигнала на надёжные и ненадёжные данные:

Хг[п, к ] = Х[п, к ] • т[п, к ] (4)

ХгЦп, к ] = Х[п, к ] — Хт\п, к ] (5)

где, Хг и Хи- надежный и ненадежный сигнал соответственно.

Однако, на практике, для получения спектральной маски, нет заранее известного чистого речевого сигнала, или наоборот только сигнала шума. Поэтому эти маски оценивают с помощью различных методик. Подходы в оценке речевой маски делятся на:

- методы, основанные на оценке SNR;

- методы, основанные на слуховом восприятии;

- методы, основанные на классификации параметров оценивания.

Один из методов оценивания маски, использующих

БЫК, заключается в том, как рассчитывается шумовая составляющая сигнала - метод спектрального вычитания. За шумовой сигнал принимаются первые несколько фреймов тишины или шума. По этим первым нескольким фреймам считается СПМ шума [2,3]:

1

Tnoise

Мр[к ]

Tnoise

X т, к ]

(6)

г=1

где, Tnoise - количество первых кадров тишины/шума. Тогда предполагаемый спектр «чистого» сигнала можно получить по формуле [3]:

где, а - масштабирующий параметр, определяющий степень уменьшения спектрального максимума шума; р - параметр, определяющий спектральный минимум шума.

Формула (7) представляет собой модифицированный метод спектрального вычитания: с помощью параметров а и р - можно регулировать степень удаления спектральных пиков, а также заполнять области минимума, ограничивая нижний порог [3].

Для каждого сегмента, оценка спектра мощности будет пересчитываться только в тех кадрах, где нет речи. И с каждым новым кадром шума/тишины его спектр будет рассчитываться методом экспоненциального усреднения [3]:

Детектор активности речи работает по принципу оценки отношения сигнал-шум для каждого рассматриваемого кадра и сравнения его с пороговым значением БЫК [4-6].

На рисунке 4 представлены результаты получения маски по зашумленному сигналу. Оценка речевой активности показана синей линией. Значения используемых параметров:

- Пороговое значение БЫК для детектора речи 1,1 дБ.

- а = 1,5; р = 0,002; у = 0,9;

- Пороговое значение для построения маски в = 0 дБ.

Хр[п, к] -а- Лр[к], если Хр[п, к ] -а- Йр[к ] > рЛр[к], Р■ Лр[к], в противном случае,

(7)

Мр [п, к ] = Мр [п, к] ■/ + (1 -у) ■ Хр[п, к ]

(8)

Рисунок 4 - Результат оценки речевой маски модифицированным методом спектрального вычитания

Таким образом, полученный восстановленный сигнал Sp можно использовать для дальнейшей идентификации диктора: использовать его в качестве характеристического вектора, или применить кепстральный анализ.

Список литературы 1. Togneri R., Pullella D. An Overview of Speaker Identification Accuracy and robustness Issues // IEEE Circuits and systems magazine. 2011. P. 23-58.

2. Boll S. Suppression of acoustic noise in speech using spectral subtraction // IEEE Trans. Acoust. Speech Signal Process., vol. 27, no. 2, p. 113-120, 1979.

3. Петровский А.А., Вашкевич М.И., Азаров И.С. Цифровая обработка аудио- и видеоданных: пособие. - Минск: БГУИР, 2017. -64 с.

4. Рюмкин В.И. Распознавание многомерных объектов при помощи процедуры функционального шкалирования // Обозрение прикладной и промышленной математики. 2005. Т. 12. № 4. С. 10741075.

5. Санников В.Г., Максимов М.И. Регуляризирующий алгоритм восстановления речевого сообщения методом реконструктивной томографии // Электросвязь. 2007. № 10. С. 52-55.

6. Старожилова О.В. Распознавание изображений по текстурам программными методами // Перспективы развития науки и образования сборник научных трудов по материалам Международной научно-практической конференции: в 13 частях. 2015. С. 138-141.

i Надоели баннеры? Вы всегда можете отключить рекламу.