Научная статья на тему 'Решение задачи распознавания речевых команд на фоне шумов'

Решение задачи распознавания речевых команд на фоне шумов Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
899
138
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АМПЛИТУДНЫЙ СПЕКТР / РАСПОЗНАВАНИЕ РЕЧИ / АДДИТИВНЫЙ БЕЛЫЙ ГАУССОВСКИЙ ШУМ / ИДЕНТИФИКАЦИЯ / МОДЕЛЬ РЕЧЕВОГО СИГНАЛА / AMPLITUDE SPECTRUM / SPEECH RECOGNITION / ADDITIVE WHITE GAUSSIAN NOISE / IDENTIFICATION / SPEECH SIGNAL MODEL

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Нгуен Чи Тхиен

Рассмотрена задача распознавания речевых команд на фоне шумов. Для улучшения качества распознавания речевых сигналов предложено применить эвристический прием, заключающийся в увеличении значений отсчетов амплитудных спектров речевых сигналов на некоторую константу. Приведены результаты экспериментов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Нгуен Чи Тхиен

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SOLVING THE PROBLEM OF RECOGNITION OF SPEECH COMMANDS ON THE BACKGROUND NOISE

The problem of recognition of speech commands on the background noise is studied. To improve the quality of speech recognition a heuristic technique is proposed, which is to increase the sample values of the amplitude spectra of speech signals by a constant. The results of experiments are reported.

Текст научной работы на тему «Решение задачи распознавания речевых команд на фоне шумов»

УДК 004.934

РЕШЕНИЕ ЗАДАЧИ РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД

НА ФОНЕ ШУМОВ

Ч.Т. Нгуен

Рассмотрена задача распознавания речевых команд на фоне шумов. Для улучшения качества распознавания речевых сигналов предложено применить эвристический прием, заключающийся в увеличении значений отсчетов амплитудных спектров речевых сигналов на некоторую константу. Приведены результаты экспериментов.

Ключевые слова: амплитудный спектр, распознавание речи, аддитивный белый гауссовский шум, идентификация, модель речевого сигнала.

Система распознавания речевых команд, обученная на эталонах речевых сигналов своего диктора, устойчиво распознаёт речевые команды, произнесенные этим диктором. Когда другой диктор тестирует такую систему, результат распознавания часто оказывается неприемлемым. Такой результат объясняется тем, что спектры сигналов чужого диктора сильно отличаются от спектров сигналов своего диктора, на который настроена система. В работе [1] было предложено устранить различие спектров сигналов чужого и своего дикторов путём преобразования спектра речевого сигнала чужого диктора к спектру речевого сигнала своего диктора.

В данной статье рассматривается другая проблема, не затрагивающая задачи устранения различия спектров чужого и своего дикторов. На практике результат распознавания сигналов как своего, так и чужого дикторов дополнительно ухудшается шумом. Обучающие речевые сигналы обычно являются незашумленными, а тестирующие речевые сигналы оказываются зашумленными. Присутствие шума приводит к сильному отклонению спектров тестирующих речевых сигналов от спектров их эталонов в обучающей выборке. Поэтому качество результата распознавания на фоне шумов резко падает.

Для уменьшения отклонений спектров тестирующих зашумленных речевых сигналов от спектров их незашумленных эталонов в обучающей выборке были предложены разные способы [2-4]. Самый популярный подход - это удаление из спектров зашумленных сигналов шумовой составляющей. Такой подход реализован в методе спектрального вычитания (spectral subtraction) [2] и методе фильтрации Вейнера (Weiner filtering) [3]. Недостаток этих методов заключается в том, что перед удалением шума из спектров речевых сигналов должна быть известна априорная информация

о шуме. Сам процесс выявления априорной информации о шуме вызывает трудности. Кроме того, если шум нестационарный, то его удаление сильно искажает спектр исходного сигнала, а в худшем случае нарушает формантную структуру его спектра.

Существует и другой подход. В работе [4] был предложен метод, заключающийся в умножении значений отсчетов амплитудного спектра фрагментов каждого речевого сигнала на весовой параметр. Цель этого метода - подчеркнуть спектральное различие между речевыми и неречевыми (паузы) фрагментами сигнала. Этот метод был предложен для распознавания слитной речи. Для задачи распознавания отдельных речевых команд этот метод не подходит.

Если спектр зашумленного сигнала сильно отличается от спектра незашумленного сигнала, то очевидно, что степень связи таких спектров может оказаться достаточно малой. Для увеличения степени связи в данной работе предлагается увеличивать значения отсчетов амплитудных спектров обоих сигналов на константу.

Таким образом, предлагается решать задачу распознавания речевых команд на фоне шумов в три этапа.

Идентификация. Предположив, что модель речевого сигнала - это последовательность его кратковременных амплитудных спектров, следует оценить их значения для заданного речевого сигнала.

Генерация. Сразу заметим, что на данном этапе, в отличие от [1], не происходит преобразования полученных спектров сигналов чужого диктора к спектрам сигналов своего диктора. Значения отсчетов кратковременных амплитудных спектров речевого сигнала только увеличиваются на константу. Такую модель речевого сигнала назовем моделью с усилением.

Адекватное восприятие. В роли воспринимающего и интерпретирующего устройства выступает система распознавания речевых команд. Эта система теперь обучается с помощью моделей с усилением незашум-ленных речевых сигналов для того, чтобы эксплуатироваться на моделях с усилением зашумленных речевых сигналов. Будем считать, что восприятие речевого сигнала является адекватным, если он правильно распознается системой.

Таким образом, в данной работе изучается только уменьшение влияния шума на качество распознавания сигнала диктора, независимо от того, свой это диктор или чужой.

Рассмотрим этапы решения задачи распознавания сигнала.

Пусть сигнал У = {У1,..., Ут} означает произношение какой-то речевой команды, где Т - целое, положительное. Отсчеты у,, , = 1,...,Т принимают вещественные значения.

Разбиение речевого сигнала на фрагменты. Дискретные отсчеты речевого сигнала обрабатываются фрагментами с определенным периодом Ь. Фрагменты имеют длину N - количество отсчетов речевого сигнала во фрагменте. Формально I -й фрагмент представлен следующим описанием:

у!1 +N- = {У,; ,, £ , £ и + N -1}, 1 £ ,1 £Т - N +1, Ь = ,1+1 - ,1.

ч

Разбиение исходного сигнала на фрагменты основано на представлении о речи как о квазистационарном процессе, поведение которого остается относительно неизменными в течение короткого периода времени. Это позволяет разделить сигнал на порции, в пределах которых можно считать сигнал стационарным [5].

Кратковременный спектр речевого сигнала. Для каждого фрагмента речевого сигнала строится его кратковременный спектр. Спектр включает в себя фазовый и амплитудный спектры. Как и в [1], предполагается, что система распознавания речевых команд использует в качестве признаков последовательность векторов Мел-частотных кепстральных коэффициентов, являющихся результатом дискретного косинусного преобразования от логарифма кратковременного амплитудного спектра речевого сигнала, распределенного по Мел-шкале [6] без фазовой составляющей спектра. Удобно считать последовательность кратковременных амплитудных спектров А = {Аі,А2,Аз,...} моделью речевого сигнала У, где амплитудный

спектр А; представляет собой вектор отсчетов А, = {Ак}. Отсчеты амплитудного спектра определяются дискретным преобразованием Фурье і -ого фрагмента речевого сигнала У:

Для вычисления дискретного преобразования Фурье применяется алгоритм быстрого преобразования Фурье, имеющий максимальную производительность, когда длина последовательности входных данных является степенью 2 [7]. Поэтому число М является степенью 2 с наименьшим

Длина фрагмента N должна выбираться с учётом особенностей решаемой задачи. Большая длина позволяет точнее определить спектр сигнала, но может скрыть имевшие место быстрые изменения. Меньшая длина способствует выявлению изменений сигнала, но спектральные характеристики при этом вычисляются с большими погрешностями. Таким образом, длина фрагмента должна выбираться из компромисса между спектральным и временным разрешениями.

Период Ь обычно выбирается меньше длины фрагмента N. Тогда фрагменты речевого сигнала перекрываются. Это делается для того, чтобы не пропустить существенных изменений, если они происходят на границах фрагментов.

Построение кратковременного спектра сигнала в окне. Разделение речевого сигнала на фрагменты для построения кратковременных спектров эквивалентно умножению отсчетов на единичный коэффициент в окне и на нулевой вне его (прямоугольное окно). Это приводит к нежелательному

Аі X уіі + п-1е

М

т

п=1

показателем:

М = 2 Г1о§2 N1.

искажению спектра сигнала. Для уменьшения подобных искажений применяются окна с плавно спадающими до нуля коэффициентами по направлению к краям окна и сдвиг фрагментов сигнала с перекрытием. В данной работе используется окно Хэмминга. Значения отсчетов в окне Хэмминга определяются по формуле:

w

п

п — 1

0.54 — 0.46соб(2р-------), 1 £ п £ N

N +1

а отсчеты амплитудного спектра определяются по формуле:

.2л,

А*

N —і^А(п—1)(к—1)

X Уі; + п—^пе M

п=1

к=1,..., М. 2

Таким образом, идентифицированная модель речевого сигнала оказывается представленной последовательностью A = (Л^,А2,А3,...}, где

i -й кратковременный спектр представлен своими отсчетами

А1 = (Ak,1 £ к £M/2}.

Степень связи двух амплитудных спектров, А p = (Ap,..., ^/2} и

Ач = (A1q,... ,АМ/2} может выражаться коэффициентом корреляции, т.е.

косинусом угла между двумя векторами отсчетов амплитудных спектров, принимая значения от 1 (полное совпадение спектров) до -1 (полная противоположность) [8]:

г (А p,А q ) =

M/2

X АРА{

п=1

П дП

У

М/2 _М/2

X (АП)2 X (А)2

п=1

п=1

Рассмотрим увеличение значений отсчетов амплитудных спектров на величину а > 0 и получим степень связи «усиленных» спектров:

г (А П, А q ) =

М/2

X (Др + а)(Ап + а)

п=1

М /2 М /2

X (аП + а) X (Ар + аУ

п=1 п=1

Если считать, что величина а неограниченно растет, то разделив числитель и знаменатель на а , получим предельное значение степени связи:

Нш г (А

а

, А ц ) = Нш -

а

М/2

I

п=1

Г Ап Ар Л +1 Г Ап Ад Л +1

а а

V V У

М/2

М/2 Г Ап / 1 Л 2 М/2 Г Ап 1

I р +1 I +1

п=1 а V У п=1 а V У

(М /2)2

= 1

Легко увидеть, что при неограниченном росте величины а степень связи стремится к единице. Это означает, что в общем случае увеличение значений отсчетов амплитудных спектров на ограниченную константу приводит к увеличению степени связи спектров по сравнению с исходной.

Очевидно, что величину а не следует делать слишком большой, т.к. при этом устраняется различие в степени связи между похожими и непохожими спектрами.

В данной работе рассматриваются спектры зашумленного и неза-шумленного сигналов, исходная степень связи которых зависит от уровня шума. В каждом конкретном случае оказывается, что возрастание или убывание величины степень связи спектров двух сигналов, в итоге, зависит не только от значения а, но и от уровня шума. Ниже будет показано, что это отражается на результатах распознавания.

После «усиления» кратковременного амплитудного спектра на величину а > 0 получается новая последовательность амплитудных спектров

а;

к

Ак + а.

А = {А1,А2,А3,...}, где А; = А ,1 < к <М/2}:

Адекватное восприятие. После этапов идентификации и генерации уменьшается влияние шума на спектры сигналов. Тестирующие зашумленные произношения команд могут классифицироваться по незашумлен-ным эталонам речевых команд в обучающей выборке разными способами. В данной работе была построена система распознавания речевых команд на основе скрытых марковских моделей [9] для выполнения этапа адекватного восприятия.

Эксперименты. Были проведены эксперименты на 11 речевых командах из базы данных ТЮ1§118 1.0 [10]. Были использованы 308 речевых сигналов (28 сигналов для каждой команды) в качестве обучающей выборки. На речевых сигналах обучающей выборки построена система распознавания речи с решающим правилом классификации 11 речевых команд. Были использованы 528 речевых сигналов (48 сигналов для каждой команды) для составления тестовой выборки. К этим речевым сигналам был искусственно добавлен аддитивный белый гауссовский шум с отношением сигнал/шум = 3 дБ.

Аддитивный белый гауссовский шум х = {£,1,£2,. .,Хт} представляет собой вектор длины Т, элементами которого являются случайные величины £, распределенные по нормальному закону с матожиданием 0 и

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

,Ут} и значения Я

среднеквадратическим отклонением 1.

Для заданного речевого сигнала У = {У1,...,71) ^ зашумленный речевой сигнал ¥ = {У1,..., Ут} образован по формуле [11]:

я

_ &п г~т / т

У(= у, +10~20 ¡Ц Еу? /1Х2, I=1,...,т.

Ь=1 / /=1

Описанные выше этапы обработки речевого сигнала без усиления значений кратковременных амплитудных спектров назовем схемой без усиления. Тогда обработку сигнала с усилением значений кратковременных амплитудных спектров назовем схемой с усилением. Распознанный класс каждого зашумленного речевого сигнала по каждой схеме сравнивался с его истинным классом. Для каждой схемы была определена частота

2 - 2

правильного распознавания V =-------- егг , где 2 — общее число произне-

сенных речевых команд, 2егг — число ошибочно распознанных.

Такие эксперименты были проведены с разными отношениями сигнал/шум = 3, 6, 9,..., 60 . Результаты экспериментов показаны на рис. 1. Результат распознавания для схемы с усилением (рис. 1) был получен при длине фрагментов речевого сигнала N = 760, где период обработки Ь = N / 4, значение параметра увеличения амплитудного спектра а = 2 .

Я& №

Рис. 1. Зависимость результата распознавания от отношения

сигнал/шум

246

Рис. 1 показывает, что при «усилении» на константу амплитудных спектров сигналов увеличивается их степень связи, что улучшает качество распознавания. Но на это влияет шум. На рис. 1 показано, как влияет шум на качество распознавания при «усилении» спектров сигналов. Если тестирующие сигналы сильно зашумлены (< 45), то при добавлении константы (а = 2) качество распознавания резко улучшается. Если тестирующие сигналы меньше зашумлены, то добавление константы все меньше и меньше влияет на качество распознавания, а при некотором уровне шума (в экспериментах > 45) качество распознавания ухудшается, хотя и не-

существенно (< 1%).

Также показано, что результат распознавания для схемы с усилением зависит от величины а. Было рассмотрено влияние значения а на результат распознавания при фиксированой длине фрагментов N = 760, периоде обработки Ь = N/4 и отношении сигнал/шум = 12. На рис. 2 показаны результаты распознавания для схемы с усилением при значениях а = 0, 0.1,..., 0.5,1,..., 10. Оказалось, что с увеличением значения а частота правильного распознавания сначала быстро растет, а потом даже немного падает. Слишком большую константу добавлять нельзя, потому что это ухудшает качество распознавания.

0.9

| 0.85

X

03

Щ П.8

X

СО

§ °-75

03

О 07

0

1 0.55

ш

Ш 0.Е

1=

03

5 0.55

I—

О

03

0.5

0.45 0.4

01 23456789 10

а

Рис. 2. Зависимость результата распознавания для схемы с усилением от значения а

Наконец, показано, что результат распознавания для схемы с усилением зависит не только от «усиления» амплитудного спектра на величину а, но и от выбора длины фрагментов речевого сигнала N. Было рассмотрено влияние длины фрагментов речевого сигнала N на результат распознавания при фиксированом периоде обработки Ь = N / 4, значении а = 2, отношении сигнал/шум = 12. На рис. 3 показаны результаты

распознавания для схемы с усилением при значениях длины N = 40, 48,..., 80,120,..., 800. Оказалось, что при возрастании N качество

распознавания резко возрастает при небольшой длине фрагмента сигнала, а потом колеблется около некоторого уровня. При значении N = 640 частота правильного распознавания оказалась максимальной среди тестированных значений.

1--------1--------I-------1--------і--------1-------І--------1-------1--------і--------1-------і--------1-------1--------1-------І--------1-------ґ

Ь 0.75 - ...I...-■■■-<.^ ...........:.............................

га .

-¡г - ; ■ : -

0 7 _____I______'.■_1..1.._________I — J___I----1..-^_\.......................I_1.1. — .1_I-

40 80 120 г60 200 240 2В0 320 360 400 ¿140 480 520 560 600 640 В0О 720 760 300

ЛГ

Рис. 3. Зависимость результата распознавания для схемы с усилением от значения N

В работе предложено решение задачи распознавания речевых команд на фоне шумов. Предложенный подход для аддитивного белого гауссовского шума значительно улучшает результат распознавания в случаях существенного шума и незначительно (< 1%) ухудшает результат распознавания в случаях малого шума.

Предложенный подход к распознаванию речевых сигналов основан на параметрической модели, описанной в данной работе на шаге идентификации. Эксперименты показали, что результат распознавания сильно зависит от значений параметров такой модели. Следовательно, необходимо

решать задачу оптимизации параметров для улучшения качества распознавания.

Список литературы

1. Нгуен Ч.Т. Решение задачи распознавания речевых команд // Известия ТулГУ. Технические науки. Вып. 6. Тула: Изд-во ТулГУ, 2013. Ч. 2. С.176-184.

2. Kamath S. A multi-band spectral subtraction method for enhancing speech corrupted by colored noise./ S Kamath, P Loizou // International Conference on Acoustics, Speech and Signal Processing (ICASSP’02), Orlando, USA, 2002. Vol. 4. P. IV-4164.

3. Scalart P. Speech enhancement based on a priori signal to noise estimation./ P Scalart, JV Filho// International Conference on Acoustics, Speech and Signal Processing (ICASSP’96), Atlanta, USA, 1996. Vol. 2. P. 629-632.

4. Hung et al. Enhancing the magnitude spectrum of speech features for robust speech recognition // EURASIP Journal on Advances in Signal Processing, 2012, Issue 1. P. 1-20.

5. Benesty J. Handbook of speech processing. / J. Benesty [et al.] // Springer, 2008. 1159 p.

6. Klautau A. Mel-frequency cepstrum coefficients [Электронный ресурс] // URL: http://www.cic.unb.br/~lamar/te073/Aulas/mfcc.pdf (дата обращения: 10.10.2013).

7. Потемкин В.Г. Справочник по Matlab [Электронный ресурс] // URL: http://www.exponenta.ru/soft/matlab/potemkin/book2 (дата обращения: 16.10.2013).

8. Давыдов А.В. Сигналы и линейные системы. Лекции. [Электронный ресурс] // URL: http://gendocs.ru/v13566/ (дата обращения: 16.10.2013)

9. Аграновский А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М: «Радио с связь», 2004. 162 с.

10. Leonard G., Doddington G. TIDigits [Электронный ресурс] // Linguistic Data Consortium, Philadelphia, 1993. URL: isip.piconepress.com/ projects/ speech/ software/tutorials/production/fundamentals/v1.0/section_02/s02_04 _p01.html (дата обращения: 23.03.2013).

11. Wojcicki K. Add noise to a signal at a prescribed SNR level [Электронный ресурс] // URL: http://www.mathworks.com/matlabcentral/ (дата обращения: 10.10.2013).

Нгуен Чи Тхиен, асп., chithien55@,tsu. tula.ru, Россия, Тула, Тульский государственный университет

SOL VING THE PROBLEM OF RECOGNITION OF SPEECH COMMANDS ON THE BACKGROUND NOISE

C. T. Nguyen

The problem of recognition of speech commands on the background noise is studied. To improve the quality of speech recognition a heuristic technique is proposed, which is to increase the sample values of the amplitude spectra of speech signals by a constant. The results of experiments are reported.

Key words: amplitude spectrum, speech recognition, additive white Gaussian noise, identification, speech signal model.

Nguyen Chi Thien, postgraduate, chithien55@,tsu. tula. ru, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.