Научная статья на тему 'Анализ существующих методов распознавания на инвариантность к фоновым помехам и дикции диктора'

Анализ существующих методов распознавания на инвариантность к фоновым помехам и дикции диктора Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1512
260
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ РЕЧИ / ЗВУКОВОЙ СИГНАЛ / MFCC / SPEECH RECOGNITION / SOUND SIGNAL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Волков Андрей Викторович

Рассматривается алгоритм (MFCC) обработки звукового сигнала перед подачей в систему распознавания речи, описывающий механизм обработки звука человеческим ухом и наиболее часто используемый на практике. Проведем эксперимент с онлайн-сервисом распознавания речи Google Voice Search, использующим MFCC-преобразование и нейронные сети для обработки полученных коэффициентов. Получены выводы о качестве распознавания им речи, а также выделены общие проблемы современных систем распознавания речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Волков Андрей Викторович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EXISTING SPEECH RECOGNITION METHODS ANALYSIS FOR INVARIANCE TO BACKGROUND NOISE AND SPEAKERS ENUNCIATION

This article deals with a sound processing algorithm (MFCC) applying to signal before passing it on a speech regonition system. This algorithm describes the main principles of sound processing immanent to a human ear. An experiment with the Google Voice Search online speech recoginition service has been held. This service uses MFCC-transformations and neural network for processing the obtained coefficients. Conclusions about the quality of speech recognized by the service have been made. In addition, general problems of modern speech recognition systems have been stated.

Текст научной работы на тему «Анализ существующих методов распознавания на инвариантность к фоновым помехам и дикции диктора»

УДК 004.94

АНАЛИЗ СУЩЕСТВУЮЩИХ МЕТОДОВ РАСПОЗНАВАНИЯ НА ИНВАРИАНТНОСТЬ К ФОНОВЫМ ПОМЕХАМ И ДИКЦИИ ДИКТОРА

А.В. Волков

Рассматривается алгоритм (MFCC) обработки звукового сигнала перед подачей в систему распознавания речи, описывающий механизм обработки звука человеческим ухом и наиболее часто используемый на практике. Проведем эксперимент с он-лайн-сервисом распознавания речи Google Voice Search, использующим MFCC-преобразование и нейронные сети для обработки полученных коэффициентов. Получены выводы о качестве распознавания им речи, а также выделены общие проблемы современных систем распознавания речи.

Ключевые слова: распознавание речи, звуковой сигнал, MFCC.

Распознавание речи - одна из самых интересных и сложных задач искусственного интеллекта. Здесь задействованы достижения различных областей: от компьютерной лингвистики до цифровой обработки сигналов.

На сегодняшний день существует достаточно много сервисов и программ, выполняющих различные задачи с распознаванием речи (голосовое управление, голосовой набор текста и т. д.). В идеале все эти системы должны помогать и упрощать выполнение возложенных на них задач. Но результат и работы таких систем не стабильны. Например, если человек с нечеткой речью будет надиктовывать текст или использовать голосовое управление телефоном в метро или на улице, где много фоновых шумов, то ничего хорошего от полученного результата ждать не стоит.

Анализ данных систем даст представление о принципах их работы, существующих недостатках и направлениях по улучшению качества результатов.

Все современные системы распознавания речи основаны на статистических методах, позволяющих использовать мощный аппарат математической статистики и теории вероятностей, что, в свою очередь, существенно повышает качество распознавания.

Основными методами автоматического распознавания речи являются скрытые марковские модели (СММ) и искусственные нейронные сети (ИНС) [1, 2].

В современных системах очень широко используются нейронные сети, т.к. лишены многих ограничений, характерных для гауссовых смесей, и обладают лучшей обобщающей способностью. Кроме того, акустические модели на нейронных сетях более устойчивы к шуму и обладают лучшим быстродействием [3].

Этими методами получают на вход данные для анализа, которые

преобразуются в нужный для нас результат. Естественно, что «сырой» звук - амплитуда колебаний по времени - не самая информативная форма представления акустического сигнала для анализа. Спектр этого сигнала - уже гораздо лучше. Но на практике обычно используется логарифмированный и отмасштабированный спектр, что соответствует закономерностям человеческого слухового восприятия (мел-преобразование).

Чтобы получить спектр исходного сигнала, обычно нарезают звук участками (фреймы) определенной длины с шагом, который позволял бы фреймам на половину пересекаться.

Нарезка на фреймы необходима для представления сигнала в статистически стационарной форме. Обычно размер фрейма равен 20-40 мс, так как если он будет короче, то в нем будет недостаточно информации для качественного анализа, если больше, то сигнал изменяется слишком сильно и качество опять пострадает.

Для каждого фрейма используют дискретное преобразование Фурье:

- ]-2-р-к■п

1 N-1 -

X(к) = - I х(п) ■ е N ,

Nn=0

где к = 1 ... N-1; N - число отсчёта фрейма х(п).

Теперь полученные результаты располагают на мел-шкале (рис. 1). Перевод из шкалы в герцах в шкалу мелов и обратно происходит по следующим формулам:

М (/) = 1125 ■ 1п(1 );

700

т

М-1(т) = 700(е125 -1),

где М- частота, мел;/- частота, Гц.

Шкала, Гц

Рис. 1. Мел-шкала

Далее находится спектральная плотность мощности получившегося сигнала:

1 I |2

Р(к) = — X (к )2.

N 1

и применяется банк фильтров (рис. 2).

Рис. 2. Банк фильтров

Вначале задаются количество фильтров Р, а также начальная (/) и конечная (/е) частоты. Далее они переводятся в мелы (/т8 и /те). Получившийся отрезок разбивается на Р+1 равных непересекающихся подот-резков, находятся их центры и переводятся в герцы:

Ст; ^т& + ^

: /тз + /те

; С, = М ~\ст,),

Р +1 - ^ -ч

где = 1 ... Р+1.

Получившиеся центры переводятся из герц в номера отсчетов, и каждый отсчет умножается на соответствующий фильтр:

ч М^ N / (т) = — С1; М = —, р •> 2

где р - частота дискретизации исходного сигнала;

М

X, = I / • Н, (к);

к=1

[0, к < /(т -1); к - /(т -1)

Нт (к) =

/(т) - /(т -1) /(т +1) - к

/ (т +1) - / (т) 0, к > /(т +1).

, /(т -1) < к < /(т); , /(т) < к < /(т +1);

В результате получаем некоторый набор коэффициентов. На последнем шаге возводим их в квадрат и логарифмируем. Это мотивировано тем, что наш слух воспринимает громкость не в линейном масштабе, и операция необходима для приближения данных к человеческому восприятию. Далее полученные величины подвергаются дискретному косинусному преобразованию (DCT), и в результате получается MFCC - Mel Frequency Cepstral Coefficients, которые и подаются на вход моделей [4].

Такие системы довольно качественно выполняют свою работу, но в большинстве своем они рассчитаны для работы в помещениях без сильных шумов, дикторами с четкой речью, качественным микрофоном и достаточно мощным компьютером для обработки сигналов. Для примера рассмотрим работу Google Voice Search. На языке C# была написана программа, которая делает POST-запрос на адрес www.google.com/speech-api/v1/recognize со звуковыми данными в формате FLAC. Данный сервис, получая запрос, обрабатывает сигнал с помощью мel-преобразования, далее полученные коэффициенты поступают в нейронную сеть, которая, обрабатывая их, выдает нам результат.

Попробуем распознать цифру 1. Для этого с помощью программы GoldWave запишем звук и сохраним в нужном нам формате. На рис. 3 представлена его осциллограмма.

Рис. 3. Осциллограмма цифры 1

И с помощью написанной программы отправляем данные на обработку. В результате получаем ответ: С^аШв"^,'^": "",'Ъуро1;Ье8е8":[{"и1;1егапсе": "1", "сопШепсе":0.59936875}]}. Слово распознано с вероятностью 60 %. Если продолжить экспериментировать с другими словами, вероятность совпадения не превысит 70 %. Но слова распознаются точно. Если продиктовать фразу, она тоже распознается качественно, примерно в том же диапазоне вероятностей.

Теперь усложним задачу и создадим помехи. Для этого возьмем диктофон, запишем на него слово, а уже с него будем записывать данные для передачи на сервис. В результате на записи появился шум. Его осциллограмма представлена на рис. 4, а.

И данный сервис уже не справляется с поставленной задачей

14

{"в1а1;и8":5,"1ё":"",,Ъуро1;Ье8е8":[]}.

Пробуем теперь передать данные с не совсем четкой дикцией. На рис. 4, б видно отличие от осциллограммы на рис. 3.

б

Рис. 4. Осциллограмма цифры 1: а - с шумом; б - с искажениями

И снова неудача.

Если передать для распознания довольно большое предложение, то качество значительно уменьшается.

Следовательно, на данном этапе, сколько бы методов и алгоритмов не существовало, практически все из них способны работать в условиях с минимумом помех, четкой речью диктора и сравнительно небольшими предложениями. Для уменьшения влияния шумов можно на стадии получения сигнала использовать фильтры (вейвлет фильтры), что, в свою очередь, увеличит время распознавания. Проблему с дефектами в речи диктора можно решить использованием дикторозависимых систем. Если рассматривать дикторозависимые системы, то на стадии обучения система подстраивается под особенности речи диктора и в момент распознавания можно по ряду признаков выделить речь диктора из шумов, помех, что увеличит вероятность получения правильного результата.

На основе вышесказанного можно сделать вывод о том, что с использованием систем распознавания речи сделан очень большой шаг вперед, но эти системы не идеальны. Не решены проблемы фильтрации шумов, четкости речи, распознавания больших объемов информации и т. п. И задача создания качественно работающей системы, способной подстраиваться под разные условия и различных дикторов, на данный момент не

утратила своей актуальности.

Список литературы

1. Маковкин К. А. Гибридные модели: скрытые марковские модели и нейронные сети, их применение в системах распознавания речи // Модели, методы, алгоритмы и архитектуры систем распознавания речи. М.: Изд-во «Вычислительный центр им. А. А. Дородницына РАН», 2006.

2. Гефке Д. А., Зацепин П.М. Применение скрытых марковских моделей для распознавания звуковых последовательностей // Известия Алтай. гос. ун-та. Барнаул, 2012.

3. Geoffrey Hinton, Li Deng, Dong Yu, George Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew Senior, Vincent Vanhoucke, Patrick Nguyen, Tara Sainath, and Brian Kingsbury Deep Neural Networks for Acoustic Modeling in Speech Recognition - IEEE, SIGNAL PROCESSING MAGAZINE, 2012.

4. Preeti Saini, Parneet Kaur Automatic Speech Recognition: A Review -International Journal of Engineering Trends and Technology - Volume4Issue2, 2013.

Волков Андрей Викторович, асп., [email protected], Россия, Тула, Тульский государственный университет

EXISTING SPEECH RECOGNITION METHODS ANALYSIS FOR INVARIANCE TO BACKGROUND NOISE AND SPEAKER'S ENUNCIATION

A.V. Volkov

This article deals with a sound processing algorithm (MFCC) applying to signal before passing it on a speech regonition system. This algorithm describes the main principles of sound processing immanent to a human ear. An experiment with the Google Voice Search online speech recoginition service has been held. This service uses MFCC-transformations and neural network for processing the obtained coefficients. Conclusions about the quality of speech recognized by the service have been made. In addition, general problems of modern speech recognition systems have been stated.

Key words: speech recognition, sound signal, MFCC.

Volkov Andrey Viktorovich, postgraduate, vav1990@mail. ru, Russia, Tula, Tula State University.

i Надоели баннеры? Вы всегда можете отключить рекламу.