Обработка речевых команд в системах голосового управления

Алимурадов Алан Казанферович

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ИЗМЕРЕНИЯХ

УДК 621.391; 519.21

А. К. Алимурадов

ОБРАБОТКА РЕЧЕВЫХ КОМАНД В СИСТЕМАХ ГОЛОСОВОГО УПРАВЛЕНИЯ

A K Alimuradov

PROCESSING OF SPEECH COMMANDS SYSTEMS VOICE CONTROL

Аннотация. Приведен краткий обзор задач обработки речевых команд в системах голосового управления. Подчеркнута необходимость обработки речевых сигналов во всех направлениях речевых технологий. Представлен алгоритм обработки речевых сигналов для систем голосового управления: регистрация, предварительная фильтрация, сегментация на информативные участки, определение информативных параметров. Подробнее раскрыта каждая из задач алгоритма обработки.

Abstract. The article gives a brief overview of the tasks of handling voice commands, in the voice control systems. The article is divided into three parts. In the first part of the article stresses the need for processing of speech signals in all directions of speech technologies. In the second part of the algorithm for processing of speech signals for voice control systems: registration, pre-filtering, segmentation informative sites, definition of informative parameters. In the third part of the more is revealed every task processing algorithm.

Ключевые слова: речевые технологии, обработка речевых сигналов, речевые команды, система голосового управления.

Key words: speech technologies, processing of speech signals, voice commands, voice control system.

Обработка речевых сигналов - это область науки, в которой осуществляются фильтрация и подавление шумов, усиление, разделение информационных потоков, извлечение информации, кодирование, сжатие и восстановление речевых сигналов. Она получила широкое распространение во всех направлениях речевых технологий (рис. 1).

Направление обработки речевых команд в системах голосового управления включает следующие задачи [1]:

- регистрацию;

- предварительную коррекцию;

- фильтрацию и подавление шума;

- сегментацию на фреймы;

сегментацию «сигнал/пауза»; сегментацию «тон/ не тон»; определение информативных параметров.

Рис. 1. Применение речевых технологий в разных направлениях

На рис. 2 представлен алгоритм обработки речевых команд, выполняющий перечисленные выше задачи. Рассмотрим каждую задачу подробнее.

Рис. 2. Алгоритм обработки речевых команд

Регистрация. Регистрация представляет собой аудиозахват речевой команды в режиме реального времени и преобразование ее в цифровой вид с использованием стандартных средств: микрофон, предварительный и основной усилитель, аналого-цифровой преобразователь (АЦП) и др.

Давление звуковой волны воспринимается микрофоном и преобразуется им в электрический аналоговый сигнал. Далее проводится преобразование информационного образа речевой команды из аналогового сигнала в цифровой с использованием АЦП, который осуществляет дискретизацию и квантование [1, 2].

Регистрация речевых сигналов может включать дополнительные возможности:

- автоматическую регулировку усиления и выравнивание уровня ближнего и дальнего пользователя, обеспечивающие качественную запись как слабых, так и сильных речевых сигналов;

- индивидуальную и групповую перенастройку рабочих параметров регистрации и преобразования без прерывания процесса записи;

- увеличение количества каналов записи или типов регистрируемой информации.

Предварительная коррекция. Предварительная коррекция призвана устранить естественные искажения (минус 6 дБ на октаву), возникающие в речевом аппарате человека при произнесении звуков речи [1, 3].

Речевой сигнал пропускают через корректирующий фильтр с передаточной функцией следующего вида:

(1)

к=0

где ак - постоянные коэффициенты; т - целое число (т > 0). Чаще всего т = 1, а передаточная функция имеет вид

-1

Ж (*) = 1 - а12

(2)

Коэффициенты а1 выбираются из диапазона от -0,4 до -1,0, как правило, как можно ближе к -1, так как такой фильтр проще реализуется на ЭВМ с фиксированной точкой. Чаще всего а = -(1 -1/16) = -0,95, откуда Ж (г) = 1 - 0,95г-1 [1, 3].

Предварительная коррекция выравнивает спектр сигнала перед спектральным анализом (рис. 3).

Рис. 3. Выравнивание спектра речевого сигнала

Предварительная коррекция не является обязательной задачей, и во многих системах голосового управления коррекция не предусмотрена, при этом учитываются искажения спектра звука, свойственные человеческому речевому аппарату, на этапе анализа.

Фильтрация. Фильтрация и подавление шума - это этап обработки речевых команд, который позволяет повысить разборчивость, уменьшить долю шумов, вызванных как акустическими, так и технологическими причинами. Шум - беспорядочные колебания различной физической природы, отличающиеся сложностью временной и спектральной структур [4, 5]. Применительно к речевым сигналам шум - это совокупность апериодических звуков различной интенсивности и частоты, которые изменяют информативные параметры сигнала [6].

Шумы по взаимодействию с полезным речевым сигналом делятся на аддитивные и мультипликативные [4, 5]. Аддитивные шумы складываются с полезным сигналом и вносят незначительную погрешность. Мультипликативные шумы перемножаются с полезным сигналом и вносят наибольшую погрешность - могут изменять информативные параметры речевых команд.

В самом общем виде комбинация сигнала и шума выглядит следующим образом:

5 (ґ) = (к0(ґ) + кш (ґ)) • е(ґ) + п(ґ),

(3)

где е(ґ) - полезный речевой сигнал; кс( ґ) - коэффициент, характеризующий полезный речевой сигнал; кш ( ґ) - коэффициент, характеризующий мультипликативный шум; п(ґ) - аддитивный шум.

Отношение интенсивности сигнала 1С и шума 1ш [7, 8]. Это отношение называется «отношение сигнал/помеха» и играет важную роль в задаче фильтрации и шумоподавления. Отношение сигнал/помеха выражается в логарифмических безразмерных единицах - децибелах № дБ):

N = 10ІВI0/ 1П

(4)

где 1с, 1ш - интенсивности сигнала и шума.

На основании анализа достижений в области фильтрации и шумоподавления речевых сигналов [2, 9, 10] и собственных исследований предложена классификация шумов, оказывающих влияние на разборчивость речевых сигналов (см. рис. 4).

Рис. 4. Классификация шумов в речевых сигналах

По происхождению шумы в речевых командах можно разделить на физиологические и антропогенные. К первому виду шумов относятся комплекс звуков различной интенсивности и частоты, находящихся в беспорядочном сочетании с полезными речевыми сигналами.

Происхождение этого вида шумов непосредственно связано с нарушениями речи (нарушение работы отдельных или комплекса органов артикуляционного отдела речевого аппарата). Наука, изучающая нарушения речи, их преодоление и предупреждение средствами коррекционного обучения называется логопедией. К шумам, связанным с нарушением речи, относят большое количество звуков, форма и структура которых напрямую связана с родом нарушения звукопроизношения:

- нарушения темпа и ритма речевых сигналов (брадилалия, тахилалия, спотыкание, заикание);

- нарушения голоса (афонии, дисфонии, ринофония);

- распад речевых сигналов (афазия).

К антропогенным шумам в грубой интерпретации, кроме физиологических, относятся все остальные виды шумов. Название «антропогенный» произошло от связи с человеком, другими словами, это шумы, происходящие от человека и возникшие в результате его деятельности. Их также называют промышленными или производственными шумами [4, 5]. Источниками антропогенных шумов являются транспортные средства: автомобили, железнодорожные поезда и самолеты, промышленные предприятия, строительные и ремонтные работы, бытовая и офисная техника и т.д.

По постоянству параметров все шумы подразделяются на стационарные и нестационарные. Стационарный шум - шум, который характеризуется постоянством средних параметров: интенсивности (мощности), распределения интенсивности по спектру (спектральная плотность), автокорреляционной функции. Классической моделью стационарного шума является белый шум, спектральные составляющие которого равномерно распределены по всему диапазону задействованных частот [4].

Нестационарный шум - шум, длящийся короткие промежутки времени (меньшие, чем время усреднения) [11]. Нестационарные шумы по длительности делятся на импульсные, прерывистые и колеблющиеся. Импульсный шум - шум, состоящий из одного или нескольких звуковых сигналов, длительностью менее 1 с, уровни которых отличаются не менее чем на 7 дБ. Прерывистый шум - шум, уровень которого ступенчато изменяется (примерно на 5 дБ и более), причем длительность интервалов, в течение которых уровень остается постоянным, составляет 1 с и более. Колеблющийся во времени шум - шум, уровень которого непрерывно изменяется во времени [4, 11].

К нестационарным шумам в речевых командах относятся, например, уличный шум проходящего транспорта, отдельные стуки в производственных условиях, редкие импульсные помехи в радиотехнике и т.п.

По характеру спектра шума выделяют широкополосный и узкополосный шумы. Широкополосный шум - шум с непрерывным спектром шириной более 1 октавы, включающий в себя набор многих звуковых частот. Узкополосный (тональный) шум - шум, в котором прослушивается звук определенной частоты [4, 5, 11].

По частотной характеристике шумы подразделяются на низкочастотный (<400 Гц), среднечастотный (400-1000 Гц), высокочастотный (>1000 Гц) [8, 11].

Сегментация. Сегментация в обработке речевых команд - линейное деление речевого потока на составляющие отрезки, называемые сегментами [2, 9, 10]. Речевые сигналы являются нестационарными сигналами сложной формы, параметры и характеристики которых, как правило, быстро меняются в течение времени. Однако в основе большинства методов обработки речи лежит предположение о том, что свойства речевого сигнала с течением времени медленно изменяются. Это предположение приводит к методам кратковременного анализа, в которых сегменты речевого сигнала выделяются и обрабатываются там, как если бы они были короткими участками отдельных звуков с отличающимися свойствами. Для того чтобы получить наборы информативных признаков одинаковой длины, нужно сегментировать речевой сигнал на равные отрезки, называемые фреймами, считая, что сигнал на таком отрезке примерно стационарен (рис. 5,а) [9, 10]. Перекрытие фреймов используется для предотвращения потери информации о сигнале на границе. Чем меньше перекрытие, тем меньшей размерностью в итоге будет обладать набор признаков, характерный для рассматриваемого участка. Перекрытие иногда пропускается по причине экономии вычислительных ресурсов, поскольку он существенно замедляет скорость обработки данных [10, 12].

б)

в)

Рис. 5. Сегментация: а - на фреймы; б - «сигнал/пауза»; в - «тональных/нетональных» участков

Сегментация «сигнал/пауза» представляет собой задачу определения моментов начала и окончания фразы [9, 10]. При наличии шума данная задача является одной из важных в области обработки речевых команд. В частности, при голосовом управлении важно точно определить моменты начала и окончания команды (рис. 5,б).

Сегментация «тональных/нетональных» участков в речевых сигналах является одной из важных задач в обработке [9, 10] (рис. 5,в).

Под тональными участками понимают интервалы времени, в течение которых генерация звуков речи происходит с участием голосового источника. К нетональным участкам относятся интервалы времени, на которых образование звуков речи происходит без участия голосового источника [13].

Наибольшую ценность при анализе речевых команд играют тональные участки. Анализируя их, можно получить достаточную информативную картину как об акустических характеристиках, так и о смысловом значении речевых сигналов. Выделение тональных участков в некоторых случаях может являться главной целью в обработке речевых команд. К таким случаям относят определение важного параметра речи - частоты основного тона говорящего в задаче распознавания и идентификации диктора [14, 15].

Определение информативных параметров. Определение информативных параметров - задача выявления информативных признаков и характеристик речевых сигналов [9, 10]. Основные понятия, характеризующие информативные параметры речи человека, связаны с формой, размерами, динамикой изменения речевого аппарата и описываются эмоциональным состоянием человека.

На основании анализа достижений в области выделения информативных параметров речевых сигналов [16] и собственных исследований [17] все информативные параметры можно разделить на три группы объективных признаков, позволяющих различать речевые образцы:

- спектрально-временные;

- кепстральные;

- амплитудно-частотные.

Первая группа условно подразделяется на спектральные и временные признаки.

Спектральные признаки:

- среднее значение спектра анализируемого речевого сигнала;

- относительное время пребывания сигнала в полосах спектра;

- медианное значение спектра речи в полосах;

- относительная мощность спектра речи в полосах;

- вариация огибающей спектра речи.

Временные признаки:

- длительность сегмента минимальной структурной единицы речи (фонемы, аллофона, дифона, трифона);

- высота сегмента;

- коэффициент формы сегмента.

Спектрально-временные признаки характеризуют речевой сигнал в его физико-математической сущности исходя из наличия компонентов трех видов [9]:

- периодических (тональных) участков звуковой волны;

- непериодических участков звуковой волны (шумовых, взрывных);

- участков, не содержащих речевых пауз.

Спектрально-временные признаки позволяют отражать своеобразие формы временного ряда и спектра голосовых импульсов у разных лиц и особенности фильтрующих функций их речевых трактов, характеризуют особенности речевого потока, связанные с динамикой перестройки артикуляционных органов речи говорящего, и являются интегральными характеристиками речевого потока, отражающими своеобразие взаимосвязи или синхронности движения артикуляционных органов говорящего [10].

Кепстральные признаки:

- мелчастотные кепстральные коэффициенты;

- коэффициенты мощности частоты регистрации;

- коэффициенты спектра линейного предсказания;

- коэффициенты кепстра линейного предсказания.

Большинство современных систем голосового управления сосредотачивают усилия на извлечении частотной характеристики речевого тракта человека, отбрасывая при этом характеристики сигнала возбуждения. Это объяснено тем, что коэффициенты первой модели обеспечивают лучшее разделение звуков. Для отделения сигнала возбуждения от сигнала речевого тракта прибегают к кепстральному анализу [9, 10].

Амплитудно-частотные признаки:

- интенсивность, амплитуда;

- энергия;

- частота основного тона;

- формантные частоты.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Речевой сигнал акустически представляет собой распространяемые в воздушной среде сложные по своей структуре звуковые колебания, которые характеризуются в отношении их частоты (числа колебаний в секунду), интенсивности (амплитуды колебаний) и длительности. Амплитудно-частотные признаки несут необходимую и достаточную информацию для человека по речевому сигналу при минимальном времени восприятия.

Заключение

В общем понимании обработка речевых сигналов - это процесс описания сигналов с последующим преобразованием в требуемую форму для возможности выделения и использования информативного содержания. В данной статье был представлен краткий обзор основных задач обработки, позволяющих выделить и использовать информативное содержание речевых команд в системах голосового управления. Обзор выполнен на основании анализа достижений в области обработки речевых сигналов и собственных исследований с подробными ссылками на источники.

Список литературы

1. Рабинер, Л. Р. Цифровая обработка речевых сигналов / Л. Р. Рабинер, Р. В. Шафер. -М. : Радио и связь, 1981. - 496 с.

2. Сергиенко, А. Б. Цифровая обработка сигналов / А. Б. Сергиенко. - СПб. : Питер, 2002. - 608 с.

3. Кучерявый, А. А. Бортовые информационные системы : курс лекций / А. А. Кучерявый ; под ред. В. А. Мишина, Г. И. Клюева. - 2-е изд., перераб. и доп. - Ульяновск : УлГТУ, 2004. - 504 с.

4. Тэйлор, Р. Шум / Р. Тэйлор ; пер.с англ. Д. И. Арнольда. - М. : Мир, 1978. - 308 с.

5. Отт, Г. Методы подавления шумов и помех в электронных системах / Г. Отт ; пер. с англ. Б. Н. Бронина ; под ред. М. В. Г альперина. - М. : Мир, 1979. - 318 с.

6. Алимурадов, А. К. Фильтрация речевых сигналов с использованием метода множественной декомпозиции и оценки энергии эмпирических мод / А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков // Известия высших учебных заведений. Поволжский регион. Технические науки. - 2012. - № 4. - С. 50-61.

7. Михайлов, Е. В. Помехозащищенность информационно-измерительных систем / Е. В. Михайлов. - М. : Энергия, 1975. - 312 с.

8. Шахов, Э. К. Повышение помехоустойчивости цифровых средств измерения / Э. К. Шахов. - Пенза : ППИ, 1983. - 48 с.

9. Методы автоматического распознавания речи : в 2 кн. : пер. с англ. / Д. Х. Клетт, Дж. А. Барнет, М. И. Бернстейн и др. ; под ред. У. Ли. - М. : Мир, 1983. - Кн. 2. - 392 с.

10. Методы автоматического распознавания речи : в 2 кн. : пер. с англ. / У. А. Ли, Э. П. Нейбург, Т. Б. Мартин и др. ; под ред. У. Ли. - М. : Мир. 1983. - Кн. 1. - 328 с.

11. Дигун, О. Г. Сигналы, помехи, шумы : учеб. пособие / О. Г. Дигун, В. И. Веприков. -Новочеркасск : НГТУ, 1994. - 94 с.

12. Болл, Р. М. Руководство по биометрии / Р. М. Болл, Дж. Х. Коннел, Н. К. Ратха ; пер с англ. Н. Е. Агапова. - М. : Техносфера, 2007. - 352 с.

13. Фролов, А. В. Синтез и распознавание речи. Современные решения / Г. В. Фролов. -М. : Связь, 2003. - 216 с.

14. Алимурадов, А. К. Определение частоты основного тона речевого сигнала с использованием метода множественной декомпозиции на эмпирические моды / А. К. Алимура-дов, П. П. Чураков, А. Ю. Тычков // Модели, системы, сети в экономике, технике, природе и обществе. - 2012. - № 1 (2). - С. 121-126.

15. Алимурадов, А. К. Определение частоты основного тона в задаче идентификации личности по голосу / А. К. Алимурадов // Молодежь и наука: модернизация и инновационное развитие страны : сб. тр. II Междунар. науч.-практ. конф. студентов и молодых ученых. - Пенза, 2012. - С. 399-403.

16. Schuller, B. Recognising realistic emotions and affect in speech: State of the art and lessons learnt from the first challenge / B. Schuller, A. Batliner, S. Steidl, D. Seppi. - Speech Communication, In Press, 2011.

17. Алимурадов, А. К. Выбор оптимального набора информативных параметров речевых сигналов для систем голосового управления / А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков // Измерение. Мониторинг. Управление. Контроль. - 2013. - № 1 (3). -

Пензенский государственный университет E-mail: [email protected]

УДК 621.391; 519.21 Алимурадов, А. К.

Обработка речевых команд в системах голосового управления / А. К. Алимурадов // Измерение. Мониторинг. Управление. Контроль. - 2014. - № 1 (7). - С. 50-57.

С. 16-20.

Алимурадов Алан Казанферович

соискатель, научный сотрудник, студенческий научно-производственный бизнес-инкубатор,

Alimuradov Alan Kazanferovich

applicant, researcher,

student scientific and industrial business-incubator, Penza State University

Обработка речевых команд в системах голосового управления Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Алимурадов Алан Казанферович

Похожие темы научных работ по математике , автор научной работы — Алимурадов Алан Казанферович

PROCESSING OF SPEECH COMMANDS SYSTEMS VOICE CONTROL

Текст научной работы на тему «Обработка речевых команд в системах голосового управления»