Выбор оптимального набора информативных параметров речевых сигналов для систем голосового управления

Алимурадов Алан Казанферович; Чураков Петр Павлович; Тычков Александр Юрьевич

УДК 621.391; 519.21

А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков

ВЫБОР ОПТИМАЛЬНОГО НАБОРА ИНФОРМАТИВНЫХ ПАРАМЕТРОВ РЕЧЕВЫХ СИГНАЛОВ ДЛЯ СИСТЕМ ГОЛОСОВОГО УПРАВЛЕНИЯ

A. K. Alimuradov, P. P. Churakov, A. Yu. Tychkov

SELECTION OF THE OPTIMAL SET OF INFORMATIVE PARAMETERS VOICE FOR VOICE SYSTEM CONTROL

Аннотация. Рассмотрен вопрос выбора оптимального количества информативных параметров при решении задачи голосового управления. Статья состоит из трех частей. Первая часть содержит обзор основы акустики речи и речеобразования. Приведены основные понятия акустики речи и их физический смысл. Вторая часть содержит обзор информативных параметров, характеризующих речевые сигналы. Показано, что акустические характеристики голоса могут быть условно разделены на пять категорий: просодические, динамические, фонационные, спектральные и энергетические. В третьей части кратко рассмотрены классификация систем распознавания речи и параметры системы голосового управления. Приведены наиболее эффективные информативные параметры речевых сигналов, применяемых в системе голосового управления.

Abstract. This paper addresses the issue of choosing the optimal number of informative parameters in the solution of voice control. This paper consists of three parts. The first part provides an overview of fundamentals of acoustics speech and speech production. Are the basic concepts of acoustics, speech and their physical meaning. The second part provides an overview of the informative parameters characterizing speech signals. It is shown that the acoustic characteristics of voices can be divided into five categories: prosodic, dynamic, phonational, spectral and energy. In the third section briefly discusses the classification of speech recognition and voice control system parameters. Are the most effective informative parameters of speech signals used in the system voice control.

Ключевые слова: акустика речеобразования, информативные параметры речевых сигналов, голосовое управление.

Key words: acoustics of speech production, speech signals, informative parameters, voice control.

Основы акустики речи и речеобразования

Речь с физической точки зрения представляет собой последовательность звуков с паузами между ними или их группами. Темп речи - скорость произнесения элементов речи (звуков, слогов, слов). Темп речи может измеряться числом произносимых в единицу времени элементов речи или средней длительностью элемента. Темп может пониматься как характеристика, определяющая степень артикуляторной напряженности. При нормальном темпе речи паузы появляются между отрывками фраз, так как при этом слова произносятся слитно. При замедленном темпе речи, при диктовке паузы могут делаться между словами и их частями [1].

Звук - распространение механических колебаний в виде упругих волн в среде (твердой, жидкой или газообразной). Один и тот же звук речи каждый человек произносит по-разному.

2013, № 1(3)

17

Каждому свойственна своя манера произнесения звуков, но при всем разнообразии их произнесения звуки являются физической реализацией ограниченного числа фонем. Фонема - минимальная единица звука. В русском языке насчитывается 42 основные и 3 неопределенные фонемы. Фонемы делятся на звонкие и глухие. Звонкие фонемы образуются с участием голосовых связок, находящихся в напряженном состоянии.

Импульсы потока воздуха, создаваемые голосовыми связками, с достаточной степенью точности могут считаться периодическими. Соответствующий период повторения импульсов называется периодом основного тона Т0. Обратная величина называется частотой основного тона (/0 = 1/Т0). Частота основного тона для всех голосов лежит в пределах: 70-450 Гц. При произнесении речи частота основного тона непрерывно изменяется в соответствии с ударением, подчеркиванием отдельных звуков и слов, а также при проявлении эмоций. Девиация частоты основного тона называется интонацией. У каждого человека свой диапазон изменения основного тона - обычно бывает немногим более октавы. Октава - соотношение частот, для которого отношение крайних частот равно 2. Интонация имеет большое значение для узнаваемости говорящего. Основной тон, интонация и тембр голоса служат для идентификации человека.

Колебания основного тона имеют пилообразную форму, и поэтому при их периодическом повторении получается дискретный спектр с большим числом гармоник с частотами, кратными частотам основного тона. Огибающая спектра основного тона имеет спад в сторону высоких частот с крутизной около 6 дБ на октаву.

При произнесении звуков речи речевой аппарат, голосовые связки, челюсть должны находиться для каждой фонемы в строгом направлении и движении при произношении. Эти движения называют артикуляцией органов речи. При артикуляции в речеобразующем тракте создаются резонансные полости, определенные для каждой фонемы. При произнесении звуков речи через речевой тракт проходит или тональный импульсный сигнал, или шумовой, или оба вместе.

Речевой тракт представляет собой сложный акустический фильтр с рядом резонансов, создаваемых полостями рта, носа, носоглотки, т.е. с помощью артикуляционных органов речи. Вследствие этого равномерный, тональный или шумовой спектр превращается в спектр с рядом максимумов (формант) и минимумов (антиформант).

Для каждой фонемы огибающая спектра имеет индивидуальную и вполне определенную форму. При произнесении речи спектр ее непрерывно изменяется, и образуются формантные переходы.

Обзор информативных параметров

Важнейшим звеном работы системы голосового управления является выделение информативных параметров, коррелированных с уникальными свойствами голоса пользователя [2]. Выбор оптимального набора информативных параметров влияет на эффективность работы системы. Условно характеристики речи можно разбить на два основных класса - акустические и лингвистические. В зависимости от решаемой задачи их относительная эффективность может быть различной. Системы, в которых речь соответствует заранее определенному сценарию (словарь голосовых команд), на первый план выходят акустические параметры, в то время как при работе со спонтанной речью (слитная речь) роль лингвистических признаков может оказаться весьма существенной [3].

Из-за нестационарности речевых сигналов во времени для определения их акустических характеристик записи обычно приходится разбивать на небольшие фрагменты, именуемые фреймами. Предполагается, что в их пределах исходный речевой сигнал является квазистаци-онарным. Характеристики речевого сигнала, определенные для каждого фрейма, называются локальными. Однако возможна работа и на уровне интегральных характеристик всего сигнала. Они определяются путем приложения некоторых статистических функционалов ко всем параметрам, выделенным из сигнала.

Однозначного ответа на вопрос, что лучше подходит для нужд распознавания - локальные или интегральные характеристики - пока нет. Интегральные характеристики речевого сигнала наиболее эффективны для распознавания голосов, соответствующих различным пользователям. Если же необходимо детальное распознавание голосов, то идентификация информативных параметров посредством анализа интегральных характеристик речевого сигнала окажется затруднена. Кроме этого, недостатками применения интегральных параметров являются потеря информации об изменениях речевого сигнала во времени и невозможность при-

менения сложных методов. Использование локальных характеристик сигнала позволяет обойти большинство из вышеперечисленных трудностей.

Ранее при разработке систем распознавания речи использовались в основном небольшие наборы информативных признаков. Однако с течением времени число выделяемых из звукового сигнала характеристик значительно возросло, сейчас оно достигает нескольких десятков. К ним может быть дополнительно отнесен иерархичный набор функционалов. При таком подходе важнейшее значение приобретают процедуры выбора оптимального набора информативных параметров, требуемых для эффективной работы. Акустические характеристики голоса могут быть условно разделены на пять категорий [4]:

- просодические (частота основного тона, темп речи и т.д.);

- динамические (фонетическая функция [5]);

- фонационные (отношение гармоник основного тона к шуму, джиттер, шиммер и т.д.);

- спектральные (линейные спектральные частоты, кепстральные коэффициенты линейной шкалы частот, кепстральные коэффициенты мел-шкалы частот и т.д.);

- энергетические (отношение мощностей в спектральных полосах, оценка мощности сигнала и другие, как правило, основанные на энергетическом операторе Тигера).

Каждая группа показателей предназначена для описания отдельных аспектов голоса и находит свое применение в различных системах распознавания речи.

Информативные параметры речевых сигналов для системы голосового управления

На сегодняшний день под понятием «распознавание речи» скрывается целая сфера научной и инженерной деятельности. Каждая задача распознавания речи сводится к тому, чтобы выделить информативные параметры, классифицировать их и соответствующим образом отреагировать на человеческую речь из входного звукового потока.

Каждая такая система имеет некоторые задачи, которые она призвана решать, и комплекс подходов, которые применяются для решения поставленных задач. На рис. 1 приведены основные признаки, по которым можно классифицировать системы распознавания [6].

Рис. 1. Классификация систем распознавания речи

2013, № 1(3)

При создании системы голосового управления требуется выбрать:

- параметры классификации, адекватные поставленной задаче;

- набор информативных параметров звуковой волны, используемых для распознавания, и методы распознавания этих параметров.

Система голосового управления соответствует следующим параметрам классификации:

Назначение

Потребительские качества Тип речи Размер словаря Тип структурной единицы Выделение признаков

- командная система.

- дикторозависимая система.

- изолированные слова.

- ограниченный набор слов.

- фонема.

- декомпозиция на эмпирические моды (преобразование Гильберта-Хуанга, ННТ).

Механизм функционирования - нейросетевой метод.

19

Анализируя каждый приведенный параметр с помощью алгоритма sequential forward feature selection (SFFS) [7], был определен базовый набор информативных параметров речевых сигналов, применяемых в системе голосового управления.

Информационные признаки:

- просодические: частота и девиация частоты основного тона, первая и вторая производные частоты основного тона, темп речи, формантные частоты и их соотношение;

- спектральные: линейные спектральные частоты LPCC, кепстральные коэффициенты мел-шкалы частот MFCC, LSF коэффициенты.

Заключение

С помощью подбора оптимальных параметров системы голосового управления, а также с помощью использования алгоритма определены наиболее существенные информативные параметры речевых сигналов. По прогнозу, использование данного набора параметров позволит достичь эффективности распознавания речевых команд управления порядка 85 %.

Список литературы

1. Фант, Г. Акустическая теория речеобразования / Г. Фант ; пер. с англ. Л. А. Варшавского, В. И. Медведева ; науч. ред. В. С. Григорьева. - М. : Наука, 1964. - 284 с.

2. Ли, У. А. Методы автоматического распознавания речи : в 2 кн. / У. А. Ли, Э. П. Ней-бург, Т. Б. Мартин [и др.] ; пер. с англ. под ред. У. Ли. - М. : Мир, 1983. - Кн. 1. - 328 с.

3. Schuller, B. Recognising realistic emotions and affect in speech: State of the art and lessons learnt from the first challenge / B. Schuller, A. Batliner, S. Steidl, D. Seppi // Speech Communication, In Press.

4. El Ayadi, M. Survey on speech emotion recognition: Features, classification schemes, and databases / M. El Ayadi, M. S. Kamel, F. Karray // Pattern Recognition. - 2011. - V. 44, № 3. -Р. 572-587.

5. Рылов, А. С. Анализ речи в распознающих системах / А. С. Рылов. - Минск : Бест-принт, 2003. - 264 с.

6. Рабинер, Л. Р. Цифровая обработка речевых сигналов : пер. с англ. / Л. Р. Рабинер, Р. В. Шафер. - М. : Радио и связь, 1981. - 496 с.

7. Давыдов, А. Г. Выбор оптимального набора информативных признаков для классификации эмоционального состояния диктора по голосу / А. Г. Давыдов, В. В. Киселев, Д. С. Кочетков, А. В. Ткаченя // Диалог-2012 : сб. тр. междунар. конф. по компьютерной лингвистике. - 2011. - Т. 1, № 11. - С. 122-128.

Алимурадов Алан Казанферович

соискатель ученой степени кандидата технических наук, кафедра информационно-измерительной техники, Пензенский государственный университет E-mail: [email protected]

Alimuradov Alan Kazanferovich

applicant for a degree of candidate of technical sciences, sub-department of information and measuring technique,

Penza State University

Чураков Петр Павлович

доктор технических наук, профессор, кафедра информационно-измерительной техники, Пензенский государственный университет E-mail: [email protected]

Тычков Александр Юрьевич

кандидат технических наук,

директор студенческого научно-производственного бизнес-инкубатора (СНПБИ),

Пензенский государственный университет E-mail: [email protected]

Churakov Petr Pavlovich

doctor of technical sciences, professor, sub-department of information and measuring technique,

Penza State University

Tychkov Aleksandr Yur'evich

candidate of technical sciences, director of student research and production business incubator, Penza State University

УДК 621.391; 519.21 Алимурадов, А. К.

Выбор оптимального набора информативных параметров речевых сигналов для систем голосового управления / А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков / / Измерение. Мониторинг. Управление. Контроль. - 2013. - № 1(3). - С. 16-20.

Текст научной работы на тему «Выбор оптимального набора информативных параметров речевых сигналов для систем голосового управления»