УДК 681.524
Классификация речевых сигналов
А.В. Гапочкин
Московский государственный университет печати имени Ивана Федорова 127550, Москва, ул. Прянишникова, 2А e-mail: warrior [email protected]
Речевой интерфейс, как более естественный для человека, приобретает все большую востребованность в современных человекомашинных системах. В основе его построения лежит задача распознавания речи, для решения которой, несмотря на множество предложенных способов, не найден приемлемый метод [1].
Речевой сигнал является конечным результатом произвольных формализованных движений органов речеобразования человека. Образование звуковых волн, с помощью которых передается речь, является довольно сложным процессом и не подчиняется простым законам. Звуковые волны относятся к числу продольных и представляют собой быструю последовательность чередующихся уплотнений и разрежений воздуха. Непосредственным носителем речевой информации является речевой сигнал.
Математический аппарат цифровой обработки сигналов стал частью практически любого научного исследования, связанного с измерительным процессом. Как правило, под обработкой сигнала понимают решение следующих основных задач:
• создание модели сигнала;
• определение параметров модели сигнала;
• обнаружение сигнала на фоне помех;
• выделение полезного сигнала из его смеси с шумом;
• преобразование сигнала из одного представления в другое;
• определение взаимозависимостей между компонентами сигнала;
• выделение значимых компонент сигнала;
• классификация сигналов.
43
Обработка речевого сигнала подразумевает формирование описания физических параметров восприятия речи на основе некоторой модели с последующим преобразованием полученного представления в требуемую форму [3]. Задачи анализа речевого сигнала вытекают из целей обработки речевого сигнала и их специфики [2].
1. Уплотнение речевого сигнала для передачи в канале (например, телефонном) с минимальной потерей информативности.
2. Искажение голоса диктора при условии сохранения разборчивости его речи.
3. Сегментация беседы множества дикторов на монологи.
4. Декомпозиция беседы дикторов, т.е. расслоение сигналов по принадлежности диктору при условии их одновременного разговора.
5. Выделение характерных признаков голоса диктора и последующая его идентификация.
6. Оценка эмоционального состояния диктора по его голосу.
7. Распознавание речи.
8. Идентификация языка, на котором говорит диктор.
Данные задачи необходимо решать комплексно, так как их
последовательность взаимосвязана и непосредственно отражает условия надежных и качественных алгоритмов распознавания речи. Рассмотрим подробнее каждую из них.
1. Надежность и точность распознавания речи (диктора, в частности) в большой степени зависит от минимизации потери информативности при передаче речевого сигнала по каналу связи. Данные потери могут быть связаны не только с видом записывающего микрофона и нормализации параметров для различных типов, но и с алгоритмом сжатия (кодирования) речевого сообщения. Поэтому одним из актуальных научных направлений является разработка моделей речевого сигнала, с минимальным набором параметров при сохранении ключевых свойств сигнала, для снижения ошибок при кодировании и потерь при передаче по каналу связи.
2. Искажения голоса при передаче по каналу связи могут быть обусловлены целым рядом причин: амплитудно-частотная характеристика линии связи, полоса пропускания, затухание, помехоустойчивость и т.д. Поэтому, когда определен способ передачи информации (протокол), необходимо определить, какой из множества существующих протоколов можно использовать на данной линии, с учетом всех его характеристик с целью минимального искажения при передаче сигнала (в нашем случае речевого), для последующей обработки информации с высокой точностью (минимизировать ошибку потери данных).
3. Задача сегментации непрерывной речи в соответствии с фонетической транскрипцией является фундаментальной задачей любой голосовой системы и необходима для решения большинства задач
44
речевых технологий [2]. Под сегментацией понимают объективное разделение речевого сообщения на единицы, соотносимые с элементами принятого алфавита. Надежность алгоритмов автоматического распознавания речи в значительной степени определяется точностью ее сегментации. Для верификации диктора сначала необходимо сегментировать полученный речевой сигнал и в соответствии с типом сегмента (например, вокализованный или невокализованный) провести сравнение по отличительным признакам. Таким образом, создание системы автоматической сегментации, адаптивной к разным дикторам и языкам, является одной из первичных для задач анализа речи.
4. Разделение сигналов по принадлежности к диктору (сегментация дикторов) в потоке разговора необходима не только для телепередач, интервью и расшифровки стенограмм, но и для расшифровки записей с камер наблюдений, разговоров с различных общественных мероприятий и т.д. [4, 5]. С неуклонным ростом систем безопасности в целом, а также ужесточением политики по противодействию террористическим атакам сегментация дикторов позволит выделить не только нужного диктора, его пол и предмет разговора, но и в дальнейшем применять полученный «эталон» для идентификации субъектов, например в криминалистической экспертизе.
5. Идентификация диктора - процесс определения личности по образу голоса путем сравнения данного образца с шаблонами, сохраненными в базе [6]. Во время процесса идентификации происходит извлечение отличительных признаков из предъявленного образца, которые затем сравниваются с моделями всех зарегистрированных пользователей. Несмотря на то, что выбор ключевых признаков зависит от алгоритма обработки сигнала и модели принятия решения, индивидуальные акустические характеристики голоса, заключенные в них, определяются анатомией строения речевого тракта. Пространство признаков, в котором принимается решение о личности диктора, должно формироваться с учетом особенностей реального голосового источника.
6. Диагностика эмоционального состояния человека с помощью аппаратно-программных средств находит сегодня все более широкое практическое применение в различных областях техники, медицины, систем безопасности и т.д. В ряде случаев, когда доступен лишь речевой канал связи (например, экспертиза бортового самописца), эта задача приобретает первостепенное значение для объективного анализа имеющейся речевой информации [7]. Однако детектирование эмоций по параметрам устной речи является сложной задачей, так как необходимо не только решить, какие параметры речевого сигнала измерять (т.е. какие из них наиболее полно несут информацию об эмоциональном состоянии), но и выбрать адекватный способ измерения и последующей интерпретации полученной информации в терминах эмо-
45
ционального состояния (гнев, радость, страх, удивление и т.д.). Точность диагностики психоэмоционального состояния с помощью аппаратных средств в общем случае не превосходит способности человека к оценке состояния другого человека по его речи, что объясняется несовершенством подходов к интерпретации результатов измерений [8].
7. В широком смысле распознавание речи - это процесс преобразования речевого сигнала в цифровую информацию. На процесс распознавания речи, а также точность полученных цифровых данных (параметров) влияют такие факторы, как: разборчивость речи (относительное или процентное количество принятых элементов речи из общего количества переданных элементов); качество речи (оценка звучания в системах передачи речевого сигнала); темп речи (скорость произнесения речи) и т.д. Задача распознавания речи является комплексной, и при разработке аппаратно-программных средств анализа речи стоит учитывать не только фонемные характеристики языка, но и индивидуальные особенности диктора.
8. Проблема идентификации языка возникает в ситуациях, когда необходимо выделить из общего объема информации данные, содержащие речь на определенном языке, для последующего распознавания полученной информации, а также при необходимости идентификации диктора при производстве фонографических экспертиз (в случае наличия фонограмм, записанных на разных языках). Данная задача осложняется тем, что некоторые характеристики голоса и речи меняются при переходе на иностранный язык [9]. В то же время, существуют основные характеристики голоса, которые практически инвариантны.
Последние шесть задач связаны с принятием решения о принадлежности сигнала или его участка к тому или иному множеству (языковое, свой-чужой, и др.), поэтому их в общем можно определить как задачи классификации речевых сигналов.
При решении любой из перечисленных задач классификации возникает проблема, связанная с выбором вектора признаков, которым будут характеризоваться акустические колебания. Выбор тех или иных признаков определяется как знаниями физиологии органов слуха и психоакустическими данными, так и требованием согласованности последующей модели принятия решения и вектора признаков.
Для разъяснения участия процедур формирования признаков в общей структуре систем классификации речевых сигналов рассмотрим одну из распространенных функциональных схем системы, решающей эти задачи (рис. 1).
Устройство ввода звукового сигнала - это программно аппаратное средство измерения уровня звукового давления и его оцифровки. Как правило, такое средство состоит из микрофона, передающего канала и АЦП.
46
Рис. 1. Структура классификатора речевых данных
Следующий блок рис. 1 - «Детектор речи». Он предназначен для выделения из звукового потока сегментов, содержащих речь. Необходимость использования такого блока связана с двумя аспектами:
а) звуковой поток в значительной степени состоит из пауз между словами и фразами, которые необходимо удалить, так как они не несут никакой значимой информации (для примера, в задачах идентификации диктора и распознавании речи). Удаление пауз из звукового потока сокращает время обработки, затрачиваемое последующими блоками;
б) в некоторых задачах обработки речи длительность паузы является информативной (например, в задаче оценки эмоционального состояния диктора [10]), и детектор речи позволяет ее определить, т.е. детектор речи способен формировать некоторые компоненты вектора признаков.
Основным источником методов, использующихся в детекторах речи, является теория обнаружения стохастических сигналов, основные элементы которой описаны в [1].
Блок фильтрации связан с необходимостью удалять из речи различные помехи и искажения, источником которых являются как сре-
47
да передачи сигнала, так и ошибки человека при произношении того или иного звука.
Блок предварительной обработки речи предназначен для формирования последовательности векторов признаков спектрального характера и для нормализации последовательности этих векторов относительно темпа речи или длины речевого тракта диктора (необходимость применения нормализаций зависит от типа классификационной задачи). Каждый вектор признаков соответствует некоторому сегменту речи, длительность которого выбрана исследователем из соображений целесообразности. В общем случае, признаки сегмента состоят из следующего набора:
а) мощность речевого сигнала (абсолютная мощность и ее производные);
б) основной тон (мгновенная частота, ее производные, показатели асимметрии импульса основного тона);
в) спектральные показатели (абсолютные значения спектральных компонент и их производные).
Классификация методов спектральной обработки, которые принято называть методами параметризации сигнала, приведена на рис. 2 [3].
Рис. 2. Классификация методов предварительной обработки сигнала
48
Алгоритмы обучения (рис. 1) предназначены для установления соответствия между входной последовательностью векторов признаков и последовательностью наименований классов. Под наименованием класса может подразумеваться имя диктора, эмоциональное состояние диктора, слово, фонема и т.д. (в зависимости от цели обработки речи).
Задача, которая решается алгоритмами классификации (рис. 1), является обратной по отношению к задаче обучения, т.е. здесь требуется по входной последовательности векторов признаков найти соответствующую последовательность наименований классов.
В рамках представленной функциональной схемы системы классификации речевых сигналов (рис. 2) мы видим несколько проблем, которые рассмотрим в этой работе совместно с классическими подходами [1].
Проблема первая. Детектирование и фильтрация речи в условиях нестационарных шумов, которые существенно влияют на качество классификации речи.
Проблема вторая. Алгоритмы обучения и распознавания должны быть согласованы с вектором признаков. Согласованность в современных системах классификации заключается в том, что в любой момент времени вектор признаков принадлежит пространству Rn, т.е. размерность вектора не изменяется со временем. Это, в свою очередь, означает, что всякий сегмент сигнала описывается одинаковым количеством информации вне зависимости от содержания этого сегмента. Такой недостаток векторов признаков может быть преодолен введением размерности в зависимости от содержания.
Проблема третья. При идентификации дикторов не используется способ фонемной идентификации. Конечно, такой способ приводит к необходимости использовать совместно модель распознавания фонем и модель идентификации дикторов и требует больших затрат времени, но это наша плата за точность, которой мы могли бы достигнуть.
Проблема четвертая. В работах по распознаванию слитной речи наблюдается тенденция роста контекстной зависимости для более точного моделирования звучания той или иной фонемы в окружении других фонем. Такой контекст можно назвать фонетическим. Чем выше фонетическая контекстная зависимость, тем больше затраты памяти вычислительной системы и объем выборки речи, необходимый для обучения системы.
Можно сделать вывод, что для реализации системы классификации речи требуется обозначить уровень анализа, необходимый для решения поставленной задачи, и какие параметры речевого сигнала необходимо использовать для классификации.
49
Библиографический список
1. АграновскийА.В. Теоретические аспекты алгоритмов и классификации речевых сигналов /A.B. Аграновский, Д.А. Леднов. -М.: «Радио и связь», 2004. - 164 с.
2. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов / Т.К. Винцюк. - Киев: «Наук. Думка», 1997.
3. Гапочкин А.В. Структура системы распознавания речи на основе вейвлет-преобразования / А.В. Гапочкин// Материалы международных научно-практических конференций Общества Науки и Творчества, Технические науки, г. Казань: Science Time. - № 2. - 2014. - С. 9-14.
4. Кириллов С.Н. Анализ речевых сигналов на основе акустической модели / С.Н. Кириллов, Д.Н. Стукалов. - М.Техническая кибернетика. - № 2, 1994. - С. 147-153.
5. Мясникова EH. Обьективное распознавание звуков речи / E.H. Мясникова - Л.: «Энергия», 1967. - 151 с.
6. Потапова Р.К Речевые технологии/ Р.К. Потапова, A.B. Аграновский, Т.К. Винцюк и др. - М: Изд. дом «Народное образование» -№ 1. - 2010. - 111 с.
7. РабинерЛ.Р. Цифровая обработка сигналов / Л.Р. Раби-нер, Р.В. Шафер. - М.: Радио и связь, 1981. - 495 с.
8. Сапожков М.А. Речевой сигнал в кибернетике и связи / М.А. Сапожков. - М: Связь и радио, 1963. - 452 с.
9. Шарий Т.В. О проблеме параметризации речевого сигнала в современных системах распознавания речи / Т.В. Шарий // Вестник Донского нац. ун-та, Сер. А: Природные науки, Выпуск 2. - 2008. -C. 536-541.
10. Dutta R. Speaker verification for security systems using Spartan 6./R. Dutta, S. Dutta,K. Mitra //International journal of electronics and communications (IJEC), Volume 1, Issue 1, August. - 2012. - P. 261-278.
50