05.13.11
МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ ВЫЧИСЛИТЕЛЬНЫХ МАШИН, КОМПЛЕКСОВ КОМПЬЮТЕРНЫХ СЕТЕЙ
СОВРЕМЕННОЕ СОСТОЯНИЕ ПРОБЛЕМЫ ОБРАБОТКИ, АНАЛИЗА И СИНТЕЗА РЕЧЕВЫХ СИГНАЛОВ
Хеин Мин Зо, аспирант кафедры программного обеспечения и администрирования информационных систем Курского государственного университета, Россия, Курск. E-mail: [email protected]
Аннотация. Данная статья посвящена характеристике современного состояния одной из наиболее актуальных на данный момент проблем, связанных с разработкой интеллектуальных систем, основанных на алгоритмах обработки, анализа и синтеза речевых сигналов. В статье рассматриваются основные преимущества интеллектуальных систем, обладающих речевым интерфейсом, а также сферы их применения. Приводятся главнейшие на данный момент направления обработки речевых сигналов и их алгоритмы. Также обосновывается необходимость дальнейшего изучения проблемы синтеза и анализа речевых сигналов и анализируются основные проблемы, с которыми сопряжены данные процессы.
На основе материалов, посвященных рассматриваемому вопросу, можно сделать вывод о том, что актуальность проблемы распознавания речевых сигналов в настоящее время не вызывает сомнений. Это связано с получением все большего распространения интеллектуальных систем, построенных на основе алгоритма распознавания речевых сигналов, что обусловлено их функциональностью, простотой и удобством применения, а также широким диапазоном сфер, где возможно их применение.
Однако, существует ряд проблем, с которыми связан процесс обработки речевых сигналов. В статье приводятся основные алгоритмы обработки речевых сигналов, которые на данный момент являются наиболее перспективными и точными, а также дается их краткая характеристика.
Проблеме обработки, анализа и синтеза речевых сигналов к настоящему времени посвящено огромное количество работ: статей, монографий, диссертаций и т.д. Данные исследования затрагивают совершенно разные аспекты данной проблемы. На наш взгляд, достаточно большой массив информации нуждается в структурировании и обобщении с целью выявления основных особенностей современного состояния проблемы анализа, синтеза и обработки речевых сигналов. В данной статье предпринята попытка описания современного состояния данной проблемы, в этом и заключается ее новизна, а также теоретическая значимость.
Ключевые слова: радиотехника, интеллектуальные системы, системы распознавания речи, обработка речевых сигналов, речевой интерфейс, алгоритмы обработки речи, вейвлет-анализ.
CURRENT STATUS OF THE PROBLEM PROCESSING, ANALYSIS AND SYNTHESIS OF SPEECH SIGNALS
Hein Min Zaw, postgraduate student of the Department of software and information systems management Kursk state University, Kursk, Russia
Abstract. This article deals with the characteristics of the modern state one of the most pressing at the moment, the problems associated with the development of intelligent systems based on the algorithms of processing, analysis and synthesis of speech signals. The article discusses the main advantages of intelligent systems with speech interface, as well as their scope. Are the most important at this time processing of speech signals and their algorithms. Also the necessity of further study of the problem of synthesis and analysis of speech signals and analyzes the main problems involved in these processes.
On the basis of materials dealing with this issue, it can be concluded that the urgency of the problem of recognition of speech signals is currently not in doubt. It is associated with having ever-increasing proliferation of intelligent systems, based on the recognition algorithm of speech signals due to their functionality, simplicity and ease of use, as well as a wide range of areas where they can be used.
However, there are a number of problems, which are associated with the processing of voice signals. The article presents the main algorithms for processing speech signals, which currently are the most promising and accurate, and provides their brief description.
On the basis of their research, and also analyzed literature we can conclude that none of the existing algorithm is not the only true and accurate that tells about a definite prospect problems processing, analysis and synthesis of speech signals and the need for further study of this problem.
Key words: engineering, intelligent systems, speech recognition, speech applications, speech interface, the processing algorithms of speech.
XXI век можно с уверенностью назвать эпохой «информационного взрыва», отличительной чертой которого является процесс активного развития науки и техники. Следует обратить внимание на одну из важнейших особенностей современного этапа технического прогресса, которая заключается в повышении интереса к изучению интеллектуальных форм взаимодействия человека и компьютера, одним из наиболее перспективных на данный момент видов которого можно считать взаимодействие человека и компьютера при помощи голосовых команд. В связи с этим наиболее актуальным видом интеллектуальных систем являются автоматизированные системы распознавания речи.
Конец ХХ и начало XXI в. ознаменовались началом истории развития речевых технологий, важную роль в которых получили системы распознавания речи. Наиболее известными в этой области являются работы следующих авторов: Б.М. Лобанова, Т.К. Винцюка, А.В. Фролова, Л.Р. Рабине-ра, Р.В. Шафера, У.А. Ли, Д.Х. Клетта, X.D. Huang, H.-W. Hon, A. Acero. Тот период был значимым в плане решения большого числа как фундаментальных, так и прикладных задач в сфере обработки, анализа и синтеза речевых сигналов. Об этом свидетельствует большое число трудов зарубежных и российских исследователей. посвященных данному вопросу. Однако и в наше время интерес к проблеме обработки речевых сигналов не угасает: напротив, она остается одной из наиболее актуальных и активно развивающихся в настоящее время [1].
Многие исследователи говорят и пишут о том, что технологии распознавания речи все более прочно входят в нашу жизнь, легко находя себе применение в самых разных сферах человеческой жизни, делая ее намного проще. Речевые технологии предоставляют возможность общения компьютера и человека посредством речи без использования каких-либо иных способов ввода информации, таких, как, например, клавиатура, безусловно, это более удобно для людей. Использование речевых технологий также помогает переложить часть функций операторов на компьютер: так, с помощью автоматизированных систем синтеза и анализа речи представляется возможным читать книги, сообщения, озвучить документы, а также целые веб-сайты. Благодаря речевым системам можно создавать интеллектуальные системы обучения, которые могут принимать несложные экзамены и даже помогать в изучении иностранных языков. С помощью систем распознавания речи становится возможным улавливать в потоке речи заданные звуковые фрагменты, так называемые ключевые слова. Особенно это важно, если аудио файл достаточно большого объема: на обработку такого файла оператором ушло бы очень большое количество времени, тогда как с помощью автоматизированных систем распознавания речи можно значительно ускорить этот процесс [2].
Помимо этого, с помощью технологии обработки речевых сигналов представляется возможным осуществить процесс идентификации личности, что активно применяется, например, в практике судебной экспертизы. Наконец, распознавание анализ и синтез речи крайне полезен для людей с ограниченными способностями (слепым и слабовидящим или инвалидам) [3].
Итак, обобщим вышеизложенный материал и обозначим основные сферы, в которых находят применение системы синтеза и анализа речевых сигналов.
• Системы, базирующиеся на безбумажных технологиях: формирование текстовых файлов на компьютере под диктовку, а также различные системы подготовки документов.
Хеин Мин Зо
• Интерфейсы, созданные на базе речевых технологий для пользователей-инвалидов, слепых или слабовидящих.
• Системы компьютерной телефонии, в частности, диалоговые информационно-справочные системы, телефонный автосекретарь, речевой набор номеров телефона и речевая электронная почта.
• Системы управления различными процессами, например, информационные и навигационные системы, диспетчерские системы управления наземным и воздушным транспортом.
• Обеспечивающие защиту доступа базам данных системы с использованием так называемого «голосового ключа».
• Детекторы речи (то есть системы обнаружения голосовых сообщений).
• Система обработки и защиты речевых сообщений. Одной из функций такой системы является компрессия речи с целью повышения эффективности криптографической защиты переданного речевого сообщения, а также повышение помехоустойчивости в процессе передачи сообщения по каналу передачи данных.
• Системы-чтецы. Наиболее популярной из них является система голосовых объявлений в общественном транспорте, а также голосового оповещения в случае чрезвычайной ситуации.
• Системы распознавания речи и идентификации личности, применяющиеся в криминалистической экспертизе, базирующиеся на возможности идентифицировать личность говорящего по голосу.
• Системы обучения иностранным языкам. Здесь чаще всего применяются: «говорящие» словари; системы, обучающее правильному произношению иностранных звуков и слов, а также речевые разговорники.
• Иные компьютерные системы обучения в самых разных предметных областях, которые используют мультимедийный интерфейс: разного рода игровые компьютерные программы, к примеру, развивающие игры для детей [4].
Технические системы непрерывно развиваются, в связи с этим они постоянно усложняются. Это приходит приводит к тому, что, с одной стороны, каждое действие управляющего системой человека-оператора должно быть более точно и содержательно, с другой же стороны, необходимо обеспечить разнообразие и гибкость в управлении, что закономерно приведет к значительному усложнению интерфейса такой системы. В результате этого процесса возникло противоречие, которое представляется возможным успешно разрешить благодаря внедрению систем речевого управления, потому как формулировка разного рода команд на естественном языке является более гибкой и содержательной.
Перечислим основные достоинства интеллектуальных систем, базирующихся на процессе автоматизированной обработки анализа и синтеза речевых сигналов.
1. При появлении речевого интерфейса круг пользователей такой системой или компьютерной программой становится практически неограниченным, в то время как явным недостатком клавиатуры и монитора является то, что для общения с компьютером в таком случае человеку, как правило, требуется обладать необходимыми знаниями. В таком случае речь может служить естественным интерфейсом, понятным для любого, даже неподготовленного человека, в том числе ребенка. Использование речевых технологий также помогает снизить психологическое расстояние между компьютером и пользователем.
2. Из п. 1 закономерно следует, что речевой интерфейс помогает сократить физическое расстояние между пользователем и компьютером. Так как речь сама по себе является механически не связанной с компьютером и клавиатурой, она может быть связана с ним посредством иных систем коммуникаций, к примеру, телефона. Данное достоинство также позволяет расширить круг потенциальных пользователей подобных компьютерных систем, делая речевой интерфейс идеальным средством создания системы массового информационного обслуживания.
3. Достоинством речевых интерфейсов можно считать и возможность общения с компьютером, например, в полной темноте с закрытыми глазами и в условиях, когда руки пользователя заняты рычагами управления, а также в любой экстремальной обстановке. Данное свойство обеспечивает оперативность и мобильность процесса общения, так как освобождает руки и разгружает зрительный канал восприятия во время получения информации. Это оказывается исключительно важным, например, для диспетчеров крупных энергетических систем или пилотов самолета, а также водителей автомобиля. Как было отмечено выше, компьютерные системы с речевым интерфейсом последнее время становятся более доступными для людей с нарушением зрения [5].
Итак, в настоящее время исследования, касающиеся проблемы распознавания речи не только не теряют свою актуальность, как было отмечено ранее, но продолжают развиваться сразу в нескольких направлениях. Обобщим имеющийся материал по данной проблеме и выделим сравнительно изолированные друг от друга важнейшие направления в области развития речевых технологий распознавания речи.
1. Преобразование акустического речевого сигнала в цепочку слов и символов. Такие системы можно охарактеризовать по ряду параметров. В первую очередь, это объем словаря: малые объемы подразумевают объем словаря до 20 слов, большие включают тысячи и десятки тысяч. По количеству дикторов: можно классифицировать такие системы от одного до произвольного числа. Характеристика по стелю произнесения: от изолированных команд до потока слитной речи, от чтения до произнесения спонтанной речи. Классификация по коэффициенту ветвления, то есть по величине, определяющей количество гипотез на каждом этапе распознавание речи: от малых величин до больших. Далее следует классификация по отношению сигнал/шум: от больших до низких. По количеству каналов связи: от телефонного канала до высококачественного микрофона. Следует отметить, что качество работы такой системы базируется на автоматизированном распознавании речи и обычно характеризуется надежностью распознавания слов, иными словами, процентом ошибок, возникших в процессе обработки данного речевого сигнала.
2. Оценка психофизиологического или эмоционального состояния говорящего. Использование мощнейшего математического аппарата обработки и анализа речевых сигналов с использованием метода вейвлет-преобразования дало возможность разрабатывать программное обеспечение, применяемое для анализа речи, что предопределило завершение работ, направленных на создание компьютерных детекторов эмоций на основе анализа стресса по голосу REGAN-VSA. Данный комплекс также можно отнести к бесконтактным программным средствам, с помощью которых
представляется возможным определить эмоциональное состояние диктора на базе анализа уровня стресса по голосу. На рис. 1 представлена вейвлет-сонограмма слова «шесть», которое произнесено говорящим без эмоциональной напряженности.
Рис. 1. Вейвлет-сонограмма слова «шесть», произнесенного диктором без эмоциональной напряженности
На тональном участки гласной [е] можно заметить последовательность пульсаций голосовых складок, которые характеризуют высокий уровень стабильности значения периода основного тона, иными словами, в области низких частот отсутствуют сигналы волнения, «тремора» голоса.
Сравним данную сонограмму с той, что представлена с анаграмму на рис. 2, где изображен речевой сигнал диктора, испытывающего волнение. На данной сонограмме мы можем видеть признаки эмоциональной напряженности говорящего, проявившиеся в виде разрушения спектрально-временных структур гласных звуков. Кроме этого, появление в области низких частот спектра колебаний с частотой 24-28 Гц, характерных для человека, испытывающего стресс.
- -14----- 'V———я=—х=—=г—————:=:—= --------4---ЧЦЩШ^И».«^»»------ '.............Г...... Г-i- р. dr. „
_____X """ 1 -- Ii - : н
Рис. 2. Вейвлет-сонограмма речевого сигнала диктора, испытывающего волнение
3. Идентификация говорящего, определение его индивидуальности. Возможность идентифицировать говорящего при помощи современных технологий, базирующихся на методах обработки звучащей речи, с успехом применяют, в частности, в области криминалистики и судебного делопроизводства. Надежность таких систем идентификации говорящего по голосу во многом зависит от качества и точности программных средств распознавания информационных параметров речи. На рисунке 3 можно увидеть пример форматного сравнения звучащей речи двух человек.
Хеин Мин Зо
Рис. 3. Формантное сравнение речи двух дикторов
Рис. 4. Многоуровневый вейвлет-анализ сигнала фонограммы после монтажа
Подробный анализ приводят в качестве иллюстрации в заключении экспертов. Построение данной сонограммы осуществлено при помощи повышенного частотно временного разрешения особенно для гласных звуков.
4. Определение подлинности фонограммы. Так как речевые технологии все более прочно входят в повседневную жизнь человека, проблемы создания и использования методов распознавания нарушений достоверности и подлинности звукозаписи в последнее время стали одними из наиболее важных, особенно в практике экспертов фоноскопии. Как известно, существует огромное количество относительно дешевых и доступных компьютерных программ для обработки и монтажа звуковых файлов, доступность таких программных комплексов приводит к ситуации, когда создать смонтированную фонограмму с изменением некоторых реплик или замены их на другие изменениями состава дикторов и привнесенной в процессе монтажа фоновой акустической обстановки представляет собой относительно простую задачу даже для непрофессионалов.
Такая искусственно созданная или смонтированная фонограмма, как правило, содержит ложную информацию о фактах, действующих лицах и их разговорах, якобы зафиксированных на звукозаписи в процессе произнесения данного речевого фрагмента. На рис. 4 представлен образец многоуровневого вейвлет-анализа фонограммы. Целью данного анализа является определение подлинности данного звукового файла. Применение высокогочастотно временного разрешения анализируемого сигнала участка фонограммы дало возможность установить факт монтажа. На фонограмме смонтированной участок выделен красным цветом.
5. Компрессия, сжатие речи. Данная технология в наши дни активно применяется, в частности, для форматирования аудиофайлов с целью их адаптации для передачи в сети Интернет. Качество работы систем, целью которых является компрессия речи, характеризуется главным образом степенью разборчивости компрессионного звукового файла, немаловажными характеристиками считаются, например, узнаваемость голоса диктора и возможность определения уровня стресса говорящего по голосу. Более подробно данная технология была рассмотрена ранее.
6. Очистка сигнала от шума. С целью очистки речевого сигнала от шума в настоящее время с успехом применяется метод вейвлет-преобразования звукового сигнала. С помощью данного метода представляется возможным выделить голос на аудиозаписи, даже если в этом случае присутствует сильное зашумление на заднем фоне. Следует отметить, что алгоритм очищения сигнала от шума отчасти похож на алгоритм сжатия информации, приведенный в предыдущем пункте. Чем меньше коэффициентов высокочастотной области спектра, чем менее они отличаются от нуля, тем эффективнее работает данный метод. На рис. 5 можно видеть пример очистки звукового сигнала с помощью вейвлетов Добеши седьмого порядка пятого уровня разложения. На графике красным цветом показан исходный сигнал, синяя кривая представляет сглаженный сигнал после очищения его от фоновых шумов. На данной иллюстрации хорошо можно увидеть кратковременные всплески. На аудиозаписи разговора этими всплесками могут быть шумы на заднем плане, они оказываются сглаженными, в целом же кривая очищенного сигнала достаточно точно повторяет график сигнала исходного, так как не вносит каких-либо значительных изменений.
О 500 1000 1500 2000 2500 3000 3500 4000
Рис. 5. Вейвлет-анализ зашумленного сигнала
Анализируя современное состояние речевых технологий можно сделать вывод о том, что проблема распознавания речи остается крайне актуальной и требует серьезного рассмотрения. Об этом свидетельствует тот факт, что системы автоматического распознавания речевых сигналов находят широкое применение в самых разных сферах человеческой жизни, как было отмечено выше.
Кроме того, из вышесказанного следует вывод о том, что современные системы распознавания речевых сигналов, несмотря на большое количество проведенных к настоящему времени исследований, остаются недостаточно совершенными, многие проблемы, связанные с процессом автоматического распознавания речи, остаются нерешенными. Все это свидетельствует об актуальности проблемы изучения процесса распознавания речевых сигналов и разработки алгоритмов и методов реализации данного процесса.
На данный момент существуют разные способы анализа и обработки речевых сигналов. Обзор литературы, посвященной данному вопросу показал, что в зависимости от обработки методы следует разделить на группы, реализованные различными видами анализа:
• с использованием преобразования Фурье;
• с использованием вейвлет-преобразования;
• с использованием декомпозиции на эмпирические моды и преобразования Гильберта-Хуанга;
• с использованием кепстра (кепстральный анализ);
• с использованием линейного предсказания;
• с использованием корреляционной функции (корреляционный анализ);
• с использованием нейронных сетей;
• с использованием скрытых марковских моделей;
• с использованием динамического трансформирования времени [5].
Каждый из выше перечисленных методов имеет как достоинства, так и недостатки, ни один из них не представляется возможным считать абсолютно идеальным. Отметим однако, что сравнительно более точными методами обработки и анализа речевых сигналов в настоящее время является метод преобразования Фурье, кепстральный анализ и метод линейного предсказания, а наиболее актуальными и перспективными на данный момент считаются методы с использованием вейвлет-преобразований, а также нейронных систем [6].
На основе собственных проведенных исследований, а также проанализированной литературы можно сделать вывод о том, что ни один из существующих алгоритмом не является единственно верным и точным, что говорит о несомненной перспективности проблемы обработки, анализа и синтеза речевых сигналов, а также необходимости дальнейшего изучения данной проблемы.
Наконец, перечислим основные проблемы и трудности, с которым сопряжен процесс обработки, анализа и синтеза речевых сигналов, которые представляется возможным решить, выбирая тот или иной наиболее адекватный метод обработки из вышеприведенного списка.
В процессе распознавания, обработки, анализа и синтеза речи специалист, как правило, сталкивается со следующими проблемами.
1. Проблема помехоустойчивости системы распознавания речи. Данную проблему необходимо решать по двум основным направлением: с одной стороны, требуется комплекс мер, которые направлены
на устранение шумов, помех и искажений, воздействующих на речевой сигнал; с другой же стороны, если учитывать ограниченность мер по очистке речевых сигналов от шума на практике, не отменяя их, мы можем констатировать возникновение потребности разработки более совершенного метода выделения полезного речевого сигнала из зашумленной акустической среды.
2. Проблемы дикторонезависимости систем распознавания речи. Следует заметить, что современные системы, базирующиеся на технологиях распознавания речи, как правило, позиционируются в качестве дик-торонезависимых. Они могут осуществлять распознавание изолированных слов в рамках ограниченного словаря, достигающего объема 500 слов. Точность распознавания речи для таких систем приблизительно равна 95 %. Однако вместе с тем системы обработки и распознавания слитной речи нередко требуют долгой и трудоемкой процедуры настройки системы на диктора. Проблема заключается в том, что объем словаря диктора нередко оказывается намного большим, чем заданный в программе: он включает около 200 тысяч слов. Таким образом, настройка на диктора и формирование нового словаря занимает долгое время и считается крайне сложным процессом.
3. Проблемы надежности распознавания отдельных речевых фрагментов. Несмотря на то, что системы распознавания речи в настоящее время все более совершенствуются, ни одну из них нельзя считать на данный момент совершенной, единственно точной и дающей наиболее оптимальный результат [7].
Итак, современное состояние проблемы обработки, анализа и синтеза речевых сигналов, виду ее несомненной актуальности, востребованности и практической значимости можно считать одной из наиболее важных, а разработки в этой области одними из более перспективных. Именно поэтому до настоящего момента продолжается поиск оптимальных методов и алгоритмов обработки речи.
Литература
1. Левин Е.К., Левин К.Е. Система для исследования алгоритма распознавания речевых сигналов // Биомедицинские технологии и радиоэлектроника.,2004. № 3. С. 28-32.
2. Левин Е.К., Левин К.Е., Никитин О.Р. Экспериментальные исследования системы распознавания голосовых команд // Проектирование и технология электронных средств, 2005. № 3. С. 38-44.
3. Назаров М.В., Прохоров Ю.Н. Методы цифровой обработки и передачи речевых сигналов. М.: Радио и связь, 1985. 176 с.
4. Разумихин Д., Соловьев А. Системы автоматического распознавания речи с различными моделями организации диалога // Сборник трудов XIII сессии Российского акустического общества. М., 2003. Т. 3. С. 141-144.
5. Рылов А.С. Анализ речи в распознающих системах. Минск: Бестпринт, 2003. 264 с.
6. Сорокин В.Н. Структура проблемы автоматического распознавания речи // Информационные технологии и вычислительные системы, 2004, № 2. С. 25-40.
7. Фланаган Д.Ж. Анализ, синтез и восприятие речи / Пер. с англ. / Под ред. А.А. Пирогова. М.: Связь, 1968. 396 с.