УДК 681.524
СИСТЕМЫ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ. ПРАКТИЧЕСКИЕ ПРИЛОЖЕНИЯ РЕЧЕВОГО ИНТЕРФЕЙСА
Гапочкин Артем Владимирович
аспирант кафедры информатики и информационных технологий Московский государственный университет печати имени Ивана Федорова 127550 Россия, г. Москва, ул. Прянишникова, д. 2А [email protected]
Аннотация. Рассматривается система автоматического распознавания речи и ее основные параметры. Показана возможность практического использования речевого интерфейса в современных технологиях.
Ключевые слова: цифровая обработка сигналов, распознавание речи, речевой интерфейс.
Под системами автоматического распознавания речи (САРР) понимают системы, преобразующие входную речь (речевой сигнал) в распознанное сообщение. При этом распознанное сообщение может быть представлено как в форме текста этого сообщения, так и преобразовано сразу в форму, удобную для его дальнейшей обработки с целью формирования ответной реакции системы.
Изначально перед системой автоматического распознавания речи ставится задача преобразования текста в речь. Поэтому в английской литературе эти системы называются Speech To Text System [1]. Часто системы автоматического распознавания речи называют также просто системами распознавания речи (СРР).
Упрощенная структурная схема системы автоматического распознавания речи приведена на рис. 1 [6].
Рис. 1. Структурная схема автоматического распознавания речи
Под моделью анализа речевого сигнала понимают блок, в задачи которого входит анализ входного сигнала, во-первых, с целью отнесения его к числу речевых, а во-вторых, для выделения в составе полученного сигнала компонент, которые являются основными для распознавания полученного сообщения. К таким компонентам относятся параметры, описывающие речь, аналогичные тем, которые формируются в процессе синтеза речи. Набор указанных параметров зависит от избранного метода распознавания.
Модель распознавания речи и принятия решения — это блок, в рамках которого осуществляется фор-
мирование распознанного сообщения на основе анализа последовательности параметров, полученных из первого блока. Например, если используется фор-мантная модель описания речи, то на основе полученных в первом блоке частот формант строится последовательность распознанных фонем, составляющих входное сообщение. При этом осуществляется принятие решения о том, распознано ли входное сообщение правильно. При принятии решения, в частности, возможны следующие решения: сообщение распознано правильно (подтверждением этого является текст, соответствующий нормам естественного языка) либо сообщение не распознано или распознано не правильно (такое решение принимается в случае наличия в распознанном сообщении явных, трудно исправимых автоматически ошибок или вообще полной бессмыслицы) [7,8].
В качестве ограничений, накладываемых на САРР, можно привести следующие характеризующие их параметры:
• вид распознаваемой речи (пословное произношение с паузами в стиле речевых команд; четкое произношение без пауз в стиле «диктант»; спонтанная речь) [2,3];
• объем словаря (ограниченный до 100, 200 и т.д. слов; неограниченный);
• степень зависимости от диктора (дикторозависи-мые; дикторонезависимые);
• синтаксические ограничения (отдельные слова; типовые фразы; искусственный язык; естественный язык);
• условия приема речевых сигналов (контактные микрофоны; удаленные на расстояние более 1 м микрофоны);
• условия применения СРР (слабые или сильные помехи);
• надежность и отказоустойчивость системы распознавания.
Практические приложения речевого интерфейса
Прежде чем перейти к рассмотрению примеров практического использования речевого интерфейса, сравним его с наиболее распространенными в настоящее время средствами взаимодействия пользователя с компьютером: клавиатурой и дисплеем [5,6]. Следу-
ет отметить по крайней мере три принципиальных отличия речевого интерфейса:
• недостаток клавиатуры и дисплея заключается в том, что для общения с компьютером человеку нужно пройти специальную подготовку. В то же время речь — это естественный интерфейс для любого, даже неподготовленного человека. Речь снижает в резкой степени психологическое расстояние между человеком и компьютером. Если появляется речевой интерфейс, то круг пользователей компьютером может стать неограниченным;
• речь сама по себе никак механически не привязана к компьютеру и может быть связана с ним через системы коммуникаций, например, телефон. Речевой интерфейс сокращает физическое расстояние между человеком и компьютером. Это дополнительно расширяет круг потенциальных пользователей компьютеров и делает речевой интерфейс идеальным средством для создания систем массового информационного обслуживания;
• можно обращаться с компьютером в полной темноте, с закрытыми глазами, в условиях занятости рук рычагами управления, с завязанными руками и в другой экстремальной обстановке. Это свойство дает оперативность и мобильность общения, освобождение рук и разгрузку зрительного канала восприятия при получении информации. Это исключительно важно, например, для диспетчера большой энергетической системы или пилота самолета и водителя автомобиля. Кроме того, компьютерные системы становятся более доступными людям с нарушением зрениях [7].
В настоящее время речевые компьютерные технологии уже достаточно широко распространены и развиваются в нескольких направлениях, основные из которых представлены на рис. 2 [4,5].
В данной работе рассмотрены основные принципы построения систем распознавания речи на современном этапе развития, их классификация, решаемые ими задачи. Представлена структурная система, основные задачи, решаемые ее компонентами, принципы предварительной обработки исходного речевого сигнала. Будущее речевого интерфейса в не меньшей степени зависит от умения современных разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую
логически завершенную систему взаимодеиствия «человек-компьютер» .
Рис. 2. Направления развития речевых технологий БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Аграновский, A.B. Теоретические аспекты алгоритмов и классификации речевых сигналов /A.B. Аграновский, Д.А. Леднов. — М.: «Радио и связь», 2004. — 164 с.
2. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сигналов. — Киев: «Наук. Думка», 1987.
3. Гапочкин А.В. Классификация речевых сигналов. // Вестник МГУП имени Ивана Федорова. — 2015. — № 1. — С. 43-50.
4. Мазуренко И.Л. Компьютерные системы распознавания речи // Интеллектуальные системы. Москва, 1998. Т.3. Вып. 1-2.
5. Попов Д.И. Автоматизация управления процессов аттестации персонала предприятий промышленности: монография / Д.И. Попов. — М.: МГУП, 2007. — 178 с.
6. Popov D.I. Adaptive Testing Algorithm Based on Fuzzy Logic // International Journal of Advanced Studies. — 2013. — Т. 3. № 4. — С. 23-27.
7. Stuart N. Wrigley. Speech Recognition by Dynamic Time Warping [Электронный ресурс] — URL: http:// www.dcs.shef.ac.uk/~stu/com326/index.html (дата обращения: 15.03.16).
8. Чекмарев А. Речевые технологии — проблемы и перспективы // Компьютерра. — 1997. — № 49.
SYSTEMS OF AUTOMATIC SPEECH RECOGNITION. PRACTICAL APPLICATION SPEECH INTERFACE
Artem Vladimirovich Gapochkin
Moscow State University of Printing Arts 127550 Russia, Moscow, Pryanishnikova st., 2Â
Annotation. The paper discusses automatic speech recognition and its main parameters. The possibility of the practical use of the speech interface in modern technology.
Keywords: digital signal processing, speech recognition, speech interface.