Научная статья на тему 'Изучение применения автоматического распознавания речи'

Изучение применения автоматического распознавания речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
399
100
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
распознавание речи / АРР / акустическая модель / языковая модель / системы распознавания речи. / speech recognition / ASR / acoustic model / language model / speech recognition systems.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Садыкова А. А., Амиргалиев Е. Н.

В наши дни машины для обработки информации стали повсеместными. Однако современные способы общения между человеком и машиной ориентированы больше на жизнь с ограничениями компьютерных устройств ввода/вывода, чем с удобством людей. Как известно, речь это основной способ общения людей. Было бы хорошо, если бы компьютеры могли слушать человеческую речь и выполнять свои команды. С другой стороны, распространёнными средствами ввода в компьютер являются клавиатура или мышь. В данной ситуации автоматическое распознавание речи (АРР) можно определить как процесс получения транскрипции (последовательности слов) высказывания с учетом формы волны речи. Понимание речи идет еще дальше и подбирает смысл высказывания, чтобы выполнить команду говорящего. Эта статья дает введение в АРР.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Садыкова А. А., Амиргалиев Е. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Today, information processing machines have become ubiquitous. However, modern methods of communication between a person and a machine are oriented more toward life with the limitations of computer I/O devices than with the convenience of people. As you know, speech is the main way people communicate. It would be nice if computers could listen to human speech and carry out their commands. On the other hand, keyboard or mouse are common input methods for a computer. In this situation, automatic speech recognition (ASR) can be defined as the process of obtaining the transcription (sequence of words) of a statement taking into account the speech waveform. Understanding speech goes even further and selects the meaning of the statement in order to fulfill the command of the speaker. This article provides an introduction to ASR.

Текст научной работы на тему «Изучение применения автоматического распознавания речи»

_TECHNICAL SCIENCE / «ШУУЮЩиМ-ШиГМ&И »#М6Ш'ШЭ

УДК 004.42

Садыкова А.А., Амиргалиев Е.Н.

КазНУ им. Аль-Фараби, Алматы, Казахстан DOI: 10.24411/2520-6990-2020-11728 ИЗУЧЕНИЕ ПРИМЕНЕНИЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ

Sadykova A.A., Amirgaliev Ye.N.

Al-Farabi Kazakh National University, Almaty, Kazakhstan EXPLORING THE USE OF AUTOMATIC SPEECH RECOGNITION

Аннотация

В наши дни машины для обработки информации стали повсеместными. Однако современные способы общения между человеком и машиной ориентированы больше на жизнь с ограничениями компьютерных устройств ввода/вывода, чем с удобством людей. Как известно, речь - это основной способ общения людей. Было бы хорошо, если бы компьютеры могли слушать человеческую речь и выполнять свои команды. С другой стороны, распространёнными средствами ввода в компьютер являются клавиатура или мышь. В данной ситуации автоматическое распознавание речи (АРР) можно определить как процесс получения транскрипции (последовательности слов) высказывания с учетом формы волны речи. Понимание речи идет еще дальше и подбирает смысл высказывания, чтобы выполнить команду говорящего. Эта статья дает введение в АРР.

Abstract

Today, information processing machines have become ubiquitous. However, modern methods of communication between a person and a machine are oriented more toward life with the limitations of computer I/O devices than with the convenience of people. As you know, speech is the main way people communicate. It would be nice if computers could listen to human speech and carry out their commands. On the other hand, keyboard or mouse are common input methods for a computer. In this situation, automatic speech recognition (ASR) can be defined as the process of obtaining the transcription (sequence of words) of a statement taking into account the speech waveform. Understanding speech goes even further and selects the meaning of the statement in order to fulfill the command of the speaker. This article provides an introduction to ASR.

Ключевые слова: распознавание речи, АРР, акустическая модель, языковая модель, системы распознавания речи.

Key words: speech recognition, ASR, acoustic model, language model, speech recognition systems.

Введение. Системы АРР помогают человеку с ограниченными физическими возможностями управлять и контролировать машину. Ведь ежегодно все больше людей отдают свое предпочтение голосовому интерфейсу чем клавиатуре или мыши. Преимущество более очевидно в случае небольших ручных устройств. Диктофон является широко известным приложением АРР. Для обзора распознавания и понимания речи можно обратиться к [1]. Благодаря вездесущим телекоммуникационным системам, речевой интерфейс очень удобен для ввода данных, доступа к информации из удаленных баз данных, интерактивных услуг, таких как бронирование билетов. Системы AРР целесообразны в тех случаях, когда руки и глаза заняты, например, за рулем или операцией. Они полезны для преподавания фонетического и программного обучения.

Системы распознавания речи могут быть разделены на различные группы в зависимости от ограничений, накладываемых на природу вводимой речи.

• Количество говорящих: Система независима от говорящего, если она может распознавать речь любого говорящего; такая система выучила природу большого количества ораторов. Большой

объем речевых данных пользователя необходим для обучения системы зависимой от говорящего. Такая система плохо распознает чужую речь. Приспосабливающийся к говорящему системы прежде всего являются независимыми от говорящего системами, но с другой стороны, имеют возможность адаптироваться к голосу нового говорящего при условии, что для обучения системы предусмотрено достаточное количество данных (речи) говорящего . Популярный диктофон представляет собой приспосабливающийся к говорящему систему.

• Натура (характер) высказывания: пользователь должен произносить слова с четкой паузой между словами в Изолированной Системе Распознавания слов. Система Распознавания Подключенных Слов может распознавать слова, взятые из небольшого набора, произнесенные без необходимости паузы между словами. С другой стороны, Системы Непрерывного Распознавания Речи распознают предложения, произносимые непрерывно. Система Самопроизвольного Распознавания Речи может обрабатывать речевые нарушения, такие как ах, я или фальстарт, грамматические ошибки, присутствующие в разговорной речи. Система Определения Ключевых Слов продолжает искать заранее

<<Ш11ШетиМ~^©и©Ма1>#Щ63)),2©2© / ТБСИМСЛЬ 8СШ]ЧСБ

заданный набор слов и обнаруживает присутствие любого из них во входной речи.

• Размер словаря: система АРР, которая может распознавать небольшое количество слов (скажем, 10 цифр), называется небольшой словарной системой. Средние словарные системы могут распознавать несколько сотен слов. Большие и Очень Большие системы АРР обучаются с несколькими тысячами и несколькими десятками тысяч слов соответственно. Примерами областей применения малых, средних и очень больших словарных систем являются системы распознавания номеров телефонов/кредитных карт, системы управления и контроля, соответственно.

• Спектральная полоса пропускания: полоса пропускания телефонного/мобильного канала ограничена 300-3400 Гц и, следовательно, ослабляет частотные компоненты вне этой полосы пропускания. Такая речь называется узкополосной речью. Напротив, нормальная речь, которая не проходит по такому каналу, называется широкополосной речью; он содержит более широкий спектр, ограниченный только частотой дискретизации. В результате точность распознавания систем АРР, обученных с использованием широкополосной речи, выше. Более того, система АРР, обученная с использованием узкополосной речи, плохо работает с широкополосной речью и наоборот.

Сложность распознавания речи связано прежде всего с изменчивостью речевого сигнала [2]. Распознавание речи по сути является процессом декодирования: кодирование сообщения в речевой сигнал и декодирование сообщения системой распознавания. Речь может быть смоделирована как последовательность языковых единиц, называемых фонемами. Например, каждый символ алфавита по существу представляет фонему. Чтобы лучше оценить трудности, связанные с АРР, необходимо понять, как возникают речевые звуки и источники изменчивости.

Знание генерации различных речевых звуков поможет нам понять спектральные и временные свойства речевых звуков. Это, в свою очередь, позволит нам характеризовать звуки с точки зрения особенностей, которые помогут в распознавании и классификации речевых звуков.

Звуки генерируются, когда воздух из легких возбуждает воздушную полость рта. В случае создания вокализованного звука, скажем, гласного /а/, голосовая щель открывается и периодически закрывается. Следовательно, дуновение воздуха из легких возбуждает полость рта. Во время периодов закрытия голосовой щели в полости рта устанавливаются резонансы. Форма волны, исходящая из губ, имеет сигнатуру как возбуждения, так и резонансной полости. Частота вибрации голосовой щели широко известна как частота основного тона

Для создания носового звука оральный проход блокируется, и велюм, который обычно блокирует носовой ход, поднимается. Во время производства невокализованных звуков голосовая щель не вибрирует и открыта. Полость рта возбуждается апери-

одическим источником. Например, при производстве /с/ воздух, выбегающий из узкого сужения между языком и верхними зубами, возбуждает полость перед зубами.

Чтобы производить разные звуки, динамик изменяет размер и форму полости рта движением ар-тикуляторов, таких как язык, челюсть, губы. Резонансный оральный тракт обычно моделируется как изменяющийся во времени линейный фильтр. Такая модель производства речи называется моделью фильтра источника. Источник возбуждения может быть периодическим (как в случае вокализованных звуков) или апериодическим (пример: /с/) или обоими (пример: /7/).

Для гласного /а/ голосовой тракт может быть аппроксимирован во время закрытой фазы вибрации голосовой щели как однородная трубка, закрытая на одном конце. Основной режим резонанса соответствует четверть волны. Если мы примем 340 м/с в качестве скорости звука в воздухе и 17 см в качестве длины L голосового тракта от голосовой щели до губ, то основная частота резонанса может быть рассчитана как

V = с/Я = с/(4 * I) = 34000/(4 * 17) Гц (1)

Если частота основного тона составляет 100 Гц. из теории цифровых фильтров легко можно показать, что логарифмический спектр мощности на выходе фильтра (речевая волна) является суммой логарифмических спектров источника и фильтра. Хотя спектр речевых сигналов (правые цифры) выглядит немного по-разному из-за разного тона, оба соответствуют одному и тому же гласному. Таким образом, изменение в речевом спектре из-за различной высоты тона следует игнорировать при выполнении распознавания речи.

Источники изменчивости речевых звуков. В отличие от печатного текста, нет четких границ между фонемами или словами из-за непрерывного характера непрерывной речи. Кроме того, в печатном тексте несколько вхождений буквы выглядят одинаково. Напротив, спектральные и временные характеристики речевого звука сильно варьируются в зависимости от ряда факторов [3].

• Физиологические: формы речевого сигнала гласного могут варьироваться из-за разных частот основного тона. Также разные размеры голосового тракта (размер головы) изменяют резонансные частоты полости рта. Резонансные частоты у взрослых мужчин, как правило, будут меньше, чем у женщин, которые, в свою очередь, будут меньше, чем у детей. Таким образом, даже если высота двух человек одинакова, спектры речи могут отличаться из-за разного размера головы.

• Поведенческий: уровень речи людей сильно варьируется. Синтаксис и семантика влияют на просодическую модель высказывания. Акцент и использование слов зависят от регионального и социального происхождения говорящего. Произношение незнакомых слов может отличаться от стандарта. Такие нарушения речи усиливают и без того сложную задачу АРР.

TECHNICAL SCIENCE / <<Ш^ШМиМ~^©иГМа1>#Щ61)),2©2(1

• Преобразователь/канал: микрофон преобразует механическую волну в электрический сигнал. Этот процесс преобразования не может быть линейным во всех микрофонах. Обратите внимание, что изменение в преобразовании может достигать 20 дБ при частоте 3400 Гц. Такой широкий диапазон искажений изменяет спектральные характеристики звуков речи в зависимости от телефона. Кроме того, методы сжатия, используемые в мобильной связи, вносят дополнительные искажения и изменчивость.

• Условия окружающей среды: Наличие фонового шума снижает отношение сигнал/шум [4]. Фоновая речь соседей порождает значительные путаницы среди звуков речи. Речь, записанная с помощью настольного громкоговорящего телефона, не только улавливает голос говорящих, но также вызывает многократное эхо от стен и других отражающих поверхностей.

• Фонетический контекст: Акустическое проявление речевого звука во многом зависит от предыдущего и последующего звука. Это связано с инерцией артикуляторов и называется ко-артикуля-цией.

Контекстно-зависимая изменчивость речевых звуков носит систематический характер и, следовательно, может быть смоделирована путем использования подробных фонетических единиц для распознавания. Тем не менее, другие источники вариаций должны обрабатываться в каждом конкретном случае. Теперь давайте посмотрим, как с помощью системы АРР обрабатывается такое большое разнообразие переменных.

Как распознается речь? Распознавание речи является частным случаем распознавания образов [5]. На рисунке 1 показаны этапы обработки, связанные с распознаванием речи. Существуют две фазы контролируемого распознавания образов: обучение и тестирование. Процесс выделения признаков, важных для классификации, является общим для обеих фаз. На этапе обучения параметры модели классификации оцениваются с использованием большого числа образцов классов (данные обучения). На этапе тестирования или распознавания характеристики тестового шаблона (тестовые речевые данные) сопоставляются с обученной моделью каждого класса. Тестовый шаблон объявлен как принадлежащий тому классу, модель который лучше всего соответствует тестовому шаблону.

Рисунок 1. Блок-схема типичной системы распознавания речи.

Целью распознавания речи является создание оптимальной последовательности слов с учетом лингвистических ограничений. Предложение состоит из языковых единиц, таких как слова, слоги, фонемы. Акустические доказательства, предоставляемые акустическими моделями таких единиц, сочетаются с правилами построения действительных и значимых предложений на языке для выдвижения гипотезы о предложении [6]. Следовательно, в случае распознавания речи этап сопоставления с образцом можно рассматривать как происходящий в двух областях: акустической и символической. В акустической области вектор признаков, соответствующий небольшому сегменту тестовой речи (называемый кадром речи), сопоставляется с акустической моделью каждого класса. Сегменту присваивается набор меток классов, которые соответствуют друг другу, и их соответствующие оценки. Этот процесс назначения меток повторяется для каждого вектора признаков в векторной последовательности объектов, рассчитанного по данным испытаний. Результирующая решетка гипотез меток

обрабатывается вместе с языковой моделью для получения распознанного предложения [7].

Обработка сигналов. Входной речевой сигнал должен быть обработан для извлечения признаков, важных для распознавания. Этот этап является общим для этапов обучения и тестирования. Функции должны помочь в распознавании похожих звуков, а количество функций должно быть небольшим, чтобы повысить вычислительную нагрузку до управляемого уровня. Речевой сигнал блокируется на сегменты, называемые кадрами размером около 25 мс, и набор признаков (эквивалентно многомерному вектору признаков) извлекается из каждого кадра. Сдвиг по времени между последовательными перекрывающимися кадрами обычно составляет 10 мс.

Звуки характеризуются резонансами полости рта. Следовательно, элементы, извлеченные из речевого сигнала, должны представлять общую форму спектра, игнорируя при этом тонкие характеристики спектра, такие как пики основного тона. Если мы рассматриваем спектр мощности лога-

<<ш1кшетим~^©и©ма1>#щб3)),2©2© / technical science

рифма как составной сигнал, возникающий в результате наложения медленно меняющегося компонента (формантная структура) и быстро меняющегося компонента (гармоники основного тона), огибающийся спектр (формантная структура) может быть получен с помощью фильтрации нижних частот спектра логарифмической мощности. Обратная область логарифмического спектра мощности называется кепструмом, а коэффициенты кепстра -кепстральными коэффициентами.

Сжатие амплитуды, достигаемое операцией логарифма, аналогично сжатию амплитуды корня куба, выполняемого слуховой системой человека. Кроме того, улитка во внутреннем ухе выполняет анализ банка фильтров и посылает нервные импульсы в мозг, который интерпретирует различные звуки. Улитка может разрешать два частотных компонента, воспроизводимых один за другим, только если компоненты разделены менее чем на 1 единицу. Ширина такой «критической» полосы зависит от частоты; он линейный примерно до 1 кГц и логарифмический за пределами. Такая нелинейная шкала также называется шкалой плавления. Таким образом, человеческое ухо придает большее значение разрешению низкочастотных компонентов, чем более высоких. Поскольку такая обработка является результатом естественного отбора, аналогичный анализ банка фильтров должен обеспечить лучшее распознавание речи на машинах. Большинство систем АРР выполняют анализ банка фильтров в мелком масштабе и получают кепстральные коэффициенты, называемые Коэффициенты фильтра по шкале Мел (КФШМ). Мел фильтры аппроксимируются как перекрывающиеся треугольные фильтры с шириной полосы 1 кора и расположенные по 1 коре каждый.

Системы распознавания речи. Прикладные системы, использующие технологию распознавания речи, варьируются от изолированных систем распознавания слов, используемых в игрушках, до динамического независимого разговора по телефону с системами распространения информации.

Существует несколько систем диктовки с очень большим (более 100 000) словарным запасом с точностью распознавания около 97%; они зависят от спикера и должны быть обучены. Системы автоматической маршрутизации вызовов, основанные на технологии АРР, используются уже более десяти лет. Некоторые авиакомпании используют системы

распознавания речи, чтобы предоставлять информацию абонентам и даже разрешать бронирование авиабилетов. Система АРР распознает и понимает запросы на беглом немецком языке и предоставляет информацию о расписании поездов. Другими примерами приложений АРР являются автоматизированный коммутатор крупной немецкой компании, информационная система кино или футбола.

Заключение. За последние пару десятилетий был достигнут значительный прогресс в области технологий разговорной речи. Это привело к развертыванию систем распознавания речи в нескольких областях применения. Тем не менее, современные инженерные модели речи и языка неадекватно моделируют естественные языковые возможности человеческого мозга. Когнитивные аспекты человеческого мозга являются сложными, и разработка соответствующих моделей все еще является сложной исследовательской задачей. Такое развитие приведет к появлению повсеместно распространенных интерфейсов речевой коммуникации, благодаря которым люди смогут взаимодействовать с машинами так же удобно и естественно, как и между собой.

Список литературы

1. B.H. Juang, and S. Furui. Automatic Recognition and Understanding of Spoken Language-A First Step Toward Natural Human Machine Communication. Proc. IEEE, 88, No. 8, 2016, pp. 1142-1165.

2. H. C. Wang, M.-S. Chen, and T. Yang. A novel approach to the speaker identification over telephone networks. Proc. ICASSP-93. 2018, vol. 2, pp. 407410.

3. Davis S and Mermelstein P. Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences. IEEE Trans. on ASSP, vol. 28, pp. 357-366.

4. Hiroaki Sakoe and Seibi Chiba. Dynamic Programming Algorithms Optimization for Spoken Word Recoginition. IEEE Trans on acoustics, speech and signal processing, vol.ASSP-26, no.1, december 2017.

5. L.R.Rabiner and B.H.Juang. Fundamentals of Speech Recognition. Prentice Hall, New Jersey, 2016.

6. Rabiner L R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proc. IEEE, vol. 77, 2015, pp. 257-286.

7. E.Noth and A.Homdasch. Experiences with Commercial Telephone-based Dialogue Systems. IT Information Technology, 46 (2004) 6, pp.315-321.

i Надоели баннеры? Вы всегда можете отключить рекламу.