Научная статья на тему 'ОБЗОР ЗАДАЧИ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ'

ОБЗОР ЗАДАЧИ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
212
61
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
автоматическое распознавание речи / система автоматического распознавания речи / обработка естественного языка / Скрытые Марковские Модели / ДТВ-алгоритм / нейронные сети / automatic speech recognition / system of automatic speech recognition / natural language processing / Hidden Markov Model / DTW-algorithm / neural networks.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Титов Федор Михайлович

В статье приводится обзор задачи автоматического распознавания речи. Кроме того, рассматриваются основные подходы к решению данной задачи. Также описывается базовая модель распознавания речи и общая классификация систем перевода речи в текст. Метрики оценки качества работы систем ASR также приводятся.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A REVIEW OF AUTOMATIC SPEECH RECOGNITION TASK

This article provides an overview of the task of automatic speech recognition. In addition, the main approaches to solving this problem are considered. The basic speech recognition model and general classification of speech-to-text translation systems are also described. Metrics for assessing the performance of ASR systems are also provided.

Текст научной работы на тему «ОБЗОР ЗАДАЧИ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ»

«Научные исследования и инновации»

УДК 004.934

Титов Федор Михайлович Titov Fyodor Mikhailovich

Студент Student

Санкт-Петербургский политехнический университет Петра Великого

Peter the Great St.Petersburg Polytechnic University

ОБЗОР ЗАДАЧИ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ РЕЧИ

A REVIEW OF AUTOMATIC SPEECH RECOGNITION TASK

Аннотация. В статье приводится обзор задачи автоматического распознавания речи. Кроме того, рассматриваются основные подходы к решению данной задачи. Также описывается базовая модель распознавания речи и общая классификация систем перевода речи в текст. Метрики оценки качества работы систем ASR также приводятся.

Abstract: This article provides an overview of the task of automatic speech recognition. In addition, the main approaches to solving this problem are considered. The basic speech recognition model and general classification of speech-to-text translation systems are also described. Metrics for assessing the performance of ASR systems are also provided.

Ключевые слова. автоматическое распознавание речи, система автоматического распознавания речи, обработка естественного языка, Скрытые Марковские Модели, ДТВ-алгоритм, нейронные сети.

Keywords: automatic speech recognition, system of automatic speech recognition, natural language processing, Hidden Markov Model, DTW-algorithm, neural networks.

Задача автоматического распознавания речи (Automatic Speech Recognition, ASR) заключается в преобразовании звуковых данных, содержащих устную речь, в компьютерно-читаемый текст [1]. Суть задачи автоматического распознавания речи состоит в преобразовании аудиоданных в удобочитаемую транскрипцию (рис. 1). Данная задача

X Международная научно-практическая конференция относится к области обработки естественного языка (Natural Language Processing, NLP).

Среди подходов, реализуемых при создании систем автоматического распознавания речи, выделяют:

- Скрытые Марковские Модели (СММ). СММ представляет собой конечный автомат состояний, соединенных переходами. Выбор следующего перехода и выходного символа является случайным и определяется вероятностным распределением. Марковская модель является скрытой, поскольку можно узнать только последовательность выходных символов, сгенерированных с течением времени, в то время как последовательность состояний скрыта [2];

- Алгоритмы динамического программирования, а именно -алгоритм динамической трансформации временной шкалы (ДТВ -алгоритм), при котором производится классификация признаков на основе сравнения с заданным эталоном;

- Нейронные сети. При данном подходе нейросеть обучается находить закономерности между входными и выходными данными на основе заранее размеченного набора данных [2].

В современных системах распознавания речи описанные подходы редко используются в чистом виде. Чаще всего применяются их комбинации.

Аудисда-ные

содержащие устную рапскрипция

*

реч=.

Рис.1. Задача автоматического распознавания речи

Базовая модель системы распознавания речи может быть представлена следующим образом (рис. 2). Процесс распознавания речи разделяется на несколько блоков. В первом блоке формируются аудиоданные, которые будут подаваться на вход системе

«Научные исследования и инновации» распознавания речи. На этом этапе важную роль играют приборы, на

которые производится запись звука, и окружающая среда. Эти факторы

могут оказать негативное влияние на качество генерируемых речевых

представлений посредством внесения посторонних шумов. Для

решения этих проблем существует второй блок, который подавляет

шумы входного сигнала. Третий блок предназначен для извлечения

признаков из предварительно обработанных данных. На данном этапе

предусмотрено использование различных методов таких, как

спектрограмма и анализ кепстра. Четвертый блок (декодер) необходим

для классификации извлеченных признаков. Он является основной

частью системы распознавания. На текущем этапе проводится сверка

входного звукового сигнала с информацией, содержащейся в

акустических моделях, языковых моделях и словаре [3]. Акустическая

модель - это статистическое представление звуков в звуковом сигнале.

Основное предназначение акустических моделей - сопоставить

акустические волны со статистическими свойствами фонем [1].

Языковая модель определяет наиболее вероятную последовательность

слов. Словарь (или фонетический словарь) представляет отображение

слов, находящихся в словаре, на последовательности фонем. На

последнем этапе распознавания речи происходит формирование

выходных данных [3].

Рис.2. Базовая модель системы распознавания речи

Традиционно системы распознавания речи классифицируют по следующим критериям:

Зависимость от диктора. Системы могут быть:

- дикторозависимые. В этом случае для работы модели необходимо, чтобы при обучении использовалась речь конкретного человека. Таким образом система будет распознавать ограниченный набор слов с высокой точностью;

- дикторонезависимые. В этом случае система будет распознавать речь любого пользователя, но в среднем хуже, чем дикторозависимая система [4].

Тип распознаваемой речи. Системы могут быть специализированы на распознавании:

- изолированных слов. В таком случае система будет распознавать отдельные слова в общем потоке информации;

- связанной речи. Система распознавания связанной речи позволяет говорящему произносить слова медленно с короткими паузами между каждым словом. Для лучшего качества распознавания это должна быть запланированная речь [5];

«Научные исследования и инновации»

- спонтанной разговорной речи. В данном случае подразумевается распознавания естественной человеческой речи;

- непрерывной речи. Позволяет пользователю говорить практически естественным образом без долгих пауз (также известно, как компьютерная диктовка) [3]. Является трудоемкой задачей, так как возникают трудности при разделении слов, поиском их начала и конца. Кроме того, на точность распознавания непрерывной речи влияет скорость речи.

Размер словаря. Классификация по размеру словаря следующая:

- небольшой объем словаря. Включает десятки слов;

- средний объем словаря. Включает сотни слов;

- большой объем словаря. Включает тысячи слов;

- очень большой объем словаря. Включает десятки тысяч слов

[4].

Для оценки качества работы систем ASR применяются следующие метрики:

Word Error Rate (WER) - процент неправильно распознанных слов. Представляет собой вычисление расстояния Левенштейна. Оно обозначает минимальное количество операций, необходимых для преобразования одной строки в другую. Данная метрика вычисляется по формуле:

S + D +1 WER = -

Т

где I - количество операций вставки, D - удаления, S - замены, T - общее количество слов в распознаваемом фрагменте.

Word Recognition Rate (WRR) - процент правильно распознанных слов. Вычисляется по формуле:

WRR = 1- WER

Word Correctly Recognized (WCR) - процент корректно распознанных слов. В данном случае не учитываются вставки слов, которые являются ошибочными:

Н

WCR = — • 100%, Н = N-D-S, где H - количество корректно распознанных слов.

Библиографический список:

1. Kamath U., Liu J., Whitaker J. Deep Learning for NLP and Speech Recognition. - 2019. - Jan. - pp.637.

2. Tebelskis J. Speech Recognition using Neural Networks. - 1995. -May. - pp. 190.

3. El-Ramly S. H., Abdel-Kader N. S., El-Adawi R. Neural networks used for speech recognition. // Proceedings of the Nineteenth National Radio Science Conference. - 2002. - pp. 200-207. - doi: 10.1109/NRSC.2002.1022622.

4. Ibrahim H., Varol A. A Study on Automatic Speech Recognition Systems. // 2020. 8th International Symposium on Digital Forensics and Security (ISDFS) - 2020. - pp. 1-5. - doi: 10.1109/ISDFS49300.2020.9116286.

5. Genesh A. Connected Speech Recognition System Supported Syllable based Speech Recognition System. // Journal of Advanced Research in Dynamical and Control Systems 4(special). - 2017. - Jun. - pp. 15-21.

6. Карпов А.А., Кипяткова И.С. Методология оценивания работы систем автоматического распознавания речи. // Известия высших учебных заведений. Приборостроение. - 2012. - Режим доступа: https://cyberleninka.ru/article/n7metodologiya-otsenivaniya-raboty-sistem-avtomaticheskogo-raspoznavaniya-rechi (дата обращения: 2021-06-22).

i Надоели баннеры? Вы всегда можете отключить рекламу.