Параметры и классификация систем распознавания речи

Алимурадов Алан Казанферович

РАЗДЕЛ 2 МОДЕЛИ, СИСТЕМЫ, МЕХАНИЗМЫ В ТЕХНИКЕ

УДК 621.391; 519.21

ПАРАМЕТРЫ И КЛАССИФИКАЦИЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ

А. К. Алимурадов

CHARACTERISTICS AND CLASSIFICATION OF SPEECH RECOGNITION

A. K. Alimuradov

Аннотация. Рассмотрено современное состояние распознавания речи, представлена классическая схема системы распознавания, дано описание функциональных узлов схемы. Рассмотрены основные параметры систем распознавания речи и представлена их классификация.

Ключевые слова: распознавание речи, классификация систем распознавания, речевые сигналы.

Abstract. The paper considers the current state of speech recognition is a classical scheme of the recognition system, describes the functional units of the scheme. The basic parameters of speech recognition systems and presented their classification.

Key words: speech recognition, classification systems, recognition, voice signals.

В связи с успехами развития вычислительной техники и новых информационных технологий в последнее десятилетие определилась тенденция к нарастанию сложности управляющих систем, а также всех прочих видов «человеко-машинного» управления. Важной является возможность взаимодействия человека с машиной на языке, максимально приближенном к естественному языку человека. Применение распознавания речи в управляющих системах в качестве интерфейса взаимодействия «человек-машина» позволяет организовать эффективное и удобное взаимодействие пользователя с системой.

Известно, что речь включает в себя несколько видов информации [1]. Основной вид информации - семантическая, которая передает содержание сообщения, его смысл. Однако данным видом информации роль речи в общении людей не исчерпывается: большое значение имеет просодия - эмоциональная окраска речи (интонация). Просодия включает информацию о физическом и эмоциональном состоянии говорящего (ирония, шутка и т.п.). И, наконец, речь, как и любой акустический звук, содержит информацию о положении источника звука в пространстве [2].

С точки зрения акустической теории [2] речь представляет собой акустический сигнал, который можно разделить на смысловые единицы - слова. Набор слов представляет фразу, при этом слова состоят из отдельных звуков. Для задачи распознавания важны только основные, самостоятельные звуки, отличающие слова друг от друга, которые называются фонемами. Фонема не является одиночным звуком и может быть представлена как серия звуков с похожими характеристиками, которые называются аллофонами. В зависимости от расположения фонем по соседству они звучат по-разному по причине влияния. Этот эффект называют коартикуляцией. По вышеназванной причине некоторые системы распознавания речи работают не с фонемами, а с более сложными звуковыми единицами: дифонами, трифонами. Дифон - это сочетание основной фонемы и соседней с ней (до основной или после). Трифон - это сочетание основной фонемы и двух соседних с ней (до и после основной) [3].

На рис. 1 представлена классическая функциональная схема системы распознавания речи, состоящая из следующих функциональных узлов:

- микрофон;

- блок обработки;

- блок анализа.

Рис. 1. Классическая функциональная схема системы распознавания речи

Важно отметить, что с учетом программного и аппаратного обеспечения внутреннее устройство блоков системы распознавания речи гораздо сложнее.

Речь в виде звуковых волн фиксируется микрофоном, который преобразует их в аналоговый речевой сигнал.

В блоке обработки аналоговый сигнал преобразуется в цифровую форму, проходит фильтрацию и предварительную коррекцию, разбивается на участки, в которых происходит выделение акустических параметров для дальнейшего анализа. Блок анализа обычно включает акустический, лингвистический и семантический анализы. Анализируются наборы акустических параметров со звуковыми образами слов в виде эталонов или моделей, совокупность которых называется словарем. Обычно словарь создается на этапе разработки системы и может дополняться и корректироваться в последующем при эксплуатации под конкретного пользователя. Процесс создания эталонов часто проходит в интерактивном режиме и носит название обучения системы [3].

Распознавание отдельных речевых команд проще, чем распознавание слитной речи и не требует больших вычислительных мощностей. Именно по этой причине на сегодняшний день существует огромный выбор программного и аппаратного обеспечения, имеющего небольшую стоимость и умеренное качество распознавания [3]. Однако тесты показывают, что системы так и не преодолели уровень распознавания в 80 %, тогда как у человека этот показатель составляет 96-98 %.

Для того чтобы дать полную оценку современному состоянию систем распознавания речи, автором была представлена классификация систем по следующим основным параметрам [4, 5].

Техническое исполнение. Все системы распознавания речи по техническому исполнению можно разделить на программные продукты и программно-аппаратные средства. Первые реализуются в виде программного обеспечения, инсталлируемого на компьютеризированную технику, вторые представляют собой законченное устройство.

Назначение. От назначения системы зависит «глубина распознавания». Под термином «глубина распознавания» условно подразумевается качество, которое в зависимости от назначения системы можно изменять с помощью подключения или отключения дополнительных средств (фонетический анализ, лексический анализ, грамматический анализ и др.). По этому параметру все системы распознавания подразделяются на три вида:

- командные системы;

- системы диктовки;

- системы распознавания.

Персонализация. Под этим параметром скрывается зависимость (или независимость) системы распознавания от диктора. Все системы распознавания речи делятся на дикторозависимые и дикторонезависимые системы. Первые предназначены для работы только с одним пользователем (система обучена для одного человека), вторые предназначены для работы с любым пользователем.

Тип речи. Речь пользователя условно можно разделить на слитную и раздельную. Если слова в речи разделены между собой участками тишины, то такая речь считается раздельной. К слитной речи относятся естественно произнесенные предложения. По типу речи системы распознавания подразделяются на системы, распознающие раздельную речь, и системы, распознающие слитную речь.

Размер словаря. Под размером словаря систем распознавания понимается количество слов, которое система может распознать. Чем больше размер словаря, тем больше вероятность появления ошибок при распознавании и, соответственно, наоборот. Например, словарь, состоящий из десяти слов, может быть распознан практически без ошибок, тогда как в словаре из десяти тысяч слов вероятность ошибки достигает 45 %. Таким образом, системы распознавания делятся на системы с ограниченным словарем и системы со словарем большого размера.

Тип структурной единицы. При распознавании речи в качестве структурной единицы могут быть выбраны отдельные слова или части произнесенных слов, такие как фонемы, аллофоны, дифоны и трифоны. Системы, использующие при распознавании слова целиком или фразы, называются системами распознавания по эталону. Создание таких систем менее трудоемко в отличие от систем, распознающих минимальные структурные единицы речи: фонемы, аллофоны, дифоны и трифоны. Таким образом, системы распознавания по типу структурной единицы делятся на системы распознавания по эталону и системы распознавания по структурной единице.

Принцип выделения. В настоящее время в системах распознавания речи используются несколько методов выделения из речи структурных единиц:

- анализ Фурье;

- кепстральный анализ;

- вейвлет-анализ.

Важно отметить, что последовательность отсчетов давления звуковой волны чрезмерно избыточна для систем распознавания речи и содержит много лишней информации, которая в принципе не нужна либо даже вредна.

Поэтому в зависимости от поставленных задач необходимо грамотно выбрать метод выделения структурной единицы, позволяющий адекватно представлять сигнал для распознавания.

Механизм функционирования. В современных системах распознавания широко используются различные подходы к механизму функционирования, среди которых наибольшую популярность получили следующие:

- скрытые марковские модели;

- динамическое программирование;

- нейросетевой метод;

- экспертные системы;

- простейшие детекторы.

Обобщив все вышеперечисленное, можно представить классификацию систем распознавания речи (рис. 2).

Рис. 2. Классификация систем распознавания

Список литературы

1. Фролов, А. В. Синтез и распознавание речи. Современные решения / Г. В. Фролов. - М. : Связь, 2003. - 216 с.

2. Фант, Г. Акустическая теория речеобразования / Г. Фант ; пер. с англ. Л. А. Варшавского, В. И. Медведева ; науч. ред. В. С. Григорьева. - М. : Наука, 1964. - 284 с.

3. Рабинер, Л. Р. Цифровая обработка речевых сигналов / Л. Р. Рабинер, Р. В. Шафер. -М. : Радио и связь, 1981. - 496 с.

4. Xuedong, H. Spoken Language Processing: A Guide to Theory, Algorithm and System Development / Huang Xuedong. - New Jersey : Prentice Hall PTR, 2001. - 1008 p.

5. Чесебиев, И. А. Компьютерное распознавание и порождение речи / И. А. Чесеби-ев. - М. : Спорт и культура, 2008. - 128 с.

Алимурадов Алан Казанферович

соискатель,

кафедра информационно-измерительной техники,

Пензенский государственный университет E-mail: alansapfir@yandex.ru

Alimuradov Alan Kazanferovich applicant,

sub-department of information and measuring equipment, Penza State University

УДК 621.391; 519.21 Алимурадов, А. К.

Параметры и классификация систем распознавания речи / А. К. Алимурадов // Модели, системы, сети в экономике, технике, природе и обществе. - 2014. -№ 1 (9). - С. 79-84.

Параметры и классификация систем распознавания речи Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алимурадов Алан Казанферович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алимурадов Алан Казанферович

CHARACTERISTICS AND CLASSIFICATION OF SPEECH RECOGNITION

Текст научной работы на тему «Параметры и классификация систем распознавания речи»