Научная статья на тему 'МЕТОДЫ И АЛГОРИТМЫ РАСПОЗНАВАНИЯ РЕЧИ С ДЕФЕКТНЫМИ ПРОИЗНОШЕНИЯМИ'

МЕТОДЫ И АЛГОРИТМЫ РАСПОЗНАВАНИЯ РЕЧИ С ДЕФЕКТНЫМИ ПРОИЗНОШЕНИЯМИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
651
89
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ РЕЧИ / ДЕФЕКТЫ ПРОИЗНОШЕНИЯ / НЕЙРОННЫЕ СЕТИ / МАРКОВСКИЕ МОДЕЛИ / МЕТОДЫ РАСПОЗНАВАНИЯ РЕЧИ / РЕЧЕВЫЕ СБОИ / АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / АНАЛИЗ РЕЧИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Якубов М.С., Умурзакова Д.М.

Данная статья посвящена проблеме к системам синтеза и распознавания речевых технологий. Рассматривается метод анализа акустических данных, позволяющий классифицировать по голосовым командам пользователя и неречевым звукам текущую ситуацию в помещении и принять меры в случае возникновения чрезвычайных обстоятельств.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Якубов М.С., Умурзакова Д.М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «МЕТОДЫ И АЛГОРИТМЫ РАСПОЗНАВАНИЯ РЕЧИ С ДЕФЕКТНЫМИ ПРОИЗНОШЕНИЯМИ»

- Систему автоматического сопровождения по направлению (АСН), обеспечивающую устойчивое автосопровождение объекта связи в зоне уверенного захвата пеленгационной характеристики системы АСН.

- Радиоприемного устройства, обеспечивающего формирование сигнала «Связь», свидетельствующего о приеме информации с заданным качеством.

- Система управления антенной системой, обеспечивающий анализ текущего состояния системы управления АС, формирование сигналов управления сервоприводом для обеспечения пространственной ориентации АС в соответствии с полетным заданием и алгоритмом пространственного сканирования.

Таким образом, наиболее важной составляющей беспилотного авиационного комплекса является система управления и связи.

Список литературы:

1. www.dpla.ru.

2. www.ispl.ru/Sistemy_upravleniya-BLA.html.

3. Беспилотные летательные аппараты / С.В. Ганин, А.В. Карпенко, В.В. Колногоров, Г.Ф. Петров. - СПб.: Невский бастион, 1999. - 160 с.

МЕТОДЫ И АЛГОРИТМЫ РАСПОЗНАВАНИЯ РЕЧИ С ДЕФЕКТНЫМИ ПРОИЗНОШЕНИЯМИ

© Якубов М.С.1, Умурзакова Д.М.2

Ташкентский университет информационных технологий, Узбекистан, г. Ташкент Ферганский филиал Ташкентского университета информационных технологий, Узбекистан, г. Фергана

Данная статья посвящена проблеме к системам синтеза и распознавания речевых технологий. Рассматривается метод анализа акустических данных, позволяющий классифицировать по голосовым командам пользователя и неречевым звукам текущую ситуацию в помещении и принять меры в случае возникновения чрезвычайных обстоятельств.

Ключевые слова: распознавание речи, дефекты произношения, нейронные сети, Марковские модели, методы распознавания речи, речевые сбои, автоматическое распознавание речи, анализ речи.

1 Профессор кафедры «Информационные технологии» Ташкентского университета информационных технологий, доктор технических наук, професор.

2 Ассистент кафедры «Информационные технологии» Ферганского филиала Ташкентского университета информационных технологий.

Задача распознавания речи в последнее время заняла одно из важных мест в системах распознавания. Существующие системы на данный момент еще далеки от совершенства: ограниченный объем словаря, высокий процент ошибок, настройки на конкретного диктора - вот далеко не полный список проблем, которые предстоит решить.

Хорошо известно, что речь человека характеризуется высокой степенью изменчивости. Это обусловлено несколькими причинами. Во-первых, даже для одного и того же говорящего, реализации одних и тех же акустических единиц будут отличаться по своему спектральному составу и длительности произношения. Это может быть связано с изменениями эмоционального состояния человека, условий, в которых он находится. Во-вторых, наличие ко артикуляционных эффектов приводит к тому, что произношение слов и фонем сильно зависит от их контекста. В-третьих, к изменениям в речевом сигнале приводят помехи различного характера. Принимая во внимание все эти факторы, и учитывая ряд других ограничений, следует отметить, что для высококачественного распознавания речи в реальном времени требуются вычислительные средства с высоким быстродействием. Одним из способов снижения этого требования является распараллеливание вычислений, которое естественным образом достигается при использовании искусственных нейронных сетей, реализованных на нейрокомпьютерах [1].

Речевые сбои являются одним из основных отличий спонтанной речи от подготовленной речи, и тем более от письменного текста. Очень немногие из нас обладают способностью гладко и красноречиво оформлять свои мысли, не передумывая, не сомневаясь и не сбиваясь, поэтому можно утверждать, что одна из основных черт спонтанной речи - это наличие пауз, хези-таций, повторений, само коррекций, усеченных слов и т.п. Подобные речевые сбои являются препятствием для компьютерной обработки как звучащей речи, так и ее транскрипций.

Автоматическое распознавание речи (АРР или, в английской терминологии, automatic speech recognition - ASR) - это преобразование звучащей речи в текст. Существует несколько категорий систем распознавания речи, которые имеют различные сферы применения:

1. Распознавание отдельных команд, которое применяется в коммерческих приложениях (голосовое управление, навигация по сайтам);

2. Поиск ключевых слов в потоке речи (поисковые системы);

3. Распознавание слитной речи на большом словаре (автоматическая расшифровка записей - создание стенограмм).

Также системы распознавания речи характеризуются степенью зависимости от настройки на речь конкретного диктора: различают дикторо-зави-симые и дикторо-независимые системы.

Хотя речевые сбои дикторов изучались и ранее, формально их исследование началось только в 50-х гг. ХХ в., независимо развиваясь в рамках раз-

ных дисциплин: психологии, лингвистики, физиологии. Американский психолог Венделл Джонсон внес существенный вклад в исследование заиканий. В рамках общей лингвистики речевыми сбоями среди других ученых занималась Фрейда Голдман-Эйслер. Существенный вклад в исследование речевых сбоев в психотерапии внес Джордж Ф. Маль со своими коллегами. С тех пор речевые сбои стали изучать в разных научных областях (изучение заикания, общая лингвистика, когнитивная психология, психология сознания, фонетика, гендерные исследования, психология, акустика, технологии обработки языка и речи и т.д.). Несмотря на многосторонние исследования речевых сбоев, общепринятая терминология в этой области пока не сложилась. Для описания этих явлений существуют различные варианты альтернативных терминов; например, в англоязычной литературе можно встретить такие термины, как «non-fluency», «dysfluency», «discontinuity», «flustered speech», «speech disturbance», «hesitation», «speech management», «own communication management», «turnholding devices» и др. В русскоязычной литературе их иногда рассматривают в рамках фонационных паралингвистиче-ских явлений, также можно встретить термины «внеязыковые элементы речи», «речевые сбои».

Задача распознавания дефектов в первую очередь сводится к задаче классификации, задаче четкого разделения на два класса - на правильное и неправильное произношение (а уже потом - разделения класса неправильного произношения на виды неправильного произношения) [2].

Рассмотрена архитектура современных систем распознавания речи. Входными данными является сам сигнал в формате .wav или голос с микрофона.

Процесс распознавания речи включает следующие этапы:

1) предварительная обработка сигнала;

2) преобразование сигнала в секторы особенностей;

3) распознавание речевой части (классификация).

Первая задача инвариантна, и существует достаточно много решений этой задачи, вторая и третья специфические, где методы их решения будут рассмотрены ниже.

Перед тем как предпринимать попытки распознавания речи, необходима предварительная обработка речевого сигнала.

Большинство современных систем автоматизированного распознавания используют модульную архитектуру. Модуль предварительной обработки включает в себя: блок шумоочистки, где повышается качество сигнала; блок детектора голоса, где выделяются участки, содержащие речь. Следующий модуль выделения информативных признаков речевого сигнала - преобразование сигнала в векторы особенностей, где участки, содержащие речь, превращаются в наборы коэффициентов, которые в дальнейшем поступают в блок распознавания (классификации):

1) получение спектра частот речевого сигнала с помощью набора программных полосовых фильтров (ДПФ);

2) преобразования полученного спектра речевого сигнала:

а) логарифмическое изменение масштаба в пространстве амплитуд и частот;

б) сглаживание спектра с целью выделения его огибающей;

в) кепстральный анализ, т.е. обратное преобразование Фурье от логарифма прямого преобразования.

Таким образом, на выходе главного модуля мы получаем информацию о наличии команды или ее отсутствии, само распознанное слово, или, как для нашего случая, это правильно или неправильно произнесено слово. В самом блоке распознавания могут использоваться существующие методы распознавания речи:

1) метод распознавания речи на основе сравнения с эталоном - временные динамические алгоритмы, динамическое программирование;

2) методы распознавания на основе контекстно-зависимой классификации - методы дискриминантного анализа, основанные на Байесовской дискриминации, Скрытые Марковские модели, Нейронные сети.

В качестве методов распознавания можно выделить метод Mel-Cepstrum (МБСС), метод моделей заполнителей, метод скользящего окна и т.д.

Исследования речевых сбоев показали, что человек легко выделяет их из речи. Но для системы автоматического распознавания речи не определено, на основании каких признаков должен производиться анализ, какие знания следует привлекать в ходе сегментации и классификации. Поэтому пока не созданы адекватные модели речевых сбоев, обеспечивающие их обработку в автоматическом режиме. Тем не менее данное направление является крайне актуальным: всевозможные речевые сбои, такие как заполненные паузы, удлиняют высказывания. Также они вызывают различного рода ошибки вследствие того, что системы распознавания обучаются на структурированных предложениях без речевых сбоев, что приводит к формированию ошибочных транскрипций.

Методы обработки речевых сбоев можно разделить по признаку описания их с помощью акустических моделей или с помощью комбинированных моделей (языковые + акустические). Но в силу объективных причин (временные и экспертные затраты) исследователи часто используют только акустические модели речевых сбоев для реализации их в системах автоматического распознавания речи.

Метод МБСС чаще используется для второго и третьего этапа, где в конце третьего этапа применяется простой алгоритм классификации (^-ближайших соседей).

МБСС обычно получают следующим образом:

а) получение преобразования Фурье взвешенного сигнала (в нашем случае окно Хэмминга);

б) отображение спектра мощности, полученного с использованием треугольных перекрытых окон, на Мела-шкале;

в) логарифмирование квадрата каждой Mel частоты;

г) использование дискретного косинусного преобразования вышеупомянутого, как будто это был сигнал.

Задача распознавания речи также решается с помощью Марковских моделей, однако вторая и третья задача тут взаимосвязаны и составляют неразрывно связную систему, в которой все найденные вероятности, к данной ли единице распознавания принадлежит входной сигнал, анализируются и система обучается.

Скрытая Марковская модель (СММ) - это модель, состоящая из N состояний, где некоторая система может принимать одно из М значений какого-либо параметра. Скрытой Марковской моделью называется тройка X = {A, B, п}.

Одним из ярких примеров систем распознавания речи, использующих СММ, является Sphinx. CMUSphinx - это независимый от диктора распознаватель непрерывной речи, использующий Скрытую Марковскую модель и n-граммную статистическую языковую модель [3].

Для построения этой системы применимы СММ и ИНС, так как они оба имеют общие алгоритмы, в которых нужно задать свою обучающую выборку и правильно обучить систему. В первом случае применяются вероятности появления дефекта в звуковой последовательности; на входе - звуковой файл, а на выходе - вероятность дефекта в этом файле. Во втором, система обучается на тестовой выборке, где на входе подаются звуковые файлы, а на выходе - решение о том, дефект это или нет.

Для решения задачи выявления дефектов подходит такой метод распознавания речи, как Искусственные нейронные сети, где можно создать систему и обучить ее классификации на два класса: правильное и неправильное произношение. В настоящее время проводится работа по разработке архитектуры системы, в которой используется искусственная нейронная сеть. Эта система предназначена для автоматизированной поддержки логопедов на первоначальной стадии коррекции речи.

Список литературы:

1. Кипяткова И.С., Карпов А.А. Аналитический обзор систем распознавания русской речи с большим словарем // Труды СПИИРАН. - 2010. -Вып. 12. - С. 7-20.

2. Карпов А., Ронжин А., Лобанов Б. и др. Разработка бимодальной системы аудиовизуального распознавания русской речи // Информационноиз-мерительные и управляющие системы. - 2008. - Т. 6, № 10. - С. 58-62.

3. Veiga A., Candeias S., Lopes C., Perdigäo F. Characterization of hesitations using acoustic models // In Proc. of the 17th International Congress of Phonetic Sciences (ICPhS XVII). Hong Kong, China, 2011. - Р. 2054-2057.

i Надоели баннеры? Вы всегда можете отключить рекламу.