Научная статья на тему 'РАСПОЗНАВАНИЕ РЕЧИ'

РАСПОЗНАВАНИЕ РЕЧИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
84
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ РЕЧИ / РЕЧЕВОЙ СИГНАЛ / РЕЧЕВЫЕ ТЕХНОЛОГИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мытников А. Н., Мытникова Е. А., Кузнецова Л. Н., Николаев М. С.

Проводится обзор существующих методов распознавания речи для создания речевого интерфейса компьютера. Для исследования данной проблемы применяются такие методы как анализ, сравнение, прогнозирование. Также раскрывается практическая значимость программ распознавания речи и дальнейшие перспективы технологии распознавания речи.A review of existing speech recognition techniques to create a speech computer interface. Apply methods such as analysis, comparison, and prediction to investigate this problem. Also disclosed are the practical importance of voice recognition software and the future prospects of speech recognition technology.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «РАСПОЗНАВАНИЕ РЕЧИ»

Web-приложения.

Если приложение не должно работать в online - режиме, можно сделать его в виде web-сервиса. Пользователь только должен иметь при себе адрес в сети Internet. Такой способ подходит тем приложениям, которые всегда в своей работе используют информацию из сети Internet.

При создании мобильного web-приложения программисты используют стандартные инструменты. Для разметки интерфейса программы используют HTML. Визуальную составляющую описывает CSS. А саму логику приложения выполняет JavaScript.

Данные технологии развивались долгое время, поэтому в настоящее время имеют богатый набор инструментов, которые ускоряют процесс подготовки приложения для использования. При разработке web-приложений для мобильных платформ нужно учитывать его особенности, такие как: ограниченный объем оперативной памяти и другие технические стороны.

Преимуществом web-приложений можно назвать время разработки. В целом, если учитывать, что можно взять в обработку сразу несколько разных платформ, время создания приложения ниже.

Одним из главных недостатков является производительность, а также скорость его работы. Производительность ниже, чем у нативных приложений, потому что появляется «тормозящая» цепь в звене в виде web-браузера.

Мытников А.Н. старший преподаватель кафедра компьютерных технологий

Мытникова Е.А. старший преподаватель кафедра компьютерных технологий

Кузнецова Л.Н. старший преподаватель кафедра компьютерных технологий

Николаев М.С. магистрант

ФГБОУВПО «Чувашский государственный университет им. И.Н. Ульянова» Россия, г. Чебоксары

РАСПОЗНАВАНИЕ РЕЧИ

Аннотация: Проводится обзор существующих методов распознавания речи для создания речевого интерфейса компьютера. Для исследования данной проблемы применяются такие методы как анализ, сравнение, прогнозирование. Также раскрывается практическая значимость программ распознавания речи и дальнейшие перспективы технологии распознавания речи.

Ключевые слова: распознавание речи, речевой сигнал, речевые технологии.

SPEECH RECOGNITION

Abstract: A review of existing speech recognition techniques to create a speech computer interface. Apply methods such as analysis, comparison, and prediction to investigate this problem. Also disclosed are the practical importance of voice recognition software and the future prospects of speech recognition technology.

Keywords: speech recognition, speech signal, the speech technology.

Процесс взаимодействия компьютера и человека являлся наиболее важным на всех этапах развития компьютерной техники. Человек всегда стремился к созданию универсального и естественного способа взаимодействия. Одним из таких способов является создание речевого интерфейса. Первые попытки его создания начались уже в 70-х годах 20 века. В настоящее время распознание речи широко распространено и используется в разных областях, в том числе для создания речевого интерфейса компьютера.

Развитие систем распознавания речи происходит в разных направлениях:

1. Разработки на программном уровне.

2. Разработки на аппаратном уровне.

3. Разработки теоретической базы для дальнейших исследований.

Исследования в области речевой технологий ведутся во всем мире.

Множество компаний занимаются данным вопросом, из них самые крупные: IBM, INTEL, MICROSOFT и AT&T. Эти корпорации по праву называются законодателями в области технологии распознавания речи, так как занимаются исследованиями на протяжении многих лет.

Исследованиями речевых технологий в России занимаются многие компании, такие как: Институт системного анализа РАН, «Истра-Софт», «СТЭЛ - Компьютерные Системы» и другие. Одним из главных направлений исследования является разработка системы распознания слитной речи на русском языке. Такие системы используются в обслуживании населения.

Институт системного анализа РАН [1] занимается разработками, которые ориентированы на решение следующих задач: развитие теоретической базы системы распознавания речи, разработка и программная реализация методов автоматического анализа речевых сигналов в реальном времени, которая позволяет повысить качество систем синтеза, а также распознавания и кодирования речи. Принципиальная новизна разработок состоит в использовании островного нейросетевого анализа речевого сигнала. Этот анализ позволяет выделить устойчивые признаки речевого сигнала и применить фонологические и другие «инженерные» знания (то

есть знания, основанные на содержательном исследовании процесса произнесения или процесса восприятия) о тонкой структуре речевого сигнала.

Разработки «Истра-Софт» [2] в области речевых технологий включают в себя следующие основные направления: сжатие речевых файлов, распознавание речи, синтез речи по тексту, идентификация личности по голосу. Был разработан алгоритм выделения фонем из слитной речи в реальном времени. Алгоритм производит адаптивный анализ параметров звуковой информации и отделение параметров голосовой щели от параметров артикуляционного фильтра, выделяет параметры сигнала, которые воспринимаются как определенный звук (фонема), включая интонацию, описывает все измеренные параметры математически кратко.

Компания «СТЭЛ - Компьютерные Системы» в сотрудничестве с ведущими специалистами филологического факультета МГУ им. М.В. Ломоносова, Вычислительного центра РАН и ряда других организаций выполняет проект по созданию прототипа дикторонезависимой системы распознавания русской речи [3]. С методологической точки зрения проект основан на применении современных методов обработки речевого сигнала и аппарата скрытых Марковских моделей для описания фонетических и семантико-синтаксических закономерностей русского языка.

Программы, которые распознают изолированные слова, показывают достаточный результат точности: 95-99% (точность зависит от уровня шума). Такие программы используются в современных приложениях. Задачи с распознанием слитной речи еще находятся в стадии разработки, но уже существуют системы с ограниченными словарями, такие как VoxReports и Verbmobil. У этих систем наблюдаются высокие показатели точности.

В процессе распознания речи важным этапом является выделение признаков, которые однозначно характеризуют речевой сигнал. Для анализа речевого спектра используют несколько математических методов. Самым распространенным методом является метод, основанный на преобразовании Фурье. Это преобразование используется в цифровой обработке сигналов и хорошо зарекомендовало себя в данной области. На основе преобразования Фурье разработано множество методик для обработки сигналов, но, не смотря на это, ведутся работы по поиску других методик для параметризации речи.

Один метод, который стал использоваться в последнее время - это вейвлет анализ. Данный метод применяют ученые по всему миру и многие из них считают метод перспективным.

При рассмотрении речевых показателей по методу функционирования можно отметить, что большая их часть относится к системам принятия решения с вероятностно-сетевыми методами. К ним относятся: метод динамического программирования, метод скрытого Марковского моделирования (СММ) и нейросетевой метод. Эти методы применяются для определения соответствия входного сигнала эталонному сигналу.

Нейронные сети используются для классификации характеристик речевого сигнала, а также для принятия решения о принадлежности к какой-либо группе эталонов. Нейросеть решает проблему с вариативностью речи посредством статистического усреднения. Почти все нейросетевые алгоритмы поддерживают параллельную обработку информации, осуществляемую за счет работы всех нейронов сети. Эта особенность системы позволяет увеличить скорость распознавания речи.

Этот метод приобретает все большую популярность, и многие разработчики распознавателей речи используют аппарат нейронных сетей [1,

4].

Технологии распознания речи широко распространены во многих областях деятельности человека. Но эти технологии еще до конца не разработаны, и многие идеи не реализованы. В настоящее время бурно развивается распознавание слитной речи. Именно эта тема является более перспективной [5, 6, 7].

При сравнении показателей современных систем распознавания речи и показателей систем в начале зарождения этой области науки можно сделать вывод, что исследования продвинулись не так далеко, как хотелось. Из-за этого мнения ученых по данному вопросу разделились. Одни считают, что речевой интерфейс не будет разработан в ближайшем будущем. Другие считают, что задача практически решена. В том же время большинство ученых уверены, что для создания интерфейса потребуется больше времени, чем планировалось раньше.

Использованные источники: http://www.isa.ru/ [Электронный ресурс] Федеральный исследовательский центр «Информатика и управление» Российской академии наук Институт системного анализа.

http://www.istrasoft.ru [Электронный ресурс] Компания «Истра-Софт». http://www.stel.ru/ [Электронный ресурс] Компания «СТЭЛ - Компьютерные Системы».

http: //www.w3 .org/TR/2004/PR-voicexml20-20040203/ [Электронный ресурс] Голос. Версия 2.0.

Алюнов Д.Ю. Классификация помех и искажений в речевом сигнале // Наука и образование в жизни современного общества: сборник научных трудов по материалам Международной научно-практической конференции: в 12 частях — 2015 — С. 14-15.

Алюнов Д.Ю., Сергеев Е.С., Пигачев П.В., Мытников А.Н. Реализация алгоритма обработки и распознавания речи // Современные наукоемкие технологии. - 2016. - № 3-2.

Сергеев Е.С., Пигачев П.В. Дифонный синтезатор речи // Теоретические и прикладные аспекты современной науки — 2014. — № 6-3.—С.114-116.

i Надоели баннеры? Вы всегда можете отключить рекламу.