МАТЕМАТИКА, ИНФОРМАТИКА И ИНЖЕНЕРИЯ
УДК 004
Бондаренко Е.В. студент 4 курса Клементьев С.А. студент 4 курса
направление подготовки Информационные системы и технологии ФГБОУ ВО «Поволжский государственный университет
телекоммуникаций и информатики»
Россия, г. Самара
РАСПОЗНАВАНИЕ И СИНТЕЗ РЕЧИ
Аннотация
Статья посвящена обзору технологий распознавания и синтеза речи. Рассмотрены схемы процесса обработки информации в них как в двух изолированных системах, решающих прямую или обратную задачу. Описаны сферы применения в повседневной жизни.
Ключевые слова: речевые технологии, синтез речи, распознавание речи, обработка речи.
Bondarenko E. V. Klementyev S.A.
3nd year student of direction training Information systems and technology «Povolzhskiy state university of telecommunications and informatics»
Russia, Samara
SPEECH PROCESSING
Abstract
This article provides an overview of recognition and speech synthesis technologies. The schemes of processing of information in them as the two isolated systems, the decisive direct or inverse problem. Describes the scope of application in everyday life.
Keywords: speech technology, speech synthesis, speech recognition, speech processing.
Новые возможности, которые предоставляют речевые технологии в технических системах, стимулируют интенсивные исследования в области разработки систем автоматического распознавания и синтеза речевых сигналов. Многие специалисты, разрабатывающие новые информационные технологии, системы искусственного интеллекта и автоматизированные системы различного назначения, стремятся оснастить их средствами речевого ввода - вывода информации.
Речевые технологии эффективно применяют в самых различных сферах деятельности, например, в автомобильной промышленности, для
управления функциями автомобиля с помощью голоса. Технологию автоматического распознавания речевых команд используют на заводах, новейшая разработка позволяет выделять речь человека при сильном производственном шуме и управлять техникой на предприятии. В медицине речевые технологии применяются для работы с людьми, которые имеют нарушения слуха или звукопроизношения. В банковской сфере используется технология голосового самообслуживания, которая предоставляет быстрый доступ клиентов к запрашиваемой информации. В настоящее время получает все большее распространение такое направление, как голосовая идентификация. Эта технология, подвергая анализу до 100 характеристик распознавания голоса, позволяет опознать определенного человека и обеспечивает ему доступ к сервисам банка. Это не только уменьшает скорость аутентификации клиента, но и увеличивает безопасность банковского счета.
Распознавание речи - это процесс преобразования речевого сигнала в цифровую информацию. Существуют две категории систем распознавания речи: системы распознавания слитной (связной) речи и системы распознавания изолированной (дискретной) речи. Системы распознавания слитной речи могут извлекать информацию из последовательностей слов, даже если эти слова следуют непрерывно одно за другим, как в обычной речи. Такие системы по уровню сложности занимают промежуточное положение между системами, предназначенными для распознавания коротких последовательностей цифр, и системами понимания речи. Системы распознавания изолированной речи требуют короткой паузы до и после каждого высказывания, которое должно рассматриваться как отдельный объект. Основное достоинство речевого ввода заключается в том, что он позволяет оператору быть мобильным и освобождает его глаза и руки для выполнения других операций. Распознавание речи является составной частью исследований, проводимых в более широкой области, которая получила название обработка речи. Эта область кроме распознавания речи включает в себя идентификацию говорящих с помощью ЭВМ, машинный синтез речи и воспроизведение хранящихся в ЭВМ речевых ответов, машинный анализ физического и психологического состояния говорящего, эффективную передачу устных разговоров, а также обнаружение речевых дефектов и помощь больным с нарушениями речи.
Синтез речи - процедура преобразования текста в речь. Задача этой операции состоит в том, чтобы озвучить текст, представленный на компьютере в виде символов. При синтезе для обеспечения высокого качества речи необходимы высокая скорость обработки данных и большая емкость памяти для хранения данных Синтез речи предполагает наличие определенных процедур (правил) модификации акустических характеристик каждой фонемы в зависимости от ее окружения, позиции в речевой единице, ударения, интонации и других факторов. Поэтому в системах синтеза речи по тексту чаще всего используют формантный синтез сигналов,
позволяющий в широких пределах изменять акустические характеристики звуков и таким образом моделировать эффекты редукции фонем, управлять мелодическим, ритмическим и динамическим контурами речи. С использованием формантного синтезатора достигается высокое качество синтезированной речи, однако возможности дальнейшего совершенствования ограничиваются в настоящее время неполнотой моделей речеобразования как в целом, так и части моделирования индивидуальных свойств человеческого голоса.
Рассмотрим схемы преобразования информации для распознавания и синтеза речи. Каждая речевая система заранее подвергается анализу для обнаружения более информативных блоков, оказывающих большое влияние на результат. Согласно итогам анализа формируются аспекты, разделяющие информацию по степени важности. Все данные, необходимые для обработки, разделяют на базовый материал (словари и таблицы) и правила. Словари используют для не представленной в виде правил информации. Таблицы рационально применять для информации, однозначно определяемой объектом. По итогам анализа блоков генерации речевого сигнала выделены самые информативные. В них были составлены в виде правил все необходимые сведения с целью формирования речевого сигнала. Для реализации правил сформированы таблицы по требуемым входным данным. Основой таблиц считаются физические и информативные данные. Рисунок 1 отображает внутренние и внешние данные, которые применяются для формирования речевого сигнала. Приведенная блок-схема является методологической основой систем синтеза речи. Сведения, на которых основываются конфигурации и формируются свойства получаемых данных, находятся в блоках левой части. Информация об этапе обработки и итог его исполнения расположены в средней части. Итог акцентируется курсивом, а через дефис отражен показатель результата. Правилами языка характеризуются блоки правой части, входящие в блоки центральной и левой части в виде таблиц, условий регулярности и алгоритмов преобразования.
w
Алфавит сои*а. Определение высказываний Синтаксис, грамматика семантика орфоэпия
таблица длитетъностей
1) символы - длительность. 2) высказывания - длительность
*
Словарь ударных слое Расстановка ударении Ритмика
орфоэпия
1) синвопы-ударность. 2} слоев - ударюсть и тип ударного слога
*
Словарь корректируемых последовательностей. Фонетическое Орфоэпия
словарь трансфибироеания транечэибироеание синтаксис
0 фонлтиивсхия знаки. 2) фонотииоски» слова. 3) высказывания
*
Алфавит языка. Расчет длительностей звуков Орфоэпия
Таблиц» длительностей синтаксис
1) фонетические знэми— длительность. 2) высюзываш/я - длительность
I
Таблица типов Расчет частоты основного тона Орфоэпия семантика, синтаксис
высказывании
1) фонетические знаки - длительность и изымете ЧОТ. 2) фонетически» слова -длительность и изменение ЧОТ. 3) высказывания - длительность U UllMHOHUQ ЧОТ
\ Г
Физическая реализация
Рис. 1. Схема преобразования печатного текста в речевого сигнала Универсальная модель синтеза речи аналогична распознаванию речевого сигнала. Различие заключается в том, что движение входных данных проходит в противоположном направлении. Рисунок 2 отображает внутренние и внешние данные, формирующие просодические характеристики. Приведенная схема описывает систему распознавания речевого сигнала для получения печатного текста на компьютере.
Таблица слов, таблицы синтаксических конструкций
Коэффициенты Первичная обработка, Орфоэпия, цифровая
фильтров фильтрация обработка сигналов
1) цифровое представление сигнала, 2) высказывания - длительность
*
Коэффициенты Сегментация Орфоэпия, цифровая
алгоритма сегментации обработка сигналов
1) цифровое представлен ив сигнала, 2) границы сегментов
*
Таблица свойств сегментов сигналов, классификатор Параметрическое описание Цифровая обработка
речевого сигнала сигналов
1) сегивнты сигнала, 2) свойства сваиентов
i
Таблица фонем. Определение фонем и их Морфология синтаксис, теория информации
свойства фоном последовательности
1) фонетические знаки • фонемы. 2) проекты слое, 3) проекты предложений
Формирование текста
Орфоэпий, морфология, синтаксис, теория информации
1) текст
Текст
Рис. 2. Схема распознавания речевого сигнала для получения печатного текста
Информация, на основе которой формируются признаки и конфигурации, распределена в блоках левой части. Средняя часть схемы состоит из двух образующих: этап обработки информации и результат его исполнения, который акцентируется курсивом. Правилами языка характеризуются блоки правой части, входящие в блоки центральной и
левой части в виде таблиц, условий регулярности и алгоритмов преобразования.
В заключении необходимо отметить, что системы автоматического распознавания и синтеза речи действительно вошли в нашу жизнь. Долгосрочная цель намеченных работ заключается в превращении устройства речевого ввода - вывода информации в обычный надежный канал связи с вычислительной машиной, по-настоящему полезной для пользователя. Исследования в области распознавания и синтеза речи могут стать мощным импульсом для развития вычислительной техники в будущем.
Использованные источники:
1. Анализ и синтез речи. Сборник научных трудов. Лобанов Б.М. 1991.
2. Методы автоматического распознавания речи: Том 1. Пер. с англ./Под ред. У. Ли. Мир 1983. 328 с.
3. Структура систем синтеза и распознавания речи. Мещеряков Р.В. Известия Томского политехнического университета. Инжиниринг георесурсов. 2009. Т. 315. № 5. С. 127-132.
УДК 004.358
Петров А.С. студент 3 курса
факультет «Информационных систем и технологий»
Тучкова А. С. старший преподаватель кафедра «Информационных систем и технологий» Поволжский Государственный Университет Телекоммуникаций и
Информатики Россия, г. Самара VR-ТЕХНОЛОГИИ ЧТО ОНИ НЕСУТ? Аннотация: В статье рассмотрена технология виртуальной реальности, области её применения, а также возможные перспективы развития.
Abstract: The article considers the technology of virtual reality, the field of its application, as well as possible development prospects.
Ключевые слова: Виртуальная реальность, технологии виртуальной реальности, Virtual Reality, virtual reality technology. VR - Что это?
VR или Виртуальная Реальность - созданный с помощью технических средств мир, воспринимаемый человеком посредством воздействия на органы чувств (слух, зрение, осязание и др.). В отличие от физической реальности, которую сложно изменить, виртуальную реальность можно изменить, буквально по взмаху руки. Области применения: Образование
Использование VR в образовании открывает много новых