Научная статья на тему 'Реализация нейросетевой обработки сегментов при линейном предсказании речи'

Реализация нейросетевой обработки сегментов при линейном предсказании речи Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
161
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВОЙ СИГНАЛ / НИЗКОСКОРОСТНОЕ КОДИРОВАНИЕ РЕЧИ / МЕТОД ЛИНЕЙНОГО ПРЕДСКАЗАНИЯ / НЕЙРОННЫЕ СЕТИ

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Афанасьев А. А., Рыжков А. П.

Рассмотрен метод линейного предсказания речевого сигнала с точки зрения снижения скорости передачи с сохранением приемлемого качества. Предложено использование нейронных сетей классификаторов, позволяющих отказаться от передачи сигнала возбуждения на приемной стороне.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IMPLEMENTATION OF THE NEURAL NETWORK PROCESSING SEGMENTS IN LINEAR PREDICTION SPEECH

The considered problem of the method of linear prediction of speech signals in the context of the downward speed transmission with preservation of acceptable quality. Suggested that the use of neural networks classifiers, to refuse to transfer the signal excitation filter synth the reception.

Текст научной работы на тему «Реализация нейросетевой обработки сегментов при линейном предсказании речи»

КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ В ИССЛЕДОВАНИИ, ПРОЕКТИРОВАНИИ И ПРОИЗВОДСТВЕ СИСТЕМ И КОМПЛЕКСОВ

УДК 621.391

А.А. Афанасьев, канд. техн. наук, доц., (4862) 47-01-97, Afanasjev.Adr@yandex.ru (Россия, Орёл, Академия ФСО России), А.П. Рыжков, преподаватель, (4862) 47-01-97, PanzerT35@yandex.ru (Россия, Орёл, Академия ФСО России)

РЕАЛИЗАЦИЯ НЕЙРОСЕТЕВОЙ ОБРАБОТКИ СЕГМЕНТОВ ПРИ ЛИНЕЙНОМ ПРЕДСКАЗАНИИ РЕЧИ

Рассмотрен метод линейного предсказания речевого сигнала с точки зрения снижения скорости передачи с сохранением приемлемого качества. Предложено использование нейронных сетей-классификаторов, позволяющих отказаться от передачи сигнала возбуждения на приемной стороне.

Ключевые слова: речевой сигнал; низкоскоростное кодирование речи; метод линейного предсказания; нейронные сети.

При цифровой обработке речевых сигналов эффективное кодирование речевых данных для их передачи по цифровым каналам связи является одной из основополагающих задач. Ее решение позволяет увеличить пропускную способность линейных трактов и каналов передачи при заданных критериях качества связи. Одним из принципов построения систем обработки и передачи речи выступает снижение скорости передачи при сохранении качественных показателей синтезированного речевого сигнала.

Большинство известных способов кодирования речевых сигналов основываются на методе линейного предсказания. В его основе лежит модель речевого сигнала в виде отклика линейной системы с переменными параметрами (голосового тракта) на соответствующий сигнал возбуждения (порождающий сигнал) на коротких временных интервалах одинаковой длины порядка 5-30 мс. При этом анализатор речепреобразующего устройства выделяет из короткого сегмента речевого сигнала параметры состояния линейной системы и сигнала возбуждения, позволяющие синтезатору восстановить исходный сигнал с требуемой степенью верности.

Известны способы обработки речевых сигналов в вокодерах с линейным предсказанием, основанные на анализе сигнала ошибки линейного предсказания. Данные способы осуществляют анализ сигнала ошибки линейного предсказания с целью генерации сигналов возбуждения фильтра -синтезатора, так как сигнал остатка предсказания является наилучшим сигналом возбуждения синтезирующего фильтра линейного предсказания [1, 2]. В таком случае по каналу связи передается информация о коэффициентах формирующей модели, параметрах, характеризующих сигнал возбуждения и кодируемый речевой сигнал. Однако существенным недостатком является значительное расходование информационного ресурса на представление сигнала возбуждения при его передаче по каналу связи, и, следовательно, относительно высокая скорость передачи данных по каналам связи при эффективном кодировании речи [3].

Для эффективного представления сигнала возбуждения используются различные способы снижения его информативной избыточности. Известен следующий подход [4], в котором для создания сигнала возбуждения в вокодере на основе линейного предсказания на приеме из кадра передачи выделяются параметры синтезирующего фильтра, содержащие информацию о коэффициентах предсказания или линейных спектральных частотах, а также значение коэффициента усиления сигнала возбуждения. Используя эти данные, рассчитывается амплитудно-частотную характеристику синтезирующего фильтра на фазовых углах его полюсов и формируется спектр амплитуд и фаз сигнала возбуждения, затем формируется сигнал возбуждения на основе данных о коэффициенте усиления и спектрах его амплитуд и фаз, который используется в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности. Невысокое качество синтезированного речевого сигнала, которое объясняется отсутствием при восстановлении оригинального сигнала возбуждения и случайностью распределения начальных фаз в спектре сигнала возбуждения, не позволяет широко использовать данное решение для низкоскоростных приложений речевого кодирования.

Для устранения выявленного недостатка предлагается заменить процедуру синтеза сигнала возбуждения на приемной стороне процедурой его идентификации [5]. Выявлена возможность использования нейросете-вых технологий для осуществления данной процедуры идентификации, что приводит к сохранению качества речи (или даже незначительном его повышении при фиксированной скорости передачи). Для этого в низкоскоростных вокодерах с линейным предсказанием на приеме из кадра передачи выделяются параметры, описывающие передаточную функцию голосового тракта, а также значения коэффициента усиления сигнала возбуждения и данных, характеризующих кодируемый речевой сигнал, затем при помощи обу-

ченной нейронной сети идентифицируется сигнал ошибки линейного предсказания, который является сигналом возбуждения и далее он используется в синтезирующем фильтре вокодера с линейным предсказанием для формирования сегмента речевого сигнала на участке квазистационарности.

Известно, что нейроные сети хорошо решают задачи классификации и идентификации сигналов, в том числе и речевых. Для корректного функционирования нейронной сети - классификатора необходимо предварительное обучение нейронной сети на тестовых примерах (отрезках речевых сигналов) дикторов. В качестве нейронных сетей - классификаторов предлагается использовать нейронные сети на основе радиальных базисных функций (radial-basis function network - RBF), которые позволяют преобразовать пространство входных векторов (множество входных сигналов) большой размерности в пространство выходных векторов (множество выходных сигналов) иной, зачастую меньшей размерности. Архитектура таких сетей предполагает наличие трех слоев, выполняющих различные функции. Входной слой состоит из сенсорных элементов, на которые подаются сигналы, описывающие модель речеобразования. Второй слой является скрытым слоем, осуществляющим нелинейное преобразование входного пространства в скрытое. Использование скрытых нейронов, соединяемых связями с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций.

Основу функционирования радиальных сетей составляет теорема Т. Ковера о распознаваемости образов, в соответствии с которой нелинейные проекции векторов в некоторое многомерное пространство большей размерности могут быть линейно разделены с большей вероятностью, чем при их проекции в пространство с меньшей размерностью [6]. Доказано, что множество векторов, случайным образом размещенных в многомерном пространстве, является ф -разделяемым с вероятностью 1 при условии соответственно большей размерности K этого пространства. Это означает, что применение достаточно большого количества скрытых нейронов, реализующих радиальные функции фг- (х), гарантирует решение задачи классификации при построении трехслойной сети: скрытый слой должен реализовать вектор ф(х), а выходной слой может состоять из единственного линейного нейрона, выполняющего суммирование выходных сигналов от скрытых нейронов с весовыми коэффициентами, заданными вектором w. Cеть функционирует по принципу многомерной интерполяции, состоящей в отображении p различных входных векторов х (i = 1,2,..., p) из входного N -мерного пространства во множество из p рациональных чисел di (i = 1,2,..., p). Для реализации этого процесса необходимо использовать p скрытых нейронов радиального типа и задать такую функцию отображе-

Ф11 Ф12 . .. Ф1 р Wl dl

Ф21 Ф22 . .. Ф2 р W2 = d 2

ф р1 ф р 2 . .. ф рр ^р _ _(1р _

ния ^ (х), для которой выполняется условие интерполяции Г (х ) = di. Использование р скрытых нейронов, соединяемых связями с весами wi с выходными линейными нейронами, означает формирование выходных сигналов сети путем суммирования взвешенных значений соответствующих базисных функций. Взимосвязь между входными и выходными сигналами сети может быть определена системой уравнений (1), линейных относительно весов wi, которая имеет вид

(1)

где ф ^ = (х^ - х1 ) определяет радиальную функцию с центром в точке хг с вынужденным вектором х^.

Использование в разложении р базисных функций, где р -это количество обучающих выборок с практической точки зрения является неудобным, поскольку значительно возрастает вычислительная сложность обучающего алгоритма, а решение системы уравнений (1) становится затруднительным. В таком случае субоптимальное решение ищется в пространстве меньшей размерности, которое с достаточной точностью аппроксимирует точное решение. При К-базисных функциях аппроксимирующее решение можно представить в виде

ф(| х - сг||), (2)

г =1

где К < р,Сг (г = 1,2,...,К) - множество центров, которые необходимо определить. При К = р возможно получение точного решения Сг = хг.

Задача аппроксимации состоит в подборе соотвествующего количества радиальных функций ф(|х - Сг 11) и их параметров, а также в таком подборе весов Wj (г = 1,2,...,К), чтобы решение уравнения (2) было наиболее близким к точному. Подбор указанных параметров и весов сводится к минимизации целевой функции следующего вида:

г -|2

р К

Е = £ £ Щф(|хг - Сг ||)- di . (3)

г=0=1 _

В уравнении (3) К представляет собой количество радиальных нейронов, а р - количество обучающих пар (хг, di), где хг - это входной вектор, а di - соответствующая ему ожидаемая величина.

Чаще всего в качестве радиальной функции применяется функция Гаусса. При размещении ее центра в точке с7 она может быть определена как

ц2

ф(*) = ф(|* - |)= ехр

IIх С1 ц 2аг 2

(4)

где а I - параметр, от значения которого зависит ширина функции.

Решение, представляющее аппроксимирующую функцию в многомерном пространстве в виде взвешенной суммы локальных базисных радиальных функций, может быть интерпретировано радиальной нейронной сетью, представленной на рис. 1, в которой фг определяется зависимостью (4). Это сеть с трехслойной архитектурой, в которой только скрытый слой выполняет нелинейное отображение, реализуемое нейронами с базисными радиальными функциями. Выходной нейрон линеен, а его роль сводится к взвешенному суммированию сигналов, поступающих от нейронов скрытого слоя.

Рис. 1. Обобщенная структура радиальной сети ЯВЕ

Предложенная структура нейронной сети выполняет функцию классификатора как параметров описывающих передаточную функцию голосового тракта, так и идентификатора векторов коэффициентов линейного предсказания. При анализе сегмента речевого сигнала на передающей стороне создается вектор параметров описывающих передаточную функцию голосового тракта и вектор сигнала ошибки линейного предсказания. Данные вектора подаются на предварительно обученные нейронные сети RBF, которые выполняют функцию классификации входных сигналов, причем как для векторов остатка линейного предсказания, так и для векто-

ров параметров описывающих передаточную функцию голосового тракта создаются отдельные нейронные сети одинаковой размерности слоев. Предварительная настройка весовых коэффициентов нейронных сетей производится методом «обучения с учителем» с использованием гибридного алгоритма обучения радиальных сетей [7]. В ходе процесса классификации устанавливается однозначная взаимосвязь между кластерами векторов остатка линейного предсказания и кластерами векторов параметров голосового тракта для каждого сегмента речевого сигнала. По каналу связи передаются только параметры модели синтеза, коэффициент усиления и данные, характеризующие кодируемый речевой сигнал. Для формирования сигнала возбуждения в вокодере на основе линейного предсказания на приеме из кадра передачи выделяются параметры для синтезирующего фильтра, содержащие информацию о параметрах голосового тракта, данных речевого сигнала, а также значение коэффициента усиления сигнала возбуждения. По данным параметрам обученная нейронная сеть RBF выделяет соответствующий им класс сигналов возбуждения, т. е. сигнала остатка линейного предсказания. Извлеченный при помощи нейронной сети сигнал возбуждения используется в синтезирующем фильтре липредера для формирования цифрового речевого сигнала на участке квазистационарности.

К достоинствам такого подхода следует отнести тот факт, что устранение из кадра передачи информации о сигнале возбуждения позволяет значительно снизить скорость передачи данных в канале связи, а также уменьшить вычислительную сложность алгоритма кодирования речевого сигнала на передающей стороне. Анализ кадра передачи существующих вокодеров свидетельствует о том, что значительную часть в кадре передачи занимает информация о сигнале возбуждения [8]. В случае применения нейросетевых технологий RBF возможно понижение скорости передачи данных в канале связи на 40...50 % от известных способов, либо перераспределить информационный ресурс, предоставляемый каналом связи, на формирование дополнительных сервисов абонентского обслуживания, при этом качественные показатели синтезированной речи повышаются на 0,3.0,5 балла по шкале MOS. Синтезированный речевой сигнал характеризуется высокими показателями разборчивости, естественностью и узнаваемостью говорящего.

Список литературы

1. Быков С.Ф., Журавлев В.С., Шалимов И.А. Цифровая телефония: учеб. пособие для вузов. М.: Радио и связь, 2003. 144 с.

2. Соболев В. Н. Информационные технологии в синтетической телефонии. М.: ИРИАС, 2007. 360 с.

3. Шелухин О.И. Цифровая обработка и передача речи. М.: Радио и связь, 2000. 456 с.

4. Способ формирования сигнала возбуждения в низкоскоростных вокодерах с линейным предсказанием: пат. На изобретение № 2400832. Зарегистрировано 27.09.2010.

5. Прохоров Ю.Н. Статистические модели и рекуррентное предсказание речевых сигналов. М.: Радио и связь, 1984. 240 с.

6. Хайкин С. Нейронные сети. М.: Издательский дом «Вильямс», 2006. 1104 с.

7. Осовский С. Нейронные сети для обработки информации. М.: Финансы и статистика, 2002. 344 с.

8. Рабинер Л.Р., Шафер Р.В. Цифровая обработка речевых сигналов. М.: Радио и связь, 1981. 496 с.

A.A.Afanasjev, A.P.Ryzhkov

IMPLEMENTATION OF THE NEURAL NETWORK PROCESSING SEGMENTS IN LINEAR PREDICTION SPEECH

The considered problem of the method of linear prediction of speech signals in the context of the downward speed transmission with preservation of acceptable quality. Suggested that the use of neural networks-classifiers, to refuse to transfer the signal excitation filter-synth the reception.

Key words: speech signal; a slow speech coding; the method of linear prediction; neural networks.

Получено 17.10.12

УДК 004.896

Е.С. Краснов, инж.-исследователь, (49232)9-02-79, redrussoft@rambler.ru (Россия, Ковров, ОАО «ВНИИ «Сигнал»).

МЕТОДИКА ОЦЕНКИ АЛГОРИТМОВ ПОИСКА ПУТИ В ЛАБИРИНТЕ ДЛЯ ВЫБОРА МОБИЛЬНЫМ РОБОТОМ СТРАТЕГИИ ПЕРЕМЕЩЕНИЯ

Предложена методика анализа наиболее распространённых алгоритмов поиска пути в лабиринте. Описан процесс сбора данных о работе алгоритмов и способ анализа этих данных. В качестве удобного инструмента для проведения этих действий было разработано программное обеспечение для платформы Microsoft Windows, которое содержит необходимые инструменты для тестирования алгоритмов, визуализации лабиринта, сбора и обработки информации.

Ключевые слова: поиск пути, оценочный анализ, программный инструмент, методика сравнения.

Цель - создание методической базы для построения экспертной системы выбора стратегии передвижения мобильным роботом.

Задачи:

- формализация задачи;

- разработка методической базы;

i Надоели баннеры? Вы всегда можете отключить рекламу.