Научная статья на тему 'Алгоритм обучения нейронных сетей в задачах обработки речевых данных'

Алгоритм обучения нейронных сетей в задачах обработки речевых данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
94
18
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рыжков Александр Павлович

Рассмотрено современное состояние в области обработки речевых сигналов; сделан вывод о применимости метода линейного предсказания с точки зрения низкоскоростной передачи речи с сохранением приемлемого качества. Предложено использование нейронных сетей в качестве отдельных элементов системы обработки речевых данных, представлен вариант алгоритма обучения предложенных нейронных сетей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The modern condition in the field of processing of speech signals, conclusion on applicability of the method of linear prediction from the point of view of low-speed transmission of voice with the preservation of acceptable quality. Suggested that the use of neural networks as separate elements of the system of voice data, the variant of the algorithm proposed training of neural networks.

Текст научной работы на тему «Алгоритм обучения нейронных сетей в задачах обработки речевых данных»

УДК 391.621

АЛГОРИТМ ОБУЧЕНИЯ НЕЙРОННЫХ СЕТЕЙ В ЗАДАЧАХ ОБРАБОТКИ РЕЧЕВЫХ ДАННЫХ

А. П. Рыжков

Рассмотрено современное состояние в области обработки речевых сигналов; сделан вывод о применимости метода линейного предсказания с точки зрения низкоскоростной передачи речи с сохранением приемлемого качества. Предложено использование нейронных сетей в качестве отдельных элементов системы обработки речевых данных, представлен вариант алгоритма обучения предложенных нейронных сетей.

The modern condition in the field ofprocessing of speech signals, conclusion on applicability of the method of linear prediction from the point of view of low-speed transmission of voice with the preservation of acceptable quality. Suggested that the use of neural networks as separate elements of the system of voice data, the variant of the algorithm proposed training of neural networks.

Анализ современного состояния сетей и систем связи показывает устойчивые тенденции увеличения числа потребителей речевых услуг и роста речевого сервиса в этих системах. Передача речи является одной из основных функций непрерывно развивающихся и широкомасштабно внедряемых муль-тисервисных цифровых сетей. Применение цифровых методов представления, обработки и передачи информации приводит к многократному увеличению занимаемой полосы частот и, как следствие, к увеличению скорости передачи сообщений. Однако в системах связи возможности выбора частотных диапазонов ограничены, поэтому существует проблема понижения скорости цифровых потоков и эффективного использования полосы пропускания каналов связи [1]. Выход из сложившегося положения - в области разработки методов цифрового преобразования - компрессии различных сообщений. Поскольку речь - это один из наиболее распространенных носителей информации, то вопросы обработки речевых сообщений являются актуальными.

В настоящее время наиболее распространенными способами обработки речи являются разновидности метода линейного предсказания. Достоинствами систем обработки речи с линейным предсказанием являются:

- высокая степень соответствия липредерных алгоритмов речепреобразо-вания современному уровню развития теории, технологии и схемотехники цифровой обработки сигналов. Наличие эффективных расчетных алгоритмов реализации процедур анализа речи на основе метода линейного предсказания обеспечивает достижение высокой точности анализа в режиме реального времени при соблюдении ограничений на вычислительную сложность, обусловленных современным уровнем развития цифровых процессоров обработки сигналов;

- значительное качественное превосходство аналого-цифрового преобразования речи на основе метода линейного предсказания над другими методами в диапазоне скоростей кодирования менее 16 кбит/с. Высокая степень востребованности во многих телекоммуникационных приложениях указанного скоростного диапазона сопровождается его качественной недостижимостью для речепреобразующих устройств, основанных на методах непосредственного кодирования речевого сигнала, речеэлементных и спектральных параметрических вокодеров. Эффективное использование сильных корреляционных зависимостей, характерных для речевого сигнала, подвергнутого

равномерной дискретизации во временной области, обеспечивает липредерам преимущества перед другими типами спектрально-временных вокодеров [2].

Важной макропроцедурой в современных системах обработки речи выступает векторное квантование, решающее задачу снижения объема передаваемых данных. Векторное квантование требует достаточно большого числа операций при формировании кодовых книг и осуществления поиска векторов в них, что приводит к высокой вычислительной сложности процедур, особенно при больших объемах обрабатываемой информации. Следовательно, уменьшение количества вычислительных операций при поиске вектора в кодовой книге остается в настоящий момент приоритетной задачей [3].

Совместное решение снижения скорости передачи, вычислительной сложности и емкости устройств памяти может быть найдено при использовании технологии искусственных нейронных сетей.

Достоинство нейронных сетей состоит в параллельной обработке информации одновременно всеми нейронами [4]. Благодаря этой способности при большом количестве межнейронных связей достигается значительное ускорение процесса обработки информации. Очень большое количество межнейронных соединений приводит к тому, что сеть становится нечувствительной к отдельным ошибкам. В практических приложениях низкоскоростной обработки речь выступает в качестве одного из компонентов системы управления либо модуля принятия решений, передающих результирующий сигнал на другие элементы, не связанные непосредственно с искусственной нейронной сетью. Выполняемые сетью функции можно распределить на несколько основных групп: аппроксимации и интерполяции; распознавания и классификации образов; сжатия данных; прогнозирования; идентификации; управления; ассоциации. В каждом из названных примеров нейронная сеть играет роль универсального аппроксиматора функции от нескольких переменных, реализуя нелинейную функцию (функцию активации). Постановки значительного количества задач моделирования, идентификации и обработки сигналов могут быть сведены именно к аппроксимационному представлению.

В перспективной системе обработки речевых сигналов нейронная сеть может найти свое практическое применение в качестве классификатора сегментов речи или векторного квантователя речевых данных [5]. При этом могут использоваться нейронные сети радиальных базисных функций или модификации данных сетей, которые доказали свое превосходство при решении задач классификации, в том числе и речевых данных. При разработке и исследовании таких нейронных сетей возникает вопрос о корректности их функционирования, который непосредственно связан с процедурой обучения сети, т.е. настройки весовых коэффициентов.

Для нейронных сетей - классификаторов речевых данных (например, коэффициентов линейного предсказания, линейных спектральных частот или иных параметров, формирующих речевой сигнал модели) существенными характеристиками являются:

- непрерывное входное пространство образов активации (стохастических векторов сигналов возбуждения), которые генерируются в соответствии с некоторым распределением вероятности;

- топология нейронной сети в форме решетки, состоящей из нейронов, определяющей дискретное выходное пространство;

- зависящая от времени функция окрестности ^^ (п), которая определяет радиус окрестности нейрона-победителя I (л);

- параметр скорости обучения ц(п ), для которого задается начальное значение и который постепенно убывает во времени п , но никогда не достигает нуля.

Последовательность шагов обучения нейронной сети представлена на рис. 1.

С

Начало

)

Ввод исходных данных значений векторов обучения, количества итераций К, задание размерности слоев I числа нейронов

і

Г Процесс конкуренции 1 Подвыборка

Поиск максимального подобия

Г Процесс кооперации и коррекции Т

Определение функции окрестности

Ъ,/(x) (п)

I

Корректировка весов

WJ (п + 1 ) = WJ (п )+ Ц(п )11;,,. (х ) (п )(Х - (п ))

Квантование опорных векторов

С

Рис. 1. Блок-схема алгоритма обучения нейронной сети

1. Инициализация. Для исходных векторов синаптических весов нейронной сети Wj (0) выбирают случайные значения из множества входных векторов

{х, }= В качестве условия корректного обучения на векторах возбуждения

фильтра синтеза речевых сигналов необходимо различие векторов для разных значений, = 1, 2, ..., /, где / - общее количество нейронов в решетке.

2. Подвыборка. Выбирают вектор х из входного пространства с определенной вероятностью. Этот вектор представляет собой возбуждение, которое применяется к решетке нейронов. Размерность вектора х равна т.

3. Поиск максимального правдоподобия. Находят наиболее подходящий (победивший) нейрон , (х) на шаге п, используя критерий минимума Евклидова расстояния:

-11/2

<(х) =агв

Ш1П

I(ж - ", )

4) Коррекция. Коррекция векторов синаптических весов всех нейронов выражается формулой

w, (п +1) = ^ (п) + Ч(п)ь,4х) (п)(х- w, (п)), (2)

где ц(п) - параметр скорости обучения; ^ ,(х)(п) - функция окрестности с

центром в победившем нейроне /’(х). Оба этих параметра динамически изменяют во время обучения с целью получения лучшего результата.

5. Продолжение. Возврат к шагу 2 и вычисление до достижения заданного числа итераций.

По завершении процесса сходимости нейронная сеть отображает важные статистические характеристики пространства стохастических векторов входных речевых данных. Поскольку представленный алгоритм относится к алгоритмам обучения нейронных сетей «без учителя», то сформированное пространство является приближенным с точки зрения размещения опорных векторов - центроидов в Л-мерной системе координат. При этом аппроксимация определяется векторами синаптических весов нейронов.

В качестве механизма точной подстройки необходимо произвести квантование векторов обучения. Для квантования вектора - центроида используют метод обучения «с учителем», который использует информацию о классе для небольшого смещения опорного вектора, а следовательно, для улучшения качества областей решения классификатора. Если метки класса входного вектора х и вектора - центроида w согласуются, то последний смещают в направлении первого. При несогласовании вектор - центроид смещается в сторону, противоположную вектору х. Кратко процесс квантования описывается следующим образом:

а) в случае максимальной близости вектора wc к входному вектору х,

^ (п +1) = wc (п) + ап [х, - wc (п)], где 0 <ап <1;

б) при несовпадении wc (п +1) = wc (п)- ап [х, - wc (п)^ ;

в) остальные векторы не изменяются.

Постоянную обучения ап для формирования фиксированной кодовой книги выбирают монотонно убывающей с начальным значением (0,05 - 0,07). В результате процедуры адаптации после нескольких проходов по входным данным координаты опорных векторов перестают изменяться, а следовательно, и завершается процедура обучения.

Применение подобного алгоритма при обучении нейронной сети класса ЯББ (радиальной базисной функции) на речевых данных позволит правильно функционировать элементам системы обработки речевых сигналов, например, классификатору - идентификатору сегментов речевого сигнала или векторному квантователю низкоскоростного кодека речи [6].

Исследования показали, что при использовании нейронной сети уменьшается требуемый для реализации объем запоминающих устройств (на 25-30 %), а реализация процедуры векторного квантования сокращает вычислительные затраты на 20-23 % по сравнению с известными решениями в данной области. Таким образом, применение нейросетевых технологий в системах обработки речи позволяет улучшить качественные характеристики функционирования систем.

Список литературы

1. Быков, С. Ф. Цифровая телефония : учеб. пособие для вузов / С. Ф. Быков, В. С. Журавлев, И. А. Шалимов. - М. : Радио и связь, 2003. - 144 с.

2. Соболев, В. Н. Информационные технологии в синтетической телефонии : мо-ногр. / В. Н. Соболев. - М. : ИРИАС, 2007. - 360 с.

3. Шелухин, О. И. Цифровая обработка и передача речи / О. И. Шелухин. - М. : Радио и связь, 2000. - 456 с.

4. Хайкин, С. Нейронные сети: полный курс : пер. с англ. / С. Хайкин. - 2-е изд. - М. : Издательский дом «Вильямс», 2006. - 1104 с.

5. Осовский, С. Нейронные сети для обработки информации / С. Осовский - М. : Финансы и статистика, 2002. - 344 с.

6. Рабинер, Л. Р. Цифровая обработка речевых сигналов / Л. Р. Рабинер, Р. В. Шафер. - М. : Радио и связь, 1981. - 496 с.

УДК 681.3.324

ОСНОВНЫЕ ПОЛОЖЕНИЯ ПО СОЗДАНИЮ ЕДИНОЙ СИСТЕМЫ УПРАВЛЕНИЯ ЗАПАСАМИ В РАМКАХ СОЗДАНИЯ ИНТЕГРИРОВАННОЙ СИСТЕМЫ ТЕХНИЧЕСКОГО И ТЫЛОВОГО ОБЕСПЕЧЕНИЯ СИЛОВОГО КОМПОНЕНТА РОССИЙСКОЙ ФЕДЕРАЦИИ

О. Е. Шеланков

Приводятся основные положения и требования по созданию автоматизированной системы поддержания необходимого уровня обеспеченности в материальных средствах элементов силового компонента РФ с минимальными издержками на содержание запасов. Подчеркивается актуальность внедрения автоматизированного централизованного управления основными процессами управления запасами.

i Надоели баннеры? Вы всегда можете отключить рекламу.