Научная статья на тему 'ОКОННЫЙ МЕТОД СЕГМЕНТАЦИИ РЕЧЕВОГО СИГНАЛА'

ОКОННЫЙ МЕТОД СЕГМЕНТАЦИИ РЕЧЕВОГО СИГНАЛА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
29
6
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Леонов Александр Владимирович

Предложен новый метод сегментации речевого сигнала с применением вейвлет преобразованием и нейронной сети для использования в задачах распознавания речи. Приводятся результаты экспериментальных исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

WINDOW SEGMENTATION METHOD SPEECH SIGNAL

New speech signal segmentation method is offered with wavelet transformation and neural network for speech recognition. Results of experimental researches are resulted.

Текст научной работы на тему «ОКОННЫЙ МЕТОД СЕГМЕНТАЦИИ РЕЧЕВОГО СИГНАЛА»

И МО ЫЕ ТЕХНОЛС ГИИ

УДК 004.934

ОКОННЫЙ МЕТОД СЕГМЕНТАЦИИ РЕЧЕВОГО СИГНАЛА

A.B. Леонов

Решение задачи распознавания речи разделяется на несколько подзадач. Одна из таких подзадач - предварительная обработка сигнала разбивающая его на сегменты дгя последующей их классификации. Известно! различные варианты ■■"экого разбиения: сегменты Фиксированного размера скопьзящие окна фиксированного размера, скользящие окна плавающего размера. Основной недостаток окна фиксированного размера - это дополнительный сбъем вычислений, связанный с существенными индивидуальными частотными отличиями голосов различных дикторов Развитие данного метода привело к реализации нескольких скользящих окон различного размера, учитывающих вероятный частотный диапазон для разных голосор В этом случае для дальнейшей обработки сигнала в отдельном окне используются статистические методы, оконное преобразование Фурье вейвлет преобразование [2]. Пои этом не удается получить однозначные оценки присутствия в отдельном окне конкретной частотной составляющей в силу неопределенности Гейзенберга для случая непрерывного речевого потока, но не для отдельно произнесенного звука. Для отдельного звука, время звучания которого укладывается в размер окна, вейвлет преобразование позволяет получить непрерывное разложение на некотором базисе ортогональных функций. Реализация окон изменяемого размера с адаптацией к особенностям одного голоса требует значительных вычислительных затрат на обучение и в дикторонезависимых системах неприменима. Для устранения перечисленных недостатков предлагается исполозовать скользящее окно достаточно большого размера с использованием в ием упрощенного преобразования Хаара [1] с последующей обработкой нейронной сетью.

Рассмотрим отсчеты речевого сигнала с частотой дискретизации 16 кГц. Учитывая частотный диапазон человеческого голоса, верхний предел в 8 кГц можно считать достаточным. Нижний предел частот для человека составляет около 30 Гц (по певческой классификации это нижняя граница для баса) который зацается максимальным размером окна в 1024 дискретных обсчета. Такое значение выбрано для удобства вычисления преобразования Хаара. Коэффициенты преобразования вычисляются следующим образом:

S,=(X, + Х,ц) / 2, (1)

С,=(Х. - Х..0 / 2, (2)

где X, - i-й отсчет сигнала, ¡ = 0 2 4 6 ... 2п п - натуральное число.

Для сокращения вычислений можио отказаться от операции деления. Вычисление всех коэффициентов Ci для последовательности чисел, количеством равным целой степени 2 проводится для всех последующих последовательностей S.

Окно будем сдвигать на один отсчет в сторону увеличения времени. При этом мы будем получать повторы значений всех коэффициентов преобразования Хаара за исключением нулевых коэффициентов. Для дальнейшего анализа такая избыточность может оказаться лишней, и для передачи на обработку нейронной сети будем использовать только нормализованною значения нулевых коэффициентов. Для такой обработки требуется нейронная сеть с 11 ю входными нейронами для коэффициентов S9-0,C0-0...,C9-0 таким же количеством нейронов в скрытом слое и одним выходным нейроном Значения весовых коэффициентов заданы случайным образом. Обучение нейронной сети не производится.

Основанием для отказа от первоначального обучения нейронной сети является ее биологический прототип.

Запись отдельных звучов речи русского языка (гласных и согласных) проводилась в лаОораторных условиях на пеосональном компьютере без звукоизоляции и без подавления шума в исходном сигнале. Использовался микрофон NAIKO М22РС звуковая плата Creative РСИ28. Гоафики исходных сигчалов выборочных образцов звуков и выходной сигнал нейронной сети приведены на рисунках 1-4.

а».ОС О I . 1 09 ' Ll* |1>9 0:1

Рисунок 1 - Оцифрованный гласный звук «А»

Рисунок 2 - Выходной сигнал нейронной сети для гласного звука «А»

" • UOU 1 . 1 Ml« ''II - 1

I 1 L In il L 1 л I ] fl vl it i »

Рисунок 3 - Оцифрованный согласный звук «Б»

Рисунок 4 - Выходной сигнал нейронной сети для согласного звука «Б»

По выходному сигналу нейронной сети можно судить о присутствии наиболее значимого сочетания значений коэффициентов преобразования Хаара (в данном случае это минимумы) в конкретный момент времени, эти значения мсгут быть далее использованы для построения классификации конкретных звуков По огибающей точек минимумов можно судить о присутствии речевого сигналj

Полученные результаты позволяют сделать вывод о применимости предложенного метода в системах распознавания речи для предварительной обработки сигнала.

Список использованных источников

1. Чуй Ч Введение в вэйвлеты: Пер. с англ. - M : Мир. 2G01. - 412с. ил

2. Rabiner LR., Schäfer R.W. Digital processing of speech signals. - Prentice Hall !nc , 1978. - 235 p.

SUMMARY

New speech signa! segmentation metnoa if offered with wavelet transformation and neural network for speech recognition. Results cf experimental researches are resulted.

i Надоели баннеры? Вы всегда можете отключить рекламу.