Научная статья на тему 'Сегментация речи с использованием вейвлет-преобразования'

Сегментация речи с использованием вейвлет-преобразования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
282
131
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Осин А. В., Ахметшин Р. Р.

Рассмотрены аналитические и численные результаты сегментации речи с использованием преобразования на основе вейвлетов Добеши.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Осин А. В., Ахметшин Р. Р.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

A wavelet based voice segmentation

Analytical and numerical results for the voice segmentation using Daubechies wavelet are considered.

Текст научной работы на тему «Сегментация речи с использованием вейвлет-преобразования»

УДК 621.396.67

СЕГМЕНТАЦИЯ РЕЧИ С ИСПОЛЬЗОВАНИЕМ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ

А.В. Осин, Р.Р. Ахметшин

Рассмотрены аналитические и численные результаты сегментации речи с использованием преобразования на основе вейвлетов Добеши.

Analytical and numerical results for the voice segmentation using Daubechies wavelet are considered.

Цель статьи: рассмотрение метода анализа речи, который позволяет отделять активные участки речи от пауз (разделяет на ON- и OFF-периоды).

С развитием различных технологий и ростом объемов передаваемой информации возникает проблема ограниченности каналов связи. Одним из возможных решений этой проблемы может быть усовершенствование методов передачи информации по уже существующим информационным каналам, а именно - сжатие полосы, занимаемой для передачи данных.

Для трансляции по каналам передачи не обязательно занимать ресурс в моменты молчания говорящего. «Простои» в телефонных разговорах могут составлять 30 - 80%, и такой метод может значительно сузить объем данных для передачи.

От этого метода требуется простота физической реализации и малые вычислительные затраты (т. е. речевой сигнал должен обрабатываться с минимальной задержкой), а также надежность выделения сегментов активной речи. Только при выполнении этих требований подобный подход к сегментации имеет перспективу практического использования.

Сегментацией речевых сигналов называется детектирование звуковой активности VAD -оцифрованной речи (англ. - Voice Activity Detection), т. е. дискретизированного и проквантованно-го речевого сообщения [1].

Потребность в сегментировании речевых сообщений возникла вместе с необходимостью обнаружения точных границ, разделяющих периоды речи и периоды шума, что очень важно при передаче речевой информации по каналам связи. Алгоритм сегментации должен анализировать отдельный участок речи (кадр) длительностью 10...40 мс и определять наличие речи или ее отсутствие на протяжении всего кадра. Речевой сиг-

нал в рамках кадра для упрощения процедуры анализа считается стационарным.

Существует множество различных VAD-алгоритмов, большинство из которых используют вычисление энергии. Так как знание только энергии кадра дает низкое качество сегментации, то в некоторых случаях вводится отношение сигнал/шум (SNR), которое также использует оценку энергии шума. Дальнейшее усовершенствование алгоритма достигается с помощью вычисления SNR отдельно для каждой составляющей спектра, и, вводом плотности вероятностей для значений энергии спектра. Для таких критериев правдоподобия требуется вычисление спектра кадра.

Другие алгоритмы для нахождения различительных свойств во временной области используют частоту переходов через ноль или автокорреляционную функцию.

Для алгоритмов GSM и ITU-T требуется два алгоритма сегментации: один для снижения шума (на основании авторегрессионого фильтра) и классификации (сравнение с порогом), а другой для подбора параметров первого VAD. В итоге эти алгоритмы используют более чем одно свойство, чтобы выявить речь, и проводят классификацию на основе эвристических правил или некоторых решающих матриц.

Предлагаемый в статье метод VAD основан на вейвлет-преобразовании, которое позволит анализировать кадры речи в реальном времени.

Вейвлетный анализ представляет собой особый тип линейного преобразования сигналов и отображаемых этими сигналами физических данных о процессах и физических свойствах природных сред и объектов. Базис собственных функций, по которому проводится разложение сигналов, обладает многими специальными свойствами и возможностями.

Вейвлеты - это функции определенной формы, локализованные по оси аргументов (незави-

симых переменных), инвариантные к сдвигу и линейные к операции масштабирования (сжатия/растяжения). Они создаются с помощью специальных базисных функций, которые определяют их вид и свойства. По локализации во временном и частотном представлении вейвлеты занимают промежуточное положение между гармоническими (синусоидальными) функциями, локализованными по частоте, и функцией Дирака, локализованной во времени.

Вейвлет-преобразование (ВП) одномерного сигнала [2] - это его представление в виде обобщенного ряда или интеграла Фурье по системе базисных функций

УаЬ (О =~Г= —1, (1)

4а У а

сконструированных из обладающего определенными свойствами материнского (исходного) вейвлета y(t) за счет операций сдвига во времени (b) и изменения временного масштаба (а).

На рис. 1 показаны вейвлеты первых четырех порядков, основанные на производных функции Гаусса:

go(t) = exp(-t2/2).

На этом рисунке WAVE - вейвлет 1-го порядка с равным нулю 0-м моментом - обозначен как m1(t); МНАТ - вейвлет 2-го порядка, называемый «мексиканская шляпа» (Mexican hat - похож на сомбреро), обозначен как m2(t), его 0-й и 1-й моменты равны нулю. С увеличением порядка вейвлета число 0-х моментов и его разрешение увеличиваются (m3(t) и m4(t)).

Рис. 2. Вейвлет Добеши

вейвлет-преобразования (НВП) к дискретному (ДВП), когда для расчета ВП не требуется вычислять функцию вейвлета целиком, а достаточно использовать его коэффициенты, причем их будет столько, каков порядок самого вейвлета. За счет чего уменьшим и объем, и время вычислений.

Для реализации VAD разделим речевой сигнал, записанный с частотой дискретизации 8 КГц, на сегменты в 256 отсчетов. В результате получаем размер окна, равный 32 мс.

На основе алгоритма межфонемной сегментации [3] сигнал будет представлять собой следующую сумму:

N-і

N -і

n 2J

/ (ґ) - Е 8пк фпк + ЕЕ ¿к V}к , (2)

к-0 ]-1 к-0

где п - уровень детализации; snk, ё -к - коэффициенты вейвлет-разложения (аппроксимации и детализации соответственно); фд - 2]/2ф(23 ґ - к), ], к є 2, ф - скейлинг-функция (масштабная функция), V]к - 2] l2V(2]ґ - к), ], к є 2 , V - базисный или «материнский» вейвлет.

Анализ производим по детализирующим коэффициентам ё]к , которые рассчитываем по формуле

4

d,

k ,m+

Рис. 1. Вейвлеты первых четырех порядков на основе функции Гаусса

Для реализации сегментирования из многообразия существующих вейвлетов выберем вейвлет Добеши, изображенный на рис. 2. Такой выбор обоснован легким переходом от непрерывного

і=Е<

n=0

»n 2k+n,m 5

(3)

где к = 1,2,...,128-1 - число отсчетов рассчитываемого коэффициента d; т = 1,2,...,6 - уровень разложения коэффициента; gn - значение коэффициентов вейвлета Добеши 4; с2к т - коэффициенты

вейвлет-спектра предыдущего уровня разложения.

3

Анализ наличия или отсутствия речевой активности в каждом кадре производим, исходя из расчета энергии детализирующих коэффициентов:

Ек,ш - ЮІ8

2 ш

Е (ёк,ш )2

к-0

(4)

где к=1,2,...,N/2т - число отсчетов в кадре; т=1,2,...,6 - уровень разложения кадра.

В ходе исследования поведения энергии ¿-коэффициентов на участках с активной речью (ОК-периоды) и на участках с паузами (ОРБ-периоды), был выбран оптимальный порог обнаружения (Е=21,5) и оптимальный уровень разложения сигнала (ш=3).

Результат работы алгоритма сегментации речи на основе вейвлет-преобразования Добеши 4 представлен на рис. 3, рис. 4.

і : т ПТ; і і ■ ;і : і і т ; і

р * 1 1 1 1 ■ » ! ■ ■* 11 . • ! «. * ! 11 ' 1 : ■ і: І 1 : :■= і і :ї : і

о 30 40 50 Э0 100 120 но 160 150

Рис. 3. Сегментация тихого женского голоса с помощью БВП

Рис. 4. Сегментация мужского голоса с помощью БВП

В результате проведения вейвлет-преобразования и последующей сегментации речевых данных получили несложный и не нуждающийся в больших вычислительных затратах алгоритм, способный выделять участки с речевой активностью и участки с паузами/шумом длиной 32 мс, что и позволяет работать ему в реальном времени и с минимальной задержкой анализа речи.

Рассмотренный метод с помощью алгоритма сегментации речевых данных с применением вейвлет-преобразования разбивает сигнал на кадры по 256 отсчетов, что при частоте дискретизации 8 КГц составляет 32 мс. Такие показатели обеспечивают возможность использования этого метода сегментации для анализа речевых данных в реальном времени: например^ в телефонных сетях общего пользования будутисклюуены «простои» канала и обеспечена его полная загруженность.

В результате проведенных исследований отмечалось, что сегментация производится достоверно в том случае, когда уровень посторонних шумов не пере-

крытает уровень речи. При возникновении помех такого рода необходимо предварительно фильтровать сигнал, например, использовав обратное вейвлет-преобразование, обеспечивающее хорошую фильтрацию в случае с некоторой потерей качества. Но так как основной задачей алгоритма является лишь достоверное обнаружение речевой активности, то данныш метод вполне справляется со своей задачей.

ЛИТЕРАТУРА

1. Шелухин О.И., Тенякшев А.В., Осин А.В. Моделирование информационных систем. Учеб. пособие / Под ред. О.И. Шелухина. - М.: САЙНС-ПРЕСС, 2005.

2. Добеши И. Десять лекций по вейвлетам. — Моск-ва-Ижевск: НИЦ «Регулярная и хаотическая динамика», 2001.

3. Ермоленко Т.В., Шевчук В.В. Алгоритмы сегментации с применением быстрого вейвлет-преобразования // Междунар. конф. «Диалог 2003». — Протвино, 11-16 июля, 2003.

Поступила 01.11.2005 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.