УДК 621.391
Е.Г. ЖИЛЯКОВ, д-р техн. наук, проф., зав. каф., НИУ "БелГУ",
Белгород,
А.А. ФИРСОВА, ассистент, НИУ "БелГУ", Белгород
СЕГМЕНТАЦИЯ РЕЧЕВЫХ СИГНАЛОВ НА ОСНОВЕ
СУБПОЛОСНОГО АНАЛИЗА
Введены понятия нормированной субполосной корреляции и субполосного расстояния. Предложен новый метод сегментации речевых сигналов по границам звуков речи, основанный на использовании субполосного расстояния. Предложен новый метод выделения отрезков речевых сигналов, порождаемых звуками речи с почти периодической структурой. Библиогр.: 8 назв.
Ключевые слова: нормированная субполосная корреляция, субполосное расстояние, сегментация речевых сигналов, звуки речи с почти периодической структурой.
Постановка проблемы. В настоящее время возрастает интерес к разработке разнообразных речевых технологий [1, 2], в том числе к созданию методов и алгоритмов автоматического распознавания речи [3]. Обработке при этом подвергаются речевые сигналы (РС), которые являются результатами регистрации значений электромагнитных колебаний на выходе микрофонов при воздействии акустических колебаний на их входах, возникающих в результате речевого обмена. Одной из важных задач является сегментация РС, то есть разбиение их на отрезки, которые порождаются разными звуками речи или паузами речи. В данной работе эта задача рассматривается без идентификации порождающих акустические колебания звуков речи.
Основные рассматриваемые аспекты: обнаружение переходов
речь/пауза и пауза/речь; моменты смены одного звука речи другим; выделение отрезков РС, порождаемых звуками речи с почти периодичной структурой, прежде всего вокализованных.
Анализ литературы. Эффективность алгоритма сегментации определяется точностью определения границы между различными звуками. Существующие методы сегментации речевых сигналов по звукам речи можно разделить на несколько классов: основанные на использовании спектрального анализа в базисе Фурье; основанные на использовании вейвлет-анализа; основанные на использовании коэффициентов корреляции. Отдельным классом можно выделить методы, основанные на различиях энергетических характеристиках, оценка__которых___осуществляется__во__временной__области__[4__-__6].
© Е.Г. Жиляков, А.А. Фирсова, 2013
Существующие методы сегментации либо позволяют определять только границы слогов или предложений, либо приводят к появлению дополнительных границ на участках, соответствующих одному звуку.
В основе многих из разработанных подходов используются частотные представления, так как порождаемые звуками речи отрезки РС обладают свойством концентрации энергии в достаточно " узких" полосах частотной оси. В связи с этим можно упомянуть рассматриваемое в литературных источниках разбиение частотной полосы на так называемые критические полосы слуха, которые опосредованно отражаются на частотных свойствах РС. Таким образом, адекватным подходом к обработке РС является субполосный анализ, когда их свойства соотносятся с некоторым разбиением оси частот на интервалы конечной ширины. Причем, в виду зависимости частотного распределения энергий от вида произносимого звука, анализу необходимо подвергать отрезки РС конечной длительности.
Цель статьи - разработка методов сегментации РС по границам звуков и выделение отрезков РС, порождаемых звуками речи с почти периодичной структурой, на основе субполосного анализа.
Основы субполосного анализа РС. Предполагается, что РС представлены эквидистантными отсчетами
хг = х(г А/), г = 1, 2,...,
с частотой дискретизации:
/ = 1/М > 8000 Гц .
Известно [1, 3], что все звуки русской речи обладают свойствами концентрации энергии в пределах малой доли частоты дискретизации. Поэтому адекватным подходом к сегментации РС является применение субполосного анализа, когда их характеристики соотносятся некоторым разбиением области нормированных частот [7]
-п<ю<п, (1)
на частотные интервалы:
0.г = [—0-2г ,—^1г ] v [^1г , ^2г ] , (2)
где г = 1,...,Я;
^2г > ^1г ; ^2г < Л . (3)
В соответствии с конечной длительностью звуков речи анализу
должны подвергаться конечные наборы отсчетов РС (векторы)
хм = (XI,...,хм)т , (4)
где Т - символ транспонирования. Положим
м
XN (®) = 2 х,.е^®(г—1) . (5)
;=1
Имеет место формула обращения [8]
п
Хи =
хк
—п
и справедлива формула Парсеваля
м п
= У^ ХУ =
| хм ((й)вМк-1) а® / 2п, (6)
8ХУ = (ХмУN) = 2 ХгУг = {ХЫ (®)У'ы(®)а® / 2п , (7)
ХУ
г=1 —п
где звездочка означает комплексное сопряжение, а УN = (У1,...,УN) .
В частности, имея в виду частотные интервалы (2), соотношение (7) можно переписать в виде суммы:
Я
> УN ) =2 °г (XN ’ УN ) , (8)
;=1
слагаемые которой
°г (XN, У N) = | XN (®)У*(®)а® / 2п (9)
юеОг
естественно называть субполосными корреляциями.
Кроме того, можно ввести понятие частей энергии, попадающих в частотные интервалы
Я Я
1Ы12 =2рг(^); 1Ы12 =2рг(yNх (10)
г=1 г=1
где
Рг (^) = |\ZN (®)|2 а® / 2п , (11)
юеО..
где ZN (®) - трансформанта Фурье вектора ^ , и понятие субполосных нормированных корреляций
Р г (XN > уN) = °г ^ ’ УМ^ . (12)
•/рТ(Х^)рСу^)
Они, очевидно, удовлетворяют неравенству
\Рг (^, У N ^ < 1 . (13)
Именно характеристики (11) и (12) в дальнейшем положены в основу разрабатываемых алгоритмов сегментации речевых сигналов.
Примечательно, что для их вычисления нет необходимости переходить в частотную область, т.к. подстановка в представление (9) и (11) определений вида (5) позволяет получить реализуемые непосредственно во временной области билинейные и квадратичные формы
°г (ХМ, УN ) = XNAгУN , (14)
Pг (ZN) = 11Аг7, , (15)
где Аг субполосная матрица с элементами:
агк = {8ш(^2г (г — к)) — 8ш(^1г (г — к))} / п(г — к). (16)
Отметим, что соотношения (14) и (15) позволяют вычислить точные значения частей энергии отрезков сигналов, приходящихся на заданный частотный интервал, и соответствующих субполосных корреляций.
Селекция пауз в речевых воздействиях
Исходная (нулевая) гипотеза формируется следующим образом.
H0: отрезок сигнала XN зарегистрирован в паузе речи так что
XN = UN , (17)
где uN = (u1, ....,uN )т - вектор отрезков шумов.
Альтернатива имеет следующую формулировку.
Щ : хотя бы часть отчетов зарегистрирована в присутствии речевого воздействия, которые аддитивно взаимодействуют с шумом, то есть
Хм = + им , (18)
где = (2Х,....,г ы)т- вектор отчетов возбуждаемых речью, часть из которых может быть равна нулю.
В качестве решающей функции предлагается использовать:
Гг (X) = Рг (Ху) , (19)
^ Е[Рг (и)]
где Е - символ математического ожидания.
Гипотеза Н0 отвергается при выполнении следующего неравенства
тах ¥г (X) > Иа, (20)
где максимум определяется для всех частотных интервалов, а йа -
некоторый порог.
Предполагается, что имеется возможность предварительного обучения, на этапе которого при заведомом отсутствии речи можно определить оценки Рг (uN) математических ожиданий частей энергий шумов и оценку величины порога в (20), удовлетворяющую условию:
где РЯ - оценка вероятности, а - желаемый уровень вероятности ошибок первого рода, а а его оценка при использовании оценок математических ожиданий.
Оценивание математических ожиданий и порога можно осуществить по одному и тому же достаточно большому количеству отчетов шумов, при отсутствии речи, например по 10 000 отрезкам необходимой длительности (порядка 1,5 секунд).
Предполагая для простоты, что шумы в паузах, являются гауссовыми с независимыми отсчетами, причем
То есть в отсутствии сигнала дисперсия решающей функции (19) обратно пропорциональна длительности обрабатываемого отрезка, а ее математическое ожидание равно единице.
В виду нестационарности речевых воздействий исследовать мощность критерия (20) (левая часть) не представляется возможным. Отметим только, что использование максимального значения решающей функции, по крайней мере, в случае белого шума, позволяет в среднем эффективно отреагировать на появления дополнительной энергии, которая сосредоточена в малой доле частотной полосы.
Сегментация квазипериодических звуков речи
(21)
Е[ы{ ] = 0 , = Е[и2],
(22)
(23)
можно показать справедливость следующих соотношений
тг = Е[РГ (и)] =а2 N (АП г / ж)2,
ст2 = Е[(РГ (и) -тг)2] = 2Nа4(АПГ /ж)2, где АПг = П2г - П1г.
г = П2г П1г .
(24)
(25)
Таким образом, имеет место
уг =аг /тг = 2/(N)1/2.
(26)
Некоторые звуки речи порождают отрезки речевых сигналов с достаточно отчетливой повторяемостью фрагментов, которые естественно называть квазипериодами, наиболее отчетливо это свойство выражено при произнесении так называемых вокализованных звуков, к которым относятся гласные.
Выделение участков квазипериодичности является важной задачей обработки речевых сигналов, о чем свидетельствуют многие работы, в которых она рассматривается (см. например [1, 3]). При этом основное внимание уделяется оцениванию периода, так называемого, основного тона. Рассмотрим некоторые проявления свойств периодичности.
Пусть отрезок отсчетов сигнала х = (х1,..., хм^ )т обладает
свойством периодичности
х,+км = х, (27)
и для простоты имеет место
N = Ь х М , (28)
где Ь и к - целые числа.
Тогда для его трансформанты Фурье справедливы соотношения
IX (ю)|2 = Б2(ю) х \Хм (ю)|2, (29)
\Хм И2 =
м
Мк-1)
х^г
к=1
(30)
Б 2(ю) = 8Ш2 \ЬМ ^/бш2 (М ^ . (31)
Функция (31) в частотной области имеет максимумы в точках (кроме ю = 0)
2л
юк = к—; к = 1, ....п, (32)
кМ
так что первый максимум соответствует периоду.
Если, в свою очередь, и произведение (29) будет иметь в точке 2л /М наибольший из экстремумов, то это позволяет оценить величину периода. Однако сомножитель (30) может иметь максимумы в других точках оси частот, так что наибольшее значение (29) достигается также в другой точке, чем определяется (32) при к = 1. Такой эффект, например, проявляется в том, что достаточно эффективный метод оценивания периода основного тона на основе вычисления скалярных произведений
2
N
с(х) = 2 Хл+х ’ (33)
!=1
и использования оценки
М = argmax Ог (х) (34)
1<х<0
также дает заниженные значения длительности периода основного тона.
Вместе с тем наличие квазипериодичности будет в той или иной мере проявляться во всех точках вида (32), так как сомножитель (30)
будет отличен от нуля на всей частотной оси. Поэтому представляется
естественным перейти к субполосным коэффициентам автокорреляции
Рг (х) = Ог (х)/^ Рг (^ )Р (XX ), (35)
где = (х1+х ,..,XN+т )Т ;
Ог (х) = Х1А^. (36)
При этом в качестве оценки периода предлагается использовать:
Я 1 \
М = а^тах V 1п—Рг}Х{/Я . (37)
1<х<Ь г=1 1 — рг (х)
Используемое здесь усреднение преобразования Фишера повышает устойчивость оценки.
Определение границ между звуками речи
Основная гипотеза имеет следующий вид:
Н 0: отрезки речевого сигнала X = ( хь..., xN )Т и
XN = (хм+15 ...,Х2Л? )Т порождены одним и тем же звуком речи.
Положим
(ZN ) = Рг (ZN )/||^||2 , (38)
и введем на основе этих долей энергий понятие субполосного расстояния
Я
VN = (V ((Кг(XN))1/2 -К(Х^^))1/2)2 /2)1/2 =
г=1
я (39)
= (1 -V К(XNК^))1/2)1/2.
г=1
Для проверки исходной гипотезы предлагается использовать решающую функцию
WN = ^ xVN, (40)
где
512 = тах
*2 = тт
Гипотеза отвергается при выполнении неравенства
WN >»а , (41)
где $а - порог, который соответствует некоторой желаемой вероятности ошибок первого рода.
Выводы. В результате проделанной работы был предложен новый метод селекции отрезков РС, порождаемых квазипериодическими звуками русской речи, основанный на введенном в работе понятии нормированной субполосной корреляции. Данный метод позволяет осуществлять селекцию отрезков РС, порождаемых квазипериодическими звуками русской речи с вероятностью ошибочного принятия решения не более 0,12, а также определить значение периода основного тона с погрешностью не более 0,02. Разработана новая решающая функция сегментации РС по границам звуков речи, основанная на использовании введенного в работе понятия субполосного расстояния. Предложенная решающая функция позволяет определять границы звуков русской речи с вероятностью ошибочного принятия решения не более 0,15^0,20.
Работа выполнена в рамках проекта № 8.2251.2011 Государственного задания Министерства образования и науки РФ подведомственным ВУЗам на выполнение НИР в 2013 году.
Список литературы: 1. Шелухин О.И. Цифровая обработка и передача речи
/ О.И. Шелухин, Н.Ф. Лукьянцев. - М.: Радио и связь, 2000 - 456 с. 2. Арлазаров В.Л. Речевой ввод/вывод как развитие человеко-машинных интерфейсов / В.Л. Арлазаров // Информационные технологии и вычислительные системы. - 2004. - № 2. - С. 3-10.
3. Сорокин В.Н. Структура проблемы автоматического распознавания речи / В.Н. Сорокин // Информационные технологии и вычислительные системы. - 2004. - № 2. - С. 25-40.
4. Сорокин В.Н. Сегментация речи на кардинальные элементы / В.Н. Сорокин, А.И. Цыплихин // Информационные процессы. - 2006. - Т. 6. - N° 3. - С. 177-207.
5. Дремин И.М. Вейвлеты и их использование / И.М. Дремин, О.В. Иванов, В.А. Нечитайло // Успехи физических наук. - 2001. - Т. 171. - № 5. - С. 465-500. 6. Ермоленко Т.Н. Алгоритмы сегментации с применением быстрого вейвлет-преобразования
I Т.Н. Ермоленко, В.И. Шевчук II Статьи, принятые к публикации па сайте международной конференции Диалог’2003. www.dialog-21.ru. 7. Вариационные методы анализа сигналов па основе частотных представлений I Е.Г. Жиляков, С.П. Белов, A.A. Черноморец II Вопросы радиоэлектроники, серия ЭВТ. - 2010. - Вып. 1. - С. 10-2б. 8. Рабинер Л. Теория и применение цифровой обработки сигналов I Л. Рабинер, ГолдБю. - М.: Мир, 1978. - S4S с.
Поступила в редакцию 03.04.2013
УДК 621.391
Сегментація мовних сигналів на основі субполосного аналізу / Жиляков Є.Г., Фірсова А.А. // Вісник НТУ "ХПІ". Серія: Інформатика та моделювання. - Харків: НТУ "ХПІ". - 201З. - № З9 (1012). - С. 1З - 81.
Введено поняття нормованоЇ субполосноЇ кореляціЇ і субполосноЇ відстані. Запропоновано новий метод сегментаціЇ мовних сигналів на кордонах звуків мови, що засновані на використанні субполосного відстані. Запропоновано новий метод виділення відрізків мовних сигналів, породжуваних звуками мови з майже періодичною структурою. Бібліогр.: 8 пазв.
Ключові слова: нормована субполосна кореляція, субполосна відстань, сегментація мовних сигналів, звуки мови з майже періодичною структурою.
UDC б21.З91
Segmentation of speech signals based on analysis sub-banding / Zhilyakov E.G., Firsov A.A. II Herald of the National Technical University "KhPI". Subject issue: Information Science and Modelling. - Kharkov: NTU "KhPI". - 201З. - №. З9 (1012). - P. 1З - 81.
The concepts of the normalized sub-banding correlation and sub-banding distance. A new method for segmentation of speech signals on the limits of the sounds of speech, based on the use sub-banding distance. A new method for isolation of segments of speech signals generated by the sounds of speech from the post of a periodic structure. Refs.: 8 titles.
Keywords: normalized sub-banding correlation sub-banding distance, segmentation of speech signals, the sounds of speech with a beinah periodic structure.