Научная статья на тему 'ОБ ОДНОМ АЛГОРИТМЕ ОЦЕНКИ ФОРМАНТНЫХ ЧАСТОТ НА ИНТЕРВАЛЕ СОМКНУТЫХ ГОЛОСОВЫХ СКЛАДОК'

ОБ ОДНОМ АЛГОРИТМЕ ОЦЕНКИ ФОРМАНТНЫХ ЧАСТОТ НА ИНТЕРВАЛЕ СОМКНУТЫХ ГОЛОСОВЫХ СКЛАДОК Текст научной статьи по специальности «Математика»

CC BY
14
4
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Макаров Илья Сергеевич

С теоретической точки зрения оценки формантных частот на интервале сомкнутых голосовых складок должны совпадать с резонансными частотами вокального тракта. Практически же формантный анализ на основе линейного предсказания, выполненный на таком интервале, зачастую приводит к нестабильным результатам: формантные частоты обнаруживают резкие нерегулярные скачки от периода к периоду, существенно искажающие ход формантной траектории, а кроме того, возможно появление так называемых «ложных» частотных оценок. В работе построен новый метод линейного предсказания, основанный на регуляризации траекторий коэффициентов предсказания. Сравнительный анализ данного алгоритма и стандартного ковариационного метода, проведённый на материале звукосочетаний «гласный + гласный» в произнесении мужчины и женщины, показал несомненное преимущество нового алгоритма с точки зрения стабильности, точности и физической правдоподобности получаемых формантных оценок.Theoretically, formant frequencies estimated on the closed-glottis interval should coincide with the resonant frequencies of the vocal tract. Practically, LPC-based formant frequency analysis on the closed-glottis interval often results in abrupt, irregular formant trajectories. Appearance of so-called quasi-formant frequencies is also possible. In the article a new LPC method is constructed. This method is based on the regularization of linear prediction coefficients in time and results in much more regular and accurate formant frequencies estimates on the closed-glottis interval than the standard covariance LPC.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Макаров Илья Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ОБ ОДНОМ АЛГОРИТМЕ ОЦЕНКИ ФОРМАНТНЫХ ЧАСТОТ НА ИНТЕРВАЛЕ СОМКНУТЫХ ГОЛОСОВЫХ СКЛАДОК»

Об одном алгоритме оценки формантных частот на интервале сомкнутых голосовых складок

Макаров И.С., кандидат технических наук

С теоретической точки зрения оценки формантных частот на интервале сомкнутых голосовых складок должны совпадать с резонансными частотами вокального тракта. Практически же формантный анализ на основе линейного предсказания, выполненный на таком интервале, зачастую приводит к нестабильным результатам: формантные частоты обнаруживают резкие нерегулярные скачки от периода к периоду, существенно искажающие ход формантной траектории, а кроме того, возможно появление так называемых «ложных» частотных оценок. В работе построен новый метод линейного предсказания, основанный на регуляризации траекторий коэффициентов предсказания. Сравнительный анализ данного алгоритма и стандартного ковариационного метода, проведённый на материале звукосочетаний «гласный + гласный» в произнесении мужчины и женщины, показал несомненное преимущество нового алгоритма с точки зрения стабильности, точности и физической правдоподобности получаемых формантных оценок.

Theoretically, formant frequencies estimated on the closed-glottis interval should coincide with the resonant frequencies of the vocal tract. Practically, LPC-based formant frequency analysis on the closed-glottis interval often results in abrupt, irregular formant trajectories. Appearance of so-called quasi-formant frequencies is also possible. In the article a new LPC method is constructed. This method is based on the regularization of linear prediction coefficients in time and results in much more regular and accurate formant frequencies estimates on the closed-glottis interval than the standard covariance LPC.

45

Введение

Необходимость автоматической оценки формантных частот вокального тракта по измеренному акустическому сигналу встаёт во многих задачах акустики речи:

• при автоматическом распознавании речи (Welling, Ney, 1998; Deng et al., 2006, 2007);

• при верификации и идентификации личности по голосу (Ramachandran et al., 1995);

• при кодировании речевого сигнала (Potamianos, Maragos, 1999);

• при синтезе речи (Pinto et al., 1989);

• при построении слуховых аппаратов (Mustafa, Bruce, 2006);

• при реабилитации пациентов с различными нарушениями речи и слуха (Pandey, Shah, 2009);

• при восстановлении формы речевого тракта по измеренному речевому сигналу (Леонов и др., 2005).

В мировой литературе решению задачи автоматической оценки формантных частот посвящено значительное число работ. Одним из наиболее популярных методов является метод оценки на основе модели линейного предсказания. В рамках данной модели отсчёт речевого сигнала в дискретный момент времени t определяется как линейная комбинация отсчётов того же сигнала в предыдущие моменты времени t - 1, t - 2,... t - p (Маркел, Грей, 1980):

у

s[t] = ^ ais[t - i] + e[t]

i=\

(1)

46

В соотношении (1): \ai} — коэффициенты линейного предсказания (называемые далее ЛП-коэффициентами), p — порядок модели, e[t]—ошибка модели линейного предсказания (называемая также сигналом-остатком (residual signal) модели линейного предсказания). Для определения ЛП-коэффици-ентов по измеренному сегменту речи используется один из специальных алгоритмов, разработанных в рамках теории линейного предсказания. Обычно это автокорреляционный или ковариационный методы линейного предсказания (Маркел, Грей, 1980).

Как только ЛП-коэффициенты вычислены по анализируемому сегменту речи, формантные частоты, соответствующие данному сегменту, определяются либо по пикам ЛП-спектра, либо по полюсам ЛП-полинома (Маркел, Грей, 1980). Известны и более сложные алгоритмы: например, определение формантных частот по пикам групповой задержки ЛП-фильтра (Murthy, Yegnanarayana, 1991) или с помощью интегрирования по специальным контурам на комплексной плоскости (Snell, Milinazzo, 1993).

Хотя анализ методом линейного предсказания (и, как следствие, оценка фор-мантных частот) может осуществляться асинхронно с основным тоном (ОТ), желательно уметь определять формантные частоты на каждом периоде ОТ, причём на временном интервале, соответствующем периоду сомкнутых голосовых складок. Поскольку на таком интервале, в основном, присутствуют свободные формантные колебания, ожидается, что соответствующие частотные оценки будут в наибольшей степени близки истинным формантным частотам речевого тракта (Krishnamurthy, Childers, 1986). Поскольку интервал сомкнутых голосовых складок зачастую оказывается очень коротким (длительность менее 3 мс), для проведения анализа используется ковариационный метод линейного предсказания в прямоугольном временном окне.

Метод оценки формантных частот на интервале сомкнутых голосовых складок сталкивается с двумя серьёзными проблемами. Во-первых, определение такого интервала непосредственно по акустическому сигналу является задачей нетривиальной. В мировой литературе известно множество методов, автоматически определяющих такой интервал (Parthasarathy, 1987; Fu, Murphy, 2006; Леонов и др., 2009), однако, судя по всему, задача окончательно не решена. Основная проблема связана с тем, что у некоторых людей интервал сомкнутых голосовых складок может быть слишком коротким для осуществления ЛП-анализа или даже отсутствовать совсем (последнее особенно характерно для женских и детских голосов). Чтобы обойти эту проблему, вводят представление об «эффективном» интервале сомкнутых голосовых складок (т.е. таком интервале, на котором голосовая щель фактически может быть открыта, однако колебания из трахеи, бронхов и лёгких в речевой тракт практически не проникают), причём определяют этот интервал с помощью искусственных приёмов предобработки речи (Akande, Murphy, 2005; Nordstrom et al., 2008) или с помощью специальных алгоритмов выбора этого интервала (Miyoshi et al., 1987; Ma et al., 1993; Magi et al., 2009). Другой путь, описанный в литературе, состоит в том, что сначала по сигналу оценивают моменты возбуждения вокального тракта голосовым источником, после чего определяют интервал сомкнутых голосовых складок как период времени длительностью 20-30% от периода ОТ, расположенный сразу же после момента возбуждения (Yegnanarayana, Veldhuis, 1998).

Вторая проблема оценки формантных частот на интервале сомкнутых голосовых складок связана с малой длительностью такого интервала (несколько миллисекунд). Хорошо известно (Stoica et al., 1989), что чем короче интервал ЛП-анализа, тем сильнее коэффициенты линейного предсказания оказываются зависимыми от условий порождения и регистрации речевого сигнала. Присутствие в сигнале посторонних колебаний даже очень малой амплитуды (будь то внешний шум, колебания из подсвязочных областей или влияние амплитудно-частотной характеристики микрофона) может привести к тому, что ЛП-коэффициенты будут определяться с очень большими погрешностями. Применительно к оценке формантных частот это означает, что частоты, вычисленные по таким коэффициентам, будут сильно отличаться от истинных значений резонансов речевого тракта. Практически это проявляется в скачкообразных нерегулярных изменениях оценок формантных частот от периода к периоду. При этом возможно появление «ложных» формантных оценок, не имеющих отношения к физической стороне процесса и обусловленных исключительно неустойчивостью процедуры ковариационного анализа к паразитным шумам. Возможна также ситуация пропуска «истинной» формантной оценки, что опять же связано с проблемой короткого интервала анализа.

В мировой литературе описано несколько попыток решения этой проблемы. В работе (Cranen, Boves, 1987) предложено перед осуществлением ковариационного ЛП-анализа усреднять по ансамблю сигналы на интервале закрытой голосовой щели, оценённые на соседних периодах ОТ. В работе (Yegnanarayana, Veldhuis, 1998) построен так называемый многоцикловый (multi-cycle) алгоритм, заключающийся в том, что сначала суммируются сигналы и соответствующие ковариационные матрицы, вычисленные внутри двух-трёх соседних периодов ОТ на интервалах сомкнутых голосовых складок, после чего ковариационный алгоритм применяется к результатам суммирования. В работе (Parthasarathy, 1987) ЛП-коэффициенты оцениваются не с помощью ковариационного метода линейного предсказания, а с помощью алгоритма, основанного на сингулярном разложении соответствующей ковариационной матрицы. Наконец, алгоритмы, построенные в (Miyoshi et al., 1987; Ma et al., 1993; Magi et al., 2009), основаны на взвешивании ковариационной матрицы перед осуществлением ЛП-анализа.

Мы протестировали все описанные алгоритмы, и ни один из них не показал явного преимущества в задаче оценки формантных частот на интервале сомкнутых голосовых складок; частично результаты тестирования описаны в (Леонов и др., 2009). Особенно ненадёжно все описанные алгоритмы работали в условиях наличия внешнего шума (белый шум с отношением сигнал-помеха > 15 дБ). Этот вывод согласуется с результатами работ

47

48

других авторов (Ramachandran et al., 1995; Sreenivas, Niederjohn, 1992). По этой причине возникла необходимость в создании более устойчивого алгоритма.

Алгоритм линейного предсказания с ограничениями на траектории ЛП-коэффициентов

Идея предлагаемого алгоритма заключается в следующем. Как указано во Введении, неустойчивость оценок ЛП-коэффициентов относительно паразитных колебаний на интервале сомкнутых голосовых складок проявляется в нерегулярных скачкообразных изменениях соответствующих оценок формантных частот от периода к периоду. Поскольку формантные частоты связаны с коэффициентами линейного предсказания взаимно-однозначной зависимостью (Kot et al., 1993), скачкообразное поведение частотных оценок предполагает скачкообразное изменение соответствующих ЛП-коэф-фициентов от периода к периоду. Возникает вопрос, нельзя ли вычислять коэффициенты линейного предсказания таким способом, чтобы по возможности не допустить скачков этих коэффициентов при переходе от периода к периоду. В этом случае можно надеяться на то, что траектории соответствующих формантных частот также не будут допускать резких, скачкообразных изменений.

Итак, идея заключается в построении такого алгоритма линейного предсказания, который не только определял бы ЛП-коэффициенты, но и ограничивал бы возможные изменения этих коэффициентов во времени, не допуская резких, скачкообразных изменений траекторий ЛП-коэффициентов.

Чтобы сформулировать задачу математически, перепишем соотношение (1) в векторно-матричной форме:

Aa = s + e (2)

Здесь a = (a1,a2,...,ap ) — вектор ЛП-коэффициентов, Т— значок транспонирования. Если длительность анализируемого сегмента речи в отсчётах равна K, то для ковариационного метода линейного предсказания e = (e[p +1] e[p + 2],...,e[K) T — вектор дискретных отсчётов сигнала-остатка, s = (s[p +1] s[p + 2],...,s[K) T — вектор дискретных отсчётов анализируемого сегмента речи, а матрица A определяется следующим образом (Ma et al., 1993):

s[P] s[P -1] ■■■ s[1]

A =

s[ p +1] s[ p]

s[K -1] s[K - 2]

s[2]

s[K - p]

(3)

Для всех случаев, практически важных для анализа речевого сигнала, система (2) будет переопределённой. По этой причине в классической теории линейного предсказания коэффициенты линейного предсказания определяют методом наименьших квадратов, т.е. как коэффициенты, минимизирующие ошибку модели линейного предсказания (2):

a = arg min Aa - s

— _II 2

2

Здесь a — искомый вектор ЛП-коэффициентов,

(4)

квадрат евклидовой нор-

мы, определяемый для произвольного вектора размерности m как:

2

Макаров И.С. Об одном алгоритме оценки формантных частот на интервале сомкнутых голосовых складок 49

m И 2 =X x2 i=1 Чтобы минимизировать скачки траекторий ЛП-коэффициентов, соотношение (4) можно модифицировать следующим образом: an = arg min\A„ä„ — sJI 2 + — a„ , 2 (5) n О Ц| n n n || 2 II n n—Hl 2 (5) an Соотношение (5) означает следующее: на л-ном периоде ОТ ищется такой вектор ЛП-ко-эффициентов an , который, с одной стороны, наилучшим образом аппроксимировал бы — в смысле модели (1) — сегмент речевого сигнала sn, измеренного на интервале сомкнутых голосовых складок л-ного периода (с матрицей An), и, с другой стороны, наименее отличался бы от вектора ЛП-коэффициентов an—1, уже определённого для предыдущего (n - 1)-го периода ОТ. Коэффициент Л в теории некорректных задач носит название «параметра регуляризации» (Тихонов, Арсенин, 1986). Он характеризует вклад второго члена (условие отсутствия резких скачков) в общий критерий (5), подлежащий минимизации. Алгоритм определения коэффициентов линейного предсказания, основанный на (5), может быть легко реализован программно: на 1-м периоде ОТ определяется вектор ЛП-коэф- фициентов a1 с помощью стандартного ковариационного метода путём минимизации соотношения (4). Подставляя a1 в (5) и минимизируя это выражение по вектору a2, получаем оценку a2 коэффициентов линейного предсказания на втором периоде ОТ и т.д. Описанный алгоритм, однако, имеет один существенный изъян. Представим себе, что вектор a1 на первом периоде ОТ определён с большой погрешностью. В этом случае все остальные ЛП-коэффициенты будут определяться из условия малого отличия от a1, т.е. также с большой погрешностью. В дальнейшем будет построен алгоритм линейного предсказания, свободный от описанного изъяна. В рамках данного алгоритма будет определяться не один вектор ЛП-коэффи-циентов на некотором периоде ОТ, а сразу целая траектория коэффициентов линейного предсказания на протяжении нескольких периодов. Однако, прежде чем переходить к его построению, отметим, что соотношение (5) является одной из разновидностей так называемого регуляризованного линейного предсказания (Ekman et al., 2008). Перейдём к математической формулировке алгоритма. Пусть s1, s2,..., sN — векторы отсчётов речевого сигнала, измеренных на интервалах сомкнутых голосовых складок, принадлежащих последовательным периодам ОТ (1-й период, 2-й период, ..., N-ный период); a1, a2,..., aN — векторы ЛП-коэффициентов, подлежащие оценке на соответствующих периодах; AрA2,...,AN- матрицы отсчётов сигнала на соответствующих периодах. Тогда задача, которую должен решать алгоритм, формулируется как нахождение последовательности векторов a1,a2,...,aN из решения следующей оптимизационной задачи: Г N N ' { a2,..., a n } = argmin XI\Anan — 2 Pn — an—1f2 (6) {al,ü2,...,aN}|_ n=1 n=2 J Соотношение (6) означает следующее: рассматриваются всевозможные последовательности векторов {a1,a2,...,aN } (всевозможные траектории, описываемые вектором ЛП-коэф-фициентов). Из этих последовательностей выбирают такую, которая будет минимизировать критерий (6). Очевидно, что прямой перебор таких траекторий невозможен. Форма критерия, подлежащего

Макаров И.С.

Об одном алгоритме оценки формантных частот на интервале сомкнутых голосовых складок

50

минимизации, подсказывает нам, что поставленная задача является задачей динамического программирования (Беллман, 1960). Чтобы использовать идеологию динамического программирования, введём несколько вспомогательных функционалов:

w = W (ai, a2 a)=XI \Aa- 2 + I\an - an-i\\^*=N

n=1 n=2

_ _ i|2

W =1 Aiai-

(7)

(8)

_ __II ___ ц2 и___ ц2

Dr(ai,аг_1) = ||Д.аг -|2 + Ä\\a1 _aг_l|2,i = 2,...,N Из (7) следует, что

{,«2,...,aN}= argmin Wn«2,...,«n)

{a1,a2,...,aN }

Кроме того, очевидно следующее равенство:

Wt (a1, ^v^ ä ) = W_1 (al, a2 ai_1 ) + D. (ai , ai_1) . = N (9)

Найдём минимум WN. Используя (9), получаем следующий рекурсивный набор соотношений:

min WN (a1, a2,..., aN ) = { min [_1 (a1,..., aN_1) + Dn (aN, an_1)] =

min

{a1,a2,..., aN-1

— mi n

{a1,a2,..., aN -1.

= _ min

{,a2,...,aN - 2.

aN j

WN-1 + min Dn (aN , aN_1) . aN .

W N - 2 + D N-1 (aN-1J aN-2 ) + min DN (aN J aN -1)

WN-2 + min[ Dn-1 (aN-1J aN-2 ) + min DN (aN J aN-1 )

min

a1

W + min

D2(a2,a1) + min D3(a3,a2) + ...min

DN-1 (aN-1J aN-2 ) + min DN (aN J aN-1 ) !••

лл

yj

(10)

Из (10) следует, что минимум функционала ^ может быть определён рекурсивно на основании следующих соотношений:

N -1) = (аы,

FN-1 -2 ) = т1п[-1 (aN-1> aN-2 ) + ^ а-1 )]

^-1

FN-2 -3 ) = т1п[-2 -2 > ^-3 ) + ^-1 -2 )]

^ = min[ + ЗД)]

a1

Введём ещё набор следующих функций:

(11)

а

N -In (a N-1 ) = arg min DN (aN J aN -1)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

aN -1 = fN-1(a N-2 ) = arg min[[N-1 (aN-1 J aN-2 ) + ^N (aN-1)1

N-1

N-1

N-2

N-1

aN - = fN -i(a N-2 ) — min[[N-1 (aN-15 aN-2) + FN (aN-l)l

aN-2 — fN-2 (aN-3 ) — Kg min[[N-2 К-2 5 aN-3 ) + FN-1 (aN-2 )1

а1 = arg Ш1И

[ + F2(ai)]

(12)

Теоретически, рекурсивные соотношения (11) и (12) позволяют найти решение оптимизационной задачи (6). Схема работает следующим образом. Начиная с периода ОТ с порядковым номером Ы, мы, используя соотношения (11), рекурсивно определяем выражение

для Е1 (а1) . Как только функция ^ (а1) становится известной, мы определяем а1 путем минимизации данной функции. Как только вектор ЛП-коэффициентов а1 для первого периода ОТ определён, вектор а2 для второго периода ОТ вычисляется, согласно

(12), как а2 = /2(а1). Зная а2, мы определяем а3 как а3 = /3(а2). Продолжая эту процедуру, мы последовательно определяем все искомые векторы ЛП-коэффициентов

а1 5 а 21---1 ам .

Для того чтобы практически использовать рекурсивные соотношения (11) и (12), необходимо найти аналитический вид функций ^ ГМ1, ..., Р1. Определим сначала выражения для и аы. Поскольку соотношения (11) представляют собой задачи последовательной квадратичной минимизации, вектор аы определяется из уравнения (ак,ак—1)/ дак = 0 . Воспользуемся известным правилом дифференцирования евклидовой нормы по вектору (Лоусон, Хенсон, 1986):

й II —1|2 т, —

—\\Лх - 6 = 2Ат (Ах - Ь)

1,2

(13)

Отсюда получаем:

дРы (ам, ам-1)

даы

В этом соотношении Е — единичная матрица. Разрешая его относительно вектора ЛП-коэф-фициентов, получаем:

0 — (atnAN +AE) - ¿aN-1 - AtnSN

a

f N (aN-1 ) — arg min DN (aN 5 aN-1 ) — {ANAN ) 1 {AN-1 + ANsN )

(14)

Подставляя это выражение в соотношение для ^ (см. (11)), получаем:

FN (aN-1)

mn AnaN + лЕ)-1 aN-1 +(an AnaN )-1 AN -Ek

+

+ Я

'¿(AN An +AE ) - E)-1 +(ANAN +AE) A

Ts

NN

(15)

Таким образом получим аналитические выражения для РМ1, ..., р и/Ы1, ...,/1. Из (11) и (12) следует, что общая запись для а { и Р. определяется следующими соотношениями:

а. = БД , + С.

I I I —1 I

N -i +1

F(a-1) — 2 [[a-1 + Qt\I2 + ¿1Ra-1 + s

2

к II2

i — N, N -1,...,2

(16)

k—1

51

N-1

N-2

2

2

52

Здесь в C ,, P Q R S.k — некоторые матрицы. Для i = N эти матрицы определя-

ются из (14) и (15):

BN

C -N = (( +ÄE )-1 N ,

P 1 N ,1 = Mv ((n +^E) - 1 5

QN ,1 = [[ ((AN +ÄE)- 1 A N

RN ,1 = Л(( +AE )-1 - -E,

SN ,1 = (( +ae )-1 4. 5n

(17)

Допустим, эти матрицы уже определены на i-том шаге рекурсии (т.е. известны

Для аi и F). ОпреДелим вм, См, PQi_hk, RMk, S-hk. ПУсть I> 2. ТогДа, используя (13), получаем:

dj- (|Д-1j-1 - s2 + 4a.-1 " + F -1 )) = 0 =

N-i+1

= Ah (д-1 j-1 - S-1)+4(д-1 - ji-2) + S р (Д J-1 + Qt)+

+ 4RT (да» + )] (18)

k=1

Разрешая это уравнение относительно аг-1 и сравнивая полученное соотношение с первым уравнением (16), получаем:

Г , V1

B-1 =я

C,

/ -1

Д-1 + ]

k=1

4-i + N£[ ] i

k=1 J

£5,-1 - +Ksk ]

k=1

(19)

Подставляя эти соотношения во второе уравнение (16), получаем:

Р-и = Р^-1,Й-и = ркСг-1 + П ,Р-и = ^Я-1,Б-к = ^С-1 + ,к = = 1,..., N-¿ +1

Р = ЛЯП = АС - = Я - Р Б =

1 ¡-1,N-¡+2 ¡-1' ^г-1^-г +2 г-1 '\-1>-'4-1,N-¡+2 ^г-1 °г-1,N-¿+2

= С,-1 (20) Аналогичным образом можно определить соответствующие матрицы для случая I = 2. Нетрудно получить и выражение для а1:

a,

N-1

k=1

N-1

4T*1 ^((k +¿RlkS 2,k )

k=1

(21)

Полученные формулы позволяют построить алгоритм, решающий исходную задачу (6). Алгоритм работает следующим образом.

1. Сначала по акустическому сигналу определяется соответствующий контур периодов основного тона. Для решения этой задачи мы используем алгоритм, построенный в (Цы-плихин, 2007).

2. Для дальнейшего анализа выделяется последовательность из N периодов ОТ, при этом для каждого периода определяются интервалы сомкнутых голосовых складок. Для решения этой задачи мы используем алгоритм из ^едпапагауапа, Veldhuis, 1998).

3. На каждом из интервалов сомкнутых голосовых складок мы измеряем соответствующие акустические сигналы 51з...,и матрицыЛ1,...,АЛ.

4. С помощью (17) определяем матрицы БЛ, СЛ, Р в Я для Л-го периода ОТ.

5. С помощью соотношений (19) и (20) рекурсивно определяем выражения для Б, С, Рк,

в*=ЛЛ-15..2). ' ' '

6. Зная P„ Q2,_, R„ S„

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2k *:-2,k> 2,e 2,e

определяем a1 с помощью (21).

7. Зная a1, последовательно определяем a2,a3,...,aN с помощью первого соотношения (16). Полученная последовательность и будет минимизировать функционал (6).

Эксперименты

В качестве тестового материала мы использовали звукосочетания /IA/, /AI/, /IU/, /UI/, /AU/, /UA/ в произнесении двоих дикторов — носителей американского английского языка: мужчины (среднее значение частоты основного тона = 120 Гц) и женщины (среднее значение частоты основного тона = 190 Гц). Соответствующие звуковые файлы были взяты из базы данных X-ray Microbeam Speech Production Database, task 15 для дикторов jw12 (мужчина) и jw13 (женщина). Исходные акустические файлы были записаны с частотой дискретизации 21379 Гц при отношении сигнал-шум примерно 30 дБ (Westbury, 1994). Эти звуковые файлы анализировались построенным алгоритмом, и полученные фор-мантные треки отображались на сонограммах соответствующих сигналов для визуальной оценки того, насколько точно и надёжно алгоритм отслеживает соответствующие формантные частоты. Для сравнения результатов мы использовали стандартный ковариационный метод линейного предсказания на интервале сомкнутых голосовых складок применительно ко всем акустическим файлам, описанным выше.

Анализ осуществлялся следующим образом. Сначала все речевые сигналы ресэмплирова-лись на частоту дискретизации 8 кГц с 16-битным квантованием амплитуды каждого временного отсчёта. Затем по этим сигналам определялись моменты возбуждения вокального тракта голосовым источником с помощью метода, построенного в (Цыплихин, 2007). Временной интервал между двумя соседними голосовыми возбуждениями принимался нами за текущий период основного тона. Длительность интервала сомкнутых голосовых складок принималась равной двум миллисекундам, при этом начало данного интервала совмещалось с первым отсчётом, следующим за моментом возбуждения (данная стратегия выбора интервала сомкнутых складок была описана в (Yegnanarayana, Veldhuis, 1998)). Речевой сигнал не предыскажался.

Построенный алгоритм линейного предсказания, а также стандартный ковариационный метод были применены для оценки формантных частот на выделенных интервалах сомкнутых голосовых складок. В обоих методах в качестве временного окна анализа использовалось прямоугольное окно. Порядок модели для обоих алгоритмов был равен 9. Параметр регуляризации I во всех случаях полагался равным 0.05. После определения ЛП-векторов формантные частоты и ширины определялись по полюсам соответствующих ЛП-полиномов. При этом из анализа удалялись полюсы с частотами, меньшими

53

54

200 Гц, полюсы с ширинами, большими 600 Гц, а также полюс на частоте Найквиста (частота, равная половине частоты дискретизации).

На рис. 1 представлена сонограмма звукосочетания /А1/ в произнесении диктора-мужчины вместе с формантными треками, определёнными с помощью ковариационного метода линейного предсказания.

Рис. 1. Сонограмма / вместе с формантными треками; ковариационный метод; диктор-мужчина

Как видно из рисунка, оценки формантных частот обнаруживают нерегулярные резкие скачки от периода к периоду. Для первой форманты такие скачки наблюдаются в начале звукового файла (временной интервал в окрестности метки 0.05 сек), на протяжении оставшейся части звукосочетания траектория F1 сравнительно гладкая. Резкие скачки оценок второй форманты практически не наблюдаются, за исключением отдельных периодов (лва периода в окрестности метки 0.3 сек). Трек оценок третьей форманты непрерывен примерно до временной метки 0.2 сек (гласный /А и формантный переход на /|/). Затем траектория F3 фактически распадается на последовательность нерегулярных скачков. Отметим, что на основной части временного интервала, соответствующего гласному /I/, оценки F3 существенно отличаются от «истинного» хода третьей форманты. Наконец, трек четвёртой форманты фактически не просматривается.

Помимо скачкообразного поведения оценок формантных частот, на рис. 1 между треками F1 и F2 наблюдаются «ложные» форманты - в окрестности метки 0.24 сек и в конце звукового файла (0.4-0.45 сек).

На рис. 2 показана сонограмма того же звукосочетания в произнесении диктора-женщины.

Рис. 2. Сонограмма /AI/ вместе с формантными треками; ковариационный метод; диктор-женщина

Очевидны резкие нерегулярные скачки, существенно искажающие ход формантных траекторий (особенно для второй и третьей форманты). Начиная с метки 0.28 сек, Fß-трек практически не просматривается. Помимо этого, на интервале 0.25-0.6 сек между траекториями второй и третьей формант наблюдается большое количество ложных формант.

На рис. 3 и 4 представлены формантные треки звукосочетания /AI/, оценённые новым алгоритмом линейного предсказания для, соответственно, мужского и женского голосов.

Рис. 3. Сонограмма /AI/ вместе с формантными треками; новый ЛП-алгоритм; диктор-мужчина

55

Макаров И.С.

Об одном алгоритме оценки формантных частот на интервале сомкнутых голосовых складок

Рис. 4. Сонограмма /Л1/ вместе с формантными треками; новый ЛП-алгоритм; диктор-женщина

Сравнивая рис. 1 и 3 с рис. 2 и 4 соответственно, мы видим, что новый алгоритм линейного предсказания обеспечивает гораздо более гладкие и физически правдоподобные траектории оценок формантных частот, чем стандартный ковариационный метод. В частности, не наблюдается ни одной ложной фор-мантной оценки, а треки второй и третьей формант определяются с высокой точностью. Это особенно очевидно для женского голоса на временном интервале 0.35-0.6 сек (траектории второй и третьей формант). Для мужского голоса на интервале 0.37-0.4 сек для третьей форманты наблюдается пропуск нескольких оценок. Этот пропуск, связанный с тем, что ширины соответствующих полюсов на данном временном интервале оказались больше 600 Гц, может быть легко исправлен в автоматическом алгоритме построения формантных треков. Интересно отметить, что для мужского голоса траектория четвёртой форманты определяется весьма надёжно до метки 0.35 сек.

На рис. 5 и 6 показаны сонограммы и формантные треки для звукосочетания /Аи/ в произнесении мужчины и женщины.

Для мужского голоса ковариационный анализ сравнительно успешно оценил треки всех трёх формант. Напротив, для женского голоса оценки второй форманты (особенно на интервалах 0-0.2 сек и 0.3-0.65 сек) демонстрирует нерегулярное скачкообразное поведение, существенно затемняющее «истинный» ход Р2-траектории. Наконец, трек третьей форманты — начиная с метки 0.25 сек - практически не просматривается.

56

Рис. 5. Сонограмма /AU/ вместе с формантными треками; ковариационный метод; диктор-мужчина

Рис. 6. Сонограмма /AU/ вместе с формантными треками; ковариационный метод; диктор-женщина

Соответствующие результаты, полученные с помощью нового алгоритма, показаны на рис. 7 и 8.

57

Рис. 7. Сонограмма/Аи/вместе с формантными треками; новый ЛП-алгоритм; диктор-мужчина

58

Рис. 8. Сонограмма /Аи/ вместе с формантными треками; новый ЛП-алгоритм; диктор-женщина

Как и в случае звукосочетания /А1/, новый алгоритм надёжно оценил траектории трёх формантных частот как для мужского, так и для женского голоса. Например, поведение третьей форманты на интервале 0.25-0.65 сек для женского голоса было отслежено очень чётко (рис. 8), в то время как стан-

дартный ковариационный метод не смог на том же интервале построить формантной траектории.

На рис. 9 и 10 показаны сонограммы и формантные треки для звукосочетания /1и/.

Рис. 9. Сонограмма/IU/вместе с формантными треками; ковариационный метод; диктор-мужчина

Рис. 10. Сонограмма/IU/вместе с формантными треками; ковариационный метод; диктор-женщина

Видно, что как для мужского, так и для женского голосов треки второй и третьей формант, вычисленные с помощью стандартного ковариационного метода, носят крайне нерегу-

59

60

лярный скачкообразный характер, а на интервале до 0.25 сек фактически вообще не просматриваются. Напротив, новый ЛП-алгоритм определяет соответствующие траектории очень чётко (рис. 11 и 12).

Рис. 11. Сонограмма/Ш/вместе с формантными треками; новый ЛП-алгоритм; диктор-мужчина

Рис. 12. Сонограмма/Ш/вместе с формантными треками; новый ЛП-алгоритм; диктор-женщина

Как видно из рис. 11, на интервале 0.1-0.15 сек новый алгоритм пропустил несколько оценок второй форманты. Как и в случае звукосочетания /А1/, этот пропуск связан с тем, что ширина соответствующего полюса на этом интервале превысила 600 Гц (таким образом, фактически оценки частоты второй

форманты там присутствуют). Для устранения этого недостатка можно использовать разные стратегии, наиболее простая из которых — увеличить порог для допустимой ширины форманты. В любом случае, поскольку такой пропуск включает в себя лишь несколько частотных оценок, его легко отследить и компенсировать в автоматическом формантном трекере.

Обсуждение

Статья посвящена построению нового алгоритма линейного предсказания с ограничениями на допустимые траектории ЛП-коэффициентов применительно к задаче оценивания формантных частот на очень коротких интервалах (соответствующих интервалам сомкнутых голосовых складок). Сравнительный анализ данного алгоритма и стандартного ковариационного метода, проведённый на звукосочетаниях «гласный + гласный» в произнесении мужчины и женщины, показал, что во всех случаях формантные треки, построенные с помощью нового алгоритма, оказываются гораздо более гладкими, точными и физически правдоподобными, чем траектории, определённые стандартным методом. В частности, не наблюдается ни нерегулярных скачкообразных изменений формантных частот от периода к периоду, столь характерных для линейного предсказания на интервале сомкнутых голосовых складок, ни появления «ложных» формантных оценок.

Построенный алгоритм существенно зависит от параметра регуляризации X. Чем больше значение этого параметра, тем существеннее вклад члена, определяющего непрерывность ЛП-траектории, в общий критерий. В наших экспериментах мы использовали постоянное значение этого параметра, равное 0.05. Возникает вопрос, как отразится на результатах формантного анализа вариация значений этого параметра.

Выше был отмечен пропуск нескольких оценок второй форманты для звукосочетания /Ю/ в произнесении диктора-мужчины (рис. 11). Если положить параметр регуляризации равным 0.09, получим следующий результат (рис. 13):

Рис. 13. Сонограмма/Ш/вместе с формантными треками; новый ЛП-алгоритм; диктор-мужчина

Сравнивая рис. 11 и 13, мы видим, что пропуск формантных оценок на Р2-траектории исчез. Вместе с тем это привело к некоторому смещению трека формантных оценок по частоте (по сравнению с «истинной» формантной траекторией), а также к возникновению трёх пропусков на F3-треке.

61

Рассмотрим другой пример. На рис. 14 представлена сонограмма звукосочетания /IA/ для женского голоса, полученная ковариационным методом, а на рис. 15 — новым ЛП-алгоритмом с параметром регуляризации = 0.05.

Рис. 14. Сонограмма/1А/вместе с формантными треками; ковариационный метод; диктор-женщина

Из сравнения рис. 13 и 14 видно, что новый алгоритм определил треки второй и третьей формант гораздо лучше, чем стандартный ковариационный анализ. Однако на интервале 0.22-0.27 сек на траектории третьей форманты наблюдаются скачки, искажающие ход трека. Чтобы избавиться от этого скачка, мы увеличили значение параметра регуляризации с 0.05 до 0.8. Результирующие формантные треки показаны на рис. 15.

62

Рис. 15. Сонограмма/IA/вместе с формантными треками; новый ЛП-алгоритм; диктор-женщина

Видно, что скачки практически полностью исчезли. Вместе с тем, усиление веса критерия непрерывности привело к некоторому смещению формантных оценок по частоте (особенно очевидному для второй и третьей форманты на интервале до 0.15 сек). Это плата за непрерывность формантных траекторий.

Из приведённых примеров следует, что, варьируя параметр регуляризации, можно добиться большей или меньшей степени непрерывности и гладкости формантных траекторий за счёт некоторого смещения мгновенных формантных оценок. Возникает вопрос, можно ли создать алгоритм, который бы автоматически подбирал значения параметра регуляризации, достигающие оптимального компромисса между требованием непрерывности формантных траекторий и малой ошибкой аппроксимации речевого сигнала моделью линейного предсказания (1).

В теории некорректных задач одним из методов, решающих данную проблему, является метод подбора параметра регуляризации по невязке (Тихонов, Арсенин, 1986). Пусть

ё - погрешность измерения речевого сигнала, ак- к-тый ЛП-вектор из оптимальной последовательности векторов, определённых с помощью построенного алгоритма при заданном значении параметра регуляризации X. Тогда сущность метода заключается

в выборе такого значения X, которое бы удовлетворяло следующему соотношению:

Л = arg min

1 N ,, 1 ХА

kak ,Л Sk

-s

Практически решение этого нелинейного уравнения можно получить следующим образом. Для разных заранее заданных значений параметра регуляризации X мы находим с помощью нашего алгоритма последовательности ЛП-векторов. Из этих последовательностей мы выбираем такую, которая минимизирует данное соотношение. Значение параметра регуляризации, соответствующее выбранной оптимальной последовательности, и будет искомым значением X. В настоящее время алгоритм, реализующий автоматический выбор оптимального значения параметра регуляризации, находится в процессе доработки и тестирования.

Построенный алгоритм определяет последовательность ЛП-коэффициентов из условия минимума функционала (6). Можно модифицировать данный функционал, записав его в следующей форме:

" N N

{oTj, a2,..., aN } =

а^ Ш1п

Х IAnan - sll + ЛХ ||an - 2an , +

^^W n n n || 2 ^^ || n n—i

a

n—2 ||2

Отличие данного функционала от функционала (6) заключается в том, что здесь мы требуем не непрерывности траекторий ЛП-коэффициентов, а их гладкости. Используя метод, построенный в данной работе, можно модифицировать его применительно к минимизации данного функционала. Пока неясно, будет ли решение этой минимизационной задачи иметь какое-то преимущество перед алгоритмом, построенным нами выше. Этот вопрос сейчас находится на стадии изучения.

Алгоритм линейного предсказания, построенный в этой работе, показал хорошие результаты на материале звукосочетаний, произнесённых мужчиной и женщиной при отношении сигнал-шум около 30 дБ. Необходимо исследование того, насколько точно и надёжно формантные частоты определяются в условиях шумов. В настоящее время эта проблема нами исследуется.

Заключение

Работа посвящена построению нового алгоритма линейного предсказания с ограничениями на траектории ЛП-коэффициентов. В основе алгоритма лежит минимизация некоторого критерия, включающего в себя ошибку аппроксимации речевого сигнала моделью

63

2

Макаров И.С.

Об одном алгоритме оценки формантных частот на интервале сомкнутых голосовых складок

линейного предсказания и невязку между ЛП-векторами, вычисленными на соседних периодах основного тона. Минимизационная задача решается с помощью рекурсивной матричной схемы, построенной в рамках идеологии динамического программирования.

Алгоритм протестирован на звукосочетаниях «гласный + гласный» для мужского и женского голосов. Траектории оценок формантных частот, получаемых с помощью данного алгоритма, оказываются значительно лучше (по таким параметрам, как отсутствие резких скачков и ложных формант, физическая адекватность решения), чем траектории, определённые с помощью ковариационного метода линейного предсказания.

Литература

1. Welling L., NeyH. Formant Estimation for Speech Recognition. // IEEE Trans. Speech, and Audio Process. 1998. Vol. 6. № 1. P. 36-48.

2. Deng L, A. Acero, and Bazzi I. Tracking Vocal Tract Resonances Using a Quantized Nonlinear Function Embedded in a Temporal Constraint. // IEEE Trans. Audio, Speech, and Language Process. 2006. Vol. 14. № 2. P. 425-434.

3. Deng L., Lee L, Attias H. and Acero A. Adaptive Kalman Filtering and Smoothing for Tracking Vocal Tract Resonances Using a Continuous-Values Hidden Dynamic Model. // IEEE Trans. Audio, Speech, and Language Process. 2007. Vol. 15. № 1. P. 13-23.

4. Ramachandran R., Zilovich M. and Mammone R. A Comparative Study of Robust Linear Predictive Analysis Methods with Application to Speaker Identification. // IEEE Trans. Speech, and Audio Process. 1995. Vol. 3. № 2. P. 117-125.

5. Potamianos A, Maragos P. Speech Analysis and Synthesis Using an AM-FM Modulation Model. // Speech Communication. 1999. Vol. 28. P. 195-209.

6. Pinto N, Childers D. and Lalwani A. Formant Speech Synthesis: Improving Production Quality. // IEEE Trans. Acoust., Speech, and Signal Process. 1989. Vol. 37. № 12. P. 1870-1887.

7. Mustafa K., Bruce I. Robust Formant Tracking for Continuous Speech with Speaker Variability. // IEEE Trans. Audio, Speech, and Language Process. 2006. Vol. 14. № 2. P. 435-444.

8. Pandey P., Shah M. Estimation of Places of Articulation During Stop Closures of Vowel-Consonant-Vowel Utterances. // IEEE Trans. Audio, Speech, and Language Process. 2009. Vol. 17. № 2. P. 277-285.

9. Леонов А.С., Макаров И.С., Сорокин В.Н., Цыплихин А.И. Кодовая книга для речевых обратных задач. // Информационные процессы. 2005. Т. 5. № 2. С. 101-119.

10. Маркел Дж, Грей А. Линейное предсказание речи. М.: Связь, 1980.

11. Murthy H., Yegnanarayana B. Formant Extraction from Group Delay Function. // Speech Communication. 1991. Vol. 10. P. 209-221.

12. Snell R., Milinazzo F. Formant Location from LPC Analysis Data. // IEEE Trans. Speech, and Audio Process. 1992. Vol. 1. № 2. P. 129-134.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

13. KrishnamurthyA., Childers D. Two-Channel Speech Analysis. // IEEE Trans. Acoust., Speech, and Signal Process. 1986. Vol. 34. № 4. P. 730-743.

14. ParthasarathyS. Excitation-Synchronous Modeling of Voiced Speech. // IEEE Trans. Acoust., Speech, and Signal Process. 1987. Vol. 35. № 9. P. 1241-1249.

15. Fu Q., Murphy P. Robust Glottal Source Estimation Based on Joint Source-Filter Model Optimisation. // IEEE Trans. Audio, and Speech Process. 2006.

64

Vol. 14. № 2. P. 492-501.

16. Леонов А.С., СорокинВ.Н., Макаров И.С. Устойчивость оценок формантных частот. // Речевые технологии. 2009. Т. 1. С. 3-21.

17. Akande O., Murphy P. Estimation of the Vocal Tract Transfer Function with Application to Glottal Wave Analysis. // Speech Communication. 2005. Vol. 46. № 1. P. 15-36.

18. Nordstrom K., Tzanetakis G. and Driesse P. Transforming Perceived Vocal Effort and Breathiness Using Adaptive Pre-emphasis Linear Prediction. // IEEE Trans. Audio, Speech, and Language Process. 2008. Vol. 16. № 6. P. 1087-1096.

19. Miyoshi Y., Yamato K., Mizoguchi R., Yanagida M. and Kakusho O. Analysis of Speech signals of Short Pitch Period by a Sample-Selective Linear Prediction. // IEEE Trans. Acoust., Speech, and Signal Process. 1987. Vol. 35. № 9. P. 1233-1240.

20. Ma Ch., Kamp Y. and Willems L. Robust Signal Selection for Linear Prediction Analysis of Voiced Speech. // Speech Communication. 1993. Vol. 12. P. 69-81.

21. Magi C., Pohjalainen J., Backstrom T., andAlku P. Stabilised Weighted Linear Prediction. // Speech Communication. 2009. Vol. 51. P. 401-411.

22. Yegnanarayana B., Veldhuis R. Extraction of Vocal-Tract System Characteristics from Speech Signals. // IEEE Trans. Speech, and Audio Process. 1998. Vol. 6. № 4. P. 313-327.

23. Stoica P., Soderstrom T. and Ti F. Asymptotic Properties of the High-Order Yule-Walker Estimates of Sinusoidal Frequencies. // IEEE Trans. Acoust., Speech, and Signal Proces. 1989. Vol. 37. № 11. P. 1721-1734.

24. CranenB., BovesL. On Subglottal Formant Analysis. // J. Acoust. Soc. Amer. 1987. Vol. 81. № 3. P. 734-746.

25. Sreenivas T., Niederjohn R. Zero-Crossing Based Spectral Analysis and SVD Spectral Analysis for Formant Frequency Estimation in Noise. // IEEE Trans. Signal Process. 1992. Vol. 40. № 2. P. 282-293.

26. Kot A, Tufts D. and Vaccaro R. Analysis of Linear Prediction by Matrix Approximation. // IEEE Trans. Signal Process. 1993. Vol. 41. № 11. P. 3174-3177.

27. Тихонов А.Н., Арсенин В.Я. Методы решения некорректных задач. М.: Наука, 1986.

28. Ekman A., Kleijn B. andMurthiM. Regularized Linear Prediction of Speech. // IEEE Trans. Audio, Speech, and Language Process. 2008. Vol. 16. № 1. P. 65-75.

29. Беллман Р. Динамическое программирование. М.: Изд-во иностр. лит-ры. 1960.

30. Лоусон К., Хенсон Р. Численное решение задач метода наименьших квадратов. М.: Наука, 1986.

31. Цыплихин А.И. Анализ импульсов голосового источника. // Акустический журнал. 2007. Т. 53. № 1. С. 119-133.

32. Hawks J. Difference Limens for Formant Patterns of Vowel Sounds. // J. Acoust. Soc. Amer. 1994. Vol. 95. P. 1074-1084.

33. Westbury J. X-ray Microbeam Speech Production Database. User's Handbook. Version 1. — 1994.

Сведения об авторе

Макаров Илья Сергеевич —

кандидат технических наук, заведующий лабораторией анализа и обработки биомедицинских сигналов ОАО НПО «Экран».

Старший научный сотрудник лаборатории когнитивных интерфейсов Российского научного центра «Курчатовский институт». Действительный член Академии медико-технических наук РФ. Научные интересы — биологическая и медицинская акустика, акустика речи. Имеет более 40 публикаций. Email: speechprod_mak@mail.ru

65

i Надоели баннеры? Вы всегда можете отключить рекламу.