Научная статья на тему 'Сегментация речи на основе метода модифицированного непрерывного динамического программирования'

Сегментация речи на основе метода модифицированного непрерывного динамического программирования Текст научной статьи по специальности «Математика»

CC BY
80
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
речь / сегментация речи / динамическое программирование

Аннотация научной статьи по математике, автор научной работы — А Г. Давыдов, Б М. Лобанов

Рассматривается построение системы сегментации речевого сигнала на основе метода модифицированного непрерывного динамического программирования с использованием системы компиляционного синтеза речи по тексту (TTS).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SPEECH SEGMENTATION ON THE BASE OF MODIFIED CONTINUOUS DYNAMIC PROGRAMMING

Construction of the system of segmentation of a speech signal is considered on the basis of a method of the modified continuous dynamic programming, with use the system of concatenation text to speech synthesis (TTS).

Текст научной работы на тему «Сегментация речи на основе метода модифицированного непрерывного динамического программирования»

2004

Доклады Б ГУ ИР

ОКТЯБРЬ-ДЕКАБРЬ

№ 4

УДК 621.391

СЕГМЕНТАЦИЯ РЕЧИ НА ОСНОВЕ МЕТОДА МОДИФИЦИРОВАННОГО НЕПРЕРЫВНОГО ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ

А.Г. ДАВЫДОВ, Б.М. ЛОБАНОВ

Объединенный институт проблем информатики HAH Беларуси Сурганова, 6, Минск, 22013, Беларусь

Поступила в редакцию 2 сентября 2004

Рассматривается построение системы сегментации речевого сигнала на основе метода модифицированного непрерывного динамического программирования с использованием системы компиляционного синтеза речи по тексту (TTS).

Ключевые слова: речь, сегментация речи, динамическое программирование.

В последнее время все большее распространение получают системы компиляционного синтеза речи [1], заключающиеся в компиляции участков естественной речи. При этом весьма трудоемким процессом является создание новых баз дикторов для синтеза речи. Основные сложности при создании новой базы связаны с разделением записи голоса диктора на элементы синтеза, которые бы могли в дальнейшем использоваться для синтеза речи новым голосом.

С целью автоматизации сегментирования речевого сигнала на базе метода, описанного в [2], был разработан следующий метод, общая последовательность обработки данных в котором разбивается на следующие этапы:

подготовка эталонных данных при помощи синтезатора речи;

синтез речи по заданному тексту с сохранением структуры (позиций аллофонов в синтезированной речи);

вычисление сонограммы эталонного сигнала; нормирование сонограммы эталона; подготовка обрабатываемых данных; вычисление сонограммы обрабатываемого сигнала; нормирование сонограммы обрабатываемого сигнала;

нелинейное по времени динамическое сопоставление сонограмм синтезированной и естественной речи;

сегментация данных (перенос меток);

Синтез речи по заданному тексту подробно описан в [1]. Необходимо только заметить, что для сегментации речевого сигнала понадобится не только его синтезированный аналог, но и разметка синтезированной речи на ее элементы.

Вычисление сонограммы может быть выполнено несколькими способами, однако все они преследуют одну цель: выделить в речи такие компоненты, которые бы наиболее хорошо показывали отличие различных звуков друг от друга и кроме этого минимально отличались для различных дикторов. Методы, описанные в [3-5], используют для этого первоначальное вычисление спектра сигнала через преобразование Фурье, а затем приведение его к частотной шкале в барках [3, 4] или в мелах [5]. Для достижения лучшей дикторонезависимости в [3, 4, 5] используется вычисление кепстральных коэффициентов.

В разработанном методе для анализа спектра используется набор из 20 полосовых фильтров Чебышева 3-го порядка, с шириной полосы в 1, 2 или 3 барка. В ходе исследований было установлено, что использование фильтров с полосами в 3 барка дает наименьшую дикторскую вариативность спектра при незначительном ухудшении отличий одного звука от дру-

Нормирование сонограммы предлагается осуществлять в соответствии со следующими формулами:

1 п+Уг с 8ит(п,]) = —_- £ £>(<>•(//,/),*(*,/)).

1 'с ~1 к=п-т/2

\$ит(п, у), если 8ит(п, у) > О

Яф, Л = Л С / Ч Л'

О, если Ьит(п, у) < О

где Бп(п,]) — нормированное значение точки п.] сонограммы; п,]) — ненормированное значение; Т— интервал нормирования; С — число каналов в сонограмме. Функция Д(5'(//,у),Л'(А\/)) вычисляется по формуле:

1, если S(nj)-S(k,l)> 8

A(S(nJ),S(k,I)) = . 0, если -e<S(n,j)-S(k,l)<s.

-1, если S(n,j)-S(k,l)<- s

где б — порог шумов.

Примером такого нормирования может служить рис. 1, где на рис. 1 ,а изображены три ненормированные функции, а на рис 1,6 — они же нормированные.

30

25

20

15

15

а) " " " ' б)

Рис. 1. Пример вычисления нормированного сигнала

Нормирование этих функций выполнялось с параметрами Т = 1, С = 15 , 8 = 0,1. Нелинейное по времени динамическое сопоставление данных, описанное в [6], было модифицировано для задачи сегментирования речи и выполняется по следующему алгоритму.

Пусть |>S'(//) j = {iS'(O), iS'(l), —, ^(//г),..., tS(iV)} есть последовательность векторов

(спектральных срезов сонограммы) синтезированной речи, а

= {£(0), Е( 1),..., Е(т), .., Е(М)} — последовательность векторов естественной речи.

Первым шагом является нахождение матрицы локальных расстояний между

векторами синтезированной и естественной речи:

¡=1

d(E(m\S{rij) = JDelta(E(m,i),S(n,i))

'\E(m,i)-S(n,i)\

Delta(E(m, i), S(n, /'))

если

1 - delta

О, если I Eim, i) - S(n, /)| < delta,

\E{m,í) - S(n,i)\ > delta,

где delta — эмпирический коэффициент, предназначенный для увеличения дикторонезависи-мости.

Следующим шагом является вычисление матрицы интегральных расстояний Dim,ri),

матрицы времен Т(т,п) и матрицы переходов Тг(т,п) со следующими начальными условиями:

Т(т,0) = 0, 77(0,и) = 0,

D{m, 0) = d (Е(т), S(0)), £»(0,и) = ¿(£(0), + D(0,и -1) + * |и -1|,

Trim, 0) = TrEnd

для всех т = 1,М , n = 0,N.

Остальные значения D(m,rí), Т(т,п) и Tr(m,ri) рассчитываются в соответствии с рекуррентными формулами, приведенными ниже:

Д/й-1,/г) + у(£(/й),%)) + 7(й,Дйг-1,й)) (1)" £>(уи, и -1) + kvd(Е(т), S(n)) + Y(n-1, Т(т, и -1)) (2) Dim -\,п-\) + kdd(E(m\ Sin)) + Y(n-\,T(m-\,n-1)) (3)

Dim,rí) - min

Tim,n) =

T(m,n-1),

если £>(да,и) = (1), если Dim,ri) = iT), T(m-\,n-X) + \, если D{m,ri) = i 3).

Trim, и) =

Y(n,T) =

TrHoriz, если I)im.,n) = (1), TrVert, если Dim,n) = (2), TrDiag, если Dim,ri) = i 3).

|w — Zj • Pathin, Г), Pathin, T) = 1 - a

DestZero

n-T

, a = 0,5

<

где kt — коэффициент учета времени; kh, kv, kd — коэффициенты горизонтального, вертикального и диагонального перемещения соответственно; Pcith(п,Т) — функция, контролирующая возможность искажения оси времени синтезированного сигнала относительно оси времени размечаемого сигнала (в простейшем случае эта функция равняется 1, однако для задания возможного "коридора" искажения осей может быть использована указанная выше формула); г — коэффициент расширения "коридора" (на рис. 2 изображена функция Path(п,Т) с коэффициентом расширения коридора 0,75); DestZero — нормирующий коэффициент, необходимый при поиске и сегментировании речи набором синтезированных эталонов, определяющий как минимум строки матрицы интегральных расстояний D(m,N -1), при сопоставлении эталонной сонограммы с нулевой сонограммой (такой, в которой все значения равны 0); TrHoriz, TrVert, TrDiag — некоторые различные числа, необходимые для последующего поиска обратного пути.

Значения коэффициентов kt, к^, kv, kj были подобраны экспериментальным методом и равнялись 0,01, 0,3, 0,9, 0,6, однако они могут и варьироваться.

Рис. 2. Функция Path(n, Т) с коэффициентом расширения коридора 0,75

Сегментация данных заканчивается поиском минимума в последней строке матрицы интегральных расстояний D(m,N -1), построении из этого минимума пути соответствия синтезированной и естественной сонограмм (путем анализа матрицы переходов Tr(m,n)) и переносом меток с синтезированного сигнала на естественный сигнал через найденный путь.

Автоматическое сегментирование речевого сигнала по сравнению с ручным отличается существенным увеличением скорости сегментации даже при контроле результатов работы оператором. Это преимущество может позволить в будущем создавать базы данных большего объема, для более качественного синтеза речи.

Однако описываемый в данной статье метод имеет и недостатки, связанные с тем, что граница между сегментами определяется исходя из сонограммы сигнала и может иметь погрешность ±10мс, а также с тем, что найденная граница не выровнена на границу питча. Дальнейшее развитие этого метода предполагается вести в направлении использования дополни-

тельных методов уточнения границ сегментов (например, метода линейного предсказания), а также использования методов расстановки питчей на вокализованных участках речи.

SPEECH SEGMENTATION ON THE BASE OF MODIFIED CONTINUOUS

DYNAMIC PROGRAMMING

A G. DAVYDAU, B.M. LOBANOV Abstract

Construction of the system of segmentation of a speech signal is considered on the basis of a method of the modified continuous dynamic programming, with use the system of concatenation text to speech synthesis (TTS).

Литература

1. Киселев В.В., Лобанов Б.М., Левковская Т.В., ХейдоровИ.Э. Тр. междунар. конф., посвященной 100-летию российской экспериментальной фонетики. СПб, 2001, С. 101-104.

2. Давыдов А.Г., Киселев В.В., Лобанов Б.М., Цирульник Л.И. II Изв. Белорус, инж. акад. 2004. №1/1 С. 112-115.

3. HermanskyH. //J. Acoust. Soc. Am. 1990. Vol. 87, No. 4. P. 1738-1752.

4. Hermansky H„ Morgan N., BayyaA., KohnP. И Proc. EUROSPEECH. Genova, Italy. Sep. 1991. Vol.3, P. 1367-1370.

5. Logan В. II Proc. International Symposium on Music Information Retrieval, Plymouth, MA, October. 2000.

6. Вентцель E.C. Исследование операций: задачи, принципы, методология. М., 1988.

i Надоели баннеры? Вы всегда можете отключить рекламу.