Метод модуляции речевого сигнала и его применение в системах речевой обработки

Калимолдаев Максат Нурадилович; Мусабаев Рустам Рафикович Рустам Рафикович; Мамырбаев Оркен Жумажанович

МЕТОД МОДУЛЯЦИИ РЕЧЕВОГО СИГНАЛА И ЕГО ПРИМЕНЕНИЕ В СИСТЕМАХ РЕЧЕВОЙ ОБРАБОТКИ

М. Н. Калимолдаев, Р. Р. Мусабаев, О. Ж. Мамырбаев Институт проблем информатики и управления, 480100, Алма-Ата, Казахстан

УДК 519.7

Рассмотрен метод модуляции речевого сигнала по амплитуде, предназначенный для модификации интонационных характеристик речевого сигнала.

Ключевые слова: синтез речи, клонирование речи, речевой сигнал, text-to-speech, интонация, просодия, преобразование текста в речь.

In the given article the modification method of prosodic and intonational characteristics for

periodic components of a speech signal is considered.

Key words: speech synthesis, speech cloning, speech signal, intonation, prosody, text-to-speech.

Введение. Существует задача синтеза речевого сигнала с изменяющейся интонацией. Данная задача наиболее часто решается в рамках систем речевого синтеза по тексту, когда на вход системы подается произвольная текстовая информация, а на выходе получается соответствующий речевой сигнал, максимально приближенный к естественной человеческой речи. Также существует ряд задач по клонированию речевого сигнала, при решении которых синтезируемому качественному речевому сигналу придается максимальное сходство с персональными характеристиками речи [1]. Данная технология является технологией двойного назначения.

Среди работ по данной теме следует отметить работы [1-7] и др.

Предлагаемый метод. В случае компилятивного синтеза речи в системе имеется конечное множество базовых фрагментов речевого сигнала F = {fl} f2,■ ■■, fn}, где n — общее количество фрагментов. Данные фрагменты получаются в процессе записи речи диктора и последующего автоматического либо неавтоматического выделения их специалистами по фонетике [8]. Размерность базовых фрагментов и их количество зависят от выбранного подхода. Наиболее часто используются речевые фрагменты следующих размерностей:

1) полуфон — половина фонемы;

2) фонема — целая элементарная единица;

3) дифон — два смежных полуфона различных фонем и переходная область между ними;

4) слоги, слова, фразы и т. д.

Общее количество выделенных звуковых фрагментов в системе может колебаться от нескольких сотен до нескольких десятков тысяч. Для повышения качества синтеза необходимо увеличивать количество используемых базовых фрагментов, что приводит к увеличению используемых ресурсов, а также времени синтеза.

В компилятивной системе речевого синтеза одновременно используются различные типы базовых фрагментов, составляющие конечное множество T = {tl,t2, ■ ■■,tn}, где n — общее количество используемых типов. Например, можно выделить следующие типы базовых фрагментов T = {V,N,E,P}: V — вокализированные, N — шумовые, E — взрывные и

Рис. 1. Исходное сегментированное множество выборок речевого сигнала

щелкающие, Р — паузы. Каждому данному типу соответствует множество звуковых фрагментов.

Для каждого типа базовых фрагментов устанавливается набор правил модификации его интонационных характеристик Я = {т\, г2, ■ ■■, гп}, а также множество методов модификации М = [т1(р11,р12, ■■■,Р1к),т2('Р21 ,Р22, ■■■,Р21 ),■■■, тп(Рп1,Рп2, ■■чРп])}, которые используются на основании данных правил. Каждое правило оперирует одним либо несколькими методами с заданным набором параметров {р11}р12, ■ ■■,р1к}. Правила оперируют также множеством характеристик С = {{с^,с^,■■■, с^ , {с^,с^,■■■,скак самого базового фрагмента с^, так и его контекстного окружения сЕ. Различным комбинациям данных характеристик могут быть поставлены в соответствие различные методы интонационной модификации. В общем случае при реализации системы синтеза речи по компилятивному принципу необходимо оперировать комплексным множеством X = Т1,Я\, М\, С1} , {Р2, Т2, Я2, М2, С2} , ■■■,

{ Рп , Тп ■) Яп ■) МП ■) Сп } ) .

Как известно, модулирование интонации производится путем изменения длительностей и частотных характеристик различных фрагментов речевого сигнала, в основном фонем, а также расстановки пауз между фонемами [1]. В речевом сигнале наибольшую интонационную составляющую имеют вокализированные участки, что обусловливает особую значимость регулирования их длительностей и частотных характеристик. Для таких типов речевых фрагментов, как шумовые участки и паузы, без ущерба для качества синтеза можно ограничиться регулированием лишь их длительностей. Таким образом, для осуществления качественного синтеза необходимо использовать набор методов модификации следующих параметров речевого сигнала:

— контура частоты основного тона [9];

— длительностей фонем [10];

— амплитудной огибающей.

В настоящей работе предлагается подход для осуществления модификации амплитудной огибающей вокализированных составляющих речевого сигнала. Данный подход был апробирован и применяется в одной из систем синтеза и клонирования речи [11]. Для того чтобы использовать этот метод, предварительно необходимо выполнить разметку речевого сигнала по частоте основного тона Р0 для элементов множества Р Е V .В результате получаем множество сегментов Б = ((г1,к1) , (г2,к2) ,■■■, (1п,кп)), которые задаются индексом начальной выборки гп и количеством входящих выборок кп (рис. 1).

После разметки производится нормализация множества сегментов Б по амплитуде, для этого используются индексы граничных выборок нормализируемого микросегмента гп и гп+1. Форма сигнала изменяется таким образом, чтобы выборка с индексом гп+1 была выровнена

+100 % А

В

С Ь

к

-100%

I

- ь

Рис. 2. Процесс нормализации вокализированного микросегмента речевого сигнала по амплитудному уровню: А — исходный микросегмент, В — нормализация граничных уровней, С — приведение общего уровня к заданному

до уровня выборки %п. Новое значение амплитудного уровня Zx для каждой выборки с индексом %х Е [%п, %п+1] вычисляется следующим образом:

Здесь Zx — дискретное значение речевого сигнала (выборки) при импульсно-кодовой модуляции, при этом мгновенное значение аналогового сигнала измеряется через равные промежутки времени; х Е [0, ¿п+1 — %п]; Zn, Zn+1 — соответственно значения дискретных выборок сигнала с индексами %п и гп+1, %п+1 — %п > 0, Zn+1 = 0. Затем граничные выборки приводятся к заданному амплитудному уровню Ь, а промежуточные также пропорционально увеличиваются:

На рис. 2 представлен процесс нормализации сигнала по амплитудному уровню, в результате которого Н1 = \к2\ = к3 = = Ь. Амплитудная нормализация сигнала позволяет впоследствии применить к нему произвольную огибающую амплитудного уровня и таким образом произвести модуляцию сигнала по громкости. Для задания плавных огибающих используются параметрические кривые Безье [12]. С помощью кривой Безье можно аппроксимировать сложные непрерывные формы колебаний, задав лишь несколько опорных (характерных) точек, через которые должна пройти данная кривая. При увеличении сложности форм аппроксимируемых колебаний достаточно увеличивать количество опорных точек. Кривая Безье задается выражением

Zn = 0, Zn = 0.

п

в= рЛьп(*), 0 <г< 1,

i=0

где Р.i — функция компонент векторов для опорных точек; Ъ^п(1) — базисные функции кривой Безье (полиномы Бернштейна):

Mt)=( n)tl (1 - t)n-i n'

г/ ' V ^ / г! (п - г)''

п — степень полинома; г — порядковый номер опорной точки. С помощью параметра Ь определяется точка, принадлежащая кривой. При этом за единицу принимается протяженность всей кривой от начальной точки до конечной.

Координаты (Х,У) произвольной точки, заданной параметром 0 < Ь < 1, вычисляются следующим образом:

X = ТА+ + (1 - Т)АХ + 1 [I (Т) Х+ + ! (1 - Т) Хгр] ,

У = ТА]+1 + (1 - Т А + 1 [I (Т) Угр+1 + I (1 - Т) Ур] .

Здесь г — индекс ближайшей слева опорной точки из множества соответствующей

условиям г/Хтах < Ь и (г + 1) /Хтах > Ь; Хтах — длина множества минус единица;

Ах, А[ — соответственно г-е элементы множества А(х'¥), задающие координаты X и У г-й опорной точки параметрической кривой;

I (х) = X3 - X, Т = Мтах(Ь - Б 1

'max дт 1\п

D = j tNmax - 1 при tNmax > 0, truno (tNmax) = 0,

Dm

max

truno (tNmax) , иначе,

truno (ж) — функция округления дробного числа до целой части в меньшую сторону.

Перед непосредственным вычислением координат (X, Y) произвольной точки кривой проводится расчет следующих значений при изменении i в диапазоне [Nmax — 1,1]:

XP = D WX — Xf+1), yp = D WY — XY+1) .

Здесь Xp = 0; Yp = 0; XN max = 0; Ypmax = 0. Значения величин WX, WY, Di вычисляются последовательно при изменении i в диапазоне [1, Nmax — 2]:

1 WiX, WY = w+i — 4 WY, Di+i = Dm — 1.

При этом их начальные значения задаются при изменении г в диапазоне [1, - 1]: ^Х = 6 ((Ах+1 - АХ) - А - А-)) , WY = 6 (А+1 - АГ) - А - А-)) , Бг = 4.

Множества Xр, Ур, WY, Wх, Б имеют размерность, равную размерности множества A(X'Y).

Таким образом, имея множество нормализированных дискретных выборок речевого сигнала Z = г1,гп-1}, где п — количество выборок, а также функцию Безье В г (A(X'Y), ¿), которая задается множеством опорных точек A(X'Y = { АХ,А^ , ([АХ,■■■, (А£,А}, где т — количество опорных точек, можно осуществить амплитудную модуляцию сигнала, представленного множеством Z:

+50 %

-50 %

Ь

ЛУ1

N ЕЯО

Рис. 3. Процесс модификации амплитуды исходного речевого сигнала по огибающей, заданной набором параметрических кривых Безье

Результаты оценки трудоемкости и разборчивости методов амплитудной модуляции

Метод Трудоемкость Разборчивость, %

Модуляция кривой Безье 12 503 93

Умножение сигнала на коэффициент 1000 87

Zi = ^

г - II

Ь - 1 У/2 - II

+ N1

Здесь Ь — общее количество опорных точек; /1 Е [0, п — 1], /2 Е [0, п — 1] — индексы дискретных выборок, соответствующие ближайшей левой и правой опорным точкам для выборки N1 Е [0; ^тах] — номер ближайшей слева опорной точки для выборки На рис. 3 представлен процесс модификации амплитуды исходного речевого сигнала по огибающей, заданной набором параметрических кривых Безье. Для каждой фонемы (Ь, ЛУ, N ЕИ.) задается собственная амплитудная огибающая. При этом комплексная огибающая плавно задается общим множеством огибающих каждой фонемы. В приведенном примере

А

{(0; 0) (0,6; 0,1) (1; 0,2)} {(0; 0,2) (0, 5; 0,35) (1; 0,2)} {(0; 0) (0,5; 0,1) (1; 0,2)} {(0; 0) (0,5; 0,21) (1; 0)}

1

Заключение. У предлагаемого метода имеются аналоги. Наиболее часто в компилятивных системах синтеза и клонирования речи установка амплитуд фонем осуществляется за счет усиления (ослабления) сигналов фонем путем умножения всех значений сигнала на единый коэффициент, задаваемый энергетическим портретом [1]. В ходе проведенного сравнительного анализа методов получены результаты, представленные в таблице. Трудоемкость метода оценивалась как количество элементарных операций на языке высокого уровня, затрачиваемых на обработку 500 дискретных выборок сигнала. Разборчивость результатов синтеза оценивалась по методике, предложенной ГОСТ Р 50840-95 [13]. Синтез осуществлялся с помощью одного синтезатора, но с использованием различных методов амплитудной

модуляции. Результаты проведенных оценок показывают, что с использованием предложенного метода можно добиться большей разборчивости синтезированного сигнала. При этом затраты вычислительных ресурсов также значительно увеличиваются.

Список литературы

1. Лобанов Б. М. Компьютерный синтез и клонирование речи j Б. М. Лобанов, Л. И. Цирульник. Минск: Белорус. наука, 2008.

2. Fant G. Speech acoustics and phonetics. Dordrecht: Kluwer Acad. Publ., 2004.

3. Фланаган Дж. Анализ, синтез и восприятие речи. М.: Связь, 1968.

4. Furui S. Digital speech processing, synthesis, and recognition. N. Y.: Marcel Dekker Inc., 2001.

Б. Taylor P. Text to speech synthesis. Cambridge: Univ. of Cambridge, 2007.

б. Xuedong Huang. Spoken language processing: A guide to theory, algorithm and system development j Xuedong Huang, Alex Acero, Hsiao-Wuen Hon. New Jersey: Prentice Hall, 2001.

T. САпожков M. А. Речевой сигнал в кибернетике и связи. М.: Связьиздат, 1968.

В. Амиргалиев Е. Н., Мусабаев Р. Р. Алгоритмы выделения и классификации фонем в системах синтеза искусственной речи jj Пробл. автоматики и управления (Бишкек). 2008. С. 32-35.

9. Амиргалиев Е. Н., Мусабаев Р. Р. Определение структуры и способов модификации множества эталонных речевых сигналов в системах синтеза речи jj Вестн. КазНТУ. 2008. № 6. С. 25-28.

10. Мусабаев Р. Р. Технологические особенности модуляции продолжительности речевого сигнала в системах синтеза речи jj Тр. Междунар. науч.-практ. конф. "Современные проблемы математики, информатики и управления", Алма-Ата, 5 нояб. 2008 г. Алма-Ата: Эверо, 2008. C. 98-100.

11. Амиргалиев Е. Н., Мусабаев Р. Р. Вопросы разработки информационной системы синтеза и распознавания казахской речи jj Вестн. КазНТУ. 2008. № 6. С. 28-34.

12. Мусабаев Р. Р. Использование сплайнов при решении задач генерации речевого сигнала jj Вестн. КазНТУ. 2008. № 4. С. 173-175.

13. ГОСТ Р Б0В40-9Б. Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. Введ. 21.11.95. М.: Госстандарт России, 1995. 229 с.

Калимолдаев Максат Нурадилович — д-р физ.-мат. наук, проф., директор Института проблем информатики и управления МОН РК;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

тел. +7-727-272-37-11; e-mail: mnk@ipic.kz;

Мусабаев Рустам Рафикович — канд. техн. наук, ученый секретарь Института проблем информатики и управления МОН РК;

e-mail: rmusab@gmail.com;

Мамырбаев Оркен Жумажанович — докторант, PhD Института проблем информатики и управления МОН PK;

e-mail: morkenj@mail.ru

Дата поступления — 18.08.11 г.

Метод модуляции речевого сигнала и его применение в системах речевой обработки Текст научной статьи по специальности «Компьютерные и информационные науки»

Текст научной работы на тему «Метод модуляции речевого сигнала и его применение в системах речевой обработки»