Научная статья на тему 'Модификация временных и частотных характеристик речевого сигнала'

Модификация временных и частотных характеристик речевого сигнала Текст научной статьи по специальности «Математика»

CC BY
336
50
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДИФИКАЦИЯ ЧАСТОТЫ ОСНОВНОГО ТОНА / МОДИФИКАЦИЯ ТЕМПА / СИНТЕЗ РЕЧИ / SPEECH SYNTHESIS / ДИСКРЕТНОЕ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЕ / DISCRETE WAVELET TRANSFORM / PITCH MODIFICATION / RHYTHM MODIFICATION

Аннотация научной статьи по математике, автор научной работы — Олейник Андрей Леонидович

В данной статье предлагаются алгоритмы модификации двух основных временных и частотных характеристик речевого сигнала: темпа и частоты основного тона. Для модификации частоты основного тона используется подход, основанный на дискретном вейвлет-преобразовании. Акцент делается на применении предлагаемых алгоритмов в системах синтеза речи. Также приводится краткий обзор алгоритмов и математических моделей, разработанных для решения данной задачи. Приводятся результаты экспериментальных исследований, перечисляются основные достоинства и недостатки предлагаемых в данной статье алгоритмов, намечается путь устранения недостатков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

This paper presents speech signal pitch and duration modification algorithms. Approach to pitch modification is based on discrete wavelet transform. Emphasis is put on application of proposed algorithms in speech synthesis systems. In addition, brief review of algorithms and mathematical models developed to solve the problem of speech modification is stated. Results of experimental research are presented, main advantages and disadvantages of proposed algorithms are stated and the way of their improvement is outlined.

Текст научной работы на тему «Модификация временных и частотных характеристик речевого сигнала»

информационные системы

гЧ .—'-. г1-

я

УДК 519.688 Олейник Андрей Леонидович

МОДИФИКАЦИЯ ВРЕМЕННЫХ И ЧАСТОТНЫХ ХАРАКТЕРИСТИК РЕЧЕВОГО СИГНАЛА

Аннотация

В данной статье предлагаются алгоритмы модификации двух основных временных и частотных характеристик речевого сигнала: темпа и частоты основного тона. Для модификации частоты основного тона используется подход, основанный на дискретном вейвлет-преобразовании. Акцент делается на применении предлагаемых алгоритмов в системах синтеза речи. Также приводится краткий обзор алгоритмов и математических моделей, разработанных для решения данной задачи. Приводятся результаты экспериментальных исследований, перечисляются основные достоинства и недостатки предлагаемых в данной статье алгоритмов, намечается путь устранения недостатков.

Ключевые слова: модификация частоты основного тона, модификация темпа, синтез речи, дискретное вейвлет-преобразование.

ВВЕДЕНИЕ

Алгоритмы модификации речевого сигнала находят применение во многих областях: модификация естественной речи, преобразование речи одного человека в речь другого человека, коррекция дефектов речи, системы синтеза «текст в речь». Предлагаемые в данной статье алгоритмы ориентированы преимущественно на применение в системах компиляционного синтеза речи, где необходима коррекция частоты основного тона и темпа речевого сигнала.

Понятие частоты основного тона не применимо по отношению к произвольному участку речевого сигнала. Человеческая речь состоит из структурных элементов - аллофонов, которые делятся на два класса: вока-лизованныге и невокализованныге. Вокализованные аллофоны обладают квазипериодической структурой, то есть в них можно вы-

© Олейник А.Л., 2012 16

делить гармоническую составляющую. Иначе говоря, они состоят из «периодов» - сходных друг с другом отрезков сигнала, длительность которых и характеризует частоту основного тона1. Невокализованные аллофоны, напротив, обладают стохастической, шумовой природой. Поэтому понятие частоты основного тона применимо только по отношению к вокализованным аллофонам.

Темп, в свою очередь, представляет собой скорость произнесения аллофонов.

Именно темп и частота основного тона определяют интонацию, с которой произносится та или иная фраза. Интонация, в свою очередь, зависит от содержания текста, который подлежит переводу в речь. При этом тембр, то есть индивидуальные особенности голоса диктора, должен оставаться неизменным.

Таким образом, алгоритмы модификации временных и частотных характеристик

1 В дальнейшем будем называть данные участки периодами, опуская кавычки.

играют важнейшую роль в системах синтеза речи. Во многом именно они определяют то, насколько естественно будет звучать сгенерированный речевой сигнал.

На данный момент разработано достаточно большое количество алгоритмов и подходов к модификации временных и частотных характеристик речевого сигнала.

Рассмотрим существующие алгоритмы модификации темпа речи. Основной подход заключается в том, чтобы дублировать отдельные участки сигнала при уменьшении темпа и удалять их при увеличении темпа. Однако дублируемые или удаляемые отрезки сигнала могут быть выбраны по-разному, поэтому различные способы выбора этих участков порождают различные алгоритмы, существенно разнящиеся по своим характеристикам. Так, предложенный в [1] алгоритм Time-Domain Harmonic Scaling (TDHS) при выборе удаляемых или дублируемых участков опирается на оценку локальной частоты основного тона сигнала. Рассмотренные в [2] алгоритмы Synchronized Overlap-Add (SOLA) и его модификация Synchronized Overlap-Add, Fixed Synthesis (SOLAFS) разделяют сигнал на сегменты фиксированной длины, а после их дублирования или удаления сигнал восстанавливается из результирующих сегментов. Для обеспечения плавности перехода между сегментами они попадают в результирующий сигнал с некоторым перекрытием, в пределах которого они усредняются с некоторым весом. Длина каждого перекрытия определяется взаимной корреляцией взвешиваемых участков.

Другой подход к модификации темпа речи заключается в анализе частотных характеристик сигнала посредством дискретного преобразования Фурье (ДПФ).

Кроме того, ДПФ может быть использовано и для модификации частоты основного тона сигнала. Подобный подход нашёл своё отражение в алгоритме Spectrum Interpolation (SPECINT), описанном в [3]. Он сводится к вычислению ДПФ сигнала, интерполяции его мнимой и вещественной частей для получения новых узловых значений и вычислению обратного ДПФ. Кроме того, в [3] представлены алгоритмы Time-Domain

Pitch Synchronized Overlap-Add (TD-PSOLA) и Linear-Predictive Pitch Synchronized Overlap-Add (LP-PSOLA). Первый алгоритм разбивает исходный сигнал на сегменты, содержащие по два периода, с пересечением в один период, домножает их на весовую функцию и изменяет длины периодов путём относительного смещения центров сегментов относительно друг друга. Данный алгоритм даёт приемлемые результаты лишь при незначительных изменениях частоты основного тона (+/-10 %), однако отличается исключительным быстродействием. Алгоритм LP-PSOLA комбинирует SPECINT и TD-PSOLA. Используется модель линейного предсказания (LP-модель, Linear Prediction), позволяющая представить сигнал в виде двух составляющих: LP-коэффициентов (коэффициентов линейного предсказания) и сигнала ошибки. Сигнал ошибки модифицируется при помощи алгоритма TD-PSOLA, а LP-коэффициенты модифицируются способом, сходным с алгоритмом SPECINT. Алгоритм LP-PSOLA позволяет получать качественные результаты, однако он является достаточно ресурсоёмким. Кроме того, в силу своей сложности алгоритм LP-PSOLA также порождает тембральные артефакты при восстановлении сигнала из модифицированных LP-коэффициентов и шумовой составляющей.

Ещё один алгоритм модификации темпа и частоты основного тона (ЧОТ) речевого сигнала рассматривается в [4]. Данный алгоритм основан на SOLAFS и дискретном вейвлет-преобразовании, которое позволяет независимо манипулировать составляющими сигнала из различных полос частот.

Также существует достаточно большое количество различных математических моделей, описывающих речевой сигнал. Они также открывают широкие возможности для разработки алгоритмов модификации речи. Одна из них описывается в [5] и носит название параметрической модели «гар-моники+шум» (Parametric Harmonic+Noise Model). При таком подходе сигнал раскладывается в сумму двух составляющих: синусоидальную и шумовую. Синусоидальная составляющая отражает квазипериодичес-

кие свойства сигнала. Для описания шумовой составляющей используются стохастические модели. Преимущество подобного подхода в том, что он позволяет использовать различные алгоритмы при модификации двух составляющих сигнала, которые сами по себе не могут быть применены к исходному сигналу. Это потенциально позволяет разрабатывать высококачественные алгоритмы модификации сигнала. Кроме того, следует заметить, что в вокализованных аллофонах преобладает синусоидальная составляющая, в то время как в невокализо-ванных - шумовая. Модель «гармоники + шум» автоматически учитывает данный факт. С другой стороны, подобный подход обладает своими недостатками. Так, алгоритмы разложения исходного сигнала могут пропускать часть гармонической составляющей в шумовую и наоборот, что может явиться причиной возникновения искажений результирующего сигнала.

Весьма обширное описание различных подходов к модификации речевого сигнала приводится в [6]. Здесь упор делается на использовании машинного обучения для разработки алгоритмов модификации речи, хорошо приспособленных не только для применения в системах синтеза речи, но и для преобразования речи одного человека в речь другого человека (в том числе из соображений безопасности), коррекции дефектов речи и так далее. Подробно рассматриваются подходы с использованием смешанных гауссов-ских моделей (GMM, Gaussian Mixture Model), а также скрытых марковских моделей (HMM, Hidden Markov Model).

Из всего вышесказанного видно, что существует достаточно большое количество алгоритмов модификации характеристик речевого сигнала, а также математических моделей, на которых такие алгоритмы основаны. Однако даже при таком разнообразии достаточно гибких и мощных подходов к анализу и модификации речевого сигнала, проблема построения алгоритмов, генерирующих неотличимый от естественного речевой сигнал по-прежнему актуальна. Одной из причин этого, как отмечается в [6], является субъективность человеческого воспри-

ятия. Это обстоятельство создаёт значительные затруднения при построении адекватных математических моделей, описывающих речевой сигнал.

Подход, предлагаемый в данной статье, разрабатывается в предположении, что структура входного речевого сигнала проанализирована и описана. В таком случае алгоритмы модификации частоты основного тона и темпа работают не с речевым сигналом в целом, а его структурными элементами: аллофонами и отдельными периодами. Это должно минимизировать вносимые в результирующий сигнал искажения, а также позволяет сохранить его структуру. Модификация темпа в таком случае осуществляется естественным образом: в отличие от 8ОЬЛР8 участки для дублирования или удаления выбираются не через фиксированные отрезки сигнала, а с учётом имеющегося описания сигнала. Для модификации частоты основного тона используется дискретное вейвлет-преобразование, что позволяет модифицировать составляющие сигнала с различными частотами независимо друг от друга. Данный способ в некоторой степени является развитием идеи, предложенной в [4]. Таким образом, предлагаемые в данной статье алгоритмы должны дать результаты, как минимум сопоставимые по качеству с результатами других имеющихся на сегодняшний день алгоритмов, а также обладают большим потенциалом для дальнейшей доработки и развития.

ОПИСАНИЕ АЛГОРИТМОВ 1. ОБЗОР АЛГОРИТМОВ

Предлагаемые алгоритмы осуществляют обработку оцифрованного сигнала, представленного последовательностью дискретных отсчётов. Как было сказано выше, модификации подлежат темп и частота основного тона речевого сигнала. Их преобразование осуществляется последовательно по одному аллофону. Если аллофон вокализованный, то вычисляется его итоговая длина (с учётом модификации темпа), модифицируется частота основного тона, а затем его

длина приводится к ранее вычисленной. Если же аллофон невокализованныш, то модифицируется только его длина. При этом алгоритмы модификации темпа для вокализованных и невокализованных аллофонов различаются.

Следует отметить, что при модификации частоты основного тона вокализованного аллофона его длина изменяется обратно пропорционально изменению частоты основного тона за счёт модификации длин периодов. Поэтому к устранению данного эффекта привлекается алгоритм модификации темпа.

Отметим также, что алгоритм модификации темпа вокализованных звуков оперирует периодами, в силу чего длительности вокализованных аллофонов модифицируются с некоторой погрешностью. Данная погрешность компенсируется за счёт следующих аллофонов, в силу чего не накапливается.

На параметры модификации темпа и частоты основного тона накладышаются некоторые ограничения. Частота основного тона должна изменяться максимум в два раза (то есть на +/- одну октаву). Как отмечается в [3], среднестатистический диктор способен изменять частоту основного тона своего голоса примерно в два раза, поэтому такое ограничение вполне разумно. Аналогичное ограничение задаётся для модификации темпа речи: он не должен изменяться более, чем в два раза. С учётом влияния изменения частоты основного тона на длительность сигнала алгоритм модификации темпа речи должен изменять его максимум в четыре раза.

Перечисленные выше ограничения не делают модификацию речевого сигнала при значениях параметров, выходящих за пределы указанный границ, невозможной, однако в таких случаях в результирующем сигнале неизбежно возникнут артефакты.

Также для корректной работы алгоритмов помимо входного речевого сигнала необходимо его описание, которое включает в себя следующие данные:

1. Номера отсчётов, находящихся на границах аллофонов.

1 В данном контексте.

2. Для вокализованныгх аллофонов - номера отсчётов, находящихся на границах периодов.

Несложно видеть, что для произвольного звукового сигнала подобное описание получить невозможно. Поэтому использование предлагаемых алгоритмов для модификации какого-либо иного (не речевого) сигнала невозможно даже при внесении в их структуру значительных изменений.

При этом следует обратить внимание на то, что аллофоническая структура речи присуща большинству существующих естественных языков, так как она обоснована в большей степени особенностями строения человеческого речевого тракта и органов слуха, нежели особенностями той или иной культуры. Поэтому предлагаемые алгоритмы способны работать с речевыми сигналами на различных языках.

2. МОДИФИКАЦИЯ ЧАСТОТЫ ОСНОВНОГО ТОНА

Частота основного тона вокализованных аллофонов модифицируется по периодам, каждый из которых раскладывается на высокочастотную и низкочастотную составляющие при помощи дискретного вейвлет-пре-образования. Затем низкочастотная составляющая растягивается/сжимается в соответствии с заданным коэффициентом, а высокочастотная составляющая определённым образом «подгоняется» под низкочастотную. Сумма полученных составляющих даёт преобразованный период.

2.1. Дискретное вейвлет-преобразова-

ние

Дискретное вейвлет-преобразование заключается1 в разложении сигнала на поддиапазоны при помощи квадратурных зеркальных фильтров Н и g. Для того, чтобы Н и g быши квадратурными зеркальными фильтрами, их Фурье-преобразования И(а) и С(ю) должны удовлетворять следующим условиям:

12 I 2

\И(а)\ + \0(а>)\ ° 2

_ _ (2.1)

И (а) И(т + п) + О(ю) в(ю + я)° 0.

Если при этом известен фильтр Н такой, что

|Н(ю)|2 + |Н(ю + л)\2 ° 2, (2.2) то парный к нему фильтр g получится по формуле G(ю) = -еН(ю + л) или, что то

же самое, gk = (-1)к НХ-к .

В данном алгоритме используются фильтры Добеши 10-го порядка.

Прямое вейвлет-преобразование заключается в свёртке сигнала х с фильтрами Н и g с последующим прореживанием. Будут получены последовательности а1 и

а1г =Х й1г =Х gs

(2.3)

Последовательность а1 содержит информацию о составляющей сигнала х с частотами 0 + л/2, а <1 - о составляющей с частотами л/2 + л . Здесь л - частота Найкви-ста для сигнала х1.

Выполнив обратное вейвлет-преобразо-вание а1 и <1, получим а11 и </1:

а11г К-2^1,5 , Г =Х gr-25^15 .

(2.4)

В силу того, что Н и g удовлетворяют условиям (2.1), а/1 + </1 = х. При этом а/1 - низкочастотная составляющая сигнала, а </1 - высокочастотная.

Отметим, что вейвлет-преобразование может быть применено и к а 1, в результате чего будут получены а/2 и </2 и т. д. Таким образом, исходный сигнал можно разложить в сумму составляющих:

: = а1п + £ Лг

(2.5)

г=1

Очевидно, что а/п содержит составляющую сигнала х с частотами 0 ^ л ■ 2 п.

Так как при представлении сигнала и фильтра в ЭВМ может хранится конечное число коэффициентов, то реализация (2.3) и (2.4) требует дополнительных пояснений. Далее фильтр, применяемый к сигналу, обозначим как Н, хотя это в равной степени относится как к фильтру низких частот Н, так и к фильтру высоких частот g.

Прямое вейвлет-преобразование

Фильтр Н представлен последовательностью из т + М + 1 чисел2 (см. рис. 1).

Аналогично, исходный сигнал х представлен р + Р + 1 числами (рис. 2).

Дискретное вейвлет-преобразование схематично изображено на рис. 3.

Введём обозначения:

N =

Р + т , п = М + р

_ 2 _ 1 2 ]

где квадратные скобки означают целую часть.

Перепишем теперь (2.3) с учётом сдвигов индексов:

=1К

X

5+тЛ2г+5+р 9

5

а

5

0 т т+М

О

М

Рис. 1. Фильтр

Рис. 2. Исходный сигнал

1 Теоретическое обоснование даётся в рамках концепции ортогонального многомасштабного анализа.

2 Числа, находящиеся под изображениями, обозначают «настоящие» индексы, а числа, написанные внут-

ри, - индексы, используемые в ЭВМ. Далее подразумеваются именно они.

Рис. 3. Прямое вейвлет-преобразование

б = —т,..., М , г = —п,..., N Сделаем замены 5 + т ® б и г + п ® п:

= 1 *

5Х2(г—п)+5+р—т ,

5

б = 0,..., М + т , г = 0,..., N + п

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Учтём, что индекс при х должен быть в пределах 0 ... Р + р:

2(г - п) + б + р - т = 0, ..., Р + р ^ ^ б = т -р - 2(г - п), ..., Р + т - 2(г - п). В итоге имеем: Вход: {Н, т, М}, {х, р, Р} Выход: {а, п, Щ}

N =

Р + т

2

п=

М + р

= 1

5Х2(г—п)+5+р—т ,

(2.6)

5 = тах(0, т — р — 2(г — п)),..., ш1и(М + т, Р + т — 2(г — п)),

г = 0,..., N + п.

Обратное вейвлет-преобразование

Здесь помимо фильтра Н и последовательности а должны быть заданы р и Р (р, Р > 0), где -р, ..., Р - индексы выходного сигнала. Если р, Р велики, то часть выходной последовательности а1 будет просто заполнена нулями. Необходимость во введении р, Р обусловлена тем, что при прямом вейвлет-преобразовании сигнал прореживается вдвое. Поэтому невозможно определить, имел ли он чётную длину или нет.

Перепишем (2.4) с учётом сдвигов индексов:

а1г + р =1 п*

г—25+т '

5 = —п,..., N, г = — р,..., Р

Сделаем замены б + п ® б и г + р ® п:

а1г =1 а*Ь

у г — р—2(з—п)+т

5

б = 0,..., N + п, г = 0,..., Р + р.

Учтём, что индекс при Н должен быть в пределах 0 ... М + т:

г -р -2(б - п) + т = 0, ..., М + т ^

+ п.

г — М — р г + т — р

^ б = + п,...,

2 _ 2 _

Получили:

Вход: {Н, т, М}, {а, п, Щ}, {р, Р} Выход: а1

а1г =1 а*Ь

б г — р— 2(б— п)+т

б = тах

тт

0,

г — М — р 2

+ п

г + т — р

2

(2.7)

+ п

N + п,

г = 0,..., Р + р.

2.2. МОДИФИКАЦИЯ АЛЛОФОНА

Модификация частоты основного тона вокализованного аллофона заключается в выделении из него периодов и их модификации с последующим «склеиванием». При этом в «текущий» период включается начальный «отмеченный» отсчёт, но не вклю-

5

2

а

г

б

б

чается последний. Исключение составляет последний период, в который включаются оба отсчёта. «Новая» длина каждого периода определяется как целая часть от произведения текущей длины периода и заданного коэффициента модификации. На рис. 4 показана модификация частоты основного тона

аллофона с коэффициентом 10/7 (длина умножается на 0,7). Подписанные отсчёты считаются «помеченными».

Модификация отдельного периода

На данном этапе на вход поступает один период хТ, содержащий N отсчётов, и новое количество отсчётов N', соответствующее длине преобразованного периода х Т. Так как известно, что хТ содержит ровно один период аллофона длительностью Т, то надо выделить составляющую сигнала с ча-

частота Най-

1 п Н

стотой р = —. Пусть к = — Т 2Т

квиста. Тогда с помощью дискретного вейв-лет-преобразования можно выделить низкочастотную составляющую а1п с максимальной частотой 2 п к » р . Подставив соответствующие значения, получим:

1 N ^ 2п+1

■■2~

Т 2Т Таким образом, положим

п = [1СВ2 N\-1

N ^ п »1о§2 N -1.

(2.8)

При этом, очевидно, необходимо требовать N > 2.

Обозначим а1п как ЛЬ , а Уп - как

п ' ¿—и=\ 1

БЬ. Тогда (2.5) запишется как:

хТ=ЛЬ+БЬ

Очевидно, что в нашем случае БЬ получится как БЬ = х - ЛЬ. Это позволит ускорить работу алгоритма за счёт отказа от вычисления <11г

Далее низкочастотная и высокочастотная составляющие ЛЬ и БЬ определённым образом модифицируются (см. ниже) и преобразуются в ЛЬ' и БЬ'. Модифицированный период х Т получится по формуле:

ХТ=ЛЬ' + БЬ'.

Модификация низкочастотной составляющей

Модификация низкочастотной составляющей ЛЬ осуществляется посредством её растяжения (сжатия) до длины в N отсчётов. Для этого может быть использован любой алгоритм интерполяции. Опишем этот процесс подробнее.

Пусть известны значения сигнала в точках г = 0, 1, ..., N - 1. Необходимо сжать (растянуть) сигнал так, чтобы были известны его значения в точках г = 0, 1, ..., N' - 1. С помощью интерполяционного алгоритма несложно получить значения сигнала в точ-

^ -1 N -1 ках ^ = г 1 = 0, N-1»•••» N - 1. Полученные значения и дают искомую составляющую ЛЬ .

Модификация высокочастотной составляющей

Высокочастотная составляющая не должна искажаться. Поэтому БЬ дублируется таким образом, чтобы «крайние» части БЬ' были близки к таковым у БЬ. Пересекаю-

0 7 20 27

0 3 0 8 0 4

0 4 ш 13 17

Рис. 4. Модификация частоты основного тона с коэффициентом 10/7

щиеся части суммируются с весовой функцией. В качестве весовой функции в данном алгоритме используется половина окна Ханна:

(о(к) = 0,5

1 — 008

рк К — 1

, к = 0, К - 1,

где К - длина половины окна Ханна.

На рис. 5 приведено схематичное изображение модификации высокочастотной составляющей.

Если N' < Щ, то область пересечения заполняет всю длину БЬ'. Отметим также, что если Щ' близко к 2Щ или, более того, N' > Щ, то в сигнале возникнут заметные помехи. В этом случае надо бышо бы повторять БЬ более двух раз.

3. МОДИФИКАЦИЯ ТЕМПА РЕЧИ

Алгоритмы удлиннения/укорочения аллофонов учитывают тот факт, что любой аллофон обладает некоторой «неоднородностью»: его частотные характеристики непостоянны во времени. Поэтому предпочтительными для модификации являются участки с наиболее стабильными частотными характеристиками. Для вокализованных и нево-кализованных звуков критерии «стабильности» различаются.

Во всех случаях модификация темпа речи осуществляется в два этапа:

1. Поиск наиболее «стабильных» участков.

2. Собственно модификация найденных «стабильных» участков.

Опишем алгоритмы модификации вокализованных и невокализованных звуков по отдельности.

3.1. Модификация вокализованных звуков

Оценка стабильности

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Стабильность оценивается исходя из частоты основного тона сигнала. Так как известны метки границ периодов, то можно определить длину каждого из периодов, а следовательно и изменение длины периодов для каждой пары смежных периодов (иначе говоря, для каждого стыка двух периодов). Чем меньше абсолютное значение этого изменения, тем более стабильна частота основного тона. Положим, что исходный аллофон содержит N периодов. Символом Б обозначим вектор модулей изменений длин периодов, содержащий N - 1 чисел. При этом г-й стык считается стабильным, если

1 'А

А <а1 ]=1 г

(N — 1)

(3.1)

Здесь множитель а > 0 определяет «жёсткость» критерия стабильности. При удлиннении «нестабильные» стыки модификации не подлежат. «Стабильные» же стыки сортируются по возрастанию , давая вектор Б'.

Увеличение длины аллофона

При увеличении длины аллофона необходимо из двух смежных периодов с длинами

Ч ^ 1к нами

и 1к получить к > 2 периодов с дли-1, ..., 1к. Два крайних периода - это

исходные два периода. Периоды с номерами 2, ..., к - 1 синтезируются из 1-го и к-го периодов способом, аналогичным модификации высокочастотной составляющей при

Рис. 5. Модификация высокочастотной составляющей

изменении частоты основного тона. Их длины вычисляются по формуле (3.2).

К — А

, ] = 2, ..., к - 1. (3.2)

h — li +

k -1

Перед модификацией для каждого «стабильного» стыжа производится расчёт количества добавляемых периодов (то есть к). Для этого последовательно рассчитывается новая длина аллофона при добавлении периодов с номерами из Б'. Если номера из вектора Б' исчерпаны, то добавляется ещё по одному периоду. Добавление периодов продолжается, пока рассчитанная длина аллофона не станет равной требуемой длине или не превзойдёт её.

Уменьшение длиныы аллофона

Для укорочения аллофона используется операция «схлопывания» соседних аллофонов в один, то есть взвешивания их с половиной окна Ханна точно таким же способом, каким это делается при модификации высокочастотной составляющей для изменения частоты основного тона сигнала. При этом длина «синтетического» периода принимается равной среднему арифметическому длин «схлопываемых» периодов.

Данная операция последовательно проводится для стыков с номерами из (не Б' г), пока длина результирующего сигнала превосходит требуемую.

3.2. Модификация невокализованных звуков

Оценка стабильности

Для невокализованных звуков используется иной способ оценки стабильности. Если в вокализованных аллофонах ищутся наиболее стабильные стыки периодов, то в случае невокализованных аллофонов ищется последовательность отсчётов заданной длины с наименьшим среднеквадратическим отклонением (СКО). Будем называть такой участок стационарным и обозначим символом В данном случае наибольшую трудность представляет подбор длины модифицируемого участка. В случае удлинения и укорочения это делается по-разному. Однако так как искажения (пусть и незначительные) на краях аллофона крайне нежелательны, то

первые и последние 256 отсчётов аллофона не подвергаются модификации.

Увеличение длины аллофона

В данном случае длительность стационарного участка S определяется следующим образом: задаётся начальное значение в 256 отсчётов и делится на два, пока оно больше четверти длины аллофона или dim S > l - 2 • 256 = l - 512 , где l - длина аллофона.

Синтез нового удлинённого сегмента производится следующим образом:

1. Генерируется нормальный белый шум, то есть вектор нормально распределённых случайных величин W. Его длина равна

dim W — dl + 2A + 2dimS .

Здесь A = 64 - величина перекрытия при вставке синтезированного участка в аллофон, а dl = l1 - l , где l1 - требуемая длина модифицированного аллофона.

2. Выполняется линейная свёртка исходного сегмента S и шума W:

S1 = S * W.

В силу свойств линейной свёртки первые и последние dim S отсчётов сигнала S1 будут искажены. Поэтому они отбрасываются, после чего получается сигнал S'. Так как нормальный белый шум W имеет равномерное распределение в частотной области, сигналы S1 и S' будут обладать теми же частотными характеристиками, что и исходный сегмент S, с точностью до умножения на константу.

3. Производится нормировка S':

* = max S ,

S —-- S .

max S

*

4. Нормированный сигнал S вставляется в модифицируемый аллофон с перекрытием на A = 64 отсчётов с каждой стороны. В зонах перекрытия он взвешивается с исходным аллофоном с половиной окна Ханна, что позволяет обеспечить «гладкость» сигнала.

В данном случае многократное дублирование S привело бы к возникновению периодической составляющей в синтезированном сегменте, что было бы причиной артефактов при уменьшении темпа речи.

к = 1.0, к, = 1.0

р г

к = 0.8, к, = 1.0

р г

кр = 1.5, к, = 1.0

р г

кр = 1.0, к, = 0.5

р г

кр = 0.8, к, = 0.5

р г

кр = 1.5, к, = 0.5

р,

к = 1.0, к, = 2.0

р,

кп = 0.8, к, = 2.0

р,

кп = 1.5, к, = 2.0

р,

Рис. 6. Модификация невокализованного аллофоа

к, = 1.0

к, = 2.0

^ = 0.5

Рис. 7. Модификация невокализованного аллофона

Уменьшение длиныы аллофона

При укорочении аллофона ищется стационарный участок 5 длительностью в Л + А = (М + 64 отсчётов. Затем выбранный участок взвешивается сам с собой способом,

описанным выше. Длина нового сегмента

*

£ равна А = 64 отсчётам. Затем он помещается в то место в аллофоне, откуда был извлечён исходный сегмент Такая опера-

ция позволяет удалить из аллофона (I отсчётов без потери «гладкости» сигнала, приводя его к требуемой длине.

Отметим, что все использованные значения длин перекрытий, «припусков» и начального значения стационарного участка подобраны эвристически и могут быть изменены.

РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ

Модификация тестового сигнала проводилась совместно для темпа и частоты основного тона сигнала. Изменение частоты основного тона проводилось с коэффициентами 1.0, 0.8 и 1.5, а модификация темпа осуществлялась с коэффициентами 1.0, 0.5 и 2.0 (указаны с учётом изменения частоты основного тона).

Для наглядности приводятся графики только для одного вокализованного и нево-кализованного аллофона. Коэффициенты модификации по частоте основного тона и

по длине обозначены как кр и к, соответ-

р,

ственно.

Результаты модификации частоты основного тона и темпа вокализованного аллофона приведены на рис. 6. Аллофон, у которого кр = к( = 1.0, выбран из исходного сигнала.

Результат модификации длины невокали-зованного аллофона приведён на рис. 7.

Из приведённых выше рисунков видно, что предложенные алгоритмы дают достаточно качественные результаты. При модификации частоты основного тона соответствующим образом меняются число периодов и расстояния между пиками. При модификации длительности сохраняется форма сигнала, не наблюдается значительных артефактов, хотя можно отметить некоторое нарушение динамики амплитуд периодов сигнала при слишком сильном удлинении аллофона, что практически не сказывается на восприятии сигнала человеком. Однако при коэффициентах модификации частоты основного тона, близких к 0.5, при прослушивании наблюдаются заметные искажения сигнала.

При модификации длительности невока-лизованных аллофонов сохраняются их частотные и стохастические свойства. Следует отметить, что при удлинении был выбран сегмент с сильно выраженной синусоидальной составляющей, что говорит о том, что критерий выбора стационарного участка нуждается в доработке. Однако данное яв-

ление не сильно влияет на звучание результирующего сигнала.

Таким образом, разработанные алгоритмы позволяют получать достаточно качественный модифицированный сигнал без нарушения естественности речи и индивидуальных характеристик голоса (тембра). Несмотря на наличие артефактов при уменьшении частоты основного тона, можно отметить более качественную работу алгоритмов по сравнению с имеющимися аналогами.

ЗАКЛЮЧЕНИЕ

В данной статье были предложены алгоритмы модификации темпа и частоты основного тона речевого сигнала. Они отличаются высоким качеством модификации с сохранением естественности речи, чем выгодно выделяются на фоне многих имеющихся на сегодняшний день аналогов. Кроме того, предложенные алгоритмы отличаются сравнительно высоким быстродействием, так как при их работе не выполняются такие ресурсоёмкие операции, как дискретное преобразование Фурье.

Искажения при сильном уменьшении частоты основного тона связаны с особенностями частотных характеристик вокализованных звуков и человеческого слуха. Возможным способом устранения данного недостатка является использование дискретного вейвлет-преобразования для разложения сигнала не на две, а на большее количество составляющих.

При этом для работы алгоритмов необходимы дополнительные данные в виде разметки по аллофонам и периодам. Поэтому наиболее подходящей сферой применения для данных алгоритмов являются системы синтеза речи, в которых подобная информация доступна изначально. Для применения алгоритмов в других сферах (как, например, модификация естественной речи) необходимы дополнительные средства получения разметки, разработка и реализация которых представляет собой отдельную задачу.

Автор выражает искреннюю благодарность своему научному руководителю Рыбину Сергею Витальевичу, под чьим чутким и внимательным руководством писалась данная статья, а также Чистикову Павлу Геннадьевичу, чьи критические замечания и советы оказали большое влияние на данную ста-

тью и помогли значительно улучшить её качество.

Кроме того, автор выражает благодарность ООО «Центр Речевых Технологий» и его экспертам, любезно предоставившим образцы исходных сигналов с разметкой.

Литература

1. Malah D. Time-domain algorithms for harmonic bandwidth reduction and time scaling of speech signals // IEEE Transactions on Acoustics, Speech and Signal Processing. 1979. Vol. 27, № 2. P. 121-133.

2. Hejna D., Musicus B. R. The SOLAFS time-scale modification algorithm // BBN Technical Reports. 1991.

3. ЧистиковП.Г., Рыбин C.B. Проблемы естественности речевого сигнала в системах синтеза // Компьютерные инструмкнты в образовании, 2011. № 1.

4. Faycal Y., MesaoudB., Lotfi B. Prosody modification of standard arabic speech using combining synchronous overlap and add with fixed-synthesis algorithm and multi level discrete wavelet transform // Journal of Computer Science, 2010. P. 392-405.

5. Bailly G. A parametric harmonic+noise model // Improvements in Speech Synthesis. John Wiley & Sons, 2002. P. 22-38.

6. Speech Enhancement, Modeling and Recognition-Algorithms and Applications / Ed. by S. Rama-krishnan. InTech, 2012. P. 69-94.

Abstract

This paper presents speech signal pitch and duration modification algorithms. Approach to pitch modification is based on discrete wavelet transform. Emphasis is put on application of proposed algorithms in speech synthesis systems. In addition, brief review of algorithms and mathematical models developed to solve the problem of speech modification is stated. Results of experimental research are presented, main advantages and disadvantages of proposed algorithms are stated and the way of their improvement is outlined.

Keywords: pitch modification, rhythm modification, speech synthesis, discrete wavelet transform.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

© Наши авторы, 2012. Our authors, 2012.

Олейник Андрей Леонидович, бакалавр прикладной математики и информатики, студент 1 курса магистратуры СПбГЭТУ «ЛЭТИ», кафедра МО ЭВМ ФКТИ,

[email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.