Научная статья на тему 'КОНВЕРСИЯ ГОЛОСА НА ОСНОВЕ МНОЖЕСТВЕННОЙ РЕГРЕССИОННОЙ ФУНКЦИИ ОТОБРАЖЕНИЯ И МЕТОДА СПЕКТРАЛЬНОГО ВЗВЕШИВАНИЯ'

КОНВЕРСИЯ ГОЛОСА НА ОСНОВЕ МНОЖЕСТВЕННОЙ РЕГРЕССИОННОЙ ФУНКЦИИ ОТОБРАЖЕНИЯ И МЕТОДА СПЕКТРАЛЬНОГО ВЗВЕШИВАНИЯ Текст научной статьи по специальности «Математика»

CC BY
60
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОНВЕРСИЯ ГОЛОСА / ГАУССОВЫ СМЕСИ / МНОЖЕСТВЕННАЯ РЕГРЕССИОННАЯ МОДЕЛЬ / СПЕКТРАЛЬНОЕ ВЗВЕШИВАНИЕ

Аннотация научной статьи по математике, автор научной работы — Захарьев Вадим Анатольевич, Петровский Александр Александрович

В статье рассматриваются вопросы развития методов и моделей конверсии голоса. Приводится обзор и анализ наиболее часто используемых подходов на основе статистических методов. На их базе в работе предлагаются расширенные модели с большим количеством степеней свободы и факторов, которые учитываются при построении функции конверсии, а также адекватностью модели по отношению к характеристикам речевого сигнала. В статье предлагается усовершенствованный статистический метод на основе множественной регрессии, а также метод на базе спектрального взвешивания. Эффективность работы предложенных методов подтверждается объективными тестами, результаты которых приведены в экспериментальной части статьи.The paper deals with the development of methods and models for voice conversion. Provides an overview and analysis of the most commonly used approaches based on statistical methods. On their basis in the article offers enhanced model with a large number of degrees of freedom and the factors that are taken into account when constructing the function of conversion, as well as the adequacy of the model in relation to the characteristics of the speech signal. The paper proposes an improved method based on a statistical multiple regression, and the method based on the spectral weighting. The effectiveness of the proposed methods is confirmed by objective tests, the results of which are given in the experimental part of the article.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Захарьев Вадим Анатольевич, Петровский Александр Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «КОНВЕРСИЯ ГОЛОСА НА ОСНОВЕ МНОЖЕСТВЕННОЙ РЕГРЕССИОННОЙ ФУНКЦИИ ОТОБРАЖЕНИЯ И МЕТОДА СПЕКТРАЛЬНОГО ВЗВЕШИВАНИЯ»



Конверсия голоса на основе множественной регрессионной функции отображения и метода спектрального взвешивания Петровский А.А., доктор технических наук Захарьев В.А., аспирант В статье рассматриваются вопросы развития методов и моделей конверсии голоса. Приводится обзор и анализ наиболее часто используемых подходов на основе статистических методов. На их базе в работе предлагаются расширенные модели с большим количеством степеней свободы и факторов, которые учитываются при построении функции конверсии, а также адекватностью модели по отношению к характеристикам речевого сигнала. В статье предлагается усовершенствованный статистический метод на основе множественной регрессии, а также метод на базе спектрального взвешивания. Эффективность работы предложенных методов подтверждается объективными тестами, результаты которых приведены в экспериментальной части статьи. • конверсия голоса • гауссовы смеси • множественная регрессионная модель • спектральное взвешивание

40

The paper deals with the development of methods and models for voice conversion. Provides an overview and analysis of the most commonly used approaches based on statistical methods. On their basis in the article offers enhanced model with a large number of degrees of freedom and the factors that are taken into account when constructing the function of conversion, as well as the adequacy of the model in relation to the characteristics of the speech signal. The paper proposes an improved method based on a statistical multiple regression, and the method based on the spectral weighting. The effectiveness of the proposed methods is confirmed by objective tests , the results of which are given in the experimental part of the article. • voice conversion • Gaussian mixture model • Multivariate regression model • spectral weighting

Введение

С каждым годом к системам человеко-машинного взаимодействия предъявляются всё более жёсткие требования к их качественным характеристикам: натуральности, воспроизведению персонализированных свойств голоса, а также мультимодальности речевых интерфейсов и систем мультимедиа. Данный факт обусловил формирование и развитие одного из наиболее молодых и бурно развивающихся в настоящее время направлений речевых исследований - конверсии голоса. Конверсия голоса является технологией обработки речевого сигнала, позволяющей реализовать процесс трансформации параметров голоса, характеризующих речь исходного диктора, в параметры целевого [1, 2]. Данная технология находит своё широкое применение в области создания многодиктор-ных систем синтеза речи по тексту, биометрических систем фоноскопической экспертизы в криминалистике, индустрии развлечений, систем восстановления голоса [3].

Объектами конверсии голоса, как технологии обработки сигналов, являются информационные характеристики диктора, проявляющиеся в речевом сигнале через изменение его акустических параметров. Если постулироваться акустической моделью речеобразования «источник - фильтр», то можно выделить два вида таких параметров: артикуляторные и просодические характеристики. К артикуляторным можно отнести тембральные свойства голоса, задающие спектральную окраску фонем, проявляющиеся в виде изменения спектральной огибающей сигнала. Просодические характеристики - это совокупность физических параметров речевого сигнала, посредством которых реализуются интонация и ударения в речи. К ним относятся: мелодика - движение частоты основного тона, ритмика - текущее изменение длительности звуков и пауз, энергетика - текущее изменение силы звука [4].

Данная статья посвящена рассмотрению вопросов анализа и улучшения существующих моделей конверсии тембральных характеристик диктора как наиболее существенной составляющей данной технологии. Поскольку именно адекватностью и сложностью данной модели конверсии в большей степени определяется точность, с которой могут быть аппроксимированы параметры исходного диктора параметрами целевого, а следовательно, и перцептивное качество сконвертированной речи.

1. Конверсия голоса на основе статистических методов

Центральной задачей конверсии голоса является поиск функции конверсии голоса, позволяющей выполнить оптимальное отображение вектора параметров исходного диктора на каждом фрейме анализа в параметры целевого диктора [5]. В качестве такого критерия оптимальности, как правило, выступает минимум расстояния между векторами в пространстве акустических параметров пары дикторов. Под пространством акустических параметров диктора будем понимать всю совокупность векторов параметров, характеризующих спектральную огибающую, полученную в результате анализа и параметризации речевого сигнала на основе выбранного метода его представления. Таким образом, мы постулируемся тем, что на вход системы поступает последовательность характеристических векторов, с помощью которых закодирована спектральная огибающая диктора, одновременно абстрагировавшись от конкретной модели сигнала или метода его представления, которая в данном случае может быть произвольной.

Функция конверсии строится на основе представлений о структуре таких акустических пространств и их взаимосвязях друг с другом, опирается на различные модели их мате-

41

Iii .J,. JJSo Wß^m Захарьев В.А., Петровский А.А. Конверсия голоса на основе множественной регрессионной функции отображения и метода спектрального взвешивания

42

матического описания [6-8], позволяющие выразить такие представления, а также решить в процессе поиска функции конверсии две основные задачи. Во-первых, осуществить разделение пространства на характерные участки (кластеры), соответствующие определённым акустическим событиям -характерному изменению состояния параметров сигнала - как правило, фонемам звуков речи, объединённых в кластеры по месту или способу образования. Во-вторых, задавшись возможным характером взаимосвязи между пространствами дикторов, определить параметры функции конверсии на основе выбранного метода кластеризации и характеристик самих кластеров, полученных по результатам первого этапа.

В системах конверсии голоса для достижения поставленного результата используются различные методы кластеризации и функции конверсии на базе статистических методов, линейной алгебры, эвристических и методов обработки сигналов. Результаты применения и примеры реализации данных методов можно также найти как в зарубежной [9], так и отечественной литературе [10-12]. В настоящий момент времени одним из самых распространённых и широко используемых методов, доказавших свою эффективность применения, является модель на основе множественных гауссовых смесей [13].

1.1. Модель множественных гауссовых смесей

Множественные гауссовы смеси — это вероятностная модель, которая позволяет представить акустическое пространство одного или более дикторов набором перекрывающихся классов, с возможностями определения характеристик модели по методу «обучение без учителя» [14]. Класс или компонента смеси отражают некоторые особенности речи говорящего диктора, непосредственно связанные с фонетическими событиями. Выбор количества классов представляет собой классическую задачу на разрешение технического противоречия между точностью представления пространства и сложностью модели. Во многих ситуациях количество выбирается эмпирическим путём, в зависимости от требуемой точности и желаемой детализации фонетических событий. Однако в общем случае является отдельной самостоятельной задачей, требующей детального рассмотрения. Описание каждого класса выполняется с использованием параметров нормального распределения: вектором средних значений класса и ковариационной матрицей, определяющей форму дисперсионного рассеивания векторов параметров вокруг среднего вектора в пределах смеси. Размерность среднего вектора и ковариационной квадратной матрицы смеси соответствует размерности входного вектора параметров сигнала. Поэтому при выборе модели представления сигнала необходимо стараться выбирать такие из них, которые либо обладают невысокой размерностью выходного вектора параметров, либо позволяют применить методы снижения размерности. Целиком акустическое пространство параметров диктора описывается набором классов или смесью из гауссовых компонент, каждая из которых имеет свой весовой коэффициент, средний вектор и ковариационную матрицу.

После нахождения показателей модели она сразу же может использоваться для классификации входных векторов акустических параметров с использованием правила Байеса. Классификация носит вероятностный и непрерывный характер.

Захарьев В.А., Петровский А.А. Конверсия голоса на основе множественной регрессионной функции отображения и метода спектрального взвешивания

Функция плотности вероятности модели на основе множественных гауссовых смесей представляет собой взвешенную сумму Q гауссовых компонент и определяется следующим выражением:

где x = [xo, xo,...xp_j]T - случайный вектор размерности p,Nq(x|0q) - плотность вероятности компоненты смеси, а aq - её весовой коэффициент. Каждая из компонент представляет собой функцию плотности вероятности размерности p:

где p,q - вектор математических ожиданий класса размерностью p и Zq- ковариационная матрица многомерного распределения Гаусса размерностью pxp. Скалярные веса смесей aq принимают значения больше нуля aq>0, Vq =1,...,Q, а их сумма равна единице Z0q=j aq=1. Таким образом, полное параметрическое представление модели множественных гауссовых смесей, описывающей акустическое пространство диктора, включает в себя 0= {aq,p,q,Zq} характеристики для q =1,...,Q компонент.

1.2. Функция конверсии на основе регрессии первого порядка

Для описания акустического пространства диктора на основе модели множественных гауссовых смесей в работе [13] были предложены функции конверсии, основанные на мягкой классификации. Результаты конверсии на основе данных функций выгодно отличались от конверсии на основе подходов с жёсткой кластеризацией пространства параметров, например, векторного квантования, поскольку позволяли избежать возникновения артефактов в выходном речевом сигнале. Первоначально формула функции конверсии для множественной смеси была получена на основе использования регрессионной модели первого порядка для однокомпонентного случая. Если постулироваться тем, что характеристики векторов ИД и ЦД имеют нормальное распределение, минимум среднеквадратичной ошибки для преобразованного вектора определяется регрессионным уравнением первого порядка вида [15]:

E\y\x=xn] = ГЕ-^яг- |i), (1)

где Г- кроссковариационная матрица для векторов ИД и ЦД, а v - вектор средних значений для ЦД:

v = E[y],

Г = E[(y - v)(x - ц)т].

Полученный результат был расширен для случая множественных смесей путём умножения каждой компоненты, определяемой выражением (1), на весовой множитель соответствующей смеси, который определяется условной вероятностью принадлежности поступающего на вход функции вектора xn к классу wq, описываемому данной смесью. Тогда общая форма функции конверсии может быть представлена как: Q

F(x) = У Vqix)[V, + TqI-Ux- щ)], (2) 4=1 43

где ря(х}- апостериорная вероятность того, что вектор х принадлежит q-й гауссовой компоненте.

Параметры ] вычисляются с применением методов среднеквадратиче-

ской оптимизации с целью минимизации ошибки преобразования между сконвертированными и целевыми данными на тренировочной выборке:

= Е[||у-ВДН2].

В работе [16] данная стратегия конверсии была применена к параметризации на основе кепстральных коэффициентов. Сравнивались два подхода к построению данной функции в зависимости от типа кроссковариационной матрицы Г: для случая полной ковариационной матрицы Г и диагональной ковариационной матрицы. Было показано, что в результате больших временных и ресурсных затрат, возникающих при использовании не диагональных матриц при их инверсии, более предпочтительными являются диагональные кроссковариационные матрицы.

В работе [17] метод поиска параметров функции конверсии (2) на базе наименьших квадратов был расширен предположением о том, что возможно построение модели множественных гауссовых смесей для совместного пространства векторов исходного и целевого дикторов ъ - [хт,ут] т с целью возможностей описания совместной плотности вероятности р(х,у). В данном случае функция конверсии, которая минимизирует среднеква-дратическую ошибку между сконвертированным и целевым векторами, является регрессионной функцией у от х:

(3)

(3a)

44

При таком подходе к описанию совместного акустического пространства признаков отсутствует необходимость инверсии больших часто плохо определённых матриц, поскольку все параметры регрессионной функции отображения { ц^^}, необходимой для реализации конверсии, рассчитываются уже во время обучения модели гауссовых смесей. Метод на основе совместной плотности вероятности не делает никаких предположений о характере распределения значений векторов исходного и целевого дикторов. В теории, моделирование совместной плотности должно привести к более справедливому распределению компонентов смеси для регрессионной модели. В работах показано [18], что модели на базе метода наименьших квадратов и совместной плотности распределения приводят к одинаковым результатам. Это означает, что параметры целевого диктора имеют сходное распределение с целевыми по отношению к дисперсии. Однако в зависимо-

Захарьев В.А., Петровский А.А. Конверсия голоса на основе множественной регрессионной функции отображения и метода спектрального взвешивания

сти от количества обучающих данных регрессионная функция на основе модели совестных множественных гауссовых смесей оказывается лучше благодаря меньшему значению вычислительной ошибки. Из чего был сделан вывод, что данная модель имеет запас устойчивости при меньшем количестве обучающих данных.

Общей проблемой обоих подходов на основе модели множественных гауссовых смесей является расширение ширины полосы пропускания формант в результате локального усреднения параметров спектральной огибающей на выходе функции конверсии. Перцептуально это воспринимается как эффект размытия в сконвертированной речи. Данный эффект хорошо виден по отношению к четвёртой форманте сконвертированной огибающей (рис. 1).

Также необходимо отметить относительно невысокую гибкость модели, поскольку функция отображения имеет всего одну степень свободы. Из анализа вида функции отображения видно, что данная функция является простейшей регрессионной функцией первого порядка вида у = в0 - в1 х, устанавливающей зависимость между одним предиктором и одной критериальной (зависимой) переменной, вследствие этого имеет ограниченные возможности предсказания. Поэтому в следующем разделе предлагается рассмотреть имеющиеся возможности по улучшению модели за счёт её усложнения и введения в неё новых факторов.

1.3. Функция конверсии на основе множественной регрессии

Эксперименты над системой, построенной на базе представленной выше функции, показали хорошие результаты. Однако было установлено, что при проведении тестирования по «слепым методикам» эксперты лишь в половине случаев принимали решение, что результирующий голос похож на голос целевого диктора, а в половине - на голос исходного. Как уже было сказано выше, данная модель является весьма ограниченной, поскольку рассматривает последовательность векторов обучения как простой набор элементов, для которых статистические связи присутствуют лишь для одной пары в каждый 1-й момент времени (рис. 2а).

Выражение (3) можно переписать в упрощенном виде:

(4)

Ф„ = ЕГ. xj = Е^"

45

46

Рис. 2. Виды зависимостей между парами векторов обучающей последовательности: а) независимая модель; б) эргодическая модель; в) Марковский процесс

где Б1 - величина невязки между результатом конверсии и целевым вектором параметров, 1 = 1 2,...,Т - момент времени, который соответствует номеру вектора в последовательности. Одним из возможных способов расширения функции конверсии является введение в модель дополнительных переменных, использующих контекстную информацию из соседних с 1-м вектором элементов. Поскольку обучающая последовательность векторов параметров речевого сигнала обладает некоторой эргодичностью, была выдвинута гипотеза о том, что параметры контекстных векторов также могут коррелировать с 1-м вектором целевого диктора. В зависимости от типа такой связи было предложено два подхода к расширению функции модели. Первая условно была названа эргодической моделью, она представлена на рис. 2б и имеет вид:

Данная функция отображения показала лучшие результаты, чем функция (4). Далее это будет видно из экспериментов. Второй подход предлагает учитывать зависимость в последовательности векторов не только для исходного, но и для целевого диктора, придавая тем самым последовательности свойства Марковского процесса. Предлагаемая схема приведена на рис. 2в. Таким образом, если элементы обучающей выборки целевого диктора условно считать состояниями модели, то регрессия учитывает следующие состояния:

(5)

Для определения параметров множественной регрессионной функции метод на основе совместной плотности вероятности применён быть не может. Покажем, как осуществляется поиск коэффициентов данной модели на основе общего метода на базе наименьших квадратов. Представим выражение (5) в матричном виде:

[PI В !€ ID]-

= У

(6)

где y = [ у1; y2,e ••• e ут] , — последовательность векторов параметров целевого дикто

ра, у е R1xp- ------------- -..........-.......-----lT

j

,p - размерность вектора параметров, v^v^v^e-.-evJ - век- тор матема-

R1xpQ ф= [ф ф2,e ••• eФ0]

тических ожидании для каждой компоненты смеси, где уу-

т - матрица регрессионных коэффициентов для всех компонентов смеси при переменной независимой переменной х?-, где Фу- е Ярхр, ¥= [ ^2,е ••• е^е]т - матрицы регрессионных коэффициентов при переменной независимой переменной уг- _ ¡, е Ярхр, 0= [ П1; Ц,е ••• еОе]т - матрицы регрессионных коэффициентов при переменной независимой переменной х^ + ¡, а Ц- е Ярхр. Матрицы {Р, В, С, D}, размерностью р/Т-1 представляют собой известные характеристики модели и определяются согласно следующим выражениям:

Легко видеть, что, выполняя замену А = [Р e В eC eD], и х = [v e Ф e^ eQ], уравнение (6) можно привести к нормальной форме. Тогда задача по нахождению неизвестных параметров {v , Ф Q} формулируется как задача оптимизации, для решения которой воспользуемся методом наименьших квадратов. Для этого представим выражение (6) в следующем виде:

А• х = y ^ АТА• х=УАт, тогда решение ищется в виде:

X opt = (АТА)-1у Ат.

(7)

Сложности, которые могут возникнуть при решении данного уравнения, связаны с возможной необходимостью инверсии плохо обусловленных матриц большой размерности, с тенденцией роста количества параметров системы. Общая размерность матрицы, требующей инверсии в правой части выражения (7), зависит от количества компонент смеси Р и размерности векторов параметров р, определяется как (З/р/р+р)2.

47

Захарьев В.А., Петровский А.А. Конверсия голоса на основе множественной регрессионной функции отображения и метода спектрального взвешивания

Решение данной проблемы возможно с использованием диагональных ковариационных матриц, вместо их полных версий, а также использованием декомпозиции на основе разложения Холецкого [19]. При практической реализации данного метода использовался алгоритм решения уравнения на основе метода наименьших квадратов с использованием методик, разработанных для решения систем линейных уравнений с плохо обусловленными матрицами коэффициентов большой размерности [20].

2. Гибридная модель конверсии голоса

2.1. Метод спектрального взвешивания

Метод выполнения преобразований, представленный выше, основан на статистических функциях отображения параметров, подходит, в принципе, для всех случаев выполнения операции трансформации над векторами параметров, абстрагировано от их природы. В случае с конверсией голоса это означает, что проблема решается исключительно с математической точки зрения, без учёта специфических характеристик речевого сигнала. В этом, по мнению авторов, заложен некоторый потенциал для совершенствования методов с использованием подходов, более приближённых к физическому смыслу параметров сигнала. Наиболее подходящим для такой задачи видится подход, основанный на спектральном взвешивании, поскольку он ориентирован на выполнение манипуляций с параметрами спектральной огибающей, что как раз и является центральной задачей конверсии голоса.

Основное достоинство метода спектрального взвешивания заключается в том, что он близко связан с акустической теорией речеобразования, в рамках которой еще в работах Фанта [21] было доказано, что формантные частоты различных дикторов связаны нелинейной функцией масштабирования или деформации. Цель метода заключается в нахождении параметров данной функции путем поиска критического пути преобразования между спектральной огибающей исходного и целевого дикторов, относящейся к одному акустическому классу.

Задача формулируется следующим образом. Пусть заданы два спектра X(f) и Y(f) в диапазоне частот f е[0; оптимальная функция деформации частоты w(f) может быть определена как нелинейная непрерывная функция от f, минимизирующая ошибку, заданную выражением:

Целью методов конверсии голоса на базе спектрального взвешивания является трансформация частотной оси исходного спектра с использованием специальной функции взвешивания или деформации w(f) так, чтобы сконвертиро-ванный спектр максимально соответствовал целевому спектру. Более того, w(f) не должна быть единственной: для различных фонем или групп фонем могут понадобиться различные функции деформации.

2.2. Схема гибридной модели конверсии голоса

В настоящей работе предлагается рассмотреть возможность использования ком-

48

бинации методов на основе множественных гауссовых смесей и спектраль-

ного взвешивания. За счёт сочетания возможностей статистических методов на основе регрессионного анализа, хорошо справляющихся с задачей описания акустических пространств дикторов, и такой техники обработки сигнала как спектральное взвешивание, тесно связанной с физической природой речевого сигнала, возможно осуществлять трансформацию спектральной огибающей без внесения существенных артефактов в результирующий речевой сигнал, при этом сохранив достаточно высокие характеристики узнаваемости.

Учитывая то, что средние вектора q-й компоненты натренированной модели гауссовых смесей и р,у, информация о положении формант, находящихся на соответствующих участках огибающей данных векторов, может быть использована для определения кусочно-линейной функции деформации частоты (£). Это процесс, изображённый на рис. 3, возможен благодаря высокой степени корреляции расположения формант, обнаруживающейся для средних векторов исходного и целевого дикторов, принадлежащих одному акустическому классу. Для модели гауссовых смесей, состоящей из Р компонент, необходимо получитьР различных функций {'' (Г)}.

/

Можно предположить, что фонемы с аналогичной фор-мантной структурой, относящейся к одной и той же компоненте смеси, как было отмечено ранее, должны быть связаны с помощью одинаковых функций деформации. С другой стороны, имея параметрическое представление фрейма сигнала х, вероятность принадлежности его к q-й компоненте смеси определяется выражением (3а). Таким образом, центральная идея спектрального взвешивания

заключается в вычислении различных функций частотного масштабирования для каждого фрейма входного сигнала, как линейной комбинации Р базисных функций с использованием апостериорных вероятностей к классам ^ (Гх)} как Выражение, определяющее метод спектрального взвешивания:

Рис. 3. Функция деформации спектра

{Wq (f)}, весов.

W(x,f) = £ pq (x)Wq(f).

Спектр сигнала текущего фрейма должен быть преобразован соответствующей функцией деформации (Г), поэтому функция отображения на основе использования метода взвешенной деформации определяется следующим образом:

Si (f) = G (f) Si (W(xi5f)),

(8)

где 1 - номер фрейма сигнала, 81 (Г) и (Г) - исходный и результирующий спектр сигнала соответственно, '(х^) - функция деформации частоты для 1-го фрейма сигнала, х1 - вектор параметров спектральной огибающей исходного диктора на 1-м фрейме. 01 (Г) - фильтр, корректирующий энергию сигнала на 1 -м фрейме сигнала. Данный фильтр необходим, поскольку представленная процедура изменяет только положение формант на частотной оси, тогда как их мощности и полосы пропускания остаются практически неизменными, что приводит к неправильному распределению энергии по частотам. Манипуляция напрямую этими параметрами в преобразованном спектре может негативно сказаться на характеристиках натуральности восстанов-

Р ;

J> /

4 ^

49

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Захарьев В.А., Петровский А.А. Конверсия голоса на основе множественной регрессионной функции отображения и метода спектрального взвешивания

50

ленного сигнала. Однако данная проблема успешно может быть решена путём использования полученной на этапе обучения модели гауссовых смесей, путём конверсии вектора параметров огибающей Б(х) согласно выражению (4) и получении сконвертированного спектра §1 (Г). То есть данный спектр был бы получен в результате конверсии при отсутствии спектрального взвешивания, но он бы учитывал изменения не только распределения частот, но и энергии сигнала по ним. Поэтому корректирующий фильтр может быть представлен как дискретный набор коэффициентов, сглаживающих усиления 01 (Г) = (Г/Б^Г) в частотной области. Таким образом, производится правильное распределение энергии по частотам сигналов и при этом не наблюдается существенной деградации результирующей огибающей и, как следствие, восстановленного сигнала.

Выровненные

Рис. 4. Схема гибридной модели конверсии голоса на основе множественной регрессионной функции конверсии и методе спектрального взвешивания

С учётом невокализованных фрагментов речи, конверсия которых не производится, схема метода конверсии на основе спектрального взвешивания представлена на рис. 4.

В процессе фазы обучения на вход системы поступают выровненные по времени последовательности векторов параметров спектральных огибающих ИД и ЦД, на их основе производится кластеризация акустических пространств дикторов и поиск характеристик моделей множественных гауссовых смесей с использованием ЕМ-алгоритма. Далее на базе средних векторов компонент, согласно выражению (7), ищется функция деформации для каждой из смесей.

Во время фазы работы на вход системы поступает последовательность векторов только ИД, производится расчёт вероятностей принадлежности вектора к q-й компоненте смеси (рч (х)}, а также функции деформации для текущего фрейма 'ЩхД). Далее над спектральной огибающей текущего фрейма, в случае, если он является вокализованным, производится трансформация спектра согласно полученной функции деформации. Невокализованные фреймы

без изменений передаются на выход системы. Затем рассчитываются опорные значения амплитуд с использованием функции отображения Б(х) на основе множественной регрессии, по выражению (6), и выполняется расчёт корректирующего фильтра, а также поправок распределения энергии по частотам.

Таким образом, рассмотренный метод спектрального взвешивания позволяет использовать сильные стороны статистических методов на основе моделей множественных гауссовых смесей, для эффективного описания акустического пространства диктора, и в то же время в процессе конверсии использовать возможности метода спектрального взвешивания, имеющего глубинную связь с физической природой речевого сигнала. Это должно поднять характеристики качества восстанавливаемого сигнала, при этом сохранив относительно высокие показатели узнаваемости для сконвертированного сигнала.

3. Экспериментальная часть

Эксперименты проводились на фонетически сбалансированном наборе фраз, включающем по 90 аудиозаписей одинаковых предложений для четырёх дикторов: двух мужчин и двух женщин. В дальнейшем в экспериментах дикторы мужского пола условно обозначены как ml и m2, а дикторы женского, как f1 и f2, соответственно. Средняя длительность одной фразы составляла 5-6 с. Аудиофайлы были закодированы в формате wav, с частотой дискретизации 16000кГц и разрядностью сетки квантования в 16 бит. Размер тестовой выборки составлял десять фраз, не входящих в обучающий набор. Анализ и синтез сигнала производился с использованием модели сигнала на базе взвешенной интерполяции спектра, в зарубежной литературе получившей акроним STRAIGHT [22]. После анализа сигнала использовалась параметризация огибающей спектра на основе метода линейного предсказания с использованием представления коэффициентов фильтра в виде вектора линейных спектральных частот 24-го порядка. Для временного масштабирования использовался алгоритм временного выравнивания на основе динамического программирования.

В работе предлагается применить в качестве объективной оценки близости сконвертированного сигнала по отношению к целевому метрику, основанную на кепстральном расстоянии между спектральными огибающими, в шкале Мелов. Данная метрика была выбрана нами, поскольку кепстральные параметры, в отличие от, например, коэффициентов линейного предсказания, обладают наименьшей степенью корреляции между параметрами возбуждения и тембральными характеристиками речевого тракта, заложенными в огибающей спектра. Также важным является факт, что расстояние между ними определяется в психоакустической шкале Мелов, что более обоснованно позволяет интерпретировать значение оценки как степени восприятия искажения восстановленного сигнала человеком [23]. В ходе экспериментов над тестовыми сигналами заново производился их анализ согласно той же модели представления сигнала и с теми же параметрами, что и на этапе конверсии. Однако огибающая спектра была закодирована уже не с помощью коэффициентов линейного предсказания, а при помощи мел-кепстральных коэффициентов 16-го порядка. Оценка рассчитывалась как средняя квадратичная ошибка преобразования согласно выражению:

где СС{улп| и СХ^{уп} - мел-кепстральное представление результирующей и исходной спектральной огибающей соответственно. Приведённые в статье методы закодированы следую-

51

щим образом: МНК - метод на основе функции отображения на базе наименьших квадратов (2); СПР - метод на основе совместной плотности распределения вероятностей (4); МРГ - метод на основе множественной регрессии (5); СПВ - метод на основе спектрального взвешивания (8). Результаты конверсии оценивались для трёх направлений конверсии.

Рис. 5. Результаты тестов для четырёх методов по измерению объективных оценок

52

Из анализа результатов эксперимента видно, что все методы имеют общий тренд к уменьшению величины среднеквадратической ошибки при увеличении размерности модели множественных гауссовых и количества тренировочных фраз. В особенности данная тенденция хорошо проявляется при увеличении числа компонент модели более 6 и размера обучающей выборки более 40 фраз. При более детальном рассмотрении очевидно, что метод на основе спектрального взвешивания показывает почти во всех случаях самые низкие значения искажений. Что подтверждает ожидаемую эффективность для данного метода. На втором месте следует рассмотренный чуть ранее метод на основе функции конверсии, основанный на множественной регрессионной модели, что также является ожидаемым фактом с точки зрения объективных оценок.

Заключение

В статье были рассмотрены вопросы, связанные с развитием методов и моделей такого направления речевых исследований, как конверсия голоса. Были представлены новые методы на основе множественной регрессии и взвешенной деформации спектра. Первый, имеющий в своей основе статистические методы обработки данных, позволяет с использованием регрессионной функции третьего порядка учесть зависимости более высокого уровня в процессе обучения и работы алгоритма конверсии, нежели стандартные подходы. На этапе обучения это позволяет рассматривать взаимодействие не только между двумя параллельными фреймами, но и учесть присутствие свойств эргодичности в речевом сигнале, рассмотрев эти связи в обучающей последовательности как Марковский процесс. Второй — за счёт сочетания сильных сторон статистических методов на основе регрессионного анализа, хорошо справляющихся с задачей описания акустических пространств дикторов, и такой техники обработки сигнала, как спектральное взвешивание, тесно связанной с физической природой речевого сигнала. Он позволяет осуществлять трансформацию спектральной огибающей без внесения существенных артефактов в результирующий речевой сигнал, при этом сохранив достаточно высокие характеристики узнаваемости. Эффективность рассмотренных методов подтверждается результатами экспериментов, представленными в материалах статьи.

Литература

1. Abe M., Nakamura S., Shikano K. Voice conversion through vector quantization // Proc. of International Conference on Acoustics, Speech and Signal Processing. New York, 1988. P. 655-658.

2. Moulines E, Sagisaka Y. Voice conversion: State of the art and perspectives // Speech Communication. 1995. Vol. 16, K. 125-224.

3. Лобанов Б. М., Цирульник Л. И. Компьютерный синтез и распознавание речи. Минск: Белорусская наука, 2008.

4. Duxans H. Voice conversion applied to text-to-speech systems: Ph.D. thesis // Universitat Politecnica de Catalyunya. Barcelona, 2006. May.

5. Valbret H., Moulines E., Tubach J.P. Voice transformation using PSOLA technique // Proc. of International Conference on Acoustics, Speech and Signal Processing. Vol. 1. 1992. P. 145-148.

6. Arslan L. Speaker transformation algorithm using segmental codebooks (STASC) // Speech Communication. 1999. Vol. 28, no. 3. P. 211-226.

7. Sundermann D, Hoge H., Bonafonte A. Text-independent voice conversion based on unit selection // Proc. of International Conference on Acoustics, Speech and Signal Processing. Vol. 1. 2006.

8. Narendranath M., Murthy H., Rajendran S., Yegnanarayana N. Transformation of formants for voice conversion using artificial neural networks // Speech Communication. 1995. Vol. 16, no. 2. P. 207-216.

9. Machado A. F., Queiroz M. Voice conversion: a critical survey // Open access article. 2010. URL: http:// citeseerx.ist.psu.edu/viewdoc/download?rep=rep1&type=pdf

10. Азаров И.С., Петровский А.А. Система конверсии голоса в реальном масштабе времени с тек-стонезависимым обучением на основе гибридного параметрического описания речевых сигналов // Цифровая обработка сигналов. 2012. №2. C. 15-23.

11. Павловец А.С., Лившиц М.З., Личачев Д.С., Петровский А.А. Конверсия голоса с использованием модели сепарации речевого сигнала на компоненты «гармоники + шум» и переходные фреймы // Речевые технологии. 2008. №4. С. 37-50.

12. Анализаторы речевых и звуковых сигналов: методы, алгоритмы и практика (с MATLAB примерами) / под редакцией А.А. Петровского. Минск : Бестпринт, 2009.

13. Stylianou Y., Cappe O., Moulines E. Statistical methods for voice quality transformation // Proc. of European Conference on Speech Communication and Technology. Madrid, 1995. P. 447-450.

53

14. Bishop C. M. Pattern Recognition and Machine Learning (Information Science and Statistics). Secaucus, NJ, USA : Springer-Verlag New York, Inc., 2007.

15. Kay S. M. Fundamentals of statistical signal processing: estimation theory. Upper Saddle River, NJ, USA: Prentice-Hall, Inc., 1993.

16. Stylianou Y, Cappe O., Moulines E. Continuous probabilistic transform for voice conversion // Proc. of International Conference on Acoustics, Speech and Signal Processing. Vol. 6. 1998. P. 131-142.

17. Kain A, Macon M.W. Spectral voice conversion for text-to-speech synthesis // Proc. of International Conference on Acoustics, Speech and Signal Processing. 1998. P. 285-288.

18. Kain A, Macon M.W. Text-to-speech voice adaptation from sparse training data // Proc. of International Conference on Spoken Language Processing. 1998. P. 2847-2850.

19. Вержбицкий В. Основы численных методов. Москва : Высшая школа, 2009.

20. Boyd S. A matlab solver for large-scale-regularised least squares problems. 2012.URL: http://www.stanford.edu/ boyd/l1_Ls (online; accessed: 25.06.2013).

21. Fant G., Kruckenberg A, Nord L. Prosodic and segmental speaker variations // Speech Communication. 1991. Vol. 10, no. 5-6. P. 521-531.

22. Kawahara H., Masanori M. Technic foundations of tandem-straight, a speech analysis, modification and synthesis framework // SADHANA - Academy Proceedings in Engineering Sciences. Vol. 36 of 5. 2011. P. 713-722.

23. Hu Y., Loizou P.C. Evaluation of objective quality measures for speech enhancement // IEEE Transactions on Audio, Speech & Language Processing. 2008. Vol. 16, no. 1, P. 229-238.

Сведения об авторах:

Захарьев Вадим Анатольевич,

аспирант, окончил Белорусский государственный университет информатики и радиоэлектроники, факультет информационных технологий и управления, специальность — «Информационные технологии и управление в технических системах». Область научных интересов: цифровая обработка сигналов, методы распознавания образов и машинного обучения, синтез речи, конверсия голоса. E-mail: zahariev@bsuir.by

Петровский Александр Александрович,

доктор технических наук, профессор, Белорусский государственный университет информатики и радиоэлектроники (бывший Минский радиотехнический институт), кафедра электронных вычислительных средств. Главные научные интересы лежат в области цифровой обработки сигналов речи и звука для целей компрессии, распознавания, редактирования шума, а также проектирование проблемно-ориентированных средств вычислительной техники реального времени для систем мультимедиа. Член НТО РЭС им. А.С.Попова, IEEE, EURASIP, AES.

54

i Надоели баннеры? Вы всегда можете отключить рекламу.