Система синтеза естественной речи для русского языка на базе глубоких нейронных сетей
Вовк И.Ю., Гогорян В.С., НИУ Высшая школа экономики, МИЭМ iyuvovk_2, [email protected]
Аннотация
В данной статье описывается система синтеза естественной речи для русского языка, основанная полностью на нейронных подходах. Архитектура системы состоит из последовательности модифицированных нами сетей Tacotron 2 и вокодера WaveNet с техникой генерации из псевдошума, и она способна воспроизводить по тексту речь, практически неотличимую от человеческой. В работе мы уделили особое внимание предобработке текста, разработав собственный алгоритм для расстановки ударений DeepStress. По нашим сведениям, используя аппроксимированные векторные представления слов, он справляется лучше, чем аналогичные решения, основанные на глубоких нейронных сетях. Помимо вышеперечисленного, в статье приводится сравнение речи, синтезированной с помощью авторегрессионного WaveNet и его модификации WaveGlow.
1 Введение
Системы генерации речи (text-to-speech, TTS) переводят написанный текст в человеческую речь. Несмотря на десятки лет исследований задача синтеза аудиосигналов напрямую из символьных последовательностей остается нерешенной. Более того, чрезвычайно быстрая эволюция голосовых помощников и растущий интерес пользователей к различным коммуникациям с машинами предъявляют критические требования по качеству к таким системам.
В последние годы было проведено много успешных исследований в данной области для достижения естественного качества синтеза. На сегодняшний день приемлемые решения были опубликованы и обнародованы только для небольшого набора языков.
По нашим данным, в свободном доступе нет подтверждения, что TTS система, состоящая из объединенных архитектур Tacotron
2 [1] и WaveNet [2], была обучена для русского. В [1] были опубликованы результаты
применения этих алгоритмов лишь для английского и китайского языков.
В данной статье мы представляем гибкую систему синтеза речи на русском языке, построенную полностью на глубоких нейронных сетях и обученную на большом количестве аккуратно собранных нами данных с частотой дискретизации 22 КГц, а также рассматриваем некоторые практические вопросы, возникающие при его разработке. В частности, мы проделали следующую работу:
1. Провели обзор всех существующих и доступных на данный момент лучших решений в области синтеза речи;
2. Разработали модели DeepStress для будущей простановки ударений и AtomNet для аппроксимации векторных представлений слов, которая является частью DeepStress;
3. Собрали большое количество данных и провели необходимую предобработку;
4. Реализовали Tacotron 2, WaveNet и WaveGlow для русского языка;
5. Модифицировали функцию потерь Tacotron 2 для ускоренного обучения и борьбы с взрывающимися градиентами;
6. Модифицировали генеративный процесс WaveNet для борьбы с шумом в синтезированных аудио;
7. Провели сравнение результатов генерации наших реализаций WaveNet и WaveGlow по метрикам Mean Opinion Score (MOS) и лог-спектральному расстоянию (log spectral distance, LSD).
2 Современные методы
Наша работа основана на лучших решениях в задаче синтеза речи и цифровой обработке сигналов. Устаревшие конкатенатив-ный и параметрический подходы медленно начинают вытесняться решениями, основанными на применении глубоких нейронных сетей. В данном разделе мы рассмотрим современные методы в задаче моделирования речи по символьным последовательностям.
Прежде чем по тексту генерировать речь, его сперва необходимо предобработать. Грамотная разметка текстовых данных является ключевым фактором для быстрого обучения моделей, а также гибкого и естественно звучащего синтеза. Акцентуация слов является распространенным методом первичной трансформации текстов. Ударные буквы оставляют заглавными, а все остальные делают прописными. Например,
высшая ^ вЫсшая.
Теперь модель, генерирующая сигнал, будет знать, на что обратить внимание при построении основного тона речи, однако задача их предсказания не является тривиальной. Масштабировать для ударений популярные решения в области обработки текстов с использованием нейронных сетей уже пытались Daan van Esch et al. [3] и Maria Ponamoreva et al. [4]. В [3] авторы искали различные подходы к тому, как должны выглядеть входные последовательности. Они пришли к выводу, что одновременное использование графем и фонем заметно повышает качество акцентуации. Таким образом, доля правильных ответов их решения на базе Long Short-Term Memory (LSTM) [5] составила 93.6% на словаре Зализняка [6]. С другой стороны, авторы [4] совершили попытки активно использовать контекстную информацию, достигнув по той же метрике для Context Free Model (CFM) 97.7% и для Context Dependant Model (CDM) 97.9% для акцентологического корпуса Национального Корпуса Русского Языка (НКРЯ) [7], отсутствующего в свободном доступе. Обе модели были построены с использованием двунаправленных LSTM с механизмом внимания [8].
Несмотря на большое количество исследований, современные системы синтеза речи до сих пор устроены довольно сложно. Фактически, сегодня не существует системы, состоящей из единственно обучаемой модели, которая принимала бы на вход символы и предсказывала звуковую волну. К различным промежуточным ухищрениям прибегают из-за природы звука: компьютеры хранят сигналы в виде очень длинных последовательностей магнитуд, которые очень затратно формировать напрямую. Например, аудио с частотой дискретизации 44 КГц имеет в одной секунде 44,100 временных точек. Чтобы трансформировать текст в такую
сложную сущность, процесс синтеза разбивают на два этапа: сперва, при помощи кодировщика предсказывают акустические признаки в низкоразмерном временном пространстве, которые хорошо кодируют речь, а затем восстанавливают по ним исходный сигнал при помощи специальной модели -вокодера. Далее мы рассмотрим подобные алгоритмы, дающие лучшие результаты с точки зрения качества восприятия сгенерированной речи.
Самым популярным промежуточным представлением акустических признаков является мел-спектрограмма. Ее легко посчитать, применив прямое оконное преобразование Фурье (short-time Fourier transformation, STFT) и переведя результат в мел-шкалу. Указанное преобразование является комплексным, поэтому, поскольку кодировщик предсказывает только действительную часть спектрограммы, очевидно, минусом в данном подходе является потеря соответствующих фаз. Это означает невозможность применить обратное STFT для вычисления сигнала мгновенно. В таком случае, классическим решением долгое время являлся простой в реализации итеративный алгоритм Гриффина-Лима [9]. Его не нужно обучать, однако у него есть существенные недостатки, проявляющиеся в виде артефактов, а также неприсущей для человеческого голоса «железности».
Непригодный для достижения производственного качества алгоритм Гриффина-Лима был вытеснен глубокой нейронной сетью WaveNet из [2]. Будучи полностью вероятностным и авторегрессионным, построенный на базе расширенных каузальных сверток, WaveNet превосходит все известные вокодеры. Модель прогнозирует распределение для каждой временной точки, получая на вход все предыдущие предсказания: т
p(x\h) = ^p(xt|x1;x2,...,xt_1,h) (1) t=i
где h - предсказанные кодировщиком акустические признаки, р(-) - композиция сверток.
Стоит взять во внимание, что классическая версия WaveNet обладает довольно долгим синтезом из-за авторегрессионной природы - к примеру, аудиосигнал длительностью 10 секунд наивная реализация генери-
рует 47 минут. Очевидно, необходима эффективная имплементация модели с применением динамического программирования, способная делать предсказания в режиме реального времени.
Для избавления от авторегрессионной природы WaveNet были также разработаны несколько его модификаций: Parallel WaveNet [10] на базе инвертируемых авторегрессионных потоков (Inverse Autoregressive Flows, IAF) [11] и WaveGlow [12], комбинирующий лучшие черты IAF и так называемых нормализующих потоков (normalizing flows, NF) [13]. Обе сети являются моделями с латентными переменными, позволяют проводить синтез за один проход, генерируя сигнал из гибкого семейства скрытых распределений, а также оптимизировать напрямую функцию правдоподобия, используя биективные инвертируемые преобразования fi, основанные на базе метода репараметри-зации [14]:
logp(x) = lognK(zK) = = log(n0(z0)\detj(f~1)\) =
dfi'1
к
= logn0(z0)
log
i=l
det-
dz;
(2)
где zK = fKo fK_t о ... о f1(z0). Оптимизировав такой функционал, можно применить к последовательности, сгенерированной из нормального распределения, композицию прямых функций fa:
Ж (¡л, I) (3 )
it = /К о/к_1 о .о f1(z) (4)
Различия Parallel WaveNet и WaveGlow содержатся в типе функции f.
Вокодер не сможет сгенерировать хорошую речь, если не получит на вход качественные акустические признаки. Поэтому очень важно иметь хороший кодировщик текста. Первые полностью нейронные TTS системы состояли из большого количества моделей, предсказывающих фундаментальную частоту, фонемы и так далее. Deep Voice 1 и 2 [15, 16] - типичные представители данного концепта. Реализовать такой синтез проблематично. Более того, ошибки от модели к модели аккумулируются, что может добавить различные дефекты и сильно повлиять на конечное качество речи.
Со временем, поскольку модели становились более гибкими, уменьшилось и количество параметров, передаваемых вокодеру. Последняя 3-я итерация DeepVoice [17] сразу предсказывает по тексту мел-спектрограмму фрейм за фреймом и поддерживает мульти-голосовой режим. Построенная на базе сверточных слоев с механизмом внимания, модель быстра в предсказаниях и легка в обучении, но, с другой стороны, нехватка временной информации ограничивает DeepVoice 3 совокупно с WaveNet в синтезе аудио максимального качества. Тем не менее, данная архитектура достигает по Mean Opinion Score (MOS) оценки в 3,78 для дата-сета, записанного с помощью профессионально диктора. Также авторы подчеркивают, что DeepVoice 3 может быть легко развернут и масштабирован до 116 запросов в секунду на единственном GPU сервере, что является однозначным прорывом в разработке высоконагруженных TTS систем.
Там, где не справляются сверточные слои, реализуют рекуррентные. На данный момент, серия Tacotron [18, 1] является лучшим решением в задаче предсказания мел-спектрограмм по тексту и имеет наибольшее влияние вместе с WaveNet на развитие области. Система, представляющая комбинацию вышеупомянутых моделей, генерирует практически неотличимую от человеческой речь и, согласно [1], достигает по MOS оценки в 4.53 (человеческая речь набрала 4.58). Tacotron 2 - это масштабная сеть, построенная на рекуррентных слоях со сверточными пре- и постпроцессорами, позволяющими генерировать мел-спектрограммы высокого качества. Стоит отметить, что модель использует чувствительный механизм внимания, который очень тяжело обучать, поэтому Tacotron 2 требует как можно больше тренировочных данных.
3 Акцентуация слов
Решая задачу расстановки ударений в словах, мы поставили перед собой задачу эффективно использовать максимум доступной информации о рассматриваемых токе-нах. Известно, что обученное векторное представление слова несет в себе много данных о его типичном контексте, части речи, форме и так далее. В этом разделе мы описываем собственно разработанные алгоритмы DeepStress, AtomNet, и ставим перед
собой цель разработать собственный алгоритм для расстановки ударений, который бы учитывал семантику, часть речи и форму слова, от чего довольно часто зависят ударения в русском языке и что не всегда хорошо запоминают рекуррентные слои.
3.1 AtomNet
На сегодняшний день проведено много работы в области предсказания эмбеддингов слов на символьном уровне [19, 20]. Обучая такие представления, определив в архитектуре нейронной сети входное слово как последовательность символов или их п-грамм, можно избавиться от проблемы отсутствия некоторых токенов в словаре.
Рис. 1. Архитектура модели AtomNet
В данном разделе мы представляем нейронную сеть для предсказания эмбеддинга слова по его буквенной последовательности (Рис. 1). Ее особенностью является то, что она не учит представления слов с нуля, а аппроксимируется на уже однажды хорошо обученные другой моделью, например, Word2Vec [21]. Т.е. если в памяти Word2Vec отсутствовало слово «высшая», но было слово «высший», AtomNet учтет это при обучении, и положит оба слова как похожие.
Выяснилось, что AtomNet имеет черты сходства с сетью Мтюк от авторов [22], но обладает более гибкой со стороны предсказаний архитектурой, поскольку имеет свер-точно-рекуррентный препроцессор, такой же, как и в модели Тасо^оп 2. Основой же для AtomNet служат двунаправленные LSTM слои с размером скрытого состояния, равным 128, и механизмом внимания.
Табл. 1. Предсказания АЮтЫй для тестовой
выборки
Токен Топ-4 ближайших слова
рождали рождались, сотворяли, губили, возрождались
волнующихся разливающихся, наплывавших, трепещущих, замирающих
расплющены раскрошены, вмяты, сплющены, вдавлены
придерживаете поправляете, поднимаете, удерживаете, делаете
Из Табл. 1 видно, что AtomNet выучивает не только похожие слова с точки зрения вероятного контекста, в котором они могут быть употреблены, но и даже часть речи, падеж, число и лицо, что может помочь в проставлении ударений в будущем.
3.2 DeepStress базовый
Основой DeepStress служит слой двунаправленный LSTM, на вход которому подаются векторные представления символов акцентируемого слова. Далее, полученные скрытые состояния конкатенируются и подаются на линейный слой с функцией активации softmax, которая генерирует вероятностное распределение для каждого символа - будет ли он ударным или нет. В качестве функции ошибок используется бинарная кросс-энтропия:
©Ып (у1у) = ^.[-У^У! +
+(1-й )^(1-у0]
(5)
где у - предсказанный вектор вероятностей ударения символов, у - целевые значения. Очевидно, что в русском языке все слова имеют лишь одно ударение, поэтому в качестве ударного символа выбирается единственный с наибольшей вероятностью.
Архитектуру базовой модели DeepStress можно детально рассмотреть на Рис. 2.
3.3 DeepStress с AtomNet
В итоговой версии архитектура системы расстановки ударений претерпевает следующие изменения: выход с AtomNet присоединяется к DeepStress после препроцессорного модуля, который обнаруживает первичные
зависимости в символьных последовательностях. Стоит заметить, что здесь возникает две проблемы:
1. В векторных представлениях AtomNet есть много ненужной и ошибочной информации;
2. Разные размерности тензоров.
Рис. 2. Базовая версия DeepStress
AtomNet неидеально аппроксимируется на слова, которые плохо выучил сам Word2Vec.
В таких эмбеддингах может быть заложена ложная информация о слове. Функцию ее фильтрации в полной версии DeepStress выполняет специальный highway-слой [23]. Вторая проблема решается с помощью upsampling-слоев. Полученный тензор конкатенируется с тензором из двунаправленной LSTM по одной из размерностей.
Итоговая архитектура DeepStress представлена на Рис. 3.
3.4 Монте-Карло dropout
Для предотвращения переобучения моделей была использована техника dropout. Это позволяет не только регуляризовать модель, но и использовать Монте-Карло приближения (MC-dropout) [24] для тестирования. Идея заключается в том, чтобы использовать заложенное dropout ансамблирование: стохастически с сделать несколько предсказаний для конкретного слова с различными наборами весов, а затем взять среднее по ответам:
р(У*1х*) = f p(y*,w|x*)dw =
= J р(у*|х*, w)p(w)dw (6)
т
.....(7)
Е
р(у*1х
t=1
Рис. 3. Полная версия DeepStress
Ансамбль сетей с разными W делает более точное предсказание, что дает значительный процентный прирост при тестировании.
4 Модификации в моделях
В данном разделе описываются изменения, внесенные в архитектуру моделей, используемых в нашей системе синтеза речи. В частности, речь пойдет о добавлении к оптимизационной задаче Tacotron 2 штрафов за разрывы в механизме внимания, а также о смене подхода к синтезу речи нейронного вокодера WaveNet.
4.1 Tacotron 2 с регуляризацией
Техника Guided Attention (GA) была использована в [25]. Ее суть заключается в том,
что она искусственно сжимает пространство, в котором находится матрица механизма внимания, как на Рис. 4. Данный подход применим по причине того, что если человек читает какое-либо предложение, то естественно предположить, что позиция в тексте п изменяется почти линейно со временем £. Другими словами, между номером символа £ и номером мел-фрейма п существует линейная зависимость. Это явное отличие систем синтеза речи от других методов обучения «последовательность в последовательность» (sequence-to-sequence), таких как машинный перевод, в которых модуль внимания должен выравнивать слова между двумя языками, которые имеют совершенно разный синтаксис, например, английский и японский. Формула регуляриза-тора:
¿са(А) = У (Ап1Шп1) (8)
£gaps(А) — Ent IAnt X ||An:Wj0:t|1] —
W^ —1-exp|-(£-£) /2д2
(9)
где А - матрица выравниваний, , N - количество символов в предложении, Т - количество фреймов в мел-спектрограмме. Данный метод помогает сходиться модели в начале обучения, когда матрица А заполнена еще случайными значениями.
Рис. 4. Guided Attention прижимает активации к диагонали с g = 0.2 (слева) и g = 0.5 (справа)
Чем больше гиперпараметр g, тем сильнее сжимает пространство данный регуляриза-тор. В работе мы использовали экспоненциальное затухание параметра g по мере продвижения обучения. Тем не менее, разрывы все еще могут появиться, поэтому мы добавили собственный регуляризатор, который может штрафовать модель за конкретный разрыв:
t N к=0р=п
(10)
где \\»\\г - Ы--норма матрицы.
Проще говоря, регуляризатор смотрит, как распределена плотность вероятностей по матрице выравниваний, и, если видит, что для активированного нейрона Аш в правой верхней или нижней левой подматрицах тоже находятся сильно активированные нейроны, то, агрегируя их значения, получает высокий вес для него (из соображений диагональности). Поэлементно умножив на саму матрицу А, получим штрафы в, как на Рис. 5 (справа). По ней будем минимизировать Ы--норму. Если разрывов нет, то будет нулевой, что значит отсутствие штрафа.
Рис. 5. Матрица штрафов за разрывы G (справа) для матрицы выравниваний (слева)
Таким образом, оптимизируемая целевая функция принимает следующий вид:
L(y\y,A) = ®Ып(у1у) + E/t[|y/t - y/t|] +
+LGA(A) + Lgaps(A) (11)
Vbm(y\y) = Vft[-yftlog(yft) + +(l-9ft)log(l-yft)] (12)
где y - предсказанная мел-спектрограмма, y - истинная мел-спектрограмма, A - матрица выравниваний.
В наших экспериментах обе рассмотренные модификации ускорили сходимость Tacotron 2 и минимизировали количество разрывов в выравниваниях.
4.2 WaveNetNS
Мы реализовали и обучили классический WaveNet на собранном наборе данных. Несмотря на то, что модель продемонстрировала довольно качественный синтез, мы обнаружили, что в аудио присутствует некоторый фоновый шум, мешающий восприятию речи. Проведя анализ сгенерированных сиг-
налов, мы установили, что этот шум распределен по всему спектру, поэтому от него невозможно избавиться вручную, не изменив частоты, которые содержат наибольшее количество информации о речи.
Таким образом, мы решили изменить сам подход к генерации WaveNet. Авторы [26] предложили использовать модель в качестве квантователя для дифференциальной им-пульсно-кодовой модуляции (differentiate pulse code modulation, DPCM). При помощи мел-обобщенного кепстрального анализа (mel-generalized cepstrum analysis) построим по всей выборке аудиоданных инвариантный по времени фильтр H(z). Теперь его можно применить к исходному сигналу st для «взвешивания» шума (noise weighting) и получить остаточный сигнал et — так называемый псевдошум, который WaveNet будет пытаться формировать. Для восстановления исходного сигнала применим обратный фильтр H_1(z) к предсказанному êt для восстановления сигнала (noise shaping):
мс
H(z) = s"1
су(0) + ^ £cy(m)z
т=1
s-i(^) = [(1+уш)У, I exp ш,
(13)
0 < |у| < 1 (14) 7 = 0
-1 _
а
1
аг'
(15)
где су(т),7,^,Мс
и а соответственно обозначают т-ый мел-обобщенный кеп-стральный коэффициент, параметр мощности мел-обобщенного кепстра, параметр контроля энергии шума в формантных регионах, степень разложения мел-обобщенного кепстра и параметр преобразования частоты.
5 Результаты
В данном разделе мы рассматриваем достигнутые результаты для обеих задач: акцентуации и синтеза речи.
5.1 Акцентуация
Нами была успешно реализована и протестирована модель DeepStress для детекции ударений в русском языке. Данный алгоритм предсказывает, какой символ в рассматриваемом слове должен быть ударным, ориентируясь при этом не только на само слово, но и
на его предобученное векторное представление, используя алгоритм AtomNet. Работа модели DeepStress проверялась на тестовой выборке из словаря Зализняка. Полная версия с AtomNet после 16 часов обучения остановилась на отметке в 95.7% по метрике accuracy. Однако техника MC-dropout позволила повысить результат до 96.7%. В Табл. 2 приведены результаты применения различных версий DeepStress к расстановке ударений.
Табл. 2. Предсказания DeepStress для тестовой
выборки
Модель Accuracy, %
DeepStress базовый (без MC-dropout) 94.6
DeepStress базовый (с MC-dropout) 95.9
DeepStress (без MC-dropout) 95.7
DeepStress (с MC-dropout) 96.7
Табл. 3. Сравнение качества синтеза
вокодеров
LSD (среднее fLSD) MOS
WaveNet 5.75 4,31±0,132
WaveGlow 2.99 3,97±0,154
WaveNetNS 2.23 4,51±0,189
Tacotron 2 + WaveNetNS 2.58 4,37±0,230
5.2 Вокодеры и финальный синтез
Авторы [12] утверждают, что качество синтеза WaveGlow сравнимо с качеством WaveNet. В данном подразделе мы проводим анализ генерации обеих моделей, а также модификации WaveNetNS.
Для того, чтобы дать оценку генеративным способностям моделей, мы посчитали метрики frequency-dependent log spectral distortion (fLSD) и log spectral distortion (LSD) для каждой имплементации, а также проверили результаты по MOS. На Рис. 6 и по Табл. 3 можно увидеть, что WaveGlow сильно опережает классический WaveNet по fLSD, но имеет гораздо ниже оценку MOS, которая, очевидно, является более объективной с точки зрения восприятия речи. Произошло это потому, что в отличие от
WaveNet модель WaveGlow генерирует чистое, без шумовых эффектов, аудио, но сама речь кажется «синтетической» из-за частого отсутствия формантных треков.
Помимо вышеперечисленного, представленные результаты отражают тот факт, что WaveNetNS имеет лучшее среди рассмотренных вокодеров качество генерации и набирает 4,51 ±0,189.
В итоге, финальный синтез набрал по метрике MOS 4,37±0,230.
fLSD
30 - Vanilla WaveNet I
— Vanilla WaveGlow 25 - WaveNetNS
20 /
ТЭ
| 15 I
a
0
0 2000 4000 6000 8000 10000
frequencies w
Рис. 6. Сравнение графиков fLSD для рассматриваемых вокодеров
6 Выводы
Несмотря на достижение поставленных целей, нужно задать вектор для развития имеющихся наработок.
Сперва вернемся к работе DeepStress. По нашим данным, на сегодняшний день модель, учитывающая контекстную информацию, из [4] является лучшим решением в области расстановки ударений для русского языка. Тем не менее, мы считаем, что подход, описанный в вышеупомянутой работе, не является оптимальным. Необходимая контекстная информация, которая должна учитываться для того, чтобы корректно поставить ударение, не будет обязательно находиться на расстоянии в несколько символов от интересующего нас слова. К примеру, рассмотрим предложения: «тем не менее, гОлоса больше не слышно» и «тем не менее, голосА больше не отзывались». Если учитывать контекст в несколько символов слова «голоса» в обоих предложениях, то он будет одинаковым, однако ударения для каждого из случаев различаются. Для решения аналогичных проблем нужно научиться грамотно использовать контекстную информацию, поэтому учитывание окружения
слов мы рассматриваем в качестве направления для развития системы расстановки ударений.
На данный момент, разработанная система синтеза показывает отличные результаты по генерации естественной речи, однако она все еще может быть улучшена. Например, можно использовать более «умные» акустические признаки, но большинство улучшений можно достичь при помощи грамотной разметки текстовых данных.
Список литературы
Jonathan Shen et al. Feb 2019. Natural TTS Synthesis by Conditioning Wavenet on Mel Spectrogram Predictions. arXiv:1712.05884.
Aaron van den Oord et al. Sep 2016. WaveNet: A Generative Model for Raw Audio. arXiv:1609.03499.
Daan van Esch et al. Sep 2016. Predicting Pronunciations with Syllabification and Stress with Recurrent Neural Networks. In Proc. of Interspeech.
Maria Ponamareva et al. Sep 2017. Automated Word Stress Detection in Russian. In Proc. of the First Workshop on Subword and Characted Level Models in NLP.
Jürgen Schmidhuber et al. 1997. Long Short-Term Memory. In Proc. of Neural Computation.
Андрей Зализняк. 1985. От праславянской акцентуации к русской.
Elena Grishina. 2005. Spoken Russian in Russian National Corpus, Russian National Corpus.
Dzmitry Bahdanau et al. May 2016. Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473.
D. Griffin and J. Lim. 1984. Signal Estimation from modified short-time Fourier transform, IEEE Trans. ASSP.
Aaron van den Oord et al. Nov 2017. Parallel Wave-Net: Fast High-Fidelity Speech Synthesis. arXiv:1711.10433.
Diederik P. Kingma et al. Jun 2016. Improving Variational Inference with Inverse Autoregressive Flow. arXiv:1606.04934.
Ryan Prenger et al. Oct 2018. Waveglow: a Flow-Based Generative Network for Speech Synthesis. arXiv:1811.00002.
Danilo Jim. Rezende et al. Jun 2016. Variational Inference with Normalizing Flows. arXiv: 1505.05770.
Diederik P. Kingma et al. May 2014. Auto-Encoding Variational Bayes. arXiv: 1312.6114.
Sercan O. Arik et al. Mar 2017. Deep Voice: Realtime Neural Text-to-Speech. arXiv:1702.07825.
Sercan O. Arik et al. Sep 2017. Deep Voice 2: MultiSpeaker Neural Text-to-Speech, arXiv:1705.08947.
Wei Ping et al. Feb 2018. Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning. arXiv:1710.07654.
Yuxuan Wang et al. Apr 2017. Tacotron: Towards End-to-EndSpeech Synthesis. arXiv:1703.10135.
John Weiting et al. Jul 2016. CHARAGRAM: Embedding Words and Sentences via Character n-grams. arXiv:1607.02789.
Armand Joulin et al. Aug 2016. Bag of Tricks for Efficient Text Classification. arXiv:1607.01759.
Thomas Mikolov et al. Sep 2013. Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781.
Yuval Pinter et al. Jul 2017. Mimicking Word Em-beddings using Subword RNNs. arXiv:1707.06961.
Rupesh Kumar Srivastava et al. Nov 2015. Highway Networks. arXiv:1505.00387.
Yarin Gal et al. Oct 2016. Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning. arXiv:1506.02142.
Hideyuki Tachibana et al. Oct 2017. Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guided Attention. arXiv:1710.08969.
Kentaro Tachibana et al. 2018. An Investigation of Noise Shaping with Perceptual Weighting for WaveNet-based Speech Generation. IEEE Trans. ICASSP 2018.