18. Svidetel'stvo o gosudarstvennoy registratsii programmy dlya EVM № 2018664980. Raschet veroyatnostey znacheniy statistiki maksimal'noy chastoty. Pravoobladatel' Mel'nikov A.K. Avtor: Mel'nikov A.K. i Zelyukin N.B. Zayavka № 2018662123. Data postupleniya 01 noyabrya 2018 g. Data gosudarstvennoy registratsii v Reestre programm dlya EVM 27 noyabrya 2018 g. [Certificate of state registration of computer software № 2018664980. Calculation of probabilities of maximum frequency statistics. Proprietor - A.K. Melnikov. Authors: A.K. Melnikov and N.B. Zeliukin. Application № 2018662123. Date of filing - November 01, 2018. Date of state registration in the Register of computer software - November 27, 2018].
19. Zelyukin N.B., Mel'nikov A.K. Slozhnost' rascheta tochnykh raspredeleniy veroyatnosti znacheniy statistik i oblast' primeneniya predel'nykh raspredeleniy [The complexity of calculating accurate probability distributions of statistical values and the scope of application of limit distributions], Elektronnye sredstva i sistemy upravleniya: Mater. dokladov XIII Mezhdunar. nauch.-prakt. konf. (29 noyabrya - 1 dekabrya 2017 g.) [Electronic facilities and control systems: reports of the XIIIth International scientific and practical], 29th November -1st December, 2017]: In 2 part. Part 2. Tomsk: V-Spektr, 2017, S. 84-90. Available at: https://storage.tusur.ru/files/115115/2017-2.pdf (accessed 13 July 2018).
20. Mel'nikov A.K. Avtomatizatsiya protsedury analiza soobshcheniy na gibridnykh vysokoproizvoditel'nykh vychislitel'nykh kompleksakh [Automation of the message analysis procedure on hybrid high-performance computing systems], Superkomp'yuternye tekhnologii (SKT-2016): Mater. 4-y Vserossiyskoy nauchno-tekhnicheskoy konferentsii [Supercomputing technologies (SKT-2016): Proceedings of the 4th all-Russian scientific and technical conference]: In 2 vol. Vol. 1. Rostov-on-Don: Izd-vo YuFU, 2016, pp. 69-73. ISBN 978-5-9275-2039-8.
Статью рекомендовал к опубликованию д.т.н., профессор И.И. Левин.
Мельников Андрей Кимович - НТЦ ЗАО «ИнформИнвестГрупп»; e-mail: [email protected];
117587, г. Москва, Варшавское шоссе, 125, стр. 17; тел.: 84952870035; к.т.н.; доцент ВАК; г.н.с.
Melnikov Andrey Kimovitch - STC CLSC «InformlnvestGroup»; e-mail: [email protected]; 125,
Varshavskoye roag, build. 17, Moscow, 117587, Russia; phone: 84952870035; cand. of eng. sc.;
associate professor of SAC; chief research officer.
УДК 004.934 DOI 10.23683/2311-3103-2019-7-45-56
Я.С. Пикалёв, Т.В. Ермоленко
ТЕХНОЛОГИЯ ПОВЫШЕНИЯ РОБАСТНОСТИ АКУСТИЧЕСКОЙ МОДЕЛИ В ЗАДАЧЕ РАСПОЗНАВАНИЯ РЕЧИ
Предлагается технология повышения робастности акустической модели в задаче распознавания речи с применением глубокого машинного обучения. Данная технология основана на использовании информативных акустических признаков, извлечённых из иерархических нейросетевых моделей, а также на гибридных акустических моделях, обученных на основе машинного глубокого обучения с применением дискриминативного подхода. Условия, в которых проходит эксплуатация систем автоматического распознавания речи, практически никогда не совпадают с условиями, в которых проходило обучение акустических моделей. Следствием этого является то, что построенные модели не являются оптимальными для данных условий. На речевой сигнал влияние оказывают следующие факторы: аддитивный шум; голосовой тракт и манера произнесения диктора; реверберация; амплитудно-частотная характеристика микрофона и канала передачи; преобразование сигнала фильтром Найквиста и шум квантования. Предложенная технология направлена на повышение устойчивости модели к вышеуказанным факторам. Одним из способов повышения робастности модели является извлечение информативных акустических признаков из фонограммы, полученных с применением нейронных сетей. В качестве акустических признаков используются мел-кепстральные коэффициенты, их первые и вторые производные, а также коэффициенты перцептивного линейного предсказания. Предлагается схема извлечения информативных признаков, состоящая из трёх связанных блоков нейронных сетей с
узким горлом (с контекстами в 2, 5 и 10 кадров), а также из блока ResBlock, основанного на архитектуре ResNet-50. Дополнительная трансформация при помощи ResBlock позволяет определять шаблоны, оказывающие большое влияние на модель, т. е. являющиеся ключевыми признаками. Представленная нейросетевая архитектура для классификации фонем состоит из слоёв нейронной сети с временными задержками, двухнаправленной нейросети с долгой кратковременной памятью, использующей механизм внимания. Входными признаками для данной нейронной сети являются преобразованные при помощи линейного дискриминативного анализа фильтры банков и признаки, извлечённые из нейросети. Особенность данного подхода состоит в том, что высокая точность модели (обеспечение хорошей разделимости классов) достигается, в отличии от end-to-end систем, без использования объёмного обучающего набора аудиоданных Помимо этого данная модель инвариантна к изменениям входных признаков. Быта проведена серия численных экспериментов для задачи распознавания русской речи, используя речевые корпусы VoxForge и SpokenCorpora. Результаты экспериментов демонстрируют высокую точность распознавания русской речи.
Автоматическое распознавание речи; скрытые Марковские модели; модели гауссовых смесей; дискриминативное обучение; информативные акустические признаки; глубокие нейронные сети.
Ya.S. Pikaliov, T.V. Yermolenko
TECHNOLOGY FOR INCREASING THE ROBUSTNESS OF THE ACOUSTIC MODEL IN THE PROBLEM OF SPEECH RECOGNITION
In this paper proposed is a technology of increasing the robustness of an acoustic model in the problem of speech recognition using deep machine learning. This technology is based on the use of informative acoustic features extractedfrom hierarchical neural network models, as well as on hybrid acoustic models trained on the basis of machine deep learning using a discriminative approach. The conditions in which automatic speech recognition systems operate almost never coincide with the conditions in which acoustic models were trained. The consequence is that the constructed models are not optimal for these conditions. The following factors influence the speech signal: additive noise; voice path and manner of speaking the speaker; reverberation; amplitude-frequency characteristic of the microphone and transmission channel; Nyquistfilter signal conversion and quantization noise. The proposed technology is aimed at increasing the stability of the model to the above factors. One way to increase the robustness of a model is to extract informative acoustic features from phonograms obtained using neural networks. As acoustic features, chalk-skeptal coefficients, their first and second derivatives, as well as perceptual linear prediction coefficients are used. An informative feature extraction scheme is proposed, consisting of three connected neural network blocks with a narrow neck (with contexts of 2, 5, and 10 frames), as well as a ResBlock block, which is based on the ResNet-50 architecture. An additional transformation using ResBlock allows you to define patterns that have a big impact on the model, i.e., are key features. The presented neural network architecture for classifying phonemes consists of layers of a neural network with time delays, a bi-directional neural network with long short-term memory, using the attention mechanism. The input features for this neural network are bank filters transformed using linear discriminative analysis and features extracted from the neural network. A feature of this approach is that high model accuracy (ensuring good class separability) is achieved, unlike end-to-end systems, without the use of a voluminous training set of audio data. In addition, this model is invariant to changes in input features. A series of numerical experiments were conducted for the task of recognizing Russian speech using the VoxForge and SpokenCorpora speech bodies. The experimental results demonstrate a high accuracy of recognition of Russian speech.
Automatic speech recognition; hidden markov models; gaussian mixture models; discriminative learning; informative acoustic features; deep neural networks.
Введение. Автоматическое распознавание речи, несмотря на наличие готовых продуктов, до сих пор является нерешённой задачей, особенно для русского языка. Процент ошибок для распознавания английской и китайской речи составляет порядка 6 % (на корпусе WSJ, Fisher) [1], без использования языковых моделей он возрастает до 10 %, в то же время процент ошибок современных систем распо-
знавания русской речи превышает 20 % (при тестировании на объёмных данных, записанных в обычных условиях) [2], а без применения языковой модели применение такой системы может быть похоже на coin-flip.
Создание робастных систем распознавания речи - одна из актуальных задач, решение которой позволит обеспечить инвариантность к голосам дикторов и различным акустическим обстановкам. В данной работе предлагается технология повышения робастности для задачи распознавания слитной речи, основанная на использовании: 1) информативных акустических признаков, извлечённых из иерархических нейросетевых моделей; 2) гибридных акустических моделей, обученных на основе машинного и глубокого обучения с применением дискрими-нативного подхода.
Условия, в которых проходит эксплуатация систем автоматического распознавания речи, практически никогда не совпадают с условиями, в которых проходило обучение акустических моделей (АМ). Следствием этого является то, что построенные модели не являются оптимальными для данных условий. Выделяют следующие факторы, искажающие речевой сигнал или обусловливающие его вариативность [3].
1. Голосовой тракт и манера произнесения. Этот фактор определяет вариативность сигнала. Как бы ни была велика обучающая выборка, всегда найдутся дикторы, отличающиеся по своим характеристикам от представленных в базе.
2. Аддитивный шум, всегда присутствующий в помещениях.
3. Реверберация (мультипликативный шум) - отражённый от стен основной сигнал.
4. Амплитудно-частотная характеристика микрофона и канала передачи.
5. Аддитивный шум канала передачи.
6. Преобразование сигнала фильтром Найквиста и шум квантования.
Для снижения влияния вышеуказанных факторов на качество АМ используют следующие подходы:
1) обучение акустических моделей при помощи зашумления обучающей выборки или аугментации (метод, использующийся для увеличения количества обучающих данных, что позволяет сделать модель более устойчивой);
2) извлечение информативных акустических признаков, полученных с применением нейронных сетей (НС).
В данной работе применяется второй подход, использующий НС для выделения информативных признаков из аудиосигнала.
Практика использования нейронных сетей для извлечения информативных признаков из аудиосигнала. В настоящее время в задаче распознавания речи нейронные сети показывают результаты лучше, чем модели, основанные на скрытых марковских моделях (Hidden Markov Models, HMM) и гауссовых смесях (Gaussian Mixture Models, GMM). Учёные считают, что это следствие того, что НС могут извлекать из признаков входных данных их внутреннюю структуру (представление). Причём эти представления робастны, т.е. устойчивы к различным источникам вариативности речевого сигнала.
В работе [4] отмечено, что незначительный шум, имеющийся во входном наборе данных, при обучении НС будет уменьшаться с каждым скрытым слоем:
¡SN\\ - \\diag(a(wNvN-1 + bN ))(WN )T SN-1)|| = |\diag(vN о (1 - vN ))(WN )T|||-1||, (1)
где v - набор данных в виде векторов; а - функция активации; N - число скрытых слоёв; 8 - шум в данных; diag(x) - диагональная матрица, у которой на диагонали стоят компоненты вектора x; b - сдвиг для смещения порога активации (bias); W - веса НС; «◦» - скалярное произведение двух векторов.
Как видно из (1), с ростом количества слоёв снижается степень влияния шумов. После ряда нелинейных преобразований в N-1 скрытых слоях НС признаки становятся более устойчивыми по отношению к темпу речи, акустической среде, междикторской вариативности и т.п. Т.е. наличие шумов во входных данных будет уменьшаться с каждым скрытым слоем. За счет этого внутренние представления, извлекаемые скрытыми слоями глубокой нейронной сети из входных признаков, становятся менее чувствительными к малым возмущениям входного сигнала с ростом числа скрытых слоев. Однако это работает только для малых возмущений, поэтому для эффективного обучения НС необходимо, чтобы обучающие данные были в достаточной степени близки к реальным данным, на которых эта НС будет эксплуатироваться.
Учитывая вышесказанное, наиболее перспективным способом обеспечения робастности акустической модели является применение информативных признаков, извлечённых из скрытых слоёв.
Первые упоминания использования высокоуровневых признаков изложены в работе [5]. В данной работе был предложен подход, именуемый тандемным, суть которого состоит в том, что высокоуровневые признаки, полученные после обучения НС и описывающие вероятности фонем, подаются как входной вектор для обучения GMM-HMM АМ. В данной работе отмечается, что модели, построенные на нейронной сети с акустическими характеристиками, обеспечивают увеличение производительности благодаря комбинации систем. Вектора акустических признаков подаются вход нейросети, благодаря которой вычисляется распределение вероятностей целевых классов. Это распределение вероятности дополняет вектор акустических признаков, а при помощи метода линейного дискриминативного анализа уменьшается размерность расширенного вектора акустических признаков. Вышеописанная методика трансформирует отдельные акустические признаков в один расширенный вектор признаков. Недостатком данного подхода является тот факт, что получаемые вектора обладают слишком большой размерностью.
В качестве альтернативы тандемному походу в работе [6] был предложен метод извлечения bottleneck-признаков, полученных из «узкого горла» (скрытого слоя небольшой размерности с линейной функцией активации, расположенной в середине или возле последних скрытых слоёв). В данной методике скрытый слой в НС заменяется слоем, число нейронов которого соответствует целевой размерности.
В настоящее время ряд авторов [7-8] исследовали влияние совместного применения обычных акустических признаков, таких как мел-кепстральные коэффициенты (Mel-Frequency Cepstral Coefficient, MFCC) и i-вектора [9]. В этих работах для совмещённых признаков используется понижение размерности и декорреля-ция, после чего полученные признаки вновь используются в процессе обучения GMM-HMM АМ. Помимо этого, существует подход использования bottleneck-признаков второго уровня [10]. При этом подходе используются bottleneck-признаки, извлечённые с некоторым контекстом (шагом) для обучения bottleneck-НС второго уровня.
Для повышения робастности АМ предлагается технология обучения, состоящая из таких основных стадий как:
1) извлечение акустических признаков;
2) обучение акустической модели с использованием машинного обучения;
3) обучение НС-модели для извлечения информативных акустических признаков;
4) обучение НС-модели для классификации фонем, на основе результатов, полученных из предыдущих стадий (nn_fbank_sgmm).
В качестве акустических признаков используются MFCC, их первые и вторые производные, а также коэффициенты перцептивного линейного предсказания (Perceptual Linear Prediction, PLP). Размерность вектора признаков составляет 43 (40 MFCC, 3 PLP). При обучении НС-моделей MFCC заменялись банками фильтров (filter bank, FBANK).
Алгоритм обучения акустической модели с использованием машинного обучения. Поскольку, как правило, в банке речевых данных нет информации о временном нахождении каждой фонемы в речевой дорожке, то перед использованием НС необходимо иметь информацию о том, какая часть вектора соответствует определённой фонеме, и эта процедура совершается при помощи GMM-HMM АМ в несколько этапов.
1) Обучение монофонной модели (mono) на основе MFCC и PLP. Это АМ, которая не содержит никакой контекстной информации о предыдущей или последующей фонеме.
2) Обучение АМ для квифонов (quil), представляющих вариант фонем в контексте четырёх других (двух слева и двух справа). Для этого обучается модель с использованием первых и вторых производных MFCC характеристик. Таким образом, вычисление производится для большего окна векторов признаков.
3) Уменьшение признакового пространства (qui2) с помощью линейного дис-криминативного анализа (LDA) с применением максимального правдоподобия (MLLT). LDA берет векторы признаков и строит состояния HMM, но с уменьшенным пространством признаков для всех данных и выводит уникальное преобразование для каждого диктора. MLLT же обеспечивает дикторонезависимость и роба-стность, минимизируя различия между дикторами.
4) Зачастую при оценке точности распознавания тишина (пауза) оценивается как фонема, что «ухудшает» модель. Фиксация произношения позволяет больше учитывать фонемы с произношением, переопределяя вероятности произношения. Поэтому четвёртым этапом (qui2_sp) является техника для определения вероятности тишины между словами (с применением обученной АМ) без учета просодической структуры, обуславливая вероятность тишины между словами для идентичности окружающих слов.
5) Применение адаптивного обучения диктора (Speaker Adaptive Training, SAT) совместно с применением линейной регрессии максимального правдоподобия пространства признаков (Feature space Maximum Likelihood Linear Regression, fMLLR, qui3_sp). SAT выполняет нормализацию дикторов и шумов путем адаптации к каждому конкретному диктору с определенным преобразованием данных. fMLLR применяется для удаления идентичности дикторов из элементов матрицы путем оценки идентификатора диктора.
6) Обучение модели (qui4_sp_sgmm) подпространства гауссовых смесей (Subspace Gaussian Mixture Models, SGMM) [11]. В SGMM параметры гауссовых смесей выводятся через подпространство низкоразмерной модели, которое фиксирует корреляции между состояниями квифонов и вариабельностью диктора, тем самым обеспечивая робастность.
7) Получение модели i-векторов. Этот подход заключается в извлечении дис-криминативной характеристики с использованием нейросетевой параметризации речевого сигнала. Идея данного подхода заключается в предположении, что существует линейная зависимость между дикторозависимыми математическими ожиданиями и дикторонезависимыми математическими ожиданиями. Таким образом, i-вектор представляет собой малоразмерный вектор, кодирующий отличие плотности распределения вероятностей акустических признаков, оцененной по фонограмме, от эталонной. В данной работе размерность признаков i-vector составляет 100.
Техника извлечения информативных акустических признаков. Извлечение информативных акустических признаков - это извлечение дискриминативной характеристики аудио с использованием нейросетевой параметризации. Для чего была создана некая иерархическая мультимодальная НС (рис. 1) на вход которой подаются 100-мерные вектора, данные вектора получаются путём объединения MFCC-признаков и ьвекторов при помощи линейного дискриминативного преобразования.
Рис. 1. Общая схема извлечения информативных признаков
Каждая из bottleneck-НС (BN) состоит из 3х скрытых слоёв, по 2048 нейронов в каждом слое. На каждом уровне bottleneck-НС производится процедура получения трансформированных весовых коэффициентов (fine-tune), которые и являются нашими информативными признаками, состоящая в следующем:
1. Извлечение FBANK и PLP-признаков, а также MFCC для извлечения i-векторов, относящихся к данным кадрам акустического сигнала.
2. Объединение извлечённых акустических признаков при помощи метода LDA для уменьшения размерности расширенного вектора акустических признаков до размерности 100.
3. Обучение происходит в 2 этапа [12]:
♦ обучается НС с матрицами весов WN , используя в качестве входных признаков FBANK и PLP-признаки, с добавлением линейного слоя НС (инициализируя нулями соответствующие весовые коэффициенты).
♦ НС с матрицами весов WN дополнительно обучается на расширенном векторе акустических признаков, уменьшая скорость обучения, а к целевой функции
добавляется значение R(W) - штраф отклонения WN от WN с величиной штрафа
Л, определяемое следующим образом:
K+1 MN MN-l{ _ „V
R(W) = Л£ £ £ W - Wij- (2)
N =1 i=1 j=1
4. Обучение НС с использованием в качестве рецепторного слоя расширенного вектора акустических признаков, с добавлением линейного слоя НС (инициализируя нулями соответствующие весовые коэффициенты).
5. Инициализация ЪоШепеск-слоя при помощи разбиения последнего скрытого слоя НС на два слоя (первый слой - ЪоШепеск-слой с матрицей весов ; вто-
рой слой - нелинейный с матрицей весов ), используя сингулярное разложение матрицы весов [13]:
v- = f(WNvN-1 + bN) « f(W?ut WNvN-1) + bN),
где
WN
WNWN
out bn '
(3)
(4)
6. Дополнительно обучение полученной bottleneck-НС с меньшей скоростью обучения и R(W), а также отбрасывание слоев данной НС (fine-tune), следующих за bottleneck-слоем.
Стоит отметить, что для first_step bottleneck-features (формирование информативных акустических признаков первого уровня) используется контекст в 2 кадра; для second_step bottleneck-features (формирование информативных акустических признаков второго уровня) используется контекст векторов в 5 кадров, а для third_step bottleneck-features (формирование акустических признаков третьего уровня) используется контекст в 10 кадров. После получения признаков из third_step bottleneck-features используется ResBlock.
Общая схема архитектуры ResBlock представлена на рис. 2, где F - размер входных признаков; D - количество фреймов, N - размер новых признаков; input_features - входные признаки; LinearLayer - линейные нейронные слои; AveragePoolingLayer - слой, трансформирующий данные при помощи свёртки 1x1; FalttenOp - операция трансформации в одномерное пространство; out_emb - выходные информативные признаки. Она представляет собой НС, основанную на архитектуре ResNet-50 [14-15] (рис. 4), с двумя дополнительными линейными слоями. В данной работе как для bottleneck-сетей, так и для ResNet-50, не используется блок, предназначенный для идентификации диктора, поэтому функция потерь не используется.
Рис. 2. Общая схема архитектуры ResBlock
Архитектура ResNet-50 состоит из 5 блоков (stage, рис. 4). На вход НС поступает вектор с входным размером 1*F*D (количество каналов равно 1). На этапе 1 после входного слоя используется двухмерный свёрточный слой (CONV) с преобразованием матрицы пространства признаков из размера 1Х1 в 3x3 (с применением техники padding), использующий фильтры размером 7x7, и полносвязный слой (MAX POOL), использующий фильтры размером 3x3, величина шага свертки (stride) равна 2.
Рис. 3. Архитектура ResNet-50
После стадии 1 используется похожая топология стадий: на каждой стадии используются ID-блоки (или Residual-блоки, рис. 4), состоящие из 3-х свёрточных слоёв (CONV BLOCK, первый свёрточный слой использует фильтры размером 1x1, второй - размером 3*3, а последний - 1*1) между собой при помощи skip-связи. Размер ядер каждой из трёх свёрточных сетей на первой стадии составляет 64, 64 и 128, на каждой стадии размер ядер удваивается относительно предыдущей стадии. Количество ID-блоков на второй стадии - 3, на третьей - 4, на четвёртой - 6, на пятой - 3.
Рис. 4. Архитектура ID-block
Как видно из рис. 4, выходной вектор ID-block описывается следующим образом:
у = F(x,{Wi}) + Wsx, (5)
где х - входные признаки; Ws - набор весов относительно х; y - целевая функция ID-блока относительно х; F(x, { Wi}) - ID-блок.
F(x, {Wi}) = W2a(W1x), (6)
где Wi - набор весов ID-блока для 1 < i < n, n - количество слоёв в ID-блоке; Wj и W2 - набор весов между соединёнными слоями; а - функция активации слоя.
Таким образом, skip-связь позволяет модели изучать функцию идентичности, которая гарантирует, что верхний уровень слоя будет функционировать так же хорошо, как и нижний. При этом skip-связь не вводит дополнительных параметров, т. е. не усложняет вычислительный процесс, и используется до применения функции активации. Данная архитектура позволяет частично решить проблему исчезающих градиентов, быстрее сходится, обладает большей точностью.
Для обучения нейросетевой модели извлечения информативных признаков были использованы следующие параметры:
♦ размер входных признаков: 100;
♦ размер получаемых информативных признаков: 100;
♦ метод оптимизации градиентного спуска: Adam;
♦ функция активации: ReLU.
Описание архитектуры нейронной сети для классификации фонем. Применение глубокого обучения для распознавания речи способствует оптимальной адаптации акустических признаков как под дикторов, так и под окружение. Модель, применяющаяся в данной работе, использует две архитектуры - нейронную сеть с временной задержкой (Time Delay Neural Network, TDNN) [16] и двунаправленную долгую кратковременную нейронную сеть (Bidirectional Long Short Memory, BLSTM) [17] со слоем внимания (attention), каждая из них имеет 5 слоёв с 2048 нейронами. Данное количество нейронов было выявлено экспериментально в работе [18].
TDNN представляет собой многоуровневую архитектуру искусственной нейронной сети, целью которой является классификация шаблонов с неизменностью сдвига и получение контекста на каждом уровне сети. На вход сети подается последовательность векторов признаков, полученный на фреймах речевого сигнала длительностью не более 20 секунд. В качестве входных признаков используются объединённые признаки, полученные на основе FBANK-признаков и высокоуровневых признаков, а также их временные границы. TDNN не требует явной сегментации перед классификацией. Таким образом, для классификации временного шаблона (такого как речь) данная архитектура имеет незначительную зависимость от границ фонем перед их классификацией.
LSTM - рекуррентная сеть, хранящая информацию о своих предыдущих состояниях и учитывающая ее при прогнозировании. В этой архитектуре частично решена проблема затухания градиента, возникающая вследствие использования алгоритма обратного распространения ошибки, когда величина градиента постепенно уменьшается в рекуррентных слоях. Данная архитектура сети позволяет определить гибкие долгосрочные зависимости от данных, что особенно важно в контексте человеческой речи. Однако однонаправленные LSTM имеют ограничения: слои этих сетей имеют доступ к прошедшему контексту, и не имеют доступа к следующему контексту. Для этого и используется BLSTM. В подобной архитектуре два разных внутренних слоя оперируют с данными в двух направлениях (вперёд и назад). Оба этих слоя соединены с одним выходным слоем, что позволяет использовать контекст из двух направлений. Недостатком подобной архитектуры по сравнению с однонаправленной является большее время обучения.
Механизм внимания в рекуррентной нейронной сети - это способ увеличить важность одних данных по сравнению с другими. Существует две модели внимания: «мягкая» (soft) и «жесткая» (hard). В первом случае сеть все равно обратится ко всем данным, к которым имеет доступ, но вес этих данных будет разным. Во втором случае из всех существующих данных сеть обратится лишь к некоторым, а у остальных будут нулевые веса. В данной работе использовалась «мягкая» модель внимания.
Обучение вышеописанной модели было проведено с использованием критерия минимизации взаимной энтропии; в качестве метода оптимизации процедуры градиентного спуска был использован Adam; в качестве функции активации слоёв - ReLU.
Описание численных исследований. В качестве обучающего материала для формирования АМ был использованы два речевых корпуса Voxforge [19] и SpokenCorpora [20] общей продолжительностью около 20 часов, из которых предварительно были удалены неконтекстные речевые данные. Общее количество дикторов - 873. Языковая модель была обучена на основе триграмм, на текстовых данных, извлечённых из новостных лент и субтитров. Словарь транскрипций был сформирован из 500 тыс. наиболее встречаемых слов, извлечённых из языковой модели. Обучающая и тестовая выборки c аудиоданными были разделены в отношении 95/5.
Результаты распознавания с использованием различных АМ приведены в табл. 1, где НММ - количество состояний для скрытой марковской модели, GMM - количество гауссиан.
Таблица 1
Результаты распознавания с использованием различных АМ
Модель WER, % GMM HMM
Mono 64.01 4000 1500
qui1 35.76 20000 2500
qui2 21.55 50000 4000
qui2 sp 19.98 50000 4000
qui3 sp 14.07 100000 5000
qui4 sp 13.99 120000 8500
sgmm qui4 sp 10.81 120000 8500
nn_fbank_sgmm 5.2 - -
Для измерения качества распознавания была использована метрика WER (Word Error Rate), отображающая процент неправильно распознанных слов как цепочки фонем длиной T, которая вычисляется следующим образом:
WER = S + D + I, (7)
T
где S - кол-во замен в слове; D - кол-во удалений в слове; I - количество вставок в слове, T - длина слова.
Следует отметить, что на тех же тестовых данных ошибка распознавания Google Cloud Speech API составляет 9.33 %.
Заключение. В данной работе предложен подход к созданию робастной АМ на основе информативных акустических признаков, извлекаемых из нейронной сети, а также приводится описание нейронной сети для классификации фонем. Для апробации представленной технологии использовались речевые корпусы VoxForge и SpokenCorpora. Применяемая процедура обучения АМ позволяет добиться высокой робастности и дикторонезависимости, что видно из табл. 1. Также стоит отметить, что для обучения АМ на относительно небольших речевых данных применение комбинации акустических признаков FBANK и PLP показывает результат лучше, чем MFCC. Использование комбинации признаков FBANK и PLP, подаваемых на вход нейронной сети, в ряде случаев уменьшает WER, т.к. MFCC и PLP направлены на применение для алгоритмов машинного обучения, в то время как FBANK и PLP отображают более естественные признаки речи.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Amodei D., Ananthanarayanan S., Anubhai R. Deep speech 2: End-to-end speech recognition in english and mandarin // International conference on machine learning. - 2016. - P. 173-182.
2. Марковников Н.М., Кипяткова И.С. Исследование методов построения моделей кодер-декодер для распознавания русской речи // Информационно-управляющие системы. - 2019. - №. 4. - С. 45-53.
3. Тампель И.Б., Карпов А.А. Автоматическое распознавание речи: учеб. пособие. - СПб.: Университет ИТМО, 2016.
4. Yu D., Seltzer M., Li J. et al. Feature Learning in Deep Neural Networks - studies on Speech Recognition Tasks // Proc. ICLR-2013. - URL: https://arxiv.org/abs/1301.3605 (дата обращения: 15.01.2020).
5. Hermansky H., Ellis D.P. W., Sharma S. Tandem connectionist feature extraction for conventional HMM systems // 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 00CH37100). - IEEE, 2000. - Vol. 3. - P. 1635-1638.
6. Grezl F. et al. Probabilistic and bottle-neck features for LVCSR of meetings // 2007 IEEE International Conference on Acoustics, Speech and Signal Processing-ICASSP'07. - IEEE, 2007. - Т. 4. - С. 757-760.
7. Sainath T., Kingsbury B., Ramabhadran B. Auto-encoder bottleneck features using deep belief networks // 2012 IEEE international conference on acoustics, speech and signal processing (ICASSP). - IEEE, 2012. - P. 4153-4156.
8. Gehring J. et al. Extracting deep bottleneck features using stacked auto-encoders // 2013 IEEE international conference on acoustics, speech and signal processing. - IEEE, 2013. - P. 3377-3381.
9. Saon G. et al. Speaker adaptation of neural network acoustic models using i-vectors // 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. - IEEE, 2013. - P. 55-59.
10. Zhang Y., Chuangsuwanich E., Glass J. Extracting deep neural network bottleneck features using low-rank matrix factorization // 2014 IEEE international conference on acoustics, speech and signal processing (ICASSP). - IEEE, 2014. - P. 185-189.
11. Povey D. et al. Subspace Gaussian mixture models for speech recognition //2010 IEEE International Conference on Acoustics, Speech and Signal Processing. - IEEE, 2010. - P. 4330-4333.
12. Меденников И.П. Двухэтапный алгоритм инициализации обучения акустических моделей на основе глубоких нейронных сетей // Научно-технический вестник информационных технологий, механики и оптики. - 2016. - Т. 16, № 2. - С. 379-381.
13. Xue J., Li J., Gong Y. Restructuring of deep neural network acoustic models with singular value decomposition // Interspeech. - 2013. - P. 2365-2369.
14. He K. et al. Deep residual learning for image recognition // Proceedings of the IEEE conference on computer vision and pattern recognition. - 2016. - P. 770-778.
15. Xu K. et al. Show, attend and tell: Neural image caption generation with visual attention // International conference on machine learning. - 2015. - P. 2048-2057.
16. Sawai H. TDNN-LR continuous speech recognition system using adaptive incremental TDNN training // ICASSP 91: 1991 International Conference on Acoustics, Speech, and Signal Processing. - IEEE, 1991. - P. 53-56.
17. Kipyatkova I., Karpov A. DNN-based acoustic modeling for Russian speech recognition using Kaldi // International Conference on Speech and Computer. - Springer, Cham, 2016. - P. 246-253.
18. Graves A., Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures // Neural networks. - 2005. - Vol. 18, No. 5-6. - P. 602-610.
19. Шмырёв Н.В. Свободные речевые базы данных voxforge.org // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4-8 июня 2008 г.). Вып. 7 (14). - М.: РГГУ, 2008. - С. 585-517.
20. Фёдорова О.В. Рассказы о сновидениях: Корпусное исследование устного русского дискурса / под ред. Кибрика А. А. и Подлесской В.И. - М.: Языки славянских культур, 2009. - 736 с. Русский язык в научном освещении. - 2010. - №. 2. - С. 305-312.
REFERENCES
1. Amodei D., Ananthanarayanan S., Anubhai R. Deep speech 2: End-to-end speech recognition in english and mandarin, International conference on machine learning, 2016, pp. 173-182.
2. Markovnikov N.M., Kipyatkova I.S. Issledovanie metodov postroeniya modeley koderdekoder dlya raspoznavaniya russkoy rechi [Research of methods for constructing coderdecoder models for Russian speech recognition], Informatsionno-upravlyayushchie sistemy [Information and control systems], 2019, No. 4, pp. 45-53.
3. Tampel' I.B., Karpov A.A. Avtomaticheskoe raspoznavanie rechi: ucheb. posobie [Automatic speech recognition: tutorial]. Saint Petersburg: Universitet ITMO, 2016.
4. Yu D., Seltzer M., Li J. et al. Feature Learning in Deep Neural Networks - studies on Speech Recognition Tasks, Proc. ICLR-2013. Available at: https://arxiv.org/abs/1301.3605 (accessed 15 January 2020).
5. Hermansky H., Ellis D.P.W., Sharma S. Tandem connectionist feature extraction for conventional HMM systems, 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No. 00CH37100). IEEE, 2000, Vol. 3, pp. 1635-1638.
6. Grezl F. et al. Probabilistic and bottle-neck features for LVCSR of meetings, 2007 IEEE International Conference on Acoustics, Speech and Signal Processing-ICASSP'07. IEEE, 2007, Vol. 4, pp. 757-760.
7. Sainath T., Kingsbury B., Ramabhadran B. Auto-encoder bottleneck features using deep belief networks, 2012 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2012, pp. 4153-4156.
8. Gehring J. et al. Extracting deep bottleneck features using stacked auto-encoders, 2013 IEEE international conference on acoustics, speech and signal processing. IEEE, 2013, pp. 3377-3381.
9. Saon G. et al. Speaker adaptation of neural network acoustic models using i-vectors, 2013 IEEE Workshop on Automatic Speech Recognition and Understanding. IEEE, 2013, pp. 55-59.
10. Zhang Y., Chuangsuwanich E., Glass J. Extracting deep neural network bottleneck features using low-rank matrix factorization, 2014 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2014, pp. 185-189.
11. Povey D. et al. Subspace Gaussian mixture models for speech recognition, 2010 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2010, pp. 4330-4333.
12. Medennikov I.P. Dvukhetapnyy algoritm initsializatsii obucheniya akusticheskikh modeley na osnove glubokikh neyronnykh setey [Two-stage algorithm for initialization of acoustic model training based on deep neural networks], Nauchno-tekhnicheskiy vestnik informatsionnykh tekhnologiy, mekhaniki i optiki [Scientific and technical Bulletin of information technologies, mechanics and optics], 2016, Vol. 16, No. 2, pp. 379-381.
13. Xue J., Li J., Gong Y. Restructuring of deep neural network acoustic models with singular value decomposition, Interspeech, 2013, pp. 2365-2369.
14. He K. et al. Deep residual learning for image recognition, Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770-778.
15. Xu K. et al. Show, attend and tell: Neural image caption generation with visual attention, International conference on machine learning, 2015, pp. 2048-2057.
16. Sawai H. TDNN-LR continuous speech recognition system using adaptive incremental TDNN training, ICASSP 91: 1991 International Conference on Acoustics, Speech, and Signal Processing. IEEE, 1991, pp. 53-56.
17. Kipyatkova I., Karpov A. DNN-based acoustic modeling for Russian speech recognition using Kaldi, International Conference on Speech and Computer. Springer, Cham, 2016, pp. 246-253.
18. Graves A., Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures, Neural networks, 2005, Vol. 18, No. 5-6, pp. 602-610.
19. Shmyrev N.V.Svobodnye rechevye bazy dannykh voxforge.org [Free speech databases voxforge.org], Komp'yuternaya lingvistika i intellektual'nye tekhnologii: Po materialam ezhegodnoy Mezhdunarodnoy konferentsii «Dialog» (Bekasovo, 4-8 iyunya 2008 g.) [Computer linguistics and intelligent technologies: based on the materials of the annual international conference "Dialogue" (Bekasovo, June 4-8, 2008)], Issue 7 (14). Moscow: RGGU, 2008, pp. 585-517.
20. Fedorova O.V. Rasskazy o snovideniyakh: Korpusnoe issledovanie ustnogo russkogo diskursa [Stories about dreams: a Corpus study of oral Russian discourse], ed. by Kibrika A.A. i Podlesskoy V.I. Moscow: Yazyki slavyanskikh kul'tur, 2009, 736 p. Russkiy yazyk v nauchnom osveshchenii [Russian language in scientific coverage], 2010, No. 2, pp. 305-312.
Статью рекомендовал к опубликованию профессор В.К. Толстых.
Пикалёв Ярослав Сергеевич - Государственное учреждение «Институт проблем искусственного интеллекта»; e-mail: [email protected]; 83000, ДНР, г. Донецк, ул. Артёма, 185б; аспирант.
Ермоленко Татьяна Владимировна - Государственное образовательное учреждение высшего профессионального образования «Донецкий национальный университет»; e-mail: [email protected]; 83000, ДНР, г. Донецк, пр. Гурова, 24; кафедра компьютерных технологий; доцент.
Pikaliov Yaroslav Sergeevich - State institute «Institute of Artificial Intelligence Problems»; e-mail: [email protected]; 83000, 185b, Artyoma street, Donetsk, DPR; graduate student.
Yermolenko Tatyana Vladimirovna - State educational institution of higher professional education «Donetsk National University»; e-mail: [email protected]; 83000, 24, Gurov ave., Donetsk, DPR; associate professor; the department of computer technology; associate professor.