Научная статья на тему 'СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ СЛИТНОЙ РУССКОЙ РЕЧИ НА ОСНОВЕ ГЛУБОКИХ НЕЙРОСЕТЕЙ'

СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ СЛИТНОЙ РУССКОЙ РЕЧИ НА ОСНОВЕ ГЛУБОКИХ НЕЙРОСЕТЕЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
262
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / ГЛУБОКОЕ ОБУЧЕНИЕ / АКУСТИЧЕСКАЯ МОДЕЛЬ / ЯЗЫКОВАЯ МОДЕЛЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ермоленко Т.В., Пикалёв Я. С.

В данной статье представлена структура системы автоматического распознавания слитной русской речи на основе глубоких нейросетей. Рассмотрены основные её структурные блоки. Описан процесс получения языковой и акустической модели, процесс декодирования. Охарактеризованы обучающие и тестовые корпусы текстовых и речевых данных. Проведено сравнение эффективности распознавания разработанной системы с существующими решениями.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATIC CONTINUOUS RUSSIAN SPEECH RECOGNITION SYSTEM BASED ON DEEP NEURAL NETWORKSL

This article presents the structure of a system for automatic recognition of continuous Russian speech based on deep neural networks. Its main structural blocks are considered. The process of obtaining a language and acoustic model, the decoding process are described. The training and test corpora of text and speech data are characterized. The comparison of the recognition efficiency of the developed system with existing solutions is carried out.

Текст научной работы на тему «СИСТЕМА АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ СЛИТНОЙ РУССКОЙ РЕЧИ НА ОСНОВЕ ГЛУБОКИХ НЕЙРОСЕТЕЙ»

Система автоматического распознавания слитной русской речи на основе глубоких нейросетей

Ермоленко Т.В., кандидат технических наук, доцент, доцент кафедры компьютерных технологий ГОУ ВПО «Донецкий национальный университет», г. Донецк

Пикалев Я.С., научный сотрудник ГУ «Институт проблем искусственного интеллекта», г. Донецк

В данной статье представлена структура системы автоматического распознавания слитной русской речи на основе глубоких нейросетей. Рассмотрены основные её структурные блоки. Описан процесс получения языковой и акустической модели, процесс декодирования. Охарактеризованы обучающие и тестовые корпусы текстовых и речевых данных. Проведено сравнение эффективности распознавания разработанной системы с существующими решениями.

• автоматическое распознавание речи • глубокое обучение • акустическая модель • языковая модель.

Введение

Автоматическое распознавание речи является динамично развивающимся направлением в области искусственного интеллекта. За последние полвека в данной области достигнуты значительные успехи — имеется множество коммерческих приложений, которые делают вложения в данную область оправданными и выгодными. Задача распознавания речи получила широкое распространение вследствие высокой применимости на практике: устройства управления бытовыми приборами или интерактивные программы; помощь операторам с занятыми руками, которым в то же время требуется документировать свою деятельность; поиск ключевых слов или фрагментов текста, содержащих ключевые слова, определение языка, определение темы сообщения; системы автоматического доступа к информации, минуя оператора; системы поиска по голосовому запросу; системы диктовки с приемлемым уровнем ошибок; системы речевой аналитики, которые преобразуют речевые данные для поиска слов, фраз и паралингвистических маркеров.

Учёными разрабатываются лингвистические подходы к распознаванию, но до сих пор не было создано алгоритма более эффективного, чем математический, который

3

4

позволял бы работать с языком. Лингвистическая модель в чистом виде не способна справиться с задачей распознавания слитной речи. Правила лингвистики могут лишь использоваться для подкрепления математических алгоритмов. Современные системы распознавания речи работают на основе сложнейших математических моделей, вычислительные мощности современных компьютеров сделали возможным использование глубоких нейросетей (Deep Neural Network, DNN) сложных архитектур с выходным слоем, состоящим из нескольких тысяч нейронов, для создания эффективных акустических и языковых моделей.

В статье описан нейросетевой подход к построению системы диктороне-зависимого автоматического распознавания слитной русской речи (Automatic Continuous Russian Speech Recognition, ACRSR), которая обеспечивает высокое качество распознавания, учитывает особенности русской речи и адаптируется под любую предметную область.

1. Основные проблемы разработки русскоязычных систем автоматического распознавания слитной речи

Русский язык входит в число языков, именуемых исследователями lowresourcelanguages [1]. Языкам этой категории учёные уделяют гораздо меньше внимания в силу ряда возникающих трудностей.

Главной причиной, как можно увидеть из термина lowresourcelanguages, является недостаточное количество аннотированных речевых баз. Отдельной проблемой также является отсутствие достаточного количества нормализованных текстов для статистического моделирования языка. Для русского языка в силу его флективности и свободного порядка слов в предложении эта проблема имеет большее влияние, чем для остальных low-resourcelanguages.

Из основных фонетических проблем стоит выделить: качественную и количественную редукцию гласных; ослабление и выпадение согласных; уменьшение степени контрастности между гласными и согласными в пределах слога; наличие редуцированных словоформ; в отличие от английского языка — в большей степени выражена вялая артикуляция. Все эти фонетические проблемы увеличивают акустическую вариативность для русскоязычной слитной речи.

Стоит отметить проблему обработки акцентов и фонового шума для распознавания речи. Большая часть тренировочных данных состоит из аудиофайлов с высоким отношением сигнала к шуму. Для английского языка эта проблема практически решена — он располагает внушительной базой данных, позволяющей распознавать слова для различных акцентов в различных условиях. Для других языков нет такой обширной речевой базы. Например, создание высококачественного распознавателя речи только для английского языка требует до 5 тысяч часов речевых данных, с аннотированным текстом. При наличии фонового шума, например -5 дБ, человек в таких условия без проблем распознает речь, а для систем автоматического распознавания с увеличением шума ухудшаются показатели качества распознавания.

Вышеуказанные трудности привели к тому, что на сегодняшний день в сфере распознавания русскоязычной слитной речи значительные успехи достигнуты только в пределах ограниченного словарного запаса. Такие системы чаще всего создаются для конкретной профессиональной области — медицины, юриспруденции, международных отношений. Базовый набор слов и правил у этих систем общий (предлоги, союзы, местоимения, грамматика и семантика), а отличаются словари профессиональных слов и типы связей между ними. Пользоваться ими может любой человек без существенных речевых дефектов, но при этом надо избегать разговорных выражений.

Представленная ниже архитектура ACRSR, а также методы построения акустических и языковой моделей обеспечивают достаточную точность и быстродействие в задаче распознавания слитной русской речи, используя при этом для своего обучения значительно меньше данных, чем аналогичные системы.

2. Структура системы распознавания речи

Разработанная ACRSR работает в двух режимах (режиме обучения и режиме распознавания) и состоит из трёх основных блоков:

• блока обучения языковой модели (ЯМ) и транскрипционной модели, в котором реализован сбор и предварительная обработка данных, обучение ЯМ и генерация словаря транскрипций;

• блока обучения акустической модели (АМ), результатом работы которого является обученная АМ на основе информативных робастных акустических признаков [2], а также i-векторов [3, 4]. В данном блоке реализованы следующие этапы:

— выделение акустических признаков (MFCC, FBANK и PLP);

— обучение АМ на основе GММ-HMM подхода [5] с применением дискриминатив-ных методов обучения [6];

— модификация ЯМ с использованием полученной АМ и ЯМ, а также алгоритмом rescoringlattices [7];

— блока распознавания, в котором происходит запись и предобработка сигнала, а также его дальнейшее преобразование в текстовый вид.

Программные средства, входящие в состав блока обучения, реализованы с использованием языков программирования C++, Perl, Python, Cython, Bash, а также библиотек OpenFST (библиотека для конструирования, комбинирования и поиска взвешенных конечных преобразователей для представления вероятностных моделей, в частности n-грамм); Kaldi (для извлечения признаков и распознавания речи); Tensorflow (для построения нейросетевых моделей). Эти современные средства разработки позволили реализовать нейросетевые модели, методы и алгоритмы, представленные в диссертации.

На основе обученных ЯМ и АМ в режиме распознавания производится процесс декодирования (поиск наиболее правдоподобной последовательности слов, соответствующей последовательности векторов высокоуровневых признаков для данной

5

фонограммы). При декодировании кроме АМ и ЯМ используется словарь транскрипций и транскрипционная модель. Выдаваемая в процессе декодирования последовательность слов (результат распознавания)записывается в выходной текстовый файл.

Для обучения акустических моделей используются аннотированные речевые базы, а модель языка создается по текстовому корпусу.

3. Описание речевых и текстовых данных для обучения акустической и языковой моделям

Речевые данные имеют следующие характеристики: шау-РОМ, 16 кГц, 16 бит. База данных состоит из следующих аннотированных речевых данных:

1) корпус аудиокниг, содержащий эмоциональную речь, смену тональности голоса и темпа речи, записи сделаны в различных условиях с использованием большого диапазона техники;

2) корпус радиозаписей, содержащий речь разных дикторов с эмоциональной окраской и сменой тональности;

3) корпус выступлений, содержащий записи с различными шумами, сделанные в разных помещениях;

4) дикторский корпус, сформированный из непрофессиональных дикторских баз и содержащий речь различных дикторов, записанную с помощью обширного диапазона звукозаписывающего оборудования.

Общее количество записей дикторов-мужчин составило 231, их суммарная продолжительность — 1143 минуты, дикторов-женщин — 91, запись общей продолжительностью — 637 минут.

Использование вышеуказанных корпусов для обучения АМ позволит обеспечить её дикторонезависимость и адаптировать АМ под шумы, вызванные различными каналами записи и акустическим окружением.

Для обучения языковым моделям составлена текстовая база нормализованных текстов, предназначенных для работы со слитной речью, объемом около 18 Гб. Ниже перечислены ресурсы, на основе которых сформирована текстовая база.

1. Корпус новостных лент, состоящий из текстов сайтов, содержащих новостные ленты.

2. Литературный корпус, основанный на текстах, полученных из литературных баз (книги, журналы и т.д.).

3. Корпус соцсетей, который состоит из сообщений между пользователями известных соцсетей, для их извлечения использовались их собственные АР1 (УкАР!, РасеЬоок АР1 и т.п.).

6

4. Корпус субтитров, состоящий из текстов, извлечённых из файлов субтитров, хранящихся на интернет-ресурсах.

5. Корпус текстовых расшифровок, основанный на текстовых расшифровках выступлений, радиопередач и т.п.

При обработке вышеперечисленных корпусов возникли следующие проблемы: отсутствие «ё» и «й» (вместо них употребляются символы «е» и «и»); наличие строк, не несущих контекстной информации; наличие цифробуквенных комплексов, аббревиатур сокращений; наличие строк, написанных полностью или частично на языке, отличном от русского; ошибки или опечатки в словах. Для решения вышеописанных проблем использовались регулярные выражения, DNN для определения языка, а также DNN-модель для автоматического определения и исправления опечаток [8, 9].

Опишем функционирование системы в двух режимах более подробно.

4. Функционирование системы автоматического распознавания русской речи в режиме обучения

В режиме обучения (рис. 1) осуществляется: сбор и обработка речевых и текстовых данных; формирование словаря транскрипций и обучение моделей генерации транскрипций; обучение АМ и ЯМ.

Первыми этапами в приведенной схеме обучения является сбор данных из Сети. После осуществляется сбор речевых, текстовых и транскрипционных данных. Затем проводится их нормализация.

На рисунке 2 представлена схема процесса предобработки речевых данных.

Предобработка речевых данных состоит из следующих этапов.

1. Конвертация файлов в формат wav-PCM, 16-bit, 16 kHz, mono.

2. Нормализация аудиофайлов согласно стандарту EBU R128 [10].

3. Проверка речевых файлов на длительность: файлы длиной более 16 с разделяются на отдельные аудиофайлы длиной не более 16 с.

4. Если продолжительность аудио более 16 с, используется VAD для разделения аудио на массив данных, используя значение времени тишины tsil<= 16 с.

5. Проводится проверка на количество дикторов (num_dict), используя модель диари-зации [11], в текущем аудио, если более одного диктора, то переходим к следующему шагу, иначе — переходим к шагу 7.

6. Используя информацию о времени смены диктора и о метке диктора, аудио разделяется на несколько речевых отрезков.

7. Проводится проверка на наличие текстовых расшифровок к данному речевому отрезку аудио, если таковых нет, то переходим к следующему шагу, иначе — к шагу 9.

7

Используя автоматическую систему распознавания речи, генерируется текст к аудио. Если для изначального аудио имелась текстовая расшифровка, то для проверки соответствия текстовых расшифровок и аудио используется модифицированный алгоритм Смита-Уотермана, описанный в [12].

9. Конец.

После вышеописанных действий проводится аугментация речевых данных с целью повышения робаст-ности AM. Предлагаемая техника аугментации подробно описана в [13], она использует модификацию имеющихся речевых данных путем зашумления обучающей выборки, что позволяет сделать AM более устойчивой к различным шумам. В результате формируется обучающий речевой корпус.

В данной работе использовалась ЯМ, содержащая LSTM-блоки. LSTM — рекуррентная нейросеть с долгой краткосрочной памятью (Long Short Term Memory).

В рекуррентных сетях [14] скрытый слой хранит всю предыдущую историю, поэтому размер контекста неограничен. Использование LSTM для построения ЯМ базируется на следующих особенностях [15]: входной вектор кодируется в виде 1-of-N слов; функция softmax, используемая в выходном слое для получения нормированных вероятностей; кросс-энтропия используется в качестве критерия обучения; нормализация входного вектора, которая обычно рекомендуется для нейронных сетей, не требуется из-за аудио входного кодирования 1-of-N слов.

После сбора текстовых данных проводится их нормализация. Под нормализацией текста в рамках Рис. 2

Схема предобработки речевых данных

9

массив слов

softmax

j L

Скрытый слой

данной работы понимается процесс трансформации исходного текста посредством удаления неконтекстных символов, то есть без потери смысла исходного текста, а также преобразования символов, вносящих «шум» для понимания смысла (цифробуквенные комплексы, сокращения и т.п.). При нормализации текста для задачи автоматического распознавания речи целесообразно преобразовывать аббревиатуры и вставки на латинице, встречающиеся в русскоязычных текстах, а также проводить коррекцию ошибок.

К нормализованному текстовому корпусу добавляются нормализованные текстовые расшифровки аудиофайлов. На основе этих данных обучается ЯМ (архитектура нейросети для ЯМ изображена на рис. 3) со следующими параметрами: количество скрытых слоёв — 5; количество нейронов в скрытых слоях — 256; тип активации — sigmoid; коэффициент обучения — 0,0001; оптимизация градиентного спуска — RMSprop; количество эпох — 5. Дополнительно обучается 5-gram ЯМ для отбора текстов для обучения по следующему критерию: если в тексте содержался 1% 5-gram от общего значения, то данный текст не применялся для обучения.

Для упрощения n-gram ЯМ использовалась техника n-grampruning — из модели удалены n-gram, встречающиеся менее 4 раз. Используя данную ЯМ, извлечены 500 тыс. наиболее встречаемых слов, формируется список слов для словаря. Для слов из данного списка сгенерированы парадигмы при помощи pymorphy2 и удалены повторы слов. Для формирования словаря транскрипций к полученному списку слов применена DNN-модель для автоматической генерации транскрипций [16, 17].

Для оценки качества ЯМ используют вероятность, которую модель назначает тестовым данным; CE и коэффициент неопределенности (перплексия, perplexity).

Для тестовых данных T, состоящих из предложений (^Дз,...,^, содержащих суммарно WT слов, вероятность определяется как произведение вероятностей для каждого из предложений:

p(t)=ftp(tj

k=l

J L

Скрытый спой

J I

Скрытый спой

т

Слой представлений СЛ08

Входной СЛОЙ

I

массив слов

Рис. 3. Архитектура DNN для языковой модели

10

CE определяется следующим образом:

H(r)=^log2P(r)

и может интерпретироваться как среднее количество бит информации, необходимое для кодирования каждого слова в тестовых данных при помощи алгоритма сжатия, связанного с моделью.

Перплексия (РРЬ) определяется следующим образом:

РР1(Г) = 2Н(Г)=Р(Т)

Чем меньше эта величина, тем лучше модель предсказывает появление слов в документах текстового корпуса.

Между перплексией и количеством неправильно распознанных слов существует сильная корреляция: чем меньше взаимная энтропия и перплексия, тем лучше модель соответствует тестовым данным.

Для качественной модели величина перплексии имеет значение не менее 700 (зависит от сложности тематики обучаемой выборки) [18]. Для полученной ЯМ на текстовом корпусе, сформированном после сбора текстовых данных и их нормализации, значение величины перплексии составило 368,73.

Для обучения АМ извлекаются информативные робастные и дикторонезависимые акустические признаки, а также формируются модели ^векторов. Схема обучения АМ представлена на рисунке 4.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 4. Схема обучения акустической модели Процесс обучения АМ состоит из следующих этапов.

1. Аугментация речевых сигналов с целью повышения робастности системы распознавания речи.

11

12

2. Выделение акустических признаков (MFCC, FBANK и PLP).

3. Обучение АМ на основе GMM-HMM подхода [19] с применением дискри-минативных методов обучения. По выделенным речевым сегментам происходит вычисление признаков PLP, FBANK, i-векторов. Построенный на каждом кадре вектор признаков и i-вектор, соответствующий участку фонограммы, которому принадлежит рассматриваемый кадр, объединяются в единый вектор признаков. По объединенным векторам признаков вычисляются вектора робастных признаков при помощи модуля MultiBlock, в котором осуществляется нейросетевая параметризация с помощью ансамбля из bottleneck нейросетей [20] и архитектуры ResNet-50 [21, 22]. Bottleneck-признаки — высокоуровневые признаки, которые извлекаются из «узкого горла» (скрытого слоя небольшой размерности с линейной функцией активации, расположенной в середине или возле последних скрытых слоёв). Подробно технология получения робастных высокоуровневых признаков для обучения АМ описана в [2].

После того как получены результаты в режиме обучения, система готова к распознаванию речи.

5. Функционирование системы автоматического распознавания русской речи в режиме распознавания

Схема работы системы распознавания речи в режиме распознавания представлена на рисунке 5.

Этапы работы системы в режиме распознавания следующие.

1. Аудиозапись речевого сигнала с частотой дискретизации 16000 Гц, 16 бит на отсчет, формат wav-PCM.

2. Выделение акустических признаков FBANK.

3. Выделение речевых сегментов при помощи детектора активности диктора. Для каждого сигнала затем происходит нормализация согласно формату EBU R128.

4. По выделенным речевым сегментам происходит вычисление признаков PLP, FBANK, i-векторов. Построенный на каждом кадре вектор признаков и i-вектор, соответствующий участку фонограммы, которому принадлежит рассматриваемый кадр, объединяются в единый вектор признаков.

5. По объединенным векторам признаков вычисляются векторы робастных признаков при помощи модулей MultiBlock и ResBlock, описанных в [2].

6. Полученные высокоуровневые признаки поступают на вход сети, предсказывающей последовательность фонем.

Используемая для распознавания фонем нейросеть основана на двух архитектурах: нейронной сети с временной задержкой (Time Delay Neural Network, TDNN) [23] и двунаправленной долгой кратковременной

Рис. 5. Схема автоматической системы распознавания речи в режиме распознавания

нейронной сети (Bidirectional Long Short Memory, BLSTM) [24] со слоем внимания (attention). TDNN и BLSTM соединены последовательно, каждая из них имеет пять слоёв с 2048 нейронами (один входной, один выходной и три скрытых слоя).

После вышеописанных действий производится процесс декодирования — поиск наиболее правдоподобной последовательности слов, соответствующей последовательности векторов высокоуровневых признаков для данной фонограммы. При декодировании используются акустическая модель, языковая модель и словарь транскрипций, полученные в результате работы системы в режиме обучения. Выдаваемая в процессе декодирования последовательность слов (результат распознавания) записывается в выходной текстовый файл.

Построенные АМ, ЯМ и сгенерированный словарь транскрипций достаточно объемны, поскольку они содержат лексикон, фонетическое дерево решений, топологию фонем HMM, поэтому в данной работе использовался подход к статическому декодированию, основанный на конечных автоматах, оптимизированных с помощью взвешенных преобразователей с конечным числом состояний (Weighted Finite State Tranducers, WFST) [25].

В WFST объединяются различные уровни, например уровень фонем и уровень слов. Благодаря этому подходу удаётся объединить в одну сеть WFST различные источники знаний — марковские модели, лексиконы, ^граммные статистические модели языка. При поиске оптимального пути на графе декодеру не придётся обращаться

13

к представлению фонем, лексикону, модели языка — вся информация уже заключена в структуре графа. Благодаря этому декодер упрощается и ускоряется, не изменяя ЯМ и АМ, поскольку ему остаётся только подставлять вероятности эмиссии в соответствии с рассматриваемыми гипотезами [26].

В работе декодер представлен в виде следующего графа:

HCLG = H ◦ C ◦ L ◦ G = asl(min(rds(det(W ◦ min(det(L ◦ G)))),

где «◦» — операция конкатенации, asl — операция добавления собственных петель в графе, rds — операция удаления неоднозначных символов [173], реализованные в OpenFST; H — граф, описывающий акустическую модель (входные состояния — контестный вектор); G — граф, описывающий языковую модель; L — граф, построенный средствами KaLdi из текстового файла, содержащего словарь транскрипций; C — граф, построенный средствами KaLdi из АМ, который описывает контекстные состояния фонем.

6. Оценка эффективности разработанной системы

Для сравнения результатов авторской системы распознавания выбрана система от лидера российского рынка речевых технологий — компании ЦРТ (CSTASR), доступная в виде простого в использовании облачного API [27], а также система распознавания речи Google CLoud ASR [28], основанная на передовых алгоритмах глубокого обучения, разработанных компанией Google для автоматического распознавания речи.

Для проверки CST ASR используется API, предоставленное разработчиками компании. Для проверки GoogLeCLoudASR используется платное API (бесплатный доступ).

В качестве метрик для оценивания систем используются WER (Word Error Rate, процент неверно распознанных слов) и SER (Sentence Error Rate, процент неверно распознанных предложений). Дополнительно использовалась метрика оценки скорости получения результата распознавания (SpeedRate, SR).

SR=-

14

где Trec — время, затраченное на распознавание аудиозаписей общей продолжительностью T. Если SR<1, то выполняется требование к распознаванию в режиме реального времени.

Оценка системы распознавания, описанной в данной статье (ASR_work), производилась на следующей конфигурации оборудования:

— 6-ядерный процессор AMDRyzen 2600 с тактовой частотой 3,4 ГГц,

— 32 ГБ ОЗУ;

— операционная система LinuxMint 19.2 Tina;

— графический ускоритель Nvidia GTX 1060 6 Гб.

В качестве тестовой выборки аудиоданных использовались телефонные разговоры в виде диалогов между двумя дикторами. Предварительно набор данных разделен на Ы-дик-торов, речевые отрезки длиной более 16 с. Формат аудио: РСМ^АУ, 16 кГц, 16 бит. Общее количество дикторов составило 1577. Общая продолжительность аудио — 7,2 ч.

Результаты оценивания систем приведены в таблице.

Система распознавания WER SER SR

CSTASR 0,3805 0,96 1,17

GoogleCloud 0,2119 0,82 1,05

ASR_work 0,2763 0,91 0,15

По результатам, представленным в таблице, АБР_шогк оказалась лучше системы от ЦРТ по качеству распознавания на 10,42%.В то же время система Эоод1еС1оиС оказалась лучше АБР_шогк на 6,44%. Авторская система превосходит аналоги по скорости распознавания более чем в 7 раз.

Из проведенных численных исследований следует, что АБР_шогк обладает достаточной точностью в задаче распознавания слитной русской речи, используя при этом для своего обучения значительно меньше данных по сравнению с аналогами (более чем в 500 раз), а также превосходит рассмотренные системы по показателю БРв среднем на 0,96.

Заключение

При разработке авторской системы распознавания слитной русской речи для получения робастных акустических признаков и обучения АМ использовалась нейросетевая параметризация, основанная на объединении ансамбля нейронных сетей с узким горлом и архитектуры РезЫеЬ50; для построения ЯМ — нейросети с архитектурой 1_БТМ; для пофонемного распознавания — глубокие нейросети; для декодирования — подход, основанный на WFБT-графе.

Для разработки классификатора фонем усовершенствованы методы нейросетевой классификации за счет использования механизма внимания в последнем скрытом слое сети, включающей в себя архитектуры ТРЫИ и В1_БТМ.

На основе предложенных методов и моделей разработана система распознавания речи, которая обучалась на речевом корпусе объемом около 7,2 Гб. Авторская система по качеству превосходит решение компании ЦРТ на 10,42%, уступая Google на 6,44%. Разработанная ASR обладает достаточной точностью и превосходит ASRGoogle и ЦРТ по скорости распознавания более чем в 7 раз.

Таким образом, предложенные техники обработки и распознавания речевой информации, а также автоматической обработки текстовых данных позволили повысить эффективность дикторонезависимой системы автоматического распознавания слитной русской речи, работающей с быстродействием и точностью, достаточными для практических задач, и требующей для своего обучения объем данных более чем в 500 раз меньший, чем существующие аналоги.

15

Z

Пикалев Я.С., Ермоленко Т.В. Система автоматического распознавания слитной русской речи на основе глубоких нейросетей

Литература

1. Jelinek, F. Statistical methods for speech recognition [Text] / F. Jelinek // MIT Press. — 1997. — p. 283.

2. Пикалёв, Я.С. Технология повышения робастности акустической модели в задаче распознавания речи / Я.С. Пикалёв, Т.В. Ермоленко // Известия ЮФУ. Техни-ческиенауки. — Ростов-на-Дону: ЮФУ. — 2019. — № 7 (209). — С. 45-57.

3. Abdel-Hamid O. Fast speaker adaptation of hybrid NN/HMM model for speech recognition based on discriminative learning of speaker code / O. Abdel-Hamid, H. Jiang // IEEE International Conference on Acoustics, Speech and Signal Processing. — 2013. — С. 7946-7946.

4. Rouvier M. Speaker adaptation of DNN-based ASR with i-vectors: Does it actually adapt models to speakers? / M. Rouvier, B. Favre // Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. — 2014.

5. Dempster A.P. Maximum Likelihood from Incomplete Data Via the EM Algorithm /

A.P. Dempster, N.M. Laird, D.B. Rubin // Journal of the Royal Statistical Society: Series B (Methodological). — 1977. — Т. 39. — № 1.

6. Пикалёв, Я.С. Разработка системы автоматического распознавания слитной русскоязычной речи на основе дискриминативного обучения // Информатика и кибернетика. — Донецк: ДонНТУ. — 2018. — № 3(13). — C. 61-68.

7. Chung E. Lattice Rescoring for Speech Recognition using Large Scale Distributed Language Models / E. Chung, H.-B. Jeon, J.-G. Park, Y.-K. Lee // COLING. — Mumbai: The COLING 2012 Organizing Committee, 2012. — С. 217-224.

8. Пикалёв Я.С. О системах проверки правописания русского языка / Я.С. Пикалёв, А.С. Вовнянко // Донецкие чтения 2018: образование, наука, инновации, культура и вызовы современности: Материалы III Международной научной конференции (Донецк, 25 октября 2018 г.). — Т. 1: Физико-математические и технические науки/ под общей редакцией проф. С.В. Беспаловой. — Донецк: ДонНУ, 2018. — С. 243-247.

9. Ермоленко Т.В. Классификация ошибок в тексте на основе глубокого обучения / Т.В. Ермоленко // Проблемы искусственного интеллекта. — 2019. — Т. 3. — № 14. — С. 47-57.

10. Man B. De. Evaluation of implementations of the EBU R128 loudness measurement /

B. De Man // 145th Audio Engineering Society International Convention, AES 2018. — 2018.

11. Huang X. Spoken Language Processing: A Guide to Theory, Algorithm & System Development / X. Huang, A. Acero, H.-W. Hon. — 2001.

12. ПикалёвЯ.С., Ермоленко Т.В. Модификация алгоритма Смита-Уотермана для задачи автоматического распознавания слитной речи // Материалы V Международной научной конференции «Актуальные вопросы технических наук» (Санкт-Петербург, февраль 2019 г.). — СПб.: Свое издательство, 2019. — С. 8-11.

13. Пикалёв Я.С. Применение аугментации для задачи автоматического распознавания речи / Я.С. Пикалёв, Т.В. Ермоленко // Материалы конференции Донецкие чтения 2019: образование, наука, инновации, культура и вызовы современности. Т. 1: Физико-математические и технические науки. Часть 2, под общей редакцией проф. С.В. Беспаловой. — Донецк: ДонНУ, 2019. — С. 259-262.

14. MikolovT. Recurrent neural network based language model / T. Mikolov, M. Karafiat, L. Burget, C. Jan, S. Khudanpur // Proceedings of the 11th Annual Conference of the International Speech Communication Association, INTERSPEECH 2010. — 2010.

16

15. Sundermeyer M. LSTM neural networks for language modeling / M. Sundermeyer, R. Schlüter, H. Ney // 13th Annual Conference of the International Speech Communication Association 2012, INTERSPEECH 2012. — 2012.

16. Пикалёв, Я.С. Система автоматической генерации транскрипций русскоязычных слов-исключений на основе глубокого обучения / Я.С. Пикалёв, Т.В. Ермоленко // Проблемы искусственного интеллекта. — Донецк: ГУ ИПИИ. — 2019. — № 4(15). — С. 35-51.;

17. Пикалёв, Я.С. Разработка автоматической системы трансформации английских вставок в русских текстах с применением глубокого обучения / Я.С. Пикалёв // Проблемы искусственного интеллекта. — Донецк: ГУ ИПИИ. — 2019. — № 2(13). — С. 74-86.

18. Karpov A. Large vocabulary Russian speech recognition using syntactico-statistical language modeling / A. Karpov, K. Markov, I. Kipyatkova, D. Vazhenina, A. Ronzhin // Speech Communication. — 2014. — Т. 56. — № 1.

19. DempsterA.P. Maximum Likelihood from Incomplete Data Via the EM Algorithm / A.P. Dempster, N.M. Laird, D.B. Rubin // Journal of the Royal Statistical Society: Series B (Methodological). — 1977. — Т. 39. — № 1.

20. Grezl F. Probabilistic and bottle-neck features for LVCSR of meetings / F. Grezl, M. Karafiat, S. Kontar, J. Cernocky // ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing — Proceedings. — 2007. — Т. 4.

21. He K. Deep residual learning for image recognition / K. He, X. Zhang, S. Ren, J. Sun // Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. — 2016. — Тт. 2016-Decem/

22. Xu K. Show, attend and tell: Neural image caption generation with visual attention / K. Xu, J.L. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhutdinov, R.S. Zemel, Y. Bengio // 32nd International Conference on Machine Learning, ICML 2015. — 2015. — Т. 3.

23. Peddinti V. A time delay neural network architecture for efficient modeling of long temporal contexts / V. Peddinti, D. Povey, S. Khudanpur // Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. — 2015. — Тт. 2015-Janua.

24. Peddinti V. A time delay neural network architecture for efficient modeling of long temporal contexts / V. Peddinti, D. Povey, S. Khudanpur // Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. — 2015. — Тт. 2015-Janua.

25. Mohri M. Speech Recognition with Weighted Finite-State Transducers / M. Mohri, F. Pereira, M. Riley // Springer Handbooks. — 2008.

26. Panayotov V. Decoding graph construction in Kaldi: A visual walkthrough [Электронныйре-сурс]. — URL: http://vpanayotov.blogspot.com/2012/06/kaldi-decoding-graph-construction. html (датаобращения: 20.05.2017).

27. Облако ЦРТ — технологии синтеза и распознавания речи [Электронный ресурс]. — URL: https://cp.speechpro.com/service/asr.

28. Speech-to-Text: Automatic Speech Recognition [Электронныйресурс]. — URL: https://cloud. google.com/speech-to-text.

AUTOMATIC CONTINUOUS RUSSIAN SPEECH RECOGNITION SYSTEM BASED ON DEEP NEURAL NETWORKSL

Yermolenko T.V., candidate of Technical Sciences, Associate Professor, Associate Professor of the Department of Computer Technologies of the State Educational Institution of Higher Professional Education «Donetsk National University»

17

Pikalyov Ya.S., researcher state institution «Institute of Artificial Intelligence Problems»

This article presents the structure of a system for automatic recognition of continuous Russian speech based on deep neural networks. Its main structural blocks are considered. The process of obtaining a language and acoustic model, the decoding process are described. The training and test corpora of text and speech data are characterized. The comparison of the recognition efficiency of the developed system with existing solutions is carried out.

• automatic speech recognition • deep learning • acoustic model • language model.

18

i Надоели баннеры? Вы всегда можете отключить рекламу.