Научная статья на тему 'Построение речевого аудиовидеокорпуса путем выравнивания длинных сегментов речи и текста'

Построение речевого аудиовидеокорпуса путем выравнивания длинных сегментов речи и текста Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
180
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЫРАВНИВАНИЕ РЕЧИ И ТЕКСТА / АУДИОВИЗУАЛЬНОЕ РАСПОЗНАВАНИЕ РЕЧИ / TEXT-TO-SPEECH ALIGNMENT / AUDIO-VISUAL SPEECH RECOGNITION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карпухин И. А., Конушин А. С.

В статье предлагается новый алгоритм выравнивания текста и речевого аудиосигнала длиной до нескольких часов. Алгоритм допускает эффективную оценку качества. При этом выдвигаются невысокие требования к используемой акустической модели. Алгоритм был применен к созданию обучающего аудиовидеокорпуса русского языка.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карпухин И. А., Конушин А. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Long speech to text alignment for audiovisual speech corpora collection

In this paper we propose a new text-to-speech alignment algorithm for segments with duration up to several hours. Experimental and theoretical evaluation of an algorithm is presented. Proposed algorithm was successfully applied to audiovisual speech corpora collection for Russian language.

Текст научной работы на тему «Построение речевого аудиовидеокорпуса путем выравнивания длинных сегментов речи и текста»

УДК 004.522

И. А. Карпухин, А. С. Конушин2

ПОСТРОЕНИЕ РЕЧЕВОГО АУДИОВИДЕОКОРПУСА ПУТЕМ ВЫРАВНИВАНИЯ ДЛИННЫХ СЕГМЕНТОВ РЕЧИ И ТЕКСТА*

В статье предлагается новый алгоритм выравнивания текста и речевого аудиосигнала длиной до нескольких часов. Алгоритм допускает эффективную оценку качества. При этом выдвигаются невысокие требования к используемой акустической модели. Алгоритм был применен к созданию обучающего аудиовидеокорпуса русского языка.

Ключевые слова: выравнивание речи и текста, аудиовизуальное распознавание речи.

1. Введение. При создании систем автоматического распознавания речи используются методы машинного обучения. При этом возникает задача сбора и подготовки обучающих речевых корпусов [1], содержащих фрагменты речи дикторов с указанием произнесенного текста. Данных, находящихся в открытом доступе, оказывается недостаточно для обучения высококачественной системы распознавания речи. Особенно актуальна проблема нехватки данных для русского языка [2]. В статье исследуются способы автоматического построения речевых корпусов с использованием методов выравнивания речевого сигнала и текста. Предлагается алгоритм, позволяющий выравнивать аудиофрагменты длиной до нескольких часов. Предложенный алгоритм выравнивания отличается от аналогов невысокими требованиями к качеству используемой акустической модели речи, что делает его применимым в условиях нехватки обучающих данных. В отличие от аналогов для алгоритма могут быть даны прогнозы точности и устойчивости к длине входного фрагмента.

Выделяют задачи распознавания речи [3] и выравнивания текста и речи [4, 5]. В случае распознавания на вход системы поступает речевой сигнал и система восстанавливает произнесенный диктором текст. При выравнивании произнесенный текст вместе с сигналом поступает на вход системы. Задача состоит в определении временных интервалов произнесения отдельных слов. Задачи распознавания и выравнивания решаются схожими методами. Основу большинства систем составляют акустическая и языковая модели речи. Акустическая модель описывает связь фонетической транскрипции произнесенного диктором текста и наблюдаемого сигнала. Языковая модель описывает вероятности появления цепочек слов языка. Разница между распознаванием и выравниванием заключается в структуре языковой модели. При распознавании языковая модель описывает грамматику целевого языка и может задавать десятки и сотни тысяч гипотез о произносимом тексте. При выравнивании языковая модель сводится к цепочке слов речи диктора, поступившей на вход системы. Иногда допускаются небольшие отклонения от исходного текста. Таким образом, языковая модель выравнивания допускает одну или несколько гипотез произнесенного текста, что значительно упрощает задачу. Приемлемое качество выравнивания может быть достигнуто даже путем использования акустической модели, не обладающей качеством, достаточным для распознавания речи с большим словарем. В условиях нехватки данных выравнивание может использоваться для расширения обучающего речевого корпуса.

Предпринимались различные попытки [6, 7] использовать имеющиеся в Интернете данные для автоматического или полуавтоматического построения речевых корпусов. В качестве источников данных могут использоваться лишь те записи речи дикторов, для которых известен произнесенный текст. К таким источникам относятся аудиокниги, выпуски новостей и фильмы с субтитрами. Одна из сложностей обработки имеющихся данных, например, аудиокниг, заключается в наличии длинных многоминутных и многочасовых фрагментов, которые не могут быть напрямую использованы для обучения. Необходимо разбить такие фрагменты на небольшие части и указать произнесенный текст для каждой из них. Для этого достаточно провести выравнивание сигнала и текста, т. е. для каждого слова указать временные рамки его произнесения. Возникает задача выравнивания длинных фрагментов, обладающих длительностью до нескольких часов.

1 Факультет ВМК МГУ, асп., e-mail: karpuhiniQyandex.ru

2 Факультет ВМК МГУ, доц., к.ф.-м.н., e-mail: ktoshQgraphics.cs.msu.ru

* Работа выполнена при финансовой поддержке гранта «УМНИК», договор № 3507ГУ1.2014.

Известные системы выравнивания реализуются на основе скрытых марковских моделей (СММ) [3, 4] или глубинных нейронных сетей [8, 9]. Поскольку нейронные сети имеют на порядки больше параметров, чем СММ, то в условиях нехватки обучающих данных предпочтение отдается СММ. Вычислительная сложность выравнивания алгоритма Витерби для СММ пропорциональна как длине речевого сигнала, так и длине произнесенного текста, что приводит к квадратичной сложности. Данное свойство накладывает ограничения на длину выравниваемого фрагмента. Таким образом, для выравнивания длинных фрагментов нужны специальные алгоритмы.

Традиционный способ борьбы со сложностью алгоритма Витерби заключается в отсечении гипотез с относительно низким правдоподобием. Однако данный подход затрудняет оценку качества работы алгоритма. Так, алгоритм может успешно завершиться даже при наличии серьезных отклонений от правильной гипотезы в процессе выравнивания. Точность выравнивания и доля отказов данного алгоритма зависят от длины речевого фрагмента, поэтому найти оценки качества для многочасовых записей оказывается затруднительно. Для получения точной оценки необходимо применить алгоритм к достаточно крупному речевому корпусу, содержащему необходимую разметку. Разметка для задачи выравнивания включает временные границы интервалов произнесения слов. Сложность построения такой разметки вызвана ее стоимостью, которая растет с увеличением размера корпуса. Описанные трудности оценки качества становятся крайне существенными при создании обучающих корпусов, для которых необходимо иметь оценку числа ошибок.

Более сложные алгоритмы [10, 11] позволяют проводить выравнивание в случае, когда имеется система распознавания речи, способная верно распознать большую часть слов фрагмента (не менее 70-80%). Суть алгоритмов состоит в разбиении входного сигнала и текста на соответствующие части небольшой длины и сведении задачи к выравниванию коротких фрагментов. Процесс разбиения обычно состоит из нескольких последовательных шагов. Вначале проводится распознавание произнесенного диктором текста без учета поданной на вход системы транскрипции. На втором шаге распознанный текст выравнивается с имеющейся транскрипцией путем минимизации расстояния Левенштейна. Затем выделяются цепочки из нескольких подряд идущих слов, которые совпадают в распознанной и известной транскрипциях. Цепочки слов считаются правильно выровненными, если их длина превосходит некоторый порог, например, в три слова. Точки биения звукового сигнала и текста выбираются из числа тех границ слов, которые попадают в правильно выровненные цепочки. Таким образом, для каждого небольшого фрагмента сигнала находится соответствующий фрагмент произнесенного текста. Задача сводится к выравниванию коротких фрагментов. Для ее решения можно воспользоваться любым известным алгоритмом. Алгоритмы выравнивания, использующие распознавание речи, показали высокую точность и доказали свою эффективность. Однако они требуют наличия достаточно точной системы распознавания.

Предлагаемый в настоящей работе алгоритм выдвигает невысокие требования к акустической модели речи и допускает эффективную оценку качества. Предложенный алгоритм был применен для построения аудиовизуального речевого корпуса на основе видеочтений романа Л.Н. Толстого "Война и мир".

2. Используемые инструменты и данные. Необходимым элементом системы распознавания речи является словарь транскрипций. Для выравнивания использовался словарь, распространяемый вместе с моделью русского языка CMU Sphinx. Фонетический состав данного словаря насчитывает 50 фонем, в число которых входят ударные и мягкие звуки. Транскрипции недостающих слов были автоматически сгенерированы программой eSpeak.

Число параметров нейронных сетей, используемых для распознавания, достигает нескольких миллионов, что в десятки и сотни раз превосходит число параметров СММ. Учитывая малый объем доступных обучающих корпусов, для построения акустической модели речи была выбрана СММ, описывающая признаки аудиосигнала смесью нормальных распределений, содержащей не более трех компонент. В качестве признакового описания входного сигнала использовались признаки MFCC [3] с окном 50 мс и шагом 20 мс. В число признаков были дополнительно включены первые и вторые производные MFCC по времени.

В качестве системы выравнивания коротких фрагментов был выбран инструментарий НТК (Hidden Markov Model ToolKit). Для построения модели речи средствами НТК использовались речевые корпуса Isabase и Voxforge. Корпус Isabase [1] был подготовлен в рамках совместного проекта Института системного анализа РАН и филологического факультета МГУ и содержит 5 часов

профессионально записанной речи дикторов. Важной особенностью ЬаЬаяе является наличие фонетической разметки, что позволяет использовать ЬаЬаяе для первичной настройки параметров акустической модели. Дальнейшая дооценка проводилась с использованием свободно распространяемого корпуса УохГоще, который содержит 17 часов непрерывно звучащей русской речи.

3. Исходные данные для построения обучающего корпуса. В зависимости от приложения могут выдвигаться различные требования к составу обучающего речевого корпуса. Важно учитывать не только суммарную длительность звучания речи, но и репрезентативность состава дикторов, а также варианты искажений звукового сигнала, вызванные особенностями звукозаписи и наличием фоновых шумов. В Интернете имеется множество источников данных, которые могут быть использованы для построения речевого корпуса методом выравнивания. Источники различаются составом дикторов, условиями записи речи, точностью совпадения транскрипции и произнесенного диктором текста.

Аудиокниги представляют интерес как источники с высокой степенью достоверности транскрипции. Аудиокниги обычно читаются одним профессиональным диктором. Используя только аудиокниги, в ряде задач невозможно добиться разнообразия диалектов и произношений. Чтобы добиться требуемой в приложениях репрезентативности данных, необходимо обработать большое число аудиокниг, независимо от длительности их звучания.

Возможно использование выпусков новостей с бегущей строкой, фильмов с субтитрами, радиоспектаклей и радиовыпусков, снабженных стенограммой. На практике субтитры и стенограммы часто передают произнесенное сообщение со значительным количеством замен и сокращений. Это затрудняет использование данных источников. Система выравнивания в данном случае должна предусматривать возможность поиска нечеткого соответствия с возможностью пропуска и замены слов [5].

В 2015 г. был запущен проект "Война и мир. Читаем роман", в рамках которого было подготовлено 60 часов видеофрагментов, содержащих записи чтения романа. Помимо профессиональных чтецов, в записи приняли участие дети и представители различных народов. Всего представлено более 300 дикторов. Часть фрагментов была записана в естественных (не студийных) условиях. При создании систем распознавания слитной речи с большим словарем для массового использования, указанная разнородность дикторов и условий записи является важным преимуществом видеочтений "Войны и мира" перед другими источниками.

Предлагаемый в данной работе алгоритм был применен для построения обучающего аудиови-деокорпуса на основе видеочтений романа "Война и мир".

4. Алгоритм последовательного выравнивания. Предлагаемый алгоритм состоит из двух шагов: сегментации и последовательного выравнивания. На первом шаге входной аудиосигнал разбивается на небольшие фрагменты, допускающие эффективное выравнивание с использованием алгоритма Витерби. Далее выполняется последовательное выравнивание аудиофрагментов с текстом. Для этого используется специальная языковая модель, которая адаптируется с учетом обнаруженного в предыдущем фрагменте текста.

К алгоритму фрагментации предъявляются два требования:

1) длина выходных фрагментов не должна превышать двух минут;

2) каждое слово должно принадлежать фрагменту целиком.

При фрагментации используется предположение о том, что диктор не делает пауз внутри слов. При этом диктор может прерываться между фразами, чтобы верно передать интонацию или сделать вдох. Предполагается, что такие паузы встречаются не реже, чем раз в минуту. Таким образом, для выполнения фрагментации достаточно найти паузы в аудиосигнале. Для поиска пауз использовалась СММ, построенная на основе имеющейся акустической модели и включающая три состояния: речь, короткую и длинную паузы. Смесь нормальных распределений, моделирующая состояние речи, была построена путем объединения компонент смесей всех фонем акустической модели. Поиск пауз проводился с использованием алгоритма Витерби. Поскольку число состояний фиксировано, алгоритм фрагментации обладает линейной вычислительной сложностью по отношению к длине сигнала. Фрагменты длительностью в несколько секунд объединяются вместе, поскольку качество следующего шага алгоритма (последовательного выравнивания) увеличива-

ется при уменьшении числа фрагментов. Таким образом, длительности фрагментов, на которые разбивается входной сигнал, составляют 1 2 минуты.

Алгоритм последовательного выравнивания по очереди обрабатывает все фрагменты, от первого до последнего. Для выравнивания каждого фрагмента используется языковая модель, включающая весь невыровненный прежде текст. После каждого слова возможно завершение выравнивания. Схема языковой модели представлена на рис. 1.

Рис. 1. Языковая модель выравнивания

После обработки каждого фрагмента генерируются не только временные отметки произнесения слов, но также последовательность обнаруженных слов, длина которой заранее неизвестна. После выравнивания фрагмента обнаруженные слова исключаются из языковой модели и происходит переход к следующему фрагменту. Если после выравнивания последнего фрагмента остались нераспознанные слова, алгоритм завершается с сообщением об отказе.

Традиционный алгоритм Витерби выполняет отсечение гипотез на каждом шаге, но оставляет при этом некоторое, порой весьма большое, их количество. Предложенный алгоритм выполняет отсечение гипотез значительно реже, но оставляет только лучшую из них. Эта особенность, как будет показано в следующем пункте, позволяет делать оценки качества алгоритма на длинных фрагментах, исследуя его качество на коротких фрагментах речи.

Поскольку сложность алгоритмов выравнивания пропорциональна длине входного текста, то включать входной текст целиком в языковую модель при распознавании небольших фрагментов нецелесообразно. Можно произвести оценку длины текста, достаточного для выравнивания фрагмента на основе статистического анализа длительностей фонем. Распределение длительностей фонем может быть оценено в процессе обучения акустической модели или извлечено непосредственно из модели. Пусть длительность фонемы ср описывается нормальным распределением N([1^,(7^). Пусть случайная величина £ соответствует темпу речи диктора, а длительность фонемы {р, произнесенной диктором, задается формулой + Пусть распределение темпов речи нормально. Тогда I ~ N(0,1), поскольку Уаг(/^ + = = а2. С вероятностью 0.999 можно утвер-

ждать, что t < 3. Тогда достаточно включить в языковую модель текст, ожидаемая длительность которого, исходя из фонетической транскрипции, в три раза превосходит длительность сигнала.

5. Анализ точности и устойчивости. Точность алгоритма оценивалась по доле неверно выровненных слов. Слово считалось верно выровненным, если распознанные границы слова смещены не более чем на 20 мс, что составляет шаг окна при вычислении векторов признаков. Оценка проводилась на специально подготовленном тестовом корпусе, содержащем фрагменты видеочтений романа "Война и мир" с разметкой 4958 слов. Соотношение сигнал/шум для разных частей указанного корпуса составило от ^5 дБ до 30 дБ со средним значением 20 дБ. Алгоритм допустил 62 ошибки. Пусть алгоритм неверно выравнивает слово с некоторой фиксированной вероятностью, а ошибки выравнивания слов представляют собой серию испытаний Бернулли. Тогда с вероятностью 95% можно оценить точность предложенного алгоритма снизу величиной С} = 96.6%. Данная оценка получена для коротких фрагментов. Для длинных фрагментов оценка будет представлена в конце пункта.

Важным оказывается вопрос об устойчивости алгоритма и вероятности отказа при выравнивании сегмента заданной длины. Для исследования этого вопроса рассмотрим модель изменения накопленной алгоритмом ошибки при переходе от сегмента к сегменту в процессе последовательного выравнивания. Под накопленной ошибкой будем понимать величину смещения первого слова невыровненного текста (гипотезы) относительно первого слова аудиофрагмента. Будем измерять смещение в количестве слов. Смещение может быть как положительным, так и отрицательным. Нулевое смещение свидетельствует о том, что первое выравниваемое слово совпадает с первым словом, произнесенным диктором. Будем считать, что изменение смещения при переходе к следующему сегменту зависит только от текущей накопленной ошибки, т. е. обладает марковским свойством.

Можно выделить два основных типа поведения алгоритма. Если смещение мало, то высока вероятность того, что после применения алгоритма Витерби конец сегмента окажется правильно выровненным. Тогда смещение гипотезы для следующего сегмента будет мало или равно нулю. Другой тип поведения возникает, когда смещение велико. Тогда выравниваемый текст не связан с произносимым, и поведение алгоритма описывается моделью случайного блуждания. Процесс изменения смещения в данном случае соответствует цепи Маркова с дискретным временем. На рис. 2 представлена диаграмма состояний марковского процесса изменения смещения гипотезы, которое отражает величину накопленной алгоритмом ошибки. Случайное блуждание представлено двумя состояниями и отражающими выход из окрестности нуля в положительную и отрицательную области. Попадание в состояние говорит о том, что в ходе случайного блуждания смещение никогда не вернется в окрестность нуля. Эта ситуация соответствует сбою в работе алгоритма и приводит к отказу от выравнивания.

Рис. 2. Диаграмма состояний цепи Маркова, описывающей изменение накопленной алгоритмом ошибки

Невозможно провести точную границу между двумя рассмотренными типами поведения алгоритма. Условимся считать, что при смещении в три слова начинается случайное блуждание. Поскольку на практике возврат в окрестность нуля с большой вероятностью возможен и при смещении большем двух, то оценки качества, полученные с использованием данной модели, будут оценками снизу. В ходе работы была проведена оценка матрицы переходов в окрестности нулевого смещения и вероятности переходов случайного блуждания. Оценка проводилась с использованием описанного выше тестового корпуса. Для оценки вероятностей переходов случайного блуждания была проведена серия экспериментов, в ходе которых алгоритму выравнивания подавалась заранее неверная транскрипция. Смещение вычислялось как разность числа выровненных слов и числа произнесенных диктором слов. Распределение вероятностей переходов имеет среднее значение —15 и стандартное отклонение в 11 слов.

п

Утверждение 1. Пусть имеется цепь Маркова уп = ^ х^, х^ одинаково распределены

г=1

и Е.Тг < 0. Тогда уп —» ^ос почти наверное.

п—>ос

Доказательство. Пусть Ехн = /х < 0 и Уаг хн = а2, тогда

п п п

у,,, = = х% г^ + щ1 = 6 + пц.

1=1 1=1 * 1=1

Для суммы центрированных случайных величин с единичными дисперсиями ^ выполняется закон повторного логарифма. Возьмем произвольное е > 0, тогда

п

ЗЫ : Уп N ^ & < \/2п1п1пп + е. 1=1

Последнее неравенство выполняется почти наверное. Для уп имеем

/г-:—:- /— Г--:—:- / а/(Те + П/Л \

уп < у'2апттп + у/ае + пц = \ 2anmmn 1 Н----= -> —ос.

\ у'2ап 1п 1пп/ п^ос

Утверждение доказано.

Таким образом, смещение со временем стремится к ^оо и Р(5+ —> З^,) = 0.

Утверждение 2. В условиях предыдущего утверждения Р(тахуп < 0) > 0.

Доказательство. Пусть Р(тахуп < 0) = 0. Тогда Р(тахуп ) 0) = 1 и последовательность уп почти наверное принимает значения большие 0 бесконечное число раз, что противоречит сходимости в утверждении 1. Утверждение доказано.

Следовательно, Р(5_ ^ в ж) > 0 и алгоритм является неустойчивым в пределе.

Была проведена численная оценка вероятностей и времени возврата из состояний и что позволило оценить вероятности переходов марковского процесса. Переходы в окрестности нуля оценивались путем внесения искусственного смещения в выравниваемый текст и измерения смещения после выравнивания фрагмента. Полученные вероятности переходов Р(А ^ В) марковского процесса, выраженные в процентах, представлены в табл. 1.

Табл и ца 1

А В

5"оо 5_ -2 -1 0 1 2

^СО 100 0 0 0 0 0 0 0

70 23 1 1 4 1 0 0

-2 0 2 2 5 90 1 0 0

-1 0 1 2 4 91 2 0 0

0 0 0 1 5 94 0 0 0

1 0 0 0 2 79 7 5 7

2 0 0 0 2 58 10 9 21

0 0 0 2 49 28 12 9

Анализ вероятностей переходов марковского процесса показал, что вероятность отказа алгоритма на каждом шаге стремится к 0.22%. Ожидаемая доля отказов для двухчасовых сегментов речи меньше 14%. Если алгоритм корректно завершил свою работу, то доля сегментов, выравнивание которых происходило со смещением больше двух слов (алгоритм находился в состояниях ¿>_ и оценивается величиной 0.23%, а без смещения — 93.49%.

Поскольку среднее время, проведенное в состоянии ¿>+ до возвращения в окрестность нулевого смещения, составляет (1 — Р(5+ —> 5_|_))_1 < 1.1, т.е. возврат происходит почти сразу, то достаточно генерировать отказ только в случае наличия невыровненных слов по завершении работы алгоритма.

Ранее была получена оценка точности алгоритма на коротких сегментах при условии выравнивания без смещения. Нижняя оценка точности для длинных сегментов получается умножением точности алгоритма на коротких фрагментах и доли коротких фрагментов, выровненных без смещения. Таким образом, финальная оценка точности составляет 91%. На практике все фрагменты, выровненные с небольшим смещением оказываются правильно выровненными в середине, т. е. реальная оценка точности значительно выше и может быть приближена дополнительной оценкой качества алгоритма на фрагментах с небольшим смещением гипотезы.

6. Заключение. В работе был предложен новый алгоритм последовательного выравнивания аудиосигнала и текста. Предложенный алгоритм может применяться для выравнивания ау-диокниг и других источников в условиях ограниченного объема обучающих данных, пригодных для построения акустической модели речи. Алгоритм обладает линейной вычислительной сложностью в зависимости от длины фрагмента. Доля верно выровненных слов для реализованной системы на рассмотренной тестовой базе составляет 96%. Доля отказов для сегментов длиной 2 часа при отсутствии ошибок в транскрипции оценивается величиной 14%.

Алгоритм был применен к выравниванию видеофрагментов чтений романа "Война и мир" и построению обучающего речевого корпуса на его основе. При выравнивании в 8% случаев алгоритм сгенерировал отказ. В большинстве случаев отказ был вызван сильными отклонениями транскрипции от произнесенного текста. В результате был построен обучающий речевой видеокорпус русского языка объемом 50 часов, содержащий фрагменты речи более чем 300 дикторов. Полученный корпус отличается большим разнообразием дикторов, произношений и условий записи.

В табл. 2 представлены средние значения и стандартные отклонения характеристик полученного аудиовизуального корпуса. Ось Z считается направленной вертикально, ось X — горизонтальна и параллельна камере, а ось У — перпендикулярна камере.

Таблица 2

Отношение сигнал/шум, дБ Размеры контура губ, пике. Поворот головы

Ширина Высота X Y Z

Среднее значение 20 98 100 12° 0.3° 2°

Стандартное отклонение 7 28 30 9° 7° 15°

Полученный корпус может использоваться как для расширения обучающих аудиокорпусов, так и для построения системы аудиовизуального распознавания речи.

СПИСОК ЛИТЕРАТУРЫ

1. Кривнова О.Ф. Речевые корпуса на новом технологическом витке // Речевые Технологии. 2008. № 2. С. 13-23.

2. Бабин Д.Н., Мазуренко И. JL, Холоденко А.Б. О перспективах создания системы автоматического распознавания слитной устной русской речи // Интеллектуальные системы. 2004. 8. № 1-4. С. 45-70.

3. Gales М., Young S. The application of hidden Markov models in speech recognition // Foundations and Trends in Signal Processing. 2008. 1. N 3. P. 195-304.

4. Brugnara F., Falavigna D., Omologo M. Automatic segmentation and labeling of speech based on hidden Markov models // Speech Communication. 1993. 12. N 4. P. 357-370.

5. Haubold A., KenderJ. Alignment of speech to highly imperfect text transcriptions // Proceedings of International Conference on Multimedia and Expo. Piscataway: IEEE, 2007. P. 224-227.

6. Stan A., Bell P., King S. A grapheme-based method for automatic alignment of speech and text data // Spoken Language Technology Workshop. Piscataway: IEEE, 2012. P. 286-290.

7. AngueraX., Luque J., GraciaC. Audio-to-text alignment for speech recognition with very limited resources // Proceedings of Annual Conference of the International Speech Communication Association INTERSPEECH. Singapore: ISCA, 2014. P. 1405-1409.

8. Graves A., Mohamed A., Hinton G. Speech recognition with deep recurrent neural networks // Proceedings of International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE, 2013. P. 6645-6649.

9. Hinton G., Deng L, Yu D., et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups // Signal Processing Magazine. 2012. 29. N 6. P. 82-97.

10. Moreno P. A recursive algorithm for the forced alignment of very long audio segments // Proceedings of International Conference on Spoken Language Processing (ICSLP). N 6. Canberra: ASSTA, 1998. P. 27112714.

11. Hazen T. Automatic alignment and error correction of human generated transcripts for long speech recordings // Proceedings of Annual Conference of the International Speech Communication Association INTERSPEECH. Singapore: ISCA, 2006. P. 1606-1609.

Поступила в редакцию 07.09.16

i Надоели баннеры? Вы всегда можете отключить рекламу.