SIRIUS система дикторонезависимого распознавания слитной русской речи

Карпов А.А.; Ронжин А.А.; Ли И.В.

А.А. Карпов, А.Л. Ронжин, И.В. Ли

SIRIUS - СИСТЕМА ДИКТОРОНЕЗАВИСИМОГО РАСПОЗНАВАНИЯ СЛИТНОЙ РУССКОЙ РЕЧИ

Информационные технологии все больше и больше проникают в повседневную жизнь каждого человека. Технические устройства развиваются в сторону интеллектуализации и автоматизации предоставляемых ими сервисов и услуг. Особенно активно развиваются системы искусственного интеллекта, связанные с распознаванием образов, анализом изображений и речи. В последнее время как исследователи, так и конечные пользователи, особое внимание уделяют разработке и применению автоматизированных систем, построенных с использованием систем распознавания речи. Речевые технологии находят все большее распространение в робототехнике, системах управления оборудованием, средствах телекоммуникаций.

Такие приложения уже являются реальностью в странах США и Европы. В России сейчас также предпринимаются попытки разработать и внедрить подобные системы и сервисы. Основной проблемой здесь является трудность применения технологий распознавания речи для русского языка из-за сложного механизма словообразования. В отличие от, скажем, английского языка русский язык обладает гораздо большей вариативностью на уровне словоформ. В связи с этим резко возрастает размер распознаваемого словаря и падает точность. Попытки наложения синтаксических ограничений на распознаваемые фразы приводят к тому, что ошибки на уровне окончаний слов или приставок приводят к ошибке распознавания всей произнесенной фразы. Кроме того, естественная речь содержит множество неточностей и отклонений, которые не могут быть учтены заранее. Неудача существующих на рынке подходов к распознаванию и пониманию речи состоит в том, что они не обладают достаточной робастностью алгоритмов распознавания и понимания речи к различным возможным искажениям сигнала на входе системы и собственным ошибкам обработки, а также имеют недостаточно высокую точность работы.

Для решения указанных проблем группой речевой информатики Санкт-Петербургского института информатики и автоматизации Российской академии наук (СПИИРАН) был введен дополнительный уровень представления языка и речи - морфемный уровень [1] и разработана оригинальная система распознавания русской речи SIRIUS (SPIIRAS Interface for Recognition and Integral Understanding of Speech) [2]. За счет разделения словоформ на морфемы словарь распознаваемых лексических единиц значительно сократился, так как в процессе словообразования часто используются одни и те же морфемы. На основе правил словообразования русского языка были разработаны базы данных различных типов морфем, а также методы автоматической обработки текстов. Разработанные базы данных морфем далее использовались для накопления статистики встречаемости морфем по текстовым корпусам, причем в ходе распознавания основное значение имеет степень согласованности корневых морфем. В результате такой обработки скорость распознавания и устойчивость к синтаксическим отклонениям в произнесенной фразе увеличились.

В процессе создания лексических баз данных использован базовый словарь А. А. Зализняка размером около 160000 слов [3]. При распознавании слитной речи обеспечена дикторонезависимость по отношению к носителям русского языка, а также точность свыше 90% на словаре около 2000 слов конкретной предметной области. Кроме того, модель была опробована при распознавания речи через теле-

фонный канал. Представлены предварительные результаты и методы, использованные для очистки речевого сигнала от шумов. Разработанные модули и базы данных собраны в единый аппаратно-программный комплекс для автоматического ввода и распознавания русской речи.

Особенности распознавания русской речи

На сегодняшний день активнее всего ведутся исследования и разработки систем автоматического распознавания английской речи, поэтому далее приведем несколько отличий русского и английского языков, а также укажем ряд проблем, возникающих при распознавании русской речи.

В русском языке по сравнению с английским существует более сложная структура словообразования (из-за того, что русский язык является синтетическим языком), в результате чего необходимо использовать гораздо больший распознаваемый словарь, что значительно уменьшает точность и скорость распознавания. В передовых системах распознавания речи для английского языка фирм Microsoft, Scansoft, IBM используется словарь в 100-150 тысяч слов. Для русского языка за счет наличия приставок, суффиксов и окончаний этот словарь возрастает на порядок и более. Грамматический словарь А. А. Зализняка содержит около 160 тысяч наиболее употребительных слов русского языка; при помощи специальной системы обозначений он позволяет построить все словоформы для выбранного слова. При развороте всех словарных статей получается около 3,7 млн. словоформ. Кроме того, большинство словоформ одного и того же слова отличаются только в окончаниях, которые произносятся обычно не так четко, как начала слов. А ошибки в окончаниях при распознавании слов приводят к тому, что происходит ошибка в распознавании всей фразы из-за несогласованности слов.

Порядок слов в предложении русского языка не задан жестко, а может варьироваться без потери смысла предложения, в английском же языке используются жесткие грамматические конструкции. Это затрудняет создание статистических моделей языков на основе биграмм или N-gram, а также грамматик для русского языка, и понижает их эффективность.

В международном фонетическом алфавите SAMPA для русского языка принято 44 фонемы: 38 фонем согласных звуков и 6 фонем гласных звуков. В американском варианте английского языка фонетический алфавит SAMPA насчитывает 41 фонему: 24 согласных и 17 гласных (включая целый ряд дифтонгов). Очевидно, что распознавание согласных звуков сложнее, чем гласных, из-за того, что они менее стабильны, чем гласные, и имеют гораздо меньшую длительность.

В русском языке слова - в среднем более длинные, чем в английском языке, что замедляет процесс распознавания, так как необходимо анализировать более длинные участки сигнала.

Сложность распознавания русской речи связана также с тем, что Россия является многонациональной страной и каждая нация владеет, помимо русского языка, еще и национальным. В результате русскоговорящее население обладает большой вариативностью национальных акцентов и стилей произношения, которые весьма сложно учесть при создании дикторонезависимых систем распознавания речи, поскольку необходимо создавать очень большие базы данных обучения акустических моделей.

Для создания эффективных систем распознавания для английского языка существуют многочисленные речевые базы данных (обычной речи, телефонной, и т.д.), в том числе и свободно доступные. Для русского языка такие базы данных пока только начинают создаваться и, как правило, являются закрытыми для общего пользования.

В следующих разделах будет предложено решение проблем автоматического распознавания русской речи, учитывающее указанные трудности и специфику русского языка.

Обучение системы распознавания речи

При создании дикторонезависимой системы распознавания речи возникает необходимость обучения акустико-лексических моделей этой системы.

На рис. 1 представлен процесс создания баз данных и словарей, необходимых для обучения дикторонезависимой системы распознавания речи [4]. При распознавании речи используется словарь распознаваемых транскрибированных лексических единиц - слов или морфем (как в системе SIRIUS), поэтому при обучении системы распознавания речи и создании акустико-лексических баз данных необходимо использовать модули транскрибирования и морфемной сегментации.

Модуль транскрибирования осуществляет преобразование текстов предметной области в фонетическую транскрипцию. На вход модуля поступают: набор предложений, составляющих тексты; словарь слов из этих предложений, разбитый на морфемные единицы; словарь словоформ, полученных из базовых форм слов русского языка с отметкой ударного слога (слогов); используемый фонетический алфавит и фонетические правила. Результатом работы модуля транскрибирования является транскрибированный словарь словоформ предметной области, разбитый на морфемы.

— t —-> t — С ^5 fZ 4

Акустические модели фонем Список фонем ПО Словарь транскрибирован ных морфем ПО - Фонемный алфавит Набор правил синтаксического анализа

Рис. 1. Базы данных модели распознавания русской речи

В качестве фонетического алфавита мы использовали набор, состоящий из 48 фонем: 12 - для гласных звуков (с учетом ударных вариантов) и 36 - для согласных (с учетом твердости и мягкости звуков).

Необходимой частью автоматических процедур словообразования и морфемной сегментации являются базы данных различных типов морфем, поэтому достаточно большая часть времени была уделена их созданию.

Построение базы данных морфем было осуществлено на основе печатных изданий. Большая часть корневых морфем (около 4000) была взята из словаря морфем русского языка А.Н. Кузнецовой [5], а различные фиксальные морфемы и флексии - из словаря «Русская грамматика» [6]. Кроме того, в дальнейшем при создании целого ряда приложений словарь морфем постоянно пополнялся и сейчас составляет около 5000 морфем.

На основе разработанных лексических баз данных можно строить любые приложения, лексика которых покрывается данным словарем. Поэтому разработанные в ходе исследования базы данных можно разбить на две группы: (1) словари и правила русского языка и (2) словарь, формируемый для конкретной предметной области (ПО). В ходе подготовки конкретного приложения также возможна модификация, дополнение основных словарей. Построение баз данных (в том числе, словаря морфем) конкретной предметной области начинается с анализа фраз ПО, формируется словарь ПО, далее производится разбиение слов на морфемы, при этом если находятся новые морфемы, то они добавляются в исходный словарь морфем.

Разбиение слова на морфемы осуществляется путем подбора различных типов морфем с учетом правил следования морфем в одном слове. В таб. 1 возможные пары типов морфем отмечены знаком «+». При получении недопустимой пары «—» данная гипотеза разбиения слова на морфемы откидывается и поиск продолжается дальше, пока не обнаруживается конец слова «STOP».

Разработанные базы данных морфем использовались для создания морфемной модели языка, строящейся на основе статистики встречаемости различных пар морфем. Для первичной оценки работоспособности модуля создания модели языка были использованы доступные в Интернете текстовые корпуса. Из них был создан текст общим объемом около 50 Мб, который потом был предварительно обработан и все слова в нем были разбиты на морфемы. При этом сохранялась разметка на предложения и слова, а морфемы помечались, к какому типу они принадлежат. В результате анализа текста был получен словарь морфем размером около 5000 морфем, разбитых на 5 типов и получены вероятности встречаемости всех пар морфем.

Таблица согласования типов морфем в слове _______________________________________________________Таблица 1

Тип текущей морфемы Тип следующей морфемы

Приставка Корень Интер- суффикс Суффикс Окончание

нет + + — — —

Приставка + + — — —

Корень STOP STOP + + +

Интер-суффикс + + — — —

Суффикс — — — + +

Окончание STOP STOP STOP STOP —

Акустическое моделирование в нашей системе основано на Скрытых Марковских Моделях (СММ) [7]. Марковские модели довольно содержательны по своей математической структуре, поэтому они стали теоретическим фундаментом для различных областей исследований, а не только языка и речи. СММ речевого сигнала позволяет не только решать задачи распознавания речи, но также улучшать

качество сигнала, загрязненного шумами и искажениями, моделировать источник речевого сигнала, оптимизировать структуру диалога и др.

В СММ суть распознавания сводится к оценке правдоподобия принадлежности входной последовательности (наблюдаемой) к данной гипотетической модели. Проблема обучения акустических моделей очень важна для большинства приложений, так как именно во время обучения происходит, в соответствии с выбранным критерием оптимальности, подстройка значений параметров модели по данным наблюдений, в результате чего создается модель, наилучшим образом соответствующая реальному явлению. Каждая базовая распознаваемая единица (фонема, аллофон или трифон) представляется некоторым типом скрытой марковской модели, настройка параметров которой осуществляется по обучающему множеству речевых данных. Необходимо учитывать, что обучающее множество акустических данных для СММ должно быть достаточно велико, чтобы учитывать возможный спектр пользователей системы. В качестве акустических моделей мы использовали многокомпонентные непрерывные СММ с гауссовской функцией распределения вероятностей появления векторов. Для параметризации сигнала использовались те1-частотные кепстральные коэффициенты с их первой и второй производной. Для выделения полезного речевого участка из шума нами был разработан и применен метод, основанный на вычислении спектральной энтропии сигнала [8]. Для определения границ речи используется критерий отличия значений энтропии для речевых сегментов и для фонового шума.

Фонемы использовались в виде трифонов (фонем в определенном фонетическом контексте). СММ трифонов имеют 3 значащих состояния (и 2 “пустых” состояния, предназначенных для объединения моделей трифонов в модели морфем). Процесс обучения СММ осуществлялся путем последовательного выполнения следующих процедур.

1. Инициализация СММ фонем.

2. Обучение СММ фонем на обучающих речевых БД (алгоритм Витерби).

3. Переход от моделей фонем к моделям трифонов и их инициализация.

4. Обучение СММ трифонов на речевых БД (алгоритм Витерби).

5. Объединение похожих моделей трифонов, имеющих небольшое количество обучающих данных.

6. Последовательное увеличение числа компонентов гауссовых смесей моделей с одновременным обучением на речевых БД.

Для отработки методов автоматического обучения необходимо использование речевых баз данных, содержащих акустические файлы, а также их фонетические транскрипции, разметку акустического сигнала по фонемам, морфемам, словам и фразам. Для обучения СММ были заранее подготовлены обучающие тексты (отдельные предложения предметной области). На основе полученного материала была произведена описанная выше процедура обучения акустических моделей (СММ трифонов).

Таким образом, описанный процесс формирования лексических баз данных для конкретной предметной области и обучения акустических моделей позволяет далее строить различные приложения, использующие распознавание речи. Разработанные методы и модули для распознавания русской речи, а также процесс обработки речевого сигнала подробно описаны в следующем разделе.

Механизм распознавания слитной русской речи

Подготовленные базы данных конкретной предметной области, а именно: транскрибированный словарь морфем ПО, морфемная модель языка ПО, список фонем ПО и набор акустических моделей фонем ПО далее используются в ходе

распознавания речи. Однако если при подготовке баз данных мы анализировали фразы, разбивая их на фонемы, то теперь будет осуществляться обратный процесс: из наиболее вероятных цепочек фонем последовательно синтезируются морфемы, слова и фразы (рис. 2).

Речевой сигнал, поступающий с микрофона, в первую очередь проходит этап параметрического представления, где отрезаются начальные и конечные паузы в сигнале, а оставшийся участок кодируется в последовательность векторов признаков, которая уже следует в модуль распознавания фонем. При распознавании фонем (которые используются в форме трифонов) и формировании морфем используются методы скрытого марковского моделирования и смесей гауссовских распределений. В отличие от существующих аналогов в нашей модели вместо слов используются морфемы. За счет этого на этапе распознавания лексических единиц было получено существенное увеличение в скорости. При этом по сравнению с распознаванием целых слов точность распознавания морфем несколько снизилась, но за счет последующих уровней обработки точность распознавания фраз практически не изменилась.

Речевой сигнал

_______1______

Акустические модели фонем

Параметрическое

представление

Подбор фонем

Словарь

транскрибированных

морфем ч

Морфемная модель языка ПО

Правила

словообразования

Подбор морфем

Синтез слов

Семантикосинтаксический анализ

Синтез фразы

I

Гипотеза фразы

Рис. 2. Синтез фразы из речевого сигнала

После распознавания фонем и подбора наиболее вероятных цепочек морфем получившийся набор гипотез далее используется для формирования цепочек слов. Синтез слов из различных типов морфем осуществляется по схеме, представленной на рис. 3. В данной модели заданы начальное и конечное состояния, а в остальных узлах присутствуют все возможные типы морфем. Дугами обозначены возможные переходы. В будущем, возможно, эта модель будет вероятностной, а пока максимальное количество переходов из состояния в состояние заданы жестко. На этом этапе обработки на основе каждой поступившей гипотезы фразы, представленной в виде последовательности морфем, формируется еще несколько гипотез, представленных последовательностью гипотез слов.

1

Последним этапом обработки является синтез фразы. На входе этого уровня мы получаем цепочку слов, составляющую произнесенное высказывание. Однако процент ошибок распознавания слов здесь достаточно высок. Было выяснено, что большинство ошибок в словах происходят из-за ошибок в распознавании окончаний слов, которые произносятся не так четко, как начала слов. А ошибки в окончаниях при распознавании слов приводят к тому, что происходит ошибка в распознавании всей фразы из-за несогласованности слов в предложении. Для того чтобы исправить эти ошибки, мы используем морфологический анализ предложения и грамматические правила русского языка. Таким образом, на выходе системы распознавания речи мы получаем цепочку слов, составляющих предложение.

Таким образом, в результате исследований созданы базы данных различных типов морфем русского языка, программные модули для автоматизации процессов словообразования и морфологического разбора, программный модуль для накопления статистики встречаемости морфем по текстовому материалу, а также другие программные средства, необходимые для создания системы распознавания русской речи с большим словарем.

Применение системы SIRIUS

Для отладки и тестирования система распознавания русской речи была внедрена в электронный каталог «Желтые страницы Санкт-Петербурга», который доступен по адресу www.vell.ru, с целью создания единой автоматизированной справочной системы для поиска адресов и телефонов организаций, необходимых пользователю, при помощи обычного телефона [9]. В данный момент реализована задача голосового ввода и поиска названий рубрик в данном каталоге.

Создание автоматизированной справочной системы с голосовым доступом к ресурсам электронного каталога посредством телефона (автоматизированный call-центр) позволит использовать для ответов на звонки абонентов не операторов-людей, а систему распознавания речи с генерацией речевых ответов.

В системе имеется свыше 1600 рубрик (например, “спортивные клубы” или “институты академии наук”), в названии которых 1850 различных слов. При разбиении слов этого словаря на морфемы размер распознаваемого словаря сократился до 1360. Не очень значительное сокращение связано со спецификой задачи. Во-первых, такие части речи как глагол, причастие, местоимение, имеющие особенно сложную структуру словообразования, употреблялись достаточно редко. Во-вторых, практически все существительные и прилагательные употреблялись только в именительном падеже во множественном числе (как это сделано в самом электронном каталоге). В то же время применение морфемного анализа при разборе произведения М. А. Булгакова «Мастер и Маргарита», дало уменьшение словаря почти в 8 раз (словарь слов 22984, словарь морфем 2920). Поэтому при создании стенографической системы реального времени с большим или средним словарем

5G

введение морфемного уровня будет иметь решающую роль в плане точности и скорости распознавания.

Для тестирования было предложено 635 фраз, записанных в офисных условиях. В эксперименте участвовало 5 дикторов. Записанные файлы были пропущены через модель целословного распознавания, а затем через морфемноориентированную модель распознавания с последующим словообразованием. Результаты экспериментов представлены в табл. 2. По сравнению с первой моделью точность распознавания морфем несколько снизилась, но за счет последующих уровней обработки точность распознавания фраз практически не изменилась.

Сравнение моделей распознавания по точности ______________________________________________________Таблица 2

Целословное распознавание Морфемно-ориентированное распознавание

Дикт. Точность распознавания слов Точность распознавания фраз Точность распознавания морфем Точность распознавания фраз

1 96 94 82 92

2 93 90 78 90

3 95 93 81 92

4 91 91 79 91

5 95 93 82 91

Сред. 94,0 92,2 80,4 91,2

Также был проведен тест, направленный на сравнение скорости работы распознавателя, основанного на морфемном распознавании, и целословного распознавателя. Результаты приведены в табл. 3. Общее количество тестовых фраз, содержащихся в тестовой базе данных, составило 635 (состоящих из 2574 слов). Из таблицы видно, что при использовании разработанной системы скорость возросла более чем в 1,7 раз, что при незначительном падении точности позволяет говорить о создании перспективной системы распознавания речи для больших словарей.

Сравнение моделей распознавания по скорости обработки ____________________________________________________________Таблица 3

Описание Целословное распознавание Морфемно- ориентированное распознавание

Время, затраченное на тестовый набор 2993 сек. 1740 сек.

Среднее время на одну фразу 4,71 сек. 2,74 сек.

Среднее время на одно слово 1,16 сек. 0,67 сек.

Среднее время на одну морфему - 0,47 сек.

Таким образом, разработанный модуль распознавания слитной русской речи показал достаточно высокую точность и дикторонезависимость к носителям русского языка. Следующим этапом в разработке системе голосового доступа к электронному каталогу будет исследование диалогового режима с пользователем, а также настройка системы распознавания речи к условиям работы в телефонных линиях, создание речевых баз данных, записанных в процессе диалога пользователя с системой через телефонный канал.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Распознавание речи через телефонный канал

При внедрении системы SIRIUS для задачи распознавания телефонной речи возникает проблема ухудшения качества работы системы, связанная с различными характеристиками телефонных линий и телефонных аппаратов, в частности, из-за ограничения полосы пропускания аналоговой телефонной линии полосой 04000 Гц.

Чтобы уменьшить влияние шума, вносимого каналом передачи информации, были использованы два метода очистки сигнала: полосовой фильтр (для отсекания некоторых низкочастотных шумов) и метод вычитания кепстрального среднего.

В настоящее время мы имеем результаты первых экспериментов по распознаванию телефонной русской речи [10]. В качестве аппаратного обеспечения для соединения персонального компьютера с телефонной сетью общего пользования мы использовали внутренний голосовой факс-модем 3COM US Robotics и набор функций Telephone API для работы с телефонным устройством. Это наиболее простая, но не самая качественная версия соединения? и далее планируется использовать для соединения с телефонной линией многоканальные платы Intel Dialogic для аналоговых телефонных линий.

Далее представлены результаты экспериментов по использованию CMS и полосового фильтра для распознавания телефонной речи. В ходе наших экспериментов наилучшие показатели продемонстрировал полосовой фильтр 210-4000 Гц. Рис. 4 показывает результаты распознавания речи в трех аналоговых телефонных линиях с различными техническими характеристиками (три столбца).

% 40

35

30

25

20

15

10

5

0

Без фильтров Фильтр 210-4000 Гц

CMS

Два фильтра

Рис. 4. Процент ошибок распознавания фраз при различных методах фильтрации

Эта прикладная задача была связана с распознаванием произносимых через телефон русских цифр от 0 до 1000. Очевидно, что лучшие результаты показаны при использовании обоих методов фильтрации.

Таким образом, для решения задачи устойчивого распознавания речи в условиях телефонного разговора необходимо применение эффективных средств цифровой фильтрации и очистки сигнала от фонового шума. Для обучения и дальнейшего тестирования дикторонезависимой модели распознавания будет собрана база данных телефонной русской речи, созданная при использовании аналоговых телефонных линий.

Заключение

Исследование проблем автоматического понимания/распознавания речи является важным фундаментальным направлением. Эта проблема сейчас сдерживает развитие всевозможных систем взаимодействия человека с машиной. Представленная модель голосового интерфейса в первую очередь направлена на учет осо-

бенностей русской речи. Нами был разработан и опробован новый морфемный метод представления языка и речи. Он показал высокое качество и устойчивость работы на словаре до 2000 слов конкретной предметной области. Разработаны базы данных различных типов морфем и получена статистика встречаемости пар морфем по текстовым корпусам. В результате такой обработки обеспечивается инвариантность к грамматическим отклонениям, а также увеличивается скорость распознавания русской речи и других языков со сложным механизмом словообразования (в частности, славянских языков).

Последующие работы направлены на увеличение размера распознаваемого словаря, а также настройку системы распознавания русской речи SIRIUS к работе с телефонным каналом. При внедрении системы распознавания речи в телекоммуникационные приложения будут учтены проблемы, связанные со спецификой телефонных линий и различиями характеристик телефонных аппаратов. Накопленные речевые и лексические базы данных будут использованы для дальнейшего изучения механизма понимания речи и создания эффективных средств человекомашинного взаимодействия.

Кроме того, планируется использовать разработанную систему SIRIUS для создания многомодальной системы аудио-визуального распознавания русской речи. Дополнительное использование информации об артикуляции губ позволит увеличить точность распознавания в приложениях, функционирующих в условиях повышенного уровня акустического шума.

Данные исследования проводятся при финансовой поддержке Правительства Санкт-Петербурга, Европейского Сообщества SIMILAR Network of Excellence FP6:IST-2002-507609, а также проекта INTAS № 04-77-7404 “Development of multivoice and multi-language Text-to-Speech (TTS) and Speech-to-Text (STT) conversion system (languages: Belarussian, Polish, Russian)”.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Ronzhin A.L., Karpov A.A. Implementation of morphemic analysis for Russian speech recognition. In Proc. of 9-th International Conference SPEC0M2004, St. Petersburg, Russia,

2004, pp.291-296.

2. Ronzhin A.L., Karpov A.A. Large Vocabulary Automatic Speech Recognition for Russian Language. In Proc. of Second Baltic Conference on Human Language Technologies, Tallinn, Estonia, 2005, pp. 329-334.

3. ЗализнякА.А. Грамматический словарь русского языка. М., 1977.

4. Ronzhin A.L., Karpov A.A. Voice Access System for Yellow Pages Service. In Proc. of 3-rd IEEE International Conference: Sciences of Electronic, Technologies of Information and Telecommunications SETIT 2005, Tunisia, 2005.

5. Кузнецова А.И., Ефремова Т.Ф. Словарь морфем русского языка: Ок. 52000 слов.- М.: Рус. яз., 1986. 1136 C.

6. Академия наук СССР. Институт русского языка. «Русская грамматика».

М.: Наука, 1980.

7. Young S. et al. The HTK Book (v3.0), Cambridge University Engineering Department, September 2000.

8. Карпов А.А. Робастный метод определения границ речи на основе спектральной энтропии // Научно-теоретический журнал «Искусственный интеллект», Донецк, Украина, 2004. №4. c. 607-613.

9. Karpov A.A., Ronzhin A.L. Speech Interface for Internet Service Yellow Pages. Intelligent Information Processing and Web Mining: Advances in Soft Computing, Springer-Verlag,

2005, pp. 219-228.

10. Ronzhin A.L., Karpov A.A., Li I.V. Russian Speech Recognition for Telecommunications. In Proc. of 10-th International Conference SPEC0M'2005, Patras, Greece, 2005, pp.491-494.

SIRIUS система дикторонезависимого распознавания слитной русской речи Текст научной статьи по специальности «Компьютерные и информационные науки»

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карпов А. А., Ронжин А. А., Ли И. В.

Текст научной работы на тему «SIRIUS система дикторонезависимого распознавания слитной русской речи»