Научная статья на тему 'Автоматическое определение границ предложений в потоковом режиме в системе распознавания русской речи'

Автоматическое определение границ предложений в потоковом режиме в системе распознавания русской речи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1452
75
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОПРЕДЕЛЕНИЕ ГРАНИЦ ПРЕДЛОЖЕНИЙ / МАШИННОЕ ОБУЧЕНИЕ / КЛАССИФИКАЦИЯ ДАННЫХ / АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ / END-OF-SENTENCE DETECTION / COMPUTER-AIDED TRAINING / DATA CLASSIFICATION / AUTOMATIC SPEECH RECOGNITION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чистиков Павел Геннадьевич, Хомицевич Ольга Гурьевна

Описан подход к решению задачи деления речевого сигнала на предложения, который является необходимым шагом для автоматического распознавания слитной речи. Представлена модель, которая предсказывает вероятности границ предложений, основываясь только на просодической информации - частоте основного тона, энергии и длине пауз. Алгоритм работает в потоковом режиме и определяет вероятность границы предложения для каждого разрыва основного тона. Далее эти данные используются как дополнительная информация для языковых моделей, применяемых в системе распознавания.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Чистиков Павел Геннадьевич, Хомицевич Ольга Гурьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automatic End-of-Sentence Detection in Streaming Mode of the Russian Speech Recognition System

An approach to solving the problem on dividing a voice signal into sentences is described, which is a necessary step for the automatic recognition of the continuous speech. The model is presented which predicts the probabilities of end of sentences based only on the prosodic information: pitch frequency, energy and pause length. The algorithm operates in the streaming mode and determines the end-of-sentence probability for each break of the pitch. These data are used further as additional information for language models applied in the recognition system. Refs. 13. Figs. 1. Tabs. 2.

Текст научной работы на тему «Автоматическое определение границ предложений в потоковом режиме в системе распознавания русской речи»

УДК 519.688

П. Г. Чистиков, О. Г. Хомицевич

АВТОМАТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ГРАНИЦ ПРЕДЛОЖЕНИЙ В ПОТОКОВОМ РЕЖИМЕ В СИСТЕМЕ РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ

Описан подход к решению задачи деления речевого сигнала на предложения, который является необходимым шагом для автоматического распознавания слитной речи. Представлена модель, которая предсказывает вероятности границ предложений, основываясь только на просодической информации - частоте основного тона, энергии и длине пауз. Алгоритм работает в потоковом режиме и определяет вероятность границы предложения для каждого разрыва основного тона. Далее эти данные используются как дополнительная информация для языковых моделей, применяемых в системе распознавания.

E-mail: chistikov@speechpro.com

Ключевые слова: определение границ предложений, машинное обучение,

классификация данных, автоматическое распознавание речи.

Определение границ предложений в системе распознавания в первую очередь служит для повышения "читабельности" результатов ее работы: когда распознаются длинные фрагменты речи, результаты распознавания должны представлять собой текст, разбитый на предложения (в идеале со знаками препинания). Наличие границ предложений также упрощает задачу классификации распознаваемой речи по темам.

В литературе представлено несколько систем определения границ предложений, большинство из них для английского языка. Многие исследователи обращают внимание на просодическую информацию, соответствующую границам предложений. Обычно для определения границ предложений в качестве начальной информации используется информация о границах слов [1-3], также некоторые из работ описывают системы, работающие исключительно с просодической информацией без использования какой бы то ни было лексической информации, получаемой в результате распознавания [4, 5]. Предлагается модель, которая использует характеристики речевого сигнала, такие как частота основного тона, длина пауз и другие для прогнозирования наличия границы предложения до начала процесса распознавания. Преимуществом данного подхода является возможность работы в потоковом режиме, что избавляет от необходимости предобработки сигнала перед определением границ предложений. Дополнительным преимуществом является возможность использования получаемых данных в качестве дополнительной информации для языковых моделей, что также способствует повышению точности распознавания.

Определение границ предложений на основе просодики. Просодическая информация для определения границ. Интуитивно понятно, что интонационные свойства речи указывают на расположение границ предложений [1,6]. Поэтому большинство систем определения границ предложений используют просодическую информацию; однако набор признаков и способы их вычисления могут быть разными. Большинство авторов используют следующие интонационные характеристики: F0 (частота основного тона), длина пауз, параметры энергии и ритм (длина фонов) [1].

Не все из этих признаков могут быть использованы, если мы не располагаем фонетической сегментацией речи. Например, параметры ритма, такие как длина слога, не могут быть вычислены, если нам неизвестны границы слогов. К тому же, дикторозависимые параметры, такие как диапазон частоты основного тона, могут быть вычислены, только если речь разных дикторов выделена заранее, и мы можем вычислить параметры F0 каждого диктора перед началом работы. Однако F0, энергия и длина пауз могут быть использованы, даже если мы не имеем информации о границах слов, слогов и фонов.

Сложности определения границ предложений. Задача деления слитной речи на предложения имеет ряд сложностей. Первая заключается в том, что термин "предложение" больше применим к письменному тексту, который разделен пунктуационными знаками. Для звучащей речи разбиение высказывания на предложения - это зачастую вопрос персонального восприятия, что ведет к проблемам уже на стадии подготовки корпусов. По этой причине для сегментации разговорной речи используются такие термины, как "элемент, подобный предложению" ("sentence-like unit", SU) [7, 8] или даже "просодический элемент" (PU) [9].

Проблемы усугубляются при рассмотрении спонтанной речи (телефонные разговоры, интервью и т.д.) в отличие от чтения или подготовленной речи (например, новостные блоки или политические выступления). Авторы работ [10-12] демонстрируют, что человеку сложно определить границы предложения в спонтанной речи. В ней зачастую отсутствуют паузы между предложениями, и в то же время могут быть большие паузы хезитации внутри предложений; наблюдается тенденция использования возрастающего тона для утверждений; также часто сложно выделить отдельные предложения, так как нет ясной структурной и семантической границы между ними. Отметим, что процент ошибок при определении границ предложений в спонтанной речи будет намного выше, чем для других типов речи, и различные наборы признаков будут соответствовать различным типам корпусов.

Данный вывод подтверждается различными исследованиями; например, в работе [1] показано, что классификатор типа "дерево решений" использует различные признаки при обучении на различных корпусах (корпус телефонных разговоров и новостной корпус, где преобладает чтение).

Описание модели. Основные принципы. Как описано ранее, основной идеей нашего алгоритма является обработка потока речи в режиме реального времени и прогнозирование наличия границы предложения сразу же, как только достигнуто место предполагаемого разрыва. Для этого речь разделяется на интервалы по 10 мс, для каждого из которых вычисляются следующие характеристики:

— речь/не речь (этот признак может принимать одно из трех значений — речь, не речь и не определено — и описывать фрагмент как речевой или как шум/паузу);

— значение частоты основного тона; значение энергии.

Набор векторов, содержащих эти значения, является входными данными для алгоритма. Выходными данными является набор вероятностей, соответствующих набору входных векторов и определяющих возможность границы между предложениями. Эти вероятности вычисляются на основе просодических параметров, описывающих большой речевой фрагмент, длина которого может быть изменена в конфигурации.

Поскольку мы не полагаемся на результаты распознавания речи для определения границ слов и не выполняем предобработку файла для определения границ слогов, рассмотрим каждый разрыв основного тона как потенциальную границу предложения и проанализируем просодические характеристики сигнала, окружающие такой разрыв. Преимуществом такого подхода является независимость от результатов распознавания, которые могу содержать ошибки выравнивания слов; однако классификатору приходится обрабатывать большое количество ложной информации и очень малое количество истинной; к тому же мы фактически игнорируем разрывы, которые не сопровождаются паузой (хотя они встречаются нечасто). Кроме того, ошибки алгоритма вычисления частоты основного тона серьезно влияют на результаты работы алгоритма.

Множество признаков. Для выполнения классификации были выбраны следующие просодические признаки:

а — длина паузы (представляет собой абсолютное значение длины паузы в разрыве);

б — разница средних значений частоты основного тона до и после разрыва в определенном окне (обычно это 200 мс слева и 200 мс справа);

в — разность между минимальным значением частоты основного тона слева и максимальным значением справа, вычисленными в таком же окне (эти признаки помогают определить, присутствует ли разрыв траектории основного тона);

г — разность сглаженных наклонов частоты основного тона, соответствующих левому и правому окнам (если наклон не изменяется, то два фрагмента могут быть частью одного и того же интонационного контура);

д — разность между средними значениями частоты основного тона в первой и второй половинах левого окна (свидетельство падения частоты основного тона перед концом предложения);

е — разность средних значений энергии в окнах слева и справа предполагаемой границы (этот признак отражает ту особенность, что высказывание обычно начинается громче, т.е. с более высокой энергией, и заканчивается тише);

ж — среднее значение энергии в паузе (этот признак необходим для защиты от ошибок вычисления значений частоты основного тона и детектора пауз, которые могут приводить к появлению речевых фрагментов, отмеченных как паузы).

Использование информации о паузе и частоте основного тона отражено на рисунке, который показывает сглаженную траекторию основного тона, включая место предполагаемой границы предложений. Вектор признаков, соответствующий 10 мс речи (фрагмент 1), расположен внутри длительного разрыва основного тона (признак а). Частота основного тона слева от разрыва имеет спадающий контур (признак д); среднее и максимальное значения частоты основного тона перед разрывом больше, чем среднее и минимальное значения частоты основного тона после разрыва (признаки б и в). Мы также не наблюдаем непрерывности интонационного контура (признак г). С учетом этих особенностей ожидается, что вектор 1 идентифицируется как принадлежащий к разрыву между предложениями, а вектор 2 — нет.

Эксперименты. Процедура классификации. Для решения задачи классификации предполагаемых мест границ на "граница" и "не

140

60

1

1,8 2 2,2 2,4 2,6 2,8 3 3,2 3,4 3,6 3,8 4

Фрагмент сглаженной траектории основного тона

граница" мы использовали классификаторы SVM (support vector machines) — метод опорных векторов) и деревья решений. Первый метод был разработан Центром речевых технологий, а второй — проект с открытыми исходными кодами, разработанный компанией ALGLIB [13].

В методе опорных векторов классификация данных выполняется путем построения разделяющей гиперплоскости. Для этого в системе мы используем радиальную базисную функцию

fc(x,x') = е-т1ж-ж'12,

где y = 0,001.

Дерево решений классифицирует данные с помощью заданного набора признаков, используя иерархию (дерево) вопросов, на основе предсказательной силы каждого признака в каждой точке. Классификатор может обрабатывать большие объемы обучающих данных. В листьях (конечных узлах) дерева хранится распределение по классам для всех данных, попадающих в соответствующую область пространства признаков, которое потом используется при классификации тестовых данных. В предлагаемой системе используется лес, содержащий около 300 деревьев, а значение вероятности вычисляется путем деления числа деревьев, определяющих целевой класс, на общее число деревьев. Каждое дерево строится на основе 10%-ной рандомизированной обучающей выборки, что позволяет снизить зависимость результатов от шума в данных.

Основываясь на данных, полученных при проведении экспериментов, следует отметить, что наилучшие результаты достигаются при использовании деревьев решений, однако применение классификаторов SVM требует меньше времени для выполнения классификации.

Для обоих методов классификации заключительным шагом является преобразование полученной вероятности в выходной набор фреймов. Пусть PB[0 ...S — 1] — массив признаков для каждого предполагаемого разрыва длины S, R[0 ...S— 1] — массив вероятностей границ предложения для каждого элемента массива PB; P — значение вероятности классификатора. Тогда значение каждого элемента массива R может быть вычислено по формуле

(i + 1) ■ 2 ■ P

S

при г £

S 0; 2

дм=< (г-D ■ 2. P

P - —-^- при г £

S

S S -1

Условия эксперимента. Чтобы определить, насколько хорошо алгоритм позволяет обнаруживать границы предложений в различных

типах речи, был проведен ряд экспериментов. Основной сложностью при их выполнении для русского языка является отсутствие крупных аннотированных корпусов, которые включали бы информацию о границах предложений. Поэтому авторы вынуждены были работать с корпусами, которые были относительно небольшими, однако доступными и хорошо аннотированными.

Первый эксперимент был проведен на звуковой базе данных студийного качества (микрофон), записанной профессиональным диктором, интонация и паузы которого тщательно контролировались (первоначально эта звуковая база предназначалась для использования в системе синтеза речи). Основой этой базы являются произведения художественной литературы, новости и газетные статьи; ее объем — около 9,5 ч речи.

Вторая звуковая база состоит из радиопередач (и небольшого числа телевизионных передач). Качество этой базы данных значительно ниже, чем качество первой базы, кроме того, ее содержание гораздо разнообразнее - не только выпуски новостей, которые читают профессиональные дикторы, но и интервью и телефонные разговоры. Большую часть базы составляет спонтанная речь, что осложняет задачу классификации. Эта база находится в процессе сбора и аннотирования (готово ~6 ч), поэтому эксперименты могут рассматриваться как пробные.

В экспериментах проводили обучение и тестирование системы на одном и том же типе данных, так как было показано, что модели определения границ предложений сильно зависят от типа обучающих данных (чтение, спонтанная речь и т.д.).

Разработанная модель предназначена для использования в системе автоматического распознавания речи (ООО "Центр речевых технологий"). Таким образом, дальнейшие эксперименты выполнялись, чтобы выяснить, улучшаются ли результаты распознавания речи при использовании информации о возможных границах предложений. Система распознавания речи использует трехграммные языковые модели, которые также предсказывают, является ли данное слово последним в предложении, а вероятности, получаемые от модуля определения границ предложений, используются как акустические корреляты этого признака.

Результаты и обсуждение. Экспериментальные результаты. EER (Equal Error Rate) определения границ предложений для классификаторов SVM и деревьев решений на обеих базах данных приведена в табл. 1. В табл.2 приведен уровень словной ошибки (WER) распознавания речи на двух тестовых выборках, использованных в предыдущем эксперименте. Эксперименты по распознаванию речи проводи-

лись в двух режимах: без использования информации о границах предложений и с применением вероятностей границ предложений, получаемых от классификатора типа деревья решений. Так же проводился расчет ЕЕЯ определения границ предложений с учетом определенных границ слов.

Таблица 1

Результаты определения границ предложений

Вид результата 1 -я база данных 2-я база данных

Число границ в обучающей выборке 4789 1166

Число границ в тестовой выборке 1460 1301

EER (SVM) 16,99% 40,70%

EER (деревья решений) Результаты ра 16,78% спознавания 32,51% Таблица 2

Вид результата 1-я база данных 2-я база данных

WER без определения границ предложений 31,72% 68,84%

WER с определением границ предложений 30,68 % 67,52%

EER определения границ предложений (деревья решений) 18,97% 45,41%

Обсуждение. Результаты определения границ предложений показывают, что когда используется база данных высокого качества, которая состоит из начитанного материала и не содержит спонтанной речи (база данных 1), то результаты работы алгоритма лучше, чем результаты работы аналогичных систем, представленных в литературе, где уровень ошибки (EER) составляет 20% [4]. Однако результаты существенно ухудшаются при переходе к базе данных с большим количеством спонтанной речи (база данных 2). Это связано с ее спецификой, которая осложняет процесс определения границ предложений на основе только на просодической информации.

Важно, что было достигнуто улучшение результатов распознавания: абсолютное значение словной ошибки (WER) снизилось на 1 % на обеих тестовых выборках, даже когда результаты определения границ предложений были сами по себе достаточно плохими. Причиной ухудшения точности результатов определения границ являются ошибки распознавания: из-за ошибочно распознанных слов некоторые границы лежат внутри слов, а не между ними, и неверные прогнозы языковых моделей о наличии конца предложения могут перекрывать верные прогнозы классификатора. Однако тестовая выборка 1 достаточно

хорошо распознается, и границы предложений ставятся вполне уверенно, в то время как результаты распознавания тестовой выборки 2 значительно хуже, что естественно приводит и к снижению качества определения границ. Но все же результаты работы алгоритма определения границ предложений, используемые в качестве дополнительной информации для распознавания, помогают уменьшить уровень слов-ной ошибки (WER).

Выводы. Приведенный алгоритм определения границ предложений в речевом сигнале основан только на просодической информации — частоте основного тона, энергии и длине пауз. Представленная модель работает в потоковом режиме, и ее результаты используются в качестве дополнительной информации для языковых моделей в системе распознавания речи. Использование этих данных позволяет улучшить результаты распознавания и помогает улучшить их "читабельность".

Эксперименты по встраиванию алгоритма определения границ предложений в систему распознавания речи еще только начаты, планируется исследовать несколько направлений улучшения результатов. В первую очередь, планируется провести комплексный анализ ошибок, чтобы определить, почему правильные гипотезы о наличии границ предложений иногда отвергаются на этапе распознавания. Кроме того, необходимо настроить веса источников информации, которые используются для принятия итогового решения о наличии конца предложения (языковые модели, гипотезы о границе слов, результаты определения границ предложений) для увеличения правильности работы модели.

СПИСОК ЛИТЕРАТУРЫ

1. Shriberg E., Stolcke A., Hakkani-Tiir D., Tiir G. Prosody-based automatic segmentation of speech into sentences and topics // Speech communication. - 2000. - Vol. 32(1-2). - P. 127-154.

2. Christensen H., Gotoh Y. and Renals S. Punctuation annotation using statistical prosody models // Proc. ISCA Workshop on Prosody in Speech Recognition and Understanding. 2001.

3. Huang J. and Z w e i g G. Maximum entropy model for punctuation annotation from speech // Proc. ICSLP. - 2002.

4. Wang D. and Narayanan S. A multi-pass linear fold algorithm for sentence boundary detection using prosodic clues // Proc. ICASSP. - 2004.

5. Aylett M. P. Extracting the acoustic features of interruption points using non-lexical prosodic analysis // DISS'05: ISCA Workshop, 2005.

6. Krivnova O. F. F0-clues to text phrasing in russian (Acoustic Analysis and Perception) // Proc. SPECOM. - 2003.

7. Liu Y., Stolcke A., Shriberg E. and Harper M. Using conditional random fields for sentence boundary detection in speech // Proc. of ACL-05. - 2005. -P. 451-458.

8. Roark B., Liu Y., Harper M., Stewart R., Lease M., Snover M., Shafran I., Dorr B., Hale J., Krasnyanskaya A. and Yung L. Reranking for sentence boundary detection in conversational speech // ICASSP, 2006.

9. Yi-Fen Liu, Shu-Chuan Tseng J. -S. Roger Jang C. -H., A l v i n Chen. Coping Imbalanced Prosodic Unit Boundary Detection with Linguistically-motivated Prosodic Features. INTERSPEECH 2010.

10. Кибрик А. А., Подлесская В. И. Проблема сегментации устного дискурса и когнитивная система говорящего // Когнитивные исследования. - М.: Институт психологии РАН.

11. Рыко А. И., Степанова С. Б. Стратегии членения спонтанной речи на синтаксические единицы // Материалы междунар. конф. "Диалог 2009".

12. Фонетика спонтанной речи / Под ред. Н.Д. Светозаровой. - Л., 1988.

13. http://www.alglib.net/aboutus.php

Статья поступила в редакцию 9.08.2011

i Надоели баннеры? Вы всегда можете отключить рекламу.