Научная статья на тему 'ИСПОЛЬЗОВАНИЕ РЕКУРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАНЖИРОВАНИЯ СПИСКА ГИПОТЕЗ В СИСТЕМАХ РАСПОЗНАВАНИЯ РЕЧИ'

ИСПОЛЬЗОВАНИЕ РЕКУРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАНЖИРОВАНИЯ СПИСКА ГИПОТЕЗ В СИСТЕМАХ РАСПОЗНАВАНИЯ РЕЧИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
69
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕКУРЕНТНАЯ НЕЙРОННАЯ СЕТЬ / РАНЖИРОВАНИЕ ГИПОТЕЗ / RECURRENT NEURAL NETWORK / HYPOTHESES RANKING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кудинов Михаил Сергеевич

В статье представлены предварительные результаты использования рекурентных нейронных сетей для языкового моделирования на материале русского языка. Решалась задача ранжирования равновероятных гипотез распознавания. Для уменьшения разреженности данных модели оценивались на лемматизированном новостном корпусе. Также для предсказаний использовалась морфологическая информация. Для финальной сортировки был использован метод опорных векторов для ранжирования. В статье показано, что комбинация нейронных сетей и морфологической модели дает лучшие результаты, чем 5-граммная модель со сглаживанием Кнессера-Нея.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF RECURRENT NEURON NETWORK TO RANK THE LIST OF HYPOTHESIS IN THE SYSTEMS OF RECOGNIZING THE SPEECH

The paper demonstrates preliminary results of the experiments on equiprobable hypothesis re-scoring with recurrent neural networks (RNN). RNNs proved to be successful for language modelling on various tasks for English including speech recognition and phrase completion but their applicability to inflictive languages is not well studied yet. However, for now we trained the model only on lemmas with additional morphological information to decrease data sparseness. We demonstrate that the model performs better than the popular 5-gram model with Knesser-Ney smoothing.

Текст научной работы на тему «ИСПОЛЬЗОВАНИЕ РЕКУРЕНТНЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РАНЖИРОВАНИЯ СПИСКА ГИПОТЕЗ В СИСТЕМАХ РАСПОЗНАВАНИЯ РЕЧИ»

4fl#JS

56

Использование рекурентных нейронных сетей для ранжирования списка гипотез в системах распознавания речи

Кудинов М.С.

В статье представлены предварительные результаты использования рекурентных нейронных сетей для языкового моделирования на материале русского языка. Решалась задача ранжирования равновероятных гипотез распознавания. Для уменьшения разреженности данных модели оценивались на лемматизированном новостном корпусе. Также для предсказаний использовалась морфологическая информация. Для финальной сортировки был использован метод опорных векторов для ранжирования. В статье показано, что комбинация нейронных сетей и морфологической модели дает лучшие результаты, чем 5-граммная модель со сглаживанием Кнессера-Нея.

• рекурентная нейронная сеть • ранжирование гипотез

The paper demonstrates preliminary results of the experiments on equiprobable hypothesis re-scoring with recurrent neural networks (RNN). rNns proved to be successful for language modelling on various tasks for English including speech recognition and phrase completion but their applicability to inflictive languages is not well studied yet. However, for now we trained the model only on lemmas with additional morphological information to decrease data sparseness. We demonstrate that the model performs better than the popular 5-gram model with Knesser-Ney smoothing.

• recurrent neural network • hypotheses ranking

1. ВВЕДЕНИЕ

Известно, что проблема статистического моделирования флективных языков представляет большую сложность, чем для английского языка [1]. Основные проблемы возникают вследствие большого количества морфологических форм слов (лемм) и более свободного порядка слов [2]. Обе проблемы в результате усиливают разреженность данных и снижают эффективность л-граммных моделей.

В то время как использование р-граммных моделей на первых стадиях распознавания сегодня является стандартной практикой [3], возможности для последующей обработки в рамках алгоритма распознавания, осуществляющего несколько проходов по входным данным, гораздо шире. Например, для переранжирования гипотез, возвращаемых процедурой лучевого поис-

ка Витерби, может быть использована морфологическая, синтаксическая и семантическая информация. В последнем случае значения слов представляются посредством вложения слов в некоторое векторное пространство. К методам, осуществляющим такие вложения, относятся: латентносеман-тический анализ [4], вероятностное тематическое моделирование [5] или нейронные сети [6]. В 2010 году была представлена языковая модель на ре-курентной нейронной сети (RNNLM) [7]. Использование данной модели позволило улучшить предыдущие результаты на стандартных наборах данных как в перплексии, так и в пословной ошибке в экспериментах по распознаванию речи. Несмотря на то что модель была предложена для английского языка, в [8] были приведены обнадеживающие результаты, полученные на небольшом наборе данных для чешского языка. Сходство чешского и русского языков общеизвестно, а значит, перспективы применения рекурент-ных нейронных сетей к русскому материалу выглядят многообещающе.

Тем не менее проблема обучения рекурентной нейронной сети для языков с богатой морфологией является более сложной, по крайней мере, если использовать оригинальный подход из [7]. В дополнение к уже упомянутым трудностям, связанным с разреженностью данных, обучение модели, использующей словник, содержащий все допустимые словоформы, потребовало бы слишком много времени. Поэтому в данной работе было решено поставить лишь предварительные эксперименты и решить более простую задачу, а именно произвести переранжирование гипотез распознавания исходя из оценок отдельной лексической модели, основанной на рекурентной нейронной сети, и морфологической модели, основанной на условных случайных полях.

Статья организована следующим образом. В разделе 2 приводится общая информация о рекурентных нейронных сетях. В разделе 3 обсуждается применимость оригинальной архитектуры рекурентной нейронной сети к статистическому моделированию флективных языков и сопутствующим проблемам. Наконец, в разделе 4 приводятся данные экспериментов с комментариями и выводами.

2. РЕКУРЕНТНАЯ НЕЙРОННАЯ СЕТЬ ДЛЯ СТАТИСТИЧЕСКОГО МОДЕЛИРОВАНИЯ ЯЗЫКА

Рекурентные нейронные сети впервые были рассмотрены в [9] Элманом в 1990 году. В данном исследовании также была высказана идея о применимости рекурентной нейронной сети для моделирования языка. Тем не менее вследствие значительной вычислительной сложности и отсутствия доступных лингвистических корпусов достаточного объема на тот момент метод не получил широкого распространения.

Другой важной вехой в развитии нейросетевых языковых моделей является работа И. Бенджио 2003 года, в которой предлагается метод предсказания последующего слова по левому контексту длины п-1, таким образом формируя своего рода п-граммную нейросетевую модель п-го порядка. Однако в отличие от п-граммной модели в данном случае предсказание осуществляется на основании вложений слов в векторное пространство Им. Каждое входное слово (допустим, с индексом I) в словаре объемом М слов представляется в виде Ш-мерного вектора м> =<01,...,1/,0/+1,...,0^|> с единственной ненулевой координатой wl = 1. На вектор слева умножается матрица и, что эквивалентно выборке 1-го столбца и. Другими словами, и действует как словарная таблица, осуществляющее однозначное отображение слов на их векторные представления.

57

58

Аналогичная техника была использована Т. Миколовым в [7], который использо вал рекурентную сеть Элмана для предсказания слов по контексту. Резуль тирующая модель описывалась следующими уравнениями:

р(п>, | к,-1 )= у^

у, = ф • к,)

= ш • х+V • к-1,

где a(x) =

1

(1) (2) (3)

а s( У к ) =

1 + e -x

Ук

логистическая функция активации,

e

Z

софтмакс-функция, h, - рекурентный слой; y - выходной слой,

где каждому к-му элементу соответствует вероятность Р(у1 | -1, к-1), УНхН - матрица весов рекурентного слоя, словарная таблица, ото-

бражающая слова в векторные представления, ^хН - матрица весов выходного слоя; Н - количество нейронов скрытого слоя.

Рис.1. Рекурентная нейронная сеть для статистического моделирования языка

Поскольку ht потенциально сохраняет в себе весь левый контекст, данная модель выглядит более мощной, чем п-граммная нейросетевая модель.

К сожалению, в действительности последнее утверждение не совсем верно, по-

дк

скольку норма градиента

дИ„

к <1, отражающего влияние предыдущих зна-

чений на скрытом слое на последующие, стремится к нулю (или к бесконечности) с экспоненциальной скоростью по (1-к) [10], [11]:

ддь

дК

П

к <i<t

dh

dh

nVTdiag (<r\ht_ i))

i-i

k <i<t

yi

e

Стремление градиента к нулю или к бесконечности определяется наибольшим собственным значением матрицы V, причем поведение градиента обязательно демонстрирует один из этих типов ([6]).

Хотя за прошедшие 20 лет с момента обоснования данной проблемы было предложено немало способов её решения [6], [12], в [7] утверждается, что данная проблема не является существенной для моделирования языка. Таким образом, в данной работе будет рассмотрен случай стандартной архитектуры Элмана с алгоритмом распространения ошибки обратно по времени (backpropagation through time).

3. ПРИМЕНИМОСТЬ ПОДХОДА К МОДЕЛИРОВАНИЮ ФЛЕКТИВНЫХ ЯЗЫКОВ

При наличии словаря существенного объема статистическое моделирование флективных языков составляет дополнительную техническую проблему для нейросетевого подхода. Большое количество различных словоформ приводит к пропорционально большему размеру выходного слоя, а из (3) видно, что сложность алгоритма обучения линейна по объему выходного слоя. Чтобы обойти эту проблему, можно было бы использования схему на рис. 2. Каждое входное слово предварительно лемматизируется внешним морфологическим анализатором. Леммы используются для предсказания последующих лемм. Далее предсказанной леммы запускается линейный классификатор (например, логистическая регрессия), предсказывающий словоформу по лемме и морфологическим признакам контекста. Данный подход позволяет миновать проблему разрастания словаря. Другой подход мог бы состоять в том, чтобы разделить выходной слой на два вектора - словарный (леммы) и морфологический (морфологические признаки). Ошибка предсказания в данном случае получалась бы суммированием ошибок на двух векторах.

Рис.2. Рекурентная нейронная сеть с внешним классификатором

Тем не менее в данной статье речь пойдет о предварительном эксперименте, целью которого является проверка гипотезы о том, что комбинация нейронных сетей, обученных на леммах, дает лучший результат, чем комбинация л-граммных моделей с дисконтированием Кнессера-Нея.

59

60

3.1. Эксперименты

Модель была натренирована на новостном корпусе объемом приблизительно в 2-106 токенов. Примерно 10% данных было выделено для валидации. Каждый текст был обработан морфологическим аннализаторо/лемматиза-тором для русского языка [13] со встроенным словарем примерно в 2106 словоформ. Выходом анализатора являлся текст, в котором все известные словоформы были заменены соответствующими леммами, а неизвестные -специальным токеном «UNK». Второй сгенерированный текст был получен только заменами неизвестных токенов на «UNK». Таким образом, было получено 2 пары тренировочной и тестовой выборок для лемм и словоформ соответственно. На этих корпусах проводились обучение и эксперименты по определению перплексии.

Для эксперимента по ранжированию гипотез использовались списки гипотез, полученные от внешней системы распознавания фирмы Nuance. Использовался русскоязычный корпус предложений со студийным качеством записи и транскрипциями. Аудиофайлы подавались на вход системе распознавания. На выходе получалось до 10 гипотез. В результате была получена коллекция неотсортированных списков гипотез. Как правило, список не содержал полностью правильной гипотезы, и она добавлялась вручную. Далее каждая гипотеза обрабатывалась теми же инструментами, которые использовались при подготовке корпусов: т.е. были проведены леммати-зация и замены неизвестных слов. Полученные корпуса были обработаны обученными на предыдущем этапе моделями. В результате для каждой из гипотез были получены списки откликов от каждой модели - л-граммной со сглаживанием Кнессера-Нея и рекурентных нейронных сетей с различными размерами скрытого слоя. Всего в обучающем корпусе для ранжирования было 1300 фраз со средним значением 5 гипотез на фразу. В тестовом корпусе было 300 фраз.

В тестах были использованы л-граммные модели со сглаживанием Кнессера-Нея, порядков 3, 4, 5, натренированные на леммах и на словоформах. Модели на основе рекурентных нейросетей различались размером скрытого слоя. Были протестированы модели с объёмами слоя 100,200,300, 400 и 500. Все рекурентные сети обучались на лемматизированном корпусе. Кроме этого использовалась оценка, возвращаемая морфологическим анализатором. В результате было получено 12 оценок. Для ранжирования использовалась модель ranking SVM, где в качестве признаков использовались оценки моделей. Результирующая модель обучалась ранжированию гипотез в списке на 2 категории - верная и неверная гипотеза. Фактически данный подход дает интерполяцию моделей. В качестве метрик для оценки в этом случае выбраны уровень пословной ошибки (word error rate, WER%) и процент случаев выбора правильной гипотезы (sentence error rate, SER%).

3.2. Результаты

Результаты экспериментов приводятся в таблицах 1 и 2. В таблице 1 приведены перплексии всех используемых моделей. В таблице 2 приведены результаты эксперимента по ранжированию - уровень пословной ошибки (WER%) и процент точность выбора правильной гипотезы (SER%).

Стоит отметить, что перплексии моделей, натренированных на лемматизиванном и нелемматизованном корпусе, строго говоря, несравнимы по перплексии, поскольку количество неизвестных токенов, а значит, и словарный состав корпусов, различны. Таким образом, важным обнадеживающим выводом,

который можно сделать из приведенной таблицы, является то, что модели на рекурентных нейронных сетях демонстрируют существенно лучшие показатели в эксперименте, чем 5-граммная модель со сглаживанием Кнес-сера-Нея.

Таблица 1

Перплексии моделей на тестовой выборке

Model Perplexity Model Perplexity

KN3lem 272,8 RNN100 240,13

KN4lem 272,2 RNN200 230,45

KN5lem 273 RNN300 231

KN3tok 128,72 RNN400 231,87

KN4tok 130,76 RNN500 231,21

KN5tok 132

Рассмотрим теперь результаты эксперимента по ранжированию. Стоит сделать следующие замечания. Первое из них состоит в заметном превосходстве рекурентных нейронных сетей над сглаженными п-граммами. Второй заметный факт - это противоречивое влияние морфологической модели на конечный результат: улучшение пословной ошибки при явной тенденции к голосованию за неверную гипотезу предложения. Это можно объяснить тем фактом, что оценка, возвращаемая морфологическим анализатором, пропорциональна вероятности лучшего разбора | ). По

этой причине данная оценка имеет тенденцию к выбору гипотез с наименьшей энтропией разбора. Стоит признать, что данная оценка не вполне подходит к решаемой нами задаче. Третий заметный факт состоит в несколько хаотичном характере результатов рекурентных моделей: некоторые из них демонстрируют достаточно скромные результаты, однако их интерполяции обеспечивают наилучшие результаты.

Таблица2

Результаты моделей в эксперименте по ранжированию

Model WER% SER% Model WER% SER%

KN5lem 16,62 40,8 RNN100 17,55 43,67

KN5tok 18,09 42,72 RNN200 15,35 40,5

KN5lem + morph 15,58 43.98 RNN300 17,09 43,98

KNlem all 17,05 40,82 RNN400 16,58 41,77

KNlem all + morph 15,74 43,67 RNN500 17,43 43,67

KNlem+tok all 15,74 39,24 RNN all 15,35 38,29

KNlem+tok all + morph 15,89 43,35 RNN all + morph 14,58 41,45

all models 14,78 40,5

Эксперименты по ранжированию в целом демонстрируют превосходство рекурентных моделей. Наилучшая комбинация задействует оценку, возвращаемую морфологическим анализатором и оценки, полученные от рекурентных моделей. Таким образом, обеспечивается комбинирование морфологической и словарной информации. Данный результат свидетельствует о том, что результаты в данном направлении могут быть продолжены.

3.3. Discussion

В статье был предложен простой эксперимент для проверки применимости ре-курентных нейронных сетей с внешним классификатором грамматических форм к русскому языку. В ходе эксперимента комбинировались отклики различных языковых моделей с целью ранжирования списка гипотез, возвращенных системой распознавания речи. Результаты указывают на то, что

61

62

языковые модели на рекурентных нейронных сетях превосходят результаты сглаженных n-граммных моделей как по перплексии, так и по уровню пословной ошибки. Тем не менее эксперименты должны быть продолжены в двух направлениях: проверка воспроизводимости результатов при наличии большей обучающей выборки; конструирование языковой модели на реку-рентной нейронной сети для предсказания словоформ русского языка.

СПИСОК ЛИТЕРАТУРЫ

1. I. Oparin. Language Models for Automatic Speech Recognition of Inflectional Languages. PhD thesis, University of West Bohemia, Pilsen, 2008.

2. E.W.D. Whittaker. Statistical Language Modeling for Au- tomatic Speech Recognition of Russian and English. PhD Thesis, Cambridge University, 2000.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. A. Deoras, T. Mikolov, S. Kombrik. Approximate inference: A sampling based modeling technique to capture complex dependencies in a language model. Speech Communication, 2012

4. J. Bellegarda. Exploiting latent semantic information in statistical language modeling. Proc. IEEE. 88, 2000

5. D. Gildea, T. Hoffman. Topic-Based Language Models Using EM. In Proceedings of EUROSPEECH, 1999

6. Y. Bengio, R. Ducharme, P. Vincent, C. Jauvin. A Neural Probabilistic Language Model. Journal of machine learning research, 2003

7. T. Mikolov, M. Karafia't, L. Burget, J. "Cernocky', S.Khudanpur. Recurrent neural network based language model, In: Proceedings of the 11th Annual Conference of the International Speech Communication Association (INTERSPEECH 2010), Makuhari, Chiba, JP

8. T. Mikolov. Statistical Language Models based on Neural Networks. PhD thesis, Brno University of Technology, 2012.

9. J. Elman. Finding Structure in Time. Cognitive Science, 14, 179-211, 1990.

10. [10] Y. Bengio, P. Simard, P. Frasconi. Learning Long-Term Dependencies with Gradient Descent is Difficult, IEEE Transactions on neural networks, 1994

11. R. Pascanu, T. Mikolov, Y. Bengio. On the difficulty of training Recurrent Neural Networks, CoRR, 2012 [12] Hochreiter, S. and Schmidhuber, J. (1996). Bridging long time lags by weight guessing and Long Short-Term Memory. In F.Silva, J.Principe, L.Almeida, Spatiotemporal models in biological and artificial systems

12. S. Muzychka, A. Romanenko, I. Piontkovskaja. Conditional Random Field for morphological disambiguation in Russian., Conference Dialog-2014, Bekasovo, 2014

13. T. Joachims. Optimizing Search Engines using Clickthrough Data, Proceedings of the ACM Conference on Knowledge Discovery and Data Mining, 2003

Сведения об авторе: Кудинов Михаил Сергеевич,

родился в 1990 году в городе Усолье-Сибирское Иркутской области. В 2012 году закончил отделение теоретической и прикладной лингвистики филологического факультета МГУ и поступил в аспирантуру Вычислительного центра РАН им. Дородницына. В настоящий момент является сотрудником исследовательского центра «Самсунг» и аспирантом Вычислительного центра им. А.А. Дородницына Российской академии наук. В область научных интересов входят задачи, связанные с обработкой естественного языка - как текста, так и речи: анализ и извлечение информации из текста, компьютерная лингвистика, вопросно-ответные системы, в сфере речевых технологий особый интерес представляют языковые модели, основанные на нейронных сетях. E-mail: mikhailkudinov@gmail.com

О некоторых математических методах распознавания речи

Ермилов А.В.

В данной статье приводится описание некоторых математических методов, которые применяются при распознавании речи и идентификации диктора. Дается детальное описание скрытых марковских моделей (СММ) и метода опорных векторов. Приведены основные особенности применения скрытых марковских моделей для описания динамики речевого сигнала, а также метода опорных векторов для идентификации диктора.

• распознавание речи • идентификация диктора • скрытые марковские модели • SVM.

In this article presented several mathematical methods, which are used in speech recognition and speaker identification. Given thorough description of Hidden Markovs Models and Support Vector Machines. Application of Hidden Markov Models to the description of speech signal's dynamics are provided as well as application of Support Vector Machines to speaker identification.

• speech recognition • speaker identification • HMM • SVM 1. ВВЕДЕНИЕ

В современном мире все большее значение уделяется интерфейсам, использующим речевой ввод и вывод для взаимодействия между пользователем и компьютером. Поэтому всё большее многообразие в голосовых сообщениях приходиться принимать во внимание разработчику систем распознавания речи, реализующих акустический интерфейс.

Задача распознавания речи (во многих своих проявлениях: от транскрибирования слитной речи до верификации и идентификации диктора) в настоящее время является крайне актуальной. Свидетельством этому служит растущее число публикаций и конференций по данной тематике (таких как ICASSP, INTERSPEECH), а также то, что в крупнейших транснациональных корпорациях (таких как Microsoft, Google, IBM) открываются департаменты, ориентированные на исследования по данной тематике.

Исследовательские усилия в сфере речевых технологий привели к появлению большого числа коммерческих систем распознавания речи. Такие компании, как Nuance, IBM, ScanSoft, предлагают большой набор программных решений как для серверных, так и для десктопных приложений.

Улучшение существующих систем распознавания речи позволило существенно упростить взаимодействие человека с компьютером в том случае, когда использование классических интерфейсов невозможно (например, при управлении автомобилем или в сложных условиях, таких как ликвидация последствий чрезвычайных ситуаций ) или затруднено (например, людям,

63

ЛшШ* ItPF^r уд Ермилов А.В. 0 некоторых математических методах распознавания речи

64 обладающим слабым зрением, или с ограниченными физическими возможностями), а также сделать работу с компьютером или иной техникой более комфортной. Также следует отметить, что применение систем распознавания речи весьма велико в работе правоохранительных служб (например, при идентификации говорящего или в системе защиты свидетелей). В данной статье дается попытка описать некоторые математические методы, применяемые как для распознавания (транскрибирования) речи, так и для идентификации говорящего. В статье приводятся основные результаты, связанные с применением скрытых марковских моделей для траскрибиро-вания речевого сигнала, а также особенности применения метода опорных векторов для идентификации диктора. Следует отметить, что в статье не приводятся методы предварительной обработки сигнал (усиление, нарезка на фреймы и т.д.), способы выделения признаков речевого сигнала (такие как методы вычисления кепстральных коэффициентов) и другие темы, касающиеся цифровой обработки сигналов. Кроме того, остается за кадром применение таких современных моделей, как Deep Neural Networks, которые дают значительное увеличение точности распознавания. 2. СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ Процессы, протекающие в реальной жизни, обычно характеризуются наблюдениями, которые можно рассматривать как сигналы. Эти сигналы могут быть как дискретными (например, символы какого-либо алфавита), так и непрерывными (музыка, температура, речь). Сигналы могут быть стационарными (то есть их статистические свойства не меняются во времени) или нестационарными. Сигналы могут быть чистыми (например, приходящими строго от одного источника) или могут быть испорчены каким-либо иным источником сигнала (шумом) или искажениями при передаче, реверберациями и т.д. Для теоретического описания системы строится модель прохождения сигнала. Существует несколько причин, из-за которых применение таких моделей представляется удобным: 1. Такая модель может использоваться для обработки сигнала с целью получе- ния желаемого результата. Например, если пользователи заинтересованы в улучшении качества речевого сигнала, который был испорчен шумом и/ или искажениями при передаче. В этом случае можно использовать модель прохождения сигналов для создания системы, которая уменьшит шум и искажения оптимальным образом. 2. Модель прохождения сигналов позволяет определить характеристики ис- точника сигнала при отсутствии самого источника. Это свойство особенно важно, когда получение сигнала непосредственно из источника очень дорого, например, сопровождено с большими затратами денег или требует большого количества времени. В этом случае представляется возможным построить модель и с помощью симуляций выяснить свойства источника. 3. Модели прохождения сигналов хорошо работают на практике, а следователь- но, позволяют эффективно создавать важные с практической точки зрения предсказательные, распознающие и идентифицирующие системы. Существуют несколько способов выбора модели прохождения для описания характеристик данного сигнала. Выделяют два основных типа моделей: детерминистические и стохастические. Детерминистические модели обычно используют некоторые известные свойства сигнала, например, представление сигнала синусоидальной волной или

суммой экспонент и т.д. В этом случае спецификация модели достаточно проста: необходимо лишь оценить параметры сигнала - амплитуду, частоту, фазу и т.д.

Стохастические модели пытаются описать только статистические свойства сигнала. Примерами подобных моделей могут служить Гауссовы процессы, Пуассоновские процессы, марковские процессы (в том числе и скрытые). В основе стохастических моделей лежит предположение о том, что сигнал может быть хорошо описан как параметрический случайный процесс и что его параметры могут быть оценены достаточно точно.

Скрытая марковская модель (HMM - Hidden Markov model) определяется как двойной случайный процесс. Лежащий в основе случайный процесс представляет собой однородную марковскую цепь с конечным числом состояний. Последовательность состояний не наблюдается и поэтому называется скрытой. Эта цепочка состояний влияет на другой случайный процесс, который и производит последовательность наблюдений. Скрытые марковский модели представляют собой важный класс моделей, которые успешно используются во многих отраслях знаний, например, при моделировании речи. Базовая теория по скрытым марковским моделям будет дана ниже.

Можно выделить следующие преимущества использования скрытых марковских моделей при использовании в задаче распознавания речи:

• HMM обладают простой математический структурой.

• Структура HMM позволяет моделировать сложную цепочки наблюдений.

• Параметры модели могут быть автоматически выбраны таким образом, чтобы описать имеющийся набор данных для обучения.

В системах распознавания речи скрытые марковские модели обычно применяются для представления фонем или целых слов. Каждое скрытое состояние представляет часть фонемы или слова. В каждый момент времени состояние, в котором находится система, может быть изменено в соответствии с набором переходных вероятностей, связанных с данным состоянием. Схематично это представлено на рис. 1.

Рис. 1. Скрытая марковская модель с 5 состояниями. Символами I и Р обозначены начальное и конечное состояния соответственно, - генерирующие состояния,

дугами обозначены возможные переходы между состояниями, цифры над дугами обознают вероятности переходов между соответствующими состояниями.

Когда состояние активно, оно может генерировать последовательность векторов признаков, один вектор признаков в каждый момент времени. Эти вектора признаков имеют ту же форму, что и вектора признаков, которые по-дучаются, когда распознаётся сказанное слово. Однако невозможно узнать

65

i Надоели баннеры? Вы всегда можете отключить рекламу.