Научная статья на тему 'РАСПОЗНАВАНИЕ, ДЕКОДИРОВАНИЕ И ВОССТАНОВЛЕНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ПРОПУСКАМИ, ОПИСЫВАЕМЫХ СКРЫТОЙ МАРКОВСКОЙ МОДЕЛЬЮ С ДИСКРЕТНЫМ РАСПРЕДЕЛЕНИЕМ НАБЛЮДЕНИЙ'

РАСПОЗНАВАНИЕ, ДЕКОДИРОВАНИЕ И ВОССТАНОВЛЕНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ПРОПУСКАМИ, ОПИСЫВАЕМЫХ СКРЫТОЙ МАРКОВСКОЙ МОДЕЛЬЮ С ДИСКРЕТНЫМ РАСПРЕДЕЛЕНИЕМ НАБЛЮДЕНИЙ Текст научной статьи по специальности «Математика»

CC BY
89
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СКРЫТЫЕ МАРКОВСКИЕ МОДЕЛИ / МАШИННОЕ ОБУЧЕНИЕ / ПОСЛЕДОВАТЕЛЬНОСТИ / АЛГОРИТМ БАУМА-ВЕЛША / ПРОПУЩЕННЫЕ НАБЛЮДЕНИЯ / НЕПОЛНЫЕ ДАННЫЕ / АЛГОРИТМ ВИТЕРБИ / КЛАССИФИКАЦИЯ

Аннотация научной статьи по математике, автор научной работы — Попов Александр Александрович, Гультяева Татьяна Александровна, Уваров Вадим Евгеньевич

В работе рассматриваются различные подходы к использованию аппарата скрытых марковских моделей (СММ) для анализа последовательностей с пропусками. Были рассмотрены задачи обучения СММ по последовательностям с пропусками, а также задачи распознавания, декодирования и восстановления последовательностей с пропусками. В ходе выполнения работы был разработан алгоритм для обучения СММ по последовательностям с пропусками, основанный на маргинализации пропущенных наблюдений, а также алгоритм, основанный на восстановлении последовательностей с пропусками с помощью модифицированного алгоритма Витерби. Также были разработаны алгоритмы для восстановления и декодирования последовательностей с пропусками с помощью модифицированного алгоритма Витерби. Кроме того, были разработаны алгоритмы для распознавания последовательностей с пропусками с помощью маргинализации пропущенных наблюдений, а также с помощью модифицированного алгоритма Витерби. Для оценки эффективности разработанных алгоритмов были реализованы методы, основанные на стандартных подходах к работе с последовательностями, содержащими пропуски: склеивание последовательностей с пропусками, а также восстановление пропусков в последовательностях по моде соседних наблюдений. С помощью вычислительных экспериментов было показано, что алгоритмы обучения СММ по последовательностям с пропусками, а также распознавания последовательностей с пропусками, основанные на маргинализации пропущенных наблюдений, показали наилучшие результаты по сравнению с другими подходами. Также было продемонстрировано экспериментально, что при восстановлении и декодировании последовательностей с пропусками алгоритм, использующий модифицированный алгоритм Витерби, оказался эффективнее других подходов. Таким образом, на основе результатов вычислительных экспериментов нами предлагается алгоритм обучения СММ по последовательностям с пропусками и алгоритм распознавания последовательностей с пропусками, основанные на маргинализации пропущенных наблюдений. Для декодирования и восстановления последовательностей с пропусками нами предлагаются алгоритмы на основе модификации алгоритма Витерби для случая пропущенных наблюдений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Попов Александр Александрович, Гультяева Татьяна Александровна, Уваров Вадим Евгеньевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFICATION, DECODING AND RECOVERY OF SEQUENCES WITH MISSING VALUES USING DISCRETE HIDDEN MARKOV MODELS

This study is an attempt to address the issue of using hidden Markov models (HMMs) for the analysis of sequences with missing values. We consider the problem of training HMMs on incomplete sequences and the problems of decoding, recovery and classification of incomplete sequences. Two algorithms for training HMMs on incomplete sequences were developed: one is based on the marginalization of missing observations and the other is based on recovery of sequences using the modified Viterbi algorithm. We also developed algorithms for decoding and recovering incomplete sequences based on the modified Viterbi algorithm. In addition, two algorithms for classification of incomplete sequences were developed: one is based on the marginalization of missing observations and the other is based on the recovery of sequences using the modified Viterbi algorithm. To evaluate the algorithms developed, we also implemented a couple of standard methods for processing incomplete sequences: gluing of incomplete sequences and mode-based recovery of missing observations. The data gathered during the evaluation of the algorithms suggest that the best performance during training and classification was achieved by the algorithms based on the marginalization of missing observations. Experimental data also suggests that both the recovery and decoding of incomplete sequences were most effectively carried out by the algorithms based on the recovery of sequences using the modified Viterbi algorithm. Therefore, for training and classification problems we suggest the developed algorithms based on the marginalization of missing observations and for recovery and decoding problems we suggest the developed algorithms based on the recovery of missing observations the modified Viterbi algorithm.

Текст научной работы на тему «РАСПОЗНАВАНИЕ, ДЕКОДИРОВАНИЕ И ВОССТАНОВЛЕНИЕ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ПРОПУСКАМИ, ОПИСЫВАЕМЫХ СКРЫТОЙ МАРКОВСКОЙ МОДЕЛЬЮ С ДИСКРЕТНЫМ РАСПРЕДЕЛЕНИЕМ НАБЛЮДЕНИЙ»

ISSN 1814-1196

http://journals.nstu.ru/vestnik Science Bulletin of the NSTU Vol. 66, No. 1, 2017, pp. 99-119

Научный вестник НГТУ том 66, № 1, 2017, с. 99-119

ОБРАБОТКА ИНФОРМАЦИИ

INFORMATION PROCESSING

УДК 004.852

Распознавание, декодирование и восстановление последовательностей с пропусками, описываемых скрытой марковской моделью с дискретным

А.А. ПОПОВ1, Т А. ГУЛЬТЯЕВА2, В.Е. УВАРОВ3

1 630073, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет, доктор технических наук, профессор. Е-тай: alex@fpm.ami.nstu.ru

2 630 0 73, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет, кандидат технических наук, доцент. Е-тай: t.gultyaeva@corp.nstu.ru

3 630 0 73, РФ, г. Новосибирск, пр. Карла Маркса, 20, Новосибирский государственный технический университет, аспирант. Е-mail: vadim.uvarov42@gmail.com

В работе рассматриваются различные подходы к использованию аппарата скрытых марковских моделей (СММ) для анализа последовательностей с пропусками. Были рассмотрены задачи обучения СММ по последовательностям с пропусками, а также задачи распознавания, декодирования и восстановления последовательностей с пропусками. В ходе выполнения работы был разработан алгоритм для обучения СММ по последовательностям с пропусками, основанный на маргинализации пропущенных наблюдений, а также алгоритм, основанный на восстановлении последовательностей с пропусками с помощью модифицированного алгоритма Витерби. Также были разработаны алгоритмы для восстановления и декодирования последовательностей с пропусками с помощью модифицированного алгоритма Витерби. Кроме того, были разработаны алгоритмы для распознавания последовательностей с пропусками с помощью маргинализации пропущенных наблюдений, а также с помощью модифицированного алгоритма Витерби. Для оценки эффективности разработанных алгоритмов были реализованы методы, основанные на стандартных подходах к работе с последовательностями, содержащими пропуски: склеивание последовательностей с пропусками, а также восстановление пропусков в последовательностях по моде соседних наблюдений. С помощью вычислительных экспериментов было показано, что алгоритмы обучения СММ по последовательностям с пропусками, а также распознавания последовательностей с пропусками, основанные на маргинализации пропущенных наблюдений, показали наилучшие результаты по сравнению с другими подходами. Также было продемонстрировано экспериментально, что при восстановлении и декодировании последовательностей с пропусками алгоритм, использующий модифицированный алгоритм Витерби, оказался эффективнее других подходов. Таким образом, на основе результатов вычислительных экспериментов нами предлагается алгоритм обучения СММ по последовательностям с пропусками и алгоритм распознавания последовательностей с пропусками, основанные на маргинализации пропущенных наблюдений. Для декодирования и восстановления последовательностей с пропусками нами предлагаются алгоритмы на основе модификации алгоритма Витерби для случая пропущенных наблюдений.

распределением наблюдений

* Статья получена 03 декабря 2016 г.

Ключевые слова: скрытые марковские модели, машинное обучение, последовательности, алгоритм Баума-Велша, пропущенные наблюдения, неполные данные, алгоритм Витерби, классификация

DOI: 10.17212/1814-1196-2017-1-99-119 ВВЕДЕНИЕ

Скрытые марковские модели (СММ) - это популярный и эффективный инструмент, используемый в задачах машинного обучения. Популярность СММ обусловлена, во-первых, тем, что эти модели обладают достаточно универсальной математической структурой и, таким образом, могут формировать теоретическую основу во многих прикладных сферах. Во-вторых, СММ показывают очень хорошие результаты на практике.

СММ были представлены и изучены еще в конце 1960-х - начале 1970-х годов американским ученым Леонардом Баумом и его коллегами [1, 2]. Впервые СММ применили при распознавании речи [3]. С середины 1980-х СММ применяются при анализе биологических последовательностей, в частности ДНК. Тем не менее наиболее широкое распространение концепция СММ получила в начале 1990-х годов [4], и она продолжает использоваться и развиваться в настоящее время в связи со значительным развитием вычислительных технологий и вычислительных мощностей, что подтверждается статистикой упоминания термина hidden Markov model в работе [5].

В то же время в теории СММ остается малоизученная область, касающаяся ее применения для случая неполных данных. В данной работе под понятием «неполные данные» будем рассматривать случай использования последовательностей, содержащих пропуски. Пропуски возникают за счет внешних факторов и имеют случайный характер. В данной работе мы рассмотрим ряд задач, связанных с технологией использования СММ при анализе последовательностей, таких как обучение, декодирование, восстановление и распознавание. Задача обучения состоит в настройке параметров СММ для наилучшего описания имеющихся последовательностей. Задача декодирования последовательности состоит в определении наиболее вероятной последовательности скрытых состояний. Задача восстановления последовательности, описываемой СММ, заключается в том, чтобы заменить пропуски в последовательности наиболее подходящими в некотором смысле значениями. Под задачей распознавания понимается типичная задача классификации последовательностей. Трудность решения вышеперечисленных задач заключается в том, что стандартные алгоритмы работы с СММ не предполагают наличия пропусков в последовательностях. Таким образом, целесообразно разработать ряд подходов к решению данных задач.

Подобные исследования проводились в работе [6] применительно к использованию СММ для задачи распознавания речи. При этом использовались спектрограммы, полученные с помощью оконного преобразования Фурье по имеющимся зашумленным записям речи. Однако вместо обычной фильтрации шумов ненадежные (сильнозашумленные) регионы спектрограммы помечались как пропущенные. Для распознавания таких последовательностей с пропусками авторами было предложено использовать два подхода: распознавание с использованием маргинализации пропущенных наблюдений и распо-

знавание восстановленных последовательностей. Авторами было продемонстрировано, что такие подходы более эффективны при распознавании зашум-ленных последовательностей, чем стандартные методы фильтрации шумов. При этом отмечалось, что метод маргинализации пропусков при распознавании несколько превосходит метод, в котором последовательности восстанавливались, а затем распознавались.

Также стоит упомянуть исследование по распознаванию человеческих движений и их повторению человеческой виртуальной моделью [7]. Здесь также предполагалось наличие пропусков в последовательностях. Пропуски в данной предметной области были обусловлены тем, что часть человеческого тела, движения которого должна повторять модель, могла быть не видна, например, загорожена другим объектом. В упомянутой работе использовалась факторная СММ, т. е. СММ, состоящая из нескольких скрытых марковских цепей, состояния которых не зависят друг от друга, однако полагается, что наблюдение зависит от состояний, в котором находится каждая из цепей в текущий момент. При этом для распознавания последовательностей с пропусками также использовался метод маргинализации наблюдений. Кроме того, для повторения движения человеческого тела применялся алгоритм декодирования последовательностей с пропусками.

Стоит заметить, что в двух упомянутых выше работах обучение проводилось только на целых последовательностях, не содержащих пропусков.

Таким образом, задача данной работы состоит в исследовании различных подходов к обучению скрытых марковских моделей на последовательностях, содержащих пропуски, а также к декодированию, восстановлению и распознаванию последовательностей, содержащих пропуски.

Данная статья является продолжением исследований, проводимых на кафедре теоретической и прикладной информатики Новосибирского государственного технического университета в области технологий использования СММ [8-13].

1. ТЕОРИЯ СММ

1.1. Описание СММ

Скрытой марковской моделью называют модель, имитирующую случайный процесс, который в каждый момент времени I е{1,...,Т} (здесь Т - последний момент) находится в одном из N скрытых состояний 5 е {з^,...,SN} и в новый момент времени переходит в другое состояние (или в прежнее) в соответствии с некоторыми вероятностями переходов. Эти состояния скрыты от наблюдателя, но могут быть восстановлены (декодированы) по имеющейся последовательности наблюдений. Наблюдения могут представлять собой символы, взятые из некоторого конечного алфавита. В таком случае мы имеем дело с СММ с дискретными наблюдениями, которые и рассматриваются в данной работе. Вероятности появления наблюдаемых величин при условии того, что СММ находится в конкретном скрытом состоянии, подчиняются некоторым вероятностным законам. В случае дискретных СММ эти вероятностные законы описываются дискретными распределениями вероятностей, а в случае непрерывных - функциями условной плотности распределений наблюдений.

Рассмотрим набор параметров, которые полностью характеризуют дискретную СММ. Будем обозначать скрытое состояние, в котором находится СММ в момент t, символом qt, а наблюдение, которое произвела СММ в момент t, символом ot. Дискретная СММ характеризуется вектором вероятностного распределения начального скрытого состояния П = = p(qi = Sj), i = 1, NI, матрицей вероятностей переходов из одного

скрытого состояния в другое A = |агу = p (qt+i = Sj | qt = Sj), i, j = 1, n| , конечным алфавитом символов наблюдений V = {vi,..., Vm }, а также матрицей эмиссии наблюдений B = (m) = p (ot = vm | qt = si), i = 1,N, m = 1,M| [4].

1.2. Задача распознавания последовательностей

Задача распознавания ставится таким образом: имеется несколько классов, соответствующих различным случайным процессам (обозначим их порядковыми номерами 1, R), которые описываются соответствующими СММ А-1,..., Xr, и некоторая последовательность наблюдений O = {01,...,oT}. Необходимо распознать эту последовательность, т. е. определить, каким именно из вышеупомянутых процессов, описываемых соответствующими СММ, она была порождена. В качестве классификатора, как правило, используется критерий максимума функции правдоподобия того, что последовательность была порождена процессом, описываемым конкретной СММ: L = p(O | X) . Использование такого критерия предполагает, что должны быть вычислены значения

функции правдоподобия L1,...,Lr для последовательности O для каждой из

*

моделей X1,...,Xr . Далее, последовательность O относят к тому классу r ,

которому соответствует максимальное значение функции правдоподобия,

*

т. е. решается задача r = arg max(p (O | Xr)).

re1,... R

Для вычисления значения функции правдоподобия того, что наблюдаемая последовательность O была порождена процессом, описываемым скрытой марковской моделью X , т. е. P(O | X) = ^ P({01, 02,..., oT},

q1,q2,...,qy

q1, q2,. ., qT}| X), как правило, применяется эффективный forward-backward

(прямой-обратный) алгоритм [2]. В сущности, для расчета самого значения L = p(O | X) достаточно лишь прямой части forward-backward алгоритма, но здесь для полноты будет приведена и обратная часть алгоритма, поскольку она понадобится в дальнейшем для описания алгоритма обучения [14].

Первая часть forward-backward алгоритма позволяет вычислить прямые

вероятности at(i) = P({o^ o2,..., ot}, qt = si | X) , t = 1, T, i = 1,N, т. е. вероятности того, что последовательность многомерных наблюдений {o1, o2,..., ot} сгенерирована процессом, описываемым моделью X, и этот процесс нахо-

дится в скрытом состоянии в момент ^ генерации. Алгоритм вычисления прямых вероятностей и значения функции правдоподобия:

1) инициализация:

«1(0 = ы, 1 = ^; (1)

2) индукция:

, i = 1, N, t = 1, T -1; (2)

3) завершение:

N

p(O\X) = X«T (i). (3)

i=1

Вторая часть forward-backward алгоритма позволяет вычислить обратные вероятности (backward variables) Pt (i) = P({ot+1, ot+2,..., Ot } \ qt = si, X),

t = 1,T, i = 1,N, т. е. вероятности того, что в момент t модель X находилась в состоянии Si, а затем соответствующим ей процессом была сгенерирована последовательность наблюдений {Ot+1, ot+1,..., Ot}. Алгоритм вычисления обратных вероятностей:

1) инициализация:

Pt (i) = 1, i = 1n ;

2) индукция:

N ___

Pt (i) =IP t+1(j)bj (Ot+1)aij, i = 1, N, t = 1,T -1. (4)

j=1

Как видно, после рекурсивного вычисления прямых вероятностей по формулам (1) и (2) формула (3) позволяет вычислить искомое значение функции правдоподобия того, что процесс, описываемый СММ X, сгенерировал последовательность O .

1.3. Обучение СММ

Для получения описания исследуемого процесса или объекта в виде СММ по имеющимся наблюдаемым последовательностям (обучающей выборке) необходимо оценить параметры этой модели. Для этого решается задача обучения, состоящая в подборе параметров модели X так, чтобы X соответствовала обучающему набору последовательностей наблюдений * 1 2 K

о = {о1, о,..., оЛ}, где K - это число наблюдаемых последовательно-

at+1(i) = bt (ot+1)

N

Eat(j) a

j=1

ji

стей. Для решения данной задачи чаще всего применяется способ обучения, основанный на максимизации функции правдоподобия того, что обучающие последовательности были порождены процессом, описываемым моделью X ,

к

* 1—г k

т. е. на максимизации вероятности L(O | X) = {{P(O | X), при изменении

k=1

параметров модели X .

Для данного способа известен эффективный алгоритм Баума-Велша [15], являющийся частным случаем алгоритма EM (EM - expectation-maximization; ожидание-максимизация). Данный алгоритм является итеративным и сходится, вообще говоря, не к глобальному максимуму правдоподобия, а к локальному. Поскольку алгоритм итеративный, перед началом работы алгоритма

нужно выбрать некоторое начальное приближение параметров СММ X .

Для более компактного описания алгоритма Баума-Велша введем вероятности у, :

Ъ (i) = P(qt = s,-|O, X) =а' ^fl, i = Щ t = 1T-1 ; (5)

P(O | X)

^(i, j) = P (qt = si, qt+1 = sj| O, X) =

= at(i) aijbj (ot+1)Pt +1( j)

P(O | X)

i, j = 1,N, t = 1,T -1, (6)

где X - текущая оценка параметров модели. Заметим, что в формулах (5) и (6) используются прямые и обратные вероятности, вычисляемые с помощью алгоритма forward-backward по формулам (1)-(4). Также следует отметить, что для каждой обучающей последовательности под индексом k = 1, K вычисляются свои значения прямых и обратных вероятностей, а также значений величин у, . Они помечаются соответствующим индексом:

a( k), р( k), у(k), k).

С учетом введенных обозначений для дискретной СММ новое прибли-

wI

жение оценок будет находиться в точке X с координатами [16]:

1 к )

* i = 17 Zy((k )(i); (7)

к k=1

к Tk -1

I I sik)(i,j)

zt

a' j=k=u1-; (8)

к Tk-1 (k)

I I y(k)(i) k=1 t=1

К Тк

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

=1

гк

Ь г (т) = к=^=к-, (9)

КГ )

Цу(к (г)

к=1Г=1

г, 7 = 1, N т = 1,м.

По формулам (7)-(9) производится поэтапное (итерационное) улучшение оценок параметров СММ. При этом на каждой новой итерации проводится

перерасчет переменных у, по формулам (5) и (6) с параметрами А, = А, '.

Баум и его коллеги доказали, что новое приближение оценок модели X более правдоподобно, чем оценка X, полученная на предыдущей итерации, в том

смысле что ЬI О

X |>ЬI

(* л\ Л'

О XI, т. е. мы находим модель X , которая лучше

описывает обучающий набор последовательностей [4]. Таким образом, основываясь на вышеописанной процедуре, итеративно используя X вместо X и пересчитывая новые приближения оценок, мы можем увеличивать вероят-

ность генерации обучающих последовательностей ЬI О

X | до выполнения

некоторого условия останова. Поскольку алгоритм Баума-Велша в общем случае не обязательно сходится к глобальному максимуму, рекомендуется запускать его поочередно на нескольких начальных приближениях параметров, выбирая в итоге наилучший результат [17, 18].

2. ПРОБЛЕМА ПРОПУСКОВ НАБЛЮДЕНИЙ И СПОСОБЫ ЕЕ РЕШЕНИЯ

Будем считать последовательностью с пропусками, или «дефектной» последовательностью, такую последовательность О , в которой некоторые наблюдения пропущены. При этом, как уже было сказано, пропуски определялись некоторыми внешними обстоятельствами, т. е. процесс сгенерировал всю последовательность полностью, а мы имеем дело с этой же последовательностью, в которой по тем или иным причинам некоторые наблюдения недоступны. Будем обозначать пропуск символом 0 . Таким образом, последовательность длиной Т , сгенерированная СММ с алфавитом из м

символов, в которой могут быть пропуски, будет обозначаться

{* —) *

о{ е V , ? = 1,Т|, V = (V!,..., Ум, 0} . В следующих разделах мы будем иметь в виду именно такие последовательности.

2.1. Обучение СММ и распознавание последовательностей посредством маргинализации и склеивания пропущенных наблюдений

Один из возможных подходов к распознаванию последовательностей с пропусками с помощью СММ выводится непосредственно из формул (1)-(4) вычисления прямых и обратных вероятностей.

Очевидно, что расчет значений Ц (о(), г = 1, N, t = 1, Т в формулах (1)-(4), которые используются как для обучения СММ, так и для распознавания последовательностей, невозможен, если =0, поскольку неизвестен конкретный наблюдаемый символ, а значит, невозможно определить значение Ь О), соответствующее этому символу. Для того чтобы можно было работать с данными формулами, нужно как-то доопределить значение сомножителя Ц (0), г = 1, N, для тех прямых вероятностей, которые рассчитываются для наблюдений с пропусками.

По сути, наличие пропуска вместо наблюдения означает то, что на месте пропуска мог быть любой из символов (У1,...,Ум} алфавита V исходной

СММ. Представим компоненту Ц (0), г = 1, N, через ее вероятностное определение:

Цг(0) = Р (О = V V О = У2 V... V о = ум I Чг = ^) =

м _ _

= Х Р ( = Ут 1 Ъ = ^ ) = 1 г = 1, N, t = 1, Т.

т=1

Справедливость данного представления обусловлена тем, что в один момент может наблюдаться только один символ , а также тем, что Ц (о{) - дискретное вероятностное распределение наблюдаемого символа о1, t = 1, Т, в

скрытом состоянии Sj, г = 1,N, т. е. ^ Ц (у) = 1, г = 1,N .

vеV

Поскольку теперь значение Ц ^), г = 1, N, t = 1, Т, определено для всех

*

о{ е V , формулы (1)-(4) вычисления прямых и обратных вероятностей могут быть расширены на случай последовательностей с пропусками следующим образом. Далее приведен модифицированный алгоритм вычисления прямых вероятностей, используемый как при обучении, так и при распознавании: 1) инициализация:

|Ч-, о =0 _

а1 (г) = ] г = 1,N ;

[лгйг- (о1), иначе

2) индукция:

аг+1(0 = <

N

X а(])ар, 1=1

Ъ1 (ог+1)

N

Хаг (Р )а

7=1

Р

О+1 =!

иначе

г = 1, N, t = 1, Т -1.

Модифицированный алгоритм вычисления обратных вероятностей, используемый как при обучении, так и при распознавании: 1) инициализация:

Рт (0 = 1, г = ;

2) индукция:

Рг (г) =

N

Хрг+1( Мр, о+1 =0

р=1 _ _

г = 1, N, г = 1, т-1.

N

X Рг+1(])Ьр (ог+1 )ар, иначе

Р=1

Кроме того, формулы оценивания компонент матрицы эмиссий в алгоритме обучения СММ изменятся следующим образом:

к тк (к)

, ХХУ((к )(г) _ _

Ь'г (т) = к=1г=-, г = 1, N, т = 1,М .

к Тк к) ХХУ((к )(г)

к=1 г=1

Как можно заметить, в знаменателе данной формулы теперь суммируются только те вероятности у, которым соответствуют наблюдения, не являющиеся пропусками. Данная поправка необходима для того, чтобы сумма элементов строк матрицы эмиссий оставалась равной единице, т. е. сохранялось свойство вероятностного распределения наблюдаемых символов для каждого

скрытого состояния, т. е. Ь(у) > 0, V е V , г = 1,N и X Ь(у) = 1, г = 1,N .

уе¥

Назовем данный прием доопределения неизвестных величин «маргинализацией пропущенных наблюдений», поскольку здесь мы вычисляем маргинальное распределение Ь{ (0) , г = 1, N, для случайной величины 0 , которая может принимать любое значение из множества {У1,..., Ум } .

Легко увидеть, что с помощью процедуры маргинализации можно решать как задачу обучения СММ по последовательностям с пропусками, так и задачу распознавания последовательностей с пропусками, поскольку соответ-

ствующие формулы были доопределены на случай пропущенных наблюдений. Восстановления пропусков алгоритм маргинализации не предполагает.

Другим возможным подходом по обучению СММ по последовательностям с пропусками является подход, предполагающий удаление пропусков из исходной обучающей последовательности и склеивание оставшихся подпоследовательностей в единую обучающую последовательность, по которой оцениваются параметры СММ. После избавления таким способом от пропусков можно использовать стандартную процедуру обучения (например, с помощью алгоритма Баума-Велша) или стандартную процедуру распознавания последовательности (например, как в разделе 1.2).

2.2. Декодирование последовательностей с пропусками

Для декодирования последовательностей, описываемых скрытыми марковскими моделями, т. е. формирования наиболее вероятной последовательности скрытых состояний <2 = , Ът} по наблюдаемой последовательности О = {о,..., от}, традиционно используется эффективный алгоритм Ви-терби [19]. Пользуясь идеей маргинализации пропущенных наблюдений, дополним алгоритм Витерби таким образом, чтобы он мог быть применен для декодирования последовательностей с пропусками.

Предлагаемый алгоритм приведен ниже.

1) инициализация:

14, о = 0 _

51(0 = ] г = 1, N;

[кЬ(о1), иначе

члО') = 0;

2) индукция:

^ (]) ч

тах

1 < г < N

t = 2,Т, ] = 1, N ;

тах

1 < г < N

_1(г')ау ], о =0

_1(г')ау ] bj (ot), иначе

^ (j) = а^ тах ^_1(г')агу ], t = 2,Т, j = 1, N;

1 < г < N

3) завершение:

Ът = argmax [5т (г)];

1 < г < N

4) рекурсивное формирование наиболее вероятной последовательности скрытых состояний:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ь =^+1 (41+1), t = Т _1, 1.

В результате имеем сформированную наиболее вероятную последовательность наблюдений: << = {<1, - ■ ■, 4т } .

2.3. Восстановление последовательностей с пропусками с помощью модифицированного алгоритма Витерби

Алгоритм декодирования последовательностей с пропусками, описанный в предыдущем пункте, можно применить для восстановления последовательностей, содержащих пропуски. Допустим, имеется СММ X, а также сгенерированная соответствующим ей процессом последовательность с пропусками O. При этом пропуски в этой последовательности образовались случайным образом, не зависящим от процесса генерации последовательности. Для восстановления пропусков в последовательности O воспользуемся следующим алгоритмом:

1) с помощью метода декодирования последовательностей с пропусками, описанного в пункте 2.2, находим по последовательности с пропусками

наиболее вероятную последовательность скрытых состояний Q = , —, qj } ;

2) восстанавливать каждый пропуск можно, например, на основе найденного скрытого состояния. Будем замещать пропуск наиболее вероятным наблюдением, соответствующим скрытому состоянию. Таким образом, пропуск в момент t с найденным скрытым состоянием qt = s* замещается

символом ot = argmax b *(v) . Кроме того, пропуск можно заменять реализа-

veV 1

W www w *

цией дискретной случайной величины, соответствующей i -му состоянию скрытой марковской модели, т. е. имеющей распределение b* (x). В описанных далее экспериментах использовался второй подход, поскольку он показал более хорошие результаты на практике.

2.4. Восстановление последовательностей с пропусками по моде соседних наблюдений

В работе для сравнения также использовался стандартный метод восстановления пропусков по моде к соседних наблюдений [20]. После восстановления таким способом некоторые пропуски все равно могут остаться невосстановленными (например, такие пропуски, у которых к соседних наблюдений - тоже пропуски). Поэтому данное восстановление применяется повторно, но число рассматриваемых соседей к при этом увеличивается до размера всей последовательности T .

В данной работе рассматривалась мода 10 ближайших соседей (5 соседей слева и 5 справа), т. е. пропуск замещался символом, который чаще всего встречался среди 10 ближайших соседей. Такое количество соседей было выбрано эмпирически: при таком значении параметра алгоритм восстановления последовательностей по моде соседей продемонстрировал наилучшие результаты при проведении экспериментов.

2.5. Обучение и распознавание с помощью восстановленных последовательностей с пропусками

Распознавание последовательностей, восстановленных по методу из пункта 2.3, требует уточнения, поскольку для восстановления требуется знание модели. Поскольку априорные знания о модели отсутствуют, имеет

смысл восстанавливать последовательность О той же СММ X, для которой будет затем рассчитываться значение Р(О |Х).

Обучение же СММ по последовательностям с пропусками можно осуществить с помощью стандартных методов (например, алгоритма Баума-Велша), если предварительно восстановить данные последовательности. Для восстановления по методу из пункта 2.3 требуется знание модели. Если априорные знания отсутствуют, то модель нужно получить через процедуру обучения, например, используя подход с маргинализацией, и уже после восстановления можно попытаться уточнить модель, проводя ее переобучение на восстановленных последовательностях. Однако эффективность подобного подхода необходимо проверить экспериментально. Естественный недостаток такого подхода заключается в том, что обучение СММ необходимо проводить два раза.

3. РЕЗУЛЬТАТЫ

3.1. Обучение СММ по последовательностям с пропусками

В первом вычислительном эксперименте проводилось сравнение различных подходов к обучению СММ по последовательностям, содержащим пропуски. В качестве истинной СММ была взята модель X со следующими характеристиками. Число скрытых состояний N = 3, размерность алфавита наблюдаемых символов М = 3 . Вектор распределения начального состояния

" 0.1 0.7 0.2"

П = [1,0,0], матрица вероятностей переходов А =

0.2 0.2 0.6 0.8 0.1 0.1

матрица

. С помощью процесса, описываемого данной

0.1 0.1 0.8 эмиссии В =0.1 0.8 0.1 0.8 0.1 0.1

СММ, было сгенерировано К = 100 обучающих последовательностей

1 2 К

{О , О ,..., О } длиной Т = 100. В ходе исследования изменялось количе-

12 К

ство пропусков в обучающих последовательностях {О , О ,..., О }, которые использовались для нахождения оценки параметров модели X . Пропуски генерировались случайным образом, причем в различных местах в каждой последовательности. Выход из итерационного процесса обучения осуществлялся по сходимости.

При изменении количества пропусков фиксировалось изменение следующих величин. Во-первых, фиксировалось значение логарифма функции правдоподобия того, что обученная модель сгенерировала исходные обуча-

12 К л

ющие последовательности (без пропусков), т. е. 1пр({О , О ,..., О } X).

Во-вторых, фиксировалось расстояние, основанное на симметричной разности логарифмов правдоподобия, между истинной и обученной моделью. Это расстояние вычисляется по следующей формуле:

о, = Х)+ Р(Х- Х), (10)

где 0(ХЬ X2) = Т

1п р (о21^1)_ 1п р (о2 |Х 2)

а О2 - последовательность,

порожденная X2 . Данная метрика позволяет более адекватным образом сравнить две СММ, нежели норма разности параметров [4]. Для расчетов по формуле (10) генерировалось Ко = 100 последовательностей длиной То = 500 для каждой СММ и брался средний результат.

Результаты описанного выше эксперимента представлены на рис. 1 и 2. Приведены средние значения после 10 проведенных экспериментов. Начертание линии обозначает использованный метод обучения: сплошная - алгоритм Баума-Велша с использованием маргинализации пропущенных наблюдений (раздел 2.1), штриховая - склеивание последовательностей с пропусками (раздел 2.2) и затем использование стандартного алгоритма Баума-Велша (раздел 1.3), пунктирная - восстановление последовательностей с пропусками с помощью модифицированного алгоритма Витерби (раздел 2.3) и затем использование стандартного алгоритма Баума-Велша (раздел 1.3), штрихпунктирная - восстановление последовательностей с пропусками по моде соседних наблюдений (раздел 2.4) и затем использование стандартного алгоритма Баума-Велша (раздел 1.3).

Процент пропусков

Рис. 1. Зависимость значения логарифма функции правдоподобия, рассчитанного на исходных последовательностях без пропусков для обученной СММ, от процента пропусков в обучающих последовательностях

0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00

10 20 30 40 50 60 Процент пропусков

70 80

90

Рис. 2. Зависимость расстояния, основанного на правдоподобии истинной модели и ее оценки, от процента пропусков в обучающих последовательностях

Как видно из вышеприведенных графиков, алгоритм, использующий маргинализацию пропусков, и алгоритм, задействующий восстановление пропусков по модифицированному алгоритму Витерби, очень близки по эффективности. Несколько меньшую эффективность демонстрирует алгоритм обучения, основанный на склеивании последовательностей с пропусками. Метод, основанный на восстановлении пропусков по моде ближайших соседей, показывает неудовлетворительные результаты.

Важнейшим показателем работоспособности алгоритмов обучения является использование их для построения классификаторов на основе полученных моделей. В этом случае в качестве метрики для сравнения качества обучающих алгоритмов можно использовать процент верно распознанных последовательностей. Затрудним условия распознавания, выбрав достаточно близкие по параметрам две модели СММ. Для этого рассмотрим две модели А,1 и X 2 , различающиеся только матрицами вероятностей переходов

у первой модели Х1 - АЛ = 0 (т. е. она совпадает с матрицей из предыдущего эксперимента), а у второй модели X2 - АЛ = 0.3 . Все остальные параметры у исходных моделей совпадают и равны параметрам модели, использованной в предыдущем эксперименте. Нахождение оценок каждой из двух моделей проводилось по набору из К = 100 обучающих последовательностей длиной Т = 100, сгенерированному соответствующей истинной моделью. После нахождения оценок проводилось распознавание двух наборов по Кс = 100 тестовых последовательностей длиной Т^ = 100 без пропусков, сгенерированных каждой из двух исходных моделей соответственно. В качестве классификатора применялся алгоритм максимума логарифма правдоподобия (раздел 1.2). Результаты данного эксперимента представлены на рис. 3. На графике приведены средние значения после 10 запусков. В дополнение к приведенным выше типам линий на данном графике присутствует также утолщенная сплошная линия, которая соответствует проценту последовательностей, верно распознанных с помощью истинных моделей.

0.1 + АЛ 0.7-АЛ 0.2 Л = 0.2 0.2 + АЛ 0.6 -АЛ 0.8-АЛ 0.1 + АЛ 0.1

# 100

о

6 70

I

Маргинализация - - Склеивание ,,:=:. Алгоритм Витерби

ч

Мода

= Истинные модели

л

сх

о 60

X

о. дд _— ______ ____•"*** — *;*----

10 0 10 20 30 40 50 60 70 80 90 Процент пропусков

Рис. 3. Зависимость процента верно распознанных тестовых последовательностей от процента пропусков в обучающих последовательностях

Как видно из графика, обучение с помощью маргинализации пропущенных наблюдений обеспечивает наилучшие дискриминационные свойства полученных моделей. Модели, обученные алгоритмом с использованием восстановления пропусков по модифицированному алгоритму Витерби, показывают чуть меньший процент верно распознанных последовательностей. Чуть больше уступает алгоритм обучения, основанный на склеивании последовательностей с пропусками. Метод, основанный на восстановлении пропусков по моде ближайших соседей, в очередной раз показывает неудовлетворительные результаты, даже несмотря на то что он был оптимизирован по числу соседей.

В реальных ситуациях может возникнуть необходимость решения задачи распознавания не только целых последовательностей, но и последовательностей с пропусками. Вначале посмотрим, как меняется эффективность распознавания таких последовательностей, если в классификаторе использовать исходные модели X и X2, по которым и проводилась генерация тестовых последовательностей. Результаты описанного выше эксперимента представлены на рис. 4. Приведены средние значения после 10 запусков. Начертание линии обозначает использованный метод классификации последовательностей с пропусками: сплошная - алгоритм маргинализации пропущенных наблюдений (раздел 2.1), штриховая - склеивание последовательностей с пропусками (раздел 2.2) и затем стандартный алгоритм распознавания (раздел 1.2), пунктирная - алгоритм восстановления последовательностей с пропусками с помощью модифицированного алгоритма Витерби и дальнейшее распознавание стандартным алгоритмом (раздел 2.5), штрихпунктирная -восстановление последовательностей с пропусками по моде соседних наблюдений (раздел 2.4) и затем стандартный алгоритм распознавания (раздел 1.2).

Рис. 4. Зависимость процента верно распознанных последовательностей от процента пропусков в этих последовательностях

Как видно, метод распознавания с помощью метода маргинализации пропущенных наблюдений показывает наилучший результат. На втором месте алгоритм, основанный на склеивании последовательностей с пропусками, и затем стандартное распознавание. Далее идет алгоритм восстановления последовательностей с пропусками с помощью модифицированного алгоритма

Витерби и затем стандартное распознавание. Худший результат - восстановление последовательностей с пропусками по моде соседних наблюдений и затем стандартное распознавание.

Наконец рассмотрим наиболее реалистичный, на наш взгляд, случай, когда СММ, обученные на последовательностях с пропусками, будут применяться для классификации подобных «дефектных» последовательностей. Данное исследование было проведено таким же образом, как и описанный выше эксперимент по распознаванию последовательностей без пропусков с помощью моделей, обученных на последовательностях с пропусками. Единственное отличие состояло в том, что в распознаваемых последовательностях теперь появлялись пропуски, причем процент пропусков в распознаваемых последовательностях равнялся проценту пропусков в обучающих последовательностях. Фиксировался процент верно распознанных последовательностей при изменении процента пропусков в обучающих и распознаваемых последовательностях.

Результаты данного эксперимента представлены на рис. 5. На графике приведены средние значения после 10 проведений эксперимента. Начертание линии обозначает использованный метод обучения и распознавания: сплошная - обучение и распознавание путем маргинализации пропущенных наблюдений (раздел 2.1), штриховая - обучение и распознавание путем склеивания последовательностей с пропусками (раздел 2.2), пунктирная - обучение и распознавание путем восстановления последовательностей с пропусками с помощью модифицированного алгоритма Витерби (раздел 2.3), штрих-пунктирная - обучение и распознавание путем восстановления последовательностей с пропусками по моде соседних наблюдений (раздел 2.4).

— Маргинализация Склеивание

..... Алгоритм Витерби

■ ■ - Мода

- Истинные модели

Рис. 5. Зависимость процента верно распознанных последовательностей от процента пропусков в обучающих и распознаваемых последовательностях

Как видно из рис. 5, наилучший результат демонстрирует алгоритм распознавания последовательностей путем маргинализации наблюдений, который использовал СММ, обученные с помощью алгоритма маргинализации пропущенных наблюдений. Алгоритмы обучения и распознавания с помощью восстановления последовательностей по модифицированному алгоритму Витерби в данной ситуации показывают худший результат.

3.2. Декодирование и восстановление последовательностей с пропусками

В данном эксперименте сравнивались алгоритмы декодирования последовательностей с пропусками. С помощью модели Х из предыдущего пункта было сгенерировано К = 100 последовательностей наблюдений длиной Т = 100 с пропусками. Для декодирования использовалась истинная модель X . Фиксировался процент верно декодированных скрытых состояний.

Результаты описанного выше эксперимента представлены на рис. 6. Приведены средние значения после 10 запусков. Начертание линии обозначает использованный метод декодирования: пунктирная - декодирование с помощью модифицированного алгоритма Витерби (раздел 2.2), штрихпунк-тирная - восстановление пропусков по моде ближайших соседей (раздел 2.4) и затем декодирование восстановленной последовательности с помощью стандартного алгоритма Витерби.

Алгоритм Витерби Мода

-------

'........

10 20 30 40 50 60 70 80 90 Процент пропусков

Рис. 6. Зависимость процента верно декодированных состояний в последовательностях с пропусками от процента пропусков в этих последовательностях

Как видно, метод декодирования с помощью модифицированного алгоритма Витерби несколько превосходит стандартный поход, основанный на восстановлении пропусков по моде ближайших соседей.

Также был проведен эксперимент по сравнению алгоритмов восстановления последовательностей с пропусками. Последовательности с пропусками генерировались таким же образом, как и в предыдущем эксперименте с помощью модели Х . Для восстановления использовалась истинная модель Х . Фиксировался процент верно восстановленных наблюдений.

Результаты описанного выше эксперимента представлены на рис. 7. Приведены средние значения после 10 запусков. Начертание линии обозначает использованный метод восстановления: пунктирная - восстановление с помощью модифицированного алгоритма Витерби (раздел 2.3), штрихпунк-тирная - восстановление пропусков по моде ближайших соседей (раздел 2.4).

Как видно из графика, метод восстановления последовательностей с пропусками с помощью модифицированного алгоритма Витерби несколько превосходит стандартный поход, основанный на восстановлении пропусков по моде ближайших соседей.

80

Я 70

100

90

80

2 70

60

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ь 50

40

30

Алгоритм Витерби Мода

V ч

X

10

20

30 40 50 60 70 SO 90 Процент пропусков

Рис. 7. Зависимость процента верно восстановленных наблюдений в последовательностях с пропусками от процента пропусков в этих последовательностях

ЗАКЛЮЧЕНИЕ

В результате проделанной работы был предложен алгоритм обучения скрытых марковских моделей по последовательностям с пропусками, а также алгоритм распознавания последовательностей с пропусками, оба из которых основаны на маргинализации пропущенных наблюдений. Для декодирования и восстановления последовательностей с пропусками были предложены алгоритмы, основанные на модификации алгоритма Витерби для случая пропущенных наблюдений. Преимущество предложенных алгоритмов по сравнению с ранее известными подходами было подтверждено экспериментально: стандартные подходы (т. е. склеивание последовательностей с пропусками и восстановление по моде соседей), оказались наименее эффективными. В дальнейшем планируется исследовать эффективность распознавания последовательностей с пропусками с помощью классификатора, основанного на производных от логарифма функции правдоподобия по параметрам СММ [8].

СПИСОК ЛИТЕРАТУРЫ

1. Baum L.E., Petrie T. Statistical inference for probabilistic functions of finite state Markov chains // The Annals of Mathematical Statistics. - 1966. - Vol. 37. - P. 1554-1563.

2. Baum L.E., Egon J.A. An inequality with applications to statistical estimation for probabilistic functions of a Markov process and to a model for ecology // Bulletin of the American Meteorological Society. - 1967. - Vol. 73. - P. 360-363.

3. GalesM., YoungS. The application of hidden Markov models in speech recognition // Signal Processing. - 2007. - Vol. 1, N 3. - P. 195-304.

4. Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition // Proceedings of the IEEE. - 1989. - Vol. 77. - P. 257-285.

5. Статистика упоминания ключевого слова "hidden Markov models" между 1800 и 2008 годами, полученная с помощью сервиса Google Ngram Viewer [Электронный ресурс]. - URL: https://books.google.com/ngrams/graph?content=hidden+Markov+models&year_start=1800&year_e nd=2008&corpus=15&smoothing=3&share=&direct_url=t1%3B%2Chidden%20Markov%20models %3B%2Cc0 (дата обращения: 29.03.2017).

6. Robust automatic speech recognition with missing and unreliable acoustic data / M. Cooke, P. Green, L. Josifovski, A. Vizinho // Speech Communication. - 2001. - Vol. 34, N 3. - P. 267-285.

7. Lee D., Kulic D., Nakamura Y. Missing motion data recovery using factorial hidden Markov models // IEEE International Conference on Robotics and Automation. - Pasadena, California, 2008. - P. 1722-1728.

8. Classification of observation sequences described by hidden Markov models / T. Gultyaeva, A. Popov, V. Kokoreva, V. Uvarov // Applied Methods of Statistical Analysis. Nonparametric Approach: Proceedings of the International Workshop, Novosibirsk, Russia, 14-19 September 2015. -Novosibirsk, 2015. - P. 136-144.

9. Training hidden Markov models on incomplete sequences / T. Gultyaeva, A. Popov, V. Ko-koreva, V. Uvarov // 13th International Scientific-Technical Conference on Actual problems of Electronic Instrument Engineering (APEIE-2016): proceedings, Novosibirsk, 3-6 October 2016. - Novosibirsk, 2016. - Vol. 1, pt. 2. - P. 317-320.

10. Гультяева Т.А., Попов А.А., Саутин А.С. Методы статистического обучения в задачах регрессии и классификации: монография. - Новосибирск: Изд-во НГТУ, 2016. - 322 с.

11. Попов А.А., Гультяева Т.А., Уваров В.Е. Исследование подходов к обучению скрытых марковских моделей при наличии пропусков в последовательностях // Обработка информации и математическое моделирование: материалы российской научно-технической конференции. -Новосибирск, 2016. - С. 125-139.

12. Popov A., Gultyaeva A., Uvarov V. A comparison of some methods for training hidden Markov models on sequences with missing observations // 11th International Forum on Strategic Technology (IFOST 2016): proceedings, Novosibirsk, 1-3 June 2016. - Novosibirsk, 2016. - Pt. 1. -P. 431-435.

13. Попов А.А., Гультяева Т.А., Уваров В.Е. Исследование методов обучения скрытых марковских моделей при наличии пропусков в последовательностях // Труды XIII международной конференции «Актуальные проблемы электронного приборостроения», Новосибирск, 3-6 октября 2016. - Новосибирск, 2016. - Т. 8. - С. 149-152.

14. Baum L.E., Sell G.R. Growth functions for transformations on manifolds // Pacific Journal of Mathematics. - 1968. - Vol. 27, N 2. - P. 211-227.

15. DempsterA.P., LairdN.M., Rubin D.B. Maximum likelihood from incomplete data via the EM algorithm // Journal of the Royal Statistical Society. - 1977. - Vol. 39. - P. 1-38.

16. Li X. Training hidden Markov models with multiple observations - a combinatorial method // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2000. - Vol. PAMI-22, N 4. - P. 371-377.

17. A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains / L.E. Baum, T. Petrie, G. Soules, N. Weiss // The Annals of Mathematical Statistics. -1970. - Vol. 41. - P. 164-171.

18. Baum L.E. An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes // Inequalities. - 1972. - Vol. 3. - P. 1-8.

19. ViterbiA.J. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm // IEEE Transactions on Information Theory. - 1967. - Vol. 13. - P. 260-269.

20. Gelman A., Hill J. Data analysis using regression and multilevel/hierarchical models. -Cambridge: Cambridge University Press, 2006.

Попов Александр Александрович, доктор технических наук, профессор кафедры теоретической и прикладной информатики Новосибирского государственного технического университета. Основное направление научных исследований - статистические методы анализа данных и планирования экспериментов. Имеет более 150 публикаций, в том числе 3 монографии. E-mail: a.popov@corp.nstu.ru

Гультяева Татьяна Александровна, кандидат технических наук, доцент кафедры теоретической и прикладной информатики Новосибирского государственного технического университета. Основное направление научных исследований - структурные и статистические методы распознавания. Имеет более 70 публикаций, в том числе одну монографию. E-mail: t.gultyaeva@corp.nstu.ru

Уваров Вадим Евгеньевич, аспирант кафедры теоретической и прикладной информатики Новосибирского государственного технического университета. Основное направление научных исследований - структурные и статистические методы распознавания. Имеет 18 публикаций. E-mail: uvarov.vadim42@gmail.com

Identification, decoding and recovery of sequences with missing values using discrete hidden Markov models"

A.A. POPOV1, T.A. GUL'TYAEVA2, V.E. UVAROV3

1 Novosibirsk State Technical University, 20 K. Marx Prospect, Novosibirsk, 630073, Federation, D. Sc. (Eng.), professor. E-mail: alex@fpm.ami.nstu.ru

Novosibirsk State Technical University, 20 K. Marx Prospect, Novosibirsk, 630073, Federation, PhD (Eng.), associate professor. E-mail: t.gultyaeva@corp.nstu.ru

Novosibirsk State Technical University, 20 K. Marx Prospekt, Novosibirsk, 630073, Federation, postgraduate student. E-mail: vadim.uvarov42@gmail.com

This study is an attempt to address the issue of using hidden Markov models (HMMs) for the analysis of sequences with missing values. We consider the problem of training HMMs on incomplete sequences and the problems of decoding, recovery and classification of incomplete sequences. Two algorithms for training HMMs on incomplete sequences were developed: one is based on the marginalization of missing observations and the other is based on recovery of sequences using the modified Viterbi algorithm. We also developed algorithms for decoding and recovering incomplete sequences based on the modified Viterbi algorithm. In addition, two algorithms for classification of incomplete sequences were developed: one is based on the mar-ginalization of missing observations and the other is based on the recovery of sequences using the modified Viterbi algorithm. To evaluate the algorithms developed, we also implemented a couple of standard methods for processing incomplete sequences: gluing of incomplete sequences and mode-based recovery of missing observations. The data gathered during the evaluation of the algorithms suggest that the best performance during training and classification was achieved by the algorithms based on the marginalization of missing observations. Experimental data also suggests that both the recovery and decoding of incomplete sequences were most effectively carried out by the algorithms based on the recovery of sequences using the modified Viterbi algorithm. Therefore, for training and classification problems we suggest the developed algorithms based on the marginalization of missing observations and for recovery and decoding problems we suggest the developed algorithms based on the recovery of missing observations the modified Viterbi algorithm.

Keywords: hidden Markov models, machine learning, sequences, Baum-Welch algorithm, missing observations, incomplete data, Viterbi algorithm, classification

DOI: 10.17212/1814-1196-2017-1-99-119

REFERENCES

1. Baum L.E., Petrie T. Statistical inference for probabilistic functions of finite state Markov chains. The Annals of Mathematical Statistics, 1966, vol. 37, pp. 1554-1563.

2. Baum L.E., Egon J.A. An inequality with applications to statistical estimation for probabilistic functions of a Markov process and to a model for ecology. Bulletin of the American Meteorological Society, 1967, vol. 73, pp. 360-363.

3. Gales M., Young S. The application of hidden Markov models in speech recognition. Signal Processing, 2007, vol. 1, no. 3, pp. 195-304.

4. Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition. Proceedings of the IEEE, 1989, vol. 77, pp. 257-285.

5. Frequencies of "hidden Markov models" keyword in literature published between 1800 and 2008 year provided by Google Ngram Viewer. Available at: https://books.google.com/ngrams/ graph?content=hidden+Markov+models&year_start=1800&year_end=2008&corpus=15&smoothing =3&share=&direct_url=t1%3B%2Chidden%20Markov%20models%3B%2Cc0 (accessed 29.03.2017)

Russian Russian Russian

* Received 03 December 2016.

6. Cooke M., Green P., Josifovski L., Vizinho A. Robust automatic speech recognition with missing and unreliable acoustic data. Speech Communication, 2001, vol. 34, no. 3, pp. 267-285.

7. Lee D., Kulic D., Nakamura Y. Missing motion data recovery using factorial hidden Markov models. IEEE International Conference on Robotics and Automation, Pasadena, California, 2008, pp. 1722-1728.

8. Gultyaeva T., Popov A., Kokoreva V., Uvarov V. Classification of observation sequences described by hidden Markov models. Applied methods of statistical analysis: nonparametric approach: proceedings of the international workshop, Novosibirsk, Russia, 14-19 September 2015, pp. 136-144.

9. Gultyaeva A., Popov A., Kokoreva V., Uvarov V. Training hidden Markov models on incomplete sequences. 13th International Scientific-Technical Conference on Actual problems of electronic instrument engineering (APEIE-2016): proceedings, Novosibirsk, 3-6 October 2016, vol. 1, pt. 2, pp. 317-320.

10. Gultyaeva T.A., Popov A.A., Sautin A.S. Metody statisticheskogo obucheniya v zadachakh regressii i klassifkatsii [Methods of statistical learning for the problems of regression and classification]. Novosibirsk, NSTU Publ., 2016. 322 p.

11. Popov A., Gultyaeva A., Uvarov V. [Training hidden Markov models on incomplete sequences]. Obrabotka informatsii i matematicheskoe modelirovanie: materialy rossiiskoi nauchno-tekhnicheskoi konferentsii [Proceeding of Russian scientific conference "Information processing and mathematical modelling"]. Novosibirsk, 2016, pp. 125-139. (In Russian)

12. Popov A., Gultyaeva A., Uvarov V. A Comparison of some methods for training hidden Markov models on sequences with missing observations. 11th International Forum on Strategic Technology (IFOST 2016): proceedings, Novosibirsk, 1-3 June 2016, pt. 1, pp. 431-435.

13. Popov A., Gultyaeva A., Uvarov V. [Training hidden Markov models on sequences with missing observations]. Trudy XIII mezhdunarodnoi konferentsii "Aktual'nye problemy elektronnogo priborostroeniya": APEP-2016 [13th International Scientific-Technical Conference on Actual problems of electronic instrument engineering APEIE-2016], Novosibirsk, 3-6 October 2016, vol. 8, pp. 149-152. (In Russian)

14. Baum L.E., Sell G.R. Growth functions for transformations on manifolds. Pacific Journal of Mathematics, 1968, vol. 27, no. 2, pp. 211-227.

15. Dempster A.P., Laird N.M., Rubin D.B. Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, 1977, vol. 39, pp. 1-38.

16. Li X. Training hidden Markov models with multiple observations - a combinatorial method. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, vol. PAMI-22, no. 4, pp. 371-377.

17. Baum L. E., Petrie T., Soules G., Weiss N. A maximization technique occurring in the statistical analysis of probabilistic functions of Markov chains. The Annals of Mathematical Statistics, 1970, vol. 41, no. 1, pp. 164-171.

18. Baum L.E. An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes. Inequalities, 1972, vol. 3, pp. 1-8.

19. Viterbi A.J. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm. IEEE Transactions on Information Theory, 1967, vol. 13, pp. 260-269.

20. Gelman A., Hill J. Data analysis using regression and multilevel/hierarchical models. Cambridge, Cambridge University Press, 2006.

ISSN 1814-1196, http://journals.nstu.ru/vestnik Science Bulletin of the NSTU Vol. 66, No 1, 2017, pp. 99-119

i Надоели баннеры? Вы всегда можете отключить рекламу.