УДК 519.2
С. В. Шалаши, А. Р. Нурутдинова
СРАВНИТЕЛЬНЫЙ АНАЛИЗ ВЫЧИСЛИТЕЛЬНОЙ СЛОЖНОСТИ АЛГОРИТМОВ ИДЕНТИФИКАЦИИ КОНЕЧНЫХ ПРОСТЫХ ОДНОРОДНЫХ ЦЕПЕЙ МАРКОВА
Ключевые слова: цепи Маркова, идентификация, вычислительная сложность.
Представлены оценки сложности алгоритмов идентификации конечных простых однородных ЦМ, сгенерированных на основе стохастических матриц класса эргодических. Рассмотрены алгоритмы идентификации на основе l-грамм, частотных признаков, а также модифицированный алгоритм прямого-обратного хода для идентификации последовательностей ЦМ и для последовательностей, часть элементов которых скрыто от наблюдения.
Keywords: Markov's chains, identification, computational complexity.
In the paper we consider computational complexity of identification algorithms of finite simple homogeneous Markov's chains generated based on stochastic class of ergodic matrices. We presented identification algorithms based on l-gram, frequency characteristics, as well as the modified Forward-Backward procedure to identify Markov's chains and sequences, some elements of which are hidden from observation.
Введение
Автоматные марковские модели (АММ) широко применяются в таких областях, как статистическое моделирование, распознавание образов, диагностика технических устройств, обработка сигналов. Поэтому в теоретических, прикладных исследованиях вопросы синтеза и анализа дискретных марковских процессов являются актуальными и на сегодняшний день [1, 2]. В рамках задачи анализа цепей Маркова (ЦМ) важным моментом является выбор информативных признаков и эффективных алгоритмов идентификации. В [3-5] предложены методы и алгоритмы идентификации ЦМ на основе функционалов, определяемых на базе биграмм. В [6,7] описаны методы и алгоритмы идентификации на основе функционалов от /-грамм, частотных признаков и элементов биграммы. В этих работах эффективность идентификационных признаков определяется снижением длины последовательностей, требуемых для решения задачи идентификации и классификации АММ, определенных на основе заданных подклассов эргодических стохастических матриц (ЭСМ), с определенной доверительной вероятностью.
В [8] предложен алгоритм прямого-обратного хода, который применим для идентификации конечных простых однородных ЦМ, сгенерированных на основе стохастических матриц класса эргодиче-ских. Данный подход также описан в работе, как модификация модели, предложенной в [8]. Кроме того, в статье показано, что предложенный модифицированный алгоритм прямого-обратного хода позволяет решать задачу идентификации ЦМ, часть элементов которой скрыта от наблюдения.
В данной статье проанализирована вычислительная сложность указанных выше алгоритмов идентификации конечных простых однородных ЦМ, сгенерированных на основе АММ.
Задача идентификации цепей Маркова
Конечные простые однородные ЦМ заданы на основе выражения [3]:
Р,),^), (1)
где £ = {у1,s2,...,5т} - множество ее состояний, Р(т) -
стохастическая матрица (СМ) размера тхт,
тт0 = {я"г}, I = 1, т -вектор, задающий начальное
распределение вероятностей состояний.
Автоматной марковской моделью (АММ) будем называть автономный вероятностный автомат вида [4, 5]:
А = (Д £ ,б( х, 5)). (2)
Задание АММ в виде (2) эквивалентно заданию конечной простой однородной ЦМ вида (1): £ - тот же объект, что и в (1), ¡и - дискретная случайная величина, принимающая конечное число значений (и1,^2,...,/^/ на входе А с вероятностями /
р1, р2,..., р1, = 1, 0 < р. < /, 8(х,5) - функция
¿=1
переходов, ставящая в соответствие паре (х, 5) однозначно новое состояние 5 е £ и для которой множество значений {х } = X = {/и1}, / = 1, /.
Последовательность состояний АММ вида (2) является простой однородной ЦМ вида (1), определяемой стохастической матрицей Р, которая вычисляется по формуле [4]
р=£ рм (х),
4=1
где коэффициенты р1,р2,...,р, образуют стохастический вектор Р , М(х4) - простая матрица, соответствующая букве х4. Элементы матрицы М(хк), обозначим их через (хк), I, ] = 1, т, определяются из соотношения [4]
Щ, (xk ) =
1: S^J = sj, _
0: S(xt,si) Ф s,, i, j = 1,m
Пусть ¡¡(М) - ЦМ длины N вида
¡?(М) = 5(1)5(2)...5(М), ) - состояние АММ вида
(2) в момент времени ^ t = 1, N. АММ(Р) - автоматная марковская модель вида (2), заданная на основе ЭСМ Р. Заданный подкласс ЭСМ определен на задании структуры матрицы в зависимости от расположения нулевых значений определенных ее элементов [6].
Пусть задан класс АММ(Р), обозначим g,
g = 1, k, и последовательность наблюдений
¡¡( М) = 5(1)5(2)... 5( М). Требуется вычислить вероятность того, что реализации ЦМ порождены заданной автоматной марковской моделью. Схема модели идентификации марковских последовательностей приведена на рис.1.
Идентификация
ФЫ {Р(5{М))}К
АММ(Р?) '
Рис. 1 - Схема модели идентификации ЦМ
В соответствии с заданной схемой идентификации последовательности, порождаемой АММ, заданной ЭСМ Р, где Р принадлежит заданному подклассу стохастических эргодических матриц, ставятся следующие задачи:
Задача 1. Вычислить Р(£(М) | АММ(Р)) - вероятность того, что ¡?(М) сгенерирована на основе АММ(Р), где ЭСМ Р принадлежит заданному подклассу.
Задача 2. Определить АММ(Ра), которая сгенерировала заданную Б(М) с большей вероятностью Р(£(М)| АММ(Ра)) = 1щх{р(£(М)| АММ(Р))} для заданного множества ЭСМ { Р1, Р2,..., Рс }.
Метод и алгоритмы идентификации цепей Маркова и анализ их сложности
Для решения поставленных задач в [6, 7] предложены алгоритмы идентификации подклассов ЭСМ Р:
1) с использованием частотных признаков ^,
2) с использованием функционалов на основе I-грамм, для I = 2, 3 (признаки Р и й соответственно);
3) с использованием признаков на основе элементов биграммы (признаки т ).
Алгоритмы идентификации с использованием рассматриваемых групп признаков реализованы на основе предложенного общего метода идентификации, включающего три этапа:
Этап 1. Инициализация последовательностей Б(М) по заданным начальным параметрам модели (длина М, размерность стохастической матрицы тхт).
Этап 2. Расчет признаков идентификации АММ(Р) по ¡ХМ).
Этап 3. Расчет вероятности Р(Б(М)| АММ(Р)) для каждого заданного подкласса Р и определение
щ1Х{р(£( М) | АММ (Р))}.
Вычислительная сложность заданных алгоритмов идентификации ЦМ определяется сложностью вычисления признаков идентификации.
Набор признаков первой группы характеризуют частоту перехода ЦМ из состояния в состояние
5« (, 5« е Б , г, ] = 0, п -1) для случая, когда г - « = k , рассчитывается по формуле вида[6,7]
Л =
1
ТХ У:
1 :=1
N
1: У: = к
(3)
У =< " , к = 1 т,т 1. |0: У: * к'
Вычислительная сложность поиска значений
к = 1 - т, т -1:
1. Вычисление для каждого возможного состояния ЦМ значения уг: 2т -1 операция.
2. Вычисление /1: М -1 операция сложения значений у.
3. Расчет ^ для всех к: (2т -1) операция деления.
Итого: (М - 1)(2т -1) операций сложения и (2т -1) операций деления. Таким образом, на основе вышеизложенного, имеет место
Утверждение 1. Порядок оценки сложности вычисления частотных признаков для идентификации класса АММ(Р) по реализациям
¡хМ) равен 0(М * т).
Вычисление признаков Р производится путем
подсчета частот по биграмме Р = (р«) тхт,
построенной на основе ЦМ определенной длины [6, 7]:
Г1: V?« : ((~ > 0)л(р > 0))л
Р = | л ((~ = 0)л (р, = о))л (Р е X^)), 0:иначе
(4)
где г,] = 0, т -1, g = 1,4,
1
Р = (:) = г) & (г +1) = «), 5(г) - состояние ЦМ в дискретный момент времени г.
Вычислительная сложность поиска значений Р :
1. Вычисление :(М -1) операций подсчета пар состояний, (М - 2) операций сложения, операция деления. Расчет р для каждой пары состояний ЦМ
- т2
1
2. Вычисление п : 4 операции конъюнкции, к -количество подклассов ЭСМ. Расчет п для каждой пары состояний ЦМ - т2.
Итого: т 2(N + 4к -1) операций &, т2(N - 2) операций сложения, т2 операций деления. На основе вышеизложенного справедливо
Утверждение 2. Порядок оценки сложности вычисления признаков П для идентификации класса
АММ(Р) по реализациям £(Щ равен 0(N • т2).
Признаки й определяются выражением
[6, 7]:
:((~ >0)л(р, >о))л л(& =0)л(р; =0))л(РеХ^),
0:иначе
(5)
где р',Г = р, • рГ, ', ], г = 1, п, X(g) -подкласс АММ(Р),
= N-1 5>(г) = ')& (5(2+1) = ])& (5(2 + 2) = г),
г=1
', ], Г = 1, п .
Вычислительная сложность поиска значений М :
1. Вычисление : (N -1) операция подсчета триграмм состояний, (И - 3) операций сложения, операция деления. Расчет р',г для каждой тройки состояний ЦМ - т3.
2. Вычисление М: 4 операции конъюнкции, к -количество подклассов ЭСМ. Расчет М для каждой тройки состояний ЦМ - т3.
Итого: т3 (N + 4к -1) операций & , т3(N - 3) операций сложения, т3 операций деления. Справедливо
Утверждение 3. Порядок оценки сложности вычисления признаков М для идентификации класса
АММ(Р) по реализациям £?(N) равен 0(N • т3).
Вычислительная сложность поиска значений признаков /йg равна к(N -1) операций & для
т2 элементов признака, к - количество подклассов ЭСМ. В результате имеет место
Утверждение 4. Порядок оценки сложности вычисления признаков гпе для идентификации класса
АММ(Р) по реализациям £(N) равен 0(N • т2).
В [8] предложено решение задачи идентификации методом индукции по модифицированному алгоритму прямого-обратного хода для скрытых ЦМ. Применяя модификацию алгоритма прямого-обратного хода для конечных простых однородных ЦМ, получаем алгоритм решения поставленной задачи, эффективный по вычислительной сложности. Для идентификации последовательности
£(К) = 5(1)5(2)...5(N) вводятся массивы переменных:
а,(') = Р(5(1)5(2)..Л(0,5(0 = 5 | АММ(Р)),
г = 1, N, ' = 1, т ,
которые позволяют определить вероятность того, что АММ(Р) к моменту времени г порождает последовательность ¿¡"(0 = 5(1) 5(2)...5(г) и в момент времени г АММ(Р) находится в состоянии 5,.
Алгоритм идентификации состоит из следующих этапов[8].
Этап 1. Инициализация: а1(') = я0(') • 21, ' = 1,т , 2=|1: 5(г +1) = ' [О: иначе
Этап 2. Индукция: а,+1(]) = ^ а(0 • р,]• г,,
г = 1,Ы -1, ] = 1,т.
Этап 3. Находим Р(£(N) | АММ(Р)) = аы (5(N)).
Вычислительная сложность поиска значений ан ('), ' = 1, п : (N - 1)(т -1) операций сложения и (N - 1)(т -1) операций умножения.
Итого: т 2( N + 4к -1) операций &, т2(N - 2) операций сложения, т2 операций деления.
Пусть ¡¿к (N) - ЦМ длины N, вида, аналогичного Б(Щ, для которой существуют к моментов времени, к < N , в которые состояния 5(0 скрыты от наблюдения. При выполнении этапа 2 вычисления значений аы('), г = 1,N-1, ' = 1,т , имеет место выражение:
а+1( з) = 1Х=а (') • р, ] 2',
[1: 5 (г +1) - скрыто
2 . =
г . : иначе
Кроме того, если 5(N) скрыто от наблюдения, то вероятность
Рфк (N) | АММ(Р)) = (').
Вычислительная сложность получения указанной вероятности - (т -1) операция сложения. На
основе вышеизложенного сформулированы теорема и следствие из нее.
Теорема 1. Вычислительная сложность поиска
значения Р(£к (N)| АММ(Р)), если 5(N) не скрыто от наблюдения, составляет (N -1 + к(т -1)) • (т -1) операций умножения и сложения; если 5(N) скрыто от наблюдения, то вычислительная сложность увеличивается на (т -1) операцию сложения.
Следствие из теоремы 1. Вычислительная сложность поиска значения Р^^) | АММ(Р)) составляет (N -1) • (т -1) операций умножения и сложения, имеет порядок 0(N • т).
% =
Таким образом, вычислительная сложность поиска значения Р(£к (N) | АММ(Р)) с использованием модифицированного алгоритма прямого-обратного хода составляет (N -1 + к(т -1)) • (т -1) операций умножения и сложения.
В табл. 1 представлено сравнение вычислительной сложности алгоритмов идентификации ЦМ.
Таблица 1 - Сравнение вычислительной сложности алгоритмов идентификации
Метод 1 f g
Сложение ( N -1)(2m -1) m2(N - 2)
Конъ-юнк-ция m2( N + 4k -1)
Деление (2m -1) т2
Сложность (2m -1) N m 2( N + 4k -1) + m2(N - 2) + т2
Порядок O(N • m). O(N • m2)
Метод w g Алгоритм прямого-обратного хода
Сложение m3(N - 3) ( N - 1)(m -1)
Ум- ноже- ние ( N - 1)(m -1)
Конъ-юнк-ция m3(N + 4k -1)
Деление 3 m
Сложность m3( N + 4k -1) + m3(N - 3) + т3 2(N - 1)(m -1)
Порядок O(N • m3) 0( N • m)
Обсуждение полученных результатов
Согласно предложенному сравнению алгоритмов идентификации конечных простых однородных цепей Маркова, вычислительная сложность метода с использованием признаков и модифицированно-
го метода прямого-обратного хода имеет порядок 0(N • m). С использованием же функционалов на
основе l-грамм, для I = 2,3, порядок вычислительной сложности алгоритма увеличивается до 0(N • m2) и O(N • m3) соответственно, поэтому целесообразно использование данных методов при небольших значениях m. Таким образом, согласно табл. 1, предложенные модифицированный алгоритм прямого-обратного хода и алгоритм на основе признаков fk, являются достаточно эффективными по оценкам вычислительной сложности.
Заключение
В работе даны оценки вычислительной сложности алгоритмов идентификации конечных простых однородных ЦМ. Проанализирована зависимость порядка вычислительной сложности алгоритмов от таких параметров автоматной марковской модели, как количество состояний и длины идентифицируемой последовательности. Указанная задача является актуальной для решения широкого круга задач идентификации ЦМ, в том числе - частично скрытых от наблюдения.
Литература
1. Шалагин, С.В. Метод разложения стохастических матриц для синтеза конвейерных генераторов дискретных марквоских процессов /, С.В. Шалагин // Вестник технологического университета. - 2015. - № 10. - С. 160-162.
2. Эминов, Б.Ф. Об ассимптотических свойствах укрупняемых и укрупненных цепей Маркова / Б.Ф.Эминов, В.М. Захаров // Вестник технологического университета. - 2015. - № 10. - С. 167-173.
3. Кемени, Дж. Конечные цепи Маркова / Дж. Кемени, Дж. Снелл. - М.: Наука, 1970. - 272 с.
4. Поспелов, Д.А. Вероятностные автоматы / Д.А. Поспелов. - М.: Энергия, 1970. - 88 с.
5. Бухараев, Р.Г. Основы теории вероятностных автоматов/ Р.Г. Бухараев. - М.: Наука, 1985. - 287 с.
6. Нурутдинова, А.Р. Методика идентификации автоматных марковских моделей на основе порождаемых ими последовательностей / А.Р. Нурутдинова, С.В. Шалагин // Вестник КГТУ им. А.Н. Туполева. - 2010. - № 1. - С. 94-99.
7. Нурутдинова, А.Р. Многопараметрическая классификация автоматных марковских моделей на основе генерируемых ими последовательностей состояний/ А.Р. Нурутдинова, С.В.Шалагин // Прикладная дискретная математика.- 2010. - № 4. - С. 41-54 .
8. Lawrence R. Rabiner. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proc. IEEE, v. 77, N 2, Febr. 1989. - pp. 257-286.
9. Левин, Б.Р. Вероятностные модели и методы в системах связи и управления / Б.Р. Левин, В. Шварц. - М.: Радио и связь, 1985. - 312 с.
© С. В. Шалагин, д-о техн. наук, проф. каф. компьютерных систем, Казанский национальный исследовательский университет им. А.Н.Туполева - КАИ, [email protected]; А. Р. Нурутдинова, ст. препод. каф. бизнес-информатики и математических методов в экономике Набережночелнинского ин-та (филиал), Казанский (Приволжский) федеральный университет, [email protected].
© S. V. Shalagin, Doctor of Technical Science degree holder, docent, professor of the Computer Systems department of KNRTU after A.N.Tupolev, [email protected]; A. R. Nurutdinova, Lecturer in Department of Business Informatics and Mathematical Methods in Economics of Naberezhnochelninskiy Institute (branch) of the Federal State Autonomous Institution of Higher Education "Kazan (Volga) Federal University», [email protected].