Научная статья на тему 'Построение скрытых моделей Маркова для обработки магнитной диагностики плазмы'

Построение скрытых моделей Маркова для обработки магнитной диагностики плазмы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
41
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СКРЫТЫЕ МОДЕЛИ МАРКОВА / МАГНИТНАЯ ДИАГНОСТИКА ПЛАЗМЫ / HIDDEN MARKOV MODELS / PLASMA MAGNETIC DIAGNOSTICS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лукьяница А.А., Зайцев Ф.С.

В настоящей работе для решения проблемы анализа и интерпретации магнитных измерений предлагается использование нового подхода, основанного на скрытых моделях Маркова (СММ). Этот подход позволяет сократить объем информации о разряде с десятков гигабайт до нескольких килобайт, найти вероятности перехода плазменного разряда от одного состояния к другому. Открывается возможность сопоставления характерным магнитным состояниям плазмы данных других диагностик или видеоизображений. Поэтому предложенная методика существенно облегчает комплексное изучение динамики плазмы. Новая техника также может быть использована для создания системы навигации по большим базам диагностических данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лукьяница А.А., Зайцев Ф.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Construction of hidden Markov models for plasma magnetic diagnostics

In this paper a new approach for plasma magnetic diagnostics analysis with hidden Markov models is proposed. This approach allows reducing data volume from tens of gigabytes to just a few kilobytes and calculating probabilities of different plasma discharge states. It opens possibility to match magnetic plasma states with other diagnostics data and plasma video images. Proposed method facilitates integrated study of plasma dynamics. It can also be used for navigation in huge diagnostics data bases.

Текст научной работы на тему «Построение скрытых моделей Маркова для обработки магнитной диагностики плазмы»

УДК 519.24:51-7

А. А. Лукьяница1, Ф. С. Зайцев2

ПОСТРОЕНИЕ СКРЫТЫХ МОДЕЛЕЙ МАРКОВА ДЛЯ ОБРАБОТКИ МАГНИТНОЙ ДИАГНОСТИКИ ПЛАЗМЫ

В настоящей работе для решения проблемы анализа и интерпретации магнитных измерений предлагается использование нового подхода, основанного на скрытых моделях Маркова (СММ). Этот подход позволяет сократить объем информации о разряде с десятков гигабайт до нескольких килобайт, найти вероятности перехода плазменного разряда от одного состояния к другому. Открывается возможность сопоставления характерным магнитным состояниям плазмы данных других диагностик или видеоизображений. Поэтому предложенная методика существенно облегчает комплексное изучение динамики плазмы. Новая техника также может быть использована для создания системы навигации по большим базам диагностических данных.

Ключевые слова: скрытые модели Маркова, магнитная диагностика плазмы.

1. Введение. Все изменения магнитного поля плазмы в разрядах на установках ТОКАМАК фиксируются с помощью большого числа так называемых катушек Мирнова. Объем информации для каждого разряда в оцифрованном виде занимает десятки гигабайт. Однако эта информация используется в незначительной мере [1-3]. В настоящей работе предлагается методика индексирования разрядов на основе данных магнитных измерений, позволяющая решать задачи вычисления вероятностей перехода между состояниями плазмы, совместного анализа измерений различных диагностических данных, навигации по базе данных с информацией обо всех разрядах.

Для индексирования разрядов необходимо существенным образом сократить объем данных без потери основной информации о характере эволюции плазмы в каждом разряде и привести полученный сжатый набор данных к стандартизованной форме. Последнее требование особенно трудно выполнить из-за различной продолжительности разрядов. На наш взгляд, для индексирования магнитных измерений наилучшим образом подходят скрытые модели Маркова (СММ) [4, 5].

1 Факультет ВМК МГУ, ст. науч. сотр., НИИСИ РАН, мл. науч. сотр., к.ф.-м.н., e-mail: andrei.lukQgmail.com

2 Факультет ВМК МГУ, проф., НИИСИ РАН, ст. науч. сотр., д.ф.-м.н., e-mail: zaitsevQcs.msu.ru

7 ВМУ, вычислительная математика и кибернетика, № 4

Они позволяют моделировать исходный сигнал некоторым случайным процессом, параметры которого могут быть оценены достаточно точно. Иными словами, СММ можно рассматривать как источник случайного сигнала с заданными характеристиками, соответствующими характеристикам моделируемого сигнала. Число параметров, которые полностью описывают СММ, обычно на несколько порядков меньше объема исходных данных, поэтому СММ идеально подходят для целей индексирования.

После того как построена скрытая модель Маркова, можно установить связь найденных состояний модели с другими параметрами разряда. Например, на установке MAST каждый разряд также фиксируется высокоскоростной видеокамерой. Установив соответствие между характерными изображениями плазмы в каждом состоянии, можно визуализировать последовательность переходов в естественном для экспериментаторов виде.

2. Построение СММ. Введем обозначения:

N — число состояний модели;

S = {S\,..., Sn} — множество состояний модели;

qt — состояние, в котором находится модель в момент времени t;

V = {wi,..., vm} — множество всех возможных наблюдаемых объектов;

Of — объект, наблюдаемый в момент времени t;

Т — длина наблюдаемой последовательности;

О = {oi,..., от} — наблюдаемая последовательность;

7Г = {7Tj} — распределение вероятностей выбора начального состояния, т. е. 7Tj = P(qi = Si) — вероятность того, что в начальный момент времени t = 1 система будет в состоянии Sf, aij — вероятность перехода из состояния Si в состояние Sj, т.е. это условная вероятность a,ij = Р (qt = Sj\qt-i = Si) (принято считать, что она не зависит от времени); А = Ы — матрица вероятностей перехода (квадратная матрица N х N); В = \bj(k)} — матрица вероятностей того, что в состоянии Sj наблюдается объект Vk, т.е. bj(k) = Р (ot = Vk\qt = Sj) (матрица N х М).

Скрытой марковской моделью А называют набор А = (ж, А, В), где ж, А, В — параметры, характеризующие СММ:

7Г — вероятность выбора начального состояния; А — матрица переходов из состояния в состояние;

В — матрица вероятностей наблюдения заданных признаков в каждом состоянии. Для того чтобы найти эти параметры, нужно сначала провести параметризацию исходного сигнала, т. е. заменить его последовательностью векторов из заданного множества, которое называют кодовой книгой. Для построения кодовой книги необходимо обработать все (или, по крайней мере, большую часть) данных, полученных в результате магнитных измерений, преобразовать их в наборы характерных признаков и полученную совокупность признаков кластеризовать. Набор векторов, состоящий из центроидов кластеров, как раз и образует кодовую книгу. Для выделения характерных признаков каждый сигнал разбивается на перекрывающиеся сегменты (окна), в каждый из которых входит L последовательных значений сигнала. Для снижения влияния граничных эффектов в пределах каждого сегмента к данным часто применяется оконная функция Хемминга [6]:

где I — номер значения сигнала в пределах окна 1 ^ I ^ Ь, Ь — число точек в каждом сегменте. После этого для каждого г-то сегмента вычисляются кепстральные коэффициенты

где Si (I) — данные магнитной диагностики, попавшие в %-й сегмент, а^и — соответственно прямое и обратное тригонометрические преобразования Фурье. Кепстральные коэффициенты позволяют снизить влияние шумов, сохраняя при этом основную информацию о сигнале; обычно Ci (I) быстро затухают с ростом поэтому для наших целей было достаточно I и 20^30 коэффициентов.

Для кластеризации используется модифицированный алгоритм К-средних [7]. После этого строится набор наблюдаемых объектов V:

Ci(l) = F-1(\og\F(si (l)w(l))\)

где У:-]ГП — вектор из кодовой книги, ст|то — размер соответствующего кластера, — настраиваемые коэффициенты.

Представленные модели Маркова называются полунепрерывными: состояния являются дискретными, а наблюдаемые объекты характеризуются плотностью распределения. В качестве распределения в данном случае используется смесь распределений Гаусса.

3. Настройка СММ. Рассмотрим данные магнитной диагностики от одной катушки, т. е. последовательность наблюдений О = {о\,..., от}- Модель А = (А, В, ж), характеризующая эти данные, получается в результате максимизации Р (О|А), для чего используется метод максимального правдоподобия (алгоритм Баума-Уэлша [5]), который состоит в следующем.

Введем несколько вспомогательных переменных:

аг(0,г) = Р (оь о2,..., ог\ = А), А(0,г) = Р (ог+1, ог+2, ■ ■ ■, от\ Яг = А).

Поскольку наблюдаемая последовательность О задана, далее этот аргумент для краткости будем опускать. Переменная аДг) имеет смысл вероятности того, что к моменту времени £ наблюдалась последовательность о\, 02, • • •, и в момент £ система находится в состоянии Si. Переменная Д(г) является вероятностью наблюдения последовательности 1, |_2, • • •, от, начиная с момента 1+1 до Т, при условии, что в момент времени £ система находится в состоянии Si. Эффективный алгоритм вычисления этих переменных изложен в следующем разделе.

Введем переменную ^^-.з) = Р (Яг = Si^ <1г+1 = Sj\ О, А), которая является вероятностью того, что при заданной последовательности наблюдений О система в моменты времени I ж I + I будет находиться соответственно в состояниях Si и Sj. Используя определенные выше прямую и обратную переменные, можно записать:

.ч = аг(г)ачЪз(<н+1)Рг+1(з) = 1)^+1(3)

$№,3) Р(0\Х) N N

ЕЕ <*(<)

¿=1^=1

И наконец, введем переменную 7^ (г), являющуюся апостериорной вероятностью того, что при заданной последовательности наблюдений О система в момент времени £ будет находиться в состоянии

N

т*(») =

¿=1

Используя указанные переменные, можно записать формулы переоценки параметров марковской модели:

Еб(у') Е Е ъ(э)

, .4 - *=1 г. п \ *=1 0t=k

щ = 7ф), оу = -> Ык) = —т-'

Е ъ(г) Т,ъ(з)

¿=1 ¿=1

В начальный момент времени всем параметрам модели А присваиваются случайные значения, после чего суммы элементов строк или столбцов матриц, которые должны соответствовать достоверным событиям, нормируются на единицу. Далее запускается итерационный процесс переоценки параметров с использованием указанных формул.

В [7] доказано, что в процессе итераций могут возникать только две возможности: А = А — точка экстремума, Р(0|А) > Р(0|А) — правдоподобность появления данной последовательности наблюдений для модели с переоцененными параметрами выше, чем для исходной модели. При достижении точки экстремума итерации прекращаются.

4. Поиск разряда, соответствующего заданной СММ. Пусть задана модель А. Рассмотрим совокупность последовательностей наблюдений {01,..., О г}, получаемых от выбранной катушки. Здесь О$ = {огд,..., о^}; где г — номер разряда. Задача заключается в нахождении наибольшей из вероятностей Р{0^ |А) соответствия последовательности наблюдений О* заданной модели А.

8 ВМУ, вычислительная математика и кибернетика, № 4

Как следует из определения переменных а^г) и введенных в предыдущем разделе, веро-

ятность Р(0|А) может быть вычислена следующим образом:

N N

Р(0 |А) = ^>г(г) = 5>А(О1)/ЗД-1 = 1 1 = 1

Для нахождения а^г) и /^(г) существуют эффективные алгоритмы [5]. Значения переменной а^г) вычисляются в соответствии со следующей процедурой.

1. Инициализация: а\{г) = 71^(01), 1 ^ г ^ N.

N

2. Для всех £ = 1, 2,... , Т — 1, 1 ^ ^ ^ ТУ, вычислить: с^+х^) = ЬДо^+х) X]

1=1

Значения /^(г) переменной находятся по аналогичному алгоритму.

1. Начальное значение: — 1? 1 ^ ^ ^ N.

N

2. Для всех £ = Т — 1,Т — 2,..., 1, 1 ^ г ^ ТУ, вычислить: /ЗДг) = ^

з=1

5. Результаты анализа базы данных. Обработка большого числа разрядов, проведенных на установке МАЭТ (Великобритания), позволила установить, что скрытые модели Маркова, соответствующие этим разрядам, могут содержать не более чем 10 состояний [1]. Это дает возможность сократить объем необходимой для индексирования информации с десятков гигабайт до нескольких килобайт.

Графическое представление скрытой модели Маркова для одного разряда. Стрелками указаны наиболее вероятные переходы

На рисунке приведен пример изображения СММ для одного разряда. Кружки обозначают состояния, цифры внутри кружков — номер состояния, а линии со стрелками — наиболее вероятные переходы. Числа, стоящие рядом с линиями, соответствуют вероятности данного перехода. Рядом с каждым кружком приведены графики первых 20 кепстральных коэффициентов, наиболее характерных для данных состояний.

6. Заключение. В данной работе предложена новая методика обработки и анализа данных магнитных измерений плазмы, основанная на применении скрытых моделей Маркова. Показано, что данные магнитных измерений для каждого разряда могут быть сжаты практически без потери информации с десятков гигабайт до нескольких килобайт. Новый подход позволяет проводить интегрированный анализ данных различных диагностических систем плазмы, обеспечивает возможность наглядной интерпретации поведения плазмы. В частности, каждому состоянию СММ могут быть сопоставлены характерные визуальные изображения разряда и вероятности перехода между ними.

Авторы признательны С. В. Носову за помощь в проведении и визуализации расчетов.

СПИСОК ЛИТЕРАТУРЫ

1. Lukianitsa A. A., Zaitsev F.S., Nosov S.V. Processing of magnetic diagnostics data using hidden Markov models // 35th EPS Conf. on Plasma Physics. Vol. 32D. Hersonissos, 2008. P. 1.092.

2. Лукьяница A.A., Зайцев Ф. С., Носов С.В. Обработка данных магнитной диагностики плазмы с помощью скрытых моделей Маркова // Физика экстремальных состояний вещества. Черноголовка: ИПХФ РАН, 2007. С. 267-268.

3. Зайцев Ф. С. Математическое моделирование эволюции тороидальной плазмы. М.: МАКС Пресс, 2011. (Zaitsev F. S. Mathematical modeling of toroidal plasma evolution. English ed. M.: MAKS Press, 2014.)

4. Лукьяница А. А. Скрытые модели Маркова. URL: http://leader.cs.msu.su/~luk/HMM_rus.html.

5. RabinerL. R. A tutorial on hidden Markov models and selected applications in speech recognition // Proc. of the IEEE. 1989. 77. N 2. P. 257-286.

6. Hamming R. W. Digital Filters. N.J.: Prentice Hall, 1989.

7. Rabiner L., Juang B.H. Fundamentals of speech recognition. N.J.: Prentice Hall, 1993.

Поступила в редакцию 04.02.15

CONSTRUCTION OF HIDDEN MARKOV MODELS FOR PLASMA MAGNETIC DIAGNOSTICS

Lukianitsa A. A., Zaitsev F. S.

In this paper a new approach for plasma magnetic diagnostics analysis with hidden Markov models is proposed. This approach allows reducing data volume from tens of gigabytes to just a few kilobytes and calculating probabilities of different plasma discharge states. It opens possibility to match magnetic plasma states with other diagnostics data and plasma video images. Proposed method facilitates integrated study of plasma dynamics. It can also be used for navigation in huge diagnostics data bases.

Keywords: hidden Markov models, plasma magnetic diagnostics.

i Надоели баннеры? Вы всегда можете отключить рекламу.