Научная статья на тему 'Код nntmm: математическое моделирование, оптимизация и анализ данных с помощью нейросетей'

Код nntmm: математическое моделирование, оптимизация и анализ данных с помощью нейросетей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
100
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / НЕЙРОСЕТИ / УПРАВЛЯЕМЫЙ ТЕРМОЯДЕРНЫЙ СИНТЕЗ / MATHEMATICAL MODELING / NEURAL NETWORKS / CONTROLLED THERMONUCLEAR FUSION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Костомаров Д. П., Зайцев Ф. С., Лукьяница А. А., Шишкин А. Г., Аникеев Ф. А.

Представлены концепция, функциональные возможности, графический интерфейс и технология использования кода NNTMM (Neural Network Tool for Mathematical Modeling), предназначенного для анализа в интерактивном режиме больших объемов экспериментальных и расчетных данных. Разработанное программное обеспечение может быть использовано для решения широкого круга прикладных задач, в которых требуется автоматизированное выделение содержательной информации из хаотично представленных данных, классификация данных, наглядное отображение имеющихся связей и зависимостей, анализ важности параметров, прогнозирование. Приведены примеры использования кода NNTMM для анализа данных в проблеме управляемого термоядерного синтеза.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Костомаров Д. П., Зайцев Ф. С., Лукьяница А. А., Шишкин А. Г., Аникеев Ф. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Код nntmm: математическое моделирование, оптимизация и анализ данных с помощью нейросетей»

УДК 004.75

Д. П. Костомаров, Ф. С. Зайцев, А. А. Лукьяница3, А. Г. Шишкин, Ф. А. Аникеев, В. В. Злобин6

КОД NNTMM: МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ, ОПТИМИЗАЦИЯ И АНАЛИЗ ДАННЫХ С ПОМОЩЬЮ НЕЙРОСЕТЕЙ

Представлены концепция, функциональные возможности, графический интерфейс и технология использования кода NNTMM (Neural Network Tool for Mathematical Modeling), предназначенного для анализа в интерактивном режиме больших объемов экспериментальных и расчетных данных. Разработанное программное обеспечение может быть использовано для решения широкого круга прикладных задач, в которых требуется автоматизированное выделение содержательной информации из хаотично представленных данных, классификация данных, наглядное отображение имеющихся связей и зависимостей, анализ важности параметров, прогнозирование. Приведены примеры использования кода NNTMM для анализа данных в проблеме управляемого термоядерного синтеза.

Ключевые слова: математическое моделирование, нейросети, управляемый термоядерный синтез.

1. Введение. В настоящее время в мире накоплен колоссальный объем экспериментальной и вычислительной информации о поведении плазмы в различных условиях на различных установках то-камак. Эта информация включает многомерные цифровые данные, фото- и видеоизображения, графические и звуковые данные. Только на установке JET объем базы экспериментальных данных оценивается приблизительно в 90 терабайт. Еще большие объемы данных генерируются в вычислительном эксперименте. Однако используются накопленные данные, которые, как правило, в неполной мере подвергаются обработке лишь простейшими статистическими методами.

Поэтому актуальной задачей управляемого термоядерного синтеза (УТС) являются применение современных математических методов и разработка соответствующих численных кодов, позволяющих автоматически обрабатывать значительные массивы данных и выделять наиболее существенную информацию о поведении плазмы с целью извлечения новых знаний, оптимизации, создания систем управления плазмой в реальном времени.

Одним из эффективных подходов для решения многих сложных проблем физики плазмы и УТС является применение современных адаптивных методов, лежащих в основе направления data mining (интеллектуальный анализ данных). Эффективность и продуктивность адаптивных методов основаны на их способности выделять важную содержательную информацию из кажущихся хаотичными данных. При этом обычно не требуется наличия глубоких знаний о лежащих в основе изучаемых явлений физических законах, которые могут быть слишком сложными или до сих пор не понятыми. Более того, выделенная информация помогает сформулировать эти законы, сделать корректные выводы и принять правильные решения.

Техника data mining обычно определяется как процесс поддержки принятия решений, основанный на распознавании закономерностей в множестве данных.

Развитие методов data mining в основном связано с бизнес-приложениями. В области УТС эти методы стали использоваться сравнительно недавно. В работах [1-3] представлены одни из первых ярких приложений подходов data mining к УТС, давших новые интересные результаты. В настоящее время направление data mining в УТС интенсивно развивается во всем мире (см., например, [4]).

1 Факультет ВМК МГУ, академик РАН, проф., д.ф.-м.н., e-mail: d.kostomarovQcs.msu.su

2 Факультет ВМК МГУ, проф., д.ф.-м.н., e-mail: zaitsevQcs.msu.su

3 Факультет ВМК МГУ, ст. науч. сотр., к.ф.-м.н., e-mail: lukQic.msu.su

4 Факультет ВМК МГУ, вед. науч. сотр., д.ф.-м.н., e-mail: shishkinQcs.msu.su

5 Факультет ВМК МГУ, студ., e-mail: snowfedQgmail.com

6 ООО «Интеллектуальные системы мониторинга», науч. сотр., e-mail: vvaleraQmail.ru

* Работа выполнена при финансовой поддержке РФФИ, проект № 10-07-00207-а.

Методы data mining разделяются на кибернетические и статистические. К кибернетическим относятся искусственные нейронные сети, метод опорных векторов, методы бустинга, генетические алгоритмы, эволюционное программирование, ассоциативная память, нечеткая логика, деревья решений, системы обработки экспертных знаний, к статистическим — дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискри-минантный анализ, анализ временных рядов.

Базовыми задачами data mining являются: классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов; кластеризация — разделение множества входных векторов на группы (кластеры) по степени "похожести" друг на друга; построение отображения одного множества на другое; определение размерности данных; сокращение описания для визуализации данных, сжатия объемов собираемой и хранимой информации, навигации по данным, лаконизма моделей, упрощения вычислений и интерпретации.

К базовым задачам можно свести ряд других задач: аппроксимацию данных, прогнозирование, визуализацию, оптимизацию, разработку элементов систем управления и принятия решений, ассоциацию (поиск повторяющихся образцов, устойчивых связей), анализ отклонений (выявление нетипичного поведения).

В проблеме УТС методы data mining нашли наибольшее применение в задачах управления, прогнозирования (скейлинги), аппроксимации, оптимизации, кластеризации, сжатия данных, визуализации.

В настоящей работе представлена графическая среда NNTMM, позволяющая в интерактивном режиме на основе использования методов data mining выполнять анализ больших объемов как экспериментальных, так и расчетных данных, имеющих отношение не только к проблеме УТС, но и к самым различным областям.

2. Код NNTMM. Для математического моделирования, оптимизации и анализа данных с помощью нейросетей был разработан код NNTMM (Neural Network Tool for Mathematical Modeling).

1. Концепция и функциональные возможности. Графическая среда NNTMM предназначена для математического моделирования с помощью нейросетей прямого распространения, визуального анализа данных на основе самоорганизующихся карт Кохонена и решения задач оптимизации. С помощью NNTMM можно не только строить карту базы данных и анализировать конкретные разряды, но и осуществлять навигацию по ней. Например, можно выбрать интересующие состояния плазмы, задать их порядок и длительность и найти все наиболее близкие или удаленные реальные разряды из базы данных.

Код NNTMM построен на базе алгоритмических и графических возможностей пакета MATLAB, который работает как в MS Windows, так и в UNIX-системах. Для реализации нейросетей используются Neural Network Toolbox и SOM Toolbox.

NNTMM обеспечивает выполнение в интерактивном графическом режиме следующих ключевых действий.

• Ввод исходных данных из одного или нескольких файлов. Основным форматом данных является

текстовая таблица.

• Манипуляция с данными: выбор требуемой части, сортировка, нормировка, зашумление, указание

колонки, содержащей значение функционала, и т. п.

• Анализ размерности данных, определение важности параметров, классификация.

• Построение карт Кохонена для входных и выходных данных.

• Выбор параметров нейросети прямого распространения и ее обучение.

• Проведение расчетов с помощью нейросети прямого распространения и их анализ.

• Сохранение результатов.

Графический интерфейс учитывает логическую последовательность действий. Та или иная функция системы NNTMM становится доступной только после предварительного выполнения необходимых шагов.

2. Графический интерфейс и технология использования. NNTMM работает под управлением пакета MATLAB версии R2007b и выше. Для запуска системы в основном окне MATLAB надо выполнить команду nntmm. Откроется главное окно NNTMM (рис. 1). Кнопки в левой части окна отражают

Рис. 1. Главное: окно системы NNTMM

функции системы в логической последовательности операций. Правая часть окна служит для вывода информации о действиях системы.

После нажатия кнопок открываются дополнительные окна, в которых можно манипулировать с входными или выходными данными, отметить колонку таблицы со значениями функционала, задать параметры нейросети прямого распространения, карты Кохонена или осуществить другие действия.

Например, нажатие в главном меню кнопки Importance of Variables открывает интерфейс, с помощью которого можно вычислить размерность Минковского и корреляционную размерность данных, провести факторный анализ, результатом которого будет список переменных и соответствующий им параметр общности Commonness, выполнить другие действия. Полученные значения позволяют сделать вывод о важности той или иной переменной.

В разделах входных и выходных данных имеется кнопка Support Vector Machine (рис. 1). Открываемый нажатием данной кнопки интерфейс позволяет провести анализ данных методом опорных векторов. В частности, можно задать долю используемых для обучения данных и пороговое значение функционала, по отношению к которому данные разбиваются на два класса. Выполнение соответствующего модуля кода завершается отображением формулы гиперплоскости, разделяющей данные на два класса, и списка значений вариации для каждой переменной, характеризующей важность переменной для классификации данных.

На рис. 2 приведен пример карты Кохонена для некоторых четырехмерных данных. Карта в левом верхнем углу (Х4) раскрашена в соответствии со значением функционала. С ее помощью можно определить места расположения локальных экстремумов.

Надписью Distance matrix отмечена карта расстояний, характеризующая удаленность соседних узлов в многомерном пространстве. Эта карта дает представление о группировке данных.

Карты XI, Х2 и ХЗ представляют собой ту же карту Кохонена, но раскрашенную в соответствии со значением переменной XI, Х2 или ХЗ. В процентах указана степень влияния переменной на функционал. С помощью этих карт можно визуально представить, насколько нелинейной является зави-

Рис. 2. Карта Кохонена. построенная системой NNTMM

симость функционала от переменной, и найти диапазон значений переменных, в котором функционал имеет интересующую величину.

Кнопка Hits on/off позволяет отобразить на картах все точки, соответствующие входным данным. Кнопка Inputs-* тар отметить на картах избранные наборы входных данных. Кнопка Мар-ь inputs, наоборот, просмотреть, какие данные соответствуют помеченным "мышкой" ячейкам карты (цифры 1 и 2 в черных кружках на рис. 2).

Параметры в полях Maps Layout регулируют число карт в окне, в полях Map size число ячеек на карте. Щелчком правой кнопки "мышки" в районе надписи XI, Х2 или ХЗ можно изменить порядок следования карт.

Технология использования NNTMM достаточно проста.

На вход подаются рассчитанные, экспериментальные или смешанные данные, при необходимости добавляется зашумление. Анализируется размерность данных методами факторного анализа, методом box-counting (Minkowski Bouligand) или вычислением корреляционной размерности [5]. Определяется важность параметров факторным анализом или методом опорных векторов. Проводится классификация методом опорных векторов. Строится карта Кохонена, анализируются данные визуально и нарабатываются интуитивные представления о зависимости функционала от переменных. Далее "обучается" нейросеть прямого распространения, т.е. строится некоторая модель, аппроксимирующая отображение входных данных на выходные. С ее помощью генерируется новый набор выходных данных, который может значительно превосходить объем исходных значений функционала, а также иметь расширенный диапазон изменения его переменных. Для нового набора снова строится карта Кохонена и проводится визуальный анализ. В результате определяются новые значения переменных, в которых, например, достигается экстремум функционала. После этого с помощью численного кода или натурного эксперимента проверяются предсказания нейросети.

Если необходимо дальнейшее уточнение оптимальных параметров, то обновляются входные данные и проводится еще один цикл работы с системой NNTMM. При обновлении данных можно как добавлять наборы значений, так и выбрасывать из рассмотрения несущественные переменные функционала.

Важным моментом в описанной технологии является построение устойчивых карт Кохонена. Проблема заключается в многовариантности алгоритма построения карты, которая может привести к не-

устойчивости отображения относительно параметров алгоритма и выбора начального приближения, а в некоторых случаях к неустойчивости и от сортировки или добавления новых данных.

Для построения устойчивых карт предлагается метод постепенного увеличения числа ячеек карты с применением усреднения и специальной инициализации по грубой карте. Система МР\ГТММ реализует указанные средства построения устойчивых карт. Кроме того, имеется возможность изменения различных параметров алгоритма, влияющих на устойчивость карты, таких, например, как начальный и конечный радиусы анализа данных. Подробности стратегии построения устойчивых карт изложены в документации к системе.

3. Примеры использования кода К1ЧТММ в УТС. Динамика тороидальной плазмы характеризуется большим числом параметров и функциями многих переменных. В процессе расчетов и измерений образуется большой поток данных. Необходимы быстрые методы их анализа, в том числе способные работать в режиме реального времени.

В исследованиях по проблеме УТС использовались в основном нейросети прямого распространения (см., например, [6] и перечисленные там работы). Другие виды нейросетей практически не применя-

Помимо сетей Хопфилда большой интерес здесь представляют самоорганизующиеся карты Ко-хонена [7, 8], способные решать задачи классификации и визуализации данных. В частности, такие нейросети позволяют отобразить многомерные данные на плоскую область с сохранением свойства близости: точкам, близким в многомерном пространстве, соответствуют точки, близкие на плоскости.

Рис. 3. Карта Кохонена устойчивости разряда

Самоорганизующиеся карты Кохонена могут быть эффективно применены для анализа условий срыва разряда в токамаке. Тороидальная плазма характеризуется многими параметрами, поэтому сформулировать условия срыва теоретически крайне сложно. Нейросетевой подход позволяет выявить наиболее существенные для срыва параметры, классифицировать разряды по степени устойчивости и изобразить соответствующие области на плоскости. На рис. 3 показана карта Кохонена устойчивости разряда, построенная по базе экспериментальных данных установки JET для значений семи параметров плазмы. В областях с более интенсивной окраской устойчивость выше. Ломаная линия

соответствует эволюции разряда. Разряд начинается в зоне хорошей устойчивости и заканчивается в зоне худшей устойчивости. Построенная карта дает возможность предсказывать, в какую область устойчивости попадает разряд с теми или иными априорно заданными характеристиками. Более того, удается наглядно проследить степень устойчивости разряда в зависимости от времени. Карты Кохонена позволяют разбить на классы базы графических данных и классифицировать конкретный график или даже целый видеофильм. Этот процесс можно интерпретировать как построение краткой кодовой книги для обширной базы сложных данных.

Применение карт Кохонена для базы графиков рентгеновских измерений колебаний плазмы в установке MAST позволило построить классификацию (кластеризацию) колебаний, визуализировать данные и осуществлять навигацию по ним, например находить и отображать разряды с заданной последовательностью и длительностью состояний.

Рис. 4. Карта Кохонена для базы видеофильмов

На рис. 4 иллюстрируется применение карт Кохонена для базы видеофильмов разрядов в установке MAST. В нижней части изображена классификация видеофильмов, в верхней части разбивка на классы конкретного разряда. Колонки в верхней части и интенсивность окраски рамок вокруг прямоугольников в нижней части обозначают длительность пребывания разряда в данном классе (состоянии). Цифры соответствуют порядковому номеру состояния по времени.

Из рис. 4 видно, что соседние состояния (классы) плазмы близки, как и должно быть в соответствии с теорией самоорганизующихся карт Кохонена.

4. Заключение. Представлен код МР\ГТММ, описаны его функциональные возможности, графический интерфейс и технология использования, приведены примеры. Код МР\ГТММ применен для решения ряда типичных задач управляемого термоядерного синтеза, в которых возникает проблема анализа больших массивов многомерных экспериментальных и расчетных данных, включая классификацию, определение закономерностей, оценку влияния переменной на функционал, визуализацию, прогнозирование.

Код МР\ГТММ может быть использован в различных областях науки для повышения эффективности исследований, требующих выделения содержательной информации из кажущихся хаотичными данных, их классификации, наглядного отображения внутренних связей и зависимостей. Реализована версия кода МР\ГТММ для использования в составе компоненты 1гйегпе1;-порталов, предоставляющих вычислительные услуги с использованием локально хранящегося сложного наукоемкого программного обеспечения.

СПИСОК ЛИТЕРАТУРЫ

1. Lukyanitsa A. A., ZaitsevF.S., ShishkinA.G. et al. Data mining methods in controlled thermonuclear fusion // The First Korean-Russian Workshop on Data Mining. M.: MAX Press, 2007. P. 17-25.

2. Lukianitsa A. A., Zhdanov F.M., Zaitsev F. S. Analyses of ITER operation mode using the support vector machine technique for plasma discharge classification // Plasma Phys. Control. Fusion. 2008. 50. P. 1-14.

3. Lukianitsa A. A., Zaitsev F. S. Advanced methods for analysis of plasma diagnostics data // Proc. of the 8th Intern. FLINS Conf. on Comput. Intelligence in Decision and Control. Madrid: World Scientific, 2008. P. 43-48.

4. Vega J., Murari A., Vagliasindi G. et al. Automated estimation of L/H transition times at JET by combining Bayesian statistics and support vector machines // Nucl. Fusion. 2009. 49. P. 1-11.

5. Theiler J. Efficient algorithm for estimating the correlation dimension from a set of discrete points // Phys. Rev. A. 1987. 36. N 9. P. 4456-4462.

6. Sengupta A., Ranjan P. Forecasting disruptions in the ADITYA tokamak using neural networks // Nucl. Fusion. 2000. 40. N 12. P. 1993-2008.

7. Kohonen T. Self-organization and Associative Memory. Berlin: Springer, 1989.

8. Kohonen T. Self-organizing Maps. Berlin: Springer, 1995.

Поступила в редакцию 24.09.12

NNTMM CODE: MATHEMATICAL MODELING, DATA OPTIMIZATION AND ANALYSIS USING NEURAL NETWORKS

Kostomarov D.P., Zaitsev F. S., Lukianitsa A. A., Shishkin A. G., Anikeev F. A., Zlobin V. V.

Code NNTMM, its concept, functional capabilities, graphical interface and technology of application are presented. The code is designed for interactive analysis of large amounts of experimental and calculated data. Developed software can be used for a wide range of tasks, which require automated extraction of meaningful information from chaotically presented data, classification, visual representation of existing relations and dependencies, analysis of parameters importance and forecasting. Examples of code NNTMM application for data analysis in the problem of controlled thermonuclear fusion are given.

Keywords: mathematical modeling, neural networks, controlled thermonuclear fusion.

i Надоели баннеры? Вы всегда можете отключить рекламу.