Построение и анализ многомерных параметрических решений для нестационарных задач
А.Е. Бондарев1, В.А. Галактионов1, Т.Н. Михайлова1, Е.А. Нестеренко1'2,
И.Г. Рыжова1
Институт прикладной математики им. М.В. Келдыша РАН 2 МГТУ им. Н.Э. Баумана Ъопй@кеЫу$}1. ги, кеЫузк. ги
Аннотация. В работе рассматривается комбинированный подход, предназначенный для построения и анализа многомерных параметрических решений нестационарных задач вычислительной механики жидкости и газа. Подход предназначен для моделирования процессов образования пространственно-временных структур. Подход основан на решении задач параметрического поиска и оптимизационного анализа. Рассматриваются вопросы организации параллельных вычислений для подобных задач. Результаты вычислений представляют собой многомерные массивы данных. Для поиска скрытых взаимозависимостей в массивах применяются методы анализа многомерных данных и визуализации. Все алгоритмы комбинированного подхода организованы в виде единой технологической цепочки. Подобная организация позволяет рассматривать реализованный подход как прототип обобщенного вычислительного эксперимента.
Ключевые слова: многомерные параметрические решения, анализ многомерных данных, метод главных компонент
1 Введение
Современная вычислительная техника и численные методы позволяют в настоящее время тщательно и точно моделировать практически любой нестационарный физический процесс в механике сплошных сред и получать соответствующее поле физических величин. Однако в практических приложениях недостаточно просто рассчитать поле течения и представить красивую картину трансформации пространственно-временной структуры. Гораздо больший интерес вызывает не само явление, а то, при каких обстоятельствах оно возникает, т.е. зависимость возникновения явления от определяющих параметров задачи, таких как числа Маха, Рейнольдса, Прандтля и т.д. Для того чтобы рассчитать подобную зависимость необходимо решение организовать решение задач параметрического поиска и оптимизационного анализа.
Параметрические численные исследования позволяют получать решение не для одной конкретной задачи математического моделирования, а для класса задач, заданного в многомерном пространстве определяющих параметров. Также применение параллельных алгоритмов на
Построение и анализ многомерных параметрических решений
для нестационарных задач_
высокопроизводительной вычислительной технике позволяет численное исследование задач оптимизационного анализа, когда обратная задача решается в каждой точке сеточного разбиения многомерного пространства определяющих параметров. Основная особенность с точки зрения задач анализа и визуализации решений в подобных вычислениях заключается в том, что их результаты представляют собой многомерные массивы, размерность которых соответствует количеству определяющих параметров. Эти массивы нуждаются в обработке и визуальном представлении с целью их анализа и выявления внутренних взаимосвязей между определяющими параметрами. Подобные задачи начинают встречаться на практике все чаще, хотя следует отметить, что размерность подобных массивов на сегодняшний день ограничивается вычислительными мощностями и обычно составляет 4 - 5, в исключительных случаях - 6. Подробно вопросы постановки задач подобного типа и организации их численного решения рассмотрены в работах [Бондарев&Галактионов, 2012; Bondarev&Galaktionov, 2013].
Задачи обработки, анализа и визуализации многомерных данных являются на сегодняшний день важным и актуальным направлением. Анализ многомерных данных (Data Analysis) интенсивно развивается как научная дисциплина, которая включает в себя: метод главных компонент (PCA-Principal Component Analysis) и его обобщения на нелинейные случаи, факторный анализ, кластерный анализ, дискриминантный анализ, построение самоорганизующихся карт (SOM - Self-Organized Maps) и упругих карт (Elastic Maps) [Gorban et al., 2007; Зиновьев, 2000]. Комбинированное применение методов, алгоритмов и подходов, разработанных в этих разделах, позволяет провести всестороннее исследование многомерного объема данных вне зависимости от их происхождения.
В задачах вычислительной газовой динамики проблемы анализа многомерных данных ранее практически не встречались. Для обработки и визуального представления результатов даже самых сложных расчетов вполне хватало наработанных методов и приемов научной визуализации [Бондарев и др., 2011; Pilyugin et al., 2012]. Однако в настоящее время интенсивное развитие высокопроизводительных и параллельных вычислений позволяет решать задачи параметрического исследования и задачи оптимизационного анализа [Бондарев&Галактионов, 2012; Bondarev&Galaktionov, 2013].
В этой ситуации естественно хотелось бы применить уже наработанный аппарат методов и алгоритмов Data Analysis к подобным задачам. Однако здесь возникают некоторые проблемы, обусловленные спецификой целей исследования и происхождения самих данных. В задачах Data Analysis многомерные данные рассматриваются как набор точек 4(xlv..,;*:B),i = 1,...,т, и основной интерес для исследователя
представляет их взаиморасположение с целью выделения кластеров, решения задачи классификации новых объектов. Когда мы рассматриваем многомерные данные в задачах вычислительной газовой динамики (CFD), полученные как результаты решения задач оптимизационного анализа или параметрических исследований, нас в гораздо меньшей степени интересует взаиморасположение точек, так как разбиения по определяющим параметрам jclv..,xnlзадаются нами. Основная цель здесь - изучение зависимости хп = F(xx,...,xn_x), представленной по результатам вычислений в виде многомерного объема данных, визуализация этой зависимости и по возможности представление ее в квазианалитическом виде с помощью приближений. Таким образом, задача адаптации методов Data Analysis для целей исследования многомерных результатов расчетов газодинамических задач является актуальной.
Данная работа представляет комбинированный подход к решению задач параметрического поиска и оптимизационного анализа применительно к нестационарным процессам в вычислительной газовой динамике. Практической целью применения подхода является определение условий возникновения пространственно-временных структур в исследуемых течениях. Подобные задачи, как правило, сводятся к организации процесса многократного решения одной задачи моделирования нестационарного процесса с различными входными параметрами. Это обстоятельство предполагает применение параллельных вычислений в режиме многозадачного параллелизма. С точки зрения решения оптимизационных задач данный подход является модификацией метода исследования пространства параметров (ИПП) [Соболь и др., 1994]. Результаты вычислений представляют собой многомерные объемы данных. Для поиска скрытых взаимозависимостей в полученных объемах данных применяются методы анализа многомерных данных и визуализации. Все алгоритмы комбинированного подхода организованы в виде единой технологической цепочки. Подобная организация позволяет рассматривать реализованный подход как прототип обобщенного вычислительного эксперимента. Применение подхода позволяет проводить быструю приближенную оценку зависимости возникновения нестационарных структур в потоке от определяющих параметров задачи, выраженную в виде квазианалитических соотношений.
2 Реализация параллельных алгоритмов
Общая постановка задачи оптимизационного анализа и вопросы оптимальной организации параллельных вычислений подробно описаны в работах [Бондарев&Галактионов, 2012; Bondarev&Galaktionov, 2013; Бондарев и др., 2014]. Отмечалось, что в целом алгоритм решения задачи оптимизационного анализа сводится к решению большого количества обратных задач М", (при задании М точек в диапазоне разбиения каждого
Построение и анализ многомерных параметрических решений
для нестационарных задач_
определяющего параметра), каждая из которых предполагает, в свою очередь решение большого количества прямых задач. В данной ситуации необходимо применить параллельные вычисления. В работах [Bondarev&Galaktionov, 2013; Бондарев и др., 2014] рассматривались различные части алгоритма решения задачи оптимизационного анализа. В качестве основного критерия пригодности для распараллеливания рассматривалась независимость от выбираемого для вычислений численного метода. Наиболее оптимальным и эффективным был признан вариант распараллеливания по принципу многозадачного параллелизма. При таком подходе вне зависимости от алгоритмов возможна организация параллельных вычислений однотипных обратных задач (03) с разными входными данными, представляющими собой фиксированные наборы определяющих параметров (ОП) по принципу «один вариант ОП - один процессор».
При реализации на многопроцессорной вычислительной системе общая схема параллельного варианта решения задачи оптимизационного анализа сводится к заданию разбиения по всем определяющим параметрам, формированию таким образом входных данных для однотипных обратных задач, заданию числа процессоров и раздаче заданий каждому процессору со своими входными параметрами. По завершении работы всех процессоров проводится сбор данных и формирование массива результатов для последующей обработки.
В силу того, что процессы решения однотипных обратных задач происходят фактически без обменов информацией между процессорами, распараллеливание здесь сводится к организации интерфейса, управляющего распределением вариантов по процессорам и сбором данных в единый массив результатов. Данный вариант является наиболее легким в программной реализации и позволяет ускорить расчет во столько раз, сколько процессоров может быть выделено одновременно.
Существовало две очевидные возможности реализации подобного интерфейса: с использованием технологии MPI [Pacheco, 1997] и с использованием разработанной в ИПМ им. М.В. Келдыша технологии DVM [DVM-System, 2015]. DVM-система предназначена для создания переносимых и эффективных вычислительных приложений на языках С-DVM и Fortran-DVM для многопроцессорных компьютеров с общей и распределенной памятью. Аббревиатура DVM отражает два названия модели: распределенная виртуальная память (Distributed Virtual Memory) и распределенная виртуальная машина (Distributed Virtual Mashine). Эти два названия указывают на адаптацию модели DVM как для систем с общей памятью, так и для систем с распределенной памятью. Высокоуровневая модель DVM позволяет не только снизить трудоемкость разработки параллельных программ, но и определяет единую формализованную базу для систем поддержки выполнения, отладки, оценки и прогноза
производительности. DVM-модель, положенная в основу языков параллельного программирования Fortran-DVM и C-DVM, объединяет достоинства модели параллелизма по данным и модели параллелизма по управлению. При использовании языков C-DVM и Fortran-DVM программист имеет только один вариант программы и для последовательного, и для параллельного выполнения. Эта программа, помимо описания алгоритма обычными средствами языков Си или Фортран 77, содержит правила параллельного выполнения этого алгоритма. Эти правила (DVM-указания) оформляются синтаксически таким образом, что они являются "невидимыми" для стандартных компиляторов с последовательных языков Си и Фортран и не препятствуют выполнению и отладке DVM-программы на рабочих станциях как обычной последовательной программы.
Для решения задач параметрического поиска и оптимизационного анализа были реализованы два параллельных интерфейса для MPI и DVM. Также было проведено тестовое сравнение на задаче оптимизационного анализа на 20 процессорах. Тестирование показало, что применение технологии DVM снижает скорость вычислений вдвое. Однако в то же самое время выигрыш в затратах человеческих ресурсов на написание и отладку кода почти в 10 раз больше по сравнению с аналогичными затратами по отношению к MPI. Оба разработанных параллельных интерфейса работоспособны, как показало тестирование, и могут применяться для широкого круга задач математического моделирования нестационарных процессов. Результатами вычислений подобного типа являются объемы многомерных данных, имеющие размерность, соответствующую числу определяющих параметров, и, как правило, больше трех.
3 Анализ и визуализация многомерных данных
Наиболее эффективным путем анализа многомерных данных, получаемых в результате решения задач вычислительной газовой динамики, является визуальное представление зависимости хп =F(xl,...,xn_l)
и получение информации о характере этой зависимости. Далее следует аппроксимация зависимости с помощью поверхностей достаточно простого вида и получение, как следствие, искомого квазианалитического выражения.
В работе [Бондарев & Галактионов, 2012] рассматривались современные попытки построения визуальной концепции для представления многомерных данных, а также отмечалось отсутствие на сегодняшний день адекватного и надежного способа подобного визуального представления для объемов, имеющих размерность, превышающую 3. Следовательно, для анализа информации, содержащейся в полученном многомерном массиве необходимо понизить размерность
Построение и анализ многомерных параметрических решений
для нестационарных задач_
массива. Рассмотрим наиболее распространенные практические способы понижения размерности.
Рассматриваемые способы основаны на анализе дисперсий данных массива по координатным направлениям или нахождении в изучаемом многомерном пространстве вектора, по направлению которого дисперсия максимальна.
Первый способ представляет собой поиск координатного направления с наименьшей дисперсией. Вычисляются дисперсии Di по всем координатным направлениям, выбирается наименьшая из них, и в том случае, когда минимальная дисперсия существенно (на порядки) меньше остальных, значения исследуемой функции по координатному направлению с наименьшей дисперсией заменяются на константу, равную среднему значению по направлению. Таким образом, размерность исходного многомерного пространства понижается на единицу.
Второй распространенный способ понижения размерности заключается в построении графических проекций на стандартное число измерений п < 3 с фиксацией переменных, не участвующих в построении проекции. В тех случаях, когда из набора дисперсий по направлениям нельзя выделить существенно наименьшую, часто используется метод разделения переменных.
Если из вида проекций в стандартных измерениях удается сделать вывод о том, что для двух переменных при фиксированных остальных переменных исследуемая функция может быть выражена с помощью аналитической зависимости ф1 , а для остальных переменных при фиксированных первых двух - с помощью зависимости ф2 , то выдвигается гипотеза о том, что итоговая аналитическая зависимость для искомой функции может быть представлена в виде комбинации этих функций со сшивкой при фиксированных значениях.
Оба вышеизложенных подхода не являются строго обоснованными. Скорее, это алгоритмы выдвижения гипотез, нуждающихся в проверках. Однако эти методы позволяют получать реальные практические результаты.
Не менее эффективным является применение метода главных компонент (РСА). Суть метода состоит в переходе от исходной системы координат к новому ортогональному базису в рассматриваемом многомерном пространстве, оси которого ориентированы по направлениям максимальной дисперсии массива данных. Реализации метода главных компонент и алгоритмам его применения в различных областях посвящено большое количество литературы. Различные варианты реализации метода главных компонент и его обобщений для нелинейных случаев подробно представлены в работах [ОогЬап et а1., 2007; Зиновьев, 2000]. Геометрическая постановка задачи нахождения главных компонент формулируется следующим образом. В многомерном пространстве ищется
вектор направления, задающий прямую, вдоль которой дисперсия максимальна (или сумма квадратов расстояний от точек данных до прямой минимальна). Таким образом определяется первая главная компонента. Далее рассчитывается множество векторов первых остатков, которое лежит в пространстве, ортогональном первой главной компоненте и имеющем размерность на единицу меньше исходной размерности. Для нового пространства, образованного этим множеством векторов, снова ищется направление с максимальной дисперсией. Так рассчитывается вторая главная компонента. Снова рассчитывается множество векторов вторых остатков и т.д.
Применение главных компонент дает нам возможность отобразить исследуемый многомерный массив на плоскость или в трехмерное пространство, образованное первыми тремя главными компонентами. В этом случае схема обработки, анализа и визуализации исходного многомерного объема данных будет выглядеть следующим образом.
- Для исходного объема вычисляются 3 первые главные компоненты у;,72,73, где каждая главная компонента является линейной комбинацией
исходных переменных 7(х,,...хи) = .
- Далее координаты исходных точек исследуемого объема выражаются в координатах главных компонент
),73(х15...х„)).
- Реализуется визуальное представление массива в двумерном виде Д , 72) или в трехмерном Д. , 72,73).
Далее изучается полученное визуальное представление многомерного массива в главных компонентах и предпринимается попытка аппроксимации данных массива с помощью примитивных функций, имеющих аналитическое выражение. В простейшем случае применяется грубая линейная аппроксимация с помощью плоскости вида е2у2 + е3у3 = су. Так как плоскость при переходе от главных
компонент к исходным переменным сохраняет свои свойства, с помощью обратного преобразования получаем е[хх + е'2х2 +... + епхп = сх, которое уже можно рассматривать как искомую квазианалитическую зависимость хп В том случае, когда Д(71572,73) нельзя аппроксимировать
одной плоскостью, можно использовать кусочно-линейный подход, применив несколько плоскостей. Следует также заметить, что применение квадратичных поверхностей может также оказаться весьма полезным, однако этот вопрос заслуживает отдельного рассмотрения.
4 Практические результаты
Данный приближенный подход был применен к многомерному объему данных, полученному, как результат решения задачи
Построение и анализ многомерных параметрических решений
для нестационарных задач_
оптимизационного анализа нестационарного взаимодействия сверхзвукового потока вязкого сжимаемого теплопроводного газа со струйной преградой [Вопёагеу, 2014]. При повышении скорости изменения степени нерасчетности струи возникает специфический режим течения, когда вещество струи распространяется вверх по потоку по внешней стенке сопла. Скорость изменения степени нерасчетности струи рассматривается как управляющий параметр задачи оптимизационного анализа. В качестве определяющих параметров задачи рассматривались характерные числа Маха, Рейнольдса, Прандтля и Струхаля. Эти четыре параметра варьировались в определенных диапазонах. Целью решения задачи было нахождение скорости изменения степени нерасчетности струи, при которой реализуется специфический режим течения во всех диапазонах изменения характерных чисел задачи.
В качестве результата решения задачи был получен 5-мерный объем данных, где в качестве переменных были 4 характерных числа задачи М00?^Яе00?Рг,^ и искомая скорость V*. Для полученного многомерного объема были определены три первые главные компоненты. После перехода к главным компонентам строилось визуальное представление точек массива в главных компонентах (Рис.1). Полученное визуальное представление многомерного массива в главных компонентах позволило предположить, что точки массива могут быть грубо аппроксимированы параметрически заданной плоскостью.
После определения конкретного вида плоскости и ее коэффициентов было проведено обратное преобразование к исходным переменным и определение конкретного вида аппроксимирующей плоскости в исходных координатах. Это дало возможность получить искомую зависимость V* = Р(МаоЯе^,Рг,)в аналитическом виде. Полученные результаты представляют собой решение для класса задач, заданного в многомерном объеме определяющих параметров.
Рис. 1. Представление многомерного объема в пространстве главных компонент
Другой пример практического применения комбинированного подхода приведен в работе [Alexeev& Bondarev, 2014], где рассматривается задача выявления условий возникновения осциллирующих режимов при взаимодействии сверхзвуковой недорасширенной струи с твердой поверхностью. В качестве определяющих параметров задачи рассматривались три параметра - число Маха задачи степень
нерасчетности струи п, соотношение удельных теплоемкостей у. Эти параметры варьировались в определенных диапазонах. В качестве управляющего параметра выбиралось расстояние х от струи до поверхности. Целью решения задачи была проверка известного экспериментального соотношения между управляющим параметром и характерными параметрами задачи х2 = \6упМ^. Результаты проведенных расчетов подтвердили факт подобной зависимости.
5 Обобщенный вычислительный эксперимент
Описанные в предыдущих разделах алгоритмы построения, обработки, анализа и визуального представления многомерных параметрических решений, будучи собранными воедино, представляют собой комплексный подход. Подход строится как единая технологическая цепочка алгоритмов производства, обработки и анализа многомерных данных. Такая технологическая цепочка может рассматриваться как прототип обобщенного вычислительного эксперимента для нестационарных задач вычислительной газовой динамики. Схема реализации подобного обобщенного вычислительного эксперимента
Следует отметить, что подобный обобщенный вычислительный эксперимент неявно предполагает наличие надежной математической модели, численного метода для ее решения и набор экспериментальных результатов для верификации. В процессе вычислений необходимо реализовать организацию постоянного сравнения с экспериментальными
Построение и анализ многомерных параметрических решений
для нестационарных задач_
данными при наличии такой возможности. Набор используемых методов должен включать в себя решение обратных и оптимизационных задач. Будучи реализованными с помощью описанных ранее параллельных интерфейсов, эти методы позволят получать решения задач параметрического исследования и оптимизационного анализа в виде многомерных объемов данных. Для обработки этих объемов и выявления скрытых взаимозависимостей между изучаемыми в объеме параметрами необходимо интегрировать в общий набор алгоритмов методы анализа многомерных данных и их визуального представления. Наконец, в итоге подобный обобщенный вычислительный эксперимент позволит получать решение не одной, отдельно взятой, задачи, а решение для целого класса задач, задаваемого диапазонами изменения определяющих параметров. Также следует отметить универсальность подобного обобщенного вычислительного эксперимента. Он может быть применен к широкому кругу задач математического моделирования нестационарных процессов. Практическая реализация подобного обобщенного эксперимента может обеспечивать организацию крупномасштабных промышленных расчетов.
6 Заключение
В работе рассмотрен комбинированный подход исследования условий возникновения пространственно-временных структур в нестационарных задачах вычислительной газовой динамики. Основная черта подхода -возможность сведения расчета к многократному решению одной задачи с различными наборами исходных параметров. Это позволяет применить параллельные вычисления и получить результаты в виде многомерных объемов данных. Для обработки и анализа этих объемов применяются методы понижения размерности. Далее проводится визуальное представление данных и аппроксимация скрытых зависимостей с помощью примитивов. Для ряда задач подобная аппроксимация позволяет получить искомые зависимости в квазианалитическом виде. Все алгоритмы данного подхода выстраиваются в единую технологическую цепочку производства, обработки и анализа многомерных данных. Подобная технологическая цепочка может рассматриваться как прототип обобщенного вычислительного эксперимента.
Благодарности
Данная работа выполнена при поддержке Российского фонда фундаментальных исследований (проекты 13-01-00367а и 14-01-00769а).
Список литературы
[Бондарев&Галактионов, 2012] Бондарев А.Е., Галактионов В.А. Анализ многомерных данных в задачах многопараметрической оптимизации с применением методов визуализации / Научная визуализация. Т.4, № 2, с. 1-13,2012.
[Бондарев и др., 2011] Бондарев А.Е., Галактионов В.А., Чечеткин В.М. Анализ развития концепций и методов визуального представления данных в задачах вычислительной физики / Журнал вычислительной математики и математической физики, 2011, Т. 51, N 4, С. 669-683.
[Бондарев и др., 2014] Бондарев А.Е., Галактионов В.А., Михайлова Т.Н., Рыжова И.Г., Шапиро Л.З. Разработка и тестирование параллельного алгоритма решения задачи оптимизационного анализа // Информационные технологии в проектировании и производстве. N3,2014, С.3-9.
[Зиновьев, 2000] Зиновьев А. Ю. Визуализация многомерных данных, Красноярск, Изд. КГТУ, 2000. 180 с.
[Соболь и др., 1994] Соболь И.М., Картышов С.В., Кульчицкая И.А., Левитан Ю.Л. О многокритериальной оптимизации математических моделей // Математическое моделирование.-1994.- N 6,- С. 85-93.
[Alexeev& Bondarev, 2014] Alexeev А.К., Bondarev A.E. Modeling of Time-Dependent Modes for Supersonic Underexpanded Jet Interacting with Plate // Mesh methods for boundary-value problems and applications. Proceedings of 10th International Conference. -Kazan: Otechestvo, 2014, pp.64-68.
[Bondarev, 2014] Bondarev A.E. Multidimensional Data Analysis in CFD Problems, Scientific Visualization. V.6, № 5, pp.61-68,2014.
[Bondarev&Galaktionov, 2013] Bondarev A.E, Galaktionov V.A. Parametric Optimizing Analysis of Unsteady Structures and Visualization of Multidimensional Data // International Journal of Modeling, Simulation and Scientific Computing, Vol. 4, suppl. issue 1, 2013, DOI: 10.1142/S1793962313410043
http://www.worldscientific.com/doi/abs/10.1142/S1793962313410043
[DVM-System, 2015] DVM-System
http://www.keldysh.ru/dvm/dvmhtmll07/eng/dvmINTRe.html Дата обращения 05.01.15.
[Gorban et al., 2007] Gorban A., Kegl В., Wunsch D., Zinovyev A. (Eds.), Principal Manifolds for Data Visualisation and Dimension Reduction, LNCSE 58, Springer, Berlin -Heidelberg - New York, 2007.
[Pacheco, 1997] Pacheco P., Programming Parallel with MPI, San Francisco, CA, Morgan Kaufmann. 1997.
[Pilyugin et al., 2012] Pilyugin V., Malikova E., Pasko A., Adzhiev V. Scientific Visualization as Method of Scientific Data analysis, Scientific Visualization. V.4, № 4, pp.56-70,2012.