Научная статья на тему 'О сложности стратегии параллельного построения изображении для систем визуализации'

О сложности стратегии параллельного построения изображении для систем визуализации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
168
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВИЗУАЛИЗАЦИЯ / СУПЕРКОМПЬЮТЕРЫ / ПАРАЛЛЕЛЬНОЕ ПОСТРОЕНИЕ ИЗОБРАЖЕНИЙ / ОЦЕНКА СЛОЖНОСТИ / VISUALISATION / SUPERCOMPUTERS / PARALLEL IMAGE RENDERING / COMPLEXITY EVALUATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Джосан Оксана Васильевна

В работе рассматриваются различные стратегии параллельного построения изображений и видеопоследовательностей на суперкомпьютерах для систем визуализации научных данных. Анализируется их вычислительная сложность. Приводятся оценки эффективности и масштабируемости стратегии для различных входных параметров задачи. Практическая апробация предложенных методов проведена на суперкомпьютере BlueGene /P.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPLEXITY OF PARALLEL IMAGE RENDERING STRATEGIES FOR VISUALISATION SYSTEMS

The paper discusses various strategies of parallel images and video sequences rendering on supercomputers for scientific data visualization. Their computational complexity is analyzed. Estimations of efficiency and scalability of the strategies for various input parameters of the problem are represented. Practical testing of proposed method was charged on a supercomputer BlueGene /P.

Текст научной работы на тему «О сложности стратегии параллельного построения изображении для систем визуализации»

УДК 519.688

О СЛОЖНОСТИ СТРАТЕГИЙ ПАРАЛЛЕЛЬНОГО ПОСТРОЕНИЯ ИЗОБРАЖЕНИЙ ДЛЯ СИСТЕМ ВИЗУАЛИЗАЦИИ

О.В. Джосан

COMPLEXITY OF PARALLEL IMAGE RENDERING STRATEGIES FOR VISUALISATION SYSTEMS

О. V. Dzhosan

В работе рассматриваются различные стратегии параллельного построения изображений и видеопоследовательностей на суперкомпьютерах для систем визуализации научных данных. Анализируется их вычислительная сложность. Приводятся оценки эффективности и масштабируемости стратегии для различных входных параметров задачи. Практическая апробация предложенных методов проведена на суперкомпьютере BlueGene /Р.

Ключевые слова: визуализация, суперкомпьютеры, параллельное построение изображений, оценка сложности.

The paper discusses various strategies of parallel images and video sequences rendering on supercomputers for scientific data visualization. Their computational complexity is analyzed. Estimations of efficiency and scalability of the strategies for various input parameters of the problem are represented. Practical testing of proposed method was charged on a supercomputer BlueGene /Р.

Keywords: visualisation, supercomputers, parallel image rendering, complexity evaluation.

Введение

Метод объемного построения изображений (volume rendering) - это наиболее распространенный подход к визуализации трехмерных данных большого объема, которые получаются в результате крупномасштабного моделирования на суперкомпьютерах. Вычислительные эксперименты такого рода имеют ряд существенных особенностей. Основная особенность - это размер получаемых данных. В работе [1] рассмотрен пример визуализации данных для задачи моделирования несферических частиц. Объем данных, которые визуализируются в эксперименте, составляет 439 гигабайт. Размер данных моделирования турбулентного горения, которые представлены Институтом Institute for Ultra-Scale Visualization [2] в качестве бенчмарка для методов параллельной визуализации данных, составляет порядка 300 гигабайт. Такой объем требует специализированных методов по организации хранения и ввода-вывода данных. Следующей особенностью является распределенное хранение результатов вычислений. При этом число процессоров, на которых проводится эксперимент, может исчисляться десятками тысяч, и в будущем прогнозируется существенный рост этого показателя. Распределенное хранение данных, которые требуется визуализировать, порождает еще одну особенность параллельной визуализации - существенное время, которое требуется на коммуникации между процессорами в процессе построения изображений. Ввиду этих

особенностей реализация параллельного построения изображений в реальном времени для крупномасштабных вычислительных экспериментов сейчас является научной проблемой, которая требует разработки новых методов и подходов к такого рода визуализации.

Методы параллельного построения изображений по распределенным данным активно развиваются в течение последних двадцати лет [3]. Существующие алгоритмы традиционно разделяются на три типа по этапу, на котором происходит обмен распределенными данными: sort-first, sort-middle, sort-last [4]. Примеры различных стратегий параллельного построения изображений можно найти в работах [5 - 10]. Существует ряд программных продуктов, которые поддерживают параллельное построение изображений, в частности можно выделить системы Vislt[13 - 14] и ParaView [11 - 12] с ядром параллельного построения изображений IceT [15]. Однако существующие системы не обеспечивают достаточной скорости работы для построения высококачественных изображений и видео в реальном времени.

В данной работе будут рассмотрены только алгоритмы, относящиеся к классу sort-last, в которых каждый процессор визуализирует свою часть данных, и далее осуществляется только обмен изображениями для построения итогового изображения. Алгоритмы класса sort-last включают в себя два шага: шаг построения изображения (image rendering) и шаг компоновки изображения (image compositing). На первом шаге каждый процессор строит свою часть изображения по части данных, которая была получена на нем при вычислениях. Затем на втором шаге из полученных изображений формируется итоговая картинка. В данной работе детально проанализированы стратегии, применяемые на шаге компоновки изображения для уменьшения времени работы и объема пересылаемых данных.

Самый тривиальный для реализации подход - пересылка всех данных на один процессор. Такой метод условно называется последовательным [17]. Однако этот метод весьма затратный по вычислениям и времени выполнения, а также может быть легко оптимизирован и упрощен, поэтому в реальности не применяется. В терминах MPI проблема компоновки изображения эквивалентна решению reduce-scatter проблемы. Первой оптимизацией является использование топологии виртуального дерева (virtual tree) для пересылки, что позволяет сократить общее время пересылки данных. Такие подходы подробно описаны в работе [18]. Следующим этапом развития алгоритмов компоновки можно назвать появление метода бинарных обменов (binary swap) [19]. Идея алгоритма заключается в пересылке не целого изображения, а только его части. Недостатком такого алгоритма являлось то, что количество процессоров должно было быть степенью 2. Эта проблема была решена в работе [20], где предложен алгоритм на основе 2-3 обменов. Еще одним принципиальным подходом к организации обменов стал сценарий параллельного конвейера (parallel pipelined) [21]. В работе [22] предложена существенная модификация конвейерного алгоритма, названная циклическим разделением (rotate tiling), которая перенаправляет обмены, сокращая количество пересылок.

В настоящее время алгоритмы компоновки изображений развиваются в двух направлениях: 1) применение гибридных подходов, 2) пересылка только значимых пикселей изображения. Примеры гибридных подходов рассмотрены, например, в работах [23, 24]. Методы выделения только значимых пикселей предложены в работах [24, 25].

Приведенный обзор показывает, что выбор методов параллельной компоновки изображений достаточно широк. Однако существующие методы решают далеко не все проблемы, актуальные в настоящее время. Так, например, методы с выделением значимых пикселей сталкиваются с проблемой балансировки загрузки, т.к. в этом случае она должна быть динамической, а это означает применение весьма вычислительно сложных алгоритмов.

Большинство реализаций алгоритмов параллельной композиции для ускорения работы использует сжатие данных. В данной задаче требуется алгоритм с невысокой степенью сжатия, однако сжатие должно быть без визуальных потерь и очень быстрым. Методы,

используемые в настоящее время, достаточно примитивны. В работе [26] предложен ряд алгоритмов сжатия, которые могли бы более эффективно использоваться для сжатия при компоновке изображений. Некоторые экспериментальные оценки затрат на коммуникации в сетях различной архитектуры получены в работе [27].

Гибридные модели алгоритмов компоновки в большинстве случаев являются статическими и не могут быть динамически адаптированы под конкретную архитектуру или контекст задачи. Интерес представляет анализ обобщенных гибридных моделей и выделение в них параметров, которые в дальнейшем могут быть использованы для динамической адаптации.

Рассмотренные методы по разному решают вопрос, где и в каком виде хранится итоговое изображение. В большинстве случаев финальное изображение хранится после компоновки распределенно. Для отображения на дисплей нужно это изображение передать с вычислительных узлов на интерфейсную машину или записать информацию на жесткие диски. Если мы храним изображение распределенно, то в этом случае может эффективно применяться параллельный ввод-вывод. Однако с появлением мультидисплейных комплексов в процессе компоновки появляется еще одна задача по разделению и передаче итоговой картинки на несколько дисплейных устройств. Ее решение также представляет интерес, т.е. может быть интегрировано в процесс компоновки изображения.

В данной работе рассмотрены теоретические и экспериментальные оценки вычислительной сложности различных методов компоновки изображения при параллельном построении. Оценки проводятся с учетом необходимости отображения на мультидисплейном комплексе, соответственно учитывают возможность совмещения компоновки изображения и распределения изображения между отображающими устройствами. Рассмотрено два похода к организации обменов: 1) на каждом шаге задействуются все процессоры, 2) процессоры разбиты на группы, и обработка осуществляется в конвейерном режиме. Рассмотрены некоторые гибридные модели и их параметры, позволяющие адаптировать процесс компоновки в зависимости от особенностей архитектуры вычислительного комплекса и контекста задачи.

1. Оценка сложности методов параллельного построения изображений

Рассмотрим основные параметры, которые необходимо использовать при оценке сложности методов параллельного построения изображений. Пусть итоговое изображение, которое необходимо построить, имеет размер X *Y пикселей. Соответственно площадь этого изображения S пикселей (S = X *Y). N - количество процессоров, используемых для построения изображения. Bim и Bout — количество пикселей, которое может быть получено/отправлено процессоров в секунду (пропускная способность). Пусть Bin = Bout = В. Пусть мультидис-плейный комплекс состоит из решетки p*q дисплеев. Общее количество дисплеев — М = p*q. Пусть выполнено условие М < N.

Рассмотрим оценки для последовательного метода, метода бинарных обменов, метода параллельного конвейера, метода циклического разделения. При этом распределение по процессорам, к которым подключены дисплеи, осуществляется последовательно. Также сделано допущение, что время компоновки пренебрежительно мало по сравнению со временем пересылки изображений между процессорами. После этого опишем гибридный подход для мультидисплейных комплексов с использованием балансировки загруженности.

Рис. 1. Схемы обменов при разных стратегиях пересылки для случая N=4, р=1, с^=2: а) последовательный метод; Ь) метод бинарных обменов; с) метод параллельного конвейера; ^ метод циклического разделения

Рис. 2. Схема компоновки изображения для мультидисплейного комплекса с использованием MPI-операции reduce

1.1. Оценки сложности для последовательного метода

Суть последовательного метода состоит в том, что все данные передаются на один процессор, далее с него распределяются по процессорам, к которым подключены дисплеи. Сценарий работы для этого метода для случая N = 4,р = 1 , q = 2 проиллюстрирован на Рис. 1а. Общий объем передаваемых данных (в пикселях): Vss = S * (N —1) + S = S * N. Поскольку все выполняется последовательно, то время на пересылку вычисляется по формуле: TSs = S * N/В.

1.2. Оценки сложности для метода бинарных обменов и конвейерного метода

Метод бинарных обменов для случая N = 4,р = 1, q = 2 проиллюстрирован на Рис. lb. На первом шаге алгоритма процессоры обмениваются S/2 пикселями изображения, на следующем шаге S/4 и т.д. Количество итераций в этом случае ¿o^N. Объем данных, который последовательно передается на г-й итерации, составляет: Vi = S/2i. Время на г-й итерации составляет Ti = S/(B * 2*). Таким образом, суммарное время на сборку и объем передаваемых последовательно данных можно вычислить следующим образом:

1оУ2(Ю

TBS, = V = -(1 - —); (1)

аъ т ^ 2* В N

г=1

1оу2(Ю

vBS-= £ W = S{1~N)- (2)

г=1

После выполнения алгоритма на каждом процессоре получится S/N пикселей итогового изображения. Поскольку сборка на М процессоров для отображения на дисплеи осуществляется последовательным образом, то количество данных, которое необходимо последовательно передать, можно посчитать как количество данных, которое придет на каждый из процессоров. Таким образом, V2 = S/M; Т2 = S/{B * М). В итоге получаем, что время, которое тратится на построения изображения в формате для мультидисплеев с помощью метода бинарных обменов:

S 1 S S„ 11

BS=B^ ~N^ + md = B^ ~N + M^

Объем передаваемых данных:

Увз = 8(1-± + ±). (4)

Идея конвейерного метода состоит в том, что на каждой итерации процессор передает и получает S/N пикселей изображения. При этом выполняется N — 1 итераций. После этих итераций осуществляется последовательная сборка на М Процессоров. С учетом оценок, полученных в работе [22], получаем, что оценка времени работы и объема передаваемых данных с учетом мультидисплейности совпадает с показателями для метода бинарных обменов. Работа метода проиллюстрирована на Рис. 1с.

1.3. Оценки сложности для метода циклического разделения

Верхние оценки времени работы алгоритма и объема передаваемых данных получены авторами метода в работе [22]. Используя эти оценки для случая мультидисплейности, получаем:

1 '”и<л') 1 111 ^ Е (1 - 1 *2--Л + м^ <5)

г=1 1оу2(М)

Твт = —(— \ (1------) * —:—;-------Ь )• (6)

ВУМ 1 М; 2г~1 N М у ’

г=1

Таким образом, из проанализированных классических методов сборки изображения метод циклического разделения требует наименьший размер передаваемых последовательно на каждой итерации данных, и время его работы меньше остальных. Однако в каждом из перечисленных методов в оценках присутствует слагаемое, получаемое из применения последовательного метода перераспределения изображения для мультидисплейного комплекса. Очевидно, что этот шаг можно оптимизировать, применив гибридную стратегию, в рамках которой компоновка изображения совмещена с распределением его по мультидисплейному комплексу.

2. Метод гибридной сборки с учетом мультидисплейности

2.1. Описание гибридной стратегии сборки для мультидисплейного комплекса

В данной статье автором предлагается стратегия гибридной сборки для параллельной компоновки изображения. Стратегия гибридной сборки представляет собой объединение шагов компоновки изображения и распределения итогового изображения по процессорам для отображения на мультидисплейном комплексе. Возможно применение различных алгоритмов компоновки изображения при таком подходе. Однако различные стратегии будут давать различный результат при исполнении программы на различных параллельных архитектурах. Это связано с тем, что аппаратно не обеспечивается одинаковая скорость при коммуникации между различными процессорами. Для эффективной реализации параллельной компоновки изображения и его распределения возможно использование коллективных операций MPI, в частности операции reduce.

Для использования этой операции требуется обеспечить дополнительное условие, что операция компоновки изображения будет ассоциативной по отношению к порядку, в котором происходит сборка изображения. Однако в случае компоновки изображения это условие может быть ослаблено. Достаточно, чтобы ошибка, которая вносится при разном порядке компоновки, была визуально не заметна.

Наибольшего ускорения возможно было бы добиться при использовании неблокирующих вызовов reduce, но такая функциональность будет поддерживаться только в стандарте MPI-3. В текущем стандарте MPI используются блокирующие операции reduce, поэтому компоновка итогового изображения для M дисплеев эквивалентна последовательному выполнению M вызовов reduce для каждого из процессоров, к которому подключен дисплей. Каждый шаг операции reduce проводится для части изображения, которая соответствует текущему дисплею. В общем виде схему выполнения операции можно представить следующим образом (рис. 2).

Теоретически выполнение операции reduce на каждой конкретной параллельной архитектуре будет выполняться быстрее, чем произвольный алгоритм компоновки изображения, т.к. разработчики аппаратного и системного программного обеспечения реализуют базовые функции MPI максимально эффективно для своей архитектуры. В частности, на суперкомпьютере Blue Gene/P используется специальная коммуникационная сеть для выполнения

коллективных операций, что позволяет получить существенный выигрыш по времени выполнения по сравнению с самостоятельно реализованными алгоритмами обменов, использующих коммуникации точка-точка. Поэтому получение теоретической оценки ожидаемого времени выполнения затруднительно, т.к. требует детального знания архитектуры конкретной параллельной системы и особенностей реализации операций MPI. Однако эти оценки могут быть получены экспериментально. Соответствующий эксперимент был выполнен на суперкомпьютере Blue Gene/P, и его результаты приведены в данной работе.

2.2. Использование балансировки по данным для оптимизации времени выполнения

При визуализации научных данных в получаемом изображении далеко не все пиксели являются значащими. Большая часть пикселей относится к фоновым и имеет постоянное значение. Для эффективной передачи данных можно использовать различные алгоритмы сжатия перед компоновкой. Однако использование сжатия приводит к дисбалансу загруженности процессоров, т.к. у некоторых процессоров окажется часть изображения, где большинство пикселей значащие, а некоторые процессоры получат только фоновые пиксели, которые будут эффективно сжаты.

В качестве одного из подходов к балансировке загруженности процессоров при использовании сжатия может быть применено неравномерное разбиение по площади для частей, которыми обмениваются процессоры. Но такой подход не применим, если в итоге должно быть получено не одно изображение, а несколько изображений для мультидисплейного комплекса.

Требуется предложить способ разбиения данных между процессорами, при котором возможно будет использовать сжатие, при этом будет сохранена равномерная загруженность процессоров и в итоге получится изображение для мультидисплейного комплекса. Для выполнения этой задачи предполагается следующий подход. Предлагается выполнять операцию reduce не для части данных, которые относятся к одному дисплею, а по полосе данных, которая включает в себя данные для q дисплеев в ряду. При таком способе получается более равномерное распределение значащих пикселей. Далее полученное сжатое изображение пересылается на q процессоров с помощью MPI операции scatter.

3. Экспериментальная оценка эффективности и масштабируемости на BlueGene /Р

3.1. Описание эксперимента

Эксперимент проводился на суперкомпьютере Blue Gene/P МГУ. Для получения экспериментальных оценок эффективности выполнения была использована реализация 5 методов:

^последовательный (SS);

2)бинарных обменов (BS);

3)конвейерный метод (RS);

4)метод на основе reduce-вызовов (RED);

5)метод на основе reduce-вызовов с использованием оптимизации по данным (REDopt).

Методы 1-3 были реализованы на основе стратегий библиотеки IceT [15]. Эксперимент

проводился для визуализации данных молекулярной динамики для молекул с порядком атомов 105. Однако в эксперименте оценивалось только время выполнения и эффективность компоновки изображения, поэтому входными данными алгоритма можно считать изображения в S пикселей, полученные на каждом процессоре, по данным, которые у него были.

Рис. 3. Результаты вычислительных экспериментов на Blue Gene/P

Проведены следующие эксперименты:

1)анализ времени выполнения на различном количестве процессоров при фиксированном размере изображения и фиксированной сетке мультидисплейного комплекса;

2)анализ времени выполнения при изменяющемся размере изображения;

3)анализ времени выполнения при изменяющейся сетке мультидисплейного комплекса. В экспериментах использовалось 128, 256, 512, 1024 процессора. Размер изображения

менялся от 2000х2000, 1000х1000, 500х500 для каждого дисплея из мультидисплейного комплекса. Сетки мультидисплейного комплекса брались размером 2x2, 2x4 и 4x4.

3.2. Результаты

Графики полученных в вычислительном эксперименте результатов приведены на рис. 3.

На рис. За показан график времени работы методов при изменении количества процессоров. При этом фиксирован размер изображения для каждого дисплея 1000x1000 пикселей и сетка мультидисплейного комплекса: размер 2x4. На рис. ЗЬ показано ускорение на процессор в этом же эксперименте. Как видно из графика, полученное решение довольно плохо масштабируемо и дает низкую эффективность при большом количестве процессоров. Однако предложенные методы RED и REDopt более эффективны, чем известные ранее методы.

На рис. Зс показано время работы методов при использовании различного размера изображения для каждого из дисплеев. При этом фиксировано количество процессоров — 1024 и сетка мультидисплейного комплекса 2x4. На рис. 3d показано ускорение на пиксель в зависимости от размера изображения. Использование в методе RED оптимизации по данным и сжатия передаваемых данных позволило существенно улучшить показатель по этому параметру.

На рис. Зе показана зависимость времени работы метода от изменения сетки дисплеев. При этом фиксировано значение размера входного изображения 2000x2000 пикселей и количество используемых процессоров: 1024x1024. Как видно из графика, оптимизация по данным позволила уменьшить время работы алгоритма RED на сетке из 16 дисплеев в два раза. Необходимо провести дополнительное исследование на сетке большей размерности и при большем общем размере изображения.

Заключение

В работе проведен анализ методов параллельной компоновки изображения при визуализации научных данных большого размера на суперкомпьютерах методом объемного построения изображений. Приводится теоретическая оценка сложности методов для случая, когда на выходе получается не одно изображение, а несколько для отображения на мультидис-плейном комплексе. Предложен гибридный метод компоновки изображения, объединяющий стадии компоновки изображения и распределения изображения между несколькими экранами. Предложена оптимизация это метода, позволяющая сократить размеры передаваемых данных и соответственно общее время работы метода. Проведено экспериментальное исследование эффективности предложенного метода и его оптимизации на суперкомпьютере Blue Gene/P. В дальнейших исследованиях предполагается совершенствование метода сжатия данных для ускорения работы программы, исследование масштрабируемости предложенных методов на суперкомпьютере «Ломоносов:» и оптимизация предложенных методов для этого суперкомпьютера.

Работа выполнена при поддержке ФЦП «Научные и научно-педагогические кадры инновационной России на 2009 - 2013 годы», гранта РФФИ 11-07-0061^-а.

Статья рекомендована к публикации программным комитетом международной научной конференции «Параллельные вычислительные технологии 2011>.

Литература

1. Direct Numerical Simulation of Particulate Flows on 294912 Processor Cores / J. Götz,

K. Iglberger, M. Stürmer , U. Rüde // Proc. Conf. High Performance Computing, Networking,

2. The SciDAC Ultra-Scale Visualization Institute.

URL:http://vis.cs.ucdavis.edu/Ultravis/datasets/ (дата обращения: 10.01.2011).

3. Survey of Parallel Volume Rendering Algorithms

URL:www.hpl.hp.com/research/mmsl/presentations/3d/pdpta98.pdf (дата обращения: 10.01.2011).

4. Mueller, С. The sort-first rendering architecture for high-performance graphics / C. Mueller // In ACM SIGGRAPH ASIA 2008 courses (SIGGRAPH Asia ’08). - N. Y., USA, Article

5. Crockett, T.W. A MIMD rendering algorithm for distributed memory architectures /

6. Pajarola, R. Cluster parallel rendering / R. Pajarola //In ACM SIGGRAPH ASIA 2008 courses (SIGGRAPH Asia ’08). N. Y., USA, Article 34, 12 pages, 2008. - P. 434 - 452.

7. Large Scale Data Visualization Using Parallel Data Streaming / K.M. Martin, B. Geveci,

8. Berkant, B.C. Hypergraph-Partitioning-Based Remapping Models for Image-Space-Parallel Direct Volume Rendering of Unstructured Grids / B.C. Berkant, A. Cevdet // IEEE Trans.

9. Sort First Parallel Volume Rendering / B. Moloney, M. Ament, D. Weiskopf, T. Moller //

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10. Efficient volume rendering on the body centered cubic lattice using box splines /

11. Remote Large Data Visualization in the ParaView Framework / A. Cedilnik, B. Geveci, K. Moreland, J. Ahrens, J. Favre // Eurographics Parallel Graphics and Visualization /

12. Moreland, K. Parallel Unstructured Volume Rendering in ParaView / K. Moreland, L. Avila, Lee Ann Fisk //In Visualization and Data Analysis 2007, Proceedings of SPIE-IST Electronic

13. Foulks, A. Uncertainty visualization in the VisIt visualization environment / A. Foulks,

14. VisIt, Visualization Tool. URL: https://wci.llnl.gov/codes/visit/ (дата обращения:

10.01.2011).

15. Moreland, K. IceT Users’ Guide and Reference. Tech Report SAND 2009-3170, June 2009. D. Goodell, R. Ross, H.-W. Shen, R. Thakur // Proc.Conf. High Performance Computing

17. Porter, T. Compositing digital images / T. Porter, T. Duff // SIGGRAPH Comput. Graph.

18. Moreland, K. Sort-last parallel rendering for viewing extremely large data sets on tile displays / K. Moreland, B. Wylie, C. Pavlakos // In Proceedings of the IEEE 2001 symposium on

19. Parallel volume rendering using binary-swap compositing / K.-L. Ma, J.S. Painter,

C.D. Hansen, M.F. Krogh // IEEE Computer Graphics and Applications. - 1994. - V. 14,

20. Yu, H. Massively parallel volume rendering using 2-3 swap image compositing / H. Yu,

21. Lee, T.-Y. Image composition schemes for sort-last polygon rendering on 2d mesh multicomputers / T.-Y. Lee, C.S. Raghavendra, J.B. Nicholas // IEEE Transactions on

22. Lin, C.F. A rotate-tiling image compositing method for sort-last parallel volume rendering systems on distributed memory multicomputers/ C.F. Lin, S.K. Liao, Y.C. Chung // J. of

23. Nonaka, J. Theoretical and Practical Performance and Scalability Analyses of Binary-Swap image Composition Method on IBM Blue Gene/L / J. Nonaka, K. Ono, H. Miyachi // The 1st International Workshop on Super Visualization (IWSV), June 7, 2008, Kos Is., Greece. -

24. Takeuchi, A. An improved binary-swap compositing for sort-last parallel rendering on distributed memory multiprocessors / A. Takeuchi, F. Ino, K. Hagihara // Parallel Comput.

D. Goodell, R. Ross, H.-W. Shen, R. Thakur // Proc. Conf. High Performance Computing, Networking, Storage, and Analysis, Portland, Oregon, USA, 2009. Preprint ANL/MCS-P1624-0509, May 2009.

26. Джосан, О.В. Метод визуализации многомерных динамических данных на многопроцессорных комплексах / О.В. Джосан, А.Б. Мурынин, Н.Н. Попова // Вестн. компьютер.

27. Корж, А.А. Оценка минимальных требований к аппаратуре и топологии при построении высокоскоростных коммуникационных сетей для суперкомпьютеров с общей памятью / А.А. Корж, Д.В. Макагон // Вычислит. методы и программирование: новые вычислит.

Оксана Васильевна Джосан, кандидат физико-математических наук, кафедра автоматизации систем вычислительных комплексов, Московский государственный университет имени М.В. Ломоносова, oxana@cs.msu.su.

Поступила в редакцию 4 марта 2011 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.