Научная статья на тему 'ОЦЕНКА ПРОИЗВОДИТЕЛЬНОСТИ АЛГОРИТМОВ СИНТЕЗИРОВАНИЯ РАДИОЛОКАЦИОННЫХ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИИ CUDA'

ОЦЕНКА ПРОИЗВОДИТЕЛЬНОСТИ АЛГОРИТМОВ СИНТЕЗИРОВАНИЯ РАДИОЛОКАЦИОННЫХ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИИ CUDA Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
32
9
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАДИОЛОКАЦИОННОЕ ИЗОБРАЖЕНИЕ / СИНТЕЗ АПЕРТУРЫ АНТЕННЫ / КОЛИЧЕСТВО ОПЕРАЦИЙ / ГРАФИЧЕСКИЙ ПРОЦЕССОР / ВРЕМЯ ВЫЧИСЛЕНИЙ / БЫСТРОЕ ПРЕОБРАЗОВАНИЕ ФУРЬЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Козлов С.В.

Приведены особенности реализации алгоритма синтеза детальных радиолокационных изображений (РЛИ) для радиолокатора с синтезированием апертуры с использованием встроенных функций библиотеки Cuda. Дана оценка вычислительной сложности с позиций организации параллельных вычислений на графических процессорах Nvidia. Приведена оценка реальной производительности синтеза РЛИ с учетом объема и особенностей размещения первичной радиолокационной информации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Козлов С.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EVALUATION OF THE PERFORMANCE OF ALGORITHMS FOR SYNTHESIZING RADAR IMAGES USING CUDA TECHNOLOGY

The features of the implementation of the algorithm for the synthesis of detail radar images for an aperture synthesis radar using the built-in functions of the Cuda library are presented. The estimation of computational complexity from the standpoint of the organization of parallel computing on Nvidia GPUs is given. The estimation of the real performance of radar synthesis is given, taking into account the volume and features of the placement of primary radar information.

Текст научной работы на тему «ОЦЕНКА ПРОИЗВОДИТЕЛЬНОСТИ АЛГОРИТМОВ СИНТЕЗИРОВАНИЯ РАДИОЛОКАЦИОННЫХ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ ТЕХНОЛОГИИ CUDA»

КРАТКИЕ СООБЩЕНИЯ

IMH^HJ

http://dx.doi.org/10.35596/1729-7648-2021-19-6-92-96

Оригинальная статья Original paper

УДК 621.396

ОЦЕНКА ПРОИЗВОДИТЕЛЬНОСТИ АЛГОРИТМОВ СИНТЕЗИРОВАНИЯ РАДИОЛОКАЦИОННЫХ ИЗОБРАЖЕНИЙ С ИСПОЛЬЗОВАНИЕМ

ТЕХНОЛОГИИ CUDA

СВ. КОЗЛОВ

Белорусский государственный университет информатики и радиоэлектроники (г. Минск, Республика Беларусь)

Поступила в редакцию 26 июля 2021 © Белорусский государственный университет информатики и радиоэлектроники, 2021

Аннотация. Приведены особенности реализации алгоритма синтеза детальных радиолокационных изображений (РЛИ) для радиолокатора с синтезированием апертуры с использованием встроенных функций библиотеки Cuda. Дана оценка вычислительной сложности с позиций организации параллельных вычислений на графических процессорах Nvidia. Приведена оценка реальной производительности синтеза РЛИ с учетом объема и особенностей размещения первичной радиолокационной информации.

Ключевые слова: радиолокационное изображение, синтез апертуры антенны, количество операций, графический процессор, время вычислений, быстрое преобразование Фурье.

Конфликт интересов. Автор заявляет об отсутствии конфликта интересов.

Для цитирования. Козлов С.В. Оценка производительности алгоритмов синтезирования радиолокационных изображений с использованием технологии Cuda. Доклады БГУИР. 2021; 19(6): 92-96.

EVALUATION OF THE PERFORMANCE OF ALGORITHMS FOR SYNTHESIZING RADAR IMAGES USING CUDA TECHNOLOGY

SERGEI V. KOZLOV

Belarusian State University of Informatics and Radioelectronics (Minsk, Republic of Belarus)

Submitted 26 July 2021

© Belarusian State University of Informatics and Radioelectronics, 2021

Abstract. The features of the implementation of the algorithm for the synthesis of detail radar images for an aperture synthesis radar using the built-in functions of the Cuda library are presented. The estimation of computational complexity from the standpoint of the organization of parallel computing on Nvidia GPUs is given. The estimation of the real performance of radar synthesis is given, taking into account the volume and features of the placement of primary radar information.

Keywords: radar image, antenna aperture synthesis, number of operations, graphics processor, calculation time, fast Fourier transform.

Conflict of interests. The author declares no conflict of interests.

For citation. Kozlov S.V. Evaluation of the performance of algorithms for synthesizing radar images using Cuda technology. 2021; 19(6): 92-96.

Постановка задачи

Применяемые в радиолокаторах с синтезированием апертуры алгоритмы построения радиолокационных изображений (РЛИ) земной поверхности и расположенных на них объектов являются одними из наиболее емких в вычислительном плане для всех радиолокационных приложений. Типичный алгоритм, например, для случая однопроходной интерферометрии для радиолокатора с синтезированием апертуры (РСА) космического базирования, при размере временного окна приема сигнала 60 мкс, частоте дискретизации 300 МГц, времени синтезирования около 2 с, периоде повторения импульсов около 5 кГц будет оперировать с около 2,5 Гбайт входных данных (при представлении отсчетов в виде чисел с плавающей точкой) с формированием пары комплексных РЛИ с различными фазовыми центрами приемной антенны типичного размера 5 х 5 км при разрешении около 1 м [1]. Для улучшения качества РЛИ оператор-дешифровщик может использовать различные виды аподизации по дальности и азимуту, медианное и гауссовое сглаживание и т. д. Последующая тематическая обработка включает построение интерферограммы, трудоемкую операцию «развертывания» интерферометрической фазы и вычисление высот элементов разрешения земной поверхности. Для обеспечения высокой производительности наземного центра обработки информации необходимо, чтобы указанные операции выполнялись в масштабе времени, близком к реальному, а используемые технические решения были относительно недорогими. Схожие требования имеют место для РСА авиационного базирования, где целесообразно синтезировать РЛИ на борту носителя, что позволит снизить объем бортовых накопителей и пропускную способность канала передачи данных на наземный пункт приема и обработки информации. Это побуждает к изысканию недорогих технических решений по построению РЛИ в реальном масштабе времени. Одним из возможных является использование современных графических процессоров (видеокарт), в частности, производства Nvidia. Для решения на видеокартах типовых вычислительных задач используется технология Cuda [3, 4]. Программная архитектура CUDA SDK базируется на модифицированной версии языка Си.

Цель статьи - обсуждение практических результатов и формирование рекомендаций по использовании технологии Cuda для реализации алгоритмов синтеза РЛИ.

Рассматриваемый алгоритм построения РЛИ

Для реализации на видеокартах был выбран алгоритм синтеза (рис. 1) детальных РЛИ с компенсацией миграции дальности и частоты [1], реализованный в спектральной области в варианте [2]. В скобках в блоках алгоритма указано число операций комплексного умножения и вычисления квадратного корня.

Рис. 1. Блок-схема алгоритма синтеза радиолокационного изображения Fig. 1. Block diagram of the radar image synthesis algorithm

Входными данными для алгоритма является матрица K х M комплексных отсчетов Ц)1к

принимаемой реализации, где m = 1,M, М = 210 Л3 - индекс времени в пределах одного периода повторения; к = 1,К , К = 212 Л4 - индекс периода повторения на интервале синтезирования.

Алгоритм предполагает вычисление быстрого преобразования Фурье (БПФ) по М отсчетам в K периодах повторения, коррекцию отсчетов спектров по ожидаемым параметрам взаимного перемещения РСА и участка земной поверхности для устранения миграции дальности, умножение отсчетов спектров в каждом периоде повторения на отсчеты амплитудно-фазочастотной характеристики согласованного фильтра (СФ) по дальности, вычисление обратного БПФ по «быстрому» времени и заключительную операцию БПФ по «медленному» времени с последующим переходом к квадратам модулей полученного спектра для получения амплитудного РЛИ. Матрица корректирующих коэффициентов рассчитывается предварительно и загружается из памяти.

Общее число операций комплексного умножения при однократной реализации и загрузке предварительно рассчитанной матрицы корректирующих коэффициентов оценивается величиной

O = 4MK(2log2M + log2 K +1,5) (1)

и для типовых M = 212; K = 213 составит O = 5,2 • 109 для одного интерферометрического канала на одной поляризации. Учтено (коэффициент 4), что операция комплексного умножения соответствует четырем операциям обычного умножения.

Для современных универсальных процессоров с производительностью ~50 GFLOPS теоретическое время расчета для указанного случая составит около 0,1 с. Однако реальная производительность из-за большого числа передачи данных между памятью и процессором, неоптимального построения вычислений и других факторов оказывается существенно ниже и составляет, например, для процессора Intel Core i7-4,2 ГГц с паспортной производительностью 30 GFLOPS, около 20...25 с, что явно не соответствует требованиям обработки в масштабе времени, близком к реальному, даже для одного приемного канала.

Особенности организации вычислений и оценка производительности видеокарт

Алгоритм синтеза РЛИ был реализован на видеокартах среднего уровня: GeForce 1050 (728 процессоров, 2 GB памяти GDDR5 на частоте 7 ГГц) и GeForce 1660ti (1024 процессоров, 6 GB, GDDDR5 на частоте 3 ГГц). Для расчета БПФ и ОБПФ использовалась оптимизированная библиотека CUFFT [3]. Весь алгоритм реализовывался на видеокарте, для чего массив отсчетов сигналов загружался из памяти хоста в память видеокарты, и с использованием функций Cuda организовывались вычисления согласно рис. 1. Рассматривались два варианта обработки - когда все исходные/рассчитываемые массивы хранились в памяти и когда исходные массивы (более не нужные) замещались рассчитываемым. Дополнительно оценивалось быстродействие в зависимости от числа задаваемых нитей (потоков) [3]. Время выполнения фиксировалось средствами Windows при усреднении по достаточному числу реализаций. Параметры реализации алгоритма обработки (t - время выполнения, S - реальная производительность, Р -объем задействованной памяти видеокарты в мегабайтах) при M = 4096 и частоте повторения импульсов 5 кГц приведены в табл. 1. Прочерки в соответствующих клетках таблицы свидетельствуют о невозможности реализации алгоритма обработки в полном объеме (без разделения на части и участия центрального процессора) из-за ограничений по объему памяти видеокарты.

Из результатов табл. 1 следует: время синтеза РЛИ для одного канала в 4.5 раз меньше времени наблюдения, т. е. обработка для двух интерферометрических приемных каналов и на двух поляризациях возможна в реальном масштабе времени; ускорение обработки на видеокартах в сравнении с процессором Intel Core i7 достигает в 50.150 раз; реальная производительность видеокарт при синтезе РЛИ составляет 6,0.7,7 GFLOPS и 14,1.20,5 GFLOPS, при этом время вычисления БПФ/ОБПФ соизмеримо с указанным в [4]; реальная производительность не зависит от числа задаваемых нитей (потоков) и ограничена, в основном, пропускной способностью памяти видеокарты; при сокращении объема используемой памяти за счет замещения массивов производительность в зависимости от быстродействия памяти может увеличивается до 30 %; увеличение числа физических процессоров в графическом процессоре приводит к примерно пропорциональному увеличению производительности.

Таблица 1. Параметры реализации алгоритма синтеза РЛИ на видеокартах при хранении / замещении

использованных данных в памяти Table 1. Parameters of the implementation of the radar image synthesis algorithm on video cards when

storing / replacing used data in memory

Число периодов повторения K / время синтезирования, c Number of repetition periods K / synthesis time, с Видеокарта GeForce 1050 GeForce 1050 video card GeForce 1660ti GeForce 1660ti video card

t, с S, GFLOPS P, Mb t, с S, GFLOPS P, Mb

1024 / 0,16 0,053 / 0,055 6,8 / 6,6 665 / 583 0,025 / 0,20 14,4 / 17,8 1408 /1325

2048 / 0,33 0,11 / 0,11 7,0 / 7,1 895 / 731 0,054 / 0,045 14,1 / 17,2 1638 / 1473

4096 / 0,66 0,223 / 0,220 7,2 / 7,3 1365 / 1027 0,113 / 0,095 14,3 / 16,1 2098 / 1769

8192 / 1,3 - / 0,44 - / 7,7 - /1719 0,22 / 0,188 15,0 / 18,0 3020 / 2361

16384 / 2,6 - / - - / - - / - 0,454 / 0,365 15,6 / 19,4 4864 / 3549

Кроме того, установлено, что объем задействованной компилятором памяти видеокарты оказывается в 2...3 раза больше объема исходных данных и результатов вычислений при несущественных затратах памяти на хранение промежуточных переменных. Это обстоятельство является существенным при выборе видеокарты и объясняется, по-видимому, особенностями размещения и адресации больших массивов данных в памяти видеокарты при их совместной параллельной обработке физическими процессорами.

Для преодоления ограничений по быстродействию памяти видеокарты дополнительно рассматривался вариант обработки, когда при выполнении БПФ / ОБПФ загрузка исходных данных и считывание результатов осуществлялось отдельными частями под управлением центрального процессора. Установлено, что это приводит (несмотря на дополнительные затраты времени на пересылку данных в/из видеокарты) к существенному ускорению вычислений. Оптимизируемым является размер блока данных, который может определяться экспериментально для каждого типа видеокарты. Так, при выполнении БПФ по медленному времени (рис. 1) для рассматриваемых видеокарт оптимальным оказалось деление M = 4096 отсчетов по быстрому времени на блоки размером Mi = 128; 256 или 512 отсчетов (в зависимости от K). Это приводило к ускорению вычислений до трех раз, но сопровождалось дополнительной загрузкой центрального процессора.

Выводы

Реализация синтеза радиолокационных изображений с использованием современных видеокарт и технологии Cuda является одним из наиболее гибких и дешевых технических решений в этой области. Полученные результаты позволяют оценивать производительность и обоснованно выбирать технические средства для синтеза РЛИ в реальном масштабе времени, в том числе для обработки на борту носителя радиолокатора с синтезированием апертуры.

Список литературы

1. Груздов В.В., Колковский Ю.В., Криштопов А.В., Кудря А.И. Новые технологии дистанционного зондирования Земли из космоса. Москва: Техносфера; 2019.

2. Козлов С.В., Ле В.К. Алгоритмы длительного когерентного накопления отраженного сигнала при ненулевых высших производных дальности до радиолокационной цели в спектральной области. Доклады БГУИР. 2021;19(5):35-44.

3. Сандерс Дж., Кэндрот Э. Технология CUDA в примерах: введение в программирование графических процессоров. Москва: ДМК-Пресс; 2011.

4. Пантелеев А.Ю. Цифровая обработка сигналов на современных графических процессорах. Цифровая обработка сигналов. 2012;3:68-75.

References

1. Gruzdov V.V., Kolkovskij Yu.V., Krishtopov A.V.,Kudrya A.I. [New technologies for remote sensing of the Earth from space]. Moscow: Technosphere; 2019. (In Russ.)

2. Kozlov S.V., Le V.K. [Algorithms for long-term coherent accumulation of the reflected signal with non-zero higher derivatives of the range to the radar target in the spectral region]. Doklady BGUIR = Doklady BGUIR. 2021;19(5):35-44. (In Russ.)

3. Sanders J., Candrot E. [CUDA technology in examples: An introduction to GPU programming]. Moscow: DMK-Press; 2011. (In Russ.)

4. Panteleev A.Yu. [Digital signal processing on modern graphics processors]. Digital signal processing. 2012;3:68-75. (In Russ.)

Сведения об авторах

Козлов С.В., д.т.н., доцент, профессор кафедры информационных радиотехнологий Белорусского государственного университета информатики и радиоэлектроники.

Information about the authors

Kozlov S.V., D.Sc., Associate professor, Professor at the Information Radioengineering Department of the Belarusian State University of Informatics and Radioelectronics.

Адрес для корреспонденции

220013, Республика Беларусь,

г. Минск, ул. П. Бровки, 6,

Белорусский государственный университет

информатики и радиоэлектроники;

тел. +375-17-293-89-11;

e-mail: kozlov@bsuir.by

Козлов Сергей Вячеславович

Address for correspondence

220013, Republic of Belarus, Minsk, P. Brovki str., 6, Belarusian State University of Informatics and Radioelectronics; tel. +375-17-293-89-11; e-mail: kozlov@bsuir.by Kozlov Sergei Vyacheslavovich

i Надоели баннеры? Вы всегда можете отключить рекламу.