Научная статья на тему 'ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ ТЕНЗОРНЫХ ЯДЕР В ГЛУБОКОМ ОБУЧЕНИИ'

ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ ТЕНЗОРНЫХ ЯДЕР В ГЛУБОКОМ ОБУЧЕНИИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
15
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
глубокое обучение / тензорные ядра / DLSS / deep learning / tensor cores / DLSS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — А.С. Михайлов, Н.С. Захаров, М.Н. Фаворская

Рассмотрены возможности использования тензорных ядер в глубоком обучении, в частности применение данных ядер в технологии Deep Learning Super Sampling.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — А.С. Михайлов, Н.С. Захаров, М.Н. Фаворская

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROSPECTS FOR USING THE TENZOR CORES IN DEEP LEARNING

This paper discusses the possibilities of using tensor core in deep learning, in particular the use of these cores in Deep Learning Super Sampling technology.

Текст научной работы на тему «ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ ТЕНЗОРНЫХ ЯДЕР В ГЛУБОКОМ ОБУЧЕНИИ»

УДК 004.921

ПЕРСПЕКТИВЫ ИСПОЛЬЗОВАНИЯ ТЕНЗОРНЫХ ЯДЕР

В ГЛУБОКОМ ОБУЧЕНИИ

А. С. Михайлов, Н. С. Захаров Научный руководитель - М. Н. Фаворская

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газеты «Красноярский рабочий», 31

E-mail: striown@gmail.com, rasti_jobs@mail.ru

Рассмотрены возможности использования тензорных ядер в глубоком обучении, в частности применение данных ядер в технологии Deep Learning Super Sampling.

Ключевые слова: глубокое обучение, тензорные ядра, DLSS.

PROSPECTS FOR USING THE TENZOR CORES IN DEEP LEARNING

A. S. Mikhailov, N. S. Zakharov Scientific supervisor - M. N. Favorskaya

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation E-mail: striown@gmail.com, rasti_jobs@mail.ru

This paper discusses the possibilities of using tensor core in deep learning, in particular the use of these cores in Deep Learning Super Sampling technology.

Keywords: deep learning, tensor cores, DLSS.

В настоящее время технологии, использующие глубокое обучение, применяются повсеместно. Однако данные технологии являются ресурсоёмкими, поэтому для их комфортного использования требуются производительные аппаратные решения. Ведущей кампанией, предоставляющей аппаратные устройства, является NVIDIA.

Для решения задач, связанных с глубоким обучением, 20 августа 2018 года NVIDIA представила серию видеокарт GeForce RTX, в которую входят первые GPU на базе новой архитектуры NVIDIA Turing и платформы NVIDIA RTX, объединяющей шейдеры нового поколения с трассировкой лучей в реальном времени и новыми возможностями искусственного интеллекта.

Серия GeForce RTX 20 поддерживает трассировку лучей в реальном времени, которая реализована с помощью новых RT-ядер. Также данные GPU имеют Тензорные ядра, которые используются для операций глубинного обучения, в частности DLSS (Deep Learning Super Sampling).

Для формирования тестовой выборки DLSS извлекается большое количество кадров с применением определённого фильтра из компьютерных игр, а затем для каждого генерируется аналогичный эталонный кадр, использующий полноэкранное сглаживание на основе методов избыточной выборки или смешанного рендеринга. Эти парные кадры передаются суперкомпьютеру NVIDIA, который обучает нейронную сеть DLSS распознавать и генерировать высококачественные сглаженные изображения, которые максимально точно соответствуют эталонному кадру. Затем процесс повторяется, но на этот раз модель

Актуальные проблемы авиации и космонавтики - 2020. Том 2

обучается генерировать дополнительные пикселы вместо простого применения сглаживания, что позволяет повышать входное разрешение кадра. Объединение обоих методов даёт графическому процессору возможность выводить игру в максимально поддерживаемом монитором разрешении при более высокой частоте кадров [1].

Используя NGX (Neural Graphics Framework), глубокая нейронная сеть DLSS обучается на суперкомпьютере на базе NVIDIA DGX.

DLSS 2.0 имеет два основных входа в сеть AI (Artificial Intelligence):

- низкое разрешение, псевдонимы, отображаемые игровым движком;

- низкое разрешение, векторы движения из тех же изображений - также генерируются игровым движком.

Векторы движения передают, какие объекты направления в сцене перемещаются от кадра к кадру. Можно применить эти векторы к предыдущему результату высокого разрешения, чтобы оценить, как будет выглядеть следующий кадр. Этот процесс называется «временной обратной связью», поскольку используется история для предсказания последующего положения объектов.

Специальный тип AI-сети, называемый сверточным автоэнкодером, использует текущий кадр низкого разрешения и предыдущий кадр высокого разрешения, чтобы определять по частям, как генерировать текущий кадр более высокого качества.

В процессе обучения выходное изображение сравнивается с эталонным изображением 16K сверхвысокого качества, отображаемым в автономном режиме, и различия передаются обратно в сеть для улучшения результатов предсказания. Этот процесс повторяется на суперкомпьютере десятки тысяч раз, пока сеть не будет надежно выводить изображения высокого качества и высокого разрешения [1].

Как только сеть обучена, NGX доставляет модель AI на GeForce RTX ПК или ноутбук через драйверы Game Ready и обновления OTA (over-the-air). Благодаря тензорным ядрам, обеспечивающим до 110 терафлопс выделенной мощности ИИ, сеть DLSS может работать в режиме реального времени одновременно с интенсивной трехмерной игрой. Это было невозможно до появления тензорных ядер.

Тензорные ядра включены в графический процессор, что делает их пригодным не только для игровой индустрии, но и для использования в центрах обработки данных и рабочих станциях.

Высокопроизводительные вычисления (High Performance Computing, или HPC) являются основой для современной науки и применяются во множестве сфер деятельности: прогнозирование погоды, поиск нефтяных и газовых месторождений, разработка новых лекарств и т. д. - исследователи используют высокопроизводительные вычислительные системы для имитации окружающего мира и прогнозирования событий в нем.

Искусственный интеллект и нейросети расширяют традиционные применения HPC, позволяя анализировать большие объемы данных и быстро обучать ИИ, а симуляция не всегда может точно предсказать события в реальном мире. Решение усложняющихся задач искусственного интеллекта требует обучения все более сложных нейросетей, что занимает на существующих вычислительных системах очень большое количество времени. Сложность задач, поставленных перед ускорителями вычислений, постоянно растет, каждый год требуя большей производительности, и с этим одни CPU (Central Processing Unit) уже давно не справляются [2].

Потоковые мультипроцессоры SM (Streaming Multiprocessors) известны уже по нескольким поколениям вычислительных и графических процессоров компании NVIDIA. В архитектуре Volta были проведены очередные глобальные изменения и модификации, позволившие увеличить их производительность и эффективность. SM (Streaming Multiprocessor) новой модели имеет меньшие задержки для кэша и выполнения инструкций, по сравнению с предыдущими дизайнами SM, а также включает в себя совершенно новые

возможности для ускорения приложений искусственного интеллекта. Основные особенности мультипроцессоров Volta:

- новые тензорные ядра со смешанной точностью вычислений (FP16/FP32), предназначенные для матричных вычислений, используемых в задачах глубокого обучения;

- улучшенная кэш-память первого уровня с лучшей производительностью и сниженными задержками доступа;

- оптимизированный набор инструкций для упрощения декодирования и сокращения задержек при исполнении инструкций;

- специальные оптимизации для достижения высокой тактовой частоты и лучшей энергоэффективности.

Графический процессор архитектуры NVIDIA Volta имеет 640 тензорных ядер, каждое из которых выполняет 64 операции FMA (Fused Multiply-Add) со смешанной точностью за такт [3]. Это обеспечивает выполнение 125 терафлопсов в задачах обучения алгоритмам и выводам. Это означает, что разработчики могут запускать обучение алгоритмов глубокого обучения с использованием вычислений смешанной точности (FP16 и FP32). Это приводит к 3-кратному ускорению производительности по сравнению с архитектурой предыдущего поколения и сходимости ожидаемых уровней точности нейронных сетей. Такое 3-кратное увеличение производительности является ключевым достижением технологии тензорных ядер. Теперь вычисления для задач глубокого обучения занимают всего несколько часов.

Библиографические ссылки

1. NVIDIA DLSS 2.0: прорыв в рендеринге с ИИ [Электронный ресурс]. URL: https://www.nvidia.com/ru-ru/geforce/news/nvidia-dlss-2-0-a-big-leap-in-ai-rendering/ (дата обращения: 05.04.2020).

2. Ядра Tensor в архитектуре NVIDIA Volta [Электронный ресурс]. URL: https://www.nvidia.com/ru-ru/data-center/tensorcore/ (дата обращения: 05.04.2020).

3. Nvidia Volta: новая вычислительная архитектура [Электронный ресурс]. URL: https://www.ixbt.com/video4/nvidia-volta.shtml (дата обращения: 05.04.2020).

© Михайлов А. С., Захаров Н. С., 2020

i Надоели баннеры? Вы всегда можете отключить рекламу.