Научная статья на тему 'АНАЛИЗ ВИДЕОИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ ВЕКТОРНЫХ ПОТОКОВЫХ ПРОЦЕССОРОВ С ОБЩЕЙ ПАМЯТЬЮ'

АНАЛИЗ ВИДЕОИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ ВЕКТОРНЫХ ПОТОКОВЫХ ПРОЦЕССОРОВ С ОБЩЕЙ ПАМЯТЬЮ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
195
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВИДЕОАНАЛИТИКА / ВЕКТОРНЫЙ ПОТОКОВЫЙ ПРОЦЕССОР / СИСТЕМА НА КРИСТАЛЛЕ / СЕТЬ НА КРИСТАЛЛЕ / VIDEO ANALYTICS / VECTOR STREAM PROCESSOR / SYSTEM ON A CHIP / NETWORK ON A CHIP

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Беляев Андрей Александрович, Янакова Елена Сергеевна, Тюрин Александр Александрович, Мачарадзе Георгий Тамазьевич

Приводится схема реализации объединенного векторно-скалярного реконфигурируемого регистрового файла векторно-потоковых процессоров, позволяющая эффективно объединять векторные и скалярные инструкции, а также функциональные блоки, эффективно решая задачу обработки видеоинформации, включая и нейросетевыми алгоритмами. Приведены численные результаты запуска алгоритмов на ядрах ELcore-50, разработанные НПЦ «ЭЛВИС», объединенных NoC. Показано, что производительность в векторно-потоковых процессоров ограничена сложностью алгоритма по обращению к памяти (количество обращений к памяти, как функция от количества входных данных).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Беляев Андрей Александрович, Янакова Елена Сергеевна, Тюрин Александр Александрович, Мачарадзе Георгий Тамазьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

VIDEO INFORMATION ANALYSIS USING VECTOR STREAM PROCESSORS WITH COMMON MEMORY

The implementation scheme of the integrated vector-scalar reconfigurable register file of vector-stream processors is presented, which allows you to effectively combine vector and scalar instructions, as well as functional blocks, effectively solving the problem of processing video information, including neural network algorithms. The numerical results of running the algorithms on 16 ELcore-50 processors, developed by R&D Center «ELVEES» combined by NoC, are presented. It is shown that the performance in vector-stream processors is limited by the complexity of the memory access algorithm (the number of memory accesses as a function of the amount of input data).

Текст научной работы на тему «АНАЛИЗ ВИДЕОИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ ВЕКТОРНЫХ ПОТОКОВЫХ ПРОЦЕССОРОВ С ОБЩЕЙ ПАМЯТЬЮ»

CYBERA TTACKS ON DATA NETWORK PROTOCOLS V.E. Dement 'ev, A.A. Chulkov

The article analyzes cyber impacts on data network protocols, vulnerabilities, and mechanisms for their implementation. Threats and their implementation in relation to automated process control systems are considered as a separate vector. The statistics of impacts on the LDS proto-colas in various fields of their application are presented. The article is based on the task of identifying the signs of impacts and assessing the security of the SPD protocols in order to develop solutions for the development ofprotection measures. This study was conducted in order to substantiate the direction of development of a system for assessing the security of SPD in the context of cyber attacks.

Key words: identification, feature, Protocol, vulnerability, assessment, security, automation, automated process control systems.

Dement 'ev Vladislav Evgenevich, doctor of technical sciences, docent, dem-vlad@rambler. ru, Russia, Saint Petersburg, Military Academy of Communications Marshal of the Soviet Union S.M. Budyonny,

Chulkov Alexander Anatolevich, adjunct, sir.alexanderchulkovayandex.ru, Russia, Saint Petersburg, Military Academy of Communications Marshal of the Soviet Union S.M. Budyonny

УДК 004.932.2

АНАЛИЗ ВИДЕОИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ ВЕКТОРНЫХ ПОТОКОВЫХ ПРОЦЕССОРОВ С ОБЩЕЙ ПАМЯТЬЮ

А. А. Беляев, Е.С. Янакова, А. А. Тюрин, Г.Т. Мачарадзе

Приводится схема реализации объединенного векторно-скалярного реконфигу-рируемого регистрового файла векторно-потоковых процессоров, позволяющая эффективно объединять векторные и скалярные инструкции, а также функциональные блоки, эффективно решая задачу обработки видеоинформации, включая и нейросете-выми алгоритмами. Приведены численные результаты запуска алгоритмов на ядрах ЕЬсоге-50, разработанные НПЦ «ЭЛВИС», объединенных N00. Показано, что производительность в векторно-потоковых процессоров ограничена сложностью алгоритма по обращению к памяти (количество обращений к памяти, как функция от количества входных данных).

Ключевые слова: видеоаналитика, векторный потоковый процессор, система на кристалле, сеть на кристалле.

В последние годы наблюдается всё более активный рост различных сегментов рынка компьютерного зрения, начиная от систем безопасности и транспортных инфраструктур, заканчивая умными экосистемами, такими как умный город, тихий аэропорт, безопасный транспорт и другими. Усложнение алгоритмов машинного зрения приводит к новым требованиям к вычислительным устройствам и их подсистемам памяти.

Поток данных с телекамер содержит разную информацию, которую необходимо извлечь, применяя алгоритмы различно класса и назначения: начиная с алгоритмов предварительной обработки и декодирования, алгоритмов первичной обработки и классификации объектов, заканчивая аналитическими алгоритмами текущих событий и прогнозирования. Гетерогенный характер информации требует различных подходов к ее обработке, передаче от одного узла к другому. Некоторые этапы обработки увеличивают требуемый объем информации на носителе, в частности, декодирование, подготовка данных для фазового и спектрального анализа, некоторые - уменьшают. Гетерогенные данные, различные классы алгоритмов требуют различных предметно-ориентированных вычислителей и систем на их основе, которые ориентированы не только на обработку информации, но и на организацию эффективной коммуникационной среды.

В настоящее время на рынке представлено большое число серверов для обработки видеоинформации, реализованных на универсальных процессорах общего назначения (серверы на основе процессоров Intel [1]), или с использованием графических ускорителей, адаптированных для решения задач общего назначения (аппаратно-программные решения компании Nvidia [2]) и других решениях. Такие сервера для подключения аналоговых телекамер требуют специальных плат видео захвата, что ведет к увеличению энергопотребления серверов, а в случае совместного анализа событий с нескольких телекамер или синхронизации потоков с двух-, трехглазых камер приводит к разработке новых схем программно-аппаратной синхронизации видеопотоков. При использовании графических ускорителей возникает необходимость дополнительного копирования данных в DRAM GPU через PCIe интерфейс, которое влияет как на энергопотребление, так и на конечную стоимость аппаратных решений.

Для решения обозначенного круга задач НПЦ «ЭЛВИС» разработал гетерогенную СнК терафлопсного класса для цифровой обработки изображений и сигналов с целью применения в семантических видеосерверах. При проектировании и верификации устройства применялись современные подходы и методики, а также более чем десятилетний опыт создания систем и алгоритмов мультиспектрального компьютерного зрения Orwell [3].

Высокая эффективность по производительности и низкое энергопотребление достигается за счет использования проприетарных предметно-ориентированных вычислительных процессоров ELcore в составе СнК, которые содержат специальные аппаратные функции, предназначенные для ускорения алгоритмов анализа видеоинформации, а также специальные аппаратные решения, предназначенные для уменьшения операции копирования данных.

Целью данной работы является оценка разработанного решения для задачи анализа видеоинформации. Новые научные результаты связаны с аппаратными решениями, уменьшающими число операций копирования память-память, с построением стека программного обеспечения для гетерогенной СнК, позволяющее использовать существующие открытые программно-алгоритмические экосистемы и фреймворки с целью решения задачи анализа видеоинформации.

На основе разработанной СнК серии «Мультикор» терафлопсного класса НПЦ «ЭЛВИС» планирует выпустить линейку видеосерверов для безопасного анализа информации на российской платформе.

Аппаратное обеспечение семантических видеосерверов. В настоящее время специализированная фиксированная аппаратура (application-specific integrated circuit, ASIC) быстро устаревает, поэтому программируемая архитектура, сочетающая в себе гибкость с универсальностью наряду с высокой скоростью обработки и малой потребляемой мощностью, является наиболее приемлема для обозначенного круга задач.

Одной из особенностей приложений видеоаналитики является включение в себя, с одной стороны, массивно-параллельной обработки видеоданных, которая эффективно выполняется на процессорах с высокопараллельной векторной архитектурой, та-

ких, как GPU или DSP, и, с другой стороны, достаточно сложный последовательный код управления и анализа обрабатываемых данных, который с трудом поддается распараллеливанию, но при этом хорошо реализуется на RISC-процессорах.

Широко распространенным подходом к решению указанной проблемы является применение гетерогенных вычислительных систем на кристалле, в состав которых входят как процессорные IP-ядра для массивно-параллельной обработки (GPU или DSP), так и ядра RISC-процессоров. Примером может служить архитектура процессоров семейств OMAP и DaVinci фирмы Texas Instruments [4], в которых наряду с DSP-ядрами собственной разработки используются встраиваемые RISC-процессоры фирмы ARM.

Такой подход обладает определенными достоинствами и недостатками. Во-первых, необходимо обеспечить когерентность кеша всех вычислительных устройств и механизмом синхронизации исполнения программ на ядрах для потоковой обработки информации, который, в некоторых случаях, может приводить к ощутимым временным потерям. Во-вторых, узким местом подобных систем является синхронизация работы с памятью и подсистемой ввода/вывода информации. Однако, такие системы могут обеспечить обработку информации с низкой латентностью и низким энергопотреблением.

Следующим поколением СнК для анализа видеоинформации являются устройства серверного класса с поддержкой десятки видеоканалов. В этом случае высокие требования предъявляются к системе работы с памятью и системе коммуникаций между гетерогенными IP-ядрами (intellectual property) СнК. Такого класса устройство разработало НПЦ «ЭЛВИС», вычислительный кластер которого с периферийными устройствами представлен на рис. 1. Шестнадцать предметно-ориентированных процессорных IP-ядра БЬсоге-50, объединенные NoC (network on chip, сетью на кристалле), предназначены для высокоэффективной параллельной скалярной, векторной и тензорной обработки информации. Функциональность их учитывает современные тенденции в данной области и специфику решаемых прикладных задач. Целевыми задачами для ядра БЬ^те^О являются высокоинтенсивная сигнальная обработка и приложения мультиспектрального (радио-, инфра- и оптический каналы) компьютерного зрения.

Compute Cluster

L2

L2

DMA Engine

NAND FLASH

Low-speed Peripherals

PClex 16

1GbE

USB x 2

Peripherals

SATA x 2

L3

DDR x 4

Рис. 1. Гетерегенный СнК 1892ВМ248 серии «Мультикор»

В архитектуре процессорного IP-ядра ELcore-50 проблема эффективной обработки гетерогенной информации решается путем объединения в составе одного ядра двух тесно связанных между собой сопроцессоров - скалярного ELcore-50S и векторного ELcore-50V с использованием одного реконфигурируемого мультиформатного регистрового файла (рис. 2). Скалярный сопроцессор ELcore-50S представляет собой RISC-ядро и образует скалярный канал обработки данных, векторный сопроцессор ELcore-50V (или EVX - ELcore Vector extension) предназначен для выполнения векторных высоко параллельных вычислений, включая тензорные инструкции умножения

матриц и фильтрации. В составе одного УЫШ-пакета могут в различных сочетаниях выполняться скалярные, векторные и скалярно-векторные операции. Реконфигурируе-мый мультиформатный регистровый файл состоит из регистров общего назначения (ЯБ) и секционированного векторного регистрового файла (УБ). Реконфигурируемость обеспечивается за счет возможности использования векторных регистров УБ при выполнении скалярных инструкций и скалярных регистров ЯБ при выполнении векторных инструкций. Мультиформатность означает возможность использования регистров ЯБ и УБ в зависимости от инструкции для работы с различными форматами данных. Программы для скалярного и векторного каналов ЕЬеоге-50 записываются в виде единого потока инструкций и отлаживаются в рамках единой среды программирования и отладки. Тем самым обеспечивается единство программного кода и автоматическая синхронизация потоков обработки в скалярном и векторном каналах.

Рис. 2. Функциональная схема структура ядра ELcore-50

Программы для скалярного и векторного каналов процессорного ядра ELcore-50 выполняются одновременно. Это достигается с помощью VLIW-распараллеливания, которое предполагает одновременное выполнение на каждом такте работы процессора нескольких инструкций, которые записываются в программном коде в виде длинного командного слова (VLIW - very long instruction word). Архитектура процессорного ядра ELcore-50 поддерживает одновременное исполнение до четырёх скалярных и до четырёх векторных инструкций - всего до восьми инструкций на каждом такте. Каждая инструкция кодируется 32-разрядным командным словом. Таким образом, размер длинного командного слова, извлекаемого на каждом такте из программной памяти ядра ELcore-50, кратен 32 и составляет от 32 до 256 разрядов. В каждом 32-разрядном командном слове имеется 1-битовое кодовое поле, указывающее на то, является ли данное командное слово последним во VLIW-пакете.

Применение такого VLIW-распараллеливания, с одной стороны, значительно повышает производительность обработки данных, и, с другой стороны, обеспечивает строгую синхронизацию работы скалярного и векторного каналов.

Хотя исходные обрабатываемые изображения обычно бывают представлены массивами данных в целочисленном байтовом формате, сложные алгоритмы видеоаналитики часто требуют для их реализации использования значительно более точных форматов представления данных, в частности, 32-разрядных и даже 64-разрядных форматов с фиксированной и плавающей точкой. Кроме того, алгоритмы обработки видео-

данных постоянно эволюционируют, и, как правило, в сторону усложнения. Это означает, что для обеспечения конкурентоспособности процессор, ориентированный на приложения интеллектуальной обработки видеоданных, должен поддерживать высокопроизводительные вычисления для всего спектра форматов представления данных, как с фиксированной, так и с плавающей точкой.

Процессорное ядро ELcore-50 обеспечивает высокопроизводительные вычисления в 8/16/32/64-разрядных форматах с фиксированной точкой и в 16/32/64-разрядных форматах с плавающей точкой (соответственно half/single/double float). Вычисления в форматах с плавающей точкой соответствуют стандарту IEEE-754.

SIMD-распараллеливание (SIMD - single instruction, multiple data) широко применяется в современных процессорах для повышения производительности при выполнении параллельной обработки однородных данных. В векторном канале IP-ядра ELcore-50 распараллеливание SIMD-типа реализовано на двух уровнях: а) на уровне векторного канала, который состоит из восьми параллельно работающих 64-разрядных SIMD-секций, так что полная длина обрабатываемых векторов составляет 512 бит; б) на уровне SIMD-секций, в которой все 64-разрядные операнды представляют собой вектора, количество компонент в которых определяется форматом обрабатываемых данных (либо одна 64-разрядная компонента, либо две 32-разрядных компоненты, либо четыре 16-разрядных компоненты, либо восемь 8-разрядных компонент).

Применение всех указанных видов распараллеливания при выполнении вычислительно интенсивных операций (таких, как свёртка или произведение матриц) позволяет достигать экстремально высокой скорости вычислений. Например, в формате half float операция умножения двух матриц с накоплением выполняется ядром ELcore-50 со скоростью 1024 элементарных вычислительных операций (умножений и сложений) за 1 такт. При тактовой частоте работы ядра 1 ГГц его производительность при выполнении этой операции составляет 1 TFLOPS. В форматах single float и double float пиковая производительность ядра ELcore-50 при указанных условиях составляет соответственно 256 GFLOPS и 64 GFLOPS.

Таким образом, объединение результатов векторных и скалярных операций внутри одного реконфигурируемого мультиформатного регистрового файла позволяет повысить эффективность вычислительных алгоритмов обработки видеоинформации, а масштабируемостью процессорных ядер и объединение их NoC в составе СнК позволяет достичь результатов по производительности соизмеримых с зарубежными аналогами. Наиболее эффективными по производительности инструкциями и алгоритмами на их основе являются умножение матриц и свертка, что довольно часто применяются для решения системы линейных уравнений, в составе сверточных нейронных сетей (CNN, Convolutional neural network) и алгоритмов машинного обучения.

Программное обеспечение семантических видеосерверов. Программная инфраструктура представляет собой иерархию программных решений (рис. 2) - от низкоуровневых (драйвер ELcore-50) до высокоуровневых (OpenCL), API которых могут использовать пользовательские приложения.

Приложение

OpenCL

OpenVX

OpenMP

Операционная система Linux

Driver ELcore-50 driver GPU driver |

CPU N х ELcore-50 GPU

Рис. 2. Программный стек СнК серии «Мультикор»

Драйвер ELcore-50, являясь частью ОС Linux, предоставляет следующий функционал:

выбор размера страниц памяти: в ряде случаев использование больших страниц (huge pages) может дать существенный выигрыш по производительности за счет уменьшения общего количества страниц в системе и повысить вероятность попадания в TLB кэш и тем самым уменьшить число обращений во внешнюю память;

постановка задания в очередь на исполнение на ELcore-50: настройка виртуальных адресов секций; настройка кэша первого и второго уровня; настройка управляющих регистров; передача аргументов и запуск самого ядра ELcore-50. установка таймаута для заданий; ожидание выполнения задания на ELcore-50.

Система команд ядра ELcore-50 разработана с учётом аппаратной поддержки стандарта OpenVX [6], основная задача которого - ускорение алгоритмов обработки потока видеокадров и изображений. Для поддержания такого стандарта реализован ориентированный граф, вершинами которого являются простейшие функции - kernels. Каждая функция - это операция обработки изображения, например, GaussianBlur, BaseColumnFilter, Laplacian и многие другие. Форма представления в виде графа операций позволяет производить распараллеливание вычислений на уровне данных. Вместе со стандартом OpenVX поддерживается интерфейс tilling extension, назначением которого является разбиение изображения на более мелкие модули для эффективного хранения в иерархии памяти ядра, а также выполнения одной операции на нескольких изображениях одновременно.

Технология OpenCL обеспечивает поддержку, доступ и управление гетерогенными IP-ядрами в одном программном приложении, тем самым являясь эффективным средством гибридного программирования гетерогенных СнК. В данном контексте ELcore-50 является OpenCL-устройством, которое обладает определенными преимуществами для обработки мультимедийных данных. Каждое OpenCL-устройство может в реальном времени обслуживать не менее одного видеопотока данных, тем самым осуществлять семантическую обработку данных с использованием алгоритмов машинного обучения, включая и нейросетевые алгоритмы. В общем случае порядок работы с библиотекой OpenCL выглядит следующим образом:

получить список доступных платформ и устройств с помощью функций clGetPlatformIDs() и clGetDeviceIDS();

создать контекст для списка устройств и очередь команд для заданного контекста с помощью функций clCreateContext() и clCreateCommandQueue();

создать программу для контекста с помощью группы функций clCreateProgram * ();

создать основную функцию (kernel) для ELcore-50 с помощью функции clCreateKernel();

передать созданному kernel аргументы с помощью clSetKernelArg. В случае глобальных аргументов необходимо сначала выделить буфер в глобальной памяти с помощью функций clBufferCreate() или clDMABufferCreate();

запустить на исполнение kernel с помощью функции clEnqueueNDRange Kernel();

дождаться завершения kernel, используя функцию clWaitForEvents(). Таким образом, создана программная инфраструктура для гетерогенных СнК серии «Мультикор», позволяющая реализовывать функции семантического анализа видеоинформации, включая алгоритмы машинного обучения с использованием аппарата искусственных нейронных сетей, обеспечивая многоканальную обработку в реальном времени.

Результаты экспериментальных исследований. В настоящее время известны топологии нейросетевых алгоритмов с установленными характеристиками. Для классификации изображений довольно часто применяют такие сверточные нейросетевые

алгоритмы как GoogleNet, ResNet-50, VGG16. Сверточные нейронные сети (СНС) считаются наиболее подходящими для классификации изображений, поскольку они улавливают шаблоны в небольших частях изображения, таких как бровь или изгиб губы при распознавании лица. Нейросетевая модель VGG-16 представляет собой одну из современных архитектур для сверточных нейронных сетей, с 16 уровнями сверточных и полносвязных слоев и с чрезвычайно однородной архитектурой. ResNet50 (Residual Network - остаточная сеть) - еще одна современная сверточная архитектура нейронной сети. По архитектуре аналогична таким сетям как VGG-16, но с соединениями быстрого доступа. Модель нейросети GoogleNet - победитель конкурса ILSVRC 2014 с ошибкой 6,67 % с архитектурой СНС, состоящей из 22 сверточных слоев.

Для решения задач машинного обучения разработаны библиотека оптимизированных низкоуровневых примитивов (ELcore DNN), реализован низкоуровневый интерфейс для взаимодействия с фреймворками глубокого обучения, предоставлен фреймворк для запуска предварительно обученной сети (ELVEES RT), а также обеспечивается экспорт моделей в формате ONNX и NNEF. Инструментальное средства позволяют выполнить полный цикл разработки и отладки, в состав которых входит компилятор C/C++ актуальных стандартов для ядер MIPS64r6 и для ядер цифровой обработки сигналов ELcore50. Программное обеспечение для ELcore50 разрабатывается с использованием языков программирования C\C++, частично оптимизируется на ассемблере или посредством Intrinsics.

Экспериментальные исследования выполнялись на FPGA прототипе процессора 1892ВМ248 с использованием двух Virtex UltraScale VU440, состоящих из 26 миллионов вентилей каждый. Частота прототипа - 5 МГц, в котором эмулировалась работа четырех ELcore50 в составе кластера Quelcore, NoC, а также служебных подсистем. Результаты, представленные в табл. 1, отмасштабированы согласно ожидаемой частоте ядер ELcore-50 и их количеству с учетом влияния накладных расходов при использовании разделяемых ресурсов. Результаты показали, что шестнадцать ядер ELcore-50 платформы «МУЛЬТИКОР» на частоте 1 ГГц в 1,9 - 2,6 раз превышают по производительности 2х28 ядер процессора Intel Platinum 8180.

Полученные положительные результаты достигаются за счет объединения результатов векторных и скалярных операций внутри одного реконфигурируемого муль-тиформатного регистрового файла, тем самым уменьшая коммуникационные обмены, и введения специализированных векторных команд, направленных на повышение эффективности выполнения операций свертки и умножения матриц. Ядро функции умножения матриц {H, F, D}GEMM на ядре ELcore50 выполняется с 95% эффективностью по отношению к пиковой производительности.

Таблица 1

Производительность 16ядер ЕЬсоге-50 с частотой 1 ГГц _на задачах компьютерного зрения_

Методы NVIDIA Tesla V1001 [9] 16 ядер ELcore-50, 1 ГГц 2 x Intel Platinum 8180 [10]

Файлов в секунду (frames per seconds, FPS)

GoogleNet 5140 1570 814

ResNet-50 3308 610 226

VGG-16 2044 390 150

Примечание: 1 - без учета влияния тензорных ядер

Другой класс задач компьютерного зрения являются алгоритмы распознавания лиц, которые относятся к наиболее сложным и ресурсоемким алгоритмам по вычислительному критерию, поэтому производители современных вычислительных аппаратных платформ используют алгоритмы подобно класса в качестве тестов производи-

тельности и анализа архитектурных решений вычислительных узлов. К алгоритмам распознавания лиц относят следующий набор задач [7-8]: обнаружение и сопровождение лица, обнаружение антропометрических точек, выравнивание лица, определение признаков лица для его идентификации и верификации, анализ эмоций возраста и пола. Результаты работы алгоритмов распознавания лиц на ядре ЕЬеоге-50 представлены в табл. 2.

Таблица 2

Результаты работы алгоритмов распознавания лиц на ядре ЕЬеоге-50*

№ Алгоритм Тип алгоритма Время на 1хЕЬеоге-50, 1 ГГц, мс Время на 1х ЕЬеоге-50, 1 ГГц, ГРБ

1 Обнаружение лица Дерево решений 3,6 278

2 Подтверждение обнаруженного лица Нейронная сеть 0,02 33210

3 Определение антропометрических точек Дерево решений 9 111

4 Сопровождение лица Компл. алгоритм 13 76

5 Формирование характеристик для идентификации и верификации Нейронная сеть 4,74 168

6 Анализ эмоций Нейронная сеть 0,20 4232

7 Анализ возраста Нейронная сеть 0,40 2001

8 Анализ пола Нейронная сеть 0,20 4022

7 Итого: 31,16 32

Примечание: * размер кадра составляет 256x384 пикселей.

Заключение. Предложенное российское программно-аппаратное решение на основе СнК 1892ВМ248 в виде семантических видеосерверов с поддержкой алгоритмов машинного обучения является предметно-ориентированным конкурентным решением на международном рынке. Такое решение предназначено для систем с искусственным интеллектом, в составе которых используют «умные» камеры и семантические сервера для современных экосистем безопасности, транспортной инфраструктуры и других.

Основным вычислительным узлом семантических видеосерверов является гетерогенная система на кристалле серии «Мультикор», разработанная в АО НПЦ "ЭЛВИС", состоящая из вычислительных ядер как общего, так и специального назначения (ЕЬеоге-50), для решения узкоспециализированных задач семантического анализа, что позволяет достигать наиболее эффективной работы с большими данными в задачах видеоаналитики и компьютерного зрения, включая нейросетевые алгоритмы.

Аппаратное обеспечение предметно-ориентированных ядер ЕЬеоге-50 специально разработана для обработки потоковых данных, и пиковая производительность одного ядра при частоте 1 ГГц достигает 1 ТЬЬОРБ в 16-битной арифметике. Стек программного обеспечения для гетерогенных СнК поддерживает такие технологии гетерогенного программирования как ОрепСЬ, ОрепУХ и другие, и построен таким образом, что позволяет эффективно реализовывать функции семантического анализа видеоинформации, обеспечивая многоканальную обработку в реальном времени.

Авторы считают, что в данной работе новыми являются: схема и принцип работы реконфигурируемого мультиформатного регистрового файла, стек программного обеспечения СнК 1892ВМ248, а также результаты экспериментальных исследований с использованием каскадных и нейросетевых алгоритмов. Совокупность программных и аппаратных решений позволяет решать задачи видеоаналитики с использованием предметно-ориентированных ядер ЕЬеоге50 с высокой эффективностью.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Список литературы

1. Официальный сайт компании Intel. [Электронный ресурс] URL: https:// www.intel.com (дата обращения: 10.10.2020).

2. Официальный сайт компании Nvidia. [Электронный ресурс] URL: https://www.nvidia.com (дата обращения: 10.10.2020).

3. Система видеонаблюдения с компьютерным зрением Orwell-2k. [Электронный ресурс] URL: https://elveesneotek.ru/products/orwell-2k.php (дата обращения: 10.10.2020).

4. C6000TM multicore DSP + Arm® SoC. [Электронный ресурс] URL: http://www.ti.com/processors/digital-signal-processors/c6000-dsp-arm/overview.html (дата обращения: 10.10.2020).

5. Neon [Электронный ресурс] URL: https://developer.arm.com/architectures/ instruction-sets/simd-isas/neon (дата обращения: 10.11.2019).

6. Portable, power-efficient vision processing. [Электронный ресурс] URL: https://www.khronos.org/openvx (дата обращения: 10.10.2020).

7. Янакова Е.С., Леонтьев А.В., Шершаков А.В., Рыбальченко Н.Ф. Семантические процессоры серии «Мультикор» для анализа эмоционального состояния человека // Вопросы радиоэлектроники. 2019. (8). С. 57-63.

8. Yanakova E., Ishkova T., Belyaev A., Koldaev V., Kolobanova M. Facial Recognition Technology on ELcore Semantic Processors for Smart Cameras // IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering, 2019 (EIConRus-2019). C.1848 - 1851.

9. NVIDIA AI inference platform. Technical overview. [Электронный ресурс] URL: https:// www. nvidia. com/ content/ dam/ en-zz/ Solutions/ Data-Center/ tesla-product-literature/t4-inference-print-update-inference-tech-overview-final.pdf (дата обращения: 10.10.2020).

10. Сравнение производительности разных топологий CNN, CNN-benchmark [Электронный ресурс] URL: https://github.com/jcjohnson/cnn-benchmarks (дата обращения: 10.10.2020).

Беляев Андрей Александрович, д-р техн. наук, начальник научно-технического отдела, helaelvees.com, Россия, Москва, АО НПЦ «ЭЛВИС»

Янакова Елена Сергеевна, д-р техн. наук, ведущий научный сотрудник, helenaelvees.com, Россия, Москва, ОАО НПЦ «ЭЛВИС»

Тюрин Александр Александрович, ведущий разработчик, alex. tyurin1420@, gmail.com, Россия, Москва, АО «РАА «Спецтехника»

Мачарадзе Георгий Тамазьевич, ведущий разработчик, gmacharadze a elvees.com, Россия, Москва, АО НПЦ «ЭЛВИС»

VIDEO INFORMATION ANALYSIS USING VECTOR STREAM PROCESSORS

WITH COMMON MEMORY

A.A. Belyaev, E.S. Yanakova, A.A. Tiurin, G.T. Macharadze

The implementation scheme of the integrated vector-scalar reconfigurahle register file of vector-stream processors is presented, which allows you to effectively combine vector and scalar instructions, as well as functional blocks, effectively solving the problem of pro-

262

cessing video information, including neural network algorithms. The numerical results of running the algorithms on 16 ELcore-50 processors, developed by R&D Center «ELVEES», combined by NoC, are presented. It is shown that the performance in vector-stream processors is limited by the complexity of the memory access algorithm (the number of memory accesses as a function of the amount of input data).

Key words: video analytics, vector stream processor, system on a chip, network on a

chip.

Belyaev Andrey Aleksandrovich, doctor of technical sciences, head of scientific and technical department, bel@,elvees.com, Russia, Moscow, JSC SPC «ELVIS»

Yanakova Elena Sergeevna, doctor of technical sciences, leading researcher, helen@,elvees.com, Russia, Moscow, JSC SPC «ELVIS»

Tyurin Alexander Alexandrovich, lead developer, alex. tyurin1420@,gmail.com, Russia, Moscow, JSC «RAA «Spetstekhnika»

Macharadze Georgy Tamazievich, lead developer, gmacharadze@,elvees. com, Russia, Moscow, JSC SPC «ELVIS»

УДК 004.627

ПРИМЕНЕНИЕ ГИБРИДНОГО ПРЕОБРАЗОВАНИЯ В ВИДЕОКОДЕКЕ СТАНДАРТА HEVC

Т.Б. Доан, А.А. Тропченко

В этой статье предлагается гибридное преобразование, которое объединяет исходный DCT в HEVC и DCT-SQ с очень низким требуемым количеством операций. Результаты моделирования и реализации доказывают, что предлагаемая пара преобразований отличается снижением сложности по сравнению с исходным преобразованием в HEVC со средней потерей производительности на уровне искажения 3,69% для наихудшего случая.

Ключевые слова: HEVC, сжатие видеоданных, гибридный алгоритм, преобразование.

В связи с постоянно растущим спросом на видео высокой четкости, особенно для интеллектуальных портативных устройств, устройств безопасности и наблюдения, автомобильную промышленность и т.д., эффективная компрессия видео стала популярной областью исследований в последние несколько лет. Самый последний международный стандарт кодирования видео H.265 / HEVC (от англ. High Efficiency Video Coding) [1] был разработан с целью обеспечения удвоенной эффективности сжатия предыдущего стандарта H.264 / AVC (Advanced Video Coding) [2]. Для достижения этой эффективности было введено большое количество новых инструментов кодирования, таких как рекурсивная древовидная структура блоков кодирования, новые режимы внутрикадрового и межкадрового предсказания, блок преобразования с большими

263

i Надоели баннеры? Вы всегда можете отключить рекламу.