Научная статья на тему 'ОБЗОР СОВРЕМЕННЫХ НЕЙРОСЕТЕВЫХ МЕТОДОВ СЖАТИЯ ДЛЯ ЗАДАЧИ ОБРАБОТКИ ИЗМЕРИТЕЛЬНЫХ ДАННЫХ'

ОБЗОР СОВРЕМЕННЫХ НЕЙРОСЕТЕВЫХ МЕТОДОВ СЖАТИЯ ДЛЯ ЗАДАЧИ ОБРАБОТКИ ИЗМЕРИТЕЛЬНЫХ ДАННЫХ Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
80
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
сжатие данных / нейронные сети / трансформер / рекуррентные нейронные сети / долгая краткосрочная память / генеративно-состязательная сеть / вариационный автокодировщик / data compression / neural networks / transformer / recurrent neural networks / long short-term memory / generative adversarial network / variational autoencoder

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Богачев И. В., Булканов Д. Е.

В статье рассмотрены нейросетевые методы сжатия данных как с потерями, так и без потерь. Детально описаны принципы работы и обучения следующих архитектур: трансформер, рекуррентные нейронные сети с «долгой краткосрочной памятью», автокодировщик типа «бутылочное горлышко», вариационный автокодировщик и генеративно-состязательная сеть. Проведено сравнение эффективности их работы с классическими алгоритмами сжатия и сделан вывод о потенциале и перспективах их применения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Богачев И. В., Булканов Д. Е.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Review of Modern Neural Network Compression Methods for the Task of Processing Measurement Data

In the article, the authors consider neural network methods of data compression, both lossy and lossless. The principles of operation and training of the following architectures are described in detail: transformer, recurrent neural networks with “long short-term memory”, bottleneck autoencoder, variational autoencoder and generative adversarial network. The efficiency of their work has been compared with classical compression algorithms and a conclusion has been made about the potential and prospects of their application.

Текст научной работы на тему «ОБЗОР СОВРЕМЕННЫХ НЕЙРОСЕТЕВЫХ МЕТОДОВ СЖАТИЯ ДЛЯ ЗАДАЧИ ОБРАБОТКИ ИЗМЕРИТЕЛЬНЫХ ДАННЫХ»

СИСТЕМНЫЙ АНАЛИЗ, УПРАВЛЕНИЕ И ОБРАБОТКА ИНФОРМАЦИИ, СТАТИСТИКА

УДК 004.032.26 DOI https://doi.org/10.38161/1996-3440-2024-2-83-92

И. В. Богачев, Д. Е. Булканов

ОБЗОР СОВРЕМЕННЫХ НЕЙРОСЕТЕВЫХ МЕТОДОВ СЖАТИЯ ДЛЯ ЗАДАЧИ ОБРАБОТКИ ИЗМЕРИТЕЛЬНЫХ ДАННЫХ

Богачев И. В. - канд. техн. наук, доцент Высшей школы кибернетики и цифровых технологий, ТОГУ, e-mail: [email protected]; Булканов Д. Е. - студент Высшей школы кибернетики и цифровых технологий, ТОГУ, e-mail: [email protected]

В статье рассмотрены нейросетевые методы сжатия данных как с потерями, так и без потерь. Детально описаны принципы работы и обучения следующих архитектур: трансформер, рекуррентные нейронные сети с «долгой краткосрочной памятью», автокодировщик типа «бутылочное горлышко», вариационный автокодировщик и генеративно-состязательная сеть. Проведено сравнение эффективности их работы с классическими алгоритмами сжатия и сделан вывод о потенциале и перспективах их применения.

Ключевые слова: сжатие данных, нейронные сети, трансформер, рекуррентные нейронные сети, долгая краткосрочная память, генеративно-состязательная сеть, вариационный автокодировщик.

Введение

В связи с ростом объемов передаваемых по коммуникационным сетям данных, которые генерируются каждый день различными объектами телемет-рирования и пользователями сети интернет, проблема их эффективного хранения и передачи становится критически важной. При этом привычные алгоритмы сжатия, в основе которых лежит модель избыточности, определяющая по каким правилам будут сжиматься данные, достигли предела коэффициента сжатия из-за некоторых характерных для них ограничений [1].

Использование нейросетевых методов сжатия данных может значительно уменьшить размеры хранимой и передаваемой информации, не сказываясь при этом на качестве результата. Увеличение эффективности происходит за счет возможности искусственных нейронных сетей (ИНС) искать сложные зависимости среди сжимаемых данных, также они позволяют распределять вероятности, вследствие чего можно эффективнее использовать, например, арифметическое кодирование [2].

© Богачев И. В., Булканов Д. Е., 2024

ВЕСТНИК ТОГУ. 2024. № 2 (73)

ВЕСТНИК ТОГУ. 2024. № 2 (73)

Обзор нейросетевых методов сжатия с потерями

1. «Бутылочное горлышко». Автокодировщики содержат входной слой кодировщик и выходной слой декодер, которые имеют одинаковую размерность [3]. Тип «Бутылочное горлышко», имеет меньший внутренний слой по сравнению с входным, что помогает выделить зависимости из данных [4].

Идея сжатия с помощью такой нейронной сети заключается в обучении ее для реализации карты идентичности. Тогда количество данных, поданное на вход, уменьшится в скрытом слое. Затем скрытый слой передает данные на выходной слой, который повторяет данные на входе.

Для задач сжатия такую нейронную сеть можно разделить на две части: кодер и декодер. В таком случае кодер будет содержать большой входной слой и меньший выходной, а декодер, наоборот, будет иметь меньший входной слой и больший выходной.

Но несмотря на то, что количество узлов в скрытом слое может быть в разы меньше, но сжатие произойдет только после квантования данных, так как узлы скрытого слоя будут иметь значения от -1 до 1, то для передачи таких значений может потребоваться бесконечное количество бит.

Для обучения используется метод обратного распространения ошибки, который в процессе работы минимизирует ошибку. Поскольку на выходе необходимо получить то же, что на входе, эти пары последовательностей и будут использоваться для обучения.

2. «Вариационный автокодировщик (VAE)». Вариационный автокодировщик - это тип генеративной модели, которая использует априорное и апостериорное распределения для обучения. Обычно такие модели обучаются с помощью алгоритма максимизации ожидания, такого как вероятностное PCA или разреженное кодирование. Этот подход позволяет оптимизировать нижнюю границу вероятности данных [5].

Как и все автокодировщики, сеть можно разделить на кодировщик и декодер. Кодировщик принимает на вход данные и отображает известное входное пространство в скрытое пространство. Декодер отображает скрытое пространство во выходном пространстве.

Для задач сжатия с потерями необходимо квантовать выходные данные кодировщика. Квантование применяется и при обучении сети, что позволяет получить дискретный алфавит и, следовательно, энтропийное кодирование. При реализации такого обучения используется равномерный шум для моделирования ошибок квантования.

Архитектура «QARV» решает задачу сжатия изображений с потерями [6]. Модель принимает на вход изображение и множитель Лангранжа, который обеспечивает выбор между скоростью или искажениями. Для извлечения иерархии признаков изображения используется сверточная нейронная сеть (CNN). Признаки выделяются так, чтобы они были меньшей размерности, чем изображение. В этой модели признаки уменьшаются в 4, 8, 16, 32 и 64 раза. Эти признаки передаются в латентные переменные Z в блоке декодера. Каждая

ОБЗОР СОВРЕМЕННЫХ НЕИРОСЕ ТЕВЫХ МЕ- -

ТОДОВ СЖАТИЯ ДЛЯ ЗАДАЧИ ОБРАБОТКИ ИЗ- ВЕСТНИК! ТОГУ. 2024. № 2 (73)

МЕРИТЕЛЬНЫХ ДАННЫХ

латентная переменная генерирует отдельную последовательность битов, коллекция которых формирует выходной поток битов.

Для декодирования изображения достаточно подать сжатый поток битов в декодер. Биты последовательно проходят через блок латентных переменных и слои расширения, в результате получается восстановленное изображение. При таком подходе декодирование проходит быстрее, чем кодирование, так как блок выделения признаков в декодировании не используется.

Такая сеть рассчитана на изображения, разрешение которых кратно 64. Если изображение не подходит по это условие, то оно дополнится на этапе кодирования и обрежется на этапе декодирования.

3. «Генеративно-состязательная сеть GANs». Генеративно-состязательная сеть (GAN) состоит из двух моделей. Первая модель генеративная, она генерирует отражение распределение данных. Вторая дискриминативаня, она пытается определить принадлежат ли образцы обучающим данным или они сгенерированы. Процедура обучения генеративной модели состоит в том, чтобы диксриминативная модель допускала ошибки [7].

Идея сжатия такими сетями заключается в том, чтобы сгенерировать изображение по его сжатому отображению оригинала. Проблемой применения такого способа является то, что при увеличении коэффициента сжатия происходит не размытие (например, как в JPEG2000), а изменение содержания изображения, из-за чего изображение может быть не похожим на оригинал [8, 9]. Однако, при сжатии видео получилось добиться максимальной правдоподобности, за счет предсказания последующих кадров по предыдущим. Для этого синтезируется реалистичные детали в первом кадре. Далее эти детали распространяются на как можно большее количество кадров. Если в кадре появляются новые элементы, то они так же синтезируются [10].

Для обучения сети декодера используется глубокое обучение DCGAN. Сеть кодировщика обучается минимизировать некоторые потери. Также используется квантование латентных векторов, что приводит к улучшению сжатия [8].

Обзор нейросетевых методов сжатия без потерь

1. «Трансформер». Трансформер - модель, в которой отсутствует рекуррентность. Архитектура опирается на механизм внимания, который позволяет определять зависимости между входом и выходом. Она состоит из стека кодеров и стека декодеров [11, 12].

Кодер состоит из двух слоев. Слой внутреннего внимания позволяет анализировать все входные данные при кодировании одного блока. Сеть прямого распространения применяется к каждой позиции отдельно, эта сеть состоит из двух линейных преобразований с активацией ReLU между ними. Функция возвращает 0 при отрицательных входных значениях, а при положительных повторяет их.

Декодер содержит те же слои, что и кодер, но между ними добавлен слой внимания, который обрабатывает выход кодеров. Также модифицируется слой

ВЕСТНИК ТОГУ. 2024. № 2 (73)

внутреннего внимания, чтобы сеть не охватывала вниманием выходные данные декодера.

Функция внимания может быть описана как отображение запроса и набора пар ключей на выход, где запрос, ключи, значения и выход - это векторы. Выходные данные вычисляются как взвешенная сумма значений, где вес, присвоенный каждому значению, вычисляется функцией совместимости запроса с соответствующим ключом.

Чтобы оптимизировать работу системы архитектура может быть дополнена механизмом множественного внимания, что повышает способность модели фокусироваться на разных позициях, а также позволяет параллельно обрабатывать входные данные.

Для передачи последовательности данных их необходимо преобразовать в векторы размерности Также используется линейное преобразование и функция softmax, которая преобразовывает входной вектор в вектор вероятностей с суммарным значением 1, что нужно для предсказания вероятностей следующей последовательности.

Так как модель не содержит рекурсий и свертки, необходимо ввести некоторую информацию о положении лексем последовательности. Для этого вводятся «позиционные кодировки», которые позволят придать «вес» лексемам в зависимости от их положения. Основными видами задания позиционной кодировки являются: обучаемый вид и фиксированный вид. В стандартной модели трансформера используются функции синуса и косинуса.

2. «Рекуррентные нейронных сети (ЯХК) с LTSM». Рекуррентные нейронные сети с долго-краткосрочной памятью (Ц^М) - это разновидность рекуррентных ИНС, способная формировать долговременные зависимости [13]. Идея сжатия такими сетями заключается в следующем: нейронная сеть формирует данные с помощью условного распределения вероятностей и далее к этим данным применяется арифметическое кодирование [14].

Есть множество архитектур такого типа, решающих задачу сжатия без потерь. Ранние модели были нацелены для сжатия текста, и им требовалось много времени на обучение. Рассмотренные далее модели позволяют сжимать данные различных форматов и при этом требуют меньше времени на обучение.

Одной из эффективных моделей является модель «СМ1Х» [15], предназначенная предсказания вероятности каждого бита с использованием ансамблевого обучения. При таком подходе несколько моделей обучаются для решения одной задачи, а объединение их выходных данных дает более точный результат [16]. Ь8ТМ-миксер позволяет учитывать историю и формировать контекст. Предсказания вероятностей объединяются в одну вероятность через алгоритм смешивания контекстов [17]. Для уточнения результата используется метод косвенной оценки вторичного символа (ISSE) [18].

В версии «СМ1Х у20» объединено 2090 моделей. Некоторые из них нацелены на работу с определенными типами данных. Для каждого бита входных

ОБЗОР СОВРЕМЕННЫХ НЕИРОСЕ ТЕВЫХ МЕ- -

ТОДОВ СЖАТИЯ ДЛЯ ЗАДАЧИ ОБРАБОТКИ ИЗ- ШЛНИК таге 2024 № 2 С73;)

МЕРИТЕЛЬНЫХ ДАННЫХ

данных каждая модель выводит десятичное число, представляющее вероятность того, что следующий бит будет равен 1. Вероятности передаются в Ь8ТМ-миксер, который может запоминать результат предыдущего шага и передавать его в последующий. Этот миксер обучают с помощью метода «Обратное распространение ошибки во времени» [19].

Для смешения контекстов используется закрытая линейная сеть [20]. На вход миксера контекстов подается результаты ансамбля моделей LSTM-мик-сера, а также данные со входа. Каждый нейрон контекстного миксера пытается минимизировать перекрестную энтропию. Входные данные для каждого нейрона (значения от 0 до 1) преобразуются с помощью функции \ogit. Для каждого прогноза активируется лишь небольшое подмножество нейронов, и это активация основана на функции истории ввода. Для каждого контекста активируется один нейрон. Эти контекстно-зависимые активации улучшают прогнозирование и снижают сложность вычислений.

Перед выводом сжатых данных проводится их уточнение. Уточнение происходит с помощью истории битов, которые используются в качестве контекста для выбора пары весов для миксера с двумя входами, принимающего входное предсказание и фиксированную констант.

Следует отметить, что существует модель, не требующая использование ансамбля моделей - «DZip», который основан на ЯХК сети. Она позволяет сжимать любые данные, так как рассматривает входной файл как поток байт. В компрессоре используется гибридная схема обучения, которая использует Ьоо181хар-модель и вспомогательную модель.

Воо181хар-модель поддерживает бутстраппинг, который представляет собой алгоритм создания новых наборов данных из предыдущих с помощью повторной выборки [21]. В «DZip» она основана на RNN, которая обучается полуадаптивным способом, выполняя несколько проходов по данным, но не производит сжатие [22]. Для сжатия используется вспомогательная модель, которая представляет крупную нейронную сеть. Она инициализируется псевдослучайными параметрами при кодировании и декодировании. Результат bootstrap-модели и вспомогательной модели объединяются для получения прогноза вероятностей. Параметры комбинированной модели обновляются адаптивным образом во время кодирования и декодирования. Это позволяет не хранить веса вспомогательной модели.

Воо181хар-модель и вспомогательная модель объединены в комбинированную. Она получает итоговые логиты из Воо181хар-модели (logitsb) и вспомогательной модели (logitss), объединенные с помощью выпуклой суммы:

logitsc = X * logitsb + (1 - X)* logitss, где X - обучаемый параметр.

Это позволяет взвешивать логиты двух моделей. Конечный выход масштабируется до вероятности через функцию softmax. Затем используется арифметическое кодирование.

ВЕСТНИК ТОГУ. 2024. № 2 (73)

Исследование эффективности работы нейросетевых методов

В таблице 1 представлены результаты сжатия двух наборов данных (НД) с использованием моделей ИНС «Трансформер» и «СМ!Ху20», а также с помощью классических алгоритмов сжатия.

Таблица 1

Результаты сжатия enwik8 и enwik9

Набор Алгоритм или Размер до Размер после Коэффициент

данных модель сжатия, Мб сжатия, Мб сжатия

Gzip 36,46 2,74

Xz 24,87 4,02

enwik8 Rar 100 27,35 3,66

LZMA2 24,86 4,02

Трансформер 18,13 5,52

CMIX v20 14,76 6,78

Gzip 322,59 3,10

Xz 197,33 5,07

enwik9 Rar 1000 237,65 4,21

LZMA2 214,79 4,66

Трансформер 130,44 7,67

CMIX v20 109,88 9,10

В таблице приведены результаты сжатия НД enwik8 (первые 100 Мб английской Википедии) и enwik9 (1 Гб) с помощью методов сжатия Gzip, Xz, Rar и LZMA2, а также моделей «Трансформер» и «CMIXv20». При этом следует отметить, что в результатах не учитывался размер словаря предварительной обработки, а также размер программы декомпрессии, так как их размеры малы по отношения к сжатому результату.

По сравнению с Gzip, Xz, Rar и LZMA2, модели трансформер и CMIXv20 имеют лучший коэффициент сжатия, но при этом сжатие классическими алгоритмами заняло несколько минут, а нейросетевыми моделями - примерно 18 часов для enwik8 и примерно 172 часа для enwik9. Также эти модели требовательны к оперативной памяти, например CMIXv20 для сжатия enwik8 потребовалось 21,8 Гб ОЗУ, а для сжатия enwik9 30,2 Гб ОЗУ.

В таблице 2 приведены результаты сжатия моделью «DZip» и результаты работы классических методов.

Таблица 2

Результаты сжатия моделью «DZip»

Набор Размер до Размер после сжатия, Мб Размер модели в

данных сжатия, Мб Gzip 7ZIP ZPAQ DZIP сжатых данных, %

webster 41,1 14,43 10,57 6,78 8,95 31,33

text8 100 55,57 40,63 32 36,63 9,38

enwiki9 500 176,85 126,14 92,98 95,58 3,67

audio 264,6 190,18 164,71 137,92 112,46 3,29

obs-spitzer 198,2 161,04 56,24 54,51 54,01 6,70

ОБЗОР СОВРЕМЕННЫХ НЕЙРОСЕТЕВЫХ МЕ- -

ТОДОВ СЖАТИЯ ДЛЯ ЗАДАЧИ ОБРАБОТКИ ИЗ- ШЛНИК ТОГу. 2024 № 2 (Т^

МЕРИТЕЛЬНЫХ ДАННЫХ

Исследовалась эффективность сжатия следующих данных: wehster -HTML данные словаря Вебстера 1913 года; enwiki9 - первые 500 Мб английской википедии; Text8 - первые 100 Мб enwiki9; audio - первые 600 файлов (объединенных) в наборе данных ESC для классификации звуков окружающей среды; ohs-spitzer - данные телескопа «Spitzer».

Из таблицы 2 видно, что DZip на всех наборах данных превосходит Gzip и 7ZIP, но уступает сжатию на текстовых наборах данных ZPAQ, так как он изначально разрабатывался для сжатия данных такого типа. Время кодирования такой моделью составляет около 2,5 минут на Мб. Поэтому на сжатие набора данных text8 может уйти 4,17 часа, а на сжатия enwiki9 около 20,83 часа. Очевидно, что при сравнении с моделями CMIXv20 и трансформер Dzip имеет лучшую скорость сжатия.

В таблице 3 приведены результаты сжатия с потерями моделью «NCode», наряду с классическими алгоритмами.

Таблица 3

Результаты сжатия моделью «NCode»_

Алгоритм Размер, Мб

Без сжатия 145,92

JPEG2000 10,39

JPEG 15,07

NCode(100, 5) 3,75

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

NCode(25, 4) 0,75

NCode(25, 2) 0,37

Для сжатия используется НД CIFAR-10, который представляет собой набор изображений размерностью 32 на 32 пикселя с сжатием PNG без потерь. Модель тестировалась с различными параметрами представления длины, и количества бит на вектор.

В таблице 4 приведены результаты сжатия с помощью VAE с применением дискретизации и без нее, наряду с классическими алгоритмами.

Таблица 4

Результаты сжатия моделью «VAE» с дискретизацией и без нее_

Алгоритм Размер, Мб

Binarized MNIST Full MNIST

Без сжатия 5,88 47,04

Bz2 1,47 8,35

gziP 1,94 9,64

png 4,59 16,41

wehp 2,59 12,35

BB-ans 1,12 8,29

Без BB-ans 1,12 8,17

ВЕСТНИК ТОГУ. 2024. № 2 (73)

Тестирование проходило на наборе данных MNIST, который состоит из рукописных цифр. Каждый пиксель в наборе Full MNIST кодируется одним байтом, а Binarized MNIST кодируется одним битом. Сжатие проводилось с помощью небольшой VAE сети.

Однако следует отметить, что сравнение с png и webp не совсем справедливо, так как они содержат метадынные, размер которых значителен по сравнению с изображением MNIST. Также стоит учитывать, что сжатие с помощью нейронной сети не является сжатием без потерь.

Заключение

Тестирование моделей «Трансформер» и «CMIXv20» показало, что при сжатии enwik8 из классических алгоритмов лучше всего себя показал LZMA2. При сравнении его результата с результатами нейронных сетей видно, что размер сжатых данных моделью «Трансформер» на 27% меньше, а размер данных после сжатия «CMIXv20» на 41% меньше, чем при сжатии через LZMA2. Похожая ситуации и при сжатии enwik9, но сравнение будет происходить с результатами алгоритмом Xz. Размер сжатых данных у «Transformer» на 34% меньше, а у «CMIXv20» на 44%.

Сравнение эффективности сжатия «DZip» будет происходить с результатом работы ZPAQ. На текстовых наборах webster, text8, enwiki9 ZPAQ показал результат лучше, чем «DZip» на 24%, 12% и 3% соответственно. Но при сжатии аудио и телеметрических данных ситуация меняется и «DZip» превосходит сжатие ZPAQ на 18% и 1% соответственно.

При сжатии с потерями нужно учитывать не только коэффициент сжатия, но и визуальную схожесть изображения. Модель NCode(100, 5) превосходит JPEG2000 на 64%, но визуальные отличия значительны и увеличиваются с ужесточением ограничений сети. Для уменьшения визуальных различий при сжатии генеративными сетями предложен метод дискретизации латентного пространства «BB-ans». Для тестирования метода была взята простая VAE сеть. В сравнении с Bz2, на двух наборах данных «Binarized MNIST» и «Full MNIST» модель показала результат лучше на 24% и 1% соответственно. Сравнивая результаты с дискретизацией и без нее, можно заметить, что на первом наборе размер без «BB-ans» не изменился, а на втором уменьшился всего на 1,45%. Поэтому достичь разницы точности восстановления и отрицательного ELBO в 1% можно, что приведет к незначительному росту размеров сжатых данных.

На данный момент использование ИНС позволяет превосходить коэффициент сжатия классических алгоритмов, но требует значительных вычислительных мощностей и большого количества времени, которое может измеряться десятками часов, в следствии чего они могут использоваться как эффективный инструмент архивации, для задачи же сжатия требуется разработка новых, более эффективных архитектур.

ОБЗОР СОВРЕМЕННЫХ НЕИРОСЕ ТЕВЫХ МЕ- -

ТОДОВ СЖАТИЯ ДЛЯ ЗАДАЧИ ОБРАБОТКИ ИЗ- ВЕОНЖ ТОГУ. 2024. № 2 (73)

МЕРИТЕЛЬНЫХ ДАННЫХ

Библиографические ссылки

¡.Воробьев Е. Г. Сжатие двоичных кодов на основе традиционных методов и использования псевдорегулярных чисел // Известия СПбГЭТУ «ЛЭТИ». 2015. № 5. С. 23-29.

2.DeepZip: Lossless Data Compression using Recurrent Neural Networks / Mohit Goyal, Kedar Tatwawadi, Shubham Chandak, Idoia Ochoa. arXiv:1811.08162v1 [cs.CL] 20 Nov 2018. URL: https://arxiv.org/abs/1811.08162. (дата обращения: 20.04.2024).

3. Автокодировщик. URL: https://neerc.ifmo.ru/wiki/index.php7ti-^=Автокодировщик (дата обращения: 20.04.2024).

4.Image Compression using Backprop. URL: https://web.ar-chive.org/web/20070828112920/http://neuron.eng.wayne.edu/bpImageCompres-sion9PLUS/bp9PLUS.html (дата обращения: 20.04.2024).

5.Lucas Pinheiro Cinelli, et al. Variational Autoencoder // Variational Methods for Machine Learning with Applications to Deep Networks. Springer, 2021. P. 111— 149.

6.Zhihao Duan, Ming Lu, Jack Ma, Yuning Huang, Zhan Ma, Fengqing Zhu. QARV: Quantization-Aware ResNet VAE for Lossy Image Compression // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2024. Vol. 46. P. 436450.

7.Generative Adversarial Nets / Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu et al. arXiv:1406.2661v1 [stat.ML] 10 Jun 2014. URL: https://arxiv.org/abs/1406.2661. (дата обращения: 20.04.2024).

8.Generative Compression / Shibani Santurkar, David Budden, Nir Shavit. arXiv: 1703.01467v2 [cs.CV] 4 Jun 2017. URL: https://arxiv.org/abs/1703.01467. (дата обращения: 20.04.2024).

9.GAN Compression: Efficient Architectures for Interactive Conditional GANs / Muyang Li, Ji Lin, Yaoyao Ding, Zhijian Liu, Jun-Yan Zhu, Song Han // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2022. Vol. 44. P. 93319346.

10.Neural Video Compression using GANs for Detail Synthesis and Propagation / Fabian Mentzer, Eirikur Agustsson, Johannes Ball'e, et al. arXiv:2107.12038v3 [eess.IV] 12 Jul 2022. URL: https://arxiv.org/abs/2107.12038. (дата обращения: 20.04.2024).

11.Attention Is All You Need / Ashish Vaswan, Noam Shazeer, Niki Parmar, et al. arXiv: 1706.03762v7 [cs.CL] 2 Aug 2023. URL: https://arxiv.org/abs/1706.03762 (дата обращения: 20.04.2024).

12.Transformer в картинках. URL: https://habr.com/ru/articles/486358/ (дата обращения: 20.04.2024).

13.Долгая краткосрочная память. URL: https://neerc.ifmo.ru/wiki/in-dex.php?title=Долгая_краткосрочная_память

14.DeepZip: Lossless Data Compression using Recurrent Neural Networks / Mohit Goyal, Kedar Tatwawadi, Shubham Chandak, Idoia Ochoa.

ВЕСТНИК ТОГУ. 2024. № 2 (73)

arXiv:1811.08162vi [cs.CL] 20 Nov 2018. URL: https://arxiv.org/abs/1811.08162. (дата обращения: 20.04.2024).

15.CMIX URL: http://www.byronknoll.com/cmix.html (дата обращения: 20.04.2024).

16.Polikar R. Ensemble based systems in decision making // IEEE Circuits and Systems Magazine. 2006. Vol. 6. P. 21-45.

17.Mahoney M. Adaptive Weighing of Context Models for Lossless Data Compression, Florida Tech. Technical Report CS-2005-16, 2005.

18.Data Compression Explained. URL: http://mattmahoney.net/dc/dce.html (дата обращения: 20.04.2024).

19.Mozer M. C. A Focused Backpropagation Algorithm for Temporal Pattern Recognition // Backpropagation: Theory, architectures, and applications. Hillsdale, NJ: Lawrence Erlbaum Associates. 2017. P. 137-169.

20.0nline Learning with Gated Linear Networks / Joel Veness, Tor Lattimore, Avishkar Bhoopchand, et al. arXiv:1712.01897v1 [cs.LG] 5 Dec 2017. URL: https://arxiv.org/abs/1712.01897 (дата обращения: 20.04.2024).

21.Umberto Michelucci, Francesca Venturini. Estimating Neural Network's Performance with Bootstrap: A Tutorial // Machine Learning and Knowledge Extraction. 2021. Vol. 3. P. 357-373.

22.DZip: improved neural network based general-purpose lossless compression / Mohit Goyal, Kedar Tatwawadi, Shubham Chandak, Idoia Ochoa. arXiv: 1911.03572v2 [cs.LG] 18 Sep 2020. URL: https://arxiv.org/abs/1911.03572. (дата обращения: 20.04.2024).

Title: Review of Modern Neural Network Compression Methods for the Task of Processing Measurement Data

Authors' affiliation:

Bogachev I. V. - Pacific National University, Khabarovsk, Russian Federation Bulkanov D. E. - Pacific National University, Khabarovsk, Russian Federation

Abstract: In the article, the authors consider neural network methods of data compression, both lossy and lossless. The principles of operation and training of the following architectures are described in detail: transformer, recurrent neural networks with "long short -term memory", bottleneck autoencoder, variational autoencoder and generative adversarial network. The efficiency of their work has been compared with classical compression algorithms and a conclusion has been made about the potential and prospects of their application.

Keywords: data compression, neural networks, transformer, recurrent neural networks, long short-term memory, generative adversarial network, variational autoencoder.

i Надоели баннеры? Вы всегда можете отключить рекламу.