Научная статья на тему 'ПАКЕТНО-ПОСЛОЙНЫЙ СПОСОБ ПРЕОБРАЗОВАНИЯ ДАННЫХ ИЗМЕРЕНИЙ'

ПАКЕТНО-ПОСЛОЙНЫЙ СПОСОБ ПРЕОБРАЗОВАНИЯ ДАННЫХ ИЗМЕРЕНИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
сжатие данных / предварительная обработка / способ преобразования / данные измерений / геометрический подход / data compression / preprocessing / transformation method / measurement data / geometric approach

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Комков В. В., Конопелько Г. К., Левенец А. В.

В статье предлагается способ предварительной обработки измерительных данных, преобразующий набор исходных отсчетов данных в формально несвязанную с ним набор данных, формирующийся из бит разных исходных отсчетов. Приведены результаты исследования, показывающие, что предлагаемый способ позволяет увеличить общую упорядоченность формируемого набора отсчетов и, как правило, приводит к увеличению эффективности их сжатия.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Batch-Layered Method for Transforming Measurement Data

The article proposes a method for preprocessing measurement data that trans-forms a set of source data samples into a formally unrelated data set formed from bits of different initial data samples. The results of the study are presented, showing that the proposed method allows to increase the overall orderliness of the generated set of sam-ples and, as a consequence, leads to an increase in the efficiency of their compression.

Текст научной работы на тему «ПАКЕТНО-ПОСЛОЙНЫЙ СПОСОБ ПРЕОБРАЗОВАНИЯ ДАННЫХ ИЗМЕРЕНИЙ»

ПРИБОРОСТРОЕНИЕ, МЕТРОЛОГИЯ И ИНФОРМАЦИОННО-ИЗМЕРИТЕЛЬНЫЕ ПРИБОРЫ И СИСТЕМЫ

УДК 004.627 DOI https://doi.org/10.38161/1996-3440-2024-2-31-38

В. В. Комков, Г. К. Конопелько, А. В. Левенец

ПАКЕТНО-ПОСЛОЙНЫЙ СПОСОБ ПРЕОБРАЗОВАНИЯ ДАННЫХ ИЗМЕРЕНИЙ

Комков В. В. - магистрант Высшей школы кибернетики и цифровых технологий, ТОГУ, e-mail: 2022104794@pnu.edu.ru; Конопелько Г. К. - канд. техн. наук, доцент Высшей школы кибернетики и цифровых технологий, ТОГУ, e-mail: 000480@pnu.edu.ru; Левенец А. В. - доктор техн. наук, профессор Высшей школы кибернетики и цифровых технологий, ТОГУ, e-mail: 000621@pnu.edu.ru.

В статье предлагается способ предварительной обработки измерительных данных, преобразующий набор исходных отсчетов данных в формально несвязанную с ним набор данных, формирующийся из бит разных исходных отсчетов. Приведены результаты исследования, показывающие, что предлагаемый способ позволяет увеличить общую упорядоченность формируемого набора отсчетов и, как правило, приводит к увеличению эффективности их сжатия.

Ключевые слова: сжатие данных, предварительная обработка, способ преобразования, данные измерений, геометрический подход.

Введение

Одним из способов увеличения эффективности работы алгоритмов сжатия является предварительная обработка исходных данных, обеспечивающая наиболее оптимальные (с точки зрения процедуры сжатия) параметры преобразованных данных [1, 2]. Как правило, предварительная обработка ориентирована на увеличение структурированности данных, например, за счет снижения динамического диапазона данных с обеспечением необходимого вида закона распределения.

Для решения такой задачи в настоящее время разработано достаточно много способов, наиболее известными из которых, являются преобразование Барроуза-Уиллера и метод «перемещение стопки книг» [1]. Эти преобразования подразумевают, в первую очередь, работу с текстовыми данными, хотя формально область их применения этим не ограничивается. Разрабатываются

© Комков В. В., Конопелько Г. К., Левенец А. В., 2024

ВЕСТНИК ТОГУ. 2024. № 2 (73)

ВЕСТНИК ТОГУ. 2024. № 2 (73)

также специализированные способы предварительной обработки [3-5], ориентированные на данные определенного типа, и слабо эффективны при работе с другими типами данных.

Следует отметить общую особенность большинства известных способов предварительной обработки данных перед сжатием, заключающуюся в том, что отсчеты (символы для текстовых данных) рассматриваются как единый, неразделяемый элемент. Такой подход очевиден, однако при условии возможности полного (без потерь) восстановления данных, не обязательно наиболее оптимален, как это показано в работах, посвященных разработке методов геометрического подхода к представлению данных [6]. Так, согласно этому подходу, исходные данные преобразуются в битовую последовательность, которая впоследствии может быть «свернута», например, в прямоугольное битовое поле, битовый куб и т.д.

Вновь сформированная структура при определенных условиях будет иметь более упорядоченный вид, в предельном случае формируя две однородные области, заполненные нулями и единицами соответственно, что максимально оптимально для процедуры сжатия. Тем не менее, для большинства случаев, особенно при работе с измерительными данными, получение такого предельного случая, связано со слишком большим объемом служебных данных, существенно снижающим эффективность такого преобразования и/или требующим значительных вычислительных затрат. В силу этого актуальной задачей становится поиск более простых способов преобразования, совмещающих как классический, так и геометрический подход.

Пакетно-послойный способ преобразования

Очевидно, что отсчет исходных данных можно представить в виде битовой одномерной структуры длины Ь. Основной смысл предлагаемого преобразования заключается в группировании нескольких отсчетов в пакет заданной размерности М*Ы, образующий битовый параллелепипед М*Ы*Ь. Далее полученный параллелепипед разрезается по Ь на более мелкие объекты. Из полученных объектов формируются новые слова, образующие преобразованную последовательность. Разрядность слов выходной последовательности определяется размерностью группы и количеством битовых слоев, на которые «нарезается» исходный пакет. Так, если исходные восьмибитные данные формировались в пакет размерностью 2*3, который потом разбивался по слоям глубиной два бита, как это показано на рис. 1, то разрядность итогового слова будет составлять 2-3-2 = 12 бит.

Можно ожидать, что в случае обработки данных, полученных от стационарных источников, слова, формируемые из старших бит исходных данных, будут иметь существенно ограниченный динамический диапазон, обеспечивая таким образом оптимальный для статистических методов сжатия вид распределения, когда наибольшая часть повторений приходится на небольшое (в идеальном случае - одно) число значений. Наиболее вариабельными будут слова,

ПАКЕТНО-ПОСЛОИНЫИ СПОСОБ ПРЕОБРА- -

ЗОВАНИЯ ДАННЫХ ИЗМЕРЕНИЙ ВЕСТНИК ТОГУ Ж4 № 2 (73)

полученные из младших бит исходных данных, однако частоты их повторения будут невысокими и мало скажутся на эффективности сжатия.

Рис. 1. Графическое пояснение принципа пакетно-послойного преобразования

Очевидно, что на практике не следует ожидать кардинального уменьшения динамического диапазона, особенно в том случае, когда обрабатываются данные от одного источника, однако общие рассуждения позволяют предположить, что такое уменьшение будет заметным и положительно скажется на эффективности сжатия. Можно также предположить, что максимальный эффект преобразования будет получен при обработке наборов данных, полученных от разных источников, связанных одним объектом измерения, в случае корректного выбора объединяемых в пакет отсчетов.

Результаты исследования

В качестве обрабатываемых данных при исследовании предложенного способа использовались восьмиразрядные данные телеизмерений ряда дальневосточных энергетических объектов. В процессе обработки данные (в том числе их разностные ряды) считались целыми и беззнаковыми, что с точки зрения задач сжатия/восстановления является корректным допущением.

Формирование новых слов производилась конкатенацией битов сначала в одном слое, по принципу слева-направо, сверху-вниз, после чего добавлялись биты следующего слоя и т.д. Максимальные размеры формируемого объекта были ограничены и не превышали 4*4*4, что связано с определенными сложностями при работе с данными разрядностью более 64, что особенно характерно для микроконтроллерной техники.

ВЕСТНИК ТОГУ. 2024. № 2 (73)

Учитывая назначение предложенной предварительной обработки, ее эффективность определялась по отношению к простому алгоритму сжатия на основе метода кодирования переменной длины. Выбор алгоритма определялся тем, что до сих пор при работе с данными измерений алгоритмы такого типа являются основными алгоритмами сжатия без потерь, обеспечивая достаточно большой коэффициент сжатия [7]. Данная работа ориентировалась на алгоритм, кодирующий наиболее часто встречающееся значение одним битом, еще три значения - тремя битами, а остальные - (3 + к) битами, где к - разрядность данных. В этом случае эффективность работы алгоритма сжатия можно оценить как отношение частот повторений четырех наиболее часто встречающихся значений к общему числу всех значений сжимаемых данных. Соответственно, эффективность работы преобразования можно определить как отношение эффективности алгоритма сжатия при работе с преобразованными данными к эффективности работы алгоритма сжатия с исходными данными.

В ходе проведенного исследования обработке подвергались наборы данных двух типов: условно-стационарные, с небольшим динамическим диапазоном и достаточно плавным изменением значений во времени (далее в статье - стационарные данные) и условно-нестационарные, характеризующиеся существенно (более чем в два раза) большим динамическим диапазоном и возможными значительными изменениями соседних отсчетов (далее в статье - нестационарные данные). Всего было исследовано по четыре набора данных каждого типа.

Для оценки эффективности по исходным и преобразованным данным строились гистограммы, разряды которых упорядочивались по убыванию частот. Значения разрядов гистограммы не соответствуют истинным значениям величин исходных данных и представляют собой относительные индексы таких значений, что упрощает восприятие гистограммы и дает однозначное представление об общем числе значений в анализируемом наборе данных.

Проведенные исследования показали, что при обработке нестационарных данных предлагаемое преобразование существенно изменяет вид гистограммы в сторону наиболее оптимальной для алгоритма сжатия, что не всегда характерно для стационарных данных. Типичный пример изменения гистограммы для набора нестационарных данных, преобразование которых осуществляется на объекты размерностью 2*2*1 приведен на рис. 2. Из простого анализа вида гистограммы необработанных данных следует, что коэффициент эффективности работы алгоритма сжатия будет невысоким и действительно, его значение составляет 0,472, т.е. более половины всех значений будут кодироваться неоптимально, одиннадцатиразрядным кодовым словом. В то же время преобразованные данные имеют гистограмму более приемлемого для алгоритма сжатия вида, что и выражается в значении эффективности алгоритма сжатия для преобразованных данных, равного 0,843.

Следует также отметить, что исследование проводилось по наборам данных объемом 1000 отсчетов, причем для преобразованных данных под отсчетами понимались сформированные в рамках логики работы преобразования слова соответствующей разрядности.

ПАКЕТНО-ПОСЛОИНЫИ СПОСОБ ПРЕОБРА- -

ЗОВАНИЯ ДАННЫХ ИЗМЕРЕНИЙ ВЕС1НИК ТОГУ. 2024. № 2 (73)

б)

Рис. 2. Характерные гистограммы исходных (а) и преобразованных (б) нестационарных данных

Полученные результаты для некоторых размеров пакетов для случая преобразования стационарных данных приведены в табл. 1, из которой следует, что применение больших размеров пакетов не приводит к повышению эффективности сжатия преобразованных данных по отношению к исходным. В первую очередь такой факт можно объяснить тем, что гистограмма непреобра-зованных стационарных данных, как правило, уже достаточно хорошо соответствует требованиям алгоритма сжатия, а дополнительное преобразование может изменить структуру гистограммы в неоптимальную сторону. Кроме того, при увеличении размера пакета увеличивается разрядность данных, что также приводит к существенному снижению эффективности, т.к. для кодирования значений, не входящих в первую четверку по частоте появления, приходится тратить соответствующее число бит. Необходимо заметить, что для более точной оценки эффективности преобразования необходим адаптивный критерий, учитывающий разрядность формируемых данных, однако в рамках данного исследования такой задачи не ставилось.

ВЕСТНИК ТОГУ. 2024. № 2 (73)

Эффективность преобразования стационарных данных

Таблица 1

Размер пакета Глубина слоя

1 2 4

2х1 - 1,06 0,852

2х2 1,047 0,937 0,721

2х3 0,997 0,877 0,641

3х3 0,919 0,792 0,594

4х2 0,919 0,781 0,564

4х3 0,85 0,727 0,622

4х4 0,801 0,676 0,576

Анализ полученных данных показывает, что наиболее эффективной является работа с одним слоем, т.к. при этом формируемые слова имеют меньшую разрядность, что и отражается выбранной оценкой.

Преобразование нестационарных данных показывает более обнадеживающие результаты. При этом увеличение размера пакета также приводит к снижению значений выбранной оценки эффективности, что можно объяснить прямой зависимостью динамического диапазона формируемых слов от их разрядности. Решением проблемы может стать, например, подбор для объединения в пакет отсчетов, слабо меняющихся относительно друг друга.

Тем не менее однозначно отбрасывать возможность использования пакетов большого размера не следует, т.к. результаты для отдельных наборов данных могут кардинально различаться. Так, например для одного из анализируемых наборов данных были получены значения эффективности 1,43 для размера пакета 4*2 при единичной глубине слоя. Таким образом, при разработке адаптивных алгоритмов сжатия, включающих в себя предлагаемую предварительную обработку, нет необходимости устанавливать ограничения для анализа пакетов большого размера, хотя это и приведет к увеличению требуемой вычислительной мощности или увеличению времени анализа.

Следует отметить, что все приведенные здесь результаты получены в результате усреднения по четырем различным наборам данных.

Таблица 2

Эффективность преобразования нестационарных данных_

Размер пакета Глубина слоя

1 2 4

2х1 - 1,399 0,984

2х2 1,415 1,161 0,756

2х3 1,271 1,028 0,706

3х3 1,120 0,921 0,731

4х2 1,019 0,873 0,661

4х3 0,987 0,840 0,766

4х4 0,965 0,830 0,736

ПАКЕТНО-ПОСЛОИНЫИ СПОСОБ ПРЕОБРАЗОВАНИЯ ДАННЫХ ИЗМЕРЕНИИ

ВЕСТНИК ТОГУ. 2024. № 2 (73)

Таблица 3

Эффективность преобразования разностных рядов_

Размер пакета Глубина слоя

1 2 4

Стационарные данные

2х1 - 1,08 0,976

2х2 0,888 0,788 0,650

2х3 0,653 0,558 0,421

3х3 0,437 0,334 0,273

4х2 0,472 0,359 0,274

4х3 0,322 0,232 0,201

4х4 0,211 0,165 0,138

Нестационарные данные

2х1 - 1,481 1,305

2х2 1,150 0,931 0,665

2х3 0,613 0,515 0,353

3х3 0,276 0,211 0,148

4х2 0,594 0,275 0,197

4х3 0,137 0,091 0,065

4х4 0,078 0,05 0,07

Также была исследована возможность применения предлагаемого преобразования к разностным рядам, полученным из исходных данных. При анализе таких наборов данных первый отсчет не использовался и анализировались только разностные значения. Полученные результаты для стационарных и нестационарных данных приведены в табл. 3.

Несмотря на ожидания, эффективность преобразования разностных рядов заметно хуже, чем для исходных данных. Анализ результатов преобразования показал, что наличие отрицательных разностей, представленных в дополнительном коде, существенно снижает однородность пакетов и, как следствие, негативно сказывается на результаты преобразования. В качестве возможного решения данной проблемы можно предложить кодирование отрицательных чисел не дополнительным, а прямым кодом.

Заключение

Такими образом, результаты проведенного исследования показывают принципиальную возможность применения предложенного способа для преобразования измерительных данных перед сжатием. Полученная невысокая эффективность способа для больших размеров пакета может быть обусловлена применяемой простой оценкой, поэтому для уточнения возможностей преобразования необходимо разработать критерий, более корректно оценивающий результат преобразования, в том числе, с учетом разрядности формируемых слов, а также их динамического диапазона. Также следует провести исследования эффективности преобразования в случае применения различных способов кодирования данных.

ВЕСТНИК ТОГУ. 2024. № 2 (73)

Библиографические ссылки

1. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео / Ватолин Д., Ратушняк А., Смирнов М., Юкин В. М. : ДИАЛОГ-МИФИ, 2003. 384 с.

2. Сэломон Д. Сжатие данных, изображений и звука. М. : Техносфера, 2004. 368 с.

3. Shen G., Narang S. K., Ortega A. Adaptive distributed transforms for irregularly sampled wireless sensor networks. // IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP), 2009. pp. 2225-2228.

4. Васильев А. М. Обработка данных в распределенных информационно-измерительных системах с многоуровневым представлением сложных технических объектов. М. : Московский гос. ун-т приборостроения и информатики, 2011. 167 с.

5. Верба В.С., Меркулов В.И., Попов Е.В., Чернов В.С. Интеграция данных в многодатчиковых бортовых информационно-управляющих системах // Информационно-измерительные и управляющие системы, 2014. № 2. С. 32-43.

6. Богачев И. В., Левенец А. В., Чье Ен Ун. Предварительная обработка и сжатие телеметрических данных на основе геометрического подхода. М. : РУ-САЙНС, 2021. 168 с.

7. Современная телеметрия в теории и на практике / А. В. Назаров, Г. И. Козырев, И. В. Шитов, В. П. Обрученков, А. В. Древин, В. Б. Краскин, С. Г. Куряков, А. И. Петров, С. М. Соколов, В. Л. Якимов, А. И. Лоскутов. СПб. : Наука и Техника, 2007. 672 с.

Title: Batch-Layered Method for Transforming Measurement Data Authors' affiliation:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Komkov V.V. - Pacific National University, Khabarovsk, Russian Federation Konopelko G.K. - Pacific National University, Khabarovsk, Russian Federation Levenets A.V. - Pacific National University, Khabarovsk, Russian Federation

Abstract: The article proposes a method for preprocessing measurement data that transforms a set of source data samples into a formally unrelated data set formed from bits of different initial data samples. The results of the study are presented, showing that the proposed method allows to increase the overall orderliness of the generated set of samples and, as a consequence, leads to an increase in the efficiency of their compression.

Keywords: data compression, preprocessing, transformation method, measurement data, geometric approach

i Надоели баннеры? Вы всегда можете отключить рекламу.