Научная статья на тему 'СПОСОБ ОЦЕНКИ АВТОКОРРЕЛЯЦИОННОЙ ФУНКЦИИ ПОСЛЕДОВАТЕЛЬНОСТИ ЦИФРОВЫХ ДАННЫХ'

СПОСОБ ОЦЕНКИ АВТОКОРРЕЛЯЦИОННОЙ ФУНКЦИИ ПОСЛЕДОВАТЕЛЬНОСТИ ЦИФРОВЫХ ДАННЫХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
5
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
автокорреляционная функция / последовательность данных / предварительная обработка / сжатие данных / autocorrelation function / data sequence / preprocessing / data compression

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кочетова И. В., Левенец А. В.

В статье предлагается простой способ оценки значений автокорреляционной функции последовательности цифровых данных, что может быть востребовано при решении задачи поиска подобных элементов в большом наборе данных. Структурируя таким образом исходную последовательность данных, можно добиться более эффективной работы алгоритмов сжатия. Даны условия, при которых применение предлагаемого способа допустимо, а также показано, что предложенный способ оценки требует невысокие вычислительные затраты.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кочетова И. В., Левенец А. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Method of Estimation of Autocorrelation Function of a Digital Data Sequence

The authors of the article propose a simple method for estimating the values of the autocorrelation function of a digital data sequence, which may be required when solving the problem of searching for similar elements in a large data set. By structuring the original data sequence in this way, it is possible to achieve more efficient operation of compression algorithms. The conditions under which the use of the proposed method is permissible are given, and it is also shown that the proposed assessment method requires low computational costs.

Текст научной работы на тему «СПОСОБ ОЦЕНКИ АВТОКОРРЕЛЯЦИОННОЙ ФУНКЦИИ ПОСЛЕДОВАТЕЛЬНОСТИ ЦИФРОВЫХ ДАННЫХ»

ПРИБОРОСТРОЕНИЕ, МЕТРОЛОГИЯ —

И ИНФОРМАЦИОННО-ИЗМЕРИТЕЛЬНЫЕ ВЕСТНИК ТОГУ. 2023. .№ 4 (71)

ПРИБОРЫ И СИСТЕМЫ

УДК 004.627

И. В. Кочетова, А. В. Левенец

СПОСОБ ОЦЕНКИ АВТОКОРРЕЛЯЦИОННОЙ ФУНКЦИИ ПОСЛЕДОВАТЕЛЬНОСТИ ЦИФРОВЫХ ДАННЫХ

Кочетова И. В. - старший преподаватель высшей школы компьютерных и цифровых технологий, Тихоокеанский государственный университет, e-mail: 000482@pnu.edu.ru; Левенец А. В. - д-р техн. наук, проф. высшей школы компьютерных и цифровых технологий, Тихоокеанский государственный университет, e-mail: 000621@pnu.edu.ru.

В статье предлагается простой способ оценки значений автокорреляционной функции последовательности цифровых данных, что может быть востребовано при решении задачи поиска подобных элементов в большом наборе данных. Структурируя таким образом исходную последовательность данных, можно добиться более эффективной работы алгоритмов сжатия. Даны условия, при которых применение предлагаемого способа допустимо, а также показано, что предложенный способ оценки требует невысокие вычислительные затраты.

Ключевые слова: автокорреляционная функция, последовательность данных, предварительная обработка, сжатие данных.

Введение

Наиболее сложным объектом для алгоритмов сжатия данных являются данные измерений, которые обладают некоторыми свойствами реализаций случайных процессов. Следствием этого является невысокое значение коэффициента сжатия таких данных и, следовательно, снижение эффективности подсистем передачи данных. Для решения этой проблемы прибегают, например, к специализированным методам сжатия [1-9]. Довольно часто для сжатия последовательности отсчетов цифровых данных применяют квазиобратимые алгоритмы сжатия, подразумевающие, что восстановление данных после сжатия будет происходить с некоторой погрешностью, не превышающей задан-

© Кочетова И. В., Левенец А. В., 2023

Исследование выполнено за счет гранта Российского научного фонда №22-21-00146, Ьйр8 ://г8о£ги/рго| ей/22-21-00146/

ВЕСТНИК ТОГУ. 2023. № 4 (71)

ную величину [10, 11]. Современный уровень развития вычислительной техники позволяет реализовывать полностью обратимые алгоритмы сжатия цифровых данных такие, например, как применяемые в задачах архивации [1, 2, 5]. К сожалению, ожидать большой эффективности работы таких алгоритмов можно только при выполнении ряда условий, например, в случае достаточно малого динамического диапазона исходной последовательности (по сравнению с предельно возможным динамическим диапазоном, который определяется применяемой разрядностью).

Улучшение данной ситуации можно связать с поиском такой предварительной обработки исходной последовательности данных, которая позволила бы представить ее в более структурированном (с точки зрения алгоритма сжатия) виде. Одним из таких способов предварительной обработки является представление исходных данных в виде битовой последовательности с последующим поиском в ней одинаковых элементов с целью их компактного описания [12]. Такой способ, принятый в рамках «геометрического подхода» к сжатию данных, позволяет найти скрытые корреляционные связи, особенно в том случае, когда анализируются не последовательности отсчетов от одного источника информации, а наборы отсчетов от разных источников, объединенные в кадр (набор) данных.

Применение такого подхода к предварительной обработке данных требует способа оценки корреляционных связей между элементами анализируемой последовательности, что традиционно выполняется с помощью автокорреляционной функции [13]. Однако, ее вычисление достаточно затратно в смысле требуемых вычислительных ресурсов.

Способ оценки автокорреляционной функции

Оценка автокорреляционной функции (АКФ) в классическом виде требует накопления N отсчетов анализируемой последовательности с последующей обработкой по следующей формуле [14]:

1 N

К(к) = Т7 X (Ъ - Ъср )(^ " Ъср X 1 ¡=1

где Zi - отсчет входной последовательности, Zср - среднее значение входной последовательности, к - аргумент запаздывания АКФ.

Таким образом, для вычисления значения АКФ для заданного аргумента запаздывания, с учетом необходимости вычисления среднего значения, требуется 2N операции суммирования, N операций умножения и две операции деления. Так как обычно требуется вычисление нескольких значений АКФ для разных аргументов запаздывания, вычислительные затраты увеличиваются прямо пропорционально необходимому числу значений АКФ. В случае реализации вычислений на основе микроконтроллеров этот факт становится заметным препятствием, ограничивающим быстродействие разрабатываемой системы.

СПОСОБ ОЦЕНКИ АВТОКОРРЕЛЯЦИОННОЙ ФУНКЦИИ ПОСЛЕДОВАТЕЛЬНОСТИ ЦИФРОВЫХ ДАННЫХ

ВЕСТНИК ТОГУ. 2023. № 4 (71)

В том случае, если входной поток данных имеет незначительный динамический диапазон, вычисление значений АКФ можно попытаться упростить, используя некоторую априорно известную информацию. Наиболее важными являются сведения о динамическом диапазоне входного потока данных, а также сведения о параметрах элемента входного потока, в котором значения отличаются от наиболее часто встречающихся значений в этом потоке.

г,-

|< м

К

2 3

• • • •

10

1о+К

N

1111

1 2 3 1о-к-1 1о-к+К N

Рис. 1. Пример исходной и сдвинутой на к отсчетов бинарной последовательности

Рассмотрим частный случай вычисления дискретной АКФ, когда анализируемая последовательность данных Z состоит из N отсчетов, из которых К отсчетов отличается от наиболее часто встречающегося значения 2 на й единиц квантования (флуктуация), причем й << 2. Формально такой набор данных можно свести к бинарному виду, как это показано на рис. 1, где приведены исходная последовательность с флуктуацией, начинающейся с отсчета 10, и та же последовательность, но сдвинутая на к отсчетов.

Таким образом, при вычислении АКФ для случая достаточно малого значения аргумента запаздывания по сравнению с длиной аномалии (к < К) и при условии, что 1о > к, можно выделить три возможных случая перемножения значений последовательности.

Первый случай описывает ситуацию, когда перемножаются одинаковые значения 2. Это происходит в двух диапазонах: [1; 1о - к -1] и [1о + К; N1. Результат перемножения на этих участках для аргумента запаздывания к будет далее обозначаться как ^(к).

Во втором случае перемножаются одинаковые значения (г - й), что происходит только в одном диапазоне [1о; 1о - к + К - 1]. Результат перемножения далее будет обозначаться ^(к);

Для третьего случая перемножаются значения го и ц, что также происходит в двух диапазонах: [1о - к; 1о - 1] и [1о + К - к; 1о + К - 1]. Результат перемножения на каждом участке далее будет обозначаться Яз(к).

ВЕСТНИК ТОГУ. 2023. № 4 (71)

Таким образом, вычисление значения АКФ с заданным аргументом запаздывания в рассматриваемом случае можно записать как

= ^ - К - к) • Щ + 2к ■ Щ + (К - к - 1) • Щ

N '

Для рассматриваемого случая среднее значение последовательности ^ср будет вычисляться следующим образом:

1 Кг!

гр = - К)г + К(^ - !)] = г----(2)

ср N N

Учитывая (1) и (2), частные значения Я, для каждого из трех перечисленных случаев вычисляются следующим образом:

1 ¡0 - к-1

Щ1(к) = "-7 Е (г - гср )(г - гср ) +

¡0 - к 1=1

1 N , л К2!2 +- Е (г - гср)(г - гср) =-—;

N - ¡о - К +11=£+К С С N

1 ¡0 -1 ътй ЪГЛ К И2

Я^к) = 1 Е (г - 2ср )(г - ! - гср ) = - !) = - К);

кг=0 -к Р N N N2

1 ¡0 -к+К-1 !2 (К - N)2

Щз(к)I е (г-!-гср)(г-!-гср)=—2—;

К к ¡=0 N

Подставляя полученные выражения в (1), получаем

К2И2 Ки2

Щ(к) = (N - К - к)--2кК^ (N - К) +

N N

+(К - к -1)!2(К - N)2 = ^ [NK2 - К3 - кК2 - 2кКМ + 2кК2 + N N

+К3 - кК2 - К2 - 2К2N + 2кШ + 2Ш + Ш2 - Ш2 - =

= — [т - К2 - кщ.

N

Для последовательностей отсчетов рассмотренного типа вычисление значения АКФ для заданного аргумента запаздывания может быть осуществлено всего за пять операций умножения и одну операцию деления, причем объем вычислений не зависит от объема анализируемой выборки. Таким образом, зная объем выборки, размер флуктуации и значения отсчетов, можно быстро оценить значения автокорреляционной функции.

СПОСОБ ОЦЕНКИ АВТОКОРРЕЛЯЦИОННОЙ ФУНКЦИИ ПОСЛЕДОВАТЕЛЬНОСТИ ЦИФРОВЫХ ДАННЫХ

ВЕСТНИК ТОГУ. 2023. № 4 (71)

Следует отметить, что последовательности рассмотренного здесь типа достаточно часто встречаются в случае преобразования исходных данных в битовую последовательность и предложенный способ оценки позволит существенно сократить время анализа данных для поиска наиболее оптимального для алгоритма сжатия представления.

Однако выделение однородностей на базе АКФ будет достаточно эффективно только в том случае, когда оценка математического ожидания (среднее значение) рассматриваемой последовательности будет существенно больше, чем отклонение отдельных отсчетов от этого значения.

Наиболее сложная ситуация возникнет при анализе битовых последовательностей, так как в этом случае отклонение значения бита-флуктуации от среднего значения последовательности становится максимальным. Например, если рассматривать последовательность объемом 100 бит, из которых только один принимает нулевое значение, то значение АКФ при нулевом аргументе R(0) будет равно 0,99, а для других аргументов R(1) = R(2) = ... = -0,01. Таким образом, будет сделан некорректный вывод о неоднородности рассматриваемой последовательности, следовательно для битовых последовательностей необходимо разработать более подходящий способ выделения нестрого однородных последовательностей.

Заключение

Полученное выражение для вычисления значения АКФ последовательности данных с малым динамическим диапазоном позволяет существенно снизить вычислительные затраты при анализе таких последовательностей, что может быть весьма важным фактором при разработке подсистем сжатия данных на основе «геометрического подхода», базовые принципы которого приводят к появлению после предварительной обработки битовых последовательностей рассмотренного здесь типа.

Следует отметить, что предложенное решение необходимо доработать для получения решения общего вида, позволяющего обрабатывать последовательности других типов, с меньшим числом введенных в рамках данной работы ограничений.

Библиографические ссылки

1. Сэломон Д. Сжатие данных, изображений и звука. М. : Техносфера, 2004. 368 с.

2. Сергеенко B.C., Баринов В.В. Сжатие данных, речи, звука и изображений в телекоммуникационных системах. М. : РадиоСофт, 2009. 360 с.

3. Обзор способов снижения избыточности телеметрической информации / Ф.Н. Байбекова, В.В. Подольцев, Н.М. Беспалова, Л.А. Сологубова // Радиопромышленность. 2019. № 2. С. 8-16.

4. Современная телеметрия в теории и на практике / А.В. Назаров, Г.И.

ВЕСТНИК ТОГУ. 2023. № 4 (71)

Козырев, И.В. Шитов и др. СПб. : Наука и Техника, 2007. 672 с.

5. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео / Д. Ватолин, А. Ратушняк, М. Смирнов, В. Юкин. М. : ДИАЛОГ-МИФИ, 2003.384 с.

6. Спиваковский А.М. Управляемое сжатие данных. СПб.: Ниц Арт-Пе-чатный Цех, 2018. 258 с.

7. Трофимов В.К. Сжатие информации равномерным кодом в системах хранения и обработки данных // Проблемы информатики. 2009. № 4. С. 79-85.

8. Совершенствование алгоритмов сжатия-восстановления сигналов для систем телеизмерений / Е.А. Ломтев, М.Г. Мясникова, Н.В. Мясникова, Б.В. Цыпин // Измерительная техника. 2015. № 3. С. 11-15.

9. Трофимов В.К., Храмова Т.В. Сжатие неравнозначными символами информации, порожденной неизвестным источником без памяти // Автометрия. 2012. Т. 48, № 1. С. 30-44.

10.Адаптивные телеизмерительные системы / Б.Я. Авдеев, Е.М. Антонюк, С.Н Долинов и др. Л. : Энергоиздат, 1981. 248 с.

11. Токарь П.С., Шевченко Е.Н. Особенности применения дискретного косинусного преобразования в алгоритмах сжатия данных с потерями // Вестник современных исследований. 2018. № 1. С. 139-141.

12.Предварительная обработка и сжатие телеметрических данных на основе геометрического подхода / И.В. Богачев, А.В. Левенец, Чье Ен Ун. М. : РУСАЙНС, 2021. 168 с.

13.Умняшкин С.В. Основы теории цифровой обработки сигналов. М. : Техносфера, 2019. 549 с.

14. Марпл-мл. С.Л. Цифровой спектральный анализ и его приложения. М. : Мир, 1990. 584 с.

Title: Method of Estimation of Autocorrelation Function of a Digital Data Sequence Authors' affiliation:

Kochetova I. V. - Pacific National University, Khabarovsk, Russian Federation Levenets A. V. - Pacific National University, Khabarovsk, Russian Federation

Abstract: The authors of the article propose a simple method for estimating the values of the autocorrelation function of a digital data sequence, which may be required when solving the problem of searching for similar elements in a large data set. By structuring the original data sequence in this way, it is possible to achieve more efficient operation of compression algorithms. The conditions under which the use of the proposed method is permissible are given, and it is also shown that the proposed assessment method requires low computational costs.

Keywords: autocorrelation function, data sequence, preprocessing, data compression

i Надоели баннеры? Вы всегда можете отключить рекламу.