Научная статья на тему 'Метод аппроксимации измерительных данных псевдослучайными последовательностями'

Метод аппроксимации измерительных данных псевдослучайными последовательностями Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
1
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА / СЖАТИЕ / ПСЕВДОСЛУЧАЙНАЯ ПОСЛЕДОВАТЕЛЬНОСТЬ / АППРОКСИМАЦИЯ / ВИХРЬ МЕРСЕННА / PREPROCESSING / COMPRESSION / PSEUDO-RANDOM SEQUENCE / APPROXIMATION / MERSENNE TWISTER

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — Чье Ен Ун, Левенец А. В., Пурисев Ю. А.

В статье описан метод предварительной обработки, позволяющий представить измерительные данные набором отсчетов псевдослучайных генераторов. Приведены результаты исследования предложенного метода на тестовых сигналах. Показано, что обработанные данные сжимаются в два раза лучше, чем исходные.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — Чье Ен Ун, Левенец А. В., Пурисев Ю. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHOD OF APPROXIMATING THE MEASUREMENT DATA BY USING PSEUDO-RANDOM SEQUENCES

Preprocessing method that allows one to approximate measurement data by a set of pseudo-random generators is described. The investigation results of the method with test signals are provided. It is shown that the processed data are compressed twice better than the initial data.

Текст научной работы на тему «Метод аппроксимации измерительных данных псевдослучайными последовательностями»

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

УДК 004.67

© Чье Ен Ун, А. В. Левенец, Ю. А. Пурисев, 2013

МЕТОД АППРОКСИМАЦИИ ИЗМЕРИТЕЛЬНЫХ ДАННЫХ ПСЕВДОСЛУЧАЙНЫМИ ПОСЛЕДОВАТЕЛЬНОСТЯМИ

Чье Ен Ун - д-р техн. наук, проф., зав. кафедрой «Автоматика и системотехника», e-mail: chye@ais.khstu.ru; Левенец А. В. - канд. техн. наук, доцент кафедры «Автоматика и системотехника», e-mail: levalvi@mail.ru; Пурисев Ю. А. - магистрант кафедры «Автоматика и системотехника», e-mail: agent-duh@mail.ru (ТОГУ)

В статье описан метод предварительной обработки, позволяющий представить измерительные данные набором отсчетов псевдослучайных генераторов. Приведены результаты исследования предложенного метода на тестовых сигналах. Показано, что обработанные данные сжимаются в два раза лучше, чем исходные.

Ключевые слова: предварительная обработка, сжатие, псевдослучайная последовательность, аппроксимация, Вихрь Мерсенна.

При ограниченной пропускной способности каналов связи в информационно-измерительных системах возникает необходимость уменьшения количества передаваемых данных. Однако в подавляющем большинстве случаев в качестве исходных данных для кодирования, сжатия и передачи в канал связи, используются данные, непосредственно полученные от источника и не прошедшие какую-либо предварительную обработку [1]. Существующие алгоритмы предварительной обработки, в своём большинстве, позволяют исключить локальные возмущения (процедуры сглаживания), а также избавиться от малоинформативной части данных (алгоритмы удаления тренда). Эти алгоритмы повышают информативность сигнала, однако, их работа не направлена на повышение эффективности кодирования и сжатия. Принимая во внимание изложенные выше факты, актуальной проблемой является разработка метода, предварительной обработки измерительных данных направленного на повышение качества сжатия этих данных.

Предлагаемый метод аппроксимации основывается на некоторых характерных свойствах псевдослучайных последовательностей (ПСП). Так, при одном и том же инициализирующем значении генератора псевдослучайных чисел (ГПСЧ), на его выходе всегда получается одна и та же последователь-

ВЕСТНИК ТОГУ. 2013. № 4(31)

ность. Помимо этого, при достаточно большом периоде ГПСЧ и при значительном объеме выборки, ПСП по статистическим параметрам должна приближаться к случайной последовательности [2].

Исходя из вышеизложенного, был разработан алгоритм, позволяющий представить каждую дискрету входного сигнала некоторым псевдослучайным отсчетом. Использование одного генератора ПСП было признано нерациональным, ввиду необходимости генерации большой выборки для создания необходимых статистических свойств, поэтому при реализации предложенного метода использовались два генератора ПСП, работающие по алгоритму «Вихрь Мерсенна».

Суть метода математически может быть описана следующим образом:

Ухг е X ^ Y(x) := MAN(x; GU]; G2y) Vj е [°; п] ^

^ min[хг -MAN(хг; Gly.; G2y-)], где Х - множество значений входного сигнала; хг - г-е значение входного сигнала; Y - множество значений выходного сигнала; уг - г-е значение выходной последовательности; n - количество отсчетов каждого генератора ПСП, генерируемых для одного дискретного значения входного сигнала; G1 - множество значений первого генератора; G2 - множество значений второго генератора; G1ij - j-е значение первого генератора для г-й точки, где jе [0; n]; G2y - j-е значение второго генератора для г-й точки, где je [0; n]; MAN(xt; G1y; G2y) -действие формирования выходного значения.

Для увеличения числа возможных комбинаций, в выходной последовательности, для каждых двух значений ПСП, имеющий одинаковый порядковый номер были введены элементарные преобразования (MAN) над ними. В качестве элементарных преобразований в данной работе были использованы сумма значений, вычитание первого значения из второго, вычитание второго значения из первого, отрицание суммы, отрицания разностей, отрицание значения первого генератора, отрицание значения второго генератора. Таким образом, на каждые два отсчета, приходится десять возможных аппроксимирующих значений для выходной последовательности, т.е. значения, полученные от двух генераторов, и восемь манипуляций над этими значениями.

Однако если аппроксимирующее значение передавать в виде простого числа, то предложенный метод теряет свой смысл, поскольку объем передаваемых данных не будет меняться. Поэтому для уменьшения количества информации после аппроксимации каждое значение выходной последовательности вместо прямого отображения чисел кодировалось фиксированным количеством бит, зависящим от n. В предложенном формате выходной последовательности, первые четыре бита отводятся для кодирования преобразования, а остальные биты - для кодирования значения j. Соответствие между преобразованиями и их битовым отображением представлены в табл. 1.

Таблица І

Аппроксимирующие значения и их битовые отображения

Аппроксимирующее значение Битовое представление

Значение Генератора 1 (G1) 1000

Значение Генератора 2 (G2) 0110

Разность G2-G1 (DELTA1) 0100

Разность G1-G2 (DELTA2) 0010

Сумма G1+G2 (SUM) 0000

Отрицание G1 1001

Отрицание G2 0111

Отрицание DELTA1 0101

Отрицание DELTA2 0011

Отрицание SUM 0001

Согласно предложенному методу для каждого отсчета формируется битовая последовательность, длину Е которой можно оценить по следующей формуле:

E = N х NKOd = N х (4 + [log2n]),

где N - объем выборки; N^ - количество бит, необходимых для кодирования одного аппроксимированного значения в двоичной форме.

Пример работы предложенного метода для случая хг = 1,45237651 и n = 3 приведен на рис. 1. Для рассмотренного случая формируются по три значения от каждого ГПСЧ, по которым рассчитываются аппроксимирующие значения на заданном наборе манипуляций. Результатом служит код пары значений и код манипуляции, дающие число, максимально близкое к исходному.

Процесс декодирования выходной последовательности основывается на свойстве ГПСЧ выдавать на выходе одинаковую последовательность при его инициализации одинаковым числом. В реальных условиях целесообразно, в качестве такого числа, использовать время получения текущего отсчета. Например, если штамп времени будет иметь вид «31.12.2013 13.3034,3750000000», то после удаления из него всех отличных от цифр символов, получится число «311220131330343750000000», которое и будет использоваться для расчета ядра ГПСЧ. Поскольку время прихода отсчета уникально, то можно предположить, что для каждого отсчета будет формироваться уникальная псевдослучайная последовательность.

Поскольку в методе присутствуют два генератора, возникает необходимость их инициализации одним штампом времени. Решение этой задачи было получено путём параметризации ядер, при этом ядра генераторов предлагается рассчитывать по следующим формулам:

SEED _1 = 5 х TS2;

SEED _2 = 7xy/Ts ,

где БЕЕБ _1 - ядро первого генератора, БЕЕБ _2 - ядро второго генератора, ТБ - преобразованный штамп времени.

Рис. 1. Пример работы метода аппроксимации

Таким образом, проинициализировав генераторы на принимающей стороне и получив последовательность, возможно, обратным преобразованием восстановить исходный отсчет. Поскольку на каждую дискрету источника отводиться строго заданное количество бит в выходном наборе, то после отделения последовательно Ыкод бит и обратного сопоставления по таблице и номеру отсчета ПСП, формируются следующие друг за другом значения источника, восстановленные с некоторой погрешностью (погрешностью восстановления). Фактическое значение погрешности восстановления (ПВ) является плавающей величиной, зависящей как от п, так и от характеристик исходного сигнала.

Здесь также следует отметить, что выходная последовательность бит, в теории, будет очень хорошо сжимаема «классическими» алгоритмами сжатия бинарных данных, поскольку будет содержать в себе большое количество повторяющихся частей.

Для определения влияния характеристик исходного сигнала и параметра работы алгоритма п, был проведен ряд эмпирических тестов, позволивших оценить статистические характеристики ПВ. В качестве исходного сигнала в данном случае была взята синусоида с возможностью задания произвольных параметров: амплитуды, фазы, частоты и количества точек.

В каждой серии экспериментов изменялся один из параметров и оценивалось влияние этого параметра на характеристики ошибки восстановления. Результаты для каждой серии тестов сводились в таблицу, включающую значения изменяемого параметра, статистические характеристики относительной ошибки восстановления, в частности, коэффициент взаимной корреляции входной и выходной последовательности. Помимо этого, на основании полу-

ченных результатов, была проведена оценка величины степени сжатия выходной последовательности бит. Результаты приводятся с усреднением по пяти экспериментам.

Математическое ожидание М, дисперсия о2 погрешности восстановления и коэффициент взаимной корреляции исходного и восстановленного сигналов гху рассчитывались по следующим формулам:

N х У £ ^

М = -г=1 г •

=-г=-

N

£(х - у - М )2

N

N

£ (ХУг - МхМУ )

Г = г=1

1 ху

Naхaу

где Мх - математическое ожидание входного сигнала; Му - математическое ожидание последовательности полученной в результате работы алгоритма аппроксимации; ох и оу - среднеквадратические отклонения входного сигнала и аппроксимированного значения соответственно; N - объем выборки.

Важным является оценка влияния параметра работы метода п является ключевой, поскольку между увеличением этой величины и длиной генерируемой последовательности существует прямая зависимость.

Значение параметра п в серии эмпирических тестов изменялся в диапазоне [50; 500] с шагом 50. В качестве исходного сигнала использовалась синусоида с единичной амплитудой, нулевой фазой и относительной частотой

0,01. Объем выборки составлял 1000 отсчетов. Результаты проведенных экспериментов представлены в табл. 2.

Анализ полученных данные показывает, что при значении п = 100 начинается резкое уменьшение значений статистических характеристик ПВ. При увеличении количества отсчетов п их значения асимптотически приближаются к нулю. Уменьшение математического ожидания и о до уровня одного процента наблюдается при п = 450. При максимальной величине п = 500, значения М и о принимают значения 0,000809 и 0,000804 соответственно. Таким образом, опираясь на правило «трех сигм» [3], максимальная погрешность при п = 500 будет составлять 0,2412%. Что касается значений коэффициента взаимной корреляции, то можно заметить, что уже при п = 50 корреляция составляет более 99% и достигает 100% при дальнейшем увеличении п.

Ещё одним параметром, оказывающим влияние на точность выходной последовательности, является отношение сигнал/шум (ОСШ). Для оценки качества работы метода, было исследовано влияние при значении п = 500. В качестве шумовой составляющей использовался гауссов шум с нулевым математическим ожиданием и единичной дисперсией. Результаты проведенных экспериментов приведены в табл. 3.

ВЕСТНИК ТОГУ. 2013 № 4 (31)

Чье Ен Ун, Левенец А. В., Пурисев Ю. А.

Таблица 2

Влияние параметра п на статистические характеристики ПВ

п М с 2 с Гху

50 0,007921 6,47Е-05 0,008036 0,999872

100 0,004047 1,65Е-05 0,004058 0,999968

150 0,002697 7,55Е-06 0,002743 0,999986

200 0,002008 4,14Е-06 0,002033 0,99999

250 0,00162 2,57Е-06 0,001601 0,999992

300 0,001325 1,69Е-06 0,001298 1

350 0,00116 1,46Е-06 0,001208 1

400 0,001017 1,04Е-06 0,001018 1

450 0,000918 8,83Е-07 0,000938 1

500 0,000809 6,48Е-07 0,000804 1

Влияние ОСШ на статистические характеристики ПВ при п = 500

Таблица 3

ОСШ М с

0,5 13,84-10-4 13,76-10-4

1 8,34-10-4 8,57-10-4

2 5,59-10-4 5,68-10-4

3 4,71 ■ 10-4 4,78-10-4

4 4,21 ■ 10-4 4,1710-4

5 3,99-10-4 3,97-10-4

7 3,65-10-4 3,69-10-4

9 3,49-10-4 3,5-10-4

10 3,58-10-4 3,64-10-4

Полученные данные показывают, что при достаточно больших значениях ОСШ погрешность восстановления слабо зависит от этого параметра и определяется методической погрешностью. Пороговым значением ОСШ можно считать величину, равную трем. Дальнейшее снижение значения параметра приводит к экспоненциальному увеличению погрешности, которая при значении ОСШ = 0,5 возрастает почти в четыре раза.

Также интерес представляет влияние на погрешность восстановления динамического диапазона исходного сигнала. Были проведены несколько серий экспериментов для разных величин п, при этом предельное значение амплитуды синусоиды изменялось в диапазоне [0,5; 10] с шагом 0,5. Полученные результаты позволяют говорить о достаточно существенном влиянии этого параметра на точность предложенного метода аппроксимации. С увеличением максимальной амплитуды, во всех сериях экспериментов, наблюдался линейный рост ошибки. Так, при минимальном значении амплитуды

погрешность составляла »6,6-10"4, в то время как при максимальном значении параметра величина погрешности увеличивалась до ~3,5-10-3, т.е. при увеличении динамического диапазона в 20 раз, величина погрешности увеличивалась примерно в шесть раз.

Наиболее интересным фактором для исследования предлагаемого метода аппроксимации является зависимость степени сжатия ^сж аппроксимированного сигнала от параметров аппроксимации. Под степенью сжатия понималось отношение количества бит информации необходимой для представления входного сигнала в двоично-десятичной форме, к количеству бит информации, полученному в результате работы метода аппроксимации. Отказ от двоичной формы представления был обусловлен большой разрядностью представления числа в формате с плавающей точкой, а так же вынужденной погрешностью округления, возникающей при представлении дробного числа в двоичной системе фиксированным количеством бит. Ниже приведен пример для одной произвольной точки источника:

1) Значение источника вычислено с точностью до шестого знака после запятой и составляет 3,743842.

2) При параметрах работы алгоритма п = 500, значение относительной дисперсии составляет 1,717-10"3. Как следствие максимальная абсолютная погрешность будет равна 3,743842* 3*1,717-10"3 ~1,9285-10“2.

3) Интервал, в котором будет находиться значение источника [3,724557; 3,763127].

4) Так как значение содержит в себе семь цифр, то для его двоичнодесятичного представления необходимо 28 бит информации.

5) При п = 500 это же значение будет кодироваться 13 битами информации, из которых четыре бита отводится под манипуляцию, а девять бит - под значение отсчета.

6) ^сж=28/13 ~ 2,15. Следовательно, при данном уровне погрешности обеспечивается сжатие более чем в два раза.

Полученная в результате проведенных исследований зависимость степени сжатия от амплитуды аппроксимируемой синусоиды для п = 500 и Ыкод = 13 приведена на рис. 2.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 2. Поведение зависимости степени сжатия от амплитуды синусоиды

Полученные результаты показывают, что метод аппроксимации позволяет добиться сжатия более чем в 2 раза. Интересным фактом является повышение степени сжатия при уменьшении значений амплитуды аппроксимируемой синусоиды, что может быть объяснено необходимостью использования большего числа бит для обеспечения необходимой точности представления данных.

Таким образом, проведенные исследования показали, что предложенный метод аппроксимации позволяет представить измерительные данные отсчетами псевдослучайных генераторов. Результаты проведенных исследований показывают существенное влияние на эффективность метода таких параметров, как количество отсчетов генератора п, отношение сигнал/шум, максимальная амплитуда входного сигнала на величину ошибки восстановления. Минимальная погрешность восстановления достигается при значениях ОСШ более трех и относительно большом объеме выборки. В случае снижения ОСШ до единицы погрешность восстановления увеличивается примерно в два раза. Также следует отметить, что степень сжатия аппроксимированных данных по сравнению с исходными увеличивается более чем в два раза.

Библиографические ссылки

1. Ватолин Д., Ратушняк А., Смирнов М., Юкин В. Методы сжатия данных. Устройство архиваторов, сжатие изображений и видео. - М.: Диалог-Мифи, 2003. - 384 с.

2. Гмурман В.Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. - М.: Высшая школа, 1972. - 368 с.

3. Гутер Р.С., Овчинский Б.В. Элементы численного анализа и математической обработки результатов опыта. - М.: Наука, 1970. - 432 с.

Title: Method of Approximating the Measurement Data by Using Pseudo-Random Sequences

Authors’ affiliation:

Chye En Un - Pacific National University, Khabarovsk, Russian Federation Levenets A. V. - Pacific National University, Khabarovsk, Russian Federation Purisev Yu. A. - Pacific National University, Khabarovsk, Russian Federation

Abstract: Preprocessing method that allows one to approximate measurement data by a set of pseudo-random generators is described. The investigation results of the method with test signals are provided. It is shown that the processed data are compressed twice better than the initial data.

Keywords: preprocessing, compression, pseudo-random sequence, approximation,

Mersenne twister.

i Надоели баннеры? Вы всегда можете отключить рекламу.