НЕПАРАМЕТРИЧЕСКИЙ АЛГОРИТМ ДЛЯ ОБРАБОТКИ ИСХОДНЫХ ДАННЫХ ПРИ НАЛИЧИИ РАЗРЕЖЕННОСТЕЙ

Е.А. Чжан

УДК 519.71

НЕПАРАМЕТРИЧЕСКИЙ АЛГОРИТМ ДЛЯ ОБРАБОТКИ ИСХОДНЫХ ДАННЫХ ПРИ НАЛИЧИИ РАЗРЕЖЕННОСТЕЙ

Е. А. Чжан

Сибирский федеральный университет Российская Федерация, 660041, г. Красноярск, просп. Свободный, 79 *E-mail: echzhan@sfu-kras.ru

Рассматривается проблема предварительного анализа данных при построении моделей многомерных стохастических процессов. Задача является актуальной для отраслей промышленности, где предъявляются высокие требования к точности полученной модели. К таким отраслям можно отнести производство электрорадиоизделий, ракетно-космическую отрасль. Использование предлагаемого алгоритма, как показали вычислительные эксперименты, позволяет повысить точность моделирования в несколько раз.

Ключевые слова: анализ данных, предварительная обработка, непараметрическая модель, выборка наблюдений.

NON-PARAMETRIC ALGORITHM FOR PROCESSING OF SOURCE SPARSE DATA

E. A. Chzhan

Siberian Federal University 79, Svobodny Av., Krasnoyarsk, 660041, Russian Federation *E-mail: echzhan@sfu-kras.ru

This article discusses the problem of preliminary data analysis when building models of multidimensional stochastic processes. The task is relevant for such industries where are high demands on the accuracy of the resulting model. Such industries include the production of electrical radio products and the rocket and space industry. Using the proposed algorithm, as shown by computational experiments, can improve the accuracy of modeling several times.

Keywords: data analysis, non-parametric model, sample of observations.

Введение. Проблема построения модели в различных отраслях промышленности на сегодняшний день остается актуальной. В космической отрасли, при производстве электронной компонентной базы для космических систем особые требования предъявляются к точности модели [1]. Одним из методов повышения точности моделирования является использование алгоритмов анализа данных, которые позволяют нивелировать влияние неточностей в данных, таких как выбросы, пропуски, области разреженностей и пустот [2]. Кроме того, при построении модели рассматриваемого процесса исследователь нередко оказывается в ситуации, когда математическое описание процесса неизвестно, т.е. нет возможности определить уравнение с точностью до вектора параметров. В этом случае целесообразно использовать методы непараметрической статистики [3]. В работе рассматривается алгоритм предварительной обработки данных при их неравномерном распределении в пространстве входных и выходных переменных.

Задача идентификации. Рассмотрим предлагаемую схему идентификации процесса, представленную на рисунке 1. Здесь приняты следующие обозначения: x(t) - выходная

Секция «Математические методы моделирования, управления и анализа данных»

переменная процесса, м(7) - входное воздействие, поддающееся контролю и измерению,

- входное измеряемое, но неконтролируемое воздействие. При решении задачи

управления переменные м(/) и д(/) имеют существенные различия. Управляющее

устройство на основании выбранных алгоритмов генерирует значения м(/), при этом нет

возможности оказывать влияния на д(/). При моделировании столь принципиального

различия нет. - случайное воздействие, О" , Оц, 0х - блоки контроля входных и

выходных переменных, случайные помехи gu (V), g^ ), gx (V) имеют нулевое

математические ожидание и ограниченную дисперсию. Измерения входных и выходных

переменных формируют выборку наблюдений {", х{, 1 = 1, , которая поступает на блок

анализа данных. На этот блок также поступает априорная информация, которая включает в себя качественные сведения об объекте, а также исторические данные. Например, это могут быть выборки, накопленные в результате пассивного эксперимента. Блок анализа данных содержит алгоритмы для предварительной обработки. После предварительной обработки рабочая выборка наблюдений поступает на блок модели, где происходит оценивание выходной переменной процесса на основе полученных данных, а также текущих измерений входных и выходных переменных процесса.

Рис. 1. Схема идентификации дискретно-непрерывного процесса

Задача идентификации состоит не только в построении модели .£(/), но и в синтезе алгоритмов для проведения предварительной обработки данных.

Непараметрический алгоритм для обработки исходных данных. В качестве модели будем использовать непараметрическую оценку по наблюдениям функции регрессии Надарая-Ватсона:

£ т / а т

х (")=Т х П ф -"!)) /1П ф (с;1 - и)), (1)

1=1 ]=1 / г=1 ]=1

где ф(с 1 (V -"/= 1,а,] = 1,т - ядерная колоколообразная функция и коэффициент размытости ядра удовлетворяют условиям сходимости [4]. Значение параметра размытости

С может быть найдено путем минимизации квадратичного критерия невязки выхода объекта и модели в режиме скользящего экзамена [4].

Необходимо отметить, что если элементы обучающей выборки в пространстве входных и выходных переменных распределены неоднородно, то в областях с небольшим количество элементов точность моделирования будет весьма низкой. В этой связи предлагается сгенерировать элементы выборки таким образом, чтобы распределение точек обучающей выборки стало более однородное. Целесообразно до процедуры генерации провести предварительную обработку по удалению выбросов. Генерация будет происходить в оксрестности реальных наблюдений, которые были получены путем измерения входных и выходных переменных объекта. Для новых точек значения входных переменных генерируются случайным образом в заданных интервалах, значение выходной переменной вычисляется согласно формуле (1). Новые точки и исходная выборка составляют рабочую выборку [5].

Вычислительный эксперимент. Пусть дискретно-непрерывный процесс описывается следующим уравнением:

где и1, и2 е[0;3], - нормально распределенная помеха с нулевым математическим

ожиданием и ограниченной дисперсией. Исходная выборка |иь., u2ixi, . = 1,150| была

сгенерирована таким образом, что там существовали области разреженностей. Затем с помощью непараметрического алгоритма была сгенерирована рабочая выборка, объем которой составил 214 наблюдений. Для проведения экзамена была сгенерирована новая выборка объемом 100 наблюдений. Для оценки точности прогноза вычислялась средняя абсолютная ошибка МАРЕ. При использовании рабочей выборки величина ошибки уменьшилась в два раза и составила МАРЕ = 16,8%.

Заключение. В работе предлагается схема идентификации многомерного процесса, которая в себя включает не только блок моделирования, но и блок предварительной обработки данных. В этом блоке заложены алгоритмы по удалению выбросов, а также получению новых выборок, которые будут использованы в качестве обучающих при вычислении непараметрических оценок.

Работа выполнена при финансовой поддержке гранта Президента Российской Федерации для государственной поддержки молодых ученых МК-763.2020.9.

1. Kahng A. B. et al. ORION 2.0: A fast and accurate NoC power and area model for early-stage design space exploration //2009 Design, Automation & Test in Europe Conference & Exhibition. -IEEE, 2009. - P. 423-428.

2. Добронец Б. С., Попова О. А. Численный вероятностный анализ неопределенных данных //Красноярск: Сиб. федер. ун-т. - 2014. - Т. 167.

3. Орлов А. П. Структура непараметрической статистики (обобщающая статья) //Заводская лаборатория. Диагностика материалов. - 2015. - Т. 81. - №. 7. - С. 62-72.

4. Медведев А.В. Основы теории адаптивных систем. - Красноярск: изд-во Сиб. гос. аэрокосмич. ун-та, 2015, 525 с.

5. Чжан Е.А. Непараметрические алгоритмы анализа данных, моделирования и управления для многомерных безынерционных систем с запаздыванием : дис. канд. техн. наук. Красноярск : СФУ, 2018. 146 с.

(2)

Библиографические ссылки

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Е.А. Чжан

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Е.А. Чжан

NON-PARAMETRIC ALGORITHM FOR PROCESSING OF SOURCE SPARSE DATA

Текст научной работы на тему «НЕПАРАМЕТРИЧЕСКИЙ АЛГОРИТМ ДЛЯ ОБРАБОТКИ ИСХОДНЫХ ДАННЫХ ПРИ НАЛИЧИИ РАЗРЕЖЕННОСТЕЙ »