Научная статья на тему 'Применение бутстреп-метода в непараметрическом моделировании систем при наличии пропусков данных'

Применение бутстреп-метода в непараметрическом моделировании систем при наличии пропусков данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
227
37
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Терентьева Е. С.

Представлен бутстреп-метод, применяющийся для решения задачи заполнения пропусков в неполных данных или устранения пустот в пространстве наблюдений. Приводятся модификации непараметрической оценки регрессии и результаты их исследования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BOOTSTRAP-METHOD APPLICATION IN NONPARAMETRIC MODELLING OF THE SYSTEMS IN THE DATA ADMISSIONS PRESENCE

The paper is devoted to the bootstrap method applied to the solution of the problem of passes filling in incomplete data or elimination of emptiness in space of observations. Some modifications of the nonparametric regression estimation and the results of their research are presented.

Текст научной работы на тему «Применение бутстреп-метода в непараметрическом моделировании систем при наличии пропусков данных»

Рис. 4

Рассмотрим объект с тремя входами. Вначале подаем сигнал (на любом из входов) для устранения ненулевых начальных условий, затем по очереди подаем функции типа «ступеньки» на каждый из каналов входа (рис. 4). Из полученных данных получаем оценки переходных и весовых функций. Строим модель объекта и1 ^) = соб(0, 2t), и2 ^) = Бт(0,2t), ) = СО8(0^) (рис. 5).

Рис. 5

Библиографические ссылки

1. Заде Л., Чезоер Ч. Теория линейных систем. М. : Наука, 1970.

2. Medvedev A. V. Identification and Control for Linear Dynamic Systems of Unknown Order // Lecture Notes in Control and Information Sciences. Optimization Techniques IFIP Technical Conference. Vol. 27. Berlin ; Heidelberg ; New York : Springer - Verlag, 1975. P. 48-55.

3. Теоретические основы связи и управления / А. А. Фельдбаум [и др.]. М. : Физматгиз, 1963.

I. V. Sokolov

Siberian State Aerospace University named after academician M. F. Reshetnev, Russia, Krasnoyarsk

TO THE PROBLEM OF NON-PARAMETRIC LDS IDENTIFICATION

The problem of identification of linear dynamical systems (LDS) in case of non-parametric vagueness is considered. The grain of the transitional characteristics of the process described by LDS with non-zero initial conditions is analyzed. The given non-parametric models of the processes are described by LDS and the computer simulation outcome.

© Соколов И. В., 2010

УДК 62-506.1

Е. С. Терентьева

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск

ПРИМЕНЕНИЕ БУТСТРЕП-МЕТОДА В НЕПАРАМЕТРИЧЕСКОМ МОДЕЛИРОВАНИИ СИСТЕМ ПРИ НАЛИЧИИ ПРОПУСКОВ ДАННЫХ

Представлен бутстреп-метод, применяющийся для решения задачи заполнения пропусков в неполных данных или устранения пустот в пространстве наблюдений. Приводятся модификации непараметрической оценки регрессии и результаты их исследования.

Во многих случаях при построении модели процесса приходится иметь дело с выборками наблюдений случайной величины, результаты измерений которой распределены неравномерно в пространстве наблюдений. Это приводит к тому, что в некоторых подобластях пространства наблюдений образуются пустоты. В таких условиях построение непараметрической оценки регрессии дает неудовлетворительные

результаты. В данной работе представлен метод решения задачи заполнения пустот в пространстве наблюдений.

Имеется неравномерная выборка наблюдений (й, х1), / = 1,5 входных и выходных воздействий системы, Щ - значение вектора наблюдений входных переменных размерности т, х, - измеренное значение

Математические методы моделирования, управления и анализа данных.

выходного воздействия в 1-й точке выборки. Предлагается рассмотреть стандартную непараметрическую оценку регрессии [1]:

, и)=Ё х Пф

1=1 р=1

(ир - ир Л С

ХПФ

1=1 р=1

(ир - ир Л С

(1)

1 1 1

г. (и)=11 пСр ф

р=1 С

,=1 р=

(ир - ир Л

С.р

(3)

(и) > 0, "и еП.

Для устранения пустот в пространстве наблюдений используется следующая бутстреп-процедура. По присутствующим наблюдениям строится регрессионная модель (1), находятся оценки х, = х5 (и), , = 1,5. Затем находятся ошибки е( = х, - х1, , = 1,5, а значения выходной переменной для пропусков в выборке оцениваются следующим образом: х51 = х5 (и,) + е,, " и1 : (и1) < а, а > 0 (пусть таких точек К, т. е. 1 = 1, К), а е, выбирается случайно из множества ранее вычисленных ошибок е,, , = 1,5. Полученные значения оценок выходной и соответствующие им значения входной переменных (и1, х,), 1 = 1, К объединяются со значениями исходной выборки (й, х), , = 1,5 , таким образом, получаем выборку

(и,, х), , = 1,5 + К объемом 5 + К. Моделирование в дальнейшем можно проводить по средствам стандартной непараметрической оценки регрессии (1), где параметр размытости удовлетворяет некоторым условиям сходимости [1].

Приведем результаты численного исследования описанного алгоритма моделирования на основе выборки с искусственно созданными пустотами в пространстве наблюдений. Пусть имеется неравномерная выборка наблюдений одномерного входа и выхода объекта (и,., х1), , = 1,5, объемом 5 = 40 , т = 1, и, е (0,1), х = зш(5 и) + Х , где X - 10%-я аддитивная центрированная помеха, имеющая нормальный закон распределения, М(X) = 0, Б(Х) < ¥ .

Результаты моделирования приведены на рис. 1, исходная выборка наблюдений и добавленные точки выборки - на рис. 2. Среднеквадратичная оценка ошибки моделирования для бутстреп-алгоритма в

5,2 раза меньше, чем для непараметрической оценки регрессии, построенной по исходной выборке наблюдений.

где колоколообразная функция Ф() удовлетворяют некоторым условиям сходимости [1], а параметр размытости оценивается следующим образом [2]:

< =1-1 >_), (2) где 1 > 0 вычисляется исходя из минимума квадратичного критерия рассогласования модели и объекта, а функция множества (и), необходимая для определения сгущений и разрежений точек в выборке, имеет вид непараметрической оценки плотности Розенблата-

Парзена с малым параметром размытости <:

-оценка (4) на основе дошшненной выборки наблюдений

• •' • оценка (4) на основе исходной выборки наблюдений ООО исходная выборка наблюдений

Рис. 1

♦ ♦♦ немодная выборка наблюдений Л А А "дополненные" наблюдения

Рис. 2

Пусть дана неравномерная выборка наблюдений четырехмерного входа и выхода объекта (и, х1),

,= 1,400, т = 4, и,, е (0,1), х1 = зш(4,5 - и,1) --зт(5 - и2) + Бт(4,5 -и]) - Бт(5 -и,4) + X, где X - 10%-я аддитивная центрированная помеха, имеющая нормальный закон распределения. Среднеквадратичная оценка ошибки моделирования для бутстреп-алгоритма в 3,4 раза меньше, чем для непараметрической оценки регрессии, построенной по исходной выборке наблюдений.

В работе [2] был представлен непараметрический алгоритм моделирования на основе разреженной выборки, который в вышеописанных условиях дает ошибку в 2 раза меньшую, чем бутстреп-метод. Однако к преимуществам бутстреп-алгоритма можно отнести простоту реализации и малое время настройки по сравнению с непараметрическим алгоритмом [2].

Библиографические ссылки

1. Надарая Э. А. Замечания о непараметрических оценках плотности вероятности и кривой регрессии // Теория вероятности и ее применение. 1970. Т. 15, вып. 1. С. 139-142.

2. Терентьева Е. С. Об одной модификации непараметрической оценки кривой регрессии // Решетнев-ские чтения : материалы XII Междунар. науч. конф. ; Сиб. гос. аэрокосмич. ун-т. Красноярск, 2008. С. 316-318.

E. S. Terentyeva

Siberian State Aerospace University named after academician M. F. Reshetnev, Russia, Krasnoyarsk

BOOTSTRAP-METHOD APPLICATION IN NONPARAMETRIC MODELLING OF THE SYSTEMS IN THE DATA ADMISSIONS PRESENCE

The paper is devoted to the bootstrap method applied to the solution of the problem of passes filling in incomplete data or elimination of emptiness in space of observations. Some modifications of the nonparametric regression estimation and the results of their research are presented.

© TepemteBa E. C., 2010

УДК 004.272.3

В. С. Тынченко, В. В. Тынченко, Я. А. Тынченко

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск

ПРИМЕНЕНИЕ РАСПРЕДЕЛЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ ТЕХНОЛОГИЙ ДЛЯ МОДЕЛИРОВАНИЯ СЛОЖНЫХ ПРОЦЕССОВ

Обсуждается проблема использования современных технологий организации распределенных вычислений при решении сложных задач моделирования. Рассматриваются предпосылки появления технологии Грид, ее характерные черты и существующие проекты по ее использованию.

Технология Грид используется для создания географически распределенной вычислительной инфраструктуры, объединяющей ресурсы различных типов с коллективным доступом к этим ресурсам в рамках виртуальных организаций, состоящих из предприятий и специалистов, совместно использующих эти общие ресурсы.

Идейной основой технологии Грид является объединение ресурсов путем создания компьютерной инфраструктуры нового типа, обеспечивающей глобальную интеграцию информационных и вычислительных ресурсов на основе сетевых технологий и специального программного обеспечения промежуточного уровня, а также набора стандартизованных служб для обеспечения надежного совместного доступа к географически распределенным информационным и вычислительным ресурсам: отдельным компьютерам, кластерам, хранилищам информации и сетям.

Применение технологии Грид может обеспечить новый качественный уровень, а иногда и реализовать принципиально новый подход в обработке огромных объемов экспериментальных данных, обеспечить моделирование сложнейших процессов, визуализацию больших наборов данных, сложные бизнес-приложения с большими объемами вычислений.

Появление технологии Грид обусловлено следующими предпосылками [1]:

- необходимостью решения сложных научных, производственных, инженерных и бизнес-задач;

- стремительным развитием сетевой транспортной среды и технологий высокоскоростной передачи данных;

- наличием во многих организациях вычислительных ресурсов: суперкомпьютеров или, что наи-

более часто встречается, организованных в виде кластеров персональных компьютеров.

Есть два основных критерия, выделяющих Грид-системы среди других систем, обеспечивающих разделяемый доступ к ресурсам [2]:

1. Грид-система координирует разрозненные ресурсы. Ресурсы не имеют общего центра управления, а Грид-система занимается координацией их использования, например, балансировкой нагрузки. Поэтому простая система управления ресурсами кластера не является системой Грид, так как осуществляет централизованное управление всеми узлами данного кластера, имея к ним полный доступ. Грид-системы имеют лишь ограниченный доступ к ресурсам, зависящий от политики того административного домена (организации-владельца), в котором этот ресурс находится.

2. Грид-система строится на базе стандартных и открытых протоколов, сервисов и интерфейсов. Не имея стандартных протоколов, невозможно легко и быстро подключать новые ресурсы в Грид-систему, разрабатывать новые виды сервисов и т. д.

К настоящему времени уже реализованы и реализуются множество проектов по созданию Грид-систем. Большая часть этих проектов имеет экспериментальный характер. Исходя из результатов анализа проектов, можно сделать вывод о трех направлениях развития технологии Грид: вычислительный Грид, Грид для интенсивной обработки данных и семантический Грид для оперирования данными из различных баз данных.

Целью первого направления является достижение максимальной скорости вычислений за счет глобального распределения этих вычислений между компью-

i Надоели баннеры? Вы всегда можете отключить рекламу.