Научная статья на тему 'Генерация рабочей выборки наблюдений при непараметрическом моделировании'

Генерация рабочей выборки наблюдений при непараметрическом моделировании Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
57
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКАЯ ИДЕНТИФИКАЦИЯ / NONPARAMETRIC IDENTIFICATION / ВЫБОРКА / SAMPLE / АНАЛИЗ ДАННЫХ / DATA ANALYSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чжан Е.А.

Рассматривается задача повышения качества исходных выборок наблюдений при идентификации дискретно-непрерывных процессов. Исходные данные могут содержать такие недостатки, как разреженности и пропуски. Предложенный алгоритм позволяет устранить такого рода «изъяны», что приводит к повышению точности моделирования в несколько раз. Подобного рода задачи встречаются при моделировании процессов в металлургии, нефтехимии, а также в космической отрасли.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

GENERATION OF THE WORKING SAMPLE OBSERVATION IN NONPARAMETRIC MODELING

To identify discrete-continuous processes the problem of improving the quality of source samples is considered. Source data may comprise irregularities such as gaps and emissions. The proposed algorithm eliminates such “flaws”, which leads to higher accuracy of the identification by several times. Such problems are encountered in modeling processes in metallurgy, petrochemical, as well as in the space industry.

Текст научной работы на тему «Генерация рабочей выборки наблюдений при непараметрическом моделировании»

Решетнеескцие чтения. 2015

5. Kovalev I., Zelenkov P., Ognerubov S. The efficiency analysis of automated lines of companies based on DEA method // Lecture Notes in Economics and Mathematical Systems. 2014. T. 675, рр. 107-115.

6. Hasanov E. R., Zelenkov P. V., Bahmareva K. K., Smirnov O. O. Sistema analiza effektivnosti deyatelnosti predpriyatiy sotsialnoy sferyi // Put nauki. 2015. № 1(11). S. 48-49.

7. Kovalev D. I., Tueva E. V., Klimenko A. V., Kovalev I. V., Zelenkov P. V. Analiz organizatsionno-tehnologicheskih kompleksov predpriyatiy na osnove

analiticheskogo metoda otsenki effektivnosti funktsionirovaniya slozhnyih system // Aktualnyie problemy aviatsii i kosmonavtiki. 2014. T. 1. Рр. 314— 316.

8. Goncharova I. S., Kovalev I. V. Povyishenie effektivnosti metoda DEA za schet predvaritelnogo analiza parametrov predpriyatiya // Aktualnyie problemy aviatsii i kosmonavtiki. 2011. T. 1. Рр. 313-314.

© Хасанов Е. Р., Петросян М. О., Першакова К. К., Туева Е. В., Смирнов О. О., 2015

УДК 519.234

ГЕНЕРАЦИЯ РАБОЧЕЙ ВЫБОРКИ НАБЛЮДЕНИЙ ПРИ НЕПАРАМЕТРИЧЕСКОМ

МОДЕЛИРОВАНИИ

Е. А. Чжан

Сибирский федеральный университет Российская Федерация, 660041, г. Красноярск, просп. Свободный, 79 Е-mail: ekach@list.ru

Рассматривается задача повышения качества исходных выборок наблюдений при идентификации дискретно-непрерывных процессов. Исходные данные могут содержать такие недостатки, как разреженности и пропуски. Предложенный алгоритм позволяет устранить такого рода «изъяны», что приводит к повышению точности моделирования в несколько раз. Подобного рода задачи встречаются при моделировании процессов в металлургии, нефтехимии, а также в космической отрасли.

Ключевые слова: непараметрическая идентификация, выборка, анализ данных.

GENERATION OF THE WORKING SAMPLE OBSERVATION IN NONPARAMETRIC MODELING

E. A. Chzhan

Siberian Federal University 79, Svobodny Av., Krasnoyarsk, 660041, Russian Federation E-mail: ekach@list.ru

To identify discrete-continuous processes the problem of improving the quality of source samples is considered. Source data may comprise irregularities such as gaps and emissions. The proposed algorithm eliminates such "flaws ", which leads to higher accuracy of the identification by several times. Such problems are encountered in modeling processes in metallurgy, petrochemical, as well as in the space industry.

Keywords: nonparametric identification, sample, data analysis.

Введение. При рассмотрении производственных процессов в различных областях, таких как металлургия, стройиндустрия, возникает задача построения адекватной модели, которую в дальнейшем можно будет использовать в целях управления. На практике математическое описание объекта остается неизвестным, поэтому целесообразно использовать методы идентификации в широком смысле. В этом случае удается избежать ошибок при выборе математической структуры объекта. Качество модели зависит, прежде всего, от качества исходных данных, а именно, выборки наблюдений входных и выходных переменных. При этом в исходной выборке наблюдений могут присутствовать недостатки, такие как пропуски и разреженности. Предложенный

алгоритм получения рабочей выборки позволяет выявить и устранить данные недостатки, что приведет к повышению точности решения задачи идентификации.

Постановка задачи. Наблюдения в исходной выборке могут располагаться неравномерно - могут существовать области разреженности и пропусков. Для простоты рассуждения и иллюстрации рассмотрим объект, имеющий две входные переменные и одну выходную. Поле корреляции такого объекта может иметь вид, представленный на рисунке. Как видно из рисунка, выборка расположена неравномерно. В областях разреженности и для граничных точек значение прогноза будет неточным или его вовсе не удастся получить.

Математические методы моделирования, управления и анализа данных

В рамках данной работы предлагается искусственно генерировать наблюдения в тех областях пространства входных-выходных переменных, где их плотность невелика. Таким образом, вблизи граничных точек также будут сгенерированы искусственные наблюдения, что приведет к повышению качества восстановления.

Вычислительный эксперимент. Рассмотрим результаты моделирования следующего многомерного объекта:

х(м) = 0,5м1 -5ш3и2 + 0,3из + 0,2м2 , (1)

где % - равномерно распределенная помеха, значения входных переменных распределены в интервале [0;3].

В качестве модели примем непараметрическую оценку функции регрессии по наблюдениям Надарая-Ватсона:

. т / 5 т

х., (м) = IхПф( ( -м/))/ХПФ^1 ( -м/)),

г=1 j=1 / г=1 j=1

_ _ (2) где Ф(с-l(uJ - и/)), г = 1,5, ] = 1, т - ядерная колоко-лообразная функция и коэффициент размытости ядра сц удовлетворяют условиям сходимости [1; 2].

Сгенерируем исходную выборку наблюдений для объекта (1) объемом 1000 наблюдений таким образом, чтобы в ней присутствовали области разреженности. Вид зависимости (1) используется лишь для генерации исходной выборки и в дальнейшем считается неизвестным. Затем с помощью разработанного алгоритма были сгенерированы дополнительные точки, которые в совокупности с исходной выборкой составляют рабочую выборку наблюдений.

Построим непараметрическую модель и вычислим относительную ошибку моделирования, используя в качестве обучающей исходную выборку, объем которой составляет 1000 наблюдений. Восстанавливать оценку (2) будем для элементов исходной выборки. Затем проведем аналогичные вычисления, но уже в качестве обучающей выборки будем использовать рабочую, сгенерированную с помощью предложенного алгоритма.

Относительная ошибка восстановления для исходной выборки составила 0,259. Для 6 наблюдений исходной выборки не удалось получить значение прогноза. Если же в качестве обучающей выборки использовать рабочую, то ошибка уменьшается почти в два раза и составляет 0,195. При этом для всех точек исходной выборки удалось получить значение прогноза. Для граничных точек ошибка восстановления по исходной выборке составила 0,42, в то время как по рабочей выборке - 0,2.

Заключение. Решение задачи идентификации затрудняет как малый объем исходных данных, так и наличие в них изъянов. В данной работе рассмотрены такие недостатки, как подобласти разреженности и отсутствия наблюдения. Разработанный алгоритм позволяет устранить подобного рода недостатки, что приводит к повышению качества восстановления в несколько раз. Приводятся результаты численных экспериментов.

Библиографические ссылки

1. Медведев А. В. Анализ данных в задаче идентификации // Компьютерный анализ данных моделирования. Минск : БГУ, 1995. Т. 2. С. 201-206.

2. Надарая Э. А. Непараметрические оценки плотности вероятности и кривой регрессии. Тбилиси : Изд-во Тбил. ун-та, 1983. 194 с.

References

1. Medvedev A. V. Analiz dannih v zadache identifikacii (Data analysis in the identification problem). Minsk : BGU, 1995. Vol. 2, pp. 201-206.

2. Nadaraya E. A. Neparametricheskie ocenki plotnosti veroyatnosti i krivoj regressii (Non-parametric estimation of the probability density and the regression curve). Tbilisi : Izd. Tbil. т4а (publishing house of the University of Tbilisi), 1983. 194 p.

© Чжан Е. А., 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.