Научная статья на тему 'Обработка данных на основе использования сплайнов для построения гистограммных функций распределения'

Обработка данных на основе использования сплайнов для построения гистограммных функций распределения Текст научной статьи по специальности «Математика»

CC BY
91
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЧИСЛЕННЫЙ ВЕРОЯТНОСТНЫЙ АНАЛИЗ / ГИСТОГРАММНЫЕ ФУНКЦИИ РАСПРЕДЕЛЕНИЯ / СЛУЧАЙНЫЕ СПЛАЙНЫ

Аннотация научной статьи по математике, автор научной работы — Пооль Д. Е.

Рассмотрено использование численного вероятностного анализа и случайных сплайнов для построения гистограммных функций распределения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Обработка данных на основе использования сплайнов для построения гистограммных функций распределения»

124

НАУЧНЫЕ ИССЛЕДОВАНИЯ И РАЗРАБОТКИ МОЛОДЫХ УЧЕНЫХ

3. Добронец Б.С., Попова О.А., Численный вероятностный анализ неопределенных данных: монография. - СФУ ИКИТ, 2014. - 166 с.

4. Добронец Б.С., Попова О.А. Представление и обработка неопределенности на основе гистограммных функций распределения и P-Boxes // Информатизация и связь. - 2014. - № 2. - С. 23-26.

5. Добронец Б.С., Попова О.А. Гистограммный подход к представлению и обработке данных космического и наземного мониторинга // Известия ЮФУ Технические науки. - 2014. - № 6 (155). - С. 14-22.

6. Попова О.А. Гистограммный информационно-аналитический подход к представлению и прогнозированию временных рядов // Информатизация и связь. - 2014. - № 2. - С. 43-47.

7. Попова О.А. Численный вероятностный анализ для агрегации, регрессионного моделирования и анализа данных // Информатизация и связь. -2015. - № 1. - С. 15-21.

8. Dobronets B.S., Krantsevich A.M., Krantsevich N.M. Software implementation of numerical operations on random variables // Журнал Сибирского федерального университета. Серия: Математика и физика. - 2013. - Т 6, № 2. -С. 168-173.

ОБРАБОТКА ДАННЫХ НА ОСНОВЕ ИСПОЛЬЗОВАНИЯ СПЛАЙНОВ ДЛЯ ПОСТРОЕНИЯ ГИСТОГРАММНЫХ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ

© Пооль Д.Е.*

Институт космических и информационных технологий Сибирского федерального университета, г. Красноярск

Рассмотрено использование численного вероятностного анализа и случайных сплайнов для построения гистограммных функций распределения.

Ключевые слова: численный вероятностный анализ, гистограммные функции распределения, случайные сплайны.

Наличие неопределенностей во входных данных при решении многих практических задач приводит к необходимости создания методов, учитывающих эти неопределенности. В настоящее время, все существующие методы и способы входят в область так называемого статистического оценивания. Цель этих подходов заключается в построении эмпирических функций неизвестных распределений вероятностей (или каких-либо их характеристик) по результатам наблюдений. В наиболее распространённом случае

Магистрант кафедры Системы искусственного интеллекта.

Технические науки

125

независимых наблюдений их результаты образуют последовательность (x1, x2, ..., xn) независимых случайных величин (или векторов), имеющих одно и то же (неизвестное) распределение вероятностей с функцией распределения F (x). Часто предполагают, что функция F(x) зависит неизвестным образом от одного или нескольких параметров и определению подлежат лишь значения самих этих параметров.

Два основных вида статистического оценивания - т.н. точечное оценивание и оценивание с помощью доверительных границ (или интервальных методов). В первом случае, в качестве приближённого значения для неизвестной характеристики выбирают какую-либо одну функцию от результатов наблюдений, во втором - указывают интервал значений, с высокой вероятностью «накрывающий» неизвестное значение этой характеристики. В более общих случаях интервалы, образуемые доверительными границами (доверительные интервалы), заменяются более сложными доверительными множествами.

Наличие информации о плотности вероятности случайных величин приводит к возможности при расчетах учитывать и получать результаты в виде случайных величин с построенной плотностью вероятности. Одним из подходов учета случайного характера входных данных является метод Монте-Карло. При всех его положительных качествах этот метод обладает рядом недостатков. Один из самых существенных - низкая скорость сходимости [9]. В тех случаях, когда это возможно, предлагается использовать численный вероятностный анализ (ЧВА) и численные операции над плотностями вероятности случайных величин. ЧВА позволяет существенно поднять точность расчетов при сравнительно небольшом объеме вычислений [2, 3, 4, 9]. Численный вероятностный анализ с успехом применялся для решения ряда задач: представлению и обработке данных космического и наземного мониторинга [6], представлению и прогнозированию временных рядов [7], для агрегации, регрессионного моделирования и анализа данных [8], оценки надежности сложных технических систем [10].

В работе рассматриваются вероятностные расширения кубических сплайнов на случай, когда входные данные представляют собой случайные переменные, заданные своими гистограммами.

Гистограммой называется случайная величина, плотность распределения которой представлена кусочно-постоянной функцией. Гистограмма Р -определяется сеткой (x,| i = 0, ..., n}, на каждом отрезке [xI-1, x], i = 1, ..., n гистограмма принимает постоянное значение pi, h = max(xi - xi-1).

В символическом анализе данных и Data Mining гистограммы используются для исследования множества различных процессов и применяются для описания изменчивости количественных признаков. Использование гистограмм обусловлено, прежде всего, тем, что они позволяют достаточно точно представлять произвольные распределения.

126

НАУЧНЫЕ ИССЛЕДОВАНИЯ И РАЗРАБОТКИ МОЛОДЫХ УЧЕНЫХ

Важно отметить, что, несмотря на свою простоту, гистограммы охватывает все возможные интервалы оценки плотности вероятности. В случае неизвестных плотностей вероятности возможно использование гистограмм второго порядка и гистограммных функций распределения, т.е. кусочногистограммных функций [3, 4, 5].

Пусть (x1, ..., xn) случайные величины с общей функцией распределения F(t). Тогда эмпирическая функция распределения Fn определяется как

F (>)

П

где mt - число элементов xi < t.

Пусть Zi = F(x), i = 1, ..., n. Заметим, что zi, i = 1, ..., n равномерно распределенные случайные величины. Если z1 < z2 <... < zn, то математическое ожидание M[z] = i / (n + 1). Далее, будем использовать точки (zi, i / (n + 1)) для построения аппроксимации функции распределения F(t). Для этих целей будем использовать кубические сплайны [1]. Пусть на отрезке [a, b] задана сетка

т= {xi | a = { < { <... < xN = b} с целым N> 2 и шагами h = х.,, -х., h = max h..

1 0 <i <N-1 ‘

Для построения сплайна s заданы условия интерполяции s(x) = i / (n +1), i = 1,..., n, s(a) = 0, s(b) = 1 и граничные условия

s'(a) = 0, s'(b) = 0.

Заметим, если вместо математических ожиданий i / (n + 1) использовать их точные значения zi, то кубический сплайн удовлетворяет оценке

||Fv-sv||<h4v ||F(4) ||,v = 0,1,2.

Таким образом, даже при небольших значениях размерности сетки n, можно построить достаточно точную аппроксимацию функции распределения F. Задача построения сплайна сводится к решению системы линейных алгебраических уравнений с трех диагональной матрицей

hjMj-i + 2i + ц = dj,

2m+m = 3(zj - z0 )/h - hzV 2,

2mN + mN-1 = 3(ZN - ZN-1 11n + 1nZN2,

dj = 3Aj(zj-zj-1)/h+3^j(z-+1-z)/h+1, j=^N-1,

Технические науки

127

где ш, = s'(x,). Матрица этой системы является детерминированной и ее правая часть содержит случайные переменные. Таким образом, в силу детерминированности матрицы решение ш,, i = 1, ..., n может быть представлено в виде линейной комбинации элементов правой части. В результате кубический сплайн на интервалах [xj-b xj], j = 1, ., n имеет представление:

s(x) = m .ч (Xj - x)2(x - x .ч )/h2 - Mj (x - xj X )2 (Xj - x)/h2j +

+zj_y(xj -x)2(2(x-Xj_j) + hj)/h3 ++Zj(x-x^l)2(2(Xj -x)+hj)/h2.

Рис. 1. Гистограммная функция распределения [1]

Пустьpz совместное распределение плотности вектора z1, z, ..., zn. Тогда заменив z их совместной плотности вероятности и с помощью численного вероятностного анализа, мы получим оценку плотности вероятности для компонентов ш, и построим случайный сплайн, аппроксимирующий гистограммную функцию распределения [3, 4, 5].

На рис. 1 представлена гистограммная функция распределения, аппроксимирующая случайный сплайн [1]. Значения плотностей вероятности представлены оттенками серого.

Список литературы:

1. Dobronets B., Popova O. Numerical probabilistic approach for data nonparametric analysis // В сб.: Applied methods of statistical analysis. Nonparametric approach. Proceedings of the international workshop. - 2015. - С. 376-384.

2. Добронец Б.С., Попова О.А. Элементы численного вероятностного анализа // Вестник Сибирского государственного аэрокосмического университета им. академика М.Ф. Решетнева. - 2012. - № 2 (42). - С. 19-23.

3. Добронец Б.С., Попова О.А. Численный вероятностный анализ неопределенных данных: монография / Сибирский федеральный университет, Институт космический и информационных технологий. - Красноярск, 2014. -167 с.

4. Добронец Б.С., Попова О.А. Численный вероятностный анализ для исследования систем в условиях неопределенности // Вестник Томского го-

128

НАУЧНЫЕ ИССЛЕДОВАНИЯ И РАЗРАБОТКИ МОЛОДЫХ УЧЕНЫХ

сударственного университета. Управление, вычислительная техника и информатика. - 2012. - № 4 (21). - С. 39-46.

5. Добронец Б.С., Попова О.А. Представление и обработка неопределенности на основе гистограммных функций распределения и P-Boxes // Информатизация и связь. - 2014. - № 2. - С. 23-26.

6. Добронец Б.С., Попова О.А. Гистограммный подход к представлению и обработке данных космического и наземного мониторинга // Известия ЮФУ Технические науки. - 2014. - № 6 (155). - С. 14-22.

7. Попова О.А. Гистограммный информационно - аналитический подход к представлению и прогнозированию временных рядов // Информатизация и связь. - 2014. - № 2. - С. 43-47.

8. Попова О.А. Численный вероятностный анализ для агрегации, регрессионного моделирования и анализа данных // Информатизация и связь. -2015. - № 1. - С. 15-21.

9. Dobronets B.S., Krantsevich A.M., Krantsevich N.M. Software implementation of numerical operations on random variables // Журнал Сибирского федерального университета. Серия: Математика и физика. - 2013. - Т 6, № 2. -С. 168-173.

10. Uglev VA., Popova O.A., Dobronets B.S. The accuracy calculation control of reliability indices for equipment responsible appointment // International Siberian Conference on Control and Communications (SIBCON). - Omsk: OmGTU, 2015. Print ISBN: 978-1-4799-7102-2 DOI: 10.1109/SIBCON.2015. 7147248.

ПРОБЛЕМА ИССЛЕДОВАНИЯ ФОРМИРОВАНИЯ ШИРИНЫ ПОЛОСЫ В ПРОЦЕССЕ ПРОКАТКИ ВЫСОКОРЕНТАБЕЛЬНЫХ ВИДОВ МЕТАЛЛОПРОДУКЦИИ

© Ращикулин Д.Д.*

Магнитогорский государственный технический университет имени Г.И. Носова, г. Магнитогорск

В статье рассматривается проблема формирования ширины полосы при холодной прокатке тонколистовой стали. Особое внимание уделено поперечному течению металла в очаге пластической деформации и решению частного случая задачи объемной деформации, а также основным факторам влияющим на нее. Это позволит избежать ряда дефектов металлопродукции, что принесет значительный экономический эффект.

Ключевые слова объемная деформация, холодная прокатка, поперечное течение металла, очаг пластической деформации.

Аспирант.

i Надоели баннеры? Вы всегда можете отключить рекламу.