ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.
TECHNICAL SCIENCE. 2018. No 1
УДК 519:616-079.4:616.5 DOI: 10.17213/0321-2653-2018-1-18-22
РОБАСТНЫЕ МЕТОДЫ ПОЛУЧЕНИЯ АДЕКВАТНЫХ СТАТИСТИЧЕСКИХ МОДЕЛЕЙ
© 2018 г. О.В. Шестопал
Южно-Российский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия
ROBUST METHODS FOR OBTAINING ADEQUATE STATISTICAL MODELS
O.V. Shestopal
Platov South Russia State Polytechnic University (NPI), Novocherkassk, Russia
Шестопал Оксана Викторовна - аспирант, ЮжноРоссийский государственный политехнический университет (НПИ) имени М.И. Платова, г. Новочеркасск, Россия. E-mail: [email protected]
Shestopal Oksana Viktorovna - post-graduate student, Platov South-Russian State Polytechnic University (NPI), Novocherkassk, Russia. E-mail: [email protected]
Рассмотрен подход к решению проблемы моделирования многофакторных объектов в случае наличия грубых промахов в исходной таблице данных. Приведен сравнительный анализ по основным статистическим показателям классического метода наименьших квадратов и робастного метода Тейла-Сена. Описаны способы обобщения методов Тейла-Сена и Сигела для многомерного случая, на основе которых можно получить модели исследуемого объекта в виде уравнения многомерной регрессии. Проведены расчеты ряда показателей полученных моделей.
Ключевые слова: промахи; многофакторный случай; МНК; методы Тейла-Сена и Сигела.
The approach to solving the problem of modeling multifactor objects in the case ofpresence of gross misses in the initial data table is considered in the article. This article includes a general formulation of the problem, a comparative analysis of the basic statistical measures of the classical least-squares method and the robust Thail-Sen method. In the next part, methods for generalizing the Thail-Sen and Siegel methods for the multidimensional case are presented, on the basis of which the model of the object under study will be obtained as an equation of multidimensional regression. A number of indicators of the obtained models are calculated.
Keywords: misses; multi-factor case; OLS; Thail-Sen and Siegel methods.
Введение
Эксперименты в научно-производственной практике, как правило, являются многофакторными и связаны с оптимизацией качества материалов, отысканием оптимальных условий проведения технологических процессов, разработкой наиболее рациональных конструкций оборудования и т.д. Поэтому, несмотря на значительный объем выполненных научно-исследователь-
ских работ, из-за отсутствия реальной возможности достаточно полно изучить значительное число объектов исследования, как следствие, многие решения принимаются на основании информации, имеющей случайный характер, и поэтому далеки от оптимальных. Промахи (описки и т.п.) часто устраняют из таблицы наблюдений, не прибегая к каким-либо процедурам проверки, руководствуясь лишь здравым смыслом. Однако и отбрасывать некоторый результат измерения
ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.
TECHNICAL SCIENCE. 2018. No 1
как аномальный, руководствуясь только эмоциями, некорректно. Случайные погрешности могут иметь весьма большие последствия. Поэтому требуется определенная математическая процедура, которая позволит отличить промах от результата с допустимой (хотя и большой по величине) случайной погрешностью. Для выявления результатов, содержащих грубые погрешности, существуют различные статистические методы (критерии), в основе которых, как правило, лежит предположение о том, что результаты наблюдений принадлежат генеральной совокупности, элементы которой распределены по нормальному закону. Результат опыта зависит не только от основных параметров, но и от «шума» объекта, влияние которого носит случайный характер.
Рассмотренные методы получения математических моделей исследуются на чувствительность к таким погрешностям. Чаще всего эти исследования касаются двумерной реализации метода [1].
Постановка задачи
Пусть дана таблица, содержащая результаты контрольных измерений параметров одного типа технологического процесса, причем Х1...Хт -параметры, которые являются входными факторами. Такая таблица представляет собой многомерную («-мерную) выборку. Каждый столбец этой таблицы является одномерной выборкой случайной величины X полученных в результате N>>1 независимых экспериментов.
В данной таблице есть грубые значения, а также пропуски, так как работа специалистов не исключает субъективизма и/или банальной ошибки.
Необходимо исследовать способы получения адекватных многомерных моделей, которые малочувствительны к грубым погрешностям и выбросам при измерении показателей технологического процесса.
Анализ методов решения проблемы
Наиболее распространенными статистическими методами оценки параметров модели являются [1 - 4]:
1. Метод наименьших квадратов.
Общее описание
Первой задачей метода наименьших квадратов для функций вида У = ЬХ + g является вычисление параметров функции - углового коэф-
фициента и свободного члена, которые вычисляются по формулам
b =
( N Л
g=■
хкУк - I xk I Ук
1 У к =1 у У к=1 у
N ( N Л 2
NI x2k - I xk
k=1 У к=1 у
( N Л N Л N Л
I Ук - I хкУк I хк
Ук=1 у кк=1 у У к= 1у
N N > 2
NI х2к - Nx к
к=1 У к=1
(1)
(2)
Для каждой конкретной серии проведенных измерений все величины Хк и ук (к = 1,..., N -определенные числа. Следовательно, величины Ь и g, вычисленные по формулам (1) и (2), также являются определенными числами.
Повторение серии измерений даст нам другие числа Хк, ук и, естественно, несколько отличающиеся значения Ь и g. Это значит, что величины Ь и g, которые представлены как функции результатов измерений, также являются, вообще говоря, случайными величинами. Вычисление по формулам (1), (2) с помощью единственной серии измерений Хк, ук (к = 1,..., N дает лишь конкретные реализации случайных величин Ь и g. Применение метода наименьших квадратов дает не истинные параметры линейной зависимости в и у, а их приближенные значения: Р ~ Ь , У ~ g .
Следовательно, кроме вычисления приближенных значений параметров линейной аппроксимирующей функции, требуется построить доверительные интервалы для искомых параметров Р и у.
Оценочная функция Тейла - Сена
В непараметрической статистике существует метод для робастного линейного сглаживания множества точек (простая линейная регрессия), в котором выбирается медиана наклонов всех прямых, проходящих через пары точек выборки на плоскости [2]. Эта оценочная функция может быть эффективно вычислена, и она нечувствительна к выбросам. Она может быть существенно более точна, чем неробастный метод наименьших квадратов для несимметричных и гетероскедастичных данных, и хорошо конкурирует с неробастным методом наименьших квадратов даже для нормально распределенных
N ( N V N Л
ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.
TECHNICAL SCIENCE. 2018. No 1
данных в терминах статистической мощности. Метод признан «наиболее популярной непараметрической техникой оценки линейного тренда».
Тейл рассматривает оценочную функцию Тейла-Сена множества точек на плоскости (х,, у) как медиану т коэффициентов наклона (У- У')/(х] - хд по всем парам точек выборки. Сен уточнил определение для обработки случая, когда две точки имеют одинаковые координаты х. По определению Сена медиана коэффициентов наклона берётся только по парам точек, имеющих различные координаты х [3].
После вычисления значения наклона т определяют прямую из точек выборки путём выбора Ь - точки пересечения оси у, равной медиане значений у, - тх7. Как заметил Сен, это оценочная функция, которая делает т - коэффициент ранговой корреляции Кендалла сравнения х, с остатком 7-го наблюдения приблизительно равным нулю.
Доверительный интервал для оценки угла наклона может быть определён как интервал, содержащий средние 95 % значений коэффициентов наклона прямых, проходящих через пары точек, и может быть быстро оценён семплирова-нием пар и определением 95 %-го интервала семплированных коэффициентов наклона. Согласно численному моделированию, выборка примерно 600 пар точек достаточна для определения практически точного доверительного интервала.
Существует как минимум несколько способов, по которым оценка Тейла-Сена может быть расширена до двух или более факторов. Первый метод - метод TS - заключается в применении «Ьаскйй^» Гаусса-Зейделя. Метод применяется следующим образом:
1. Установить к = 0 и выбрать начальную
оценку для (у = 1,..., р), например, Ьр. Здесь
исходной оценкой считается оценка Тейла-Сена для наклона, основанная только на у-м регрессо-ре. То есть, чтобы получить начальную оценку Р;, другие факторы просто игнорируются. Начальная оценка Ро является медианой и вычисляется на основе следующих данных:
1=* - bk -1)
У
j=1
j ч '
i = 1,..., n.
i=1, i ф j
Обновленная оценка пересечения Ь(к^ является медианой
У
-Zj}ха, i = 1, ., n.
j=1
2. Увеличить к и обозначить к-ю оценку Ру (у = 1, ..., р) как Ь/к). Оценка наклона по методу Тейла-Сена основывается на оценке регрессии хц
3. Повторять шаг 2 до сходимости приближений [3].
Второй общий подход к расширению оценки Тейла-Сена к нескольким факторам основан на так называемых элементарных подмножествах. В наборе данных регрессии элементарное подмножество состоит из минимального числа случаев, необходимых для оценки неизвестных параметров регрессионной модели. С р-регрессорами расширение Оя и Ниимимаа использует все элементарные подмножества N = п ! / ((р + 1) ! (п - р - 1)!). То есть для каждого элементного подмножества оцениваются параметры наклона, применяя классический МНК. Используется медиана N полученных оценок. То есть, пусть (3- оценка А на основе элементарного подмножества, 7 = 1., N, окончательная оценка Ру будет медианой этих N значений. Одна из практических проблем состоит в том, что число элементных подмножеств быстро растет с п и р. Также следует учесть, что интуитивно некоторые элементарные подмножества дадут очень неточную оценку наклонов. Альтернативная стратегия заключается в использовании (п2 - п)/2 произвольно выбранных элементарных подмножеств, одинакового количества элементарных подмножеств, используемых при р = 1. Что касается эффективности, то результаты Вил-кокса (1998) подтверждают этот подход по сравнению с использованием всех ^элементарных подмножеств. Для удобства этот метод помечен TSG. Следует отметить, что метод оптимизации Гаусса-Зейделя исключает случайный компонент, связанный с только что описанным методом. Метод Гаусса-Зейделя также предлагает меньшее время выполнения.
Третий подход при обобщении оценки Тейла-Сена для р >> 1 факторов состоит в определении таких Ь1, ..., Ьр, чтобы £|ту | приблизительно равнялась нулю, где т^ - коэффициент
корреляции между фактором Ху и разностью у - Ьх -...- Ьрхр [4, 5]. Результаты сравнительного анализа рассмотренных методов представлены в табл. 1.
ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION.
Таблица 1 / Table 1
Сравнительный анализ методов / Comparative analysis of methods
Показатель Метод наименьших квадратов Метод Тейла-Сена
Наличие выбросов Чувствительный Нечувствительный
Гетероскедастич-ность Чувствительный Нечувствительный
Робастность Присутствие даже одного выброса влияет на результат Допускает 29 %-е содержание выбросов
Доверительный интервал (95 %) Основан на нормальном или Стьюдента. Это может не дать точного доверительного интервала Медиана 95 % наклонов формирует доверительный интервал
Сложность О(п) О(п2), несмотря на то что рандомизированные алгоритмы сводят ее к O (n log n)
Асимптотическая эффективность (Размер выборки для разумного соответствия) Небольшая Высокая
Практический результат
Теоретические исследования апробированы на реальных данных технологического процесса выплавки стали в виде матрицы размерности М = 61 столбец (параметр) на N = 5305 строк (количество экспериментов), полученных в ходе пассивного эксперимента. На первом этапе значения параметров были проверены на грубые погрешности (промахи) [6, 10].
В работе при подготовке исходных данных исключены значения, которые не соответствуют нормальному закону распределения. Все значения, не соответствующие критерию «трех сигм», были удалены из рассматриваемой таблицы.
Таблица 2 / Table 2
Исходная таблица данных технологического процесса / InitialProcessDataTable
№ п/п Pari Par 2 Par5 Par38 Par39 Par57 Par58 Par61
1 108,11 14,29 113,70 0,09 0,20 1748,67 202,67 94,00
2 113,19 13,40 113,70 0,12 0,20 1746,50 201,17 97,33
5304 96,70 42,30 118,50 0,13 0,22 1748,50 250,17 85,67
5305 93,90 42,90 125,61 0,11 0,22 1748,33 245,17 81,50
TECHNICAL SCIENCE. 2018. No 1
В табл. 2 представлены только слабокоррелированные факторы и удалены неполные строки. Она сократилась до 36 факторов и 1382 строк. Последний столбец представляет собой значение выходного качественного показателя D, выраженного в относительных единицах.
Математические модели получены несколькими методами: методом наименьших квадратов (МНК), методом наименьших квадратов с предварительной ортогонализацией (МНКО), модифицированным методом случайного баланса (ММСБ), Сигела и Тейла-Сена [6, 7]. Для нахождения модели методом МНК использовался статистический пакет SPSS. Полученная модель имеет вид
y = 104,61-0,00^^5+0,005X6 + 0,067Xn + + 0,006X34+12,88X36+14,4X40 - 0,001X45 + + 0,003X46 + 0,006X47 - 0,012X52 + + 0,146X54 - 0,002X56.
Алгоритм обобщенного метода Тейла-Сена был реализован средствами среды программирования Borland C+ + . Данный алгоритм предполагает применение нахождения медианы для каждого параметра независимо от других. После нахождения всех оценок параметров рассчитывается медиана для свободного члена регрессии.
Полученная модель представлена в следующем виде:
y = 124,66 + 0,009X5 + 0,0003X7 + 0,001X14 + + 6,63X16 + 9,13X17 + 0,00011X24 + 0,004X26 + + 0,001X29 + 9,907X34 + 12,12X37 + 11,05X38 +
+10,91X40 + 3,13X41 + 0,001X46.
Для сравнения были также рассмотрены модели, одна из которых получена методом наименьших квадратов с предварительной ортогона-лизацией: y = 77,19 - 0,058X3 - 0,0004X27 + +12,63Х40 -0,001Х45 + 0,005Х47 -0,163Х55, другая - модифицированным методом случайного баланса: y = 78,03 - 0,42X3 - 0,29X19 + 0,22X26 + +0,55X27 + 0,23X37 + 0,44X40 -0,31X44 -0,62X45 + +0,21X47 - 0,48X55 [8 - 10].
Сравнительная характеристика моделей по некоторым показателям приведена в табл. 3.
Так как Fp < ^табл, следовательно, все модели адекватны и зависимости могут быть использованы для расчета экспериментальных данных.
ISSN 0321-2653 IZVESTIYA VUZOV. SEVERO-KAVKAZSKIYREGION. TECHNICAL SCIENCE. 2018. No 1
Таблица 3 / Table 3 Литература
Сравнительная характеристика моделей / Comparative characteristics of models
Модель b Индекс детерминации R Среднеквадра-тическая ошибка S Адекватность Fp (Лабл= 1)
Тейла-Сена 71,49 0,936 3,08 0,48
Сигела 72,6 0,952 3,05 0,93
МНК 104,61 0,879 2,88 0,43
МНКО 77,19 0,756 3,28 0,59
ММСБ 78,03 0,9 2,98 0,45
Заключение
В статье использованы обобщенные методы Тейла-Сена и Сигела построения модели на основе многомерных выборок, полученных в результате пассивного эксперимента. Рассмотрен пример реализации методов на данных технологического процесса металлургического производства. Выполнен сравнительный анализ моделей, полученных на основе как классических, так и модифицированных методов. Оценочная функция Тейла-Сена является несмещённой оценкой истинного наклона в простой линейной регрессии. Для многих распределений неслучайной ошибки эта оценочная функция имеет высокую асимптотическую эффективность относительно метода наименьших квадратов. Оценочные функции с низкой эффективностью требуют больше независимых наблюдений, чтобы достичь той же дисперсии, что и при эффективных несмещённых оценочных функциях.
1. Фаддеев М.А. Элементарная обработка результатов эксперимента: учеб. пособие. Н. Новгород: ННГУ, 2010.
2. Оценочная функция Тейла-Сена [Электронный ресурс]. Режим доступа: http://www.gpedia.com/ru/gpedia/ (дата обращения 13.10.2017).
3. Rand R. Wilcox. Fundamentals of Modern Statistical Methods: Substantially Improving Power and Accuracy. SpringerVerlag, 2001. С. 207 - 210.
4. Stohastic check for control of electronic wares quality [TeXt] // Trans. of 10-th International Symposium on Applied stochastic Models and Data Analysis. Univ. de Techn. de Com-piegne, France, 2001. Vol. 1. P. 387 - 390.
5. Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are universal approximators // Neural Network. 1989. Vol. 2. P. 366.
6. Долгов Ю.А., Шестопал O.B. Обобщенный метод моделирования по пассивным данным // Докл. итоговой науч. конф. профессорско-преподавательского состава ИТИ. Тирасполь: «Tesline», 2015. C. 95 - 96.
7. Шестопал О.В. Методы отыскания значимых факторов при моделировании технологических процессов // Вестн. Южно-Российского гос. политехн. ун-та (НПИ) им. М.И. Платова. Новочеркасск: 2016. №1. С. 84 - 87.
8. Математическое моделирование металлургических процессов в АСУ ТП / Н.А. Спирин, В.В. Лавров, В.Ю. Ры-боловлев, Л.Ю. Гилева, А.В. Краснобаев, В.С. Швыдкий, О.П. Онорин, К.А. Щипанов, А.А. Бурыкин; под ред. Н.А. Спирина. Екатеринбург: ООО «УИПЦ», 2014. 558 с.
9. Долгов Ю.А. Статистическое моделирование: учебник для
вузов: 2-е изд., доп. Тирасполь: Изд-во Приднестр. ун-та, 2011. 349 с.
10. Долгов Ю.А., Козак Л.Я., Шестопал О.В. Схема математического моделирования технологического процесса плавки стали // Радюелектронш i коми'ютерш системи 2010. № 7. С. 157 - 160.
References
1. Faddeev M.A. Elementarnaya obrabotka rezul'tatov eksperimenta [Elementary processing of the results of the experiment]. Nizh-ny Novgorod NNGU, 2010.
2. Otsenochnaya funktsiya Teila-Sena [Evaluation function of Thaila-Sen]. Available at: http://www.gpedia.com/gpedia (accessed 13.10.2017)
3. Rand R. Wilcox. Fundamentals of Modern Statistical Methods: Substantially Improving Power and Accuracy. Springer-Verlag, 2001. P. 207-210.
4. Stohastic check for control of electronic wares quality [TeXt] // Trans. of 10th International Symposium on Applied Stochastic Models and Data Analysis. Univ. de Techn. de Compiegne, France, 2001. Vol. 1. P.387-390.
5. Hornik K., Stinchcombe M., White H. Multilayer feedforward networks are universal approximators // Neural Network. 1989. Vol. 2. P. 366.
6. Dolgov Yu.A., Shestopal O.V. [Generalized method of modeling on passive data]. Doklady itogovoi nauchnoi konferentsii profes-sorsko-prepodavatel'skogo sostava ITI [Reports of the final scientific conference of the faculty of the ITI]. Tiraspol, «Tesline», 2015, pp. 95-96.
7. Shestopal O.V. Metody otyskaniya znachimykh faktorov pri modelirovanii tekhnologicheskikh protsessov [Methods for finding significant factors in the modeling of technological processes]. Vestnik Yuzhno-Rossiiskogo gosudarstvennogo politekhnich-eskogo universiteta (NPI) im.M.I. Platova, 2016, no. 1, pp. 84-87.
8. Spirin N.A., Lavrov V.V., Rybolovlev V.Yu., Gileva L.Yu., Krasnobaev A.V., Shvydkii V.S., Onorin O.P., Shchipanov K.A., Burykin A.A. Matematicheskoe modelirovanie metallurgicheskikh protsessov v ASU TP [Mathematical modeling of metallurgical processes in the automated process control system]. Ekaterinburg, OOO «UIPTs», 2014, 558 p.
9. Dolgov Yu.A. Statisticheskoe modelirovanie [Statistical modeling]. Tiraspol, Izd-vo Pridnestr.un-ta, 2011, 349 p.
10. Dolgov Yu.A., Kozak L.Ya., Shestopal O.V. Skhema matematicheskogo modelirovaniya tekhnologicheskogo protsessa plavki stali [Scheme of mathematical modeling of the technological process of steel smelting]. Radioelektronni i komp'yuterni sistemi, 2010, no. 7, pp. 157-160.
Поступила в редакцию /Received 03 октября 2017 г. / October 03, 2017