УСЕЧЕННЫЙ МЕТОД АНТИРОБАСТНОГО ОЦЕНИВАНИЯ В РЕГРЕССИОННОМ АНАЛИЗЕ

Носков Сергей Иванович; Кириллова Татьяна Климентьевн; Чекалова Александра Романовна

УДК 330.4

DOI: 10.24412/2071-6168-2023-11-304-305

УСЕЧЕННЫЙ МЕТОД АНТИРОБАСТНОГО ОЦЕНИВАНИЯ В РЕГРЕССИОННОМ АНАЛИЗЕ

С.И. Носков, Т.К. Кириллова, А.Р. Чекалова

В работе поставлена более общая задача по сравнению с той, которая соответствует методу антиро-бастного оценивания параметров линейной регрессионной модели, состоящая в минимизации максимальной ошибки аппроксимации для группы наблюдений, выделенной из заданной полной выборки данных, с одновременной минимизацией суммы абсолютных отклонений расчетных значений зависимой переменной от фактически заданных для оставшихся наблюдений. Соответствующий метод предложено называть усеченным методом антиробастного оценивания. Показано, что его реализация сводится к решению задачи линейного программирования приемлемой для практических ситуаций размерности. Решен простой численный демонстрационный пример.

Ключевые слова: линейная регрессионная модель, расстояние Чебышева, ошибки аппроксимации, задача линейного программирования, методы наименьших модулей и антиробастного оценивания параметров.

В практике математического моделирования сложных объектов различного характера активно используется расстояние (метрика) Чебышева. Так, в работе [1] предложена полиномиальная нейронная сеть Чебышева для прогнозирования на один день вперед трех различных наборов данных для стоимости чистых активов, принадлежащих трем ведущим индийским финансовым компаниям. Управляющие параметры сети оцениваются с помощью интеллектуального метаэвристического алгоритма. В [2] отмечено, что для подгонки кривых или поверхностей к наблюдаемым или измеренным данным общим критерием является регрессия по ортогональному расстоянию. В работе рассматривается естественное обобщение частной постановки этой задачи, предполагающее замену метода наименьших квадратов нормой Чебышева. Например, этот критерий может быть более подходящим в контексте решений о приемке/отбраковке изготовленных деталей. Сформулированная проблема имеет некоторые интересные особенности - она имеет много структур, которые можно использовать, но, как правило, полученное решение не является уникальным. В статье [3] введено новое понятие универсально оптимального плана эксперимента, актуальное с точки зрения адаптивного непараметрического оценивания. Показано, что как дискретные, так и непрерывные планы Чебышева универсально оптимальны в задаче подбора правильно взвешенных алгебраических полиномов к случайным данным. Результат является прямым следствием известной связи между полиномами Чебышева и тригонометрическими функциями. В работе [4] описывается метод компенсации комплексных геометрических и тепловых погрешностей станков. Вначале с помощью метода однородной матрицы преобразования создается синтезированная объемная модель с учетом как геометрических, так и тепловых эффектов. Затем, чтобы повысить точность моделирования и эффективность геометрических составляющих ошибок, предлагается алгоритм автоматического моделирования с использованием ортогональной регрессии наименьших квадратов на основе полинома Чебышева. В работе [5] указано, что понятия расстояния и сходства играют ключевую роль во многих подходах к машинному обучению и искусственному интеллекту в целом, поскольку они могут служить организующим принципом, с помощью которого люди классифицируют объекты, формируют концепции и делают обобщения. В то время как функции расстояния для пропозициональных представлений были тщательно изучены, работа над функциями расстояния для структурированных представлений, таких как графы, фреймы или логические предложения, проводилась в различных сообществах и гораздо менее понятна. В частности, значительный объем работы, требующий использования функции расстояния или сходства для структурированных представлений данных, обычно использует специальные функции для конкретных приложений. Дан обзор результатов по данной проблематике. Статья [6] посвящена новому методу кластеризации данных, который сочетает в себе расстояние Минковского с расстоянием Чебышева. Достаточно большой и сложный объем данных становится одной из трудностей при проведении анализа многомерных данных. Чтобы преодолеть эту проблему, одним из используемых способов является уменьшение размеров выборок данных с использованием анализа главных компонент.

Минимизация максимальной ошибки аппроксимации для группы наблюдений. В работах [7-9] развит метод антиробастного оценивания (МАО) параметров линейной регрессионной модели вида:

У*= E^AÍ + efc, kE Р = {1,2.....и}, (1)

где у - зависимая, а - г'-ая независимая переменные, at - г'-ый подлежащий оцениванию параметр, Ек - ошибки аппроксимации, к - номер наблюдения, n - длина выборки данных. Будем считать все переменные и ошибки уравнения (1) детерминированными.

Представим уравнение (1) в векторной форме:

у = Ха + £,

где у = (У1,—,Уп)Т, <х = (%,..., am)T, е = (e-l,... , £п)т, X- (nxm) - матрица с компонентами хк1.

Идентификация неизвестных параметров модели (1) с помощью основанного на расстоянии Чебышева между расчетными и фактическими значениями зависимой переменной метода антиробастного оценивания производится путем решения следующей оптимизационной задачи:

J (а) = min m ах |£fc|. (2)

Такое название метода вызвано его тяготением к выбросам (наблюдениям, не согласующимся с выборкой в целом), в отличие от робастных методов, слабо реагирующих на выбросы или вообще их игнорирующих. К последним относится, например, метод наименьших модулей (МНМ) (см., например, [10-12]).

В [7] показано, что задача (2) может быть сведена к задаче линейного программирования (ЛП) следующим образом.

Введем в рассмотрение неотрицательные переменные uk,vk,k EP:

и =(£к, если Ек> 0 к (0, в противном случае,

Системный анализ, управление и обработка информации

_ —£к,если £к<0 Vk ~ (0,в противном случае.

Тогда модель (1) можно представить в виде системы линейных равенств и условий неотрицательности переменных:

E^i^Xm +ик -vk = yfc,fe £ Р, (3)

ufc>0,vfc>0,feeP. (4)

Введем максимальную по модулю ошибку аппроксимации r:

r = max | £к |.

к£Р 1

Тогда справедлива система линейных неравенств

+ - r < 0, fee P, (5)

причем для какого-то наблюдения имеет место строгое равенство. Таким образом, задача (2) сводится к задача ЛП с ограничениями (3) - (5) и целевой функцией

г ^ min. (6)

Поставим задачу более общим образом. Выделим из индексного множества исходных номеров наблюдений Р некоторое его усечение - подмножество Р1 е Р. Переформулируем задача (2), потребовав минимизации максимальной ошибки аппроксимации на наблюдениях из с одновременной минимизацией суммы абсолютных отклонений для оставшихся наблюдений - из множества Р\Р^

A (a) = min (ma* |£fc| + pZfceP\Pl |£fc|), (7)

где p - наперед заданная малая положительная константа.

Такую модификацию МАО будем называть усеченным методом антиробастного оценивания. Необходимость выделения усечения Р1 из множества Р может быть вызвана различными соображениями, следующими из целей моделирования конкретного объекта или процесса.

Заменим ограничения (5) следующими:

Mfc + - r1 < 0, fee Pi, (8)

а целевую функцию (6) - на

+ PYkeP\Pl(uk +vk) ^ min. (9)

Тогда усеченный МАО реализуется путем решения задачи ЛП (3), (4), (8), (9).

Заметим, что усеченный МАО является своего рода обобщением МНМ и МАО. Действительно, при Pj=P задача ЛП (3), (4), (8), (9) позволяет реализовать МАО, а при Рг=0 - МНМ.

Рассмотрим простой численный пример. Пусть дана выборка:

(3 1

Необходимо построить линейную двухфакторную регрессию без свободного члена

Ук = «Ai + + £fc, fee р= {1,2.....5} (10)

с помощью МНМ, МАО и усеченного МАО, причем в последнем случае с множеством Pj = {1,2,4,5}.

В результате получим следующие три варианта модели (10):

а). МНМ:

ук = 0.575xfcl + 0.692xfc2 + £fe, Efc£p |£fc|=6.807, r = 3.73.

б). МАО:

yk = 0.777xfcl + 0.296xfc2 + £k, Zkep |efc|=8.592, r = 2.737.

в). Усеченный МАО:

Ук = 1.0xfel + 0.5xfc2 + £k, Efcep|£fc|=n, r^l.5.

Очевидно, что оценки параметров для них весьма различаются.

Заключение. В работе предложен способ постановки более общей задачи, чем та, которая соответствует методу антиробастного оценивания параметров линейной регрессионной модели, а именно: минимизации максимальной ошибки аппроксимации на группе наблюдений из полной выборки данных с одновременной минимизацией суммы абсолютных отклонений для оставшихся наблюдений. Показано, что вычислительная реализация этого способа сводится к решению задачи линейного программирования. Решен численный пример.

7 5 8

9 8 , У = 7

2 7 6

W 1/ W

Список литературы

1. Mohanty S., Dash R. A flower pollination algorithm based Chebyshev polynomial neural network for net asset value prediction // Evolutionary Intelligence. 2023. V. 16. P. 115-131.

2. Al-Subaihi I., Watson G.A. Fitting Parametric Curves and Surfaces by (от Distance Regression // BIT Numerical Mathematics. 2005. V. 45. P. 443-461.

3. Levit B. Some new perspectives in best approximation and interpolation of random data // Mathematical Methods of Statistics. 2013. V. 22. P. 165-192.

4. Zihan Li, Jianguo Yang, Kaiguo Fan, Yi Zhang. Integrated geometric and thermal error modeling and compensation for vertical machining centers // The International Journal of Advanced Manufacturing Technology. 2015. V. 76. P. 1139-1150.

5. Ontanôn S. An overview of distance and similarity functions for structured data // Artificial Intelligence Review. 2020. V. 53. P. 5309-5351.

6. Surono S., Putri R.D.A. Combination of Minkowski and Chebyshev Distance Using Principal Component Analysis // International Journal of Fuzzy Systems. 2021. V. 23. P. 139-144.

7. Носков С.И. Метод антиробастного оценивания параметров линейной регрессии: число максимальных по модулю ошибок аппроксимации // Южно-Сибирский научный вестник. 2020. № 1. С. 51-54.

8. Носков С.И. Метод смешанного оценивания параметров линейной регрессии: особенности применения // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2021. № 1. С. 126-132.

9. Носков С.И. Построение производственной функции с постоянными пропорциями методом антиробастного оценивания // Известия Тульского государственного университета. Технические науки. 2022. № 3. С. 383387.

10. Носков С.И., Перфильева К.С. Эмпирический анализ некоторых свойств метода смешанного оценивания параметров линейного регрессионного уравнения // Наука и бизнес: пути развития. 2020. № 6 (108). С. 62-66.

11. Носков С.И. Метод максимальной согласованности в регрессионном анализе // Известия Тульского государственного университета. Технические науки. 2021. № 10. С. 380-385.

12. Носков С.И. L-множество в многокритериальной задаче оценивания параметров регрессионных уравнений // Информационные технологии и проблемы математического моделирования сложных систем. 2004. № 1. С. 164-171.

Носков Сергей Иванович, д-р техн. наук, профессор, [email protected]. Россия, Иркутск, Иркутский государственный университет путей сообщения,

Кириллова Татьяна Климентьевн, канд. экон. наук, доцент, заведующий кафедрой, [email protected]. Россия, Иркутск, Иркутский государственный университет путей сообщения,

Чекалова Александра Романовна, магистрант, [email protected]. Россия, Иркутск, Иркутский государственный университет путей сообщения

TRUNCATED METHOD OF ANTIROBASTE ESTIMATION IN REGRESSION ANALYSIS S.I. Noskov, T.K. Kirillova, A.R. Chekalova

The work sets a more general task compared to the one that corresponds to the method of antirobust estimation of linear regression parameters, namely: minimizing the maximum approximation error on a group of observations selected from the full data sample, while simultaneously minimizing the sum of absolute deviations of the calculated values of the dependent variable from the actual specified for the remaining observations. It is proposed to call the corresponding method the truncated antirobust estimation method. It is shown that its computational implementation reduces to solving a linear programming problem. A numerical example has been solved.

Key words: linear regression model, Chebyshev distance, approximation errors, linear programming problem, methods of least moduli and antirobust parameter estimation.

Noskov Sergey Ivanovich, doctor of technical sciences, professor, sergey.noskov.57@,mail.ru. Russia, Irkutsk, Irkutsk State Railway University,

Kirillova Tatyana Klimentyevna, candidate of economic sciences, docent, head of the department, kirillo-va^k^rzups^, Russia, Irkutsk, Irkutsk State Railway University,

Chekalova Aleksandra Romanovna, master's, [email protected]. Russia, Irkutsk, Irkutsk State Transport

University

УДК 004

DOI: 10.24412/2071-6168-2023-11-306-307

ЦИФРОВИЗАЦИЯ КОНСТРУКТОРСКОЙ ТЕХНОЛОГИЧЕСКОЙ ПОДГОТОВКИ ПРОИЗВОДСТВА

НА БАЗЕ «RATIONAL ROSE»

Т.Ю. Климова, И.Н. Хаймович

Целью статьи является описание метода создания новой информационной системы (ИС) документооборота конструкторской технологической подготовки производства (КПП) для цифрового завода в рамках предприятий занятых различными видами промышленности . В статье описаны понятия «цифровой завод», «цифровая фабрика» и описан алгоритм работы от создания диаграмм в «Rational Rose» с дальнейшей генерацией кода для С++.

Ключевые слова: умное производство, цифровизация, КТПП, цифровой завод, «RATIONAL ROSE», «SMART TEAM», кодирование.

Для современного, конкурентоспособного промышленного предприятия необходимым аспектом является эффективная технологическая подготовка производства [1].

Цифровизация КПП позволяет повысить производительность труда, сократить объем бумажной документации, сократить экономические затраты на производство и ускорить выпуск готовой продукции. Эффективность цифрового завода заключается в уменьшении ручного труда за счет увеличения автоматизации.

Цифровые заводы предлагают предприятиям новые возможности для оптимизации и улучшения качества своих производственных процессов.

Концептуальная модель цифрового завода может быть применена на любом производственном предприятии промышленной отрасли [2-4].

УСЕЧЕННЫЙ МЕТОД АНТИРОБАСТНОГО ОЦЕНИВАНИЯ В РЕГРЕССИОННОМ АНАЛИЗЕ Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Носков Сергей Иванович, Кириллова Татьяна Климентьевн, Чекалова Александра Романовна

Похожие темы научных работ по математике , автор научной работы — Носков Сергей Иванович, Кириллова Татьяна Климентьевн, Чекалова Александра Романовна

TRUNCATED METHOD OF ANTIROBASTE ESTIMATION IN REGRESSION ANALYSIS

Текст научной работы на тему «УСЕЧЕННЫЙ МЕТОД АНТИРОБАСТНОГО ОЦЕНИВАНИЯ В РЕГРЕССИОННОМ АНАЛИЗЕ»