УДК 330.4
DOI: 10.24412/2071-6168-2024-7-189-190
ПРИМЕНЕНИЕ МЕТОДА АНТИРОБАСТНОГО ОЦЕНИВАНИЯ ДЛЯ ВЫЧИСЛЕНИЯ ОЦЕНОК
ПАРАМЕТРОВ ОДНОРОДНОЙ ФОРМЫ ВЛОЖЕННОЙ КУСОЧНО - ЛИНЕЙНОЙ РЕГРЕССИИ
С.И. Носков, Т.К. Кириллова, В.С. Ведерников
Целью исследование является разработка способа идентификации параметров однородной вложенной кусочно-линейной регрессионной модели первого типа методом антиробастного оценивания, который, в отличие от метода наименьших модулей, сильно тяготеет к выбросам в данных. Этот способ состоит в сведении исходной задачи к задаче линейно-булева программирования. Она имеет приемлемую размерность для решения практических проблем моделирования. Результаты решения численного примера указывают на эффективность предложенного в работе подхода. Констатировано, что окончательный выбор метода идентификации параметров вложенных кусочно-линейных моделей должен оставаться за исследователем.
Ключевые слова: однородная вложенная кусочно-линейная регрессия, идентификация параметров, метод наименьших модулей, метод антиробастного оценивания, выбросы в данных, задача линейно-булева программирования.
Методы регрессионного анализа весьма эффективны при исследовании сложных систем путем построения и последующего многоаспектного применения их адекватных математических моделей. При этом наиболее часто используются линейные зависимости, параметры которых оцениваются с помощью обычного метода наименьших квадратов. Вместе с тем, характер объекта анализа иногда требует привлечения сложных регрессионных конструкций и других методов идентификации их параметров, в частности, основанных на расстоянии Чебышева между расчетными и реальными значениями выходной переменной. Так, в работе [1] предлагается расстояние, которое объединяет расстояния Минковского и Чебышева и может рассматриваться как промежуточное расстояние. Эта комбинация не только обеспечивает эффективное время выполнения задач соседней итерации, но также позволяет достичь хорошей точности в сочетании с классификатором k-ближайших соседей. В [2] предлагается новая последовательность ортогональных полиномов, меняющихся в зависимости от коэффициентов, — унифицированные полиномы Чебышева, - обладающие двумя важными свойствами: ортогональностью и адаптивностью. На основе этих новых полиномов строится новая функция ядра — единое ядро Чебышева (ЕЯЧ), которое, как было доказано, является действительным ядром. Для нахождения оптимального коэффициента полинома и оптимального ядра предложен адаптивный алгоритм, основанный на критерии оценки адаптивной способности ЕЯЧ. В исследовании [3] представлены и обсуждаются некоторые новые результаты модели на основе специального задания расстояния для прогнозирования со смешанными переменными. Эту модель можно рассматривать как линейную модель, в которой переменные-предикторы образуются из наблюдаемых посредством классического многомерного масштабирования. Статья [4] посвящена аппроксимации энтропий различных типов с использованием методов регрессии машинного обучения. Модели машинного обучения, представленные в этом исследовании, определяют сложность коротких временных рядов путем аппроксимации различных методов энтропии, таких как энтропия разложения по сингулярным значениям, энтропия перестановок, выборочная энтропия и энтропия нейронной сети, а также их 2D аналогии. В работе [5] с помощью видимой гиперспектральной визуализации спектроскопии были изучены различные стратегии обновления модели определения пола куколок тутового шелкопряда новых видов. Были применены различные методы выбора переменных, включая исключение неинформативных факторов и синергический интервальный метод наименьших квадратов. Для обновления исходной калибровочной модели использовались различные методы обработки выборки, включающие алгоритм Кеннарда Стоуна, манхэттенское и евклидово расстояние, а также расстояние Чебышева. В статье [6] описан метод множеств идентификации, основанный на аппроксимации и визуализации многомерного графика функции ошибок идентификации, а также множеств квазиоптимальных параметров. Метод «позволяет получить и обосновать многовариантное решение задач идентификации и прогнозирования на основе визуального исследования метрической устойчивости оптимального решения по параметрам». В работе [7] предлагается бесправдоподобный подход к оценке параметров, основанный на методе приближенных байесовских вычислений. Он реализует прямое моделирование в сочетании с механизмом отклонения для выборки из целевого апостериорного распределения, тем самым устраняя необходимость оценивать функцию правдоподобия. Преимущества предложенного метода проиллюстрированы на примере анализа данных о деградации, полученных на канадской атомной электростанции. Исследование [8] посвящено описанию модификации метода ближайшего соседа, основная идея которой состоит в том, чтобы переопределить метрику расстояния, чтобы оперировать только с подмножеством соответствующих переменных, предполагая, что они имеют одинаковую важность для модели классификации. Переопределены три различные меры расстояния: Евклида, манхэттенское и Чебышева. В [9] предлагается простая и эффективная метрика и функция потерь при построении регрессионной модели, не ней основанная, — усеченное структурно-ориентированное расстояние, которое определяется как стандартизированное расстояние Че-бышева. В статье [10] представлен всесторонний обзор применения методов машинного обучения в области сварки трением с перемешиванием: многолинейная регрессия, K-ближайшего соседа, алгоритм случайного леса, регрессия гауссовского процесса, искусственная нейронная сеть, метод опорных векторов, нейронная сеть с радиальной базисной функцией, нечеткая система, адаптивная система нейро-нечеткого вывода.
Постановка задачи. Будем предполагать, что при построении математической модели анализируемого объекта исследователь выявляет характер влияния входных (независимых) переменных хи х2,..., хт на выходную переменную у, т.е. считает, что имеет место регрессионная зависимость (модель):
yk= F(a; хкъ xfc2,..., хкт) + Ек, к =Т/п. (1)
Здесь F - аппроксимирующая вещественная функция, а - вектор идентифицируемых параметров, £ - ошибки аппроксимации, к - номер наблюдения выборки, п - ее длина. Все переменные в модели (1) детерминированы.
В рамках прикладного анализа данных разработано значительное число форм связи между переменными (форм функции F). Так, в работах [11, 12] одним из авторов предложены вложенные кусочно-линейные регрессии:
- простая вложенная кусочно-линейная регрессия первого типа
yk = min{ minleI { atxki}, maxi€J{ ßtxki}} + sk, (2)
- простая вложенная кусочно-линейная регрессия второго типа
yk = max{ minie[{ atxki}, maxie}{ ßtxkl}} + ek, (3)
- однородная вложенная кусочно-линейная регрессия первого типа
yk = min{ minleIi { ajxki}.....minleIa { a^xkl}} + ek, (4)
- однородная вложенная кусочно-линейная регрессия второго типа
yk = max{ maxie}i { ßfxki}.....тах1е}н{ ß?xki}} + £к, (5)
где индексные множества I1, i = 1, G, J1, i = 1, Н являются подмножествами множества номеров независимых переменных {1,2,.. ,,т}:
I,},11 £ {1,2.....т}, i = Tg, ]l £ {1,2,..., т}, i = ТЙ.
При этом будем допускать их всевозможные непустые попарные пересечения.
В случае, когда в качестве функции потерь выбрана соответствующая методу наименьших модулей (МНМ) сумма абсолютных ошибок аппроксимации
11=1^(6) задачи оценивания параметров вложенных кусочно-линейных регрессий (2) - (5) могут быть сведены к задачам линейно-булева программирования (ЛБП) [13, 14].
Известно (см., например, [15]), что МНМ относится к числу робастных и не просто слабо реагирует на выбросы в данных - наблюдения, не согласующиеся с выборкой в целом, - но и попросту их игнорирует.
Поставим задачу минимизации противоположной по смыслу по отношению к (6) функции потерь для вложенных кусочно-линейных регрессий, соответствующей методу антиробастного оценивания параметров (МАО):
lim Y,h=i\£k\v = max\ek\ ^ min. (7)
V^rn к=1,п
Напомним, что в научный оборот термин «антиробастное оценивание» ввел в своей классической монографии [16, с. 177] Демиденко Е.З. Реакция МАО на выбросы очевидна из самого названия метода - он сильно к ним тяготеет.
Вычисление параметров однородной формы вложенной кусочно-линейной регрессии методом антиробастного оценивания. Рассмотрим задачу (7) для модели (4). Заметим, что для других вложенных зависимостей ее решение будет аналогичным, с некоторыми естественными коррективами.
Как уже отмечалось выше, задача (6) для данного случая сводится к задаче ЛБП [13]. Действительно, введем следующие обозначения:
vkj = miniEI] { aJtxki}, к = 1, п, j = 1, G, wk = min vkj, к = 1, п.
j=1,G '
Тогда эквивалентная (7) задача ЛБП с использованием вычислительного приема, примененного, в частности, в работе [15], примет вид:
vkj < aJtxki, к = 1, n, iE I-1, j = 1, G, (8)
aixki — vkJ < (1 — skij)M1, к = 1, П, iE I-i, j = 1, G, (9)
ZieP skij = 1, к =Vn, j = TG, (10)
wk < vkj, к = 1, n, j = 1, G, (11)
vkJ —wk<(1 — rkJ)M2, к = Tn, j = 1g, (12)
l%irkj=1, к = 1, n, (13)
wk + uk — vk = yk, к = 1n, (14)
ük + vk-1 < 0, к = 1, n, (15)
uk > 0, vk> 0, к = 1, n, (16)
skiJ E {0,1}, к = Tin, i E IJ, j = TiG, (17)
rkJ E {0,1}, к = Tin, j = TG, (18)
t + Pi Гк=1(йк + vk) + P21LGj=i1LiEii а( ^ min. (19)
Здесь М1 и М2 - наперед заданные большие, а р1 и р2 - напротив, малые положительные числа.
Присутствие в целевой функции задачи ЛБП (8) - (19) второго слагаемого обеспечивает выполнение следующего из определения переменных йк и vk условия:
ukvk = 0, к = 1, п.
Третье же слагаемого в (19) гарантирует единственность полученных оценок параметров a]i, Е Р, j = 1, G и отсутствие среди них лишенных смысла значений [17].
Рассмотрим численный пример из работы [13]. Выборка данных в нем имеет вид:
¡2 4 3\ ¡3
v 719 \ 4
Х = [в 1 в), У = \12 \3 8 4) \9
При этом G=2, 11={1,2}, 12={2,3}. В результате решения соответствующей задачи ЛБП методом наименьших модулей построена однородная кусочно-линейная регрессия первого типа:
ук = min{min{2xk1,4xk2},min{4xk2,1.5xk3} + ек, к = 1,4, (20)
Tk=i\£k\=4, max\ek|=3.
k=1,4
Пересчитаем параметры модели (20) путем применения к ней МАО, решив задачу ЛБП (8) - (19). В результате получим значения переменных:
а1=(2.4, 2.2), а2=(2.2, 1.8),
5=1=
w=
Таким образом, пересчитанная однородная кусочно-линейная регрессия первого типа примет вид:
yk = min{min[2Axk1,2.2xk2},min{2.2xk2,1.8} + ек, к = 1,4, (21)
Y%=i\£k| =6.4, max|£fc|=1.8.
k=1,4
Сумма модулей ошибок для модели (21) больше, чем для модели (20), в 1.6 раза, однако максимальная ошибка меньше в 1.67 раза.
Разумеется, окончательный выбор метода идентификации параметров вложенных кусочно-линейных моделей должен оставаться за исследователем.
Заключение. В работе предложен способ идентификации параметров однородной формы вложенной кусочно-линейной модели методом антиробастного оценивания, сводящийся к решению задачи линейно-булевого программирования.
Список литературы
1. Rodrigues E.O. Combining Minkowski and Chebyshev: New distance proposal and survey of distance metrics using k-nearest neighbours classifier // Pattern Recognition Letters. 2018. V.110. P. 66-71.
2. Jinwei Zhao , Guirong Yan, Boqin Feng, Wentao Mao, Junqing Bai. An adaptive support vector regression based on a new sequence of unified orthogonal polynomials // Pattern Recognition. 2013. V.46, № 3. P. 899-913.
3. Cuadras C. M., Areans C., Fortiana J. Some computational aspects of a distance - based model for prediction // Communications in Statistics - Simulation and Computation. 1996. V. 25. №3. P.593-609.
4. Velichko A., Belyaev M., Wagner M.P., Taravat A. Entropy Approximation by Machine Learning Regression: Application for Irregularity Evaluation of Images // Remote Sensing. 2022. 14(23). 5983.
5. Dan Tao, Guanlei Li, Guangying Qiu, Shiming Chen , Guanglin Li. Different variable selection and model updating strategies about sex classification of silkworm pupae // Infrared Physics & Technology. 2022. V. 127. 104471.
6. Каменев Г.К. Метод идентификации моделей с плохими или неполными данными // Труды отдела математического моделирования экономических систем. 2017. С. 94-142.
7. Hazra I., Pandey M.D. A likelihood-free approach towards Bayesian modeling of degradation growths using mixed-effects regression // Computers & Structures. 2021. V. 244. 106427.
8. Lopez J., Maldonado S. Redefining nearest neighbor classification in high-dimensional settings // Pattern Recognition Letters. 2018. V. 110. №15. P. 36-43.
9. Xiaowen Huang, Jun Dong, Zhijia Zhu, Dong Ma, Fan Ma, Luhong Lang. TSD-Truncated Structurally Aware Distance for Small Pest Object Detection // Sensors 2022, 22(22). 8691.
10. Elsheikh A.H. Applications of machine learning in friction stir welding: Prediction of joint properties, realtime control and tool failure diagnosis // Intelligence. 2023. V. 121. 105961.
11. Носков С.И. Подход к формализации вложенной кусочно-линейной регрессии // Международный журнал гуманитарных и естественных наук. 2023. № 1-2 (76). С. 218-220.
12. Носков С.И. Некоторые формы вложенной кусочно-линейной регрессии // Известия Тульского государственного университета. Технические науки. 2023. № 3. С. 467-469.
13. Носков С.И., Белинская С.И. Вычисление оценок параметров однородной вложенной кусочно-линейной регрессии // Вестник Дагестанского государственного технического университета. Технические науки. 2023. Т. 50. № 4. С. 115-120.
14. Носков С.И. Идентификация параметров простой формы вложенной кусочно-линейной регрессии // Ученые записки Комсомольского-на-Амуре государственного технического университета. 2023. № 3 (67). С. 57-61.
15. Носков С.И. L-множество в многокритериальной задаче оценивания параметров регрессионных уравнений // Информационные технологии и проблемы математического моделирования сложных систем. 2004. № 1. С. 164-171.
16. Демиденко Е.З. Линейная и нелинейная регрессии. М.: Финансы и статистика. 1981. 302 с.
17. Носков С.И., Жукова М.С., Кириллова Т.К., Купитман Ю.О., Хоняков А.А. Уточнение способов идентификации параметров некоторых кусочно-линейных регрессий // Электронный сетевой политематический журнал "Научные труды КубГТУ", 2023. № 2. С. 75-81.
Носков Сергей Иванович, д-р техн. наук, профессор, sergey.noskov.57@mail.ru, Россия, Иркутск, Иркутский государственный университет путей сообщения,
Кириллова Татьяна Климентьевна, канд. экон. наук, заведующий кафедрой, kirillova tk@irgups.ru, Россия, Иркутск, Иркутский государственный университет путей сообщения,
Ведерников Владислав Сергеевич, студент, vlad.vedernikov. 95@mail. ru, Россия, Иркутск, Иркутский государственный университет путей сообщения
APPLICATION OF THE ANTI-ROBUST ESTIMATION METHOD TO CALCULATE ESTIMATES OF PARAMETERS OF A HOMOGENEO US FORM OF NESTED PIECEWISE LINEAR REGRESSION
S.I. Noskov, T.K. Kirillova, V.S. Vedernikov
The aim of the study is to develop a method for identifying the parameters of a homogeneous nested piecewise linear regression model of the first type by the method of anti-robust estimation, which, unlike the method of least modules, strongly tends to outliers in the data. This method consists in reducing the initial problem to a linear Boolean programming problem. It has an acceptable dimension for solving practical modeling problems. The results of solving the numerical example indicate the effectiveness of the approach proposed in the work. It is stated that the final choice of the method of identifying the parameters of nested piecewise linear models should remain with the researcher.
Key words: homogeneous nested piecewise linear regression, parameter identification, least modulus method, anti-robust estimation method, outliers in data, linear Boolean programming problem.
Noskov Sergey Ivanovich, doctor of technical sciences, professor, sergey.noskov.57@mail.ru, Russia, Irkutsk, Irkutsk State University of Railway Engineering,
Kirillova Tatyana Klimentevna, candidate of economic sciences, head of the department, kirillova_tk@irgups. ru, Russia, Irkutsk, Irkutsk State University of Railway Engineering,
Vedernikov Vladislav Sergeevich, student, vlad.vedernikov.95@mail.ru, Russia, Irkutsk, Irkutsk State University of Railway Engineering
УДК 681.5
DOI: 10.24412/2071 -6168-2024-7-192-193
ОСНОВНЫЕ НАПРАВЛЕНИЯ АВТОМАТИЗАЦИИ ЦИФРОВЫХ ПЛАТФОРМ, СТРУКТУРА И АЛГОРИТМ ИНТЕГРИРОВАННОГО ПЛАНИРОВАНИЯ
С.Л. Горобченко, Д.А. Ковалёв, С.А. Войнаш, А.В. Теппоев, Д.А. Нестеров
В статье рассматриваются вопросы выбора основных направлений автоматизации цифровых платформ, основные структуры и алгоритм интегрированного планирования. Показано, что интегрированное планирование - ведущее направление совершенствования бизнес-процессов, которое стало возможным на основе широкомасштабной цифровизации от оперативного планирования в цехе и до возможностей, предоставляемых глобальной цифровизацией. Проведен обзор основных направлений автоматизации цифровых платформ, используемых в производстве, их цели и задачи. Дан анализ структуры, основных разделов цифровых платформ интегрированного планирования и показан предпочтительный алгоритм интегрированного планирования по ключевым показателям эффективности (KPI).
Ключевые слова: цифровизация, цифровые платформы, интегрированное планирование, автоматизация, структура и алгоритм.
Основное направление совершенствования бизнеса и повышения эффективности производства во многом связываются с развитием цифровизации бизнес и производственных процессов. Значительное внимание при этом уделяется созданию цифровых платформ, в основном ориентированных на интегрированное планирование.
Интегрированное бизнес-планирование (Integrated Business Planning, IBP) - это процесс, который включает в себя разработку и реализацию стратегии компании, основанной на анализе рынка и текущем состоянии цепи поставок. IBP позволяет формулировать цели и задачи, разрабатывать стратегию действий, составлять необходимые планы и программы для эффективного управления цепью поставок. Этот процесс включает в себя координацию совместной деятельности предприятий цепи поставок и синхронизацию их бизнес-процессов. IBP является важной функцией управления цепью поставок, которая позволяет компании достигать поставленных целей и успешно функционировать на рынке.
Цепь поставок - это сложная экономическая система, состоящая из множества предприятий-изготовителей, поставщиков сырья и материалов, складских терминалов, дистрибьюторов, 3PL- и 4PL-провайдеров, которые обладают определенными функциональными возможностями и взаимодействуют в материальных, финансовых и информационных потоках, а также потоках услуг от источников исходного сырья до конечного потребителя. Как правило, цепи поставок являются сложными стохастическими системами, обладающими рядом особенностей: множественностью юридически независимых участников; сложным характером взаимодействия между участниками, зачастую конкурирующими; наличием собственной целевой функции у каждого предприятия, противоречащей интересам других компаний; постоянным и быстрым возникновением, существованием и распадом связей