Научная статья на тему 'ПРИМЕНЕНИЕ МОДЕЛИ ГРАДИЕНТНОГО БУСТИНГА В ЗАДАЧАХ РЕГРЕССИИ'

ПРИМЕНЕНИЕ МОДЕЛИ ГРАДИЕНТНОГО БУСТИНГА В ЗАДАЧАХ РЕГРЕССИИ Текст научной статьи по специальности «Математика»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Вестник науки
Область наук
Ключевые слова
машинное обучение / градиентный бустинг / технологии / machine learning / gradient boosting / catboost

Аннотация научной статьи по математике, автор научной работы — Дудченко Д.В.

В работе рассмотрена модель градиентного бустинга Catboost. Представлен корреляционный и регрессионный анализ. Рассмотрена устойчивость и корреляция.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF THE GRADIENT BOOSTING MODEL IN REGRESSION PROBLEMS

The paper considers the Catboost gradient boosting model. Correlation and regression analysis is presented. Stability and correlation are considered.

Текст научной работы на тему «ПРИМЕНЕНИЕ МОДЕЛИ ГРАДИЕНТНОГО БУСТИНГА В ЗАДАЧАХ РЕГРЕССИИ»

УДК 004.81

Дудченко Д. В.

студент

Брянский государственный инженерно-технологический университет

(г. Брянск, Россия)

ПРИМЕНЕНИЕ МОДЕЛИ ГРАДИЕНТНОГО БУСТИНГА В ЗАДАЧАХ РЕГРЕССИИ

Аннотация: в работе рассмотрена модель градиентного бустинга Catboost. Представлен корреляционный и регрессионный анализ. Рассмотрена устойчивость и корреляция.

Ключевые слова: машинное обучение, градиентный бустинг, технологии.

Технология градиентного бустинага подходит для решения различных задач машинного обучения. К задачам градиентного бустинга относят регрессию, классификацию, мультиклассификацию и т.д. К задачам регрессии можно отнести задачу прогнозирования стоимости недвижимости. В качестве примера будет рассмотрена технология градиентного бустинга от компании Яндекс - Сatboost. Данная технология является open source software, то есть программным обеспечением со свободным доступом. Она была опубликована в 2018 и продолжает непрерывно развиваться. [2]

В основе библиотеки применяется градиентный бустинг на основе деревьев решений. В основе дерева решений находится какой-то числовой фактор, который сравнивается со значением, после чего выполняется переход к другой вершине, в зависимости от результата сравнения, пока не будет достигнут один из листов с наиболее близким значением.

Градиентный бустинг строит ансамбль деревьев (рисунок 1), чаще всего количество таких деревьев достигает десятков тысяч деревьев. По итогу модель способна находить сложные закономерности в данных.

I I [--I I

Ошибка Ошибка Ошибка

Рисунок 1 - Градиентный бустинг

Для решения задачи определения стоимости недвижимости наилучшим образом подходит регрессия. Для этого необходимы данные с соответствующими метками, и задача градиентного бустинга заключатся в приближении этих меток, в итоге которой получается результирующая формула, которую уже можно использовать для решения своей задачи. [1]

В заключении проектирования модели машинного обучения можно построить полную матрицу корреляции подготовленных данных (рисунок 2). Под матрицей корреляции понимается таблица квадратной формы, строки и столбцы являются заголовками анализируемых данных, которые в свою очередь представляют собой коэффициенты корреляции для соответствующей пары признаков.

Под мультиколлинеарностью понимают сильную линейную зависимость между объясняющими переменными регрессионной модели.

Наличие мультиколлинеарности негативно влияет на точность исследуемой модели. Так, например, для линейных моделей она может приводить к неустойчивости коэффициентов.

Рисунок 2 - Полная матрица корреляции данных

Делая выводы из представленной выше матрицы, следует, что в данных присутствует сильная мультиколлинеарность. В свою очередь, это свидетельствует о том, что лучше использовать более сложные модели в дальнейшем обучении для получения более точного результата определения стоимости недвижимости.

СПИСОК ЛИТЕРАТУРЫ:

1. Представление данных корреляционного анализа. [Электронный ресурс]. - URL: https://allasamsonova.ru/statistika/predstavlenie-dannyh-korreljacionnogo-analiza/(Дата обращения: 02.06.2024);

2. CatBoost: [Электронный ресурс]. - URL:

https://catboostai/en/docs/concepts/python-reference_cv(Дата обращения:

09.06.2024)

Dudchenko D. V.

Bryansk State University of Engineering and Technology

(Bryansk, Russia)

APPLICATION OF THE GRADIENT BOOSTING MODEL IN REGRESSION PROBLEMS

Abstract: the paper considers the Catboost gradient boosting model. Correlation and regression analysis is presented. Stability and correlation are considered.

Keywords: machine learning, gradient boosting, catboost.

i Надоели баннеры? Вы всегда можете отключить рекламу.