Научная статья на тему 'ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ЗАДАЧИ ОПРЕДЕЛЕНИЯ СТОИМОСТИ ОБЪЕКТОВ НЕДВИЖИМОСТИ'

ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ЗАДАЧИ ОПРЕДЕЛЕНИЯ СТОИМОСТИ ОБЪЕКТОВ НЕДВИЖИМОСТИ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
11
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
машинное обучение / регрессия / недвижимое имущество / коэффициент детерминации / перекрестная проверка / machine learning / regression / real estate / coefficient of determination / crossvalidation

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ю.А. Алексеева, К.А. Гусев

Рассмотрены ансамблиевые методы машинного обучения. Они были применены в рамках задачи определения цены коммерческого объекта недвижимости на вторичном рынке. Данные методы могут входить в состав системы поддержки и принятия решений, в том числе в космической отрасли.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ю.А. Алексеева, К.А. Гусев

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF MACHINE LEARNING METHODS FOR THE TASK OF DETERMINING THE VALUE OF REAL ESTATE

In this paper, the ensemble methods of machine learning are considered. These were applied as part of the task of determining the price of a commercial property in the secondary real estate market. These methods can be part of a decision support and decision-making system, including in the space industry.

Текст научной работы на тему «ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ЗАДАЧИ ОПРЕДЕЛЕНИЯ СТОИМОСТИ ОБЪЕКТОВ НЕДВИЖИМОСТИ»

Секция «Математические методы моделирования, управления и анализа данных»

УДК 519.25

ПРИМЕНЕНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ЗАДАЧИ

ОПРЕДЕЛЕНИЯ СТОИМОСТИ ОБЪЕКТОВ НЕДВИЖИМОСТИ

*

Ю. А. Алексеева , К. А. Гусев

Сибирский государственный университет науки и технологий имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

*E-mail: iu.al2012@yandex.ru

Рассмотрены ансамблиевые методы машинного обучения. Они были применены в рамках задачи определения цены коммерческого объекта недвижимости на вторичном рынке. Данные методы могут входить в состав системы поддержки и принятия решений, в том числе в космической отрасли.

Ключевые слова: машинное обучение, регрессия, недвижимое имущество, коэффициент детерминации, перекрестная проверка.

APPLICATION OF MACHINE LEARNING METHODS FOR THE TASK OF DETERMINING THE VALUE OF REAL ESTATE

Yu. A. Alekseeva*, K. A. Gusev

Reshetnev Siberian State University of Science and Technology 31, Krasnoyarskii rabochii prospekt, Krasnoyarsk, 660037, Russian Federation *E-mail: iu.al2012@yandex.ru

In this paper, the ensemble methods of machine learning are considered. These were applied as part of the task of determining the price of a commercial property in the secondary real estate market. These methods can be part of a decision support and decision-making system, including in the space industry.

Keywords: machine learning, regression, real estate, coefficient of determination, cross-validation.

Существует множество систем поддержки и принятия решения, в основе которых лежит задача регрессии. Примером данной задачи является определение цены за 1 м2 объекта недвижимости для наземной космической инфраструктуры.

Расчеты проводились на наборе данных по коммерческой недвижимости на вторичном рынке. Для малых городов выборка по коммерческой недвижимости является небольшой и не будет иметь достаточного разнообразия объектов по их назначению. Для крупных городов, выборки являются неполными. Поэтому наиболее подходящими являются выборки для городов-миллионников. Так была собрана база данных по коммерческой недвижимости на вторичном рынке для г. Красноярска и г. Новосибирска [1].

Выборки содержат 12 признаков. Некоторые из них: район расположения, назначение помещения объекта недвижимости, площадь помещения или здания, цена за 1 м2 объекта недвижимости.

Для установления связи между признаками были построены таблицы с коэффициентами корреляции Пирсона (только числовые признаки) и с коэффициентами корреляции Спирмена.

Актуальные проблемы авиации и космонавтики - 2022. Том 2

Для набора данных по г. Новосибирску выявлена заметная сила связи по шкале Чеддока между стоимостью объекта недвижимости и его площадью по обоим коэффициентам (рис. 1). Также по коэффициенту Спирмена была обнаружена заметная обратная связь между площадью земельного участка и признаком «Здание» и заметная связь между признаком «Здание» и этажностью продаваемого объекта.

300000 -250000 -200000 -^ 150000 -100000 -50000 -О -

Рис. 1. График зависимости цены 1 м2 коммерческой недвижимости от площади в г. Новосибирске

Для набора данных по г. Красноярску также выявлена зависимость между стоимостью и площадью объекта недвижимости (рис. 2). Существует заметная связь между признаком «Здание» и этажностью продаваемого объекта, обнаруженная ранее на данных по г. Новосибирску. При этом на наборе данных г. Красноярска была обнаружена уникальная зависимость между площадью объекта недвижимости и признаком «Здание», которая является обратной и заметной по тесноте связи.

200000 ■ 150000 -

и

I 100000 ■

50000 ■

о-

0 5000 10000 15000 20000 25000 3000 0 35000 «000 Площадь

Рис. 2. График зависимости цены 1 м2 коммерческой недвижимости от площади в г. Красноярске

Ранее для установления стоимости недвижимого имущества были рассмотрены следующие методы: метод k ближайших соседей, линейные модели (модель линейной регрессии, модель гребневой регрессии, модель лассо), древовидные модели (модель дерева решений, модель случайного леса, модель градиентного бустинга). Наилучший результат показали древовидные модели [1].

В данном исследовании рассмотрено применение ансамблиевых методов для задачи регрессии, а именно: случайного леса, градиентного бустинга, CatBoost и AdaBoost [2, 3].

Т-1-1-1-1-1-1-1-г

Секция ееМатематические методы моделирования, управления и анализе данных»е

Для каждого набора данных были рассчитаны коэффициенты детерминации на обучающей и тестовой выборке и средняя правильность перекрестной проверки с помощью Python.

Результаты расчетов для набора данных по г. Красноярску представлены в таблице 1. Таким образом, наиболее подходящим является градиентный бустинг деревьев регрессии.

Таблица 1

Коэффициенты детерминации и средняя правильность кросс-проверки моделей обучения на __данных г. Красноярска__

Коэффициент детерминации Средняя правильность перекрестной проверки

на обучающем наборе на тестовом наборе

Случайный лес 0,970 0,868 0,813

Градиентный бустинг 0,983 0,894 0,862

CatBoost 0,974 0,784 0,750

AdaBoost 0,745 0,639 0,580

Результаты расчетов для набора данных по г. Новосибирску представлены в таблице 2. Таким образом, наиболее подходящими являются случайный лес и CatBoost. При этом низкие значения перекрестной проверки указывают на необходимость предобработки данных.

Таблица 2

Коэффициенты детерминации и средняя правильность кросс-проверки моделей обучения на _данных г. Новосибирска_

Коэффициент детерминации Средняя правильность перекрестной проверки

на обучающем наборе на тестовом наборе

Случайный лес 0,989 0,921 0,285

Градиентный бустинг 0,982 0,944 0,074

CatBoost 0,967 0,923 0,270

AdaBoost 0,656 0,608 -0,320

В рамках работы были рассмотрены ансамблиевые методы машинного обучения для задачи регрессии для определения цены 1 м2 коммерческого объекта недвижимости на вторичном рынке. Все методы, кроме AdaBoost, показали свою эффективность для решения поставленной задачи.

Библиографические ссылки

1. Алексеева Ю.А. Модели оценки объектов недвижимости : дипл. работа (диссертация магистра математики). Сибирский государственный университет науки и технологий имени академика М.Ф. Решетнева, Красноярск, 2020.

2. CatBoost - open-source gradient boosting library [Электронный ресурс]. URL: https://catboost.ai/ (дата обращения 22.3.2022).

3. Sklearn.ensemble. AdaBoostRegressor - scikit-learn [Электронный ресурс]. URL: https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.AdaBoostRegressor.html (дата обращения 25.3.2022).

©Алексеева Ю.А., Гусев К. А., 2022

i Надоели баннеры? Вы всегда можете отключить рекламу.