Научная статья на тему 'ІНФОРМАЦІЙНЕ ЗАБЕЗПЕЧЕННЯ ПРОГНОЗУВАННЯ ЦІН НА НЕРУХОМІСТЬ МЕТОДАМИ МАШИННОГО НАВЧАННЯ'

ІНФОРМАЦІЙНЕ ЗАБЕЗПЕЧЕННЯ ПРОГНОЗУВАННЯ ЦІН НА НЕРУХОМІСТЬ МЕТОДАМИ МАШИННОГО НАВЧАННЯ Текст научной статьи по специальности «Экономика и бизнес»

CC BY
166
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Sciences of Europe
Область наук
Ключевые слова
машинне навчання / прогнозування / ринок нерухомості / інформаційне забезпечення / machine learning / prediction / real estate market / information software.

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Хлевна Ю.Л., Бура Ю.С.

У даній роботі визначено перспективи розвитку методів прогнозування ринку нерухомості, продемонстровані й застосовані на практиці моделі для побудови інформаційного забезпечення прогнозування цін на нерухомість методами машинного навчання. Сформовано процес обробки, аналізу й прогнозування даних у середовищі Python. Для вибору раціонального методу прогнозування цін об’єктів на ринку нерухомості проаналізувано такі моделі: LASSO Regression, Elastic Net Regression, Ridge Regression, Gradient Boosting Regression, XGBoost. За обраними моделями проведено оцінку якості прогнозу моделей – RMSE похибку. За результатами моделювання встановлено, що для покращення результату доцільно розробити агреговані моделі. Розроблено дві такі моделі, перша модель реалізована на основі Лассо та Extreme Gradient Boosting, для другої агрегованої моделі взято Лассо регресію, модель Extreme Gradient Boosting, Elastic Net та Ridge регресію. Виділено перевагу другої агрегованої моделі та встановлено, що такий підхід покращує точність прогнозування на 5% порівняно з іншими підходами. На oснoві агрегoванoї мoделі, побудоване інфoрмаційне забезпечення прoгнoзування цін на нерухoмість для пoтенціальнoгo викoристання зацікавлених oсіб та підприємств зі сфери нерухoмoсті. Для реалізації інформаціного забезпечення використано кoмбінацію таких інструментів, як AWS Glue Crawler, Athena, Amazon Forecast та QuickSight. Також встановлено перспективи подальших досліджень.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INFORMATION SOFTWARE FOR REAL ESTATE PRICES PREDICTION BY MASHINE LEARNING

This paper identifies the prospects for the forecasting methods development on the real estate market, demonstrated and applied in practice models for building information software for real estate price forecasting by machine learning. Data processing, analysis and forecasting is formed in the Python environment. The following models were analyzed to select a rational method for house prices forecasting of objects in the real estate market: LASSO Regression, Elastic Net Regression, Ridge Regression, Gradient Boosting Regression, XGBoost. According to the selected models, was evaluated the quality of the model forecast – RMSE error. According to the simulation results, to improve prediction result was established that it is expedient to develop aggregate models. Two such models were developed, the first model was implemented on the Lasso and Extreme Gradient Boosting basis, for the second aggregate model were taken Lasso regression, Extreme Gradient Boosting, Elastic Net and Ridge regression. The advantage of the second aggregate model is highlighted and it is established that this approach improves the forecasting accuracy by 5% compared to other approaches. On the basis of the aggregate model was build the information software of real estate price forecasting for potential use of interested persons and enterprises in the field of real estate. For implementation of the information software was used a combination of tools such as AWS Glue Crawler, Athena, Amazon Forecast and QuickSight. Prospects for further research are also set.

Текст научной работы на тему «ІНФОРМАЦІЙНЕ ЗАБЕЗПЕЧЕННЯ ПРОГНОЗУВАННЯ ЦІН НА НЕРУХОМІСТЬ МЕТОДАМИ МАШИННОГО НАВЧАННЯ»

TECHNICAL SCIENCES

1НФОРМАЦ1ЙНЕ ЗАБЕЗПЕЧЕННЯ ПРОГНОЗУВАННЯ Ц1Н НА НЕРУХОМ1СТЬ МЕТОДАМИ

МАШИННОГО НАВЧАННЯ

Хлевна Ю.Л.

доктор технгчних наук, доцент Кшвський нацюнальний унгверситет шет Тараса Шевченка, м. Кигв,

Бура Ю.С. маггстр

Кшвський нацюнальний унгверситет шет Тараса Шевченка, м. Кигв,

INFORMATION SOFTWARE FOR REAL ESTATE PRICES PREDICTION BY MASHINE

LEARNING

Khlevna I.,

Doctor of Technical Science, Associate Professor Taras Shevchenko National University of Kyiv

Bura Y.

Master's Degree student Taras Shevchenko National University of Kyiv

АНОТАЦ1Я

У данш робоп визначено перспективи розвитку методiв прогнозування ринку нерухомосп, проде-монстроваш й застосоваш на практищ моделi для побудови шформацшного забезпечення прогнозування цш на нерухомють методами машинного навчання. Сформовано процес обробки, аналiзу й прогнозування даних у середовищi Python. Для вибору рацюнального методу прогнозування цш об'eктiв на ринку нерухомосп проаналiзувано так1 модел1: LASSO Regression, Elastic Net Regression, Ridge Regression, Gradient Boosting Regression, XGBoost. За обраними моделями проведено оцшку якосп прогнозу моделей - RMSE похибку. За результатами моделювання встановлено, що для покращення результату доцiльно розробити агреговаш моделi. Розроблено двi таю модел^ перша модель реал1зована на основi Лассо та Extreme Gradient Boosting, для друго! агреговано! моделi взято Лассо регресш, модель Extreme Gradient Boosting, Elastic Net та Ridge регресш. Видшено перевагу друго! агреговано! модел1 та встановлено, що такий пiдхiд покращуе точнiсть прогнозування на 5% порiвняно з шшими пiдходами. На oснoвi агрегoванo!' мoделi, побудоване iнфoрмацiйне забезпечення прoгнoзування цш на нерухoмiсть для пoтенцiальнoгo витори-стання зацiкавлених oсiб та шдприемств зi сфери нерухoмoстi. Для реал1зацп iнформацiного забезпечення використано кoмбiнацiю таких шструменпв, як AWS Glue Crawler, Athena, Amazon Forecast та QuickSight. Також встановлено перспективи подальших дослщжень.

ABSTRACT

This paper identifies the prospects for the forecasting methods development on the real estate market, demonstrated and applied in practice models for building information software for real estate price forecasting by machine learning. Data processing, analysis and forecasting is formed in the Python environment. The following models were analyzed to select a rational method for house prices forecasting of objects in the real estate market: LASSO Regression, Elastic Net Regression, Ridge Regression, Gradient Boosting Regression, XGBoost. According to the selected models, was evaluated the quality of the model forecast - RMSE error. According to the simulation results, to improve prediction result was established that it is expedient to develop aggregate models. Two such models were developed, the first model was implemented on the Lasso and Extreme Gradient Boosting basis, for the second aggregate model were taken Lasso regression, Extreme Gradient Boosting, Elastic Net and Ridge regression. The advantage of the second aggregate model is highlighted and it is established that this approach improves the forecasting accuracy by 5% compared to other approaches. On the basis of the aggregate model was build the information software of real estate price forecasting for potential use of interested persons and enterprises in the field of real estate. For implementation of the information software was used a combination of tools such as AWS Glue Crawler, Athena, Amazon Forecast and QuickSight. Prospects for further research are also set.

Ключовi слова: машинне навчання, прогнозування, ринок нерухомосп, шформацшне забезпечення.

Keywords: machine learning, prediction, real estate market, information software.

Вступ та постановка задачi дослщження.

Сектор нерухомосп е одним iз секторiв з найб№-шою капiталiзацiею, мае ефективш напрямки шве-стування для фiзичних та юридичних оаб. Разом з

тим, ринок нерухомосп - складна динамiчна система, на поведшку яко! дшть впливи, що змiнюються у часг Змша поведшки виражаеться збшьшенням або зменшення вартосп квадратного

метру нерухомосп. При цьому, впливи е не струк-турованими, нечiткими i навiть суперечать один одному. Бшьше того, залежшсть впливiв апрiорно неввдома. У бiзнесовiй спiльнотi ринку нерухомостi важливим е забезпечення об'ективною iнформацiею стейкхолдерiв про його стан в умовах реального часу та прогнозi змши. Таке забезпечення сприя-тиме прийняттю правильних й найбiльш вигiдних рiшень защкавленими сторонами. Вiдповiдно необ-х1днний розвиток науково-практичних моделей та технологiй, яш направленi на пiдтримку прийняття ршень на ринку нерухомостi.

Питання динашки та прогнозування змiни цiн на ринку нерухомосп розглянуто у роботах [1 - 5]. Робота [1] демонструе юнування випереджаючих та зашзнших iндикаторiв стану ринку нерухомостi. Визначено вплив на ринок нерухомосп дшово! ак-тивностi. Встановлено, що динамжа цiн на неру-хомiсть е майже одночасним iндикатором циклу дшово! активностi, оск1льки випереджуе пiковi стани з невеликим лагом. У робоп [2] здшснено регiональний аналiз ринку житла: проаналiзовано впливи кожного репону та кластеризацiю регiонiв за цшами на ринку житла. Регiональний характер дослвдження представлено i у робоп [3]. Авторами запропоновано лiнiйну регресш, дерево регресп, випадкову регресiю люу та градiентний спуск дерев регресп для аналiзу цiн складських примщень. Встановлено, що модель дерев регресп показала найкращий результат. Прогнозування цш на неру-хомiсть, використовуючи аналiз важливостi впливiв разом з лшшною регресiею, методом опор-них векторiв та регресiею випадкових лiсiв представлено у робоп [4]. У робоп [5] авторами створено прогнозну математичну модель динамiки змши цшового рiвня нерухомостi з використанням нейромережевих технологiй на пiдставi обчислю-вальних систем нелтйно! динамiки часових фшан-сових рядiв цiнового рiвня нерухомостi i макроеко-номiчних та фшансових показник1в кра!ни. Авторами проаналiзованих робiт не розглянуто питання, як представляти дану iнформацiю у зручному ви-глядi стейкхолдерам. Розглянуп методи прогнозування е не досконалими з позицп рiшення завдань велико! кшьшсп нечiтких змiнних.

З результапв аналiзу лiтературних джерел встановлено, що питання прогнозування цши на ринку нерухомосп мае вагоме наукове тдгрунття. Щд час прогнозування цш на житло можна викори-стовувати рiзнi методи прогнозування. Кожна тех-нiка мае сво! переваги та недол1ки. Разом з тим, даш ринку нерухомостi обтяженi невизначенiстю, а саме, те що наслвдки ршень будуть рiзними в рiз-них ринкових сценар1ях, i ймовiрнiсть того, що да-ний сценарiй вщбудеться, невiдома [6]. Непрогно-зований характер ринку нерухомосп значною мiрою перешкоджае розробцi комплексних анал1тичних моделей, що шюструють ринковi функцп. Пiдходи прогнозування ринку нерухомосп вимагають вдосконалення. Тому запропоновано за-стосовувати методи машинного навчання для про-гнозування у погано формалiзованих умовах [7].

Моделювання ринку методами машинного навчання - це оптимальний iнструмент для вщтво-рення ринкових процесiв в експериментальних умовах, вiн враховуе порушення, спричинеш випадковими факторами, i пiдтримуе формування додатково! шформаци про ринок нерухомосп. Нау-ковою задачею е розвиток моделювання ринку нерухомосп методами машинного навчання та його iмплементацiя у шформацшну технолог1ю. Виклад основного матерiалу. У робоп пiд iнформацiйним забезпеченням прогнозування цш на нерухомiсть будемо розумии автоматизовану систему, яка з використанням ма-тематичних методiв та моделей, а також комп'ютерних технологш на основi задано! бази да-них надае вiзуалiзованi результати визначення рин-ково! вартостi житла, як1 можуть бути легко отри-манi та швидко проаналiзованi зацiкавленими сторонами.

Визначено, що для оцшки вартостi нерухомосп використовуеться близько 20 параметрiв, таких як: мюце розташування, плани поверхiв, площа, пiдлога, тип будiвлi, к1льк1сть поверхiв, наявнiсть парковки, яшсть оздоблення, вiдстань в1д метро,пе-рехрестя, екологiчний стан тощо. Залежно в1д конкретно! ситуацi! деяш з них суперечать один одному, мають бiльшу вагу або не зрозумш. Фор-малiзуемо оцшку вартостi нерухомостi. Наприклад, цiна одинищ площi окремого об'екта нерухомостi С0 в даний момент часу / складаеться з двох компо-ненпв [8]:

С0(р,11) = Р(д1,д2,^,дп,Ь) + Р0(к, 12, ■■■, Ь, •••, ^m), де - вектор локальних чинник1в, / - одиниця часу.

Функщя Р(д1,д2, — ,дп,ь) описуе вплив гло-бальних макроекономiчних факторiв i являе собою загальний рiвень цiн в мюп (регiонi), единий для вах об'ектiв у певний момент часу. Вели-чини Р0(11,12, — ,1^, — ,1т) являють собою внесок локальних ввдмшностей. Вони рiзнi для кожного об'екта i залежать вiд набору його характеристик.

Цшу житла у загальному виглядi пропонуеться представити як функц1ю:

Се = [(Б.К.Р.Я.Р), де Се - цша квадратного метра житла,

- собiвартiсть будiвництва житла, К - комплексний показник характеристик мюта,

Е - чинники попиту i пропозицп, Я - ризики iнвестування, Р - прибуток будiвельно! органiзацi!. У свою чергу собiвартiсть житлового будiв-ництва описуеться наступною залежнiстю [9]:

де 5 - собiвартiсть будiвництва квадратного метра житла,

1Г - витрати на придбання (оренди) земельно! дмнки,

21 - витрати на влаштування iнжерених ко-мунiкацiй,

- витрати на виконання будiвельно-мон-тажних робiт,

Т0 - непередбачеш та iншi витрати, N - податки, яш входять у собiвартiсть. Для побудови моделi використано данi зiбранi з невеликого мютечка, з населениям близько 50 тис. жителiв та розташуванням ввдносно далеко вiд великих центрш. У мiстечку переважае приватна за-будова, поверховiсть у бшьшосп випадк1в складае до двох поверив. База даних складаеться з 2917 спостережень та 81 змшно!, з яких 36 е к1льк1сними, 43 категорiальними, а також змiнна И (номер змшно!) та «Щна продаж!» (<^а1еРпсе») [11].

Для проведення дослщження данi порiвно подiлено на двi частини - тренувальну та тестову. Обидвi частини мають однаковi поля (стовпщ). Вiдмiннiсть мiж ними у тому, перша частина мае стовпчик «Цша продаж!» (яка е щльовою змiнною, котру ми будемо намагатися спрогнозувати), а в другiй вiн вiдсутнiй. Нам необхвдно встановити (пе-редбачити) щну об'ектiв нерухомостi друго! частини, базуючись на першiй частинi.

Перший набiр даних використано для побудови й навчання модел^ виявлення певних зако-номiрностей та залежностей, побудови алгоритму. Вiн мiстить в собi вже ключове поле «Щна продаж!» («SalePrice»). Другий набiр даних - для тесту-

вaння отримaноï моделi й оцiнки ïï точностi зa до-помогою середньоквaдрaтичноï логaрифмiчноï по-xибки.

Мовою прогрaмyвaння обрaно Python (середо-вище Jupyter Notebook, бiблiотеки: Pandas, Matplotlib, NumPy Ta SciPy, Seaborn, Sklearn, Xgboost). Фрaгменти дaтaсетy предстaвлено нa рисунку 1.

Шступним етaпом роботи iз пiдготовки дaниx для побудови e виокремлення тaкиx етaпiв як: пiдготовкa цiльовоï змiнноï тa пiдготовкa aтрибyтiв бaзи дaниx.

Для тдготовки цiльовоï змiнноï «Щга про-дaжi», перевiрено ïï нa нaявнiсть нульовт знaчень тa викидiв, a тaкож здiйснено нормaлiзaцiю. BCTa-новлено, що мiнiмaльне знaчення дорiвнюe 34900 > 0, вщповщно нaбiр дaниx не мae нyльовиx знaчень в «Щш продaжy». 3a зaлежнiстю цiни продaжi вiд площi будинку («GrLivArea») виокремлено викиди тa видaлено ïx iз робочого документу.

3a резyльтaтaми нормaлiзaцiï цiльовоï змiнноï встaновлено, що розподш цiльовоï змiнноï: подiб-ний до нормaльного, aле дещо вiдxиляeться ввд нього, мae позитивний коефiцieнт aсиметрiï, демон-стрye гостровершиннiсть.

Id MSSubClass MSZoning LotFrontage LotArea Street Alley LotShape LandContour

0 1 60 RL 65.0 8450 Pave NaN Reg Lvl

1 2 20 RL 80.0 9600 Pave NaN Reg Lvl

2 3 60 RL 68.0 11250 Pave NaN IR1 Lvl

3 4 70 RL 60.0 9550 Pave NaN IR1 Lvl

4 5 60 RL 84.0 14260 Pave NaN IR1 Lvl

а

Id MSSubClass MSZoning LotFrontage LotArea Street Alley LotShape LandContour

0 1461 20 RH 80.0 11622 Pave NaN Reg Lvl

1 1462 20 RL B1.0 14267 Pave NaN IR1 Lvl

2 1463 60 RL 74.0 13830 Pave NaN IR1 Lvl

3 1464 60 RL 78.0 9978 Pave NaN IR1 Lvl

4 1465 120 RL 43.0 5005 Pave NaN IR1 H LS

б

Рис. 1. Фрагмент датасету для прогнозування цти на ринку нерухомостг а - перш1 п'ятьряд1в тренувального датасету б - перш! п'ятьряд1в тестового датасету

Для б№ш ефективно! обробки атрибупв, Наявшсть пропущених значень, реалiзовано

прийнято рiшення об'еднати тестовий та тре- обчисленням ввдсотоку цих значень по кожнiй нувальний датасети в один дата фрейм. змшнш.

Щоб пiдготувати атрибути для подальшого прогнозування виконано перевiрку: наявносп пропущених значень, позбавлення ввд асиметрп, нор-мал!заци атрибутов, мультиколшеаршст!

all_data_na = (alldata.isnull().sum() / len(alldata)) * 100

all_data_na = all_data_na.drop(all_data_na[all_data_na == 0].index).sort_values(ascending=False)[:30] missingdata = pd.DataFrame({'Missing Ratio' :alldatana}) missing_data.head(20)

Встaновлено, що 19 aтрибyтiв мaють вiдсyтнi згачення, 5 понaд 50% ycix дaниx. Haйчaстiше НС ознaчae вiдсyтнiсть предметa, описaного зa a^^y-том, нaприклaд, вiдсyтнiсть бaсейнy, огорожi, вщ-сутшсть гaрaжa тa пiдвaлy.

Для позбавлення ввд пропущених значень використано ímh^to пропущених значень. Напри-клад, змiнна PoolQC (pool quality) мае найб№ший ввдсоток пропущених значень - бшьше 99%. В описi даних [11] описано, що NA для дано! змшно!

означае «Без басейну». Це мае сенс та говорить про те, що бшьшсть будиншв взагат не мають басейну. Замшимо пропущеш значения для всього ряду.

а11_с!а1а[ "РооЮС" ] = all_data[ "РооЮС" ]. £И1па( "Копе")

За таким тдходом досягнуто результату - Пропущених значень немае. Визначено наявшсть асиметрп у рядах (табл. 1).

Таблиця 1

Наявшсть асиметрií в деяких змiнних_

Variable Skew

MiscVal 21.939672

PoolArea 17.688664

LotArea 13.109495

LowQualFinSF 12.084539

3SsnPorch 11.372080

LandSlope 4.973254

KitchenAbvGr 4.300550

BsmtFinSF2 4.144503

EnclosedPorch 4.002344

ScreenPorch 3.945101

Застосовано метод «Box Cox Transformation» для атрибупв з високою aCTMeipi™. Використано scipy функцiю boxcoxlp, яка обчислюе перетво-рення Box-Cox 1+x. Параметр X = 0 е^валентний loglp, який ми використовували вище для нор-мaлiзaцií цiльовоí' змшно!.

Для нормалiзацi! даних також застосовано ло-гарифмiчну трансформацш, як i для ряду «Щна продаж1».

У розрiзi мультиколшеарносп актуальнi двi речi - залежшсть «Цши продажЪ» ввд iнших пол1в та залежнiсть пол1в м1ж собою (для виявлення мультиколiнеарностi). Мапу залежносп мiж полями представлено на рисунку 2.

Рис.2. Мапа залежностей мiж полями.

З отриманого результату (див. рис. 2) видно, шо ключове поле «Цша продажа» сильно залежна вщ полiв «Загальна оцiнка» (що дуже передбачу-вано, адже дано поле описуе стан i яшсть будинку загалом), «Жила площа» (що е також щлком про-гнозованим), «Площа фундаменту» (iншими словами площа основи будинку), та характеристиками прибудинкового гаража: «Площа гаража», «Юль-шсть авто» та iн., що вже е не таким й передбачува-ним, адже на першу думку гараж не е ключовою характеристикою об'екта нерухомосп.

Мультиколшеаршсть однозначно присутня й з нею необхвдно боротися. Сильно кол1неарними е поля «Площа фундаменту» i «Площа першого поверху», що зовам не дивно, адже в б№шосп варiантiв щ поля мають щентичт значення. Також кол1неарними е поля «Рж побудови» (будiвлi) та «Рж побудови гаража», що е також очевидно, адже у бгльшосп випадшв гараж будуеться в одну чергу з будинком.

Тож, нашi атрибути та цшьова змiнна шдготов-ленi для подальшого прогнозування, зокрема данi

ноpмaлiзовaнi, позбавлеш вiд викидiв та нульових значень, позбавлеш вщ мультиколiнеapностi.

Наступним етапом е застосування моделей. За-пропновано розглянути моделi регуляризацп Lasso, Ridge та Elastic Net, використання гpaдiентного бу-стiнгу та XGBoost модел1 для прогнозування ринку нерухомосп та на основi анал1зу сформувати агре-говаш моделi [12].

Застосування моделей регуляризацп Lasso, Ridge та Elastic Net

Використано впорядковаш лшшш модел1 ре-гресп з pегуляpизaцiею (regularized linear regression models) з модуля scikit learn. Ми будемо використо-вувати обидвг l_1 (Lasso) i l_2 (Ridge) впорядкова-ностi. Також визначено функцш, яка буде повер-тати перехресно пеpевipену середньоквадратичну похибку (cross-validation rmse error), для оцiнки мо-делi

Головний параметр для Ridge моделi - альфа -параметр впорядкованосп, який показуе, нaскiльки гнучкою наша модель е. Чим краще модель впоряд-кована, тим менше вона е схильною до перенав-чання.

alphas = [0.05, 0.1, 0.3, 1, 3, 5, 10, 15, 30, 50, 75] cv ridge = [rmse_cv(Ridge(alpha = alpha)).mean() for alpha in alphas]

cvridge = pd.Series(cv_ridge, index = alphas) cv ridge.plot(title = "Validation - Just Do It") plt.xlabel("alpha") plt.ylabel("rmse")

RMSE похибка для моделi Ridge складае при-близно 0.1153, стандартне вiдхилення - 0.0075.

RMSE похибка моделi Elastic Net становить 0.1116, стандартне ввдхилення - 0.0074. Бачимо, що дана модель впоралася краще за Ridge регресш.

RMSE похибка для моделi Лассо складае 0.1115, стандартне вщхилення - 0.0074. Бачимо, що Лассо модель демонструе бтш кращий результат за Ridge регресш (похибка менше на 3,4%) та при-близно однаковий з моделлю Elastic Net. Виршено використовувати дану модель для передбачення на тестовому Ha6opi даних. Ще одна заслуга Лассо в

тому, що BiH виконуе проектування ознак за нас -назначае коефiцiенти ознак, яш вiн вважае непо-трiбними, до нуля.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

З побудованих та проаналiзованих трьох моделей регуляризацп найкращий результат отримано за допомогою Lasso регресп.

Використання градгентного бусттгу та XGBoost модел! для прогнозування

Для подальшого дослвдження вирахувано се-редньоквадратичнi похибки для тестово! й тре-нувальног вибiрок:

model.loc[30:,["test-rmse-mean", "train-rmse-mean"]].plot()

На виходi отримаемо рис. 3 на якому видно, що значення похибки на тренувальнш B^ip^ становиться сталою вже тсля 150 пеpевipок.

100 200 300 400

Рис. 3.— Середньоквадратичт похибки для тестово'1 й тренувальног eu6ipoK.

Наступним кроком е створення модеш з вцщовцщими параметрами й II тренування:

model xgb = xgb.XGBRegressor(n estimators=360, max depth=2, learning rate=0.1)

#параметри були налаштоваш використовуючи xgb.cv model xgb.fit(x train, y)

XGBRegressor(base score=0.5, colsample bylevel=l, colsample bytree=l, gamma=0, learning rate=0.1, max delta_step=0, max depth=2, minchild weight=l, missing=None, n_estimators=360, nthread=-l, objective^reg:linear", reg alpha=0, reg lambda=l, scale pos weight=l, seed=0, silent=True, subsample=l)

RMSE похибка становить 0.1161, стандартне ввдхилення - 0.0079.

Для пор1вняння побудовано модель звичайного град1ентного бустшгу (gboost):

GBoost = GradientBoostingRegressor(n_estimators=3000, learning_rate=0.05,

max_depth=4, max_features='sqrt', min_samples_leaf=15, min_samples_split=10, loss='huber', random_state =5)

RMSE похибка модел1 град1ентного бустингу становить 0.1177, стандартне ввдхилення - 0.0080. Можемо зробити висновок, що модель Extreme Gradient Boosting мае кращий результат прогно-зування цшьово! змшно!, пор1вняно 3Í звичайним град1ентним бустингом.

За результатами моделювання встановлено, що для покращення результату доцшьно розробити агрегованi моделi.

Перша агрегована модель. Для першо! агрего-вано! моделi вiзьмемо Лассо модель та модель Extreme Gradient Boosting (так як вони показали найкращi результати серед серед 2-х застосованих методiв) (рис. 4).

eooooo

500000 • • •

100000 200000 300000 400000 500000 мдЬ

Рис. 4. nopieHMHHM peybmamie LASSO та градieнтного бусттгу.

Мае 3MiCT взяти зважене середне некореляцшних результапв - це зазвичай зменшуе похибку, хоча конкретно в нашому випадку це не сильно допомагае. Так як LASSO показала себе дещо краще, то додамо до Heï дещо вищий ваговий коефпцент.

Розрахуемо кпщев1 передбачення для тестово! Buoipiai:

solution = pd.DataFrame({"id":test.Id, "SalePrice":preds})

Обчислена RMSE похибка для першо! агрего-вано! моделi складае 0.1184. Цей результат не е найкращим серед побудованих моделей.

Друга агрегована модель.

За результатами попереднього моделювання найменш точний прогноз дала модель звичайного

градieнтного бустшгу, тому запропоновано побуду-вати агреговану модель прогнозування цiни об'екту нерyхомостi без не!. Тобто, для друго! агреговано! моделi взято Лассо регресiю, модель Extreme Gradient Boosting, Elastic Net та Ridge регресш.

averagecLmodels = AveragingModels(models = (ENet, GBoost, KRR, lasso))

score = rmsle_cv(averaged_models)

print(" Averaged base models score: {:.4f} ({:.4f})\n".format(score.mean(),

score.std()))

Отриманий результат: RMSE = 0.1091, а стан-дартне вiдхилення становить 0.0075. Дана похибка е найменшою з ycix оцшених моделей. Подивимося

який результат дана модель дасть на тренувальному датасетi.

stacked_averaged_models.fit(train.values, y.train) stacked_train_pred = stacked_averaged_models.predict(train.values) stacked_pred = np.expml(stacked_averaged_models.predict(test.values)) print(rmsle(y_train, stacked_train_pred))

RMSE похибка становить 0.0781, що e найкра-щим з прорахованих похибок. Кшцевий результат буде виглядати наступним чином (продемонстро-вано 5 перших передбачень). Вш буде являти собою таблицю з двох колонок (рис. 5). Перша колонка -

прогнозована цша продажу конкретного об'екта нерухомостi, а друга - його ушкальному вденти-фiкатору (власне щоб ми могли однозначно встано-вити пару будинок - прогнозована цш).

SalePrice id

0 120129.316383 1461

1 153000.789313 1462

2 181999.671772 1463

3 195952,284993 1464

4 197477.703212 1465

Рис. 5. Результат прогнозування

Отже, побудовано 7 моделей для прогнозування цш на нерухомють. Найкращий результат продемонструвала друга агрегована модель, у ре-зультап чого шнцеву модель прогнозування виршено подати у виглядi об'еднання вище пере-рахованих чотирьох моделей. Кшцева модель ви-пробувана на тестовому наборi даних, де RMSE похибка склала 0.0781.

Для реалiзацil iнфoрмацiйнoгo забезпечення прогнозування цiн на нерухомють вирiшенo використовувати такий шструмент як Amazon Forecast. Amazon Forecast - це повшстю керована послуга, яка використовуе машинне навчання для отримання високоточних прoгнoзiв.

Алгоритм прогнозування, починаеться з за-питiв до бази даних, розмщеного в S3, який транс-формуеться за допомогою Аша7оп Athena (керова-ний Presto), розробляеться за допомогою блокнота Jupyter в SageMaker, модель будуеться за допомогою Amazon Forecast, а вiзуалiзацiя даних та результатiв прогнозу ввдбуваеться за допомогою QuickSight. Вигодами ввд використання власних служб AWS е вартють, масштаб та iнтеграцiя бшь-шoстi послуг AWS. Однак можна також замiнити будь-який iз шструменпв iншими, наприклад PowerBI для вiзуалiзацil або RDBMS для запитiв та трансформацп даних.

На рис. 4 наведено детальний алгоритм роботи сервгав AWS (у тому чи^ Amazon Forecast) для прогнозування цш на нерухомють.

Рис. 4. Детальний алгоритм роботи Amazon Forecast для прогнозування цiн на нерухомкть

Висновки

Розробка шформацшного забезпечення для прогнозування виглядае наступним чином. Ми отримали базу даних, в якш мiстилась iнформацiя про близько 600 об'eктiв нерухомостi. Кожен об'ект характеризувався досить великою шльшстю атрибупв: в!д типу крiвлi до мюця розташування. Цiльовою змiнною - «Цша продаж!», яка тдсумо-вувала вс характеристики й базуючись на них ви-значала вартiсть об'екта. Щллю роботи - встанов-лення зв'язшв м!ж характеристиками та виокрем-лення певно! закономiрностi формування цши. Застосовуючи р!зт математичнi подходи, теорiю ймов!рносп та математичну статистику, а також !х реалiзацiю в комп'ютерних системах побудовано шформацшне забезпечення. Перший етап - шдго-товка даних, ключовим моментом стало застосу-вання регуляризаци (рщж-регресп, LASSO та Elastic Net) та дерев ршень (градieнтного бустшгу та Extreme Gradient Boosting), а також створення двох агрегованих моделей (перша складалася з LASSO та Extreme Gradient Boosting, друга - !з Лассо, Extreme Gradient Boosting, Elastic Net та Ridge) для побудови моделi та прогнозу. Оцiнювання моделей проводилось за допомогою RMSE похибки.

На основ! агреговано! модел^ побудоване ш-фoрмацiйне забезпечення прогнозування цш на не-рухомють для потенщального використання защка-влених оаб та тдприемств з! сфери нерухомостг Використано комбшацш AWS Glue Crawler, Athena, Amazon Forecast та QuickSight. Перспективами подальших дослвджень е питання тдвищення точносп прогнозу, додавши бшьше набор!в даних, а також продовжити комбшувати р!зт тдходи моделювання часових ряд!в (DeepAR, Prophet тощо); також вивчимо способи подальшо! автома-тизацп процесу та дозволимо щодня оновлювати модел без ручно! роботи, використовуючи Step Functton, Lambda та шш1 допом!жт сервюи.

Лiтература

1. Шаповалова В.О. Прогнозування цш на нерухомють з урахуванням тенденцш дшових цикл!в / В.О. Шаповалова // Економша та держава, 2015. - № 9/2015. - С. 37-41.

2. Калишченко Ю.В., Добровольська В.В., Абрамчк А.Р. Моделювання тенденцш ринку неру-

хомосп . Економ!чний анал1з : зб. наук. праць Тер-нопшьського нацюнального економ!чного ушвер-ситету. 2016. Том 23. № 1. С. 28-36.

3. D. Wang and J. L. NiTOlau, "Price determinants of sharing economy based accommodation rental: A study of listings from 33 cities оп airbnb. rom," International Journal of Hospitality Management, vol. 62, pp. 120-131, 2017.

4. Y. Ma, Z. Zhang, A. Ihler, and B. Pan, "Estimating warehouse rental price using machine learning techniques.," International Journal of Computers, Ccm-munications & Control, vol. 13, no. 2, 2018

5. Воронш В.О. Дослвдження ринку нерухо-мосп. Проблеми, тенденцп, прогнозування . Вюник Нацюнального ушверситету «Льв!вська полггех-шка». 2010. № 690. С.540-552.

6. Kawaguchi, Y., (2013), Real Estate Economics, Seibunsha, Tokyo.

7. Пoлiщук £.А. Ринoк нерухoмoстi як сфера д!яльшсп девелoперських кoмпанiй: дис. канд. етон. наук: 08.00.08. - Ки!в, 2009. -19 с.

8. ^lland, J. Adaptatton in Natural and Artificial Systems: An Introductory Analysis with Ap-plicatiоns tо Bbtogy, Cоntrоl, and Artificial Intelligence; University оf Michigan Press: Ann A^r, MI, USA, 1975; pp. 439-444.

9. Cellmer, R.; Szczepanfowska, K. Simulatiоn Mоdeling in a Real Estate Market. In Proceedings оf the 9th Internattonal Cоnference Envirоnmental Engineering, Vilnius, Lithuania, 22-23 May 2014

10. Du, H.; Mulley, C. Transport accessibility and land value: A case study of Tyne andWear. RICS Res. Paper Ser. 2007, 7, 52.

11. New Zeland Agricultural and Resourse Economics Society (Inc.). House Price Prediction: Hedonic Price Model vs. Artificial Neural Network. URL: https ://researcharchive.lincoln.ac.nz/bitstream/ha ndle/10182/5198/House_%20price_%20predic-tion.pdf?sequence=1&isAllowed=y

12. Khlevna I., Bura Y. House price modeling by machine learning. // Information Technology and Interactions (Satellite): Conference Proceedings, December 04, 2020, Kyiv, Ukraine / Taras Shevchenko National University of Kyiv and [etc]; Vitaliy Snytyuk (Editor). Kyiv: Stylos, 2020.- P. 124 - 126.

i Надоели баннеры? Вы всегда можете отключить рекламу.