Анализ рынка недвижимости в Москве: применение алгоритмов машинного обучения для прогнозирования цен на квартиры

Голубев Евгений Жанович

Голубев Евгений Жанович

аспирант факультета «Информационные Технологии», Московский финансово-промышленный университет «Синергия», stepanov1999@rambler.ru

В данной работе рассматривается разработка и применение модели машинного обучения для прогнозирования стоимости недвижимости на примере рынка жилья в городе Москве. Методология включает в себя анализ различных характеристик квартир, таких как площадь, расположение, расстояние до метро и другие факторы, влияющие на стоимость жилья. Для прогнозирования цен применятся алгоритм регрессии при машинном обучении. В работе представлена модель, включающая в себя полносвязные нейронные сети с функцией активации и техникой регуляризации выпадающими слоями для предотвращения переобучения. Для оптимизации модели использовался оптимизатор адаптивной оптимизации момента с небольшой скоростью обучения, а функция потерь задавалась как среднеквадратичная ошибка. Результаты исследования показывают, что модель способна предсказывать цены на жилье с высокой точностью, учитывая особенности рынка и его динамику. Для оценки качества модели проводилась с использованием перекрестной проверки по Яблокам, что позволило оценить стабильность и надежность модели. Полученные результаты демонстрируют потенциал модели для анализа рынка недвижимости и принятия обоснованных решений о недвижимости, однако требуют большего набора данных для улучшения результатов.

Ключевые слова: машинное обучение, анализ рынка, моделирование, регрессия, прогнозирование цен.

*

СЧ О СЧ

Введение: беря во внимание то, что спрос, цена и предложение на рынке недвижимости постоянно изменяются, то для анализа такого рынка необходимо эффективное прогнозирование цен на жилье, позволяющее принимать обоснованные решения о покупке, продаже либо инвестировании в недвижимость [1, с. 165]. Именно поэтому целью данной работы ставиться разработка и применение модели машинного обучения для прогнозирования стоимости недвижимости.

Модель машинного обучения, обученная на исторических данных о ценах и характеристиках недвижимости, может обнаружить скрытые закономерности и зависимости, которые могут оказаться важными при принятии решений на рынке.

Основная часть: в первую очередь, для обучения модели потребуется набор данных. Набор данных содержит в себе 2040 уникальных записей имеющих следующие признаки:

1. "price": Указывает на стоимость квартиры указанной в тысячах долларов США. Данный признак является целевой переменной, которую требуется предсказать с помощью моделей машинного обучения;

2. "totsp": Общая площадь квартиры в квадратных метрах;

3. "livesp": Жилая площадь квартиры в квадратных метрах;

4. "kitsp": Площадь кухни в квадратных метрах;

5. "dist": Расстояние от квартиры до центра города в километрах. Этот признак может быть важным фактором, влияющим на цену жилья;

6. "metrdist": Расстояние до ближайшей станции метро в минутах ходьбы;

7. "walk": Показатель того, можно ли дойти до станции метро пешком (1 = да, 0 = нет, только на транспорте);

8. "brick": Показатель того, что здание, в котором находится квартира, построено из кирпича или монолитного железобетона (1 = да, 0 = нет).

9. "floor": Показатель того, находится ли квартира не на первом и не на последнем этаже (1 = да, 0 = нет);

10. "code": Значение от 1 до 8, указывающее на район города Москвы. Это важная информация, учитывая, что различные районы могут иметь разные уровни цен на жилье и спрос.

10.1. К северу от города, в районе Калужско-Рижской линии метро.

10.2. К северу от города, в районе Серпуховско-Тимирязев-ской линии метро.

10.3. К северо-западу, в районе Замоскворецкой линии метро.

10.4. Северо-запад, вокруг Таганско-Краснопресненской линии метро.

10.5. Юго-восток, вокруг Люблинской линии метро.

10.6. Юго-Восток, вокруг Таганско-Краснопресненской линии метро.

10.7. На восток, вокруг Калининской линии метро.

10.8. На восток, вокруг Арбатско-Покровской линии метро.

Оценив распределение целевой функции, представленное

на рисунке 1, можно отбросить часть данных с ценой превышающей 280, для уменьшения ошибок при обучении, поскольку их количество сравнительно мало и не превосходит 10% от общей выборки [2, с. 54]. Помимо этого, учитывая разнородность данных и их количество, их так же требуется дополнительно нормализовать. Для каждого значения каждого признака необходимо получить разность этого значения и среднего по этому признаку. Полученную разность разделить на стандартное отклонение и в результате признак центрируется по нулевому значению и

имеет стандартное отклонение, равное единице. Важно учитывать, что величины, используемые для нормализации, вычисляются только с использованием обучающих данных, без данных используемых для тестирования, поскольку это гарантирует, что процесс нормализации не будет зависеть от данных, которые необходимо оценить.

1L1-L _Li—_,_

100 200 300 400 500 6 00 700

Рис. 1. Гоафик распределения целевой функции

Как видно на рисунке 1, в основном цены на недвижимость расположены в диапазоне от 80 до 200 тысяч долларов.

При помощи регрессии можно предсказать значение на непрерывной числовой прямой, важно отметить, что речь идет не об алгоритме логистической регрессии, поскольку последняя является алгоритмом классификации [3, с. 376]. Отличие регрессии от классификации заключается в цели предсказания. В то время как классификация пытается разделить данные на различные категории или классы, регрессия стремится найти математическую функцию, которая наилучшим образом описывает связь между входными признаками и выходными значениями.

Для обучения использовалась модель с архитектурой, включающей в себя несколько полносвязных слоев с функцией активации ReLU (англ. Rectifier linear unit), что позволяет модели изучать нелинейные зависимости между входными признаками и целевой переменной. Особенностью данной модели является использование линейного выходного слоя без функции активации, что позволяет модели свободно предсказывать значения стоимости в любом диапазоне [4, с. 260].

Поскольку размер набора данных невелик, при обучении модели непременно наступит момент переобучения, когда модель начинает "запоминать" обучающие данные и теряет способность к эффективному обучению, подстраиваясь только под конкретную выборку. Чтобы замедлить его приближение, модель включает в себя выпадающие слои (англ. Dropout) для борьбы с переобучением, которые случайным образом отключают часть нейронов во время обучения [5, с. 37].

Оптимизация модели осуществляется с использованием оптимизатора адаптивной оценки момента (англ. Adaptive Moment Estimation, Adam) с небольшой скоростью обучения. Функция потерь задана как среднеквадратичная ошибка (англ. Mean Squared Error, MSE), что является стандартным выбором для задач регрессии [6, с. 68].

Такая модель разработана с целью предоставления точных и стабильных прогнозов цен на жилье и может быть эффективно использована для анализа рынка недвижимости и принятия решений о покупке или продаже недвижимости на основе предсказанных результатов.

Во время обучения отслеживается новый показатель MAE (англ. Mean Absolute Error, MAE), отображающий среднюю абсолютную погрешность. Для понимания MAE можно интерпретировать как абсолютное значение разницы между прогнозами и целевыми показателями. Например, значение MAE в 10 для такой задачи означало бы, что прогнозы не соответствуют действительности в среднем на 10.000 долларов.

Оценка качества модели осуществляется посредством перекрестной проверкой по K-блокам (англ. K-Fold Cross Validation), в данном случае использовалось 6 блоков, принцип такой оценки представлен на рисунке 2 [7, с.195]. Выборка разбивается на К подмножеств, модель обучается K раз на K-1 подмножествах данных, а затем оценивается на оставшемся подмножестве. Таким образом, каждый из K блоков данных используется в качестве тестового набора данных ровно один раз. После завершения K-ой итераций получается K оценок производительности модели, после чего эти оценки усредняются для получения общей оценки производительности модели.

Данные разбиты на 6 блоков

Прогон 3 Прогон 4 Прогон 5 Прогон 6

Обучение Обучение Обучение Обучение

Обучение

Обучение Обучение Обучение Обучение Обучение

Рис. 2. Перекрестная проверка по 6 блокам

Получив промежуточный результат, представленный на рисунке 3, можно отметить, что MAE при увеличении времени обучения улучшается, однако после 800 эпох обучения, MAE перестает эффективно улучшаться, после этой отметки начинается переобучение.

400 600

Эпохи

Рис. 3. График обучения модели

На основе полученных результатов подбираются необходимые гиперпараметры, усложнять модель в таком случае нет необходимости, потому что при малом объеме данных увеличение слоев приведет к ухудшению результатов. После определения гиперпара-мертров появляется возможность обучить конечную модель на всей обучающей выборке с оптимальными параметрами и проверить ее на тестовой выборке. В результате этих операций получается значение средней абсолютной ошибки равное 12.2, что означает, что средняя ошибка составляет 12200 долларов, не смотря на то, что сумма является значительной, относительно максимальных значение выборки это составляет от 4 до 5 процентов. Значение ошибки связанно с малым объёмом данных, недостаточным для полноценного обучения модели.

Заключение: в этой работе была представлена модель машинного обучения для прогнозирования стоимости недвижимости на примере рынка жилья, эффективно прогнозирующая

Q

X

о

X

о s s

X

а) о

H

■и о s

H

о а т

о

H

го а

цены на жилье на основании различных факторов. Ее оценка перекрёстной проверкой по K-блокам позволила подтвердить эффективность и надежность. Не смотря на значение ошибки, результат является применимым. Имеется потенциал улучшения точности прогнозирования при увеличении объёма набора данных.

Литература

1. Вьюгин В.В. Математические основы машинного обучения и прогнозирования. - М.: МЦНМО, 2022. - 483 с.

2. Замятин А. В. Интеллектуальный анализ данных. - Томск : Издательский Дом Томского государственного университета, 2020. - 119 с.

3. Масис С. Интерпретируемое машинное обучение на Python. - СПб.: БХВ-Петербург, 2023. - 633 с.

4. Лакшманан В., Робинсон С., Мунн М. Машинное обучение. Паттерны проектирования. Подготовка данных, создание моделей, внедрение в производство. - СПб.: БХВ-Петербург, 2022. - 450 с.

5. Воронина В.В., Михеев А.В., Ярушкина Н.Г., Святов К.В. Теория и практика машинного обучения. - Ульяновск: УлГТУ, 2017. - 291 с

6. Гладилин П.Е., Боченина К.О. Технологии машинного обучения. - СПб.: ИТМО, 2020. - 77 с.

7. Элбон К. Машинное обучение с использованием Python. - СПб.: БХВ-Петербург, 2019. - 386 с.

Analysis of the real estate market in Moscow: application of machine learning

algorithms to predict apartment prices Golubev E.Zh.

Moscow Financial and Industrial University "Synergy"

This article discusses the development and application of a machine learning model for predicting the value of real estate on the example of the housing market in Moscow. The methodology includes an analysis of various characteristics of apartments, such as area, location, distance to the subway and other factors affecting the price of housing. Fully connected neural networks with an activation function and a dropdown layer regularization technique were used to predict prices to prevent overfitting. To optimize the model, an adaptive torque optimization optimizer with a low learning rate was used, and the loss function was set as a standard error. The results of the study show that the model is able to predict housing prices with high accuracy, taking into account the characteristics of the market and its dynamics. The quality assessment of the model was carried out using K-block cross-validation, which made it possible to assess the stability and reliability of the model. The results demonstrate the potential of the model for analyzing the real estate market and making informed decisions about real estate. Keywords: machine learning, market analysis, modeling, regression, price forecasting. References

1. Vyugin V.V. Mathematical foundations of machine learning and forecasting. Moscow:

ICNMO, 2022. - 483 p.

2. Zamyatin A.V. Data mining. Tomsk : Publishing House of Tomsk State University,

2020. 119 p.

3. Masis S. Interpreted machine learning in Python. - St. Petersburg: BHV-Petersburg,

2023. - 633 p.

4. Lakshmanan V., Robinson S., Munn M. Machine learning. Design patterns. Data

preparation, model creation, and production implementation. - St. Petersburg: BHV-Petersburg, 2022. - 450 p.

5. Voronina V.V., Mikheev A.V., Yarushkina N.G., Svyatov K.V. Theory and practice of

machine learning. - Ulyanovsk: UlSTU, 2017. - 291 p.

6. Gladilin P.E., Bochenina K.O. Machine learning technologies. - St. Petersburg: ITMO,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2020. - 77 p.

7. Elbon K. Machine learning using Python. - St. Petersburg: BHV-Petersburg, 2019. -

386 p.

*

2

О

2

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Голубев Евгений Жанович

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Голубев Евгений Жанович

Analysis of the real estate market in Moscow: application of machine learning algorithms to predict apartment prices

Текст научной работы на тему «Анализ рынка недвижимости в Москве: применение алгоритмов машинного обучения для прогнозирования цен на квартиры»