Родионов Д.Г., Чан Х.Х., Конников Е.А., Унгвари Л.
МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ В ИССЛЕДОВАНИИ РЫНКА ЖИЛОЙ НЕДВИЖИМОСТИ
Аннотация. В статье рассматривается методологическая специфика анализа цен объектов недвижимость в разрезе современных методов машинного обучения. Центральной проблемой данного анализа является вариативная природа региональной специфики, которая может быть описана множеством способов. В рамках данного исследования представлен анализ эффективности трех подходов к описанию данной специфики, дифференцированных в соответствии со спецификой распределения данных. Результаты сравнительного анализа также дифференцированы в разрезе методов машинного обучения.
Ключевые слова. Машинное обучение, линейная регрессия, градиентный бустинг, случайные леса, деревья решений, стоимость объекта недвижимости.
Rodionov D.G., Tran H.H., Konnikov E.A., Ungvari L.
MACHINE LEARNING METHODS IN RESIDENTIAL REAL ESTATE MARKET RESEARCH
Abstract. This scientific article discusses the methodological specifics of analyzing real estate property prices with regards to modern machine learning methods. The central issue of this analysis is the variable nature of regional specifics, which in turn can be described in a multitude of ways. In the context of this study, an analysis of the effectiveness of 3 approaches to describing this specificity, differentiated in accordance with the specifics of data distribution, is presented. The results of the comparative analysis are also differentiated across the methods of machine learning.
Keywords. Machine learning, linear regression, gradient boosting, random forests, decision trees, property value.
Введение
Цены на недвижимость играют важнейшую роль в современном обществе, они оказывают значительное воздействие на экономику. Прогнозирование цен на недвижимость является сложной задачей, так как они зависят от принятия решения самими людьми [1]. Особенно актуальной является проблема прогнозирования цен на вторичном рынке недвижимости. Один из главных вопросов, с которым сталкиваются
ГРНТИ 06.35.51 EDN HRAURO
© Родионов Д.Г., Чан Х.Х., Конников Е.А., Унгвари Л., 2023
Дмитрий Григорьевич Родионов - доктор экономических наук, профессор, директор Высшей инженерно-экономической школы Санкт-Петербургского политехнического университета Петра Великого.
Хоанг Хиеу Чан - аспирант Высшей инженерно-экономической школы Санкт-Петербургского политехнического университета Петра Великого.
Евгений Александрович Конников - кандидат экономических наук, доцент Высшей инженерно-экономической школы Санкт-Петербургского политехнического университета Петра Великого.
Ласло Унгвари - кандидат экономических наук, профессор Высшей инженерно-экономической школы Санкт-Петербургского политехнического университета Петра Великого.
Контактные данные для связи с авторами (Конников Е.А.): 195251, Санкт-Петербург, ул. Политехническая, 29 (Russia, St. Petersburg, Polytechnicheskaya str., 29). Е-mail: konnikov.evgeniy@gmail.com. Статья поступила в редакцию 30.10.2023.
исследователи в данной области, заключается в моделировании мышления человека и его решений относительно цен. Цены на квартиры - это результат сложной комбинации различных факторов, которые принимают во внимание потенциальные покупатели [2]. Поэтому задача прогнозирования цен на квартиры сводится к моделированию мыслительного процесса человека.
Кроме того, другой важной проблемой является доступность информации. Каждая квартира является индивидуальным объектом недвижимости, что затрудняет сравнение и анализ массовых данных. Для решения этой проблемы необходимо обратиться к так называемым макрофакторам, которые являются общими характеристиками для всех объектов недвижимости. К таким факторам можно отнести регион, количество комнат и другие универсальные параметры.
В свете указанных проблем, основной целью данной научной статьи является разработка инструмента для эффективного прогнозирования цен на недвижимость на вторичном рынке, основанного на социально-доступной информации. Данный инструмент должен позволять принимать обоснованные решения относительно стоимости недвижимости, что значительно облегчит процесс покупки и продажи квартир. В статье рассмотрены существующие модели и методы для прогнозирования цен на недвижимость, а также предложены новые подходы, основанные на использовании социально-доступной информации. Материалы и методы
В данной статье рассматриваются три подхода к моделированию цен на недвижимость на вторичном рынке: без учета данных о регионе, данные о регионе описываются средней ценой или ее аппроксимацией гамма-функцией. Каждый из данных подходов использует различные инструменты для оценки модели. Для проведения анализа и моделирования цен на недвижимость были использованы следующие инструменты:
1. Линейная регрессия представляет собой один из широко используемых методов анализа данных, она основана на построении линейной связи между зависимой переменной и набором независимых переменных [4]:
У = f(x, Ь) + Е, ОД, (1)
где b - параметры модели; £ - случайная ошибка модели.
Эта зависимость называется линейной регрессией, если функция регрессии fix, b) имеет вид:
f(x, b) = b0+ btxt + b2x2 + - + bkxk , (2)
где bj - параметры (коэффициенты) регрессии ; Xj - регрессоры (факторы модели); к - количество факторов модели.
Предположение о линейной зависимости позволяет выразить зависимую переменную в виде линейной комбинации независимых переменных, обладающих некоторыми коэффициентами. Такие коэффициенты модели предоставляют информацию о вкладе каждой переменной в объяснение изменений зависимой переменной, что делает линейную регрессию простой в интерпретации. Однако следует отметить, что предположение о линейности может ограничить способность модели улавливать сложные нелинейные взаимосвязи на рынке недвижимости. Тем не менее, линейная регрессия является ценным инструментом исследования влияния отдельных факторов на цены на недвижимость и начального анализа данных [3].
2. Дерево решений является графической структурой, используемой для решения задач классификации и регрессии [5]:
Gainix,T) = Е(Т) -Е(х, Т) = Ti=1-pt - I ОДОД, (3)
где Е(Т) - энтропия распределения p = (pi,p2,... ,pn); Е(х, T) - энтропия в атрибуте x.
Оно представляет собой последовательное разбиение данных на основе набора вопросов, каждый из которых разделяет данные на две или более подгрупп. Деревья решений способны улавливать нелинейные и сложные взаимосвязи между переменными, поскольку в каждом узле дерева могут использоваться различные комбинации переменных. Это позволяет дереву решений выражать сложные паттерны и интеракции между признаками. Кроме того, деревья решений обладают интуитивной интерпретируемостью, так как каждый шаг в дереве соответствует конкретному вопросу и позволяет определить важность каждого признака. Однако деревья решений могут быть склонны к переобучению при наличии большого количества признаков или недостаточном количестве данных.
3. Градиентный бустинг является мощным методом машинного обучения, относящимся к классу ансамблевых моделей [6]. Рассмотрим порядок применения градиентного бустинга:
3.1. Инициализация. На этом шаге задаём исходное приближение для модели:
Fo(x) = argminc(ZVi, с), (4)
где выражение в скобках - функция потерь, уг - истинное значение целевой переменной, c - константа, получаемая через аналитическое решение (обычно используется среднее значение у).
3.2. Для каждого шага t от 1 до T (где T - количество итераций) выполняем действия:
• вычисляем остатки (градиент) для модели t-1:
r4 (х1) = -[dL(yi, (5)
• обучаем новую модель h_t(x) на остатках, минимизируя функцию потерь, например, с помощью
алгоритма дерева решений;
• обновляем предсказания для модели до текущего шага:
Ft (х) = Ft-i(x) + h(x). (6)
3.3. Финальное предсказание FT (х).
Данный метод объединяет несколько слабых моделей, обучаемых последовательно, для создания сильной предиктивной модели. Градиентный бустинг позволяет эффективно моделировать сложные взаимосвязи между множеством признаков и работать с большими объемами данных. Он основан на использовании алгоритма градиентного спуска для построения последующих моделей, которые исправляют ошибки предыдущих моделей. Градиентный бустинг обладает высокой предсказательной и обобщающей способностью, то есть он может хорошо работать на новых данных. Однако для достижения оптимальных результатов требуется наличие достаточного объема данных и тщательный подбор параметров модели.
4. Случайный лес является еще одним ансамблевым методом, состоящим из нескольких решающих деревьев [7]:
а(х) = IZhbi (х), (7)
где N - количество деревьев; i - счетчик для деревьев; b - решающее дерево; x - сгенерированная на основе данных выборка.
В отличие от градиентного бустинга, каждое дерево решений в случайном лесу строится независимо друг от друга на случайных подмножествах данных с замещением. Предсказания каждого дерева затем объединяются для получения окончательного результата. Случайный лес способен улавливать сложные взаимосвязи между переменными и дает хорошие результаты в моделировании цен на недвижимость. Он также предотвращает проблему переобучения за счет случайной выборки данных для каждого дерева. Кроме того, в случайном лесе можно оценить важность каждого признака для моделирования цен на недвижимость, что помогает понять, какие факторы имеют наибольшее влияние.
Критерии оценки моделей включают следующие:
1. Средняя абсолютная ошибка (MAE): MAE измеряет среднее абсолютное отклонение между прогнозируемыми ценами и фактическими ценами недвижимости. Этот критерий позволяет оценить точность модели в прогнозировании цен [8].
2. Среднеквадратическая ошибка (MSE): MSE измеряет средний квадрат разницы между прогнозируемыми и фактическими ценами. Она дает представление о средней ошибке модели и является показателем ее точности [9].
3. R-квадрат (R-squared): R-квадрат оценивает долю дисперсии зависимой переменной, которая может быть объяснена моделью. Высокое значение R-квадрата указывает на то, что модель хорошо объясняет вариацию цен на недвижимость [10].
Эти критерии позволяют оценить эффективность каждой модели и сравнить их результаты. Отбор наилучшей модели основывается на минимизации ошибок и максимизации R-квадрата для достижения наиболее точных и надежных прогнозов цен на недвижимость. На рисунке 1 показан алгоритм оценки моделей прогнозирования цен на недвижимость, в соответствии с которым:
1. Выделено два типа переменных: эндогенные переменные и экзогенные переменные.
2. Эндогенная переменная «Цена объекта недвижимости» является основной зависимой переменной в данной модели.
3. Экзогенные переменные включают два типа: «Общие свойства объектов недвижимости» и «Региональные характеристики».
4. «Региональные характеристики» в данном исследовании также разделены на три подхода: подход «Не учитывается», подход «Средняя цена недвижимости в районе» и подход «Параметры аппроксимации распределения региональных цен гамма функцией». Данные подходы представляют собой различные методы, учитывающие региональные особенности при анализе цен на недвижимость. Первый подход с пометкой «Не учитывается» подразумевает включение в модель только переменных, являющихся показателями объекта недвижимости, включая такие характеристики, как площадь, количество комнат, этаж и этажность здания. В подходе «Средняя цена недвижимости в регионе» помимо рассматриваемых характеристик недвижимости в модель включается средняя цена недвижимости. В подходе «Параметры аппроксимации распределения региональных цен гамма функцией» исключается аппроксимация средней цены недвижимости и вместо нее добавляется функция аппроксимации по гамма-функции. Данные переменные используются в качестве дополнительных факторов, влияющих на цены на недвижимость.
5. Выделенные подходы отправляются в блок «Моделирование зависимостей». Данный блок включает в себя различные методы анализа и моделирования, такие как линейная регрессия, деревья решений, градиентная загрузка и случайные леса. Данные методы используются для изучения взаимосвязей между переменными и прогнозирования цен на недвижимость при каждом подходе.
6. Из блока «Моделирование зависимостей» соединение передается в блок «Матрица качества». Данный блок является частью, которая оценивает качество модели и включает в себя различные метрики для измерения точности и надежности результатов анализа каждого подхода.
Рис. 1. Алгоритм оценки моделей прогнозирования цен на недвижимость
Таким образом, данная схема описывает структуру алгоритма, используемого для анализа и моделирования зависимости цен на недвижимость, с учетом множества переменных, методов и оценки качества модели. Использование функции аппроксимации гамма-распределения в данном случае имеет решающее значение для анализа и моделирования цен на недвижимость с учетом региональных особенностей, так как на это влияют следующие факторы:
1. Аппроксимация распределения. Гамма-распределение является вероятностным распределением, которое широко используется в статистике и эконометрике для моделирования случайных величин, которые могут быть положительными и иметь скошенное (неправильное) распределение. В данном контексте оно используется для аппроксимации распределения цен на недвижимость в разных регионах.
2. Учет различий в ценах. Разные регионы могут иметь различные структуры цен на недвижимость. Например, цены в центральной части города могут значительно отличаться от цен в пригороде или на окраинах. Гамма-распределение позволяет учесть скошенность и разнообразие цен в разных регионах.
3. Параметрический подход. Гамма-распределение обладает двумя параметрами: формы и масштаба. Эти параметры могут быть настроены в соответствии с данными о ценах на недвижимость в каждом регионе. Это позволяет лучше соответствовать реальным данным и учесть их особенности.
4. Прогнозирование и анализ. Используя аппроксимацию гамма-распределения, можно провести более точный анализ и прогноз цен на недвижимость в каждом регионе. Модель, основанная на гамма-
распределении, может помочь выявить влияние различных факторов на цены и лучше понять их структуру.
5. Сравнение и обобщение. Использование одной функции аппроксимации, такой как гамма-распределение, для всех регионов позволяет сравнивать и обобщать результаты анализа между разными местоположениями. Это может быть полезно при разработке более общих стратегий или политик в области недвижимости.
Таким образом, аппроксимация гамма-распределения в данной модели позволяет учесть и анализировать скошенность и разнообразие цен на недвижимость в разных регионах, что делает ее более адаптированной к реальным данным и позволяет получить более точные результаты и прогнозы.
Результаты
Данные в рамках исследования были собраны в период с марта по июнь 2022 года. Данная информация включает в себя 428 488 наблюдений о регионе, количестве комнат, этаже квартиры, этажей дома и цене квартиры. Гамма-распределение набора данных представлено на рисунке 2. Результаты исследования представлены в таблицах 1, 2, 3.
Рис. 2. Гамма-распределение.
Таблица 1
Результаты расчета R2
"" ^^^^ R2 Линейная Дерево Градиентный бу- Случайные
Подходы _________ регрессия решений стинг леса
Не учитывается 0,238 0,301 0,3 0,289
Средняя цена объекта в регионе 0,58 0,658 0,686 0,678
Параметры аппроксимации распределения региональных цен гамма-функцией 0,409 0,627 0,684 0,687
Всего 0,58 0,659 0,685 0,681
Анализ распределения значений R2 позволяет оценить, какой из подходов обеспечивает наилучшее соответствие модели данным:
• подход «Не учитывается». В данном сценарии модели не используют никакие предикторы и просто предсказывают среднее значение зависимой переменной. Все модели имеют сравнительно низкие значения R2, что ожидаемо. Средняя величина имеет самое высокое значение R2 в этом сценарии, но оно все равно довольно низкое;
• подход «Средняя цена объекта в регионе». В данном случае модели сравниваются с простой базовой моделью, которая всегда предсказывает среднее значение зависимой переменной. В этом случае, все модели показывают значительное улучшение R2 по сравнению с подходом «Не учитывается», что говорит о том, что они предсказывают данные лучше, чем просто среднее значение;
• подход «Параметры аппроксимации распределения региональных цен гамма функцией». R2 также улучшается по сравнению с подходом «Не учитывается», что указывает на то, что свойства распределения позволяют описать значительную часть дисперсии цены;
• подход «Всего». В данном сценарии используются все доступные предикторы. R2 также улучшается по сравнению с подходом «Не учитывается»" и близко к значениям R2 в сценарии «Средняя величина». Это может указывать на то, что использование всех доступных переменных улучшает модели.
Исходя из анализа R2, в данном случае, в сценарии «Всего», где используются все доступные предикторы, градиентный бустинг и случайные леса имеют самые высокие значения R2, что указывает на то, что они лучше всего соответствуют данным. В то время, как в сценарии «Без всего», дерево решений и случайные леса имеют самые низкие значения R2. Однако, выбор модели зависит не только от R2. Важно учитывать другие факторы, такие как интерпретируемость модели, вычислительная сложность и контекст задачи.
Таблица 2
Результаты оценки средних абсолютных ошибки
---MAE Линейная Дерево реше- Градиентный Случайные
Подходы ------___ регрессия ний бустинг леса
Не учитывается 0,118 0,112 0,11 0,113
Средняя цена объекта в регионе 0,084 0,074 0,069 0,072
Параметры аппроксимации распределения 0,103 0,079 0,07 0,07
региональных цен гамма-функцией
Всего 0,084 0,074 0,069 0,071
Проанализируем результаты распределения MAE для различных подходов:
• подход «Не учитывается». В этом сценарии, где модели не используют никакие предикторы и предсказывают только среднее значение зависимой переменной, все четыре модели имеют сравнительно небольшие значения MAE. Это может быть связано с тем, что предсказания моделей в этом сценарии близки к среднему значению зависимой переменной;
• подход «Средняя цена объекта в регионе». Здесь модели сравниваются с простой базовой моделью, которая всегда предсказывает среднее значение зависимой переменной. В этом случае, MAE для всех моделей снижается по сравнению с подходом «Не учитывается», что означает, что они предсказывают данные точнее;
• подход «Параметры аппроксимации распределения региональных цен гамма функцией». MAE также снижается по сравнению с подходом «Не учитывается» и «Средняя цена объекта в регионе»;
• подход «Всего». В сценарии «Всего», где используются все доступные предикторы, MAE также снижается по сравнению с предыдущими сценариями. Это может указывать на то, что использование всех доступных переменных улучшает точность прогнозов.
Исходя из проведенного анализа, наименьшее значение MAE достигается в подходе «Градиентный бустинг», а затем в подходе «Случайные леса». Следовательно, в этой задаче «Градиентный бустинг» может считаться лучшим подходом с точки зрения точности прогнозов, а «Линейная регрессия» - менее точным подходом.
Проанализируем результаты MSE в различных подходах:
• подход «Не учитывается». В этом сценарии, где модели не используют никакие предикторы и предсказывают только среднее значение зависимой переменной, все четыре модели имеют сравнительно малые значения MSE. Это может быть связано с тем, что предсказания моделей в этом сценарии близки к среднему значению зависимой переменной;
• подход «Средняя цена объекта в регионе». Здесь модели сравниваются с простой базовой моделью, которая всегда предсказывает среднее значение зависимой переменной. В этом случае MSE для всех моделей снижается по сравнению с подходом «Не учитывается», что означает, что они предсказывают данные точнее;
• подход «Параметры аппроксимации распределения региональных цен гамма функцией». Здесь также происходит снижение MSE по сравнению с подходом «Не учитывается», это указывает на то, что макроэкономические показатели добавляют информацию и улучшают точность прогнозов;
• Подход «Всего». В этом сценарии, где используются все доступные предикторы, MSE также снижается по сравнению с предыдущими сценариями. Это может указывать на то, что использование всех доступных переменных улучшает точность прогнозов.
Таблица 3
Результаты оценки средних квадратичных ошибки
——-—М8Б Линейная ре- Дерево ре- Градиентный Случайные
Подходы —— грессия шений бустинг леса
Не учитывается 0,024 0,022 0,022 0,023
Средняя цена объекта в регионе 0,013 0,011 0,01 0,01
Параметры аппроксимации распределения региональных цен гамма функцией 0,019 0,012 0,1 0,01
Всего 0,013 0,011 0,01 0,01
Исходя из анализа MSE, в данном случае, наименьшее значение MSE достигается в подходе «Градиентный бустинг», а затем в подходе «Случайные леса». Следовательно, в этой задаче «Градиентный бустинг» может считаться лучшим подходом с точки зрения точности прогнозов, а «Линейная регрессия» - менее точным подходом. Вывод
В данной статье мы рассмотрели важность инструментов анализа цен на недвижимость в современном обществе и проблемы, с которыми сталкиваются исследователи при прогнозировании цен на вторичном рынке недвижимости. Одной из главных задач в этой области является моделирование человеческого мышления и решений, связанных с ценами на жилье. Сложность задачи обусловлена также уникальными характеристиками каждой квартиры, что усложняет сравнение и анализ данных. В ответ на эти проблемы в статье представлен результат, основанный на анализе инструментов машинного обучения на основе социально доступной информации для эффективного прогнозирования цен на недвижимость.
Мы представили аналитическую основу для анализа соответствующих данных и оценки влияния макрофакторов на цены на недвижимость. Данное исследование представляет собой важный шаг в развитии научной области прогнозирования цен на недвижимость и создании эффективных инструментов для принятия обоснованных решений на рынке недвижимости. Наконец, в рамках данной научной работы мы также проанализировали различные модели, включая градиентный бустинг и линейную регрессию, и обнаружили, что градиентный бустинг обеспечивает лучшее качество прогнозов по всем рассматриваемым показателям. Это подтверждает его приоритетность как модельной основы для решения данной задачи. Благодарности
Работы выполнены в рамках реализации проекта «Разработка методологии формирования инструментальной базы анализа и моделирования пространственного социально-экономического развития систем в условиях цифровизации с опорой на внутренние резервы» (FSEG-2023-0008).
ИСПОЛЬЗОВАННЫЕ ИСТОЧНИКИ
1. Suat T., Onden 1. Evaluation of real estate decisions by spatial information // International Journal of Engineering Management and Economics. 2016. № 6. Р. 19-37.
2. Santos E. et al. Comparative Analysis of the Importance of Determining Factors in the Choice and Sale of Apartments // Sustainability. 2021. № 13 (16). Р. 8731.
3. Конников Е.А. и др. Влияние информационной среды региональной социально-экономической системы на потребление алкоголя населением // Информационные системы и технологии. 2021. № 3 (125). С. 44-49.
4. Cauchois M. STATS 50: Mathematics of Sport Spring 2019. Week 2 - Linear Regression. 2019.
5. Thomas T. et al. Applications of Decision Trees. 2019.
6. Griesbach C. et al. Gradient boosting for linear mixed models // The International Journal of Biostatistics. 2020. № 17. Р. 317-329.
7. Olson M. Essays on Random Forest Ensembles. 2018.
8. Родионов Д.Г. и др. Автоматизированный алгоритм квантификации информационной среды финансового рынка // Экономические науки. 2022. № 212. С. 134-139.
9. Schluchter M.D. Mean Square Error. Wiley StatsRef: Statistics Reference Online. 2014.
10. Peng J., AvedA. Approximate regularized least squares algorithm for classification // Defense + Security. 2018.