Научная статья на тему 'МЕТОДЫ АВТОМАТИЗИРОВАННОЙ ОЦЕНКИ КОММЕРЧЕСКОЙ НЕДВИЖИМОСТИ'

МЕТОДЫ АВТОМАТИЗИРОВАННОЙ ОЦЕНКИ КОММЕРЧЕСКОЙ НЕДВИЖИМОСТИ Текст научной статьи по специальности «Математика»

CC BY
154
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕДВИЖИМОСТЬ / КОММЕРЧЕСКАЯ НЕДВИЖИМОСТЬ / АВТОМАТИЗИРОВАННАЯ СИСТЕМА ОЦЕНИВАНИЯ НЕДВИЖИМОСТИ / ЖИЛЬЕ / РЫНОК НЕДВИЖИМОСТИ

Аннотация научной статьи по математике, автор научной работы — Лебеденко В. С., Абалтусова Е. И., Самсонова П. В., Ткаченко А. В.

Автоматизированные модели оценки (АМО) являются объектом изучения уже на протяжении многих десятилетий. В данной работе рассматриваются некоторые из основных методов, которые применялись в литературе, и ставится цель раскрыть их преимущества и ограничения для решения поставленной задачи. Сначала рассматриваются некоторые из наиболее традиционных методик, а именно регрессионная модель гедонистических цен (НРМ - hedonic prices model) и географически-взвешенная регрессия (GWR - geographically weighted regression). Далее рассматриваются «более новые» алгоритмы машинного обучения, а именно деревья решений, случайный лес (RF - random forest) и градиентный бустинг (GBM - gradient boosting model). Наконец, эти методы оцениваются на основе потенциальной точности прогнозирования для оценки отдельных свойств и степени интерпретируемости и достоверности результатов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лебеденко В. С., Абалтусова Е. И., Самсонова П. В., Ткаченко А. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS OF AUTOMATED ASSESSMENT OF COMMERCIAL REAL ESTATE

Automated valuation models (AVMs) have been the subject of study for many decades. This paper discusses some of the main methods that have been used in the literature, and aims to reveal their advantages and limitations for solving the problem. First, some of the more traditional techniques are considered, namely the hedonic prices regression model (HPM) and geographically weighted regression (GWR). Further, “newer” machine learning algorithms are considered, namely decision trees, random forest (RF - random forest) and gradient boosting (GBM - gradient boosting model) Finally, these methods are evaluated based on the potential accuracy of prediction to evaluate individual properties and the degree of interpretability and reliability of the results.

Текст научной работы на тему «МЕТОДЫ АВТОМАТИЗИРОВАННОЙ ОЦЕНКИ КОММЕРЧЕСКОЙ НЕДВИЖИМОСТИ»

МЕТОДЫ АВТОМАТИЗИРОВАННОЙ ОЦЕНКИ КОММЕРЧЕСКОЙ

НЕДВИЖИМОСТИ

В.С. Лебеденко, студент Е.И. Абалтусова, студент П.В. Самсонова, студент А.В. Ткаченко, студент

Новосибирский государственный университет (Россия, г. Новосибирск)

DOI:10.24412/2411-0450-2022-11-2-6-12

Аннотация. Автоматизированные модели оценки (АМО) являются объектом изучения уже на протяжении многих десятилетий. В данной работе рассматриваются некоторые из основных методов, которые применялись в литературе, и ставится цель раскрыть их преимущества и ограничения для решения поставленной задачи. Сначала рассматриваются некоторые из наиболее традиционных методик, а именно регрессионная модель гедонистических цен (НРМ - hedonic prices model) и географически-взвешенная регрессия (GWR - geographically weighted regression). Далее рассматриваются «более новые» алгоритмы машинного обучения, а именно деревья решений, случайный лес (RF -random forest) и градиентный бустинг (GBM - gradient boosting model). Наконец, эти методы оцениваются на основе потенциальной точности прогнозирования для оценки отдельных свойств и степени интерпретируемости и достоверности результатов.

Ключевые слова: недвижимость, коммерческая недвижимость, автоматизированная система оценивания недвижимости, жилье, рынок недвижимости.

Модель гедонистических цен

Гедонистические модели цен (НРМ) широко применяются для объяснения и моделирования ценообразования гетерогенных активов, таких как недвижимость. Эта система оценки измеряет вклад систематических факторов в стоимость недвижимости. Путем регрессии цен сделок на соответствующие характеристики можно

уравнять спрос и предложение на количественные и качественные характеристики в статической системе. Другими словами, каждая характеристика недвижимости оказывает количественное влияние на ее стоимость, и этот вклад можно выделить.

На практике самой популярной спецификацией данной модели стала лог-линейная:

1пУ1=Хф + е1

У^ - цена объекта недвижимости, XI - объясняющие переменные, £1 - случайная ошибка

В качестве объясняющих переменных Х^ используются как переменные, характеризующие условия контракта, так и характеристики самих сдаваемых в аренду помещений и свойства их местоположения в городе.

НРМ оцениваются с помощью многомерного регрессионного анализа, и преимущества и ограничения соответствуют этой хорошо известной методологии. Ос-

новные преимущества данного метода включают:

- Возможность оценки стоимости на основе конкретных вариантов причинно-следственных связей. Они переведены в математическую модель, которая является очень универсальной и, если она хорошо специфицирована, надежной.

Возможность выявить влияние отдельных переменных. Ценовые эффекты ха-

рактеристик изолированы и предельный вклад в совокупную рыночную стоимость легко проверить и интерпретировать. Кроме того, доверительные интервалы могут быть предоставлены с каждой оценкой стоимости, которые необходимы для определения надежности оценки.

- НРМ основан на простых методах регрессии, которые легко реализовать и осмыслить.

Хотя НРМ является одной из наиболее используемых методологий в литературе по недвижимости, модель критикуется многими, поскольку стандартная НРМ страдает от различных недостатков:

- Спецификация гедонистической модели всегда была критическим вопросом. Все зависит от доступности данных и допущений, произвольно выбранных исследователем. Часто используется какой-то набор переменных, который является упрощением реальности.

- НРМ предполагает предопределенную функциональную форму, которая часто является линейной в исследованиях недвижимости. Однако многие переменные имеют нелинейную зависимость относительно стоимости. Поэтому модели машинного обучения могут позволить более эффективно моделировать такие сложные взаимосвязи.

- Пространственная автокорреляция остатков нарушает предположение, что МНК остатки должны быть некоррелированными и нормально распределенными с нулевым средним и постоянной дисперсией. Это может снизить эффективность традиционного гедонистического метода. Этими эффектами часто пренебрегают: два наблюдения, близкие по пространству или времени, могут быть коррелированными, и упущение этих эффектов корреляции может привести к смещению в оценках коэффициентов и/или гетероскедастичности.

- Потенциальные другие проблемы связаны с фундаментальными допущениями гедонистической регрессии, такими как идентификация спроса и предложения, неравновесие, наблюдения, которые должны быть независимыми и идентично рас-

пределенными (i.i.d.) и ошибки, которые являются наилучшим линейным несмещенным оценщиком (BLUE).

Географически взвешенная регрессия

Мы видели, что серьезным ограничением НРМ является то, что наблюдения, скорее всего, проявляют взаимозависимость в пространстве и/или во времени и, таким образом, не соответствуют ключевым предположениям метода наименьших квадратов (МНК), следовательно, прогнозируемые цены могут стать ненадежными и привести к невозможности точного отражения истинных эффектов переменных. Пространственная и пространственно-временная регрессии могут рассматриваться как расширение НРМ, направленное на моделирование взаимозависимостей в пространстве и/или времени.

Одним из наиболее популярных и простых в моделировании пространственной регрессии является географически-взвешенная регрессия.

GWR использует простой множественный регрессионный анализ (МРА), но в отличие от МРА, GWR производит другой набор коэффициентов регрессии для наблюдений путем выполнения набора взвешенных регрессий в различных точках пространства с весами, определяемыми функцией расстояния до соседей. Таким образом, GWR, по сути, является комбинацией множества взвешенных МРА, которые выполняются вблизи каждого объекта недвижимости. В результате получается набор коэффициентов, которые являются функцией местоположения. Многие считают, что GWR превосходит стандартные модели гедонистических цен и пространственных расширений (в секторе жилой недвижимости) по объяснительной силе и точности прогнозирования. Некоторые даже утверждает, что этот пространственно-взвешенный подход - путь вперед в развивающейся массовой оценке [МсС1шкеу, 2013].

Уравнение географически взвешенной регрессии можно представить в следующем виде:

У1 = Ро(Щ,Щ) +Р1(Щ,ъдхц +Р2(щ,щ)*21 + ■■■ + + (1)

/ = 1 ...п

У1 - зависимая переменная, х]1 - объясняющие переменные,

щ, VI - координаты в пространстве ьго объекта (например, широта и долгота)

Р] - коэффициенты при объясняющих переменных (функция от координат).

Оценка коэффициентов в месте щ, VI - может быть сформулирована аналогично взвешенным наименьшим квадратам:

Р(Щ, VI) = (ХТ]^(Щ, vi)X)-1XтW(иi, vi)Y (2)

Где Х - матрица регрессоров, У - вектор зависимой переменной,

W(иi, vi)=diag(w1(иi, vi), ....^п(щ, vi)) - диагональная матрица весов.

В глобальной модели, где наблюдения из всех мест используются для оценки одного вектора коэффициентов, каждому наблюдению присваивается вес, равный единице. Первым шагом для учета локальности является включение наблюдений, которые находятся только на определенном расстоянии d от целевого местоположения, т.е.

(1, dji < d Wn = (3)

]i (0,иначе у 7

где d]i - расстояние между точками j и ь Эта схема взвешивания является одной из самых простых для расчета. Однако сна является прерывной функцией расстояния, что иногда может привести к нежелательным скачкам на поверхности оцениваемого параметра. Чтобы получить непрерывную весовую функцию, можно также использовать обратную величину расстояния, экспоненциальную функцию и функцию Гаусса. Экспоненциальная функция записывается следующим образом:

W]i = exP(-l;-), (4)

где Ь - полоса пропускания, которая может быть выбрана соответствующим образом для управления затуханием в зависимости от расстояния. Гауссовская схема взвешивания может быть записана как:

W]i = exp(-(i±)2), (5)

И (4), и (5) являются убывающими функциями d]i, что интуитивно указывает на то, что наблюдение, расположенное очень далеко от интересующего места, вносит небольшой вклад в оценку параметров в этом месте. Чтобы обеспечить непрерывную, близкую к гауссовской весовую функцию до расстояния Ь от точки оценки, а затем нулевые веса для любой точки данных за пределами Ь используют функцию Ь-квадрат:

0, иначе

Для биквадратного ядра, настраивая порог Ь, можно контролировать количество соседей, которые используются для оценки параметров для интересующего местоположения. Схемы взвешивания упомянутые выше, являются наиболее популярными схемами, используемым в GWR.

Достаточно исследований показали, что методы пространственной регрессии могут улучшить традиционную регрессию в секторе недвижимости [И^еге,2018]. Дополнительные преимущества по сравнению с НРМ включают:

- Существование пространственных автокорреляций, которые могут присутствовать в данных, представляет проблемы для традиционной регрессии, но является возможностью для моделей пространственной регрессии.

- С помощью моделей пространственной регрессии мы можем контролировать условия местных рынков с помощью непрерывной функции. Это устраняет ограничения традиционной регрессии, где произвольно выбранные контрольные переменные для времени и места являются одной из основных причин различных результатов в литературе.

- Модели пространственно-временной регрессии, как и любое другое моделирование, имеют как преимущества, так и ограничения. Ниже приведены некоторые из них, имеющие отношение к применению в сфере коммерческой недвижимости [Ш§еге,2018].

- Многие исследования показывают, что денежные потоки, которые может генерировать коммерческая недвижимость, являются одним из основных факторов, определяющих стоимость. Это позволяет предположить, что сопоставимые объекты недвижимости являются функцией не только времени и пространства, но и генерируемого дохода, среди прочих факторов. Следовательно, весовая матрица модели пространственной регрессии может быть неправильно определена, поскольку ближайшие сопоставимые объекты могут быть более удаленными, а близлежащие и недавно проданные объекты могут быть вообще несопоставимыми.

- Ценовые эффекты трудно извлечь, поскольку пространственные прогнозы не встроены в модель в виде коэффициентов, как это происходит в традиционной гедонистической регрессии, например, с помощью фиктивных переменных.

- Модели требуют знаний специалистов, поскольку эти методы имеют дело с продвинутым моделированием пространственных зависимостей. Кроме того, эти методы требуют серьезного аппаратного обеспечения. По сравнению с одной или даже несколькими моделями для субрынков, GWR, например, пришлось бы запускать модель для каждой точки данных в выборке.

Таким образом, пространственные регрессии являются улучшением традиционной модели гедонистических цен и должны давать более точные оценки стоимости, хотя при этом интерпретировать их будет сложнее.

Методы, использующие машинное обучение

Модели на основе деревьев - это относительно простые статистические алгоритмы распознавания образов, которые широко используются в сообществах Data Science, причем ансамбли деревьев решений являются наиболее часто используемыми алгоритмами в моделировании прогнозирования [Hilgers, 2018].

В данном разделе описываются немногочисленные исследования, в которых для оценки недвижимости применяются либо Дерево классификации и регрессии (CART), либо случайный лес (RF), либо градиентный бустинг (GBM). Все эти модели имеют в своей основе дерево решений, но отличаются способом комбинирования таких деревьев для повышения точности оценки стоимости.

Вкратце, алгоритм CART выполняет многочисленные тесты для определения наилучшей последовательности для регрессии и прогнозирования зависимой переменной на основе правил для независимых переменных. Эти тесты определяют лучшие «разделители», которые выбирают те переменные и их взаимодействия, которые наиболее важны для определения оценки стоимости.

Функция предсказания имеет форму дерева, которое разделяется на две части в каждом и узле. Самый верхний узел в дереве часто называют корневым узлом, а прогнозируемые значения модели получаются в листьях. Для деревьев регрессии прогнозное значение определяется, как среднее значение целевой переменной для всех элементов обучающей выборки, попавших в данный лист.

Случайный лес продолжает этот принцип. Однако он объединяет несколько деревьев решений с помощью метода «мешка», который усредняет зашумленные и несмещенные данные, что уменьшает дисперсию. Смысл RF заключается в том, что сочетание базовых, некоррелированных деревьев решений повышает точность прогнозирования. Процесс построения случайного леса происходит по следующей схеме:

По аналогии со случайным лесом, градиентный бустинг объединяет несколько деревьев, которые преобразуют набор слабых алгоритмов в один сильный. Однако для этого алгоритм сочетает алгоритм усиления с градиентным спуском. В этом итерационном процессе каждое последующее дерево строится по остаткам предсказаний предыдущего дерева.

Алгоритм состоит из трех элементов:

1. Функция потерь. Цель модели - минимизировать функцию потерь. Как мы видели, существуют различные функции потерь, но в целом они представляют собой количественное значение разницы между фактическим и предсказанным значением.

2. Слабые обучающие алгоритмы. деревья решений используются в качестве слабых обучающих алгоритмов в градиентном бустинге. В частности, используются деревья регрессии, которые выводят значения для расщепления и чьи результаты могут быть сложены вместе. Это позволяет добавлять результаты последующих моделей и «корректировать» остатки в прогнозе.

3. Аддитивная модель. Деревья добавляются по одному за раз, а существующие деревья в модели не изменяются. Для минимизации потерь при добавлении деревь-

ев используется процедура градиентного спуска. То есть, после вычисления ошибки или потерь строится новое дерево на основе градиентного спуска, которое уменьшает потери (т.е. следует за градиентом). Затем результаты нового Дерева добавляются к результатам существующей последовательности Деревьев в попытке улучшить конечный результат модели. Обучение прекращается, когда потери достигают приемлемого уровня или больше не улучшаются.

Часто упоминаемое преимущество алгоритмов на основе деревьев заключается в том, что они более гибкие, чем часто критикуемые строгие предположения стандартной гедонистической схемы. Другие преимущества данных алгоритмов представлены ниже:

Машинное обучение на основе деревьев, как правило, хорошо работает при наличии важных нелинейностей и взаимодействий, Модель является непараметрической, поэтому не требует никаких предположений о базовом распределении значений предикторов, что делает модель более простой в построении и объяснении. Эта важная особенность экономит время разработчика, которое в противном случае было бы потрачено на определение правильного распределения переменных, проведение преобразований и т.д., не говоря уже об ошибках, которые, скорее всего, будут допущены в ходе этого процесса.

Алгоритмы деревьев решений являются высокоавтоматизированными алгоритмами, даже в рамках области машинного обучения, и их легко понять и применить. То есть для подготовки данных для получения точных оценок стоимости требуется мало усилий. Алгоритмы справляются с данными с

отсутствующими переменными, категориальными и числовыми, нестандартизи-рованными, высокой размерности и даже могут выполнять отбор признаков для разнородных данных. Таким образом, модель может, в отличие от НРМ, предсказывать точные значения, даже когда важные переменные неизвестны (отсутствующие данные).

Алгоритмы поддерживают широкий спектр функций потерь. Кроме того, результаты модели, основанной на деревьях могут быть визуально представлены в виде интерпретируемой древовидной структуры, а также могут быть получены меры важности переменных. Это обеспечивает определенную степень интерпретируемости в отличие от, например, нейронных сетей.

Даже если деревья не улучшают точность прогнозирования по сравнению, например, с линейными моделями, они все равно могут выявить некоторые интересные моменты в данных, которые не очевидны из традиционных других методов машинного обучения. Например, он может выявить преимущество старых (монументальных) зданий, в то время как линейная модель может предположить отрицательную зависимость.

Хотя подход деревьев решений является отличным инструментом для поиска закономерностей в данных, мы также отмечаем, что он страдает от нескольких ограничений:

- Очень мало возможностей для понимания и контроля того, что делает модель (подход «черного ящика»).

- Легко создать слишком сложные деревья, которые плохо обобщают модель. Это также известно, как «переобучение» и особенно опасно, когда данные зашумле-ны.

- Большинство алгоритмов, основанных на деревьях, могут определить только один наиболее значимый разделитель в узле. Даже если другие независимые переменные могут оказывать значительное, но относительно слабое влияние на значение в узле, это влияние не может быть проанализировано одновременно в рамках построенного дерева.

- Регрессионная модель не предсказывает за пределами диапазона обучающих данных. Кроме того, алгоритм ЯР лучше справляется с проблемами классификации, чем регрессии. Он не может определить точный непрерывный характер регрессии, что часто требуется.

- Интересно, что деревья, как правило, не очень хорошо работают, если лежащая в их основе зависимость действительно линейна.

Рассмотренные выше модели выбраны исходя из их потенциала для решения задачи автоматизированной оценки коммерческой недвижимости. Однако важно помнить, что существует гораздо больше методов, каждый из которых имеет свои преимущества и ограничения. Выбор, как правило, связан с количеством и качеством доступных данных, среди прочих причин. Примерами алгоритмов, не рассматриваемых в данной дипломной работе, являются самоорганизующаяся карта, нейронные сети, кКК, моделирование Монте-Карло и другие.

Библиографический список

1. Бычкова, М.В. Исследование понятия «коммерческая недвижимость» // Имущественные отношения РФ. - 2009. - №4. - С. 86-91.

2. «Гражданский кодекс Российской Федерации (часть первая)» от 30.11.1994 № 51-ФЗ (ред. от 25.02.2022).

3. Медведева Н.И., Бровкин А.В. Оценка рыночной стоимости объектов коммерческой недвижимости с использованием доходного подхода // Экономика: вчера, сегодня, завтра. - 2018. - №8 (9А). - С. 79-91.

4. Международные Стандарты Оценки МСО-2011.

5. Downie, Mary-Lou and Robson, Gill Automated Valuation Models: an international perspective. RICS Automated Valuation Models Conference: AMOs Todayand Tomorrow. London, 4 November 2008.

6. Hager, D.P., and Lord, D.J. The property market, property valuations and property performance measurement // Journal of the institute of Actuaries. - 1985. - Vol. 112 (1). - P. 19-60.

7. Hilgers, B.A.J. Automated Valuation Models for Commercial Real Estate in the Nether-lans: Traditional Regression versus Machine Learning Techniques. Student thesis: Master. Eindhoven University of Technology, Eindhoven, 2018.

METHODS OF AUTOMATED ASSESSMENT OF COMMERCIAL REAL ESTATE

V.S. Lebedenko, Student E.I. Abaltusova, Student P.V. Samsonova, Student A.V. Tkachenko, Student Novosibirsk State University (Russia, Novosibirsk)

Abstract. Automated valuation models (AVMs) have been the subject of study for many decades. This paper discusses some of the main methods that have been used in the literature, and aims to reveal their advantages and limitations for solving the problem. First, some of the more traditional techniques are considered, namely the hedonic prices regression model (HPM) and geographically weighted regression (GWR). Further, "newer" machine learning algorithms are considered, namely decision trees, random forest (RF - random forest) and gradient boosting (GBM - gradient boosting model) Finally, these methods are evaluated based on the potential accuracy of prediction to evaluate individual properties and the degree of interpretability and reliability of the results.

Keywords: real estate, commercial real estate, automated real estate valuation system, housing, real estate market.

i Надоели баннеры? Вы всегда можете отключить рекламу.