Научная статья на тему 'МАССОВАЯ ОЦЕНКА ОБЪЕКТОВ НЕДВИЖИМОСТИ НА ОСНОВЕ ТЕХНОЛОГИЙ МАШИННОГО ОБУЧЕНИЯ. АНАЛИЗ ТОЧНОСТИ РАЗЛИЧНЫХ МЕТОДОВ НА ПРИМЕРЕ ОПРЕДЕЛЕНИЯ РЫНОЧНОЙ СТОИМОСТИ КВАРТИР'

МАССОВАЯ ОЦЕНКА ОБЪЕКТОВ НЕДВИЖИМОСТИ НА ОСНОВЕ ТЕХНОЛОГИЙ МАШИННОГО ОБУЧЕНИЯ. АНАЛИЗ ТОЧНОСТИ РАЗЛИЧНЫХ МЕТОДОВ НА ПРИМЕРЕ ОПРЕДЕЛЕНИЯ РЫНОЧНОЙ СТОИМОСТИ КВАРТИР Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1626
269
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАССОВАЯ ОЦЕНКА НА ОСНОВЕ ТЕХНОЛОГИЙ МАШИННОГО ОБУЧЕНИЯ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / НЕЙРОННЫЕ СЕТИ ДЛЯ ОЦЕНОЧНОГО АНАЛИЗА / МОДЕЛИ АВТОМАТИЧЕСКОЙ ОЦЕНКИ / МЕТОД ОПОРНЫХ ВЕКТОРОВ / MASS ASSESSMENT BASED ON MACHINE LEARNING TECHNOLOGIES / DATA MINING / NEURAL NETWORKS FOR EVALUATIVE ANALYSIS / AUTOMATIC ESTIMATION MODELS / SUPPORT VECTOR METHOD

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лейфер Лев Абрамович, Чёрная Е. В.

В статье представлены результаты экспериментального исследования эффективности применения алгоритмов машинного обучения для оценки недвижимости на примере оценки квартир на вторичном рынке Нижнего Новгорода. При проведении указанных экспериментов были применены различные методы машинного обучения и использованы нейронные сети. Также представлен метод идентификации характеристик объектов на основе их текстового описания в объявлениях о продаже и приведены зависимости целевых метрик от различных параметров. Результаты исследования подтверждают эффективность применение искусственного интеллекта в области оценки недвижимости.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лейфер Лев Абрамович, Чёрная Е. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MACHINE LEARNING TECHNIQUES FOR REAL ESTATE MASS VALUATION. ANALYSIS OF ACCURACY FOR VARIOUS METHODS ON THE EXAMPLE OF THE APPRAISAL OF APARTMENTS

The article presents the results of an experimental study of the effectiveness of the application of machine learning algorithms for real estate assessment on the example of the assessment of apartments in the secondary market of Nizhny Novgorod. When conducting the described experiments, various machine learning methods were applied and neural networks were used. Also presented is a method for identifying the characteristics of objects based on their textual descriptions in sales announcements and the dependencies of target metrics on various parameters. The results of the study confirm the effectiveness of the use of artificial intelligence in the field of real estate valuation.

Текст научной работы на тему «МАССОВАЯ ОЦЕНКА ОБЪЕКТОВ НЕДВИЖИМОСТИ НА ОСНОВЕ ТЕХНОЛОГИЙ МАШИННОГО ОБУЧЕНИЯ. АНАЛИЗ ТОЧНОСТИ РАЗЛИЧНЫХ МЕТОДОВ НА ПРИМЕРЕ ОПРЕДЕЛЕНИЯ РЫНОЧНОЙ СТОИМОСТИ КВАРТИР»

 Массовая оценка объектов недвижимости на основе технологий машинного обучения. Анализ точности различных методов на примере определения рыночной стоимости квартир

Л.А. Лейфер директор Приволжского центра методического и информационного обеспечения оценки, научный руководитель Приволжского центра финансового консалтинга и оценки, член президиума Экспертного совета Российского общества оценщиков, кандидат технических наук (г. Нижний Новгород) Е.В. Чёрная аналитик-программист ООО «Информ-оценка», магистр программы «Интеллектуальный анализ данных» факультета информатики, математики и компьютерных наук НИУ ВШЭ в Нижнем Новогороде (г. Нижний Новгород)

Лев Абрамович Лейфер, [email protected]

Введение

Машинное обучение и интеллектуальный анализ данных стали эффективными инструментами для решения не только научных задач, но и прикладных бизнес-задач. Одной из них является задача определения рыночной стоимости имущества на основе анализа рыночных данных.

Искусственный интеллект (далее также - ИИ) в сфере оценочной деятельности стал применяться в конце прошлого столетия. Так, авторы статьи [1] применили нейронные сети в качестве инструмента для оценочного анализа. Однако в результате своих экспериментов они получили достаточно противоречивые результаты. Спустя почти десять лет авторы статьи [2] эмпирическим путем показали, что предсказания нейронных сетей превосходят по качеству результаты гедонистических ценовых моделей (the hedonic price models). При этом в упомянутых статьях для проведения вычислительных экспериментов использовалось сравнительно небольшое количество данных (200-250 объектов).

В то время технологии ИИ еще не были достаточно развиты, чтобы обеспечить ре-

альный прорыв в области оценки. За последние 20 лет в сфере искусственного интеллекта произошло множество революционных открытий, поэтому в последние годы возросла активность работ по внедрению технологий ИИ в оценочную деятельность. Сейчас для обучения предсказательных моделей применяются десятки и сотни тысяч данных. Результаты последних работ подтверждают потенциал технологий искусственного интеллекта для решения задач прогнозирования цен на жилье. Следует отметить, что отдельные аспекты работы нейронных сетей ученые до сих пор не могут объяснить теоретически, но точность их работы с каждым годом увеличивается.

Авторы работы [3] для оценки жилой недвижимости Калифорнии, Флориды и Техаса применили различные методы машинного обучения (Random Forest, Gradient Boost, XG Boost). Результаты этих моделей сравниваются со стандартным методом наименьших квадратов (OLS) и показывают, то что превосходят стандартный подход по всем показателям. Медианная абсолютная процентная ошибка разработанной авторами модели составляет 9,3 процента. Полученная точность в сочетании с низкой

стоимостью и возможностью ее мгновенного получения позволяет авторам статьи [3] говорить о превосходстве моделей автоматической оценки над традиционными методами.

В последние годы ИИ в оценке вышел за рамки теоретических работ. Появились ресурсы, обеспечивающие возможность их эффективного применения для решения практических задач оценки.

Наиболее продвинутая компания Zillow [12] предлагает автоматическую оценку жилой недвижимости с точностью 3,5 процента (median error rate). Компания Zillow заинтересована в постоянном развитии технологий и улучшении точности оценки. Так, в 2017-2018 годах компания провела конкурс [13] на лучший алгоритм оценки на популярной платформе kaggle [14] с призовым фондом 1 200 000 долларов США.

Надежные экспресс-оценки, усиленные искусственным интеллектом, предлагает компания GeoPhy. На сайте компании [4] предложены решения с использованием искусственного интеллекта для оценки коммерческой недвижимости, которые, как утверждают создатели продукта, превышают по точности традиционные способы оценки. Текущую точность предложенной ими модели MedAPE (медианная абсолютная ошибка прогноза) они оценивают величиной 7,9 процента, что следует признать очень высокой. При этом они подчеркивают, что, используя контролируемое машинное обучение и нейронные сети, они постоянно повышают точность.

Отдельно следует отметить сайт компании HouseCanary [11], где авторы рассказывают о программном продукте, в котором для автоматической оценки жилой недвижимости также применяются технологии машинного обучения. Как утверждают авторы, им удалось уменьшить медианную абсолютную процентную ошибку до 2,1 процента (данные по состоянию на апрель 2019 года). Однако на сайте отсутствует информация о том, на какой выборке (обучающей или тестовой) эта ошибка рассчитывалась,

поэтому сделать надежные суждения относительно достигнутой ими точности не представляется возможным.

В последнее время интерес к применению технологии ИИ в оценочной практике стал проявляться и у отечественных специалистов. Например, в работе 2015 года [5] оценка жилой недвижимости осуществлена с помощью нейросетевого моделирования. Для прогноза использовался персептрон, имеющий 14 входных нейронов, один скрытый слой с 12 нейронами и один выходной нейрон. В качестве активационных функций использовались функции гиперболического тангенса. Авторы статьи говорят о средней ошибке, составляющей не более 4 процентов. Однако из статьи нельзя понять, о какой точности идет речь. Тем более что тестирование проводилось всего на 40 объектах, что слишком мало для формирования надежных утверждений относительно точности.

Авторы работы [8] сравнивают две архитектуры нейронных сетей для массовой оценки нежилой недвижимости города Москвы - MLP и GRNN. Наилучшее качество показала обобщенно-регрессионная нейронная сеть (GRNN), среднеквадратиче-ская относительная ошибка ее прогнозов составляет 20 процентов, что является типичной точностью для моделей массовой оценки.

Следует отметить еще две работы. В результате исследований в рамках работы [6] были отмечены преимущества нейронных сетей для оценки недвижимости, а именно универсальность, работа с большими выборками, способность к обучению в случае использования неточных или неполных данных. В статье [7] в результате своих исследований авторы сделали вывод о том, что наиболее подходящим вариантом решения задачи определения стоимости жилых квартир является многослойный персептрон.

Наряду с теоретическими публикациями в последнее время появились сообщения об использовании методов искусственного интеллекта в процессе практической оцен-

ки. В частности, «Сбербанк» разработал сервис для оценки недвижимости на основе машинного обучения и активно его применяет. Специалисты банка утверждают, что это помогло ускорить оценку залогов, избавить специалистов от рутинной работы и сократить траты (см. [9]).

Анализ названных работ показывает, что отечественная оценка находится на начальном этапе использования различных методов искусственного интеллекта в процессах оценки стоимости различных активов.

Рассмотрим предварительные результаты применения методов машинного обучения для определения стоимости объектов жилой недвижимости на основе анализа больших массивов рыночной информации о продажах квартир на примере оценки квартир на вторичном рынке города Нижний Новгород.

Постановка задачи

Каждый объект недвижимости описывается набором характеристик, значения которых влияют на его рыночную стоимость. Задача состоит в том, чтобы, используя данные о различных объектах, включающие, с одной стороны, значения характеристик каждого объекта, с другой - значение его рыночной цены, предложить правило, с помощью которого можно предсказывать наиболее вероятную рыночную цену нового объекта по его характеристикам. Заметим, что речь идет обо всех характеристиках, влияющих на его рыночную стоимость, в том числе технических параметрах самого объекта, характеристиках его места нахождения и факторах рыночной среды, в которой объекты продаются.

Цели настоящей работы - проанализировать принципиальную возможность определения рыночной стоимости объектов недвижимости на основе технологий ИИ, оценить результаты оценки по общепринятым критериям точности разными методами (алгоритмами) и выбрать из них наиболее эффективный, исследовать влияние параметров

выбранного алгоритма на точность результата.

Проведенные в статье исследования основаны на рыночных данных Нижнего Новгорода. При этом общие выводы, полученные в результате экспериментов, могут быть отнесены к другим регионам Российской Федерации. Для проведения экспериментов в рамках этой статьи были использованы данные реальных объявлений из категории «продажа вторичного жилья». Объявления были собраны 19 марта 2019 года в количестве 9 050 штук. Сбор данных был осуществлен посредством синтаксического анализа ИТМЬ-страниц с популярного у нижегородцев сайта [10].

Полученная выборка была разделена на две части: обучающую (70%) и тестовую (30%). Обучающая выборка использовалась для тренировки моделей, а тестовая -для определения качества их предсказания.

Определим цены предложений, размещенных на сайтах о продаже жилой недвижимости, как у, предсказанные значения стоимости жилой недвижимости - как у. Чтобы оценить эффективность используемой процедуры, для каждого результата рассчитываются следующие характеристики точности (метрики):

1) коэффициент детерминации (И2) отражает долю объясняемой дисперсии модели. Чем ближе значение коэффициента детерминации к 1, тем сильнее соответствие модели данным:

К - у )2

R2 = 1 - -

!(У/ - у)2

i=1

1

(1)

где y =-£yi;

п i=1

n - количество объектов в выборке;

2) средняя абсолютная ошибка (mean absolute percentage error - МАРЕ) показывает, на сколько процентов в среднем ошибается модель:

MAPE = - У

nt!

У, - У,

х 100;

(2)

3) медианная абсолютная ошибка (median absolute percentage error - MedAPE) отражает серединное значение среди всех упорядоченных значений процентных ошибок:

MedAPE = med•

У, - У,

У,

>х 100.

(3)

Указанные характеристики отдельно рассчитывались на выборке, используемой для обучения, и для выделенной тестовой выборки. Обращаем внимание на то, что тестовая выборка никаким образом не участвовала в обучении, поэтому характеристики точности, рассчитанные посредством сравнения предсказанных значений рыночной стоимости и фактических цен предложений по этим же объектам, отражает реальную точность предсказания.

Особенности подготовки исходных данных для обучения

Точность оценки в большой степени зависит от набора признаков (ценообразу-ющих параметров), с помощью которых идентифицируется объект оценки, поэтому важной частью формирования исходных данных является определение состава признаков для описания каждого объекта. Следует отметить, что полнота описания объекта ограничивается информацией об объектах, которые содержатся в объявлениях на продажу, размещенных на соответствующих ресурсах.

Содержательный анализ рынка жилья позволил выделить следующие существенные характеристики объекта, определяющие его рыночную стоимость:

1) числовые переменные:

• год постройки;

• этажность;

• общая площадь квартиры;

• площадь кухни;

2) категориальные переменные:

• район;

• количество комнат;

• материал стен;

• этаж размещения;

• территориальная зона.

Отметим, что конкретный набор параметров может отличаться в зависимости от сайта, с которого получены данные о ценах. Обычно большинство характеристик содержатся в объявлениях, размещенных на различных сайтах о продаже и аренде разных типов недвижимости. Однако в объявлениях не всегда указаны важные особенности объектов продажи. Наиболее полно эти признаки представлены на сайте [10]. Но даже на этом сайте значимая информация о местоположении и состоянии квартиры представлена недостаточно полно.

Что касается местоположения, то в рамках настоящего исследования было принято характеризовать его ценовой зоной, в которой находится объект. Необходимое для этого зонирование можно осуществить посредством кластеризации по различным признакам, например использовать координаты объектов. Однако, как показал наш анализ, более эффективными являются неформальный анализ территорий экспертами и разделение всей территории на отдельные ценовые зоны, характеризуемые престижностью, близостью к культурному и политическому центрам, удобством проживания и прочими признаками, оказывающими влияние на рыночную цену квартиры. В исследовании мы использовали разделение территории Нижнего Новгорода на 40 зон, привязка к которым служила интегральным идентифицирующим признаком местоположения. Такое зонирование выполнено Агентством недвижимости «Орион НН» в рамках специального проекта по созданию мультилистинговой системы (руководитель проекта - И.Л. Лейфер).

Еще одна проблема, которую следует решать на этапе подготовки данных, связана с наличием в объявлениях многочисленных «помех» (выбросы, ложные объявления с завышенными и заниженными ценами,

с неадекватными и противоречивыми характеристиками объекта и т. п.). В связи с этим выборка, сформированная из рыночных данных, для исследований была подготовлена должным образом - удалены выбросы, объявления с неадекватными данными, с очень низкими или очень высокими ценами. При обработке числовых признаков были отброшены значения менее 2 процентиля и более 98 процентиля. Все значения числовых признаков были приведены к единому типу, например к целочисленному или вещественному. Категориальные признаки также требуют стандартизации -все буквы приводятся к строчным, чтобы «Кирпичные» стены не отличались от «кирпичных», убираются лишние пробелы и знаки препинания, исправляются орфографические ошибки, допущенные продавцом. Некоторые характеристики требуют более конкретных преобразований, например, значения признака «этаж размещения» объекта недвижимости были преобразованы в три вида: первый этаж, средний и последний.

Для большинства моделей входные данные должны передаваться в числовом представлении (за исключением CatBoost), поэтому к категориальным переменным был применен метод one-hot encoding, основной идей которого является замена одного признака, принимающего N значений на N бинарных признаков, принимающих значения 0 или 1 в зависимости от исходного значения.

Идентификация характеристик объектов на основе текстового описания

Одна из наиболее сложных задач, с которой сталкивается оценщик, - структурирование информации, получаемой из текста объявления. Дело в том, что наиболее значимая информация о стоимости объекта оценки находится в содержании объявления, которое обычно пишется в произвольной форме в соответствии с личными предпочтениями автора объявления (продавца,

риелтора и т. п.). При грамотной обработке это описание можно использовать для формирования нужных признаков и улучшить таким образом точность оценки моделей.

В процессе выполнения настоящего исследования выделялись различные релевантные признаки. Это позволило представить описание объекта в структурированном виде и обеспечить дальнейшую обработку этой информации. В статье будет приведен лишь один пример использования подробного текстового описания для получения нового признака.

Важной характеристикой, влияющей на стоимость квартиры, является ее состояние. Для задачи в этом примере были определены следующие целевые классы, характеризующие состояние квартиры:

• без ремонта;

• типовой ремонт;

• евроремонт;

• авторский проект.

На сайте, с которого были получены сведения для исследований, такой информации не имелось, но было предложено подробное описание объекта, выставленного на продажу. Для формирования обучающей выборки использовались сайты, на которых указывалось состояние в соответствии с этой классификацией. Имея такую базу данных, задачу идентификации состояния объекта на основе текстового описания можно свести к задаче классификации на несколько классов. Тестовой выборкой в нашем случае является база объявлений объектов жилой недвижимости Нижнего Новгорода с подробным описанием.

В нашем случае для обучения модели использовалась размещенная на сайте irr.ru информация. Для текстовой классификации были испробованы несколько методов: наивный байесовский классификатор, метод опорных векторов, метод к ближайших соседей, алгоритм случайного леса, градиентный бустинг, сверточная нейронная сеть. Наилучшие результаты показала классификация с использованием градиентного бустинга, поэтому именно этот ал-

горитм был применен для обучения итоговой модели и дальнейшей классификации.

Далее представлено несколько метрик качества текстовой классификации для определения состояния квартиры. Причем аccuracy можно интерпретировать как долю правильных ответов алгоритма, precision как долю объектов, верных срабатываний на конкретном классе, а recall как долю верно найденных объектов из всех объектов класса.

accuracy =

TP + TN

precision

recall = ■

TP + TN + FP + FN TP

= 0,68;

TP + FP TP

= 0,70;

= 0,68,

TP + FN

где TP - истинно-положтельные (True Positive) ответы;

TN - истинно-отрицательные (True Negative) ответы;

FP - ложно-положительные (False Positive) ответы;

FN - ложно-отрицательные (False Negative) ответы.

Если предсказание модели совпадает с реальной положительной меткой класса, то это ТР-вариант. Если алогритм назначил объекту значение положительного класса, а он относится к отрицательному, то имеет место ошибка первого рода - FP-вариант (ложное срабатывание). Назначение алгоритмом положительному классу метки отрицательного приводит к ошибке второго рода - FN (пропуск цели). Ну и последним возможным вариантом является вариант, когда объект относится к отрицательному классу и алгоритм назначает ему отрицательную метку, в этом случае мы имеем дело с TN-вариантом.

Описание представлено для бинарной классификации (более подробную информацию см. в источниках [15-19]). В источнике [20] можно узнать о применении этих метрик к многоклассовой классификации.

Приведенные расчеты характеристик точности классификации позволяют сделать вывод, что примерно для 70 процентов объектов тестовой выборки состояние квартиры определено корректно. В случае использования размеченных вручную данных при обучении модели можно предположить, что точность классификации увеличится.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Анализ и сопоставление результатов оценки с использованием различных методов машинного обучения

Существует много методов машинного обучения, которые в принципе могут быть использованы для обеспечения процесса определения рыночной стоимости объекта недвижимости. В этом разделе приведены результаты исследований различных методов машинного обучения, в том числе широко распространенной в оценочной практике линейной регрессии, классических алгоритмов машинного обучения (random forest, gradient boosting), более современных моделей (xgboost, catboost). Кроме того, рассмотрены результаты оценки, основанные на применении нейронной сети. Таким образом, в работе рассматриваются следующие методы: Linear Regression; Random Forest; Gradient Boosting; XGBoost; CatBoost; Neural Network.

Исследование зависимости точности оценки от основных ценообразующих параметров

Как уже отмечалось, для адекватной оценки требуется достаточно полное описание объекта. Степень идентификации актива как объекта оценки определяется полнотой его описания с помощью цено-образующих параметров. Причем существенную роль играет не только количество

параметров, но и степень влияния каждого из учитываемых при оценке фактора на рыночную стоимость объекта. Проведенный нами анализ данных позволил определить значимость (вес) каждого из используемых признаков с точки зрения его влияния на стоимость объекта (см. табл. 1).

Таблица 1

Значимость признаков с точки зрения его влияния на стоимость объекта

Признак Значимость признака

Район 23,73

Год постройки 16,85

Территориальная зона 12,86

Этажность дома 10,52

Общая площадь 8,01

Ремонт 7,68

Материал стен 6,48

Площадь кухни 5,78

Количество комнат 5,03

Этаж размещения 3,06

Первые вычислительные эксперименты были проведены без учета некоторых значимых факторов. При таком подходе местоположение объекта характеризовалось только районом города, и не было учтено

физическое состояние жилья (результаты см. в табл. 2 в столбцах с номером 1). Второй эксперимент был проведен на тех же данных, но с добавлением в качестве це-нообразующего признака территориальной зоны (результаты см. в столбцах с номером 2). Наконец, третий эксперимент, в котором наряду с учитывавшимися раннее факторами добавлен фактор, отражающий состояние объекта (столбцы с номером 3).

Сопоставляя результаты расчетов, можно сделать следующие выводы:

1) наилучшие результаты по всем показателям получены при использовании алгоритма Random Forest. Наихудшим образом сработал метод Linear Regression;

2) по мере добавления новых факторов медианная ошибка оценки (MedAPE) снижается;

3) при использовании обучающей выборки, хорошо подготовленной для обработки, медианная ошибка показывает вполне приемлемые результаты, близкие к лучшим результатам в мировой практике;

4) еще раз подтвердилось, что наиболее значимым ценообразующим фактором для жилой недвижимости является расположение объекта;

5) полезную информацию можно извлечь не только из явных полей объявления о продаже недвижимости, но и из текстового описания.

Таблица 2

Результаты расчетов точности на тестовой выборке для разных методов

и разных экспериментов

Метод R2 MAPE MedAPE

1 2 3 1 2 3 1 2 3

Linear Regression 0,48 0,65 0,66 14,5 11,7 11,5 11,9 9,4 8,9

Random Forest 0,73 0,79 0,81 9,6 8,7 8,1 7,4 6,7 5,8

Gradient Boosting 0,69 0,74 0,78 11,1 10,2 8,6 8,9 8,3 6,4

XGBoost 0,70 0,73 0,78 10,3 9,8 9,0 8,1 7,9 6,9

CatBoost 0,73 0,77 0,77 10,3 9,2 9,1 8,2 7,2 7,1

Neural Network 0,60 0,71 0,71 11,4 9,5 9,4 8,1 7,2 7,1

Зависимости точности оценки (целевых метрик) от размера обучающей выборки и параметров алгоритма обучения

В этом разделе представлены зависимости целевых метрик R2 и MedAPE от различных признаков алгоритма, который показал наилучшие результаты в ряде экспериментов Random Forest.

Одним из важнейших признаков является глубина деревьев решения, составляющих ансамбль. Очевидно, что при построении наиболее глубокого дерева в листьях останутся ближайшие аналоги к объекту оценки. Но деревья большой глубины склонны к переобучению - это явление, которое характеризуется низкой ошибкой на обучающей выборке и достаточно большой ошибкой на тестовой выборке. Как правило, при чрезмерно большой глубине деревьев в листьях остается очень маленькое количество объектов, часто остается всего один объект, поэтому модель слишком сильно подстраивается под обучающую выборку и допускает значительные ошибки при малейшем изменении входных данных. Один из способов бороться с переобучением -ограничение глубины дерева. Из графиков, представленных на рисунке 1, видно, что разумная величина глубины деревьев лежит в районе 15 уровней, поскольку при

S: 1,00 0,85

0,55 0,40 0,25 0,10

последующем увеличении глубины дерева точность практически не увеличивается. При большем увеличении глубины показатели качества моделей не улучшаются, но увеличивается размер модели.

Аналогичным признаком является минимальное количество объектов в листе. Этот признак также способствует борьбе с переобучением. Дерево строится до тех пор, пока количество объектов в листьях остается более заданного пользователем минимального числа. Когда в листе остается один объект, это может привести как к очень точной оценке, так и к большой ошибке. В то же время чем больше объектов в листе, тем больше их разнородность, что тоже может привести к ошибочной оценке. Из графиков (рис. 2) зависимостей основных метрик качества модели от данного признака видим, что высокое качество оценки может быть достигнуто, когда в листе не менее двух-трех объектов. С оценочной точки зрения эти объекты являются наиболее близкими аналогами из имеющихся объектов тренировочной выборки.

Random Forest - это ансамблевый метод, который объединяет результаты вычислений нескольких независимых деревьев. По умолчанию в алгоритме используются 10 деревьев. Этот процесс можно интерпретировать как работу 10 отдельно взятых оцен-

14 Hi §

12 §

' /

^ДДДЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛЛ

д

* & ■

• ■■ •

* . •

10 8 6 4 2

0

15 20

40

60 80 100

максимальная глубина деревьев

ОР2 тест АР2 обучение шМвбАРЕтест тМвбАРЕ обучение Рис. 1. Зависимость R2 и MedAPE от максимальной глубины деревьев

S: 1,0

0,9

0,8

0,7

0,6

A

Ад ■■■

.■■Ч

JL

■■ ■■ ■■ _ ■ ■

■-■■-■■■И""

ААл

лсР шаал

Л АДА» «

'ООО,

'ООО/чО

УЧЛА

V

1ААДЛДД

0*0^00

0

—I—

10

10 £

§

(D §

8

2

20 30 40 50

минимальное количество объектов в листе OR2 тест AR2 обучение uMedAPE тест •MedAPE обучение

Рис. 2. Зависимость R2 и MedAPE от минимального количества объектов в листе

щиков. Каждый из них неплохо справляется со своей работой, но при объединении результатов независимой оценки нескольких профессионалов качество работы повышается, потому что каждый из них дополняет друг друга. Поэтому немаловажной характеристикой является количество таких «деревьев-оценщиков» в модели. Кажется, что чем больше оценщиков, тем точнее должен быть результат. Но из графиков зависимостей, представленных на рисунке 3, видим, что при достижении некоторого числа де-

о; 1,0

0,9

0,8

0,7

0,6

А А

ллллл

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ревьев (в данном случае - 5-10) значение метрики качества начинает меняться незначительно.

При обучении модели разумным может быть вопрос о размере обучающей выборки. Казалось бы, что чем больше данных, тем лучше, и что любой из новых добавленных объектов должен приносить дополнительную информацию. Но так ли это? Из графиков, представленных на рисунке 4, видим, что при увеличении обучающей выборки качество моделей улучшается, но

10 Й

§

(D

А А л л ллллл д д,

О0*

ОООООООО OOOOOOC^W®

~Ш—• •

• ••)

7,5

2,5

0

1

10 100 1000

количество деревьев в ансамбле (логарифмическая шкала)

MedAPE тест • MedAPE обучение

ОЯ2 тест ДЯ2 обучение Рис. 3. Зависимость Я2 и MedAPE от количества деревьев в ансамбле

6

4

5

0,40

л ХГ^

' ........

дддддддддд

^ О О О

ООО

• • •

• •••••

12 Й

§

ф

10 Sä

8 6

4

2

0 1000 2000 3000 4000 5000 6000

размер обучающей выборки

ОЯ2 тест ДЯ2 обучение

■ МебАРВ тест • МебАРВ обучение

Рис. 4. Зависимость величин R2 и MedAPE от размера обучающей выборки

отметим, что при этом скорость улучшения падает.

Заключение

В рамках настоящей статьи была рассмотрена проблема определения стоимости жилой недвижимости по ее характеристикам. Для решения этой задачи были использованы различные методы машинного обучения и интеллектуального анализа данных. Кроме того, проводилось сравнение методов по качеству, которое измерялось с помощью формул (1)—(3).

В ходе исследований были собраны и проанализированы данные, размещенные на сайтах о продаже жилой недвижимости, обучено несколько алгоритмов машинного обучения, сформировано несколько дополнительных признаков, которые улучшили качество работы моделей, выбран лучший метод, базируясь на котором, были проанализированы зависимости метрик качества от различных признаков. Проведенные исследования позволили получить точность 5,8 (MedAPE) на тестовой выборке с помощью алгоритма Random Forest.

Результаты исследований, полученные в рамках этой работы, подтверждают эффективное применение машинного обу-

чения для решения задачи определения стоимости объектов жилой недвижимости. Разработанные алгоритмы можно внедрять в работу оценочных компаний для повышения качества отчетов об оценке. Кроме того, использованные методы можно применять для определения цен коммерческой недвижимости, для массовых оценок кадастровой стоимости.

Что касается будущих исследований, то для повышения точности оценки можно более детально поработать с определением типа ремонта, используя подробное описание из объявлений: использовать обучающую выборку большего размера и разметить данные для получения достоверной информации. Для этой же цели можно попробовать применить сверточную нейронную сеть, которая будет определять тип ремонта квартиры по фотографиям из объявления.

ИНФОРМАЦИОННЫЕ ИСТОЧНИКИ

1. Elaine M. Worzala, Margarita Lenk, Ana Silva (1995). An Exploration of Neural Networks and Its Application to Real Estate Valuation // Journal of Real Estate Research ; American Real Estate Society. Vol. 10(2). P. 185-202.

2. Visit Limsombunchai (2004). House Price Prediction: Hedonic Price Model vs. Artificial

Neural Network // American Journal of Applied Sciences. 1(3). P. 193-201.

3. Nils Kok, Eija-Leena Koponen, Carmen Adriana Martinez-Barbosa (2017). Big Data in Real Estate From Manual Appraisal to Automated Valuation» // The Journal of Portfolio Management. 43(6). P. 202-211.

4. GeoPhy : [сайт]. URL: https://geophy. com/ (дата обращения: 24 мая 2019 года).

5. Ясницкий В. Л. Нейросетевое моделирование в задаче массовой оценки жилой недвижимости города Перми // Фундаментальные исследования. 2015. № 10-3. С. 650653. URL: http://www.fundamental-research. ru/ru/article/view?id=39274 (дата обращения: 14 мая 2019 года).

6. Сурков Ф. А., Петкова Н. В., Суховский С. Ф. Нейросетевые методы анализа данных в оценке недвижимости» // Известия вузов. Северо-Кавказский регион. Технические науки. 2016. № 3. C. 38-45.

7. Арефьева Е. А., Костяев Д. С. Использование нейронных сетей для оценки рыночной стоимости недвижимости // Известия Тульского государственного университета. Технические науки. 2017. Вып. 10. С. 177-184.

8. Борусяк К. К., Мунерман И. В., Чижов С. С. // Экономическая наука современной России. 2009. № 4 (47). С. 86-98.

9. «Сбербанк» разработал систему оценки недвижимости с помощью нейро-сети : [сайт]. URL: https://vc.ru/future/33068-sberbank-razrabotal-sistemu-ocenki-nedvizhi mosti-s-pomoshchyu-neyroseti (дата обращения: 24 мая 2019 года).

10. GIPERNN.RU - Гипермаркет недвижимости Нижнего Новгорода и области gipernn.ru : [сайт.: URL: https://www.gipernn.

ru/ (дата обращения: 24 мая 2019 года).

11. HouseCanary - Residential real estate valuations : [сайт]. URL: https://www.house-canary.com/ (дата обращения: 29 мая 2019 года).

12. Zillow - Zestimate : [сайт]. URL: https:// www.zillow.com/zestimate/ (дата обращения: 29 мая 2019 года).

13. Zillow Prize: Zillow's Home Value Prediction (Zestimate) : [сайт]. URL: https://www. kaggle.com/c/zillow-prize-1/data (дата обращения: 29 мая 2019 года).

14. Kaggle: Your Home for Data Science : [сайт]. URL: https://www.kaggle.com/ (дата обращения: 29 мая 2019 года).

15. Wikipedia: The Free Encyclopedia : [сайт]. URL: https://en.wikipedia.org/wiki/Sen sitivity_and_specificity (дата обращения: 23 июля 2019 года).

1 6. Wikipedia: The Free Encyclopedia : [сайт]. URL: https://en.wikipedia.org/wiki/ False_positives_and_false_negatives (дата обращения: 23 июля 2019 года).

1 7. Wikipedia: The Free Encyclopedia : [сайт]. URL: https://en.wikipedia.org/wiki/Con fusion_matrix (дата обращения: 23 июля 2019 года).

1 8. Wikipedia: The Free Encyclopedia : [сайт]. URL: https://en.wikipedia.org/wiki/Pre cision_and_recall (дата обращения: 23 июля 2019 года).

1 9. Wikipedia: The Free Encyclopedia : [сайт]. URL: https://en.wikipedia.org/wiki/Ac curacy_and_precision (дата обращения: 23 июля 2019 года).

20. Scikit-learn: Machine Learning in Python : [сайт]. URL: https://scikit-learn.org/stab le/modules/model_evaluation.html (дата обращения: 23 июля 2019 года).

i Надоели баннеры? Вы всегда можете отключить рекламу.