In the article, using the apparatus of semi-Markov processes, an analysis of the functioning of the system is carried out with the replacement of an element during its control. The enlargement of a system with a continuous phase space of states is carried out using a method that does not require determining the stationary distribution of the embedded Markov chain for a continuous system. For an enlarged system, the transition probabilities and stationary distribution of the embedded Markov chain are determined, as well as the times the system stays in states. Using the path method, paths for the system to transition from a subset of operational states are found, and the distribution function for the time the system stays in this subset is determined. The simulation results are compared with data obtained using the theorem on the average time a system spends in a subset of states. The form of the required distribution function is given.
Key words: semi-Markov system, distribution function, path method, control, element replacement.
Zamoryonov Mikhail Vadimovich, candidate of technical science, docent, zamoryonoff@gmail. com, Russia, Sevastopol, Sevastopol state University,
Chalenkov Nikita Igorevich, assistant, [email protected], Russia, Sevastopol, Sevastopol state
University,
Kopp Vadim Yakovlevich, doctor of technical sciences, professor, v_kopp@mail. ru, Russia, Sevastopol, Sevastopol State University
УДК 004.021
DOI: 10.24412/2071-6168-2024-2-87-88
ИССЛЕДОВАНИЕ РЫНКА ЖИЛЬЯ РОССИЙСКОЙ ФЕДЕРАЦИИ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ
ДОБЫЧИ ЗНАНИЙ
Ю.А. Леонов, А.А. Мартыненко, Л.Б. Филиппова, И.И. Живодовский
Статья посвящена актуальной проблеме прогнозирования стоимости жилой недвижимости в Российской Федерации. Приведено решение задачи прогнозирования стоимости на основе использования кластеризации и метода градиентного бустинга. Особое внимание уделено нормализации и предварительной обработке исходных данных, выбору параметров кластеризации и прогностической модели, а также способу визуализации промежуточных этапов анализа. Проведен анализ эффективности использования алгоритма прогностической модели.
Ключевые слова: машинное обучение, кластеризация, прогнозирование, визуализация, недвижимость, интеллектуальный анализ, градиент.
Рынок недвижимости является отраслевым рынком с достаточно сложной системой организации. Данная отрасль находится под влиянием многих факторов. В процессе его развития появляются определенные особенности и закономерности в поведении продавца и покупателя. Направление развития рынка зависит как от отраслевых, так и от макроэкономических и институциональных факторов. В связи с этим рынок недвижимости является достаточно нестабильной отраслью. Любые изменения на рынке могут стать поводом для спекуляций и преднамеренного увеличения цен на недвижимость.
Рынок недвижимости требует постоянного мониторинга для определения его текущего состояния, но не каждый способен самостоятельно разобраться со всеми тонкостями данной отрасли. Человек, который хочет приобрести или продать жилье, вынужден либо затратить немало времени для анализа, либо привлекать специалистов со стороны, что ведет к дополнительным затратам. Одной из основных проблем анализа является оценка стоимости недвижимости. Это довольно длительный и трудоемкий процесс. В связи с этим существует потребность в его автоматизации. Это существенно сократит время, затраченное на анализ рынка жилья, а также облегчит процедуру выявления рыночной стоимости объекта недвижимости.
Задачи определения и прогнозирования цены решаются достаточно трудоемким способом и требуют обработки большого количества информации. На данный момент в распоряжении крупных компаний по продаже жилой недвижимости находятся большие объемы данных, подходящих для построения моделей прогнозирования стоимости жилья. Применив к ним методы машинного обучения, можно сократить затраты на решения данной задачи.
Целью данного исследования является разработка модели прогнозирования стоимости недвижимости. Для выполнения поставленной цели необходимо реализовать следующие задачи:
анализ ранее проведенных исследований;
выбор формализованных моделей и методов;
разработка алгоритмов и моделей прогнозирования;
анализ результатов исследования.
Результаты исследовательской работы возможно применить с практической точки зрения для разработки автоматизированной системы анализа рынка недвижимости, а также на площадках продажи жилья для определения рыночной стоимости выставляемого на продажу объекта или соответствия существующего предложения рыночной стоимости.
В России разработки по прогнозированию и оценки стоимости объектов рыночной отрасли с использованием методов машинного обучения только набирают обороты, поэтому научные исследования в данном направлении являются актуальными.
Теория. В 2021 году в журнале «Наука Красноярья» опубликована статья на тему «Применение машинных алгоритмов для прогнозирования стоимости недвижимости» [1], целью которой является анализ методов машинного обучения для прогнозирования цены жилой недвижимости.
В исследовании был проанализирован набор статистически данных, состоящий из 1460 строк и 10 столбцов. Он содержит информацию о площади земельного участка, количестве спален, ванных комнат, об оценке качества жилья и состояния жилой недвижимости, о количестве каминов, площади гаража, количестве комнат.
При построении модели прогнозирования были выбраны следующие методы обучения нейронных сетей:
стохастический градиентный спуск (SGD);
метод адаптивного градиента (Adagrad);
метод адаптивного скользящего среднего градиентов (RMSprop);
метод адаптивного шага обучения (Adadelta);
метод Адама (Adam).
Модель реализована в виде нейронной сети с двумя скрытыми слоями. В качестве активационной функции нейронов использованы сигмоидальная для входного слоя, и ReLu для промежуточных слоев. Обучение модели проводилось на трех группах данных: обучающее (70%), тестовое (15%) и вариационное множества (15%).
Для оценки точности использованы показатели: общая оценка обучения, максимальная ошибка, средняя абсолютная ошибка, средняя квадратичная ошибка и медианная абсолютная ошибка.
Результаты оценки точности показали, что метод RMSprop имеет лучшую сходимость, общая оценка обучения составила 96%. При использовании метода SGD общая оценка обучения составила 63%. По другим показателям метод SGD характеризуется меньшими значениями ошибок в сравнении с другими Adadelta, Adagrad, Adam. В целом метод RMSprop характеризуется лучшей сходимостью. Значения средней квадратической ошибки меньше, чем у методов Adadelta, Adagrad, Adam.
В международном научном журнале «International Journal of Strategic Property Management» [2] опубликована статья на тему исследования динамики рынка жилья с использованием метода опорных векторов. Автор использует данные о продаже недвижимости, содержащиеся в базе данных тайваньского портала недвижимости Gigahouse. Набор данных содержит информацию о 3991 сделке.
Для оценки точности разработанной аналитической модели использован коэффициент совпадений (hitrate). Точность модели составила 70%, что является достаточно низким показателем для ее использования с практической точки зрения в сфере продажи и покупки недвижимости.
Из рассмотренных исследований можно выделить следующие ключевые аспекты для разработки аналитических моделей:
1. Использование данных о продажах недвижимости только в РФ.
2. Количество анализируемых данных не менее 1 миллиона.
3. Использование корреляционного анализа для определения степени влияния характеристик жилья на его
стоимость.
4.Разработка модели прогнозирования стоимости жилья, обеспечивающей точность не менее 90%.
Данные и методы. Исследуемый набор данных состоит из объявлений, опубликованных на популярных
в России площадках о продаже недвижимости (avito.ru, cian.ru, moyareklama.ru, youla.ru). Он содержит список объектов жилой недвижимости Российской Федерации с их характеристиками и стоимостью.
Набор данных содержит 11.3 миллионов объектов жилой недвижимости, которые распределены по всей территории Российской Федерации. Карта территориального распределения жилья изображена на рисунке 1.
Рис. 1. Территориальное распределение недвижимости
Характеристики объекта недвижимости, содержащиеся в исследуемом наборе данных:
географические координаты недвижимости;
регион России, в котором расположен объект недвижимости;
тип строения (панельное, монолитное, кирпичное, блочное, деревянное и другие);
тип жилья (вторичное, новое);
количество этажей в доме;
этаж, на котором расположена недвижимость;
количество комнат;
площадь объекта недвижимости;
площадь кухни;
цена недвижимости;
почтовый индекс;
идентификатор улицы;
номер региона РФ;
номер дома.
Исследуемые данные содержат некоторое числом аномальных значений, которые необходимо удалить для построения качественной модели машинного обучения.
В ходе проведения экспресс-анализа с помощью функции describe() из библиотеки Pandas [3, 11] были выявлены некорректные данные (рисунок 2).
price level level« rooms area kitchen_area geo_lat geo_lxHi b ui Idi ng_ty pe ohject_type id_region
count 11356150.00 11358150.00 11358150.00 11358150.00 11353150.00 11358150.00 11358150.00 11353150.00 11353150.00 1135B150.00 11358150.00
mean 6787516.41 6.43 11.76 5,72 53.10 -2.67 54.4D 52.30 1.02 0.53 51.26
std 197711828.43 5.2S 7.22 1 15 2713 32.42 4.5S 21.34 1.56 0.33 22.51
mili | 0.001 10.00 0.001 l-vool [7oo| |-100.0cj 41.44 -173.22 0.00 0.00 1.00
25% 2600000.00 2.00 5.00 1.00 33.50 0.00 53.19 37.64 0.00 0.00 31.00
50% 3995000.00 5.00 10.00 200 46 70 6.50 55 65 42.02 000 0.00 54.00
75% 6600000.00 9.00 17.00 200 63.00 10.50 56.07 65.47 2.00 2.00 72.00
mal |б355524КЮ00.00| 50.00 50 ла s.oa 499.90 403.00 73.61 179.2B 6.00 2.0O 200.00
Рис. 2. Результат работы функции describeQ
По полученному результату можно сделать вывод, что объекты недвижимости, имеющие следующие характеристики, необходимо удалить:
цена меньше 100 тыс. и больше 1 млрд. рублей;
количество этажей и этаж, на котором расположена недвижимость, меньше или равны нулю; площадь меньше 10 м2; площадь кухни меньше 3 м2;
общая площадь недвижимости меньше площади кухни; количество комнат равных нулю.
В процессе дальнейшего изучения набора было найдено некоторое количество «аномалий». Одно из них -завышенные цены при площади недвижимости до 100 м2 (рисунок 3).
из
D 50 11Ю 1ÍD 200 ¿Sí ЖО 3S0 «М 450 500
Area
Рис. 3. Аномалия завышенной стоимости недвижимости
Также в исследуемом наборе был найден регион с индексом 200. В России региона с таким номером не существует, следовательно необходимо определить, какой регион подразумевается по этим индексом (рисунок 4).
Рис. 4. Географическое расположение региона «200»
Недвижимость с индексом региона 200 нельзя сопоставить к каким-либо регионом РФ. Следовательно, необходимо удалить данные о такой недвижимость из выборки.
В ходе дальнейшей обработки данных замечено, что некоторое количество недвижимости находится за пределами РФ. Их также необходимо исключить из выборки.
Полученный после обработки набор данных был использован для дальнейшего анализа. Начальный набор данных был разбит на обучающую и тестовую выборку. Обучающая выборка составляет 80% от исходной и используется для обучения моделей. Оставшаяся часть используется для проверки точности и других показателей моделей и методов.
Для проведения исследования были выбраны следующие методы интеллектуального анализа данных: кластеризация ^-Мсаш); корреляционный анализ.
Метод кластеризации был применен к исходному набору данных без параметров его географического расположения. С помощью метода локтя [4, 10] было определено оптимальное число кластеров (рисунок 5).
Hie Elbow Method
Number of clusters
Puc. 5. Результат метода локтя
Метод локтя выявил, что оптимальным для выбранного набора является три кластера. После проведения кластеризации и анализа ее результатов можно заметить, что значения центроидов соотносятся с общепринятыми классами недвижимости: эконом, комфорт и бизнес. Средней стоимостью для каждого класса является 4 млн. р, 6,5 млн. р. и 18,4 млн. р. соответственно (рисунок 6).
price area kitchen_area levels rooms level object_type id_region
business 18413804 15 1102.48 1928 13.25 3.12 6.98 0.23 59.79
comfort 6554553 09 48.16 12 13 19.00 1.36 11.13 0.63 56.93
econom 4088371 81 48.02 8 53 7.69 1.82 3.99 0.02 48.37
Puc. 6. Значения центров кластеров
Наибольшее количество объектов недвижимости относится к классу «эконом», затем к классу «комфорт» и наименьшее количество в классе «бизнес» (рисунок 7).
■ Эконом ■ Комфорт ■ Бизнес
Рис.7. Распределение недвижимости по классам
Следующим этапом был проведен корреляционный анализ и выявлена степень влияния характеристик жилья на его стоимость:
Географическая долгота (-0.15). Тип строения (-0.04).
Является ли жилье новым или вторичным (0.06). Географическая широта (0.08). Номер этажа (0.13).\
Общее количество этажей в доме (0.17).
Регион расположения (0.2).
Количество комнат (0.25).
Площадь кухни (0.35).
Площадь помещений (0.52).
Проведенный корреляционный анализ подтвердил ранее известные факты влияния характеристик жилья на формирование его итоговой стоимости. Основное влияние на цену оказали: площадь помещений, площадь кухни, количество комнат, количество этажей в доме и регион расположения.
Для построения модели машинного обучения были выбраны следующие методы:
линейная регрессия (LinearRegrassion);
регрессия лассо (LASSO);
гребневая регрессия (Ridge);
градиентным бустингом на основе деревьев решений (LightGBM).
Линейные модели построены с помощью библиотеки scikit-learn [5,9] и ее методов: LinearRegression, LassoCV, RidgeCV.
Оценка точности линейных моделей производилась с использованием метрики R2. Модели линейной регрессии, регрессии лассо и гребневой регрессии показали низкую точность прогнозирования (рисунок 8). Точность моделей составила около 40%.
Точность линейной регрессии: 0.3971717873303657 Точность гребневой регрессии: 0.3971717878308648 Точность регрессии лассо: 0.3966353683150568
Рис.8. Точность моделей регрессии
Следующим исследуемым методом является градиентный бустинг с ансамблем в виде деревьев решений. Для создания модели использован фреймворк LightGBM [6].
В качестве параметров для обучения модели была выбрана метрика RMSE, а также ансамбль в размере 7000 деревьев решений.
Модель прогнозирования была применена отдельно к каждому классу недвижимости, которые были выявлены на предыдущем этапе. В качестве метрики выбрана среднеквадратическая ошибка и коэффициент детерминации.
Результатом работы модели градиентного бустинга является числовое значение целевого параметра [7,8]. В нашем случае это стоимость недвижимости. Для наглядности была сформирована сравнительная таблица реальной стоимости и стоимости, спрогнозированной разработанной моделью (рисунок 9).
Оценку точности модели можно отобразить в виде графиков, на которых отображено отношение реальной стоимости к прогнозируемой (рисунок 10).
data pred
0 2750000 2958197
1 1500000 1626380
2 12857044 1122683
3 3333792 3593345
4 2530000 2628437
5 4682170 5018280
6 1960800 2326602
7 4850000 4940605
8 3000000 3443649
Рис. 9. Сравнение реальной стоимости и предсказанной
Ось абсцисс соответствует реальной цене из тренировочного набора, а ось ординат прогнозируемой стоимости. Чем ближе точки к диагонали, тем выше точность модели. Из графика видно, что большая часть точек расположена в окрестностях диагонали. Данный вывод показывает качество построенной модели.
Результаты исследований и их обсуждение. Кластерный анализ был проведен методом «K-Means». С помощью данного метода были выявлены основные общепринятые классы недвижимости: эконом, комфорт и бизнес.
К классу «эконом» чаще всего относится вторичное жилье с количеством комнат от 1 до 2, общей площадью 48 м2 и площадью кухни 8,5 м2. Средняя стоимость подобной недвижимости равна 4 млн. р. К классу «комфорт» может относиться как новое, так и вторичное жилье с количеством комнат от 1 до 2, общей площадью 48 м2 и площадью кухни 12 м2. Средняя стоимость подобной недвижимости равна 6,5 млн. р. К классу «бизнес» может относиться как новое, так и вторичное жилье со средним количеством комнат равным 3, общей площадью 102 м2 и площадью кухни 19 м2. Средняя стоимость подобной недвижимости равна 18 млн. р.
Проведенный корреляционный анализ подтвердил ранее известные факты влияния характеристик жилья на формирование его итоговой стоимости. Основное влияние на цену оказали: площадь помещений, площадь кухни, количество комнат, количество этажей в доме и регион расположения.
Кластерный анализ позволил разработать более точную модель прогнозирования, за счет разделения основного набора данных на 3 класса. Для каждого класса была разработана и обучена своя модель. Лучшую точность показали модели, построенные на основе данных о недвижимости «эконом» и «комфорт» классов.
Точность для класса «эконом»:
RMSE = 902969;
R2 = 0,89.
Точность для класса «комфорт»:
RMSE = 886582;
R2 = 0, 96.
Точность для класса «бизнес»:
RMSE = 3553165;
R2 = 0, 98.
Разработанные модели возможно применить с практической точки зрения в сфере покупки или продажи жилой недвижимости. Например, внедрить разработанную модель в качестве дополнительного модуля на площадках по продаже недвижимости для оценки соответствия рыночной стоимости опубликованного объявления о продаже объекта жилой недвижимости.
Еще одним примером использования является прогнозирование стоимости в момент составления объявления о продаже недвижимости.
Сфера жилой недвижимости развивается стремительными темпами. Рынок недвижимости содержит предложения с заниженной, рыночной и завышенной ценой. В связи с этим необходимо следить за развитием рынка и оценивать его текущее состояние. Зачастую, основным критерием при выборе недвижимости является её стоимость. Исследуемая модель помогает не ошибиться при оценке данного критерия и подобрать жилье, соответствующее его рыночной стоимости.
Также следует отметить, что для измерения рыночной стоимости недвижимости требуются определенные знания и время для анализа текущего состояния рынка. Не каждый человек обладает подобными знаниями и достаточным свободным временем.
Разработанные модели будут полезны как для продавца, так и для покупателя. Продавцу не требуется тратить много времени для анализа рынка и выявления стоимости недвижимости, а необходимо лишь ввести характеристики своего жилья. Покупателю также не нужно тратить много свободного времени на то, чтобы определить, насколько приемлемой является цена недвижимости, которую установил продавец. Таким образом, разработанные алгоритмы, помогут продавцу и покупателю не быть обманутыми при покупке или продаже недвижимости.
Заключение. В результате исследования было разработаны следующие модели машинного обучения:
Модель кластеризации.
Модель прогнозирования стоимости жилой недвижимости.
Кластерный анализ помог построить более качественную прогностическую модель за счет разбиения недвижимости на классы: эконом, комфорт, бизнес.
Из проведенного исследования следует, что наилучший результат прогнозирования показала модель деревьев решений с градиентным бустингом. Она наилучшим образом определяет рыночную стоимость жилой недвижимости.
Разработанные методы и алгоритмы были использованы в качестве основного функционала веб-сервиса для определения рыночной стоимости жилой недвижимости.
Список литературы
1.Pavlova A., Korzh, A. Применение машинных алгоритмов для прогнозирования стоимости недвижимости // Наука Красноярья, 2021. 10(4), 171-180.
2.J.Chen, C.Ong, L.Zheng, S.Hsu «Forecasting Spatial Dynamics of the Housing Market Using Support Vector Machine» // International Journal of Strategic Property Management. 2017. Vol. 23(3). P.273-283
3.Pandas documentation - Pandas. [Электронный ресурс] URL: https://pandas.pydata.org/docs (дата обращения: 10.01.2024).
4.Чио К. Машинное обучение и безопасность : руководство / К. Чио, Д. Фримэн ; перевод с английского А. В. Снастина. М.: ДМК Пресс, 2020. 388 с.
5.Machine Learning in Python - Scikit-learn. [Электронный ресурс] URL: https://scikit-learn.org/stable/index.html (дата обращения: 11.01.2024).
6.МЬ-Фреймворк LightGBM для градиентного бустинга - PythonRu [Электронный ресурс] URL: https://pvthonru.com/biblioteki/lightgbm (дата обращения: 11.01.2024).
7.Градиентный бустинг - Machine Learning Handbook [Электронный ресурс] URL: https://ml-handbook.ru/chapters/grad boost/intro (дата обращения: 11.01.2024).
8.Kuzmenko A., Kondratenko S, Dergachev K, Spasennikov V. Ergonomic support for logo development based on deep learning В сборнике трудов: CEUR WORKSHOP PROCEEDINGS 30. Сер. "GraphiCon 2020 - Proceedings of the 30th International Conference on Computer Graphics and Machine Vision" Том 2744.
9.Kuzmenko A.A., Averchenkov A.V., Sazonova A.S. Neural network analysis of ecological and floristic classification as a basis for protection of regional biodiversity В сборнике: IOP Conference Series: Materials Science and Engineering. International Science and Technology Conference "FarEastCon 2019", 2020. С. 042029.
10. Филиппова Л.Б., Филиппов Р.А., Кузьменко А.А. Применение технологий визуализации игрового контента при создании обучающей игры // Известия Тульского государственного университета. Технические науки. 2022. Вып. 7. С. 123-132.
11. Сазонова А.С., Филиппова Л.Б., Филиппов Р.А., Леонов Ю.А., Мартыненко А.А. Теория и системы управления: лабораторный практикум. Брянск: БГТУ, 2017. 46 с.
Леонов Юрий Алексеевич, канд. техн. наук, доцент, yorleon@yandex. ru, Россия, Брянск, Брянский государственный технический университет,
Филиппова Людмила Борисовна, канд. техн. наук, доцент, libv88@mail. ru, Россия, Брянск, Брянский государственный технический университет,
Мартыненко Алексей Александрович, канд. техн. наук, доцент, martynenko_alex@mail. ru, Россия, Брянск, Брянский государственный технический университет,
Живодовский Иван Иванович, студент, libv88@yandex. ru, Россия, Брянск, Брянский государственный технический университет
RESEARCH OF THE HOUSING MARKET IN THE RUSSIAN FEDERATION USING DATA MINING METHODS YuA. Leonov, A.A. Martynenko, L.B. Filippova, I.I. Zhivodovsky
The article is devoted to the actual problem of forecasting the cost of residential real estate. The solution of the cost forecasting problem based on the use of clustering and the gradient boosting method is given. Particular attention is paid to the normalization and preprocessing of the initial data, the choice of clustering parameters and a predictive model, as well as a way to visualize the intermediate stages of analysis. The analysis of the effectiveness of the use of the predictive model algorithm is carried out.
Key words: machine learning, clustering, forecasting, visualization, real estate, intelligent analysis, gradient.
Leonov Yuri Alekseevich, candidate of technical sciences, docent, yorleon@yandex. ru, Russia, Bryansk, Bryansk State Technical University,
Filippova Lyudmila Borisovna, candidate of technical sciences, docent, libv88@mail. ru, Russia, Bryansk, Bryansk State Technical University,
Martynenko Alexey Alexandrovich, candidate of technical sciences, docent, martynenko_alex@mail. ru, Russia, Bryansk, Bryansk State Technical University,
Zhivotovsky Ivan Ivanovich, student, libv88@yandex. ru, Russia, Bryansk, Bryansk State Technical University