АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ОБЪЯВЛЕНИЙ О КОММЕРЧЕСКОЙ НЕДВИЖИМОСТИ: ВЫБОР ОПТИМАЛЬНОЙ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ

Шеремет Л.С.; Кашутина И.А.

УДК 004 Шеремет Л.С., Кашутина И.А.

Шеремет Л.С.

студент

Камчатский государственный университет им. Витуса Беринга (г. Петропавловск-Камчатский, Россия)

Кашутина И.А.

кандидат технических наук, доцент кафедры информатики и математики Камчатский государственный университет им. Витуса Беринга (г. Петропавловск-Камчатский, Россия)

АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ОБЪЯВЛЕНИЙ О КОММЕРЧЕСКОЙ НЕДВИЖИМОСТИ: ВЫБОР ОПТИМАЛЬНОЙ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ

Аннотация: в статье рассматривается задача автоматической классификации объявлений о коммерческой недвижимости с целью оптимизации процесса мониторинга рынка. Проведен сравнительный анализ различных алгоритмов машинного обучения, включая к-ЫЫ, логистическую регрессию, 8УЫ, наивный Байесовский классификатор, случайный лес и нейронную сеть. Для векторного представления текстов объявлений использовалась модель Жогё2¥ее. Результаты исследования показали, что алгоритм к-ЫЫ демонстрирует наилучшую точность классификации, что подтверждает его эффективность для решения данной задачи.

Ключевые слова: коммерческая недвижимость, мониторинг рынка, классификация текстов, машинное обучение,

Актуальность работы:

В условиях динамичного развития рынка недвижимости, эффективная и точная классификация объявлений является ключевым фактором для принятия обоснованных решений в сфере кадастровой оценки, инвестирования и градостроительства. Традиционные методы мониторинга, основанные на ручном

анализе, трудоемки и подвержены субъективности. Автоматизация этого процесса с помощью машинного обучения позволяет существенно повысить его эффективность и точность.

Изучение проблемы:

Существующие решения для классификации текстов объявлений о недвижимости часто сталкиваются с проблемой низкой точности, обусловленной разнообразием формулировок и стилей текстов. Выбор оптимальной модели машинного обучения, способной эффективно обрабатывать текстовые данные и учитывать семантическую близость слов, является ключевым фактором для решения данной проблемы.

Предлагаемое решение:

В рамках данного исследования была разработана система автоматической классификации объявлений о коммерческой недвижимости, основанная на алгоритме k-NN и модели векторного представления текста Word2Vec.

Описание датасета:

Для обучения модели использовался датасет, собранный с помощью парсинга объявлений о коммерческой недвижимости с популярных сайтов-агрегаторов. Датасет включал следующие атрибуты:

Текст объявления: Текстовое описание объекта недвижимости.

Вид объекта: Классификация объекта по типу (помещение, здание, земельный участок и т.д.).

Назначение объекта: Указание на основное назначение объекта (офисное, торговое, производственное и т.д.).

Методы:

1. Предобработка текста: для подготовки текстов объявлений к анализу применялись методы NLP (Natural Language Processing), включающие:

Очистка от шума: Удаление незначащих символов, HTML-тегов, лишних пробелов.

• Нормализация: Приведение текста к нижнему регистру.

• Лемматизация: Приведение слов к их базовой форме с использованием морфологического анализатора pymorphy2.

• Удаление стоп-слов: Исключение из текста слов, не несущих важной смысловой нагрузки, с помощью библиотеки

2. Векторное представление текста: для преобразования текстов объявлений в числовые векторы, пригодные для обработки алгоритмами машинного обучения, использовалась модель Word2Vec. Модель была обучена на корпусе текстов коммерческой недвижимости и позволила учесть семантическую близость слов при построении векторных представлений.

3. Аугментация данных: для балансировки классов и повышения робастности модели применялась аугментация данных путем случайного удаления слов из текста объявлений. Эта техника позволила увеличить количество данных для минорных классов и сделать модель более устойчивой к вариациям в формулировках объявлений.

Вид датасета до расширения:

Рисунок 1. Количество каждого уникального значения в атрибуте «Вид объекта».

Рисунок 2. Процентное отношение каждого уникального значения

в атрибуте «Вид объекта».

И после:

Рисунок 3. Количество каждого уникального значения в атрибуте «Вид объекта» после аугментации данных.

Процентное отношение каждого уникального значения в атр^

здание помещение сооружение

коммерческий недвижимость Еременнзе сооружение земля

здание земля из помещение нежилой, помещение здаьие нежилой коммерция

Рисунок 4. Процентное отношение каждого уникального значения в атрибуте «Вид объекта» после аугментации данных.

4. Выбор модели машинного обучения: для классификации объявлений были рассмотрены следующие алгоритмы:

• к-КЫЫ (к ближайших соседей): простой и интуитивно понятный алгоритм, хорошо работающий с большими датасетами.

• Логистическая регрессия: линейный классификатор, эффективный при наличии линейной зависимости в данных.

• БУМ (метод опорных векторов): мощный алгоритм, способный разделять данные с помощью гиперплоскости.

• Наивный Байесовский классификатор: вероятностный классификатор, основанный на теореме Байеса.

• Случайный лес: ансамблевый метод, объединяющий множество деревьев решений.

• Нейронная сеть: мощный алгоритм, способный моделировать сложные нелинейные зависимости.

5. Оценка эффективности моделей: для сравнения эффективности моделей использовались метрики точности, Б1-меры и полноты. Результаты:

Таблица 1. Сравнение эффективности алгоритмов машинного обучения.

Модель Точность Б1-мера Полнота

к-ЫЫ 0.595 0.616 0.615

Логистическая регрессия 0.114 0.160 0.104

0.048 0.069 0.039

Наивный Байес 0.068 0.304 0.673

Случайный лес 0.344 0.433 0.337

Нейронная сеть 0.238 0.293 0.227

Проведенный сравнительный анализ показал, что алгоритм к-ЫЫ демонстрирует наилучшую точность классификации (0.595), Б1-меру (0.616) и полноту (0.615) в сравнении с другими рассмотренными методами. Это подтверждает эффективность к-КЫ для решения задачи автоматической классификации объявлений о коммерческой недвижимости.

Выводы:

Применение модели Word2Vec для векторного представления текстов объявлений позволяет учесть семантическую близость слов и повысить точность классификации.

• Аугментация данных является эффективной техникой для балансировки классов и повышения робастности модели.

• Алгоритм к-КЫ демонстрирует наилучшую точность классификации в сравнении с другими рассмотренными методами.

Точки роста решения:

• Увеличение объема обучающих данных для повышения точности модели.

• Исследование других методов аугментации данных для дальнейшего улучшения робастности модели.

• Применение более сложных моделей машинного обучения, таких как глубокие нейронные сети, для повышения точности классификации.

• Применить описанный подход для других типов недвижимости: Такой же мониторинг проводится для земельных участков, жилых домов и т.д. поэтому есть возможность опробовать модель на них.

• Улучшение предобработки данных: дальнейшая оптимизация предобработки текста, например, с использованием более сложных методов обработки естественного языка (ЫЪР) или специализированных словарей для сферы недвижимости, может привести к дополнительному повышению точности классификации.

• Добавление модуля обработки изображений: в настоящее время система анализирует только текстовую информацию объявлений. Добавление модуля обработки изображений, который сможет извлекать информацию из фотографий объектов недвижимости, позволит существенно расширить объем анализируемых данных и улучшить точность классификации.

Заключение:

Разработанная система автоматической классификации объявлений о коммерческой недвижимости, основанная на алгоритме к-ЫЫ и модели Word2Vec, демонстрирует перспективность и может быть использована для оптимизации процесса мониторинга рынка. Дальнейшие исследования, направленные на расширение датасета, оптимизацию методов предобработки текста и применение более сложных моделей машинного обучения, позволят повысить точность и эффективность системы.

СПИСОК ЛИТЕРАТУРЫ:

1. Никитина, С.А., & Попов, С.С. (2019). Задача автоматической классификации текстов на основе методов машинного обучения. В Современные проблемы физико-математических наук. Материалы У Всероссийской научно-практической конференции с международным участием (с. 221-225). ФГБОУ ВО Орловский государственный университет имени И.С. Тургенева;

2. Бровкин, К.Е., & Раскатова, М.В. (2019). Исследование методов машинного обучения для классификации неструктурированных текстовых документов. Международный журнал информационных технологий и энергоэффективности, 4(2), 12-17;

3. Бердюкова, С.С., & Коломойцева, И.А. (2020). Анализ методов классификации текста. В Программная инженерия: методы и технологии разработки информационно-вычислительных систем (ПИИВС-2020). Сборник научных трудов III Международной научно-практической конференции (студенческая секция) (с. 171-175). Донецк;

4. Осипова, Ю.А., & Лавров, Д.Н. (2017). Применение кластерного анализа методом к средних для классификации текстов научной направленности. Математические структуры и моделирование, (43), 108-121;

5. Желябин, Д.В. (2020). Применение методов машинного обучения для решения задачи К^Р классификации текста на основе анализа семантики естественного языка. Вестник Алтайской академии экономики и права, 6(2), 229235

Sheremet L.S., Kashutina I.A.

Sheremet L.S.

Kamchatka State University named after Vitus Bering (Petropavlovsk-Kamchatsky, Russia)

Kashutina I.A.

Kamchatka State University named after Vitus Bering (Petropavlovsk-Kamchatsky, Russia)

AUTOMATIC CLASSIFICATION OF ADS ABOUT COMMERCIAL REAL ESTATE: CHOICE OPTIMAL MACHINE LEARNING MODEL

Abstract: the article discusses the problem of automatic classification of advertisements for commercial real estate in order to optimize the process of market monitoring. A comparative analysis of various machine learning algorithms was carried out, including k-NN, logistic regression, SVM, naive Bayes classifier, random forest and neural network. For the vector representation of ad texts, the Word2Vec model was used. The results of the study showed that the k-NN algorithm demonstrates the best classification accuracy, which confirms its effectiveness for solving this problem.

Keywords: real estate, market monitoring, text classification, machine learning, Word2Vec,

k-NN.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шеремет Л.С., Кашутина И.А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шеремет Л.С., Кашутина И.А.

AUTOMATIC CLASSIFICATION OF ADS ABOUT COMMERCIAL REAL ESTATE: CHOICE OPTIMAL MACHINE LEARNING MODEL

Текст научной работы на тему «АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ОБЪЯВЛЕНИЙ О КОММЕРЧЕСКОЙ НЕДВИЖИМОСТИ: ВЫБОР ОПТИМАЛЬНОЙ МОДЕЛИ МАШИННОГО ОБУЧЕНИЯ»