Научная статья на тему 'КЛАССИФИКАЦИЯ СТРОИТЕЛЬНОЙ ИНФОРМАЦИИ В BIM С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА'

КЛАССИФИКАЦИЯ СТРОИТЕЛЬНОЙ ИНФОРМАЦИИ В BIM С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
153
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ В СТРОИТЕЛЬСТВЕ / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / КЛАССИФИКАТОР / МОДЕЛЬ КЛАССИФИКАЦИИ / СЛУЧАЙНЫЙ ЛЕС / МАШИННОЕ ОБУЧЕНИЕ / BIM-ТЕХНОЛОГИИ / КЛАССИФИКАТОР СТРОИТЕЛЬНОЙ ИНФОРМАЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Петроченко Марина Вячеславовна, Недвига Павел Никитич, Кукина Анна Алексеевна, Шерстюк Валерия Виталиевна

Введение. Строительная отрасль активно развивается в части нормативного регулирования по информационному моделированию зданий. Одним из важных шагов эффективного перехода к цифровому строительству является создание классификатора строительной информации, который служит основой большого количества сценариев, начиная от простейшей навигации в модели и заканчивая получением различных практически ценных результатов в виде смет, ведомостей объемов работ, материалов. На практике классификация занимает длительное время и требует новых подходов для автоматизации процесса. Инновационным решением для данной проблемы выступают алгоритмы искусственного интеллекта (ИИ), представляющие инструмент прогнозирования посредством автоматического метода внесения кода в информационную модель на основе обработанных исходных данных с использованием предобученных моделей ИИ. Материалы и методы. Материалом исследования являются подготовленные данные для обучающей выборки модели, основанные на цифровых информационных моделях гражданских и промышленных объектов. Результаты. Исследованы российский и зарубежные классификаторы строительной информации, рассмотрены модели машинного обучения, обработана и сформирована обучающая выборка на основе цифровых информационных моделей гражданских и промышленных объектов, а также произведена оценка моделей классификации на основе обработанных данных и выбрана наиболее качественная модель классификации по скорости предобработки, времени обучения/переобучения и F1-score. Выводы. Модель машинного обучения, случайный лес, может применяться в качестве основного алгоритма искусственного интеллекта при классификации строительной информации. Данное решение позволит ускорить процесс классификации посредством автоматического внесения кодов в модель и повысит эффективность рабочих процессов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Петроченко Марина Вячеславовна, Недвига Павел Никитич, Кукина Анна Алексеевна, Шерстюк Валерия Виталиевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLASSIFICATION OF INFORMATION MODELS IN BIM USING ARTIFICIAL INTELLIGENCE ALGORITHMS

Introduction. The regulatory framework of building information modelling is in the process of proactive development. The development of a construction information classifier is an important step towards effective transition to digital construction. The classifier can serve as the basis for a large number of scenarios, starting from the simplest model navigation and ending with various practically valuable results obtained in the form of project budgets, statements of work amounts, and materials. In practice, classification takes a long time and requires new approaches to process automation. An innovative solution to this problem is artificial intelligence algorithms, which are a forecasting tool employing an automatic method used to enter code into an information model using processed source data and pre-trained AI models. Materials and methods. The material to be studied is the data prepared for a training set based on digital information models of civil and industrial facilities. Results. Russian and foreign classifiers of construction information were studied; machine learning models were considered; a training set was made and processed using digital information models of civil and industrial facilities, and classification models were evaluated using the processed data. The highest quality classification model was selected using the criteria of preprocessing velocity, training/retraining time and the F1 score. Conclusions. A random forest machine learning model can be used as the main artificial intelligence algorithm to classify construction information. This solution will accelerate the classification process due to the automatic code entry into the model and increase the efficiency of work processes.

Текст научной работы на тему «КЛАССИФИКАЦИЯ СТРОИТЕЛЬНОЙ ИНФОРМАЦИИ В BIM С ИСПОЛЬЗОВАНИЕМ АЛГОРИТМОВ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА»

НАУЧНАЯ СТАТЬЯ / RESEARCH PAPER УДК 004.9:69

DOI: 10.22227/1997-0935.2022.11.1537-1550

Классификация строительной информации в BIM с использованием алгоритмов искусственного интеллекта

Марина Вячеславовна Петроченко, Павел Никитич Недвига, Анна Алексеевна Кукина, Валерия Виталиевна Шерстюк

Санкт-Петербургский политехнический университет Петра Великого (СПбПУ);

г. Санкт-Петербург, Россия

АННОТАЦИЯ

Введение. Строительная отрасль активно развивается в части нормативного регулирования по информационному моделированию зданий. Одним из важных шагов эффективного перехода к цифровому строительству является создание классификатора строительной информации, который служит основой большого количества сценариев, начиная от простейшей навигации в модели и заканчивая получением различных практически ценных результатов в виде смет, ведомостей объемов работ, материалов. На практике классификация занимает длительное время и требует новых подходов для автоматизации процесса. Инновационным решением для данной проблемы выступают алгоритмы искусственного интеллекта (ИИ), представляющие инструмент прогнозирования посредством автоматического метода внесения кода в информационную модель на основе обработанных исходных данных с использованием предобученных моделей ИИ. Материалы и методы. Материалом исследования являются подготовленные данные для обучающей выборки модели, основанные на цифровых информационных моделях гражданских и промышленных объектов. Результаты. Исследованы российский и зарубежные классификаторы строительной информации, рассмотрены модели машинного обучения, обработана и сформирована обучающая выборка на основе цифровых информационных моделей гражданских и промышленных объектов, а также произведена оценка моделей классификации на ос- < П нове обработанных данных и выбрана наиболее качественная модель классификации по скорости предобработки, s с времени обучения/переобучения и F1-score. з Н

Выводы. Модель машинного обучения, случайный лес, может применяться в качестве основного алгоритма искус- k S ственного интеллекта при классификации строительной информации. Данное решение позволит ускорить процесс классификации посредством автоматического внесения кодов в модель и повысит эффективность рабочих процессов. О Г

с"

КЛЮЧЕВЫЕ СЛОВА: классификация в строительстве, искусственный интеллект, классификатор, модель классифи- . • кации, случайный лес, машинное обучение, BIM-технологии, классификатор строительной информации О ^

t N

ДЛЯ ЦИТИРОВАНИЯ: Петроченко М.В., Недвига П.Н., Кукина А.А., Шерстюк В.В. Классификация строительной l 1

информации в BIM с использованием алгоритмов искусственного интеллекта // Вестник МГСУ. 2022. Т. 17. Вып. 11. m 9

С. 1537-1550. DOI: 10.22227/1997-0935.2022.11.1537-1550 ° 7

r i n °

Автор, ответственный за переписку: Валерия Виталиевна Шерстюк, sherstyuk2.vv@yandex.ru. m 3

о <m

о7 о n

Classification of information models in BIM using artificial

intelligence algorithms

Marina V. Petrochenko, Pavel N. Nedviga, Anna A. Kukina, Valeriya V. Sherstyuk

*

CO CO

n I^J

° 0 ° 6

Peter the Great St Petersburg Polytechnic University (SPbPU); St. Petersburg, Russian Federation > ro

_ o o

i °

ABSTRACT tt i

Introduction. The regulatory framework of building information modelling is in the process of proactive development. e e

The development of a construction information classifier is an important step towards effective transition to digital construc- • • tion. The classifier can serve as the basis for a large number of scenarios, starting from the simplest model navigation 0 T and ending with various practically valuable results obtained in the form of project budgets, statements of work amounts, and ¡r ®

materials. In practice, classification takes a long time and requires new approaches to process automation. An innovative 3 1

solution to this problem is artificial intelligence algorithms, which are a forecasting tool employing an automatic method used ® . to enter code into an information model using processed source data and pre-trained AI models. 7 n Materials and methods. The material to be studied is the data prepared for a training set based on digital information mo- I E

dels of civil and industrial facilities. $ y

Results. Russian and foreign classifiers of construction information were studied; machine learning models were consi- c o dered; a training set was made and processed using digital information models of civil and industrial facilities, and clas- 1 1 sification models were evaluated using the processed data. The highest quality classification model was selected using , , the criteria of preprocessing velocity, training/retraining time and the F1 score. 2 2 Conclusions. A random forest machine learning model can be used as the main artificial intelligence algorithm to clas- 2 2 sify construction information. This solution will accelerate the classification process due to the automatic code entry into 2 2 the model and increase the efficiency of work processes.

© М.В. Петроченко, П.Н. Недвига, А.А. Кукина, В.В. Шерстюк, 2022

Распространяется на основании Creative Commons Attribution Non-Commercial (CC BY-NC)

1537

KEYWORDS: classification in construction, artificial intelligence, classifier, classification model, random forest, machine learning, BIM technologies, classifier of construction information

FOR CITATION: Petrochenko M.V., Nedviga P.N., Kukina A.A., Sherstyuk V.V. Classification of information models in BIM using artificial intelligence algorithms. Vestnik MGSU [Monthly Journal on Construction and Architecture]. 2022; 17(11): 1537-1550. DOI: 10.22227/1997-0935.2022.11.1537-1550 (rus.).

Corresponding author: Valeriya V. Sherstyuk, sherstyuk2.vv@yandex.ru.

N N N N О О N N

¡É (V U 3 > (Л

с и m N

i! л?

<D ф

о ё

о о со со

I

о со сч

от от

.£ о

CL^

с

Ю о

о Е

feo

СП ^ т- ^

s

4L J

* А

ВВЕДЕНИЕ

Согласно Постановлению РФ от 15.09.2020 № 1431 и от 05.03.2021 № 331, ведение информационной модели является обязательным для объектов капитального строительства, финансируемых с привлечением средств бюджетной системы РФ. Для проведения государственной экспертизы формирование информационной модели объекта капитального строительства требует использования классификатора строительной информации (КСИ) для единой обработки цифровых моделей.

Впервые КСИ был опубликован 1 декабря 2020 г. на сайте Федерального центра нормирования, стандартизации и технической оценки соответствия в строительстве. Данная система классификации необходима не только для унификации цифровых данных, но и является единым инструментом коммуникации между всеми участниками строительства, что впоследствии обеспечит заметное снижение трудозатрат и исключение ошибок при проектировании. Исполь-

зование классификатора строительной информации станет основой для автоматизированной проверки цифровых моделей, что обеспечит переход к машиночитаемому формату проектной документации [1].

Классификатор строительной информации основан на международных стандартах ISO 12006, IEC 81346 и организован посредством системного подхода, образуя упорядоченное множество разрозненных объектов. Все классы строительной информации и соответствующие классификационные таблицы, согласно ISO 12006-2:2015, относятся к одной из четырех базовых категорий строительной информации: ресурс, процесс, результат и характеристика (рис. 1). Запись кодов производится путем комбинации цифр, букв [2, 3].

Мировая практика в области строительства демонтирует опыт использования различных систем классификации, среди которых наиболее популярными в использовании являются: UniFormat, MasterFormat 2016, OmniClass, UniClass 2015, CoClass, системы классификации CCS и Talo.

r Результат 1 Описывает

L Result Á ^ Describes

к

т

и ч s

о « и ul s e

Re

r Процесс Л Описывает

i Process À Describes

Использует

Характеристика Characteristic

т

ает

« S

с и

с О

Uses

Рис. 1. Структура Классификатора строительной информации Fig. 1. Structure of the Classifier of construction information

1538

Ресурс Resource

UniFormat — стандарт классификации строительных спецификаций, оценки стоимости и анализа затрат в США и Канаде, разработанный на основе консенсуса между промышленностью и правительством. Содержит сметные стоимости строительства, которые позволят рассчитать смету на этапе эскизного проектирования. Поскольку UniFormat организует элементы по их составным элементам, его модифицированная версия использовалась при разработке таблицы 21 OmniClass. Стандарт основывается на функциональных элементах или частях, не учитывая материалы и методы, используемые для их выполнения. Система может использоваться для обеспечения согласованности в экономической оценке строительных проектов. UniFormat вмещает основные категории строительной информации, разделенные по их специальному назначению. Эти функции включают девять категорий на пяти иерархических уровнях. Он включает девять категорий на уровне 1: А—основание; В — оболочка; С — интерьеры; D — услуги; Е — оборудование и мебель; F — специальное строительство и снос; G — работы на стройплощадке и Ъ — общий [4].

MasterFormat 2016 — стандарт организации спецификаций и другой письменной информации для коммерческих и институциональных строительных проектов в США и Канаде. Основное использование стандарта заключалось в организации торгов и контрактных требований, спецификаций и информации о продукте. Его первоначальная цель заключалась в организации руководства по проекту, а затем его начали использовать для классификации моделей продуктов и другой технической информации. Каждый номер и название MasterFormat определяет «раздел», организованный по «уровням». Основные наборы связанных строительных продуктов и видов деятельности представляют собой заголовки или «подразделения» первого уровня. Каждый раздел состоит из номеров и названий второго, третьего и часто четвертого уровня, которые постепенно определяют более подробные области. Эти номера и названия намеренно структурированы для ожидаемого роста и расширения в будущем CSI, организованной в 50 подразделениях [4, 5].

OmniClass — аналоговый классификатор UniClass в США и Канаде, включающий MasterFormat и UniFormat. Состоит из 15 таблиц, представляющих собой определенную область строительной информации. Табл. 21-23 классифицируют результаты строительства. Табл. 21 (Элементы) основана на Ш^ота^ табл. 22 (Результаты работы) основана на MasterFormat. В каждой таблице представлены коды для классификации определенного типа информации. Эти таблицы позволяют классифицировать изделия как чистое изделие в таблице «Продукты», по их функциональному назначению в таблице «Элементы» и по результатам работ или практике строительства в таблице «Результаты работ». Комби-

нация этих таблиц в комплексном подходе обеспечивает возможность точной классификации продукта и его функции. Запись кодов производится посредством комбинации цифр и знаков [4, 5].

UniClass 2015 — классификатор, разработанный Великобританией, обеспечивающий комплексную систему, пригодную для использования всей отраслью, включая инфраструктуру, ландшафтные и инженерные службы, а также строительный сектор и для всех этапов жизненного цикла проекта. Первоначально выпущенный в 1997 г., Uniclass позволял структурировать проектную информацию в соответствии с общепризнанными стандартами. Эта исходная версия была значительно переработана, чтобы сделать ее более подходящей для использования в современной строительной отрасли и сделать ее совместимой с BIM сейчас и в будущем. Uniclass 2015 был тщательно структурирован в соответствии с ISO 12006. Состоит из 12 таблиц, представляющих собой определенную область строительной информации (Activities, Complexes, Entities, SpaceslLocations, Elements/Functions, Systems, Products, Tools and Equipment, Project Management, Form of information, Roles, CAD). Запись кодов производится посредством комбинации цифр, букв и знаков [4-7].

CoClass — шведская цифровая система классификации, основанная на ISO 12006-2:2015IIEC CD 81346. Разрабатывалась изначально в целях снижения расходов строительства из-за ненадлежащего качества коммуникаций между участниками строительного процесса на всех этапах жизненного цикла объекта от самых ранних стадий до технического обслуживания, эксплуатации и сноса [4].

Система CCS (Cuneco Classification System) — датская система классификации, пришедшая на смену устаревшему DBK. Классификационная система CCS во многом схожа со шведской классификационной системой CoClass, включая форму представления. Содержание и структура CCS также не имеют классического представления посредством бумажного носителя или электронных таблиц, доступ к содержанию классификатора возможен через специализированный web-сервис или API. Внутренняя структура КС формируется посредством шести основных категорий информации (Use of Construction Entities, Elements, Construction Aids, Construction Agents, Construction Product и Use of Spaces), каждая из которых представлена соответствующими таблицами (одной и более). При разработке КС организация CCS Cuneco руководствовалась положениями международного стандарта ISO 12006-2:2015 [4, 5].

Система классификации Talo 2000 — это финская национальная система, созданная в сотрудничестве между различными участниками строительной отрасли, формирующая основу для обмена информацией о строительстве для всех сторон. Система включает название элемента конструкции или

< п

iï k0

G Г

S 2

0 со n

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 о о -ь

J со

u i

r i n

о S

О о n

со со

м со

0

1

СО СП о о

on

fi

л ' -J 00 I т

S у с о (D *

Ы 10

о о

10 10

10 10

15Э9

сч N

N N

о о

N N

¡г ш

U 3

> (Л

с и m N

if ¡т*

ф ф

О ig

о о со со

I

о со сч

ю

.£ о

CL^

с

Ю о

о Е

fe ° СП ^ т- ^

4L J

«г?

■S

Г

О (О

здания и код, с помощью которого можно идентифицировать группу.

Целью исследования являлась оценка возможности применения существующих моделей машинного обучения для классификации строительной информации.

Задачи исследования:

1) обработка данных цифровых моделей для создания обучающей выборки для модели машинного обучения;

2) выбор наиболее качественной модели машинного обучения для классификации строительной информации.

МАТЕРИАЛЫ И МЕТОДЫ

Процесс классификации в проектной деятельности может быть организован следующими методами.

1. Ручной метод.

Внесение кодов в атрибут каждого элемента цифровых моделей отдельно. Web-платформа Bimaxon от компании AGACAD в свою очередь является инструментом ручного способа классификации через внесение кода для созданного атрибута. Подобные надстройки и приложения несут высокие временные затраты из-за обработки большого числа элементов в моделях вручную по сравнению с другими способами классификации.

2. Полуавтоматический метод:

• применение Dynamo и других сред визуального программирования;

• приложения для работы с атрибутами на основе сопоставления с таблицами.

Задаются признаки и правила по выбору элементов, после чего вносится атрибут с кодом элемента через скрипты, созданные в средах визуального программирования. Также существуют различные приложения по классификации, например Signal, в котором классификация производится по различным правилам или условиям посредством внесения кода в таблицы Excel, содержащие все элементы цифровой модели. Данный метод сокращает время внесения кодов по сравнению с ручным, но не отменяет проверки со стороны эксперта при подборе правил, для группирования и фильтрации элементов для присвоения кода.

3. Автоматический метод с помощью алгоритмов искусственного интеллекта.

Автоматический процесс классифицирования элементов цифровой модели — это самый эффективный по трудоемкости способ, который требует применения программных комплексов, основанных на методах машинного обучения [8-10]. Автоматический метод позволяет подобрать элементам соответствующий код посредством алгоритмов искусственного интеллекта, не прилагая усилия к фильтрации или отбору данных, в результате чего

присутствие человека необходимо только для вали-дации элементов с полученной классификацией.

На данный момент не существует программных комплексов, основанных на автоматическом методе классификации строительной информации. Однако классификационные системы широко используются среди других предметных областей, таких как нефтегазовая сфера, медицина, маркетинг, менеджмент [11], экономика, безопасность [12] и др. Подходы машинного обучения активно применяются для автоматической классификации и обнаружения аритмических заболеваний по сигналам ЭКГ [13], для распознавания лиц, походки, жестов [14], изображений [15], речи, а также для преобразования текста в голос и т.д. Методы машинного обучения позволяют обрабатывать, систематизировать, прогнозировать и классифицировать огромные массивы информации по определенным признакам и условиям, что в разы сокращает трудозатраты и повышает эффективность работы. Использование алгоритмов искусственного интеллекта обеспечит упрощение классификации BIM-моделей объектов капитального строительства и позволит исключить ошибки при внесении кода.

Методы машинного обучения предполагают возможность обучения за счет использования решений множества сходных задач или уже обработанных данных, что позволяет обучать модель классификации и увеличивать точность прогнозирования, в случае если код, назначенный программой, определен неверно [10, 11]. Данный аспект является ключевым преимуществом при выборе способа и метода классификации строительной информации.

Существуют различные модели машинного обучения для задач классификации. Наиболее эффективные по соотношению затрат времени на обучение и качества предсказания являются: случайный лес (RF-Random Forest) [16], LightGBM [17], XGBoost [18, 19], CatBoost [20].

Случайный лес (RF-Random Forest) — это алгоритм, предложенный Лео Брейманом и Адель Катлер. Random Forest создает множество деревьев принятия решений для полученных данных и усредняет результаты предсказаний на основе случайной выборки при построении деревьев.

LightGBM (Light Gradient Boosting Machine) — бесплатная и с открытым исходным кодом распределенная платформа повышения градиента в машинном обучении, использующая древовидные алгоритмы обучения, первоначально разработанная Microsoft [21]. Она основана на алгоритмах дерева решений и используется для ранжирования, классификации и других задач машинного обучения. Обладает относительно других алгоритмов невысокой скоростью обучения, но достаточной точностью.

XGBoost (eXtreme Gradient Boosting) — алгоритм машинного обучения, основанный на дереве принятия решений. XGBoost изначально стартовал как исследовательский проект Тяньцзи Чена

1540

как часть сообщества распределенного глубинного машинного обучения. В последнее время приобрел большую популярность среди специалистов из-за высокой точности и скорости обучения.

CatBoost — открытая программная библиотека, разработанная компанией Яндекс и реализующая уникальный патентованный алгоритм построения моделей машинного обучения, использующий одну из оригинальных схем градиентного бустинга в виде ансамбля слабых предсказывающих моделей, которыми в основном являются деревья решений. У Microsoft LightGBM российская разработка выигрывает по качеству, что демонстрирует таблица тестов с общепринятыми в машинном обучении сравнениями.

В ходе исследования были выявлены следующие критерии выбора модели классификации.

1. Скорость предобработки.

2. Время обучения/переобучения.

3. F1-score (macro) — основная метрика точности предсказаний на несбалансированной

выборке.

F1-score (macro) является показателем, характеризующим оценку точности модели классификации, среднее гармоническое взвешенное значение между значениями метрик «precision» и «recall»:

F1

scorel macro

1 Q 2Recall • Precision ' Q Recall + Precision

Метрика «precision» показывает долю верно классифицированных объектов среди всех объектов, которые к этому классу отнес классификатор. «Recall» отображает долю верно классифицированных объектов класса к общему числу элементов этого класса [22].

Исходя из существующих решений, проводилось исследование с целью прогнозирования прибыльности новых клиентов с использованием древовидных моделей с градиентным повышением, в ходе которого на основе информации о покупателях сравнивались модели XGBoost, LightGBM, CatBoost. Было выявлено, что CatBoost по усредненным показателям

precision и recall опережал другие модели классификации, но точность предсказаний при использовании случайного леса была выше [23, 24] (табл. 1).

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ

Процесс обработки данных цифровых моделей для создания обучающей выборки начинался с разметки информационных моделей. В качестве исходных данных для машинного обучения была выбрана 101 цифровая информационная модель жилых и промышленных объектов. В ходе разметки данных было обработано и закодировано более 500 000 элементов различных дисциплин: архитектурные решения, конструктивные решения, инженерные решения и др. Элементы, в свою очередь, имели 7544 уникальных наименований — признаков, которые составляли обучающую выборку для модели машинного обучения.

Исследование основывалось на данных цифровых моделей, закодированных вручную по таблице 6 КСИ (компоненты модели). Данная таблица была выбрана в связи с тем, что она содержит те же самые типы объектов, с которыми работает проектировщик при разработке BIM-модели.

До начала обучения модели ИИ необходимо было подготовить и отфильтровать данные, представляющие собой дубликаты или ненужные с точки зрения информативности и идентификации признаки элементов. Вследствие отсутствия структуры в признаках объектов было произведено маппиро-вание (смысловое объединение признаков) и следующие действия:

• удалены признаки, написанные на отличном от русского и английского языков;

• удалены пустые столбцы или столбцы со значениями '<unnamed>', 'other', '-' и 'notdefined';

• удалены все признаки, не имеющие маппиро-вания;

• удалены числовые идентификаторы из отдельных столбцов (например, в столбце 'имя' в конце строки часто встречается '<tag>' или '(<tag>)', что искусственно вносит уникальность в каждое значение).

Табл. 1. Результаты сравнения моделей на основе информации о покупателях Table 1. Results of the model comparison based on the customer information

Модель Model XGBoost LightGBM CatBoost RF

Доля верно классифицированных объектов Avg_precision 0,68 0,68 0,69 0,77

Доля верно классифицированных объектов класса к общему числу элементов этого класса Avg_recall 0,53 0,53 0,56 0,53

< П

is

о

S

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

с

о

со

< -ь J CD

U -

r i

n °

< 3

0 <

01

О n

CO CO

l\J со

0

1

co co о о

cn

• )

n

® . л ' -J 00 I T

s У с о <D X

10 10 о о 10 10 10 10

1541

Вестник МГСУ • ISSN 1997-0935 (Print) ISSN 2304-6600 (Online) • Том 17. Выпуск 11, 2022 Vestnik MGSU • Monthly Journal on Construction and Architecture • Volume 17. Issue 11, 2022

H Ol

to

I 100 000 _

й о

. Й

« S

u

к

о «

о

га о

« 3 & J

м и

о

I 1) л H

10 000

1000

100

10

сзо га <D ее га<э ее rajD га а и'^'Ш

ft^ps^a^aasiPi

Название кода класса КСИ, код The name of the class code in the classifier of construction information, code

Рис. 2. График распределения числа меток до отбора признаков Fig. 2. Break down of the number of labels before the feature selection

'о с

<и ■с Н

и §

К

£ С es ft о ю н о 1) н

о о с и

U

Щ

sjmn uoTjBuuojin uotjoiujsuoo jo jsgissep эщ ut sspoo ssbjo jo jsqiimu эщ ■»э 'ИОЛ аоээвкя aofoji оахээнишг)!

<u &

cj

CS

CS

Л Рч

S №

g

<u ■c

p:

< П

l*

iH

G Г

S 2

CO CO

О 9

U -

r i

n °

о о О i

со со

w со о

cn

• ) л ■

■ч п

I т

s У с о <D *

Ы 10

о о

10 10

10 10

1543

Также были удалены признаки с общим количеством элементов менее 30, которые не учитывались при классификации (рис. 2, 3).

Из рис. 2 видно, что код класса «wpa» (труба) в соответствии с КСИ чаще всего используется при классификации (26 847 ед.), при этом количество отметок использования классов ранжируется от 1 до 26 847.

Из рис. 3 видно, что после отбора признаков код класса «хтЬ» (фитинг трубы) является самым многочисленным (26 847 ед.), при этом количество отметок ранжируется от 1 до 3643. В результате отбора количество классов сократилось в 7,34 раза (рис. 1, 2).

В результате частоты заполнения (рис. 4) были отобраны наиболее значимые признаки, которые будут в первую очередь учитываться при классификации цифровых моделей: имя, класс, тип, материал, категория, вид, наименование системы, описание, марка, отметка уровня базовой точки.

На следующем этапе проводилось сравнение моделей классификации на ранее обработанных данных со следующими параметрами:

сбалансированная выборка для 60 классов; из каждого класса определялось по 30 элемен-

тов;

• соотношение размеров обучающей выборки к тестовой 3:1;

• для ЯР — 100 деревьев, максимальная глубина — 20;

• XGBoost, LightGBM, CatBoost — 1000 итераций, максимальная глубина — 5.

По проведенным исследованиям модель «случайный лес» показала более высокие результаты, указав точность 0,9, Р1^соге = 0,85 и скорость обучения/переобучения не более 5 сек. (табл. 2).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На основе полученных показателей в качестве модели машинного обучения была принята модель случайного леса (ЯР) и проведено обучение модели на основе обработанных данных. С целью апробации модели было выполнено несколько вариантов тестирования с использованием разных наборов признаков.

При установке минимального значения в 30 элементов обучение возможно на 64 классах, чему

N N N N О О N N

К ш U 3

> (Л

с и to N

if <U ф

О ё

о о со со

I

о со сч

от от

.Е о cl"

^ с Ю о

S «

о Е

fe ° СП ^ т- ^

£

от °

■S

Л с

S с

2 u

^ J3

Я К Я <2 Я

Of?flOXOOOi^(I

Е

и £

fr .2Й Л-

Ё-& ^ я

J^-Я "О Ё

о ,я

S Hi

«и

Ja Е

SKIS н<р:

&

s 'p'S, z?

H <

® -is

У О О О'1"

0,016

0,014

0,012

0,01

8

S ^

И и

п с

is а

о- S-с %

is Й ■в м

W Й

¡в 3 0,008 §

Й £ 0,006

2 Ч

С? 0,004

0,002

\

1 1

.1 J 1 .1 1. Il 1 1 1 JL L i I I. , 1 X 1.

£5

« Я

¡а

о m

£ И ¡3 &

sgS

я к ё

о о ¡в Я^ Q о

Н « н о

S s

ою R

м £ о Э

з я

с

<р з g н

я ч я * «

к ^ ч & ^

И- Я и О

ДЙ S G

G s h

ш R лх ^ и

s л к

£

Признак Attribute

Рис. 4. Значимость признаков (по классам с числом элементов 30 и больше) Fig. 4. Significance of features (by classes with 30 or more elements)

& о

0

1544

Табл. 2. Результаты сравнения моделей на обработанных данных Table 2. Results of comparison of models obtained using processed data

Модель Model RF XGBoost LightGBM CatBoost

Точность Accuracy 0,90 0,73 0,89 0,88

F1-score (macro) 0,85 0,69 0,82 0,82

соответствует 14 931 строка. В этом случае размер обучающей выборки составлял 1440 строк (после выбора случайных 30 для каждого класса и взятия 3/4 от всех признаков), размер простой тестовой выборки — 480 строк, а размер выборки для последних двух столбцов — 13 491, что в 9,37 раз больше обучающей выборки (табл. 3).

При установке минимального значения в 40 элементов возможно обучение на 55 классах, чему соответствует 14 622 строки. Размер обучающей выборки составил 1650 строк (после выбора

случайных 40 для каждого класса и взятия 3/4), размер простой тестовой выборки составил 550 строк, а размер выборки для последних двух столбцов 12 972, что в 7,86 раз больше обучающей выборки (табл. 4).

При установке минимального значения в 50 элементов возможно обучение на 50 классах, чему соответствует 14 407 строки. Размер обучающей выборки составил 1875 строк (после выбора случайных 50 для каждого класса и взятия 3/4), размер простой тестовой выборки 625 строк, а размер

Табл. 3. Результаты, показанные моделью RF на 3 запусках. Вариант 1 Table 3. Results shown by the RF model using 3 runs. Option 1

Точность во время обучения Accuracy during training Точность на тестовой выборке (четверть от выборки по 30 элементов) Accuracy using test set (quarter of the sampling of 30 items) F1 (macro) на тестовой выборке (четверть от выборки по 30 элементов) F1 (macro) obtained using the test set (quarter of the sampling of 30 elements) Точность на выборке на 64 классах с исключением обучающей (т.е. набор, в несколько раз больший, чем обучающая выборка) Accuracy obtained using the test set of 64 classes except for the teaching set (i.e. the set is several times larger than the teaching set) F1 (macro) на выборке на 64 классах с исключением обучающей (т.е. набор, в несколько раз больший, чем обучающая выборка) F1 (macro) obtained using the sampling of 64 classes except for the teaching set (i.e. the set is several times larger than the teaching set)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,95 0,85 0,85 0,85 0,78

0,95 0,86 0,86 0,86 0,77

0,96 Табл. 4. Резул Table 4. Result 0,86 ьтаты, показанные мод s shown by the RF mod 0,86 елью RF на 3 запуск el using 3 runs. Option 0,86 ах. Вариант 2 i 2 0,78

Точность во время обучения Accuracy during training Точность на тестовой выборке (четверть от выборки по 40 элементов) Accuracy using test set (quarter of the sampling of 40 items) F1 (macro) на тестовой выборке (четверть от выборки по 40 элементов) F1 (macro) obtained using the test set (quarter of the sampling of 40 elements) Точность на выборке на 55 классах с исключением обучающей (т.е. набор, в несколько раз больший, чем обучающая выборка) Accuracy obtained using the test set of 55 classes except for the teaching set (i.e. the set is several times larger than the teaching set) F1 (macro) на выборке на 55 классах с исключением обучающей (т.е. набор, в несколько раз больший, чем обучающая выборка) F1 (macro) obtained using the sampling of 55 classes except for the teaching set (i.e. the set is several times larger than the teaching set)

0,96 0,89 0,89 0,90 0,84

0,96 0,85 0,85 0,88 0,81

0,96 0,87 0,87 0,89 0,81

< П

8 8 i н

g Г

S 2

0 CO n CO

1 < < -b J to

U -

r I

n о

<3 o <

oi

n)

СЛ '

CO CO

l\J со

0

1

CD CO О О

cn

• )

ft f

-J 00 I T

s У с о <D *

10 10 О о 10 10 10 10

1545

выборки для последних двух столбцов 12 532, что в 6,68 раз больше обучающей выборки (табл. 5).

Обучение на несбалансированной выборке на 64, 55 и 69 (тех, где 20 и больше элементов) классах и соотношении обучающей к тестовой 3:1 дает следующий результат, представленный в табл. 5-7 соответственно.

В соответствии с данными табл. 6-8, модель, обученная на несбалансированных данных, по-

казывает лучший результат (точность на тестовой выборке в среднем = 0,96, F1 (macro) на тестовой выборке = 0,9). При возрастании элементов в классе увеличивается вариативность классов, при этом при низкой доле встречаемости элементов с высокой вариативностью обнаружить их в достаточной мере не удается, следовательно, при больших количествах строк в данных одного класса необходимо большее число данных для обучения.

Табл. 5. Результаты, показанные моделью RF на 3 запусках. Вариант 3 Table 5. Results shown by the RF model using 3 runs. Option 3

Точность во время обучения Accuracy during training Точность на тестовой выборке (четверть от выборки по 50 элементов) Accuracy on the test sample (a quarter of the sample of 50 items) F1 (macro) на тестовой выборке (четверть от выборки по 50 элементов) F1 (macro) on a test sample (a quarter of the sample of 50 elements) Точность на выборке на 50 классов с исключением обучающей (т.е. набор, в несколько раз больший, чем обучающая выборка) Accuracy on a sample of 50 classes with the exception of the training one (i.e. the set is several times larger than the training sample) F1 (macro) на выборке на 50 классов с исключением обучающей (т.е. набор, в несколько раз больший, чем обучающая выборка) F1 (macro) on a sample of 50 classes with the exception of the training one (i.e. the set is several times larger than the training sample)

0,96 0,88 0,88 0,89 0,83

0,96 0,90 0,90 0,89 0,84

0,96 0,89 0,88 0,88 0,83

N N N N О О N N

¡г ш

U 3

> (Л

с и to N

if <U ф

О ё

Табл. 6. Результаты трех запусков без отбора сбалансированной выборки на 64 классах Table 6. Results of thre.runs without the balanced sampling for 64 classes

Точность во время обучения Accuracy during training Точность на тестовой выборке Accuracy of the test sampling F1 (macro) на тестовой выборке F1 (macro) using the test sampling

0,98 0,96 0,91

0,98 0,96 0,91

0,98 Табл. 7. Результаты трех запусков без о Table 7. Results of thre.runs without the t 0,95 тбора сбалансированной выборки на 55 alanced sampling of 55 classes 0,90 классах

Точность во время обучения Accuracy during training Точность на тестовой выборке Accuracy using the test sampling F1 (macro) на тестовой выборке F1 (macro) using the test sampling

0,98 0,96 0,92

0,98 0,97 0,93

0,98 Табл. 8. Результаты трех запусков без о Table 8. Results of thre.runs without the t 0,96 тбора сбалансированной выборки на 69 alanced sampling of 69 classes 0,92 классах

Точность во время обучения Accuracy during training Точность на тестовой выборке Accuracy using the test sampling F1 (macro) на тестовой выборке F1 (macro) using the test sampling

0,98 0,96 0,89

0,98 0,96 0,90

0,98 0,95 0,89

о о CD cd i

о

CO CN

z

CO CO

.E о cl"

• с Ю о

о E

fe ° co ^

T- ^

£

СЯ J

> A

2 3

■s

r

1546

Классификация строительной информации в BIM лат лееп

С.1537—1550

с использованием алгоритмов искусственного интеллекта

ЗАКЛЮЧЕНИЕ И ОБСУЖДЕНИЕ

В результате проведенных исследований сформирована обучающая выборка, состоящая из 7544 уникальных признаков элементов цифровых информационных моделей гражданских и промышленных объектов. Получен численный сравнительный анализ моделей классификации, в результате которого случайный лес имел самые высокие показатели: среднюю точность, равную 0,9, F1-score = 0,9. Для LightGBM точность, равную 0,73, F1-score = 0,69, для XGBoost точность, равную 0,89, F1-score = 0,82, для CatBoost = 0,88, F1-score = 0,82. Более сложные модели ИИ (нейронные сети и др.) не рассматривались ввиду относительно малого размера обучающей выборки и потенциально высокой алгоритмической

сложности при подходе активного обучения. Вместе с тем в обучающей выборке не производилась аугментация, что может дать дополнительные наборы обучающих данных, и подобные модели могут быть следующим шагом для внедрения такого подхода.

Модель случайный лес рекомендуется для применения в качестве основной модели классификации строительной информации. Случайный лес обучен на несбалансированных данных и протестирован на данных с различными признаками. Модель классификации, реализующая автоматический метод внесения кодов, может быть рассмотрена как помощник в принятии быстрых решений в виде предсказанных значений, что приведет к существенной оптимизации сроков выполнения классификации и эффективности работ.

СПИСОК ИСТОЧНИКОВ

1. Solihin W., Eastman C. Classification of rules for automated BIM rule checking development // Automation in Construction. 2015. Vol. 53. Pp. 69-82. DOI: 10.1016/ j.autcon.2015.03.003

2. Волкодав В.А., Волкодав И.А. Разработка структуры и состава классификатора строительной информации для применения BIM-технологий // Вестник МГСУ 2020. Т. 15. Вып. 6. С. 867-906. DOI: 10.22227/1997-0935.2020.6.867-906

3. Тимченко В.С., Волкодав В.А., Волкодав И.А., Тимченко О.В., Осипов Н.А. Разработка элементов классификатора строительной информации для создания и ведения информационных моделей объектов капитального строительства в части процессов проектирования, управления строительными процессами и строительной информации // Вестник МГСУ 2021. Т. 16. Вып. 7. С. 926-954. DOI: 10.22227/19970935.2021.7.926-954

4. Afsari Kereshmeh, Eastman Charles. A Comparison of Construction Classification Systems Used for Classifying Building Product Models // Conference: 52nd ASC Annual International Conference Proceedings. 2016. DOI: 10.13140/RG.2.2.20388.27529/

5. Lou E.C.W., Goulding J.S. Building and construction classification systems // Architectural Engineering and Design Management. 2008. Vol. 4. No. 3-4. С. 206-220. DOI: 10.3763/aedm.2008.0079

6. Pupeikis D., Navickas A.A., Klumbyte E., Se-duikyte L. Comparative Study of Construction Information Classification Systems: CCI versus Uniclass 2015 // Buildings. 2022. No. 12. P. 656. DOI: 10.3390/ buildings12050656

7. Gelder J. Uniclass 2015 for Smart Cities // Proceedings of the International Conference of Architectural Science Association. Auckland, New Zealand : Architectural Science Association. 2020. Pp. 1303-1312. DOI: 10.1109/ISDA.2010.5687087

8. Owoyele O., Pal P. A novel active optimization approach for rapid and efficient design space exploration using ensemble machine learning // The 2019 Internal Combustion Engine Division Fall Technical Conference. Chicago, IL. 2019. DOI: 10.1115/ICEF2019-7237

9. Колчин В.Н. Специфика применения технологии «искусственного интеллекта» в строительстве // Инновации и инвестиции. 2022. № 3. URL: petsifika-primeneniya-tehnologii-iskusstvennogo-intellekta-v-stroitelstve.

10. Черкасов Д.Ю., Иванов В.В. Машинное обучение // Наука, техника и образование. 2018. № 5 (46). URL: https://cyberleninka.ru/article/n7 mashinnoe-obuchenie

11. Асаул В.В., Петухов М.В., Пономарев Н.К., Никулин А.А. Применение искусственного интеллекта в менеджменте строительной отрасли // Финансовые рынки и банки. 2022. № 1. URL: https:// cyberleninka.ru/article/n/primenenie-iskusstvennogo-intellekta-v-menedzhmente-stroitelnoy-otrasli

12. Diaa Salama AbdElminaam, Andrew Gamal Fahmy, Youssef Mohamed Ali, Omar Ahmed Diaa El-Din, Ahmed Raouf aly, Mahmoud Heidar. DeepECG: Building an Efficient Framework for Automatic Arrhythmia classification model // 2022 2nd International Mobile, Intelligent, and Ubiquitous Computing Conference (MIUCC). 2022. Pp. 203-209. DOI: 10.1109/ MIUCC55081.2022.9781646

13. Claudio Filipi Gongalves dos Santos, Diego de Souza Oliveira, Leandro A. Passos, Rafael Gongalves Pires, Daniel Felipe Silva Santos, Lucas Pascotti Valem et al. Gait Recognition Based on Deep Learning: A Survey // ACM Comput. Surv. 55, 2. Article 34, March 2023. P. 34. DOI: 10.1145/3490235

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Krizhevsky A.S., Hinton I., Geoffrey E. ImageNet classification with deep convolutional neural networks (2012) // Advances in Neural Information Processing Systems, 2. 2021. Pp. 1097-1105.

< П

i н

G Г

S 2

0 CO n CO

1 < < -b J to

U -

r I

n о

<3 o <

oi n

CO CO

l\J co

0

1

co co о о

cn

• ) n

л ■ -J 00 I T

s У с о <D *

10 10 о о 10 10 10 10

1547

сч N

N N

о о

N N

¡É ш

U 3 > (Л С И

ва N

if ф ф

О ё

о о со со

I

о со сч

ОТ

от

.£ о

CL^

с

Ю о

S g

о Е

feo

СП ^ т- ^

ОТ

от

15. Zhao H., Li X., Cheng H., Zhang J., Wang Q., Zhu H. Deep learning-based prediction of traffic accidents risk for Internet of vehicles // China Communications. 2022. Vol. 19. No. 2. Pp. 214-224. DOI: 10.23919/ JCC.2022.02.017

16. Rai B. Feature Selection and Predictive Modeling of Housing Data Using Random Forest // World Academy of Science, Engineering and Technology, Open Science Index 124, International Journal of Industrial and Systems Engineering. 2017. Vol. 11. Issue 4. Pp. 940-944. DOI: 10.5281/zenodo.1130301

17. MachadoM.R., Karray S., de Sousa, I.T. Light-GBM: an Effective Decision Tree Gradient Boosting Method to Predict Customer Loyalty in the Finance Industry // 14th International Conference on Computer Science Education (ICCSE). 2019. Pp. 1111-1116. DOI: 10.1109/ICCSE.2019.8845529

18. Tianqi Chen, Carlos Guestrin. XGBoost: A Scalable Tree Boosting System // The 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD '16). Association for Computing Machinery. New York. 2016. Pp. 785-794. DOI: 10.1145/2939672.2939785

19. Liu X., Wang T. Application of XGBOOST model on potential 5G mobile users forecast // Lect Notes

Поступила в редакцию 18 августа 2022 г. Принята в доработанном виде 8 ноября 2022 г. Одобрена для публикации 8 ноября 2022 г.

Об авторах: Марина Вячеславовна Петроченко — кандидат технических наук, доцент, доцент Высшей школы промышленно-гражданского и дорожного строительства; Санкт-Петербургский политехнический университет Петра Великого (СПбПУ); 195251, г. Санкт-Петербург, ул. Политехническая, д. 29; SPIN-код: 6869-0011, Scopus: 56233437400, ORCID: 0000-0002-4865-5319; petrochenko_mv@spbstu.ru;

Павел Никитич Недвига — магистр, ассистент Высшей школы промышленно-гражданского и дорожного строительства; Санкт-Петербургский политехнический университет Петра Великого (СПбПУ); 195251, г. Санкт-Петербург, ул. Политехническая, д. 29; ORCID: 0000-0003-0857-8301; pavel.nedviga@gmail.ru;

Анна Алексеевна Кукина — старший преподаватель Высшей школы промышленно-гражданского и дорожного строительства; Санкт-Петербургский политехнический университет Петра Великого (СПбПУ); 195251, г Санкт-Петербург, ул. Политехническая, д. 29; SPIN-код: 9190-9276, Scopus: 57224191176, ORCID: 0000-0003-4271-7408; kukina_aa@spbstu.ru;

Валерия Виталиевна Шерстюк — магистрант Высшей школы промышленно-гражданского и дорожного строительства; Санкт-Петербургский политехнический университет Петра Великого (СПбПУ); 195251, г Санкт-Петербург, ул. Политехническая, д. 29; SPIN-код: 1047-2485, ORCID: 0000-0002-5644-5629; sherstyuk2.vv@yandex.ru.

Вклад авторов: все авторы сделали эквивалентный вклад в подготовку публикации. Авторы заявляют об отсутствии конфликта интересов.

REFERENCES

Electr Eng. 2023. Vol. 917. Pp. 1492-500. DOI: 10. 1007/978-981-19-3387-5_177

20. Catboost. URL: https://catboost.ai/en/docs/con-cepts/python-reference_catboostclassifier

21. Kopitar L., Kocbek P., Cilar L. Early detection of type 2 diabetes mellitus using machine learning-based prediction models // Sci Rep 10, 11981. 2020. DOI: 10.1038/s41598-020-68771-z

22. Goutte C., Gaussier E. A Probabilistic Interpretation of Precision, Recall and F-Score, with Implication for Evaluation // D.E. Losada & J.M. Fernández-Luna (Eds.), Advances in Information Retrieval. 2005. Pp. 345-359. DOI: 10.1007/978-3-540-31865-1_25

23. Al Daoud E. Comparison between XGBoost, LightGBM and CatBoost using a home credit dataset // International Journal of Computer and Information Engineering. 2019. Vol. 13. No. 1. Pp. 6-10. DOI: 10.5281/ zenodo.3607805

24. Kinnander M. Predicting profitability of new customers using gradient boosting tree models: Evaluating the predictive capabilities of the XGBoost, LightGBM and CatBoost algorithms. 2020. URL: mash/get/ diva2:1476112/FULLTEXT01.pdf

r

o (ñ

1. Solihin W., Eastman C. Classification of rules for automated BIM rule checking development. Automation in Construction. 2015; 53:69-82. DOI: 10.1016/ j.autcon.2015.03.003

2. Volkodav V.A., Volkodav I.A. Development of the structure and composition of a building information classifier towards the application

of BIM technologies. VestnikMGSU [Monthly Journal on Construction and Architecture]. 2020; 15(6):867-906. DOI: 10.22227/1997-0935.2020.6.867-906 (rus.).

3. Timchenko VS., Volkodav V.A., Volkodav I.A., Timchenko O.V, Osipov N.A. Development of building information classifier elements to create and maintain information models of capital construction objects in terms

1548

of design processes, construction process management and construction information. Vestnik MGSU [Monthly Journal on Construction and Architecture]. 2021; 16(7):926-954. DOI: 10.22227/1997-0935.2021.7.926-954 (rus.).

4. Afsari Kereshmeh, Eastman Charles. A Comparison of Construction Classification Systems Used for Classifying Building Product Models. Conference: 52nd ASC Annual International Conference Proceedings. 2016. DOI: 10.13140/RG.2.2.20388.27529/

5. Lou E.C.W., Goulding J.S. Building and construction classification systems. Architectural Engineering and Design Management. 2008; 4(3-4):206-220. DOI: 10.3763/aedm.2008.0079

6. Pupeikis D., Navickas A.A., Klumbyte E., Se-duikyte L. Comparative Study of Construction Information Classification Systems: CCI versus Uniclass 2015. Buildings. 2022; 12:656. DOI: 10.3390/buil-dings12050656

7. Gelder J. Uniclass 2015 for Smart Cities. Proceedings of the International Conference of Architectural Science Association. Auckland, New Zealand, Architectural Science Association, 2020; 1303-1312. DOI: 10.1109/ISDA.2010.5687087

8. Owoyele O., Pal P. A novel active optimization approach for rapid and efficient design space exploration using ensemble machine learning. The 2019 Internal Combustion Engine Division Fall Technical Conference. Chicago, IL. 2019. DOI: 10.1115/ICEF2019-7237

9. Kolchin V.N. Specifics of the use of "artificial intelligence" technology in construction. Innovations and investments. 2022; 3. URL: petsifika-primeneniya-tehnologii-iskusstvennogo -intellekta-v-stroitelstve (rus.).

10. Cherkasov D.Yu., Ivanov V.V. Machine learning. Science, technology and education. 2018; 5(46). URL: https://cyberleninka.ru/article/n7mashinnoe-obu-chenie (rus.).

11. Asaul V.V., Petukhov M.V., Ponomarev N.K., Nikulin A.A. The use of artificial intelligence in the management of the construction industry. Financial markets and banks. 2022; 1. URL: https:// cyberleninka.ru/article/n/primenenie-iskusstvennogo-intellekta-v-menedzhmente-stroitelnoy-otrasli (rus.).

12. Diaa Salama AbdElminaam, Andrew Gamal Fahmy, Youssef Mohamed Ali, Omar Ahmed Diaa El-Din, Ahmed Raouf aly, Mahmoud Heidar. DeepECG: Building an Efficient Framework for Automatic Arrhythmia classification model. 2022 2nd International Mobile, Intelligent, and Ubiquitous Computing Conference (MIUCC). 2022; 203-209. DOI: 10.1109/MI-UCC55081.2022.9781646

13. Claudio Filipi Gonçalves dos Santos, Diego de Souza Oliveira, Leandro A. Passos, Rafael Gonçalves Pires, Daniel Felipe Silva Santos, Lucas Pascotti Valem et al. Gait Recognition Based on Deep Learning:

A Survey. ACM Comput. Surv. 55, 2. Article 34, March 2023; 34. DOI: https://doi.org/10.1145/3490235

14. Krizhevsky A.S., Hinton I., Geoffrey E. ImageNet classification with deep convolutional neural networks (2012). Advances in Neural Information Processing Systems, 2. 2021; 1097-1105.

15. Zhao H., Li X., Cheng H., Zhang J., Wang Q., Zhu H. Deep learning-based prediction of traffic accidents risk for Internet of vehicles. China Communications. 2022; 19(2):214-224. DOI: 10.23919/ JCC.2022.02.017

16. Rai B. Feature Selection and Predictive Modeling of Housing Data Using Random Forest. World Academy of Science, Engineering and Technology, Open Science Index 124, International Journal of Industrial and Systems Engineering. 2017; 11(4):940-944. DOI: 10.5281/zenodo.1130301

17. Machado M.R., Karray S., de Sousa I.T. Light-GBM: an Effective Decision Tree Gradient Boosting Method to Predict Customer Loyalty in the Finance Industry. 14th International Conference on Computer Science Education (ICCSE). 2019; 1111-1116. DOI: 10.1109/ICCSE.2019.8845529

18. Tianqi Chen, Carlos Guestrin. XGBoost: A Scalable Tree Boosting System. The 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD '16). Association for Computing Machinery, New York, 2016; 785-794. DOI: 10.1145/2939672.2939785

19. Liu X., Wang T. Application of XGBOOST model on potential 5G mobile users forecast. Lect Notes Electr Eng. 2023; 917:1492-500. DOI: 10.1007/978-98 1-19-3387-5_177

20. Catboost. URL: https://catboost.ai/en/docs/ concepts/python-reference_catboostclassifier

21. Kopitar L., Kocbek P., Cilar L. Early detection of type 2 diabetes mellitus using machine learning-based prediction models. Sci Rep 10, 11981. 2020. DOI: 10.1038/s41598-020-68771-z

22. Goutte C., Gaussier E. A Probabilistic Interpretation of Precision, Recall and F-Score, with Implication for Evaluation. D.E. Losada & J.M. Fernández-Luna (Eds.), Advances in Information Retrieval. 2005; 345-359. DOI: 10.1007/978-3-540-31865-1_25

23. Al Daoud E. Comparison between XGBoost, LightGBM and CatBoost using a home credit dataset. International Journal of Computer and Information Engineering. 2019; 13(1):6-10. DOI: 10.5281/zeno-do.3607805

24. Kinnander M. Predicting profitability of new customers using gradient boosting tree models: Evaluating the predictive capabilities of the XGBoost, LightGBM and CatBoost algorithms. 2020. URL: mash/get/ diva2:1476112/FULLTEXT01.pdf

< П

i н

g Г S

o n

I «

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

с -ь J CD

u i ri

n

«s o «

n

со со

м со

0

1

СП СП о о

cn

• )

f7 f

-J DO

I T s E

s у с о <D *

Received August 18, 2022.

Adopted in revised form on November 8, 2022.

Approved for publication on November 8, 2022.

10 10 о о 10 10 10 10

1549

Bionotes: Marina V. Petrochenko — Candidate of Technical Sciences, Associate Professor, Associate Professor of Graduate School of Industrial, Civil and Road Construction; Peter the Great St. Petersburg Polytechnic University (SPbPU); 29 Polytechnicheskaya st., St. Petersburg, 195251, Russian Federation; SPIN-code: 6869-0011, Scopus: 56233437400, ORCID: 0000-0002-4865-5319; petrochenko_mv@spbstu.ru;

Pavel N. Nedviga — Master, Assistant of Graduate School of Industrial, Civil and Road Construction; Peter the Great St. Petersburg Polytechnic University (SPbPU); 29 Polytechnicheskaya st., St. Petersburg, 195251, Russian Federation; ORCID: 0000-0003-0857-8301; pavel.nedviga@gmail.ru;

Anna A. Kukina — Senior Lecturer of Graduate School of Industrial, Civil and Road Construction; Peter the Great St. Petersburg Polytechnic University (SPbPU); 29 Polytechnicheskaya st., St. Petersburg, 195251, Russian Federation; SPIN-code: 9190-9276, Scopus: 57224191176, ORCID: 0000-0003-4271-7408; kukina_aa@spbstu.ru;

Valeria V. Sherstyuk — Graduate Student of Graduate School of Industrial, Civil and Road Construction; Peter the Great St. Petersburg Polytechnic University (SPbPU); 29 Polytechnicheskaya st., St. Petersburg, 195251, Russian Federation; SPIN-code: 1047-2485, ORCID: 0000-0002-5644-5629; sherstyuk2.vv@yandex.ru.

Contribution of the authors: all authors made an equivalent contribution to the preparation of the publication. The authors declare that they have no conflicts of interest.

N N N N

o o

N N

* 0

U 3

> in

E M

CO N

if <D <u

o S

o o CD cd

I

o

CO CN

iO

.E o

• c

LO o

s «

o E

fe °

CD ^

T- ^

s * ^

£ w

I

O (0

1550

i Надоели баннеры? Вы всегда можете отключить рекламу.