Научная статья на тему 'Интеллектуальный метод оценки состояния оборудования компьютера для предотвращения потери данных'

Интеллектуальный метод оценки состояния оборудования компьютера для предотвращения потери данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
жесткий диск / SMART / алгоритм случайного леса / анализ / потеря данных / прогнозирование поломки / hard disk / SMART / random forest algorithm / analysis / data loss / failure prediction

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Никита Максимович Кодацкий, Сергей Владимирович Панов

Эпоха массовой цифровизации ставит перед обществом важную задачу, заключающуюся в поддержании надежности и безопасности компьютерных систем. Существенным аспектом здесь является проактивное пред-сказание поломок оборудования во избежание критических сбоев и потерь данных. Одним из эффективных ме-тодов решения этой проблемы является использование интеллектуальных методов прогнозирования выхода из строя различных устройств. Цель данного исследования заключается в обосновании эффективности интеллек-туального метода оценки состояния оборудования компьютера с использованием алгоритма случайного леса (Random Forest) и подходов bagging и boosting для предотвращения потери данных на информационных нако-пителях компьютера. Объектом исследования является информационные накопители компьютера (HDD-диски и SSD-диски). В качестве предмета исследования выступает определение методологии интеллектуального ме-тода для прогнозирования момента выхода из строя информационного накопителя вычислительной техники. В работе рассматривается методология интеллектуального подхода к оценке состояния оборудования компью-тера с целью предотвращения потери данных. Особое внимание уделяется применению алгоритма Random Forest в сочетании с подходами bagging и boosting для прогнозирования поломок информационных накопителей вычислительной техники на основе статистики SMART-тестов. Исследование проводилось в следующей последовательности: 1) описание процесса сбора и предобработки данных для обучения модели; 2) описание выбранного интеллектуального метода оценки состояния оборудования компьютеров; 3) подведение итогов. Результат проведенного авторами исследования позволит предприятиям разработать и использовать соб-ственный метод (технологию) мониторинга состояния их информационных накопителей до момента наработки на отказ взамен зарубежных аналогов с закрытым исходным кодом.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Никита Максимович Кодацкий, Сергей Владимирович Панов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Methodology of an Intelligent Method for Assessing the State of Computer Hardware to Prevent Data Loss

The era of increasing digitalization poses challenges to society in maintaining the reliability and security of our computer systems. An important aspect of this is proactively predicting hardware failures to avoid critical failures and data loss. One of the effective methods to address this problem is the use of intelligent methods to predict the failure of various devices. The purpose of the study is to substantiate the effectiveness of an intelligent method for estimating the state of computer hardware using Random Forest algorithm and bagging and boosting approaches to prevent data loss on computer information storage devices. The object of the study is computer information storage devices (HDD disks and SSD disks). The subject of the research is the determination of the methodology of the intellectual method for predicting the moment of failure of the computer information storage device. Within the framework of the work the methodology of the intellectual approach to assess the state of computer hardware in order to prevent data loss is considered. Special attention is paid to the application of Random Forest algorithm in combination with bagging and boosting approaches for predicting the failure of computer information storage devices based on SMART test statistics. The research sequence included the following steps: 1) description of the process of data collection and preprocessing for model training; 2) description of the selected intelligent method for assessing the state of computer hardware; 3) summarizing the results. The result of the research allowed the enterprises to develop and use their own method (technology) for monitoring the state of their information storage devices up to the moment of failure instead of foreign analogs with closed source code.

Текст научной работы на тему «Интеллектуальный метод оценки состояния оборудования компьютера для предотвращения потери данных»

ТЕХНИЧЕСКИЕ НАУКИ

УДК 004.8:004.056.5

Интеллектуальный метод оценки состояния оборудования компьютера для предотвращения потери данных

Н.М. Кодацкий, С.В. Панов

Донской государственный технический университет, г. Ростов-на-Дону, Российская Федерация Аннотация

Эпоха массовой цифровизации ставит перед обществом важную задачу, заключающуюся в поддержании надежности и безопасности компьютерных систем. Существенным аспектом здесь является проактивное предсказание поломок оборудования во избежание критических сбоев и потерь данных. Одним из эффективных методов решения этой проблемы является использование интеллектуальных методов прогнозирования выхода из строя различных устройств. Цель данного исследования заключается в обосновании эффективности интеллектуального метода оценки состояния оборудования компьютера с использованием алгоритма случайного леса (Random Forest) и подходов bagging и boosting для предотвращения потери данных на информационных накопителях компьютера. Объектом исследования является информационные накопители компьютера (HDD-диски и SSD-диски). В качестве предмета исследования выступает определение методологии интеллектуального метода для прогнозирования момента выхода из строя информационного накопителя вычислительной техники. В работе рассматривается методология интеллектуального подхода к оценке состояния оборудования компьютера с целью предотвращения потери данных. Особое внимание уделяется применению алгоритма Random Forest в сочетании с подходами bagging и boosting для прогнозирования поломок информационных накопителей вычислительной техники на основе статистики SMART-тестов. Исследование проводилось в следующей последовательности:

1) описание процесса сбора и предобработки данных для обучения модели;

2) описание выбранного интеллектуального метода оценки состояния оборудования компьютеров;

3) подведение итогов.

Результат проведенного авторами исследования позволит предприятиям разработать и использовать собственный метод (технологию) мониторинга состояния их информационных накопителей до момента наработки на отказ взамен зарубежных аналогов с закрытым исходным кодом.

Ключевые слова: жесткий диск, SMART, алгоритм случайного леса, анализ, потеря данных, прогнозирование поломки

Для цитирования. Кодацкий Н.М., Панов С.В. Интеллектуальный метод оценки состояния оборудования компьютера для предотвращения потери данных. Молодой исследователь Дона. 2024;9(3):54-60.

Methodology of an Intelligent Method for Assessing the State of Computer Hardware to Prevent Data Loss

Й N. M. Kodatsky, S. V. Panov

Ц Don State Technical University (Rostov-on-Don, Russian Federation)

¡3

Abstract

•g The era of increasing digitalization poses challenges to society in maintaining the reliability and security of our ^ computer systems. An important aspect of this is proactively predicting hardware failures to avoid critical failures and ^ data loss. One of the effective methods to address this problem is the use of intelligent methods to predict the failure of various devices. The purpose of the study is to substantiate the effectiveness of an intelligent method for estimating the state of computer hardware using Random Forest algorithm and bagging and boosting approaches to prevent data loss on computer information storage devices. The object of the study is computer information storage devices (HDD disks

© Кодацкий H.M.. Панов С.В.. 2024

and SSD disks). The subject of the research is the determination of the methodology of the intellectual method for predicting the moment of failure of the computer information storage device. Within the framework of the work the methodology of the intellectual approach to assess the state of computer hardware in order to prevent data loss is considered. Special attention is paid to the application of Random Forest algorithm in combination with bagging and boosting approaches for predicting the failure of computer information storage devices based on SMART test statistics. The research sequence included the following steps:

1) description of the process of data collection and preprocessing for model training;

2) description of the selected intelligent method for assessing the state of computer hardware;

3) summarizing the results. The result of the research allowed the enterprises to develop and use their own method (technology) for monitoring the state of their information storage devices up to the moment of failure instead of foreign analogs with closed source code.

Keywords: hard disk, SMART, random forest algorithm, analysis, data loss, failure prediction.

For citation. Kodatsky NM, Panov SV. Methodology of an Intelligent Method for Assessing the State of Computer Hardware to Prevent Data Loss. Young Researcher of Don. 2024;9(3):54-60.

Введение. Для прогнозирования поломки жестких дисков на основе размеченных данных SMART можно использовать различные алгоритмы машинного обучения. Каждая модель имеет свои преимущества и недостатки, и выбор конкретной модели зависит от специфики решаемой задачи, доступности данных, требований к точности и интерпретируемости. Случайный лес (Random Forest) способен достичь высокой точности и устойчивости к переобучению благодаря ансамблю деревьев решений. Случайный лес является ансамблевым методом, который строит множество деревьев решений при обучении и выдает средний прогноз для классификации или регрессии [1]. Это позволяет достигнуть высокой точности предсказаний, снизив при этом риск переобучения благодаря механизмам случайности при выборе признаков и образцов для построения деревьев. Данные SMART-тестов часто включают в себя множество различных атрибутов, отражающих состояние жестких дисков. Случайный лес может эффективно обрабатывать такие наборы данных, автоматически определяя наиболее значимые признаки для предсказания отказов [2]. Одним из основных принципов работы такого алгоритма является использование подвыборок признаков для каждого дерева, что позволяет снизить влияние нерелевантных или слабо влияющих на целевые переменные признаки и увеличить общую точность модели. Хотя сама по себе модель случайного леса может казаться менее интерпретируемой, по сравнению с одиночным деревом решений, она предоставляет полезную информацию о важности признаков [1]. Понимание того, какие атрибуты SMART более всего влияют на прогнозы, может быть важно для дальнейшего анализа и выяснения причин отказов жестких дисков.

Разработка интеллектуального метода прогнозирования выхода из строя жесткого диска в компьютерной технике является крайне актуальной и необходимой в современном бизнес-окружении задачей. Потенциальные сбои в работе жестких дисков могут стать причиной серьезных проблем, включая потерю данных, простои оборудования и финансовые убытки. Такой метод дает возможность предприятию принимать проактивные меры по обслуживанию и замене оборудования до возникновения сбоя, что способствует уменьшению простоев, повышению производительности и снижению рисков потери информации, также эти методы помогают оптимизировать расходы на обслуживание IT-инфраструктуры, позволяют проводить замены неисправных элементов в нужный момент и избегать непредвиденных расходов на восстановление данных и ремонт оборудования.

Целью работы является обоснование эффективности интеллектуального метода оценки состояния оборудования компьютера с использованием алгоритма Random Forest и подходов bagging и boosting для предотвращения потери данных на информационных накопителях компьютера, а результатом исследования стал разработанный авторами подход для дальнейшей реализации интеллектуального метода.

Основная часть. Описание процесса сбора и предобработки данных для обучения модели. Для оценки состояния информационного накопителя компьютера необходимо собирать и анализировать следующие данные об объекте исследования: "сЗ

£

1. SMART-атрибуты предоставляют различные показатели HDD или SSD-дисков, а именно число переза- g грузок диска, количество ошибок чтения/записи, скорость вращения диска и другие параметры, которые могут указывать на проблемы с накопителем.

2. Скорость передачи данных является важным показателем состояния накопителя, поскольку низкая скорость свидетельствует о проблемах с производительностью или фрагментацией файловой системы.

3. Время доступа может указывать на проблемы с работой накопителя или на фрагментацию файлов.

4. Температура информационного накопителя. Повышенная температура может указывать на перегрев, что может привести к сбоям или потере данных.

о

&

5. Файловая система, ее структура, количество и типы файлов, уровень фрагментации и свободное пространство. Фрагментация или недостаток свободного места могут повлиять на производительность и долговечность накопителя.

6. Журнал событий. Анализ системного журнала позволит выявить записи о возможных ошибках или предупреждениях, связанных с информационным накопителем. Windows и Linux сохраняют журналы событий, которые содержат записи о различных событиях и ошибках, связанных с информационными накопителями. Доступ к журналам событий можно получить через соответствующие API ОС или использовать инструменты командной строки, такие как Event Viewer (Windows) или journalctl (Linux).

7. Оценка использования ресурсов информационного накопителя, таких как процент занятого пространства, количество операций чтения/записи, время активности и простоя. Повышенное использование ресурсов может указывать на интенсивную работу или износ накопителя.

8. Другие системные данные операционной системы и сетевой идентификации устройства для представления, о каком устройстве идет речь.

При сборе этих данных важно также обеспечить их конфиденциальность и безопасность в соответствии с правилами и нормативными требованиями Федеральных законов № 152-ФЗ, 149-ФЗ и постановлению Правительства РФ № 1119.

Источники данных. Источником данных выступает операционная система устройства (Windows или Linux), а именно следующие источники системы: технологии мониторинга SMART-атрибутов (smartmontools или CrystalDiskInfo), журнал событий операционной системы и утилиты командной строки. Наибольший интерес для определения выхода из строя жесткого диска представляют пять атрибутов данных SMART-статистики [3]:

- CMAPT 5 — количество перераспределенных секторов;

- CMAPT 187 — сообщения об неисправностях;

- CMAPT 188 — требуемое время на ожидание команд;

- CMAPT 197 — текущее количество секторов в режиме ожидания;

- CMAPT 198 — количество некорректируемых секторов.

Для более корректного обучения модели было принято решение воспользоваться собранными необработанными тестовыми данными жестких дисков за первый квартал 2022 года от компании Backblaze, использующих эти данные в своих центрах обработки 67814 жестких дисков [4]. Для сбора данных SMART-компания использует Smartmontools. Это делается один раз в день для каждого жесткого диска. Таким образом, добавляются несколько элементов, таких как модель диска, серийный номер и т. д., и создается строка в ежедневном журнале для каждого диска [4]. Диски, которые вышли из строя, помечаются как таковые, и их данные больше не регистрируются. Иногда диски удаляются из эксплуатации, даже если они не вышил из строя, например, когда компания обновляет Storage Pod, заменяя диски емкостью 1 ТБ на диски емкостью 4 ТБ [4]. В этом случае диск объемом 1 ТБ не помечается как неисправный, но данные SMART больше не регистрируются.

Фильтрация и отчистка данных, их предварительная обработка и нормализация. Эффективное прогнозирование возможно только при использовании качественных и чистых данных. Данные, собранные с помощью технологии SMART, содержат ценную информацию о состоянии жестких дисков. Однако для достижения высокой точности прогнозирования необходима тщательная фильтрация и очистка этих данных. Первым шагом является анализ и отбор атрибутов, которые будут использоваться в модели прогнозирования, которые были описаны ранее.

Импортирование данных в рабочую среду и удаление неинформативных признаков, таких как серийные номера и прочие метаданные, является начальным этапом подготовки данных. Он также включает обработку пропущенных значений, которые могут быть заполнены средними значениями, медианой или удалены, в зависимости от их влияния на анализ. Шум может возникать из-за неправильной работы датчиков или ошибок записи, а выбросы могут указывать на аномальное поведение, не характерное для большинства дисков. Методы, такие как межквартильный размах (IQR), позволяют эффективно идентифицировать и исключить выбросы из набора .ru данных. Эти процедуры помогают выяснить, что модели машинного обучения работают с чистыми и репрезентативными данными, уменьшая вероятность переобучения и повышая точность прогнозов. ruo Рассмотрим подробные эти процедуры. Фильтрация шума направлена на уменьшение влияния этих случай-

dj- ных вариаций на анализ. Одним из способов уменьшения шума является использование методов сглаживания, Ё таких как скользящее среднее или медианный фильтр. Эти методы помогают устранить кратковременные изменения значений, сохраняя общую тенденцию данных. Тщательная подготовка данных SMART является основой 2 для создания надежных моделей прогнозирования отказов жестких дисков. Процесс фильтрации и очистки данных включает в себя несколько ключевых шагов, начиная от первичной очистки и заканчивая нормализацией данных. Каждый этап играет важную роль в обеспечении точности и надежности прогнозов, позволяя своевременно предотвратить потерю данных за счет предсказания возможных отказов жестких дисков.

Далее будут предоставлены разъяснения используемых методов нормализации данных для приведения их к одному масштабу или диапазону значений, также будет выделен наиболее подходящий метод для проводимого исследования. Нормализация данных необходима для унификации масштабов атрибутов, что особенно важно при обучении моделей машинного обучения. Стандартизация или преобразование Min-Max являются распространенными методами нормализации, которые позволяют привести все признаки к единому масштабу, улучшая тем самым процесс обучения модели. Этот процесс включает приведение всех признаков к единому масштабу или диапазону значений, что помогает улучшить сходимость алгоритмов, повышает их эффективность и позволяет достичь более стабильных и точных результатов. Ниже представлены ключевые причины, по которым нормализация данных является необходимой, а также основные методы её выполнения. Необходимость нормализации данных приводит к следующим улучшениям:

1) улучшение сходимости алгоритмов;

2) предотвращение искажений;

3) улучшение интерпретируемости.

Многие алгоритмы машинного обучения, такие как градиентный спуск, работают лучше, когда все признаки находятся в одном масштабе. Это ускоряет процесс обучения, поскольку обеспечивает более равномерное движение к минимуму функции потерь. Что касается искажений, то признаки с большими масштабами могут доминировать над признаками с меньшими масштабами в модели, что приводит к искажению результатов анализа. Нормализованные данные облегчают понимание важности признаков в модели, поскольку все признаки имеют одинаковый масштаб вклада.

Рассмотрим используемые методы нормализации данных в исследуемой задаче.

1. Минимаксная нормализация (Min-Max Scaling). Этот метод преобразует все признаки таким образом, что их значения оказываются в заданном диапазоне, чаще всего между 0 и 1 и описывается формулой [5]:

X — X min

X

norm

X — X

vnnv п

где Xnorm — нормальное значение; X — исходное значение признака; Xmax - Xmin — максимальное и минимальное значения признака в наборе данных соответственно. Пример использования с sklearn на Python: from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler(feature_range = (0, 1)) data_normalized = scaler.fit_transform(data)

Применение этой формулы к каждому значению признака в наборе данных приводит к тому, что все значения оказываются в диапазоне от 0 до 1, если не задан другой диапазон нормализации.

Минимаксная нормализация приводит все признаки к одному масштабу, что облегчает анализ данных и работу алгоритмов машинного обучения, особенно тех, которые чувствительны к масштабу признаков (например, алгоритмы, использующие Евклидово расстояние).

Такая нормализация не изменяет распределение данных, а просто «сжимает» или «растягивает» данные в заданный диапазон. Но такая нормализация чувствительна к выбросам. Выбросы могут привести к тому, что большинство нормализованных значений будет сконцентрировано в узком диапазоне, в то время как выбросы окажутся на границах диапазона 0 и 1. Также при добавлении новых данных максимальные и минимальные значения могут измениться, что потребует повторной нормализации всего набора данных.

2. Стандартизация (Z-score Normalization). В отличие от минимаксной нормализации, стандартизация не ограничивает значения признаков определенным диапазоном, а вместо этого преобразует данные таким образом, что их распределение будет иметь среднее значение 0 и стандартное отклонение 1. Стандартизация работает по следующей формуле [5]:

Z =£—1, ст

где Z — стандартизованное значение (Z-оценка); X — исходное значение признака; д — среднее значение признака по всему набору данных; с — стандартное отклонение признака по всему набору данных. j| После преобразования каждый признак в данных будет иметь среднее значение, равное 0, и стандартное от- :sp клонение, равное 1, что делает данный метод особенно полезным для алгоритмов, которые предполагают нор- ,3 мальное распределение данных, таких как многие алгоритмы машинного обучения.

Е

13

¡3

о

Пример использования с skleam на Python: from sklearnpreprocessing import StandardScaler scaler = StandardScaler() data_normalized = scaler.fit_transform(data)

Стандартизация может улучшить производительность алгоритмов машинного обучения, особенно тех, которые чувствительны к масштабу признаков и предполагают нормальное распределение данных, а признаки с нулевым средним и единичным стандартным отклонением могут упростить процесс обучения, уменьшив количество итераций, необходимых для сходимости. Более того, она подходит для данных с выбросами, поскольку стандартизация менее чувствительна к наличию выбросов в данных.

Но такая нормализация не ограничивает диапазон значений. Значения признаков не будут ограничены определенным диапазоном, что может не подходить для некоторых видов алгоритмов. Этот метод наиболее эффективен, когда исходные данные приближены к нормальному распределению. Для данных с сильно искаженным распределением эффективность может быть ниже.

3. Нормализация по максимуму является методом масштабирования данных, при котором значения признаков преобразуются таким образом, что максимальное значение каждого признака становится равным 1, а все остальные значения пропорционально уменьшаются в соответствии с их отношением к максимальному значению. Этот метод позволяет привести данные к общему масштабу, сохраняя при этом их пропорции. Преобразование выполняется по следующей формуле [5]:

X =

norm v ?

max

где Xnorm — нормализованное значение признака; X — исходное значение признака; Xmax — максимальное значение этого признака в наборе данных.

После применения этого метода масштабирования все значения признаков будут находиться в диапазоне от 0 до 1, где 1 соответствует максимальному значению каждого признака. Пример использования с sklearn на Python: import numpy as np

# Предположим, что 4 data* — это двумерный массив NumPy с данными для нормализации data_normalized = data / np.max(data, axis=0).

Плюс такого метода заключается в его простоте. Нормализация по максимуму является одним из самых простых методов масштабирования данных. Если исходное значение признака равно 0, то после нормализации оно останется равным 0. Метод сохраняет пропорции между значениями признаков, что может быть важно для некоторых алгоритмов машинного обучения. Но подобно минимаксной нормализации, нормализация по максимуму чувствительна к выбросам, поскольку наличие очень больших значений может привести к тому, что большинство других значений признака будут сжаты к очень маленькому диапазону значений, близких к 0. Если в данных присутствуют отрицательные значения, этот метод может не подойти, поскольку он не предусматривает изменение знака значений.

4. L1 нормализация, также известная как нормализация манхэттенского расстояния, является методом предварительной обработки данных, который применяется для масштабирования векторов признаков таким образом, чтобы сумма абсолютных значений признаков в каждом векторе была равна 1. Этот метод назван в честь манхэттенского расстояния (или L1 расстояния), которое измеряет сумму абсолютных различий между координатами векторов в геометрическом пространстве. L1 нормализация преобразует вектор признаков x в нормализованный вектор x по следующей формуле [5]:

, X

m

x

где ||x||i — L1 норма вектора x, которая вычисляется как сумма абсолютных значений его элементов:

Й II II ^ ^ n | |

IS x, = У xi. II lb ^ i=1 I

s

.о Пример использования с skleam на Python:

^ from sklearnpreprocessing import normalize

Д

^ # Предполагаем, что data" — это двумерный массив NumPy с данными для нормализации

СЛ

^ data_normalized = normalize(data, norm-ll').

В отличие от L2 нормализации, L1 нормализация более устойчива к выбросам в данных, поскольку она менее чувствительна к очень большим или малым значениям. Может привести к образованию более разреженных векторов, что полезно в задачах, где спарсность данных играет важную роль (например, в текстовой классифи-

x

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

кации или компрессии данных). Применение L1 регуляризации в процессе обучения модели может служить методом выбора признаков, поскольку она может обнулять коэффициенты менее важных признаков. Но тут присутствует неединственность решения: в случаях, когда несколько признаков коррелированы, L1 нормализация может привести к выбору одного признака в ущерб другим, что может быть неоптимальным для некоторых задач. Хотя спарсность может быть преимуществом, она также может усложнить интерпретацию модели, если важность нулевых признаков интерпретируется некорректно.

Поскольку в ходе исследования анализируется широкий спектр атрибутов SMART, от smart_1 до smart_255, наиболее подходящим методом будет стандартизация (Z-score нормализация) с учетом разнообразия масштабов и потенциального различия в распределениях этих атрибутов. Стандартизация приведет каждый атрибут к единому масштабу со средним значением 0 и стандартным отклонением 1, что облегчит анализ данных и поможет в обучении моделей машинного обучения, особенно если они чувствительны к масштабу признаков.

Таким образом, необходимо выполнить следующие пункты:

1. Проверить данные на наличие выбросов, поскольку они могут существенно повлиять на среднее значение и стандартное отклонение, используемые в процессе стандартизации.

2. Убедиться, что все пропущенные значения в данных были обработаны (например, заменены на среднее значение или медиану столбца) до применения стандартизации.

3. Сохранить параметры (среднее значение и стандартное отклонение), использованные для масштабирования обучающего набора данных, чтобы применить те же параметры к тестовым данным или новым данным в будущем.

Этот подход позволит эффективно нормализовать данные SMART-тестов жестких дисков, подготовив их к дальнейшему анализу или использованию в моделях машинного обучения. Помимо всего перечисленного, такой инструмент, как визуализация данных, поможет наглядно оценить распределение признаков, наличие выбросов и структуру данных в целом. Гистограммы, ящики с усами и точечные диаграммы могут использоваться для визуализации распределений атрибутов и идентификации потенциальных аномалий в данных.

Описание выбранного интеллектуального метода оценки состояния оборудования компьютеров. Выбор случайного леса для предсказания поломки жесткого диска на размеченном наборе данных SMART-тестов обусловлен его способностью к обработке больших и сложных наборов данных, высокой точностью и устойчивостью к переобучению, а также возможностью интерпретации важности признаков. Эти качества делают случайный лес особенно подходящим для задач, требующих надежное и точное прогнозирование на основе большого количества признаков, как в случае с данными SMART-тестов жестких дисков.

Метод ансамблирования помогает улучшить стабильность и точность модели за счет построения нескольких независимых деревьев решений на различных подмножествах тренировочных данных [1]. В контексте оценки состояния оборудования компьютера беггинг (bagging) позволяет создавать набор разнообразных моделей, что увеличивает обобщающую способность алгоритма и повышает его точность при прогнозировании поломок жесткого диска.

Применение бустинга (boosting) к алгоритму Random Forest в задаче прогнозирования поломок жесткого диска на основе данных SMART-тестов позволяет сделать модель еще более точной и чувствительной к изменениям, что, в свою очередь, повышает возможность предотвращения потери данных за счет оперативного выявления проблем.

Заключение. Эффективное использование алгоритма Random Forest с подходами bagging и boosting предоставляет значительные возможности для прогнозирования выхода из строя оборудования компьютеров и предотвращения потенциальной потери данных. Этот комбинированный подход объединяет преимущества методов bagging (усреднение результатов множества моделей) и boosting (адаптивное взвешивание ошибок моделей), что способствует созданию надежных и точных моделей.

Использование Random Forest позволяет построить сильный классификатор, который способен адаптироваться к различным данным и условиям, повышать точность предсказаний. Подходы bagging и boosting улучшают обобщающую способность модели, позволяя ей эффективно обрабатывать сложные данные и быстро реагировать на изменения в состоянии оборудования. r.la

Эта комбинация методов не только обеспечивает высокую точность прогнозирования поломок оборудова- Ё ния, но и дает возможность оперативно реагировать на любые изменения или неполадки, минимизировать ве- oj-роятность серьезных сбоев. Такой подход обеспечивает стабильность работы компьютерных систем и высокий im уровень безопасности данных, что является критически важным аспектом в современных информационных //:s технологиях и бизнес-среде. ptt

Список литературы

1. Breiman L. Random Forests. Machine Learning. 2001;45:5-32. URL: https://link.springer.cOm/article/10.1023/A:1010933404324 (дата обращения: 18.03.2024).

2. Liaw A., Wiener M. Classification and Regression by RandomForest. R News. 2002;2(3):18-22. URL: https://iournal.r-proiect.org/articles/RN-2002-022/ (дата обращения: 18.03.2024).

3. Klein A. What SMART Stats Tell Us About Hard Drives? URL: https://www.backblaze.com/blog/what-smart-stats-indicate-hard-drive-failures (дата обращения: 21.09.2023).

4. Hard Drive Data and Stats. URL: https://www.backblaze.com/cloud-storage/resources/hard-drive-test-data#downloading-the-raw-hard-drive-test-data (дата обращения: 21.09.2023).

5. Cutler D.R., Edwards Jr.T.C., Beard K.H., Cutler A., Hess K.T., Gibson J., et al. Random Forests for Classification in Ecology. Ecology. 2007;88(11):2783-2792. https://doi.org/10.1890/07-0539.1

Об авторах

Никита Максимович Кодацкий, магистрант кафедры вычислительных систем и информационной безопасности Донского государственного технического университета (344029, РФ, г. Ростов-на-Дону, ул. Страны Советов, 1), nickitadatsky@gmail.com

Сергей Владимирович Панов, начальник отдела систем технического контроля, старший преподаватель кафедры вычислительных систем и информационной безопасности Донского государственного технического университета (344029, РФ, г. Ростов-на-Дону, ул. Страны Советов, 1), serxio@gmail.ru

Конфликт интересов: авторы заявляют об отсутствии конфликта интересов.

Все авторы прочитали и одобрили окончательный вариант рукописи.

About authors:

Kodatsky Nikita Maksimovich, master student of the department Computer systems and information security Don State Technical University (1, Strany Sovetov str., Rostov-on-Don, 344029, RF), nickitadatsky@gmail.com

Sergey Vladimirovich Panov, head teacher of the Computer Systems and Information Security Department, Head of Technical Control Systems Department, Don State Technical University (1, Strany Sovetov str., Rostov-on-Don, 344029, RF), serxio@gmail.ru

u o

ptt th

i Надоели баннеры? Вы всегда можете отключить рекламу.