Научная статья на тему 'Применение факторного анализа для снижения размерности исходных данных мониторинга ИТ-инфраструктуры'

Применение факторного анализа для снижения размерности исходных данных мониторинга ИТ-инфраструктуры Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
230
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
факторный анализ / мониторинг / ИТ-инфраструктура / снижение размера данных / factor analysis / monitoring / IT infrastructure / data size reduction

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Большаков М. А.

Рассматривается применение факторного анализа для снижения размерности исходных данных мониторинга ИТ-инфраструктуры. Приводятся теоретические основы факторного анализа, основная терминология. Показано проведение факторного анализа при помощи пакета IBM SPSS на реальных данных мониторинга с уменьшением их в 6,5 раза. Обоснованы преимущества применения факторного анализа для уменьшения нагрузки на вычислительный комплекс путем сокращения размерности данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Analysis to Reduce the Dimensionality of Initial IT Infrastructure Monitoring Data

Discusses the use of factor analysis to reduce the dimensionality of the initial IT infrastructure monitoring data. The theoretical foundations of factor analysis and basic terminology are given. The performance of factor analysis using the IBM SPSS package on real monitoring data with a reduction of 6.5 times is shown. The advantages of using factor analysis to reduce the load on the computer system by reducing the data dimension are substantiated.

Текст научной работы на тему «Применение факторного анализа для снижения размерности исходных данных мониторинга ИТ-инфраструктуры»

DOI: 10.24412/2413-2527-2022-432-17-23

Применение факторного анализа для снижения размерности исходных данных мониторинга

ИТ-инфраструктуры

М. А. Большаков

Петербургский государственный университет путей сообщения Императора Александра I

Санкт-Петербург, Россия ЪоМакоут@уаМех. ги

Аннотация. Рассматривается применение факторного анализа для снижения размерности исходных данных мониторинга ИТ-инфраструктуры. Приводятся теоретические основы факторного анализа, основная терминология. Показано проведение факторного анализа при помощи пакета IBM SPSS на реальных данных мониторинга с уменьшением их в 6,5 раза. Обоснованы преимущества применения факторного анализа для уменьшения нагрузки на вычислительный комплекс путем сокращения размерности данных.

Ключевые слова: факторный анализ, мониторинг, ИТ-инфраструктура, снижение размера данных.

Введение

Вопрос оптимизации использования вычислительных ресурсов является актуальным при решении практически любой задачи прогнозирования, особенно повышается его актуальность при работе с большими массивами разнородных данных. Ведь помимо метрик, характеризующих качество той или иной прогнозной модели [1], исследователь всегда должен сравнить используемые методы машинного обучения по длительности их работы, чтобы сделать адекватный выбор с учетом прикладного смысла задачи и необходимой частоты переобучения модели уже в режиме постоянного использования.

Обязательным подходом к снижению нагрузки на вычислительные ресурсы, равно как и к обеспечению корректного результата прогнозирования, является предварительная модификация исходных данных, а именно сокращение как количества анализируемых переменных, так и количества временных срезов, используемых в модели обучения. Работа по данному направлению может быть реализована различными способами, например, можно руководствоваться классическими принципами, изложенными в теории информации Клода Шеннона [2]. Одним из них является принцип максимума взаимной информации Линскера [3], при этом важнейшей функцией системы модификации исходных данных является определение их избыточности и дальнейшая модификация в более сжатый вид [4].

Рассматриваемый принцип максимума информации можно представить, как гипотезу, что преобразование случайного вектора исходных переменных M в результирующий вектор итоговых значений R должно выбираться таким образом, чтобы совместная работа элементов выбранного метода машинного обучения максимизи-

ровала информацию об исходных данных. Например, в случае использования нейронных сетей задача формулируется так, чтобы совместная работа нейронов выходного слоя максимизировала информацию о деятельности входного слоя. Функцией, которую необходимо максимизировать в данном случае, будет взаимная информация I(M, R) между M и R. Используя свойство симметричности взаимной информации I(M, R) = I(R, M) и применяя возможность определения взаимной информации через энтропию, получаем следующее выражение:

I(R,М) = H(R) - H(R\M),

где H(R\M) — условная энтропия.

Другими словами, помимо статистической независимости характеристик между собой мы должны обеспечить данную независимость и относительно пары «результат (итоговое состояние) — наблюдение характеристики в заданный момент времени».

В статье рассмотрено применение факторного анализа как способа для сокращения размерности исходных данных без потери их качества для построения моделей машинного обучения.

Основные понятия метода

Фактор — это набор наблюдаемых переменных, которые связаны с результирующей переменной, которая, в свою очередь, не измеряется напрямую. Факторы формируются в соответствии с факторными нагрузками или степенью вариации данных, которую они могут объяснить, следовательно, не все факторы одинаковы, основное их различие для пользователя — в весе каждого из них.

При этом основной принцип направлен на объединение сильно коррелирующих между собой переменных и, как следствие, перераспределение дисперсии между новыми результирующими переменными. После формирования факторов коррелированность переменных внутри каждого фактора между собой будет выше, чем их кор-релированность с переменными, попавшими в другой фактор.

Среди основных методов извлечения факторов следует выделить:

1. Анализ главных компонентов (Principal component analysis) — это наиболее распространенный метод, в котором максимальная дисперсия помещается в первый фактор, далее происходит удаление этой дисперсии и начинается поиск второго фактора и так далее.

2. Метод главных осей (Principal Axis Factoring) позволяет получить более точное решение. На первом шаге общности вычисляются по методу главных компонент. На каждом последующем шаге собственные значения и факторные нагрузки вычисляются исходя из предыдущих значений общностей, при этом окончательное решение получается при выполнении заданного числа итераций или достижении минимальных различий между общностями на данном и предыдущем шагах.

3. Факторный анализ образов (Image Factoring) — это метод главных компонент, применяемый к так называемой редуцированной корреляционной матрице, у которой вместо единиц на главной диагонали располагаются оценки общностей. Общность каждой переменной оценивается предварительно как квадрат коэффициента множественной корреляции (КМК) этой переменной со всеми остальными.

4. Метод максимального правдоподобия. Этот метод также работает с метрикой корреляции, но использует метод максимального правдоподобия для факторизации.

5. Обобщенный метод наименьших квадратов (Generalized Least Squares) отличается от предыдущего тем, что для каждой переменной вводятся специальные весовые коэффициенты. Чем больше общность переменной, тем в большей степени она влияет на факторную структуру (имеет больший вес). Это соответствует основному принципу статистического оценивания, по которому менее точные наблюдения учитываются в меньшей степени.

6. Другие методы факторного анализа: альфа-факторинг, метод невзвешенных наименьших квадратов.

Собственные значения также называются характеристическими корнями, они показывают дисперсию, объясняемую этим конкретным фактором, из общей дисперсии. Из столбца общности мы можем узнать, какая часть дисперсии объясняется первым фактором из общей дисперсии. Например, если наш первый фактор объясняет 68 % дисперсии от общего числа, это означает, что 32 % дисперсии будут объясняться другим фактором.

Вопрос необходимого качества следует определять согласно критерию Кайзера [5], а именно, если собственные значения больше единицы, то мы должны считать это фактором, или же по правилу дисперсии: если дисперсия меньше 0,7, то мы не должны рассматривать это как фактор.

Для интерпретации результата следует применять метод вращения, при этом собственные значения не влияют на метод вращения, но метод вращения влияет на извлеченные собственные значения или процент дисперсии.

Существует несколько доступных методов вращения:

1. Варимакс (Varimax). Ортогональный метод вращения, минимизирующий число переменных с высокими нагрузками на каждый фактор. Этот метод упрощает интерпретацию факторов.

2. Прямой облимин (Direct oblimin). Метод косоугольного (неортогонального) вращения. Самое косоугольное решение соответствует дельте, равной нулю (по умолчанию). По мере того как дельта отклоняется в отрицательную сторону, факторы становятся более ортогональными. Чтобы изменить задаваемое по умолчанию дельта следует использовать значение меньшее или равное 0,8.

3. Квартимакс (Quartimax). Метод вращения, который минимизирует число факторов, необходимых для объяснения каждой переменной. Этот метод существенно упрощает интерпретацию наблюденных переменных.

4. Эквимакс (Equimax). Метод вращения, объединяющий методы варимакс, упрощающий факторы, и кварти-макс, упрощающий переменные. Минимизируется число переменных с большими факторными нагрузками и число факторов, требуемых для объяснения переменной.

5. Вращение типа промакс (Рrоmах). Косоугольное вращение в предположении, что факторы могут коррелировать между собой. Оно производится быстрее, чем вращение типа прямой облимин, поэтому такой тип полезен для больших наборов данных [6].

Пример прикладной задачи

Мониторинг качества предоставления ИТ-услуг в целом и состояние работоспособности ИТ-инфраструктуры в частности характеризуется большой дискретностью при съеме данных с объектов (с некоторых элементов конфигурации съем происходит каждые 5 секунд), и зачастую метрики для анализа выбираются по принципу «на всякий случай смотреть все, что может отдавать оборудование по SNMP/RMON-протоколу». Таким образом объем обучающей выборки для использования машинного обучения зачастую избыточен по умолчанию, при этом отказаться от сбора данных по всему спектру метрик часто невозможно ввиду объективных причин.

Применим факторный анализ для набора показателей по 420 серверам, включенным в периметр производственной системы ОАО «РЖД» АСУ «Экспресс». В указанном наборе содержится 1 442 измерения по каждому датчику, что в сумме дает 605 640 измерений.

Для проведения факторного анализа воспользуемся программой IBM SPSS, основным достоинством которой является самый широкий охват существующих статистических методов, который удачно сочетается с большим количеством удобных средств визуализации результатов обработки.

После импортирования данных зададим следующие настройки проведения факторного анализа:

- расчет корреляционной матрицы;

- расчет показателя Кайзера-Майера-Олкина (КМО) и критерия сферичности Бартлетта;

- метод отбора — метод главных компонент;

- метод вращения — варимакс;

- выделить факторы на основе собственных значений >1;

- вывод графика собственных значений;

- вывод описательной статистики.

По окончании расчета программа SPSS подготавливает подробный отчет, прежде всего выводится таблица «Описательные статистики» (рис. 1).

В этой таблице содержатся средние значения, стандартное отклонение и число измерений для каждой переменной, включенной в факторный анализ.

Далее выводится корреляционная матрица (рис. 2), которая является исходным элементом для дальнейших расчетов.

Описательные статистики

Среднее Станд отклонения' Анализ Na

GVCHDSHUSVM213757 SiMSrelevance 1562295427 12492,895 1442

MSKHDSUSPV78967SIM Srelevance 1562295263 12472,004 1442

SVRWHDSUSPV78650SI MSrelevance 1562295412 12442,530 1442

GVCHDSUSPV78993SIM Srelevance 1562295315 12467,615 1442

GVCHDSVSP97942SIMSr elevance 1562295779 12494,500 1442

MSKHDSVSPG10Q0582B 4SIMSrelevance 1562306307 12493,917 1442

GVCHDSUSPVM25857SI MSrelevance 1562295424 12466,774 1442

SVRWHDSUSPV7B652SI MSrelevance 1562295366 12443,063 1442

ORWHDSUSPV17 2 29SI MSrelevance 1562296132 12468,241 1442

Рис. 1. Фрагмент таблицы «Описательные статистики»

GVCHDSHJS VM213757SI MSrelevance MSKHDSUSP V78967SlMSr elevance SVRWHDSLJ SPV79650SI MSrelevance GVCHDSUSP v7S983SIMSr elevance

OVCHDSHUSVWSiarSr SIMSrelevanifl 1 080 ,999 996 ,998

MSKHDSUSPWS967SIM Sielevance .999 1.000 ,993 1.000

SVRWHDSUSPV78550SI MSrelevance .996 ,999 1000 ,998

GvCHDSuspVTeaessiM Sialflvarca ,999 1.000 999 1,000

GVCHOSVSP9794:SIMSr elevance 1.000 .990 996 ,998

MSKHDSVSPG10005828 4SIMSrelavance 1.000 ,989 996 ,998

GVGHDSUSPVM2S957SI MSrelevance .990 1,000 ,990 1,000

SVRWHDSUSPV786525I MSrelevance .996 .998 1,000 .998

ORITVHDSUSPVI 7329SI MS relevance .999 1.D0D 999 1,000

GVCHDSVSPG100C5827 1SIMS relevance 1.000 .990 ,990 .998

SVRWHDSVSPe5165SIM Sielevarce ,992 ,984 ,996 ,991

Рис. 2. Фрагмент таблицы «Корреляционная матрица»

Следующим этапом следует вычислить меру выборочной адекватности КМО, используемую для проверки гипотезы о том, что частные корреляции между переменными малы, а также критерий сферичности Бартлетта, который проверяет гипотезу о том, что корреляционная матрица является единичной матрицей [7]. В случае если значение будет менее 0,6, то факторная модель должна быть признана непригодной. В указанном случае значение равно 0,953 (рис. 3), что следует признать хорошим результатом.

КМО и критерий Бартлетта

Мера адекватности выборки Кайэера-Майера-Олкина (КМО). ,953

Критерий сферичности Примерная Хи-квадрат

Бартлетта ст.св. 44293748

Значимость

Рис. 3. Значения КМО и критерия Бартлетта

После этого следует рассмотреть понятие «Общность», а именно количество дисперсии, которое переменная разделяет со всеми другими рассматриваемыми переменными. SPSS показывает таблицу общностей до и после извлечения — оценка, расположенная в столбце «Начальная», равняется множественному R-квадрат (коэффициенту детерминации) с переменной текущей строки в качестве зависимой и всеми остальными в качестве независимых переменных. Анализ главных компонент основан на первоначальном предположении, что все дисперсии являются общими, следовательно, до извлечения все общности равны 1. Общности в столбце, помеченном как «Извлечение», отражают общую дисперсию в структуре данных (рис. 4).

Другой способ взглянуть на эти общности — с точки зрения доли дисперсии, объясняемой лежащими в основе факторами. После извлечения некоторые факторы отбрасываются и часть информации теряется. Величина дисперсии каждой переменной, которая может быть объяснена оставшимися факторами, представлена общностями после извлечения.

Общности

Начальная Извлечение

GVCHDSHUSVM213757 SiMSrelevance 1,000 ,997

MSKHDSUSPV78967SIM Sralevance 1,000 ,998

SVRWHDSUSPV7B65QSI MSrelevance 1,000 ,996

GVCHDSUSPV789B3SIM Srelevance 1,000 ,998

GVCHDSVSP97S42SIMSr elevance 1,000 ,997

MSKHDSVSPG10005B28 4SIMSrelevance 1,000 ,997

GVCHDSUSPVM25857SI MSrelevance 1,000 ,998

SVRWHDSUSPV78652SI 1 ООО ,996

MSrelevance

ORWHDSUSPV17229SI MSrelevance

GVCHDSVSPG10005827 ISIMSrelevance

SVRWHDSVSPB51 65S!M Srelevance

GVCHDSHUSVM21 3749 1,000 ,995

SiMSrelevance

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 4. Фрагмент таблицы «Общности»

В таблице «Объясненная совокупная дисперсия» (рис. 5) перечисляются собственные значения, связанные с каждым линейным компонентом (фактором) до извлечения, после извлечения и после вращения. Собственные значения, связанные с каждым фактором, представляют собой дисперсию, объясняемую этим конкретным линейным компонентом, и SPSS также отображает собственное значение в терминах процента объясненной дисперсии (таким образом, фактор 1 объясняет 29,549 % общей дисперсии). Очевидно, что первые несколько факторов объясняют относительно большое количество дисперсии (особенно фактор 1), тогда как последующие факторы объясняют лишь небольшое количество дисперсии. Затем SPSS извлекает все факторы с собственными значениями больше 1, что оставляет нам 65 факторов. Собственные значения, связанные с этими

1,000 ,996

1,000 ,997

1,000 ,995

факторами, снова отображаются (с пояснением процента дисперсии) в столбцах, озаглавленных «Извлечение суммы квадратов нагрузок». Значения в этой части таблицы такие же, как и значения до извлечения, за исключением того, что значения отброшенных факторов игнорируются (следовательно, таблица остается пустой после четвертого факто-

ра). В заключительной части таблицы (с пометкой «Ротация суммы квадратов нагрузок») отображаются собственные значения факторов после вращения. Вращение приводит к оптимизации структуры факторов, и одним из следствий этого является то, что относительная важность факторов уравнивается [8].

Объясненная совокупная дисперсия

Начальные собственные значения

Извлечение суммы квадратов нагрузок

Ротация суммы квадратов нагрузок

Компонент Всего % дисперсии Суммарный % Всего % дисперсии Суммарный % Всего % дисперсии Суммарный %

1 124,107 29,549 29,549 124,107 29,549 29,549 121,307 28,883 28,883

2 34,654 8.251 37.600 34,654 8,251 37,800 28,872 6,874 35,757

3 20,593 4.903 42.703 20,593 4,903 42,703 19,419 4.624 40.381

4 13.26& Э.159 45.863 13,269 3.159 45.863 13,486 3,211 43.592

5 13,053 3,108 48.970 13,053 3,108 48,970 13,414 3,194 46,785

6 9,696 2.309 51,273 9,696 2,309 51,279 9,952 2.370 43.1 55

7 9,020 2.148 53.427 9,020 2.148 53,427 6,246 1,487 50.642

В В,256 1.966 55,393 6,256 1,966 55,333 5,852 1,393 52,035

9 7,364 1.753 57.146 7,364 1,753 57,146 5,434 1,294 53,329

10 6,140 1.462 58.608 6,140 1.462 58,608 5,428 1,292 54,622

11 5,763 1.372 59.980 5,763 1,372 59,980 4,393 1,046 55,667

12 5,534 1.318 61,238 5,534 1.318 61,238 4,205 1.001 56.669

13 5,240 1,248 62,546 5,240 1.248 62,546 3,730 ,888 57.557

14 4,793 1.14.1 63.667 4,793 1,141 63,667 3,702 ,691 58,438

15 4,427 1.054 64,741 4,427 1,054 64,741 3,637 ,866 59,304

16 3,850 .917 65.658 3,850 ,917 65,658 3,618 ,861 60.166

17 3,728 .888 66.545 3,728 ,888 66,545 3,406 .811 60,977

18 3,616 .861 67,406 3,616 ,861 67,406 3,349 ,797 61,774

19 3,450 .823 68.230 3,458 ,823 68.230 3,012 .717 62.491

20 3,360 .800 69.0Э0 3,360 ,800 69,030 2,997 ,714 63,205

21 3,271 .779 69,808 3,271 ,779 69,808 2,964 ,706 63,910

22 3,059 .728 70,537 3,059 rj со 70,537 2,954 ,703 64.614

23 2,962 .705 71.242 2,962 ,705 71,242 2,862 ,681 65,295

24 2,817 .671 71.913 2,817 ,671 71,913 2,841 ,676 65,972

25 2,743 .653 72.566 2,743 ,653 72.566 2,784 ,663 66.634

Рис. 5. Фрагмент таблицы «Объясненная совокупная дисперсия»

График собственных значений (рис. 6) изображает ком- Р. Кеттелла. Количество факторов определяется приблизи-поненты как ось Х, а корреспондирующие собственные зна- тельно по точке перегиба на графике собственных значений чения как ось У и применяется для критерия отсеивания до его выхода на пологую прямую после резкого спада.

Номер компонента

Рис. 6. График собственных значений

На рисунке 7 показана матрица, содержащая нагрузки каждой переменной на каждый фактор. По умолчанию SPSS отображает все нагрузки, однако при настройке

программы было указано, чтобы все нагрузки менее 0,1 были подавлены в выходных данных, поэтому для многих загрузок есть пробелы.

1 2 3 4 5 S 7 8 9 10

ORWHD3USPV29307SI MSrelevance ,975 -.129 .154

SVRWHOSUSPV2S147SI MSrelevance ,975 -.129 .154

GVCHDSUSPVM25B57SI MSrelevance ,975 -.129 .154

ORWHDSU5PV17476SI MSrelevance ,975 -,129 .154

ORWHDSUSPV17229SI MSrelevance ,975 -,129 .154

SVRWHDSVSPG100059 138SIMSrelevance ,975 -.129 .154

MSKHDSUSPV78S67SIM Srelevance ,975 -.129 .154

GVCHDSUSRV78983SINI Srelevance ,975 -,129 .154

SVRWHDSUSPV75371S1 MSrelevance ,975 -.132 .153

SVRWHDSUSPV78650SI MSrelevance ,975 -.131 .153

SVRWHDSUSPV70652SI MSrelevance ,975 -.132 .153

GVCHDSVSP97942SIMSr elevance ,974 -,120 .155

ORWHDSVSP85265SIMS relevance ,974 -,128 .155

Рис. 7. Фрагмент матрицы коэффициентов значений компонентов

В результате проведения факторного анализа из 420 наблюдаемых переменных было выделено 65 факторов, которые объясняют 88 % дисперсии.

Заключение

В ходе анализа фрагмента исходных данных по мониторингу ИТ-инфраструктуры ОАО «РЖД» на примере одной из производственных систем наглядно показана возможность применения факторного анализа как дополнительного средства для снижения размерности обучающих выборок для использования машинного обучения. Прикладной смысл этой операции направлен на снижение требований к вычислительному комплексу, занятому в переобучении модели прогнозирования (в том числе через упрощение данной модели) будущих состояний объектов мониторинга, и позволяет как сократить требования к оборудованию данного комплекса, так и сократить время на переобучение моделей прогнозирования.

В указанном примере число переменных для анализа было сокращено приблизительно в 6,5 раза (с 420 до 65), при этом выделенные факторы объясняют 88 % дисперсии, что является достаточным показателем для дальнейшего анализа выборки и поиска закономерностей. Объем применения факторного анализа, безусловно, может быть расширен для всех метрик, снимаемых с объектов мониторинга и удовлетворяющих требованиям к возможности применения факторного анализа.

Таким образом, исследование может быть продолжено, но даже сейчас следует подтвердить, что применение факторного анализа на этапе подготовки данных для использования в машинном обучении является хорошим способом сокращения нагрузки на вычислительный комплекс без

потери качества исходных данных, а следовательно, без снижения результата.

Развивая эту мысль, можно говорить о том, что данный промежуточный шаг обработки исходных данных, безусловно, является усилением классического подхода к применению машинного обучения. Более того, комбинация методов факторного анализа и классической нормализации и стандартизации может дать существенный результат во времени решения задачи, при этом качество модели предсказания не меняется, но качество интерпретации результатов мониторинга для пользователя явно повышается.

Следует повторить, что исторически алгоритмы бу-стинга, как одного из наиболее подходящего для численных данных метода машинного обучения, исследователи старались усиливать путем оптимального комбинирования классификаторов, а на следующей стадии развития [9] — путем оптимального комбинирования функций потерь для разных классификаторов из имеющегося ансамбля классификаторов. В статье рассматривается использование факторного анализа как элемента комбинированного подхода первичной обработки данных на этапе, предшествующем обучению модели, и позволяющему:

- упростить саму модель обучения;

- повысить интерпретируемость данных для пользователя;

- высвободить ресурсы вычислительного комплекса.

Литература

1. Большаков, М. А. Сравнительный анализ методов машинного обучения для оценки качества ИТ-услуг / М. А. Большаков, И. А. Молодкин, С. В. Пугачев // Защита информации. Инсайд. 2020. № 4 (94). С. 36-43.

2. Шеннон, К. Э. Работы по теории информации и кибернетике: Сборник статей: Пер. с англ. / Под ред. Р. Л. Доб-рушина и О. Б. Лупанова. — Москва: Изд-во иностранной литературы, 1963. — 829 с.

3. Хайкин, С. Нейронные сети: Полный курс. Второе издание = Neural Networks: A Comprehensive Foundation. Second Edition / С. Хайкин; пер. с англ. Н. Н. Куссуль и А. Ю. Шеле-стова. — Москва: Вильямс, 2006. — 1104 с.

4. Большаков, М. А. Подготовка данных системы мониторинга ИТ-инфраструктуры для моделей выявления критических состояний на основе нейросетей // Наукоемкие технологии в космических исследованиях Земли. 2019. № 4. С. 65-71. DOI: 10.24411/2409-5419-2018-10280.

5. Kaiser, H. F. A Second Generation Little Jiffy // Psy-chometrika. 1970. Vol. 35, Is. 4. Pp. 401-415.

DOI: 10.1007/BF02291817.

6. Вращение факторов для факторного анализа // IBM Documentation — Обновлено 22.03.2021. URL: http://www.ibm.com/ docs/ru/spss-statistics/25.0.0?topic=SSLVMB_25.0.0/spss/base/ idh_fact_rot.html (дата обращения 10.11.2022).

7. Бююль, А. SPSS: Искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей = SPSS Version 10. Einführung in die moderne Datenanalyse unter Windows: Пер. с немецкого / А. Бююль, П. Цёфель. — Санкт-Петербург: ДиаСофтЮП, 2005. — 608 с.

8. How to Perform Exploratory Factor Analysis (EFA) using SPSS // ResearchWithFawad. URL: http://researchwith-fawad.com/index.php/lp-courses/data-analysis-using-spss/ how-to-perform-exploratory-factor-analysis-using-spss (дата обращения 12.11.2022).

9. Jeon, Y.-S. FlexBoost: A Flexible Boosting Algorithm with Adaptive Loss Functions / Y.-S. Jeon, D.-H. Yang, D.-J. Lim // IEEE Access. 2019. Vol. 7. Pp. 125054-125061. DOI: 10.1109/ACCESS.2019.2938356.

DOI: 10.24412/2413-2527-2022-432-17-23

Analysis to Reduce the Dimensionality of Initial IT Infrastructure Monitoring Data

M. A. Bolshakov Emperor Alexander I St. Petersburg State Transport University Saint Petersburg, Russia bolshakovm@yandex.ru

Abstract. Discusses the use of factor analysis to reduce the dimensionality of the initial IT infrastructure monitoring data. The theoretical foundations of factor analysis and basic terminology are given. The performance of factor analysis using the IBM SPSS package on real monitoring data with a reduction of 6.5 times is shown. The advantages of using factor analysis to reduce the load on the computer system by reducing the data dimension are substantiated.

Keywords: factor analysis, monitoring, IT infrastructure, data size reduction.

References

1. Bolshakov M. A., Molodkin I. A., Pugachev S. V. Comparative Analysis of Machine Learning Methods to Assess the Quality of IT Services [Sravnitelnyy analiz metodov mash-innogo obucheniya dlya otsenki kachestva IT-uslug], Zasita informacii. Inside [Zashchita informatsii. Insayd], 2020, No. 4 (94), Pp. 36-43.

2. Shannon C. E. Works on information theory and cybernetics [Raboty po teorii informatsii i kibernetike]. Moscow, Foreign Literature Publishing House, 1963, 829 p.

3. Haykin S. Neural Networks: A Comprehensive Foundation. Second Edition [Neyronnye seti: Polnyy kurs. Vtoroe izdanie]. Moscow, Williams Publishing House, 2006, 1104 p.

4. Bolshakov M. A. Preparation of Data Monitoring System of IT Infrastructure for Critical State Detection Models Based on Neural Networks [Podgotovka dannykh sistemy monitoringa IT-infrastruktury dlya modeley vyyavleniya kritich-eskikh sostoyaniy na osnove neyrosetey], High Technologies in Earth Space Research [Naukoemkie tekhnologii v kosmich-eskikh issledovaniyakh Zemli], 2019, No. 4, Pp. 65-71.

DOI: 10.24411/2409-5419-2018-10280.

5. Kaiser H. F. A Second Generation Little Jiffy, Psy-chometrika, 1970, Vol. 35, Is. 4, Pp. 401-415.

DOI: 10.1007/BF02291817.

6. Rotation of Factors for Factor Analysis [Vrashchenie faktorov dlya faktornogo analiza], IBM Documentation. Last update at March 22, 2021.

Available at: http://www.ibm.com/docs/ru/spss-statistics/ 25.0.0?topic=SSLVMB_25.0.0/spss/base/idh_fact_rot.html (accessed 10 Nov 2022).

7. Bühl A., Zöfel P. SPSS: The Art of information processing. Analysis of statistical data and recovery of hidden patterns [SPSS: Iskusstvo obrabotki informatsii. Analiz statistich-eskikh dannykh i vosstanovlenie skrytykh zakonomernostey]. Saint Petersburg, DiaSoft, 2005, 608 p.

8. How to Perform Exploratory Factor Analysis (EFA) using SPSS, ResearchWithFawad. Available at: http://research-withfawad.com/index.php/lp-courses/data-analysis-using-spss/ how-to-perform-exploratory-factor-analysis-using-spss (accessed 12 Nov 2022).

9. Jeon Y.-S., Yang D.-H., Lim D.-J. FlexBoost: A Flexible Boosting Algorithm with Adaptive Loss Functions, IEEE Access, 2019, Vol. 7, Pp. 125054-125061.

DOI: 10.1109/ACCESS.2019.2938356.

i Надоели баннеры? Вы всегда можете отключить рекламу.