Научная статья на тему 'СТАТИСТИЧНИЙ АНАЛІЗ ДАНИХ ПРО ВИКОРИСТАННЯ ОБЧИСЛЮВАЛЬНИХ РЕСУРСІВ КОМП’ЮТЕРІВ ЗАКЛАДУ ВИЩОЇ ОСВІТИ ЗАСОБАМИ PYTHON'

СТАТИСТИЧНИЙ АНАЛІЗ ДАНИХ ПРО ВИКОРИСТАННЯ ОБЧИСЛЮВАЛЬНИХ РЕСУРСІВ КОМП’ЮТЕРІВ ЗАКЛАДУ ВИЩОЇ ОСВІТИ ЗАСОБАМИ PYTHON Текст научной статьи по специальности «Электротехника, электронная техника, информационные технологии»

CC BY
8
3
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
статистичний аналіз / Python / Pandas / Matplotlib / Seaborn / statistical analysis / Python / Pandas / Matplotlib / Seaborn

Аннотация научной статьи по электротехнике, электронной технике, информационным технологиям, автор научной работы — І. О. Кандиба, Г. В. Горбань, Н. В. Гончарова, Д. С. Гончаров

В статті представлено дослідження інструментарію для реалізації первинного статистичного аналізу даних про використання обчислювальних ресурсів мережі закладу вищої освіти (ЗВО). Досліджено сучасні роботи, присвячені аналізу даних про використання обчислювальних ресурсів, та шляхи впровадження результатів цих досліджень. Окрім того, описано специфіку моніторингу використання обчислювальних ресурсів ЗВО. Наведено опис особливостей споживання обчислювальних ресурсів мережі шкідливим ПЗ. Досліджено можливості застосування інструментарію мови Python для аналізу апаратно-технічного стану мережі ЗВО та споживання обчислювальних ресурсів. Запропоновано архітектуру бази даних (БД) для зберігання отриманих в результаті моніторингу даних про використання обчислювальних ресурсів і наведено опис полів, де міститиметься основна інформація: використання центрального та графічного процесорів, завантаженість оперативної пам’яті, заповнення накопичувача даних. Більш того, проаналізовано можливості бібліотеки Pandas в контексті первинного статистичного аналізу даних про використання обчислювальних ресурсів. Таким чином, було визначено особливості структури для зберігання даних DataFrame. Описано методи завантаження даних з БД до структури DataFrame. Розглянуто засоби динамічного відображення даних з допомогою Jupyter Notebook. Представлено метод реалізації первинного статистичного аналізу, а саме розрахунку: мінімального, максимального, середнього значень, квартилів, моди і медіани. Наведено опис використання бібліотек Matplotlib та Seaborn для візуалізації отриманих результатів. Розглянуто можливість використання гістограм для порівняння результатів моніторингу за кілька різних днів. Розглянуто можливість побудови діаграми розсіювання на основі отриманих даних про використання обчислювальних ресурсів. Виділено основні переваги застосування розробленого ПЗ: можливість визначення взаємозв’язків показників, діагностування наявності шкідливого ПЗ та прогнозування необхідних обчислювальних ресурсів для коректної роботи мережі ЗВО. Визначено подальші шляхи розвитку запропонованого ПЗ статистичного аналізу даних про використання обчислювальних ресурсів комп’ютерів ЗВО.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по электротехнике, электронной технике, информационным технологиям , автор научной работы — І. О. Кандиба, Г. В. Горбань, Н. В. Гончарова, Д. С. Гончаров

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STATISTICAL DATA ANALYSIS ON THE COMPUTING RESOURCES USE OF UNIVERSITY COMPUTERS BY MEANS OF PYTHON

The article presents a study of tools for implementing primary statistical data analysis on the use of university network computing resources. Modern researches on the data analysis on the computing resources use and ways to implement results of them are studied in it. Moreover, peculiarities of monitoring the use of higher education institutions computing resources are described. Also, features of malware consumption of computing resources are described in this research. The article discusses a possibility of using Python tools for analysing the hardware and technical state of a university network and the computing resources consumption. Thus, it proposes an architecture of a database for storing the obtained data on the use of computing resources. In addition, a description of fields that store the main data is given: the use of the central and graphics processors, the load of RAM, and the data storage device filling. The authors analysis possibilities of the Pandas library in a context of primary statistical data analysis on the use of computing resources. Moreover, features of the DataFrame data storage structure are investigated in this research. Therefore, article describes methods of loading data from the database into the DataFrame structure and means of dynamic data display with Jupyter Notebook. Also, the authors consider a method of implementing primary statistical analysis, namely the calculation of: minimum, maximum, average, quartiles, mode, median. In addition, a description of the use of the Matplotlib and Seaborn libraries for visualizing the results is given. The publication considers possibility of using histograms to compare monitoring results for several different days and building a scatter plot based on the obtained data on the use of computing resources. The main advantages of using the developed software are highlighted: the ability to determine the interrelationships of indicators, diagnose the presence of malware and predict the necessary computing resources for the correct operation of the university network. Further ways of development of the proposed software for statistical data analysis on the use of computing resources of higher education institutions` computers are determined.

Текст научной работы на тему «СТАТИСТИЧНИЙ АНАЛІЗ ДАНИХ ПРО ВИКОРИСТАННЯ ОБЧИСЛЮВАЛЬНИХ РЕСУРСІВ КОМП’ЮТЕРІВ ЗАКЛАДУ ВИЩОЇ ОСВІТИ ЗАСОБАМИ PYTHON»

УДК 004.4

https://doi.Org/10.35546/kntu2078-4481.2023.1.20

I. О. КАНДИБА

PhD, старший викладач кафедри iнженерil програмного забезпечення Чорноморський нацюнальний ушверситет iMeHi Петра Могили

ORCID: 0000-0002-8589-4028

Г. В. ГОРБАНЬ

кандидат техшчних наук, доцент, доцент кафедри iнженерil програмного забезпечення Чорноморський нацюнальний ушверситет iменi Петра Могили

ORCID: 0000-0002-6512-3576

Н. В. ГОНЧАРОВА

асшрант кафедри iнженерil програмного забезпечення Чорноморський нацюнальний ушверситет iменi Петра Могили

ORCID: 0000-0001-5536-6200

Д. С. ГОНЧАРОВ

асшрант кафедри комп'ютерно! iнженерil Чорноморський нацюнальний ушверситет iменi Петра Могили

ORCID: 0009-0004-1200-6677

СТАТИСТИЧНИЙ АНАЛ1З ДАНИХ ПРО ВИКОРИСТАННЯ ОБЧИСЛЮВАЛЬНИХ РЕСУРС1В КОМП'ЮТЕР1В ЗАКЛАДУ ВИЩО1 ОСВ1ТИ ЗАСОБАМИ PYTHON

В cmammi представлено до^дження тструментарш для реал1зацИ первинного статистичного анализу даних про використання обчислювальних ресурав мережi закладу вищо '1 освiти (ЗВО). До^джено сучасш робо-ти, присвячеш анализу даних про використання обчислювальних ресурав, та шляхи впровадження результатiв цих до^джень. О^м того, описано специфiку монторингу використання обчислювальних ресурав ЗВО. Наведено опис особливостей споживання обчислювальних ресурав мережi шюдливим ПЗ. До^джено можливостi застосування тструментарт мови Python для анализу аnаратно-технiчного стану мережi ЗВО та споживання обчислювальних ресурав. Запропоновано архтектуру бази даних (БД) для збер^ання отриманих в результатi монторингу даних про використання обчислювальних ресурав i наведено опис полiв, де мктитиметься основна iнформацiя: використання центрального та графiчного процесорiв, завантажетсть оперативно'1 пам'ятi, заповнення накопичувача даних. Бтьш того, проаналiзовано можливостi бiблiотеки Pandas в контекстi первинного статистичного анализу даних про використання обчислювальних ресурав. Таким чином, було визначено осо-бливостi структури для зберiгання даних DataFrame. Описано методи завантаження даних з БД до структури DataFrame. Розглянуто засоби динамiчного вiдображення даних з допомогою Jupyter Notebook. Представлено метод реалгзацИ первинного статистичного анализу, а саме розрахунку: мiнiмального, максимального, середньо-го значень, квартилiв, моди i медiани. Наведено опис використання бiблiотек Matplotlib та Seaborn для вгзуа-лгзаци отриманих результатiв. Розглянуто можливкть використання гктограм для порiвняння результатiв монторингу за кшька ргзних дтв. Розглянуто можливiсть побудови дiаграми розаювання на основi отриманих даних про використання обчислювальних ресурав. Видшено основнi переваги застосування розробленого ПЗ: можливiсть визначення взаемозв'язюв показнитв, дiагностування наявностi шюдливого ПЗ та прогнозування необхiдних обчислювальних ресурав для коректноi роботи мережi ЗВО. Визначено подальшi шляхи розвитку запропонованого ПЗ статистичного анал1зу даних про використання обчислювальних ресурав комп'ютерiв ЗВО.

Ключовi слова: статистичний аналiз, Python, Pandas, Matplotlib, Seaborn.

I. O. KANDYBA

PhD, Senior Lecturer at the Department of Software Engineering Petro Mohyla Black Sea National University ORCID: 0000-0002-8589-4028

H. V. HORBAN

Candidate of Technical Sciences, Associate Professor, Associate Professor at the Department of Software Engineering Petro Mohyla Black Sea National University ORCID: 0000-0002-6512-3576

N. V. HONCHAROVA

Postgraduate Student at the Department of Software Engineering Petro Mohyla Black Sea National University ORCID: 0000-0001-5536-6200

D. S. HONCHAROV

Postgraduate Student at the Department of Computer Engineering Petro Mohyla Black Sea National University ORCID: 0009-0004-1200-6677

STATISTICAL DATA ANALYSIS ON THE COMPUTING RESOURCES USE OF UNIVERSITY COMPUTERS BY MEANS OF PYTHON

The article presents a study of tools for implementing primary statistical data analysis on the use of university network computing resources. Modern researches on the data analysis on the computing resources use and ways to implement results of them are studied in it. Moreover, peculiarities of monitoring the use of higher education institutions computing resources are described. Also, features of malware consumption of computing resources are described in this research. The article discusses a possibility of using Python tools for analysing the hardware and technical state of a university network and the computing resources consumption. Thus, it proposes an architecture of a database for storing the obtained data on the use of computing resources. In addition, a description of fields that store the main data is given: the use of the central and graphics processors, the load of RAM, and the data storage device filling. The authors analysis possibilities of the Pandas library in a context of primary statistical data analysis on the use of computing resources. Moreover, features of the DataFrame data storage structure are investigated in this research. Therefore, article describes methods of loading data from the database into the DataFrame structure and means of dynamic data display with Jupyter Notebook. Also, the authors consider a method of implementing primary statistical analysis, namely the calculation of: minimum, maximum, average, quartiles, mode, median. In addition, a description of the use of the Matplotlib and Seaborn libraries for visualizing the results is given. The publication considers possibility of using histograms to compare monitoring results for several different days and building a scatter plot based on the obtained data on the use of computing resources. The main advantages of using the developed software are highlighted: the ability to determine the interrelationships of indicators, diagnose the presence of malware and predict the necessary computing resources for the correct operation of the university network. Further ways of development of the proposed software for statistical data analysis on the use of computing resources of higher education institutions' computers are determined.

Key words: statistical analysis, Python, Pandas, Matplotlib, Seaborn.

Постановка проблеми

Аналiз даних про використання обчислювальних pecypciB KOMn'KrrepiB поеднаних певною локальною мережею застосовуеться у рiзних випадках, наприклад: контролю мережевого трафта [1, с. 2], розподшу ресурав та керування вiртyальними середовищами [2, с. 41] тощо. Мониторинг та аналiз даних про використання обчислювальних ресурав комп'ютерiв закладу вищо! освгти може допомогти опташзувати навчальний процес [3, с. 44]. Проблема полягае у ввдсутносп кросплатформового засобу для виршення ще! задача

AH^i3 останшх дослщжень i публшацш

Сучасш дослвдження в галyзi анатзу даних про використання обчислювальних ресурав мають рiзне спряму-вання. В робот [1, с. 2] наведено опис методу використання результата статистичного анал1зу даних мониторингу та контролю навантаження програмно-конфцуровано! мереж1. В робот наведено детальний опис архггектури системи для контролю мережевого трафша на основi аналiзy статистичних даних, але автори придшяють недо-статньо уваги засобам аналiзy статичних даних.

Робота [2, с. 41] присвячена опташзацп розподшу обчислювальних ресурав у вiртyaльних середовищах. Наведено опис методу планування необхвдного обсягу обчислювальних ресурав на основi результата статистичного aнaлiзy даних мониторингу вiртyaльних середовищ. Авторами запропоновано використання зaсобiв мониторингу та анал1зу використання обчислювальних ресурав, що вбудоваш у засоби вiртyaлiзaцil. Однак, у робоп не розглянуто можливють використання кросплатформових зaсобiв мониторингу обчислювальних ресурав з подаль-шим застосуванням статистичного анатзу.

В закладах вищо! освгти aнaлiз даних використовуеться для вдосконалення навчального процесу. Робота [4, с. 35] присвячена автоматизованому збору та статистичному aнaлiзy даних про ввдвщування занять. Описано архитектуру та технологи системи контролю та aнaлiзy ввдвщуваносп закладу освгти. Представлено алгоритм реатзаци регресивного aнaлiзy даних щодо ввдвщування занять, але автори придмють недостатньо уваги засобам aнaлiзy даних про використання обчислювальних ресурав.

Виконаний aнaлiз демонструе, що мониторинг даних про використання обчислювальних ресурав е актуаль-ним напрямом дослвджень, але питання статистичного анал1зу цих даних потребують подальших дослвджень. Зокрема недостатньо уваги придшено методам первинного статистичного анал1зу та засобам реaлiзaцil !х.

Формулювання мети дослщження

Метою дослщження е створення шформацшно! системи аналiзу даних про використання обчислювальних ресурав закладу вищо! освии (ЗВО). Створення вщповщно! шформацшно! системи дозволить оптимiзувати розподiл обчислювальних ресурав ЗВО, виявити несправностi та визначити наявшсть шкiдливого програмного забезпечення (ПЗ) в мереж!

Основнi задачi, яш вирiшyються для досягнення заявлено! мети:

1) провести дослщження впливу шкодливого ПЗ на iнтенсивнiсть використання обчислювальних ресурав;

2) проаналiзyвати засоби мониторингу використання обчислювальних ресyрсiв ЗВО;

3) розробити ПЗ реалiзацi! первинного статистичного аналiзy та вiзyалiзацi! даних.

Викладення основного матер1алу досл1дження

Навчання фахiвцiв у галyзi iнформацiйних технологiй (IT) вимагае наявностi рiзноманiтного програмного та апаратного забезпечення. Цей факт обумовлюе складнiсть побудови локально! мереж1 ЗВО та мониторингу спо-живання обчислювальних ресурав.

Мониторинг обчислювальних ресyрсiв ЗВО корисний виключно за наявностi засобiв його аналiзy. Наприклад, первинний статистичний аналiз дозволяе побудувати варiацiйний ряд (пстограми) на основi ранжування результата проведених вимiрiв споживання обчислювальних ресурав. Симетрична вiдносно центру пстограма свщ-чить про вiдсyтнiсть проблем з обчислювальними ресурсами у мереж1, а у випадку наявно! асиметри можна констатувати певнi проблеми у мереж! ЗВО.

Особливо важливим е виявлення шкодливого ПЗ, що не завжди можливо вчасно виконати спецiалiзованими програмними засобами та запобiгти нанесенню значно! шкоди. Прикладом розповсюдження шкодливого ПЗ е Petya ^рус шифрувальник), що у 2017 роц став причиною масштабних втрат iнформацi! та спричинив багато проблем у р!зних галузях, пов'язаних з IT [5, c. 122]. Це шк1дливе ПЗ шифруе файли на жорсткому диску та надсилае !х зловмиснику. Цей процес призводить до споживання велико! шлькосп обчислювальних ресyрсiв: процесорного часу, оперативно! пам'яп, використання накопичyвачiв даних [5, с. 122]. У цьому контекст задача мониторингу та аналiзy даних про використання обчислювальних ресурав з метою виявлення шкодливого ПЗ постае особливо гостро.

Особливостями мереж! ЗВО е те, що лабораторп, як! е частиною навчального закладу, складаються з програмного та апаратного забезпечення р!зного типу. Р!зш операцшш системи та архиектури комп'ютер!в потребу-ють окремих спещал!зованих засоб!в мониторингу апаратно-техшчного стану та використання обчислювальних ресурс!в [3, с. 44].

Використання можливостей мови програмування Python дозволяе врахувати зазначеш особливосп та реа-л!зувати зб!р даних про використання апаратного забезпечення мереж! ЗВО [3, с. 44]. Таким чином, збер^ання з!браних даних вимагае наявносп спецiалiзованого сховища системи керування базами даних (СКБД) SQLite.

5etDatePC_Dlskhard

•Id mtcge

HOOModet

HOOStatia id itege HODSIze «КО*«!

HCOSerlalNumber

SctDatcPCJMHODStatui

• M NamcStatr

Г

S«0«efC_Fullrc

»id tntcsc

NimePC Chi MotherboatdPC id If

CP_PC_ld intct«

Date5can_td Intea

SetDatePC .InstanccHOD

HDOIralance id mtegi PClt»stan«_id mtegt

SetDatePC VirtualMemoryStats

y»id integet

vmtoui

VMAvailawe integer

VMUsed

VMPcrccnt

СигтРС.К) integer/

InptDateScan id integer/

SelOatePC JtYstareePC Netwtk

/•id tntegei

KWCJd integer,*

Upload inte«et/* Download

SetDatePC JnsUwceOPU

>»id integer

GPlLid integer^ idPC_»d Integer.^

SetDatePC_DKtGPU

* ta integc

GPUName

GPUPWOev«elD rtii GPUAdaoteriUM teg.

SetOMePC.instaiKeCPPcrcentage

y*id intege-

«PC.id Integer/

Core

hiptOateScanjd Integer/

Percentage integer

Рис. 1. Фрагмент даталопчноТ модегн БД для jftcpiiaiimi даних мошторингу використання

обчислювальних ресурс1в

В наведеному фрагментi БД подальшого аналiзy вимагають поля:

- CP_Petcentage в таблиц SetDataPC_InstanceCPPrecentage зберiгае данi про використання процесорного

часу;

- VMUsed в таблищ SetDataPC_VirtualMemoryStats збертае данi про використання оперативно! пам'ятi та файлу тдвантаження;

- GPU_Petcentage в таблищ SetDataPC_InstanceGPU зберiгаe данi використання графiчного процесора;

- SizeUsedPercent в таблищ SetDataPC_PCPartition зберiгаe данi про використаний об'ем накопичувача даних;

- Upload i Download в таблищ SetDataPC_InstancePCNetwork збертае данi про об'ем надюланих та при-йнятих мережею даних.

З отриманого набору вхвдних даних проведено первинний статистичний аналiз за допомогою мови Python з використанням шструментарш Pandas [6, c. 116]. Ця бiблiотека спрощуе завантаження даних i реалiзуе методи обробки та аналiзу даних. Pandas реалiзуе двi структури для зберiгання даних: Series - одномiрний iндексований масив даних фшсованого типу та DataFrame - двовимiрна структура даних, кожен стовпець яко! мiстить данi одного типу. DataFrame дощльно застосовувати для представлення збереження даних: рядки вiдповiдають описам ознак окремих об'ектiв, а стовпщ вiдповiдають ознакам.

Для реатзацп первинного статистичного аналiзу даних про використання обчислювальних ресурсiв ЗВО результат мошторингу завантажено у DataFrame. Для цього використано метод read_sql_query, що забезпечуе виконання запиту до БД з пвдтримкою SQL. Додатково використано Jupyter Notebook, що дозволяе динамiчне ввдо-браження результатiв статистично! обробки. На рис. 2 представлено результат iмпортування даних в DataFrame.

7 ü 1г..и> ú

и

с 11

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 1 1«

1 i я

3 э Ed

4 n

í i)

t 6-

T и

I в Ей

^BCjtf Си

J ■Ul T 4

í 1 --Я

i T IT

U T И

1 kl T и

U T •e

S W 7 re

11 fcj T H

'J w I ii

] i 11111 ■ i. ж*, г-

л LWO'T Igllbtf]

i t*. - niíl№,cwt(t('t.Hliitr)

4' -:.■■■.:;;... LLLv.r ■ -rt^ J4H

e ItpíCUT^Í^b«, LÍ-? «ni

I ¡:rh~il ^df.'i' 1 14

Рис. 2. Результат iMnopTy даних з SQL до DataFrame

Вщображення DataFrame несе iлюстрaтивнy фyнкцiю, але для статистичного aнaлiзy необхвдно використання методу describe( ) [7 с. 108]. Цей метод виконуе первинний статистичний aнaлiз та розраховуе нaстyпнi характеристики: шльшсть ненульових елементiв (count); мшмальне (min), максимальне (max), середне значения (mean); перший (75%), другий(50%) та третш (75%) квaртилi.

Отже, виконавши SQL запит «SELECT * from SetDatePC_InstanceCPPercentage», можна отримати дaнi про навантаження центрального процесора (ЦП), але для початку aнaлiзy необхвдно вщбрати вимiри проведенi одно-часно та для всього ЦП в цшому, а не для певного ядра (рис. 3).

[К]

v'

import pandas as pd import sqliteJ

cor = sqlite3.connect("db.sqlite3")

df = pd.read_sql_query("SELECT * from SetDatePCInstanceCPPercerrtage;", con) print(df[(df[1 InptDateScan_id 1 ]=7) & (df[ 'Core" ]=="full')][ 'Percentage1 ] .describe()) cor.close()

count 9.000000

tlK an 49. 000000

std 23.¿5207e

min 17.С

25% 33.С

50% 53.000000

75% 59. С

max 90.í Name: Percentage, dtype: floatfrl

Рис. 3. Результат розрахунку дескриптивно!' статистики

Первинний статистичний аналiз мае включати в себе також визначення моди та медiани. Мода - це значення, що зустрiчаеться в множит найчаспше. Однiею з ознак наявносп шкодливого ПЗ в мереж1 е величина моди

ознаки навантаження ЦП у po3MÍpi 100. В бiблiотецi Pandas пошук моди реалiзуетъся за допомогою методу mode( ). Медiана - це величина ознаки, що розгашована посерединi ранжованого ряду ознак. Можливо викорисгаги метод mean( ) для визначення середнього значення використання певного обчислювального ресурсу.

Рис. 4. Визначення моди та медiани використання ЦП

Пiсля визначення всiх перерахованих вище характеристик огриманi данi мониторингу обчислювальних ресур-сiв можливо вiзуалiзуваги. Доцiльно застосовувати бiблiогеки Matplotlib та Seaborn для вiдображення гiсгограм, дiаграми розсшвання ознак, кореляцiйних матриць тощо [8, с. 151].

Гiсгограма являе собою представления розподiлу числових ознак визначених характеристик. Як вже згадува-лось вище, наявшсть асиметрп в гiсгограмi даних про використання обчислювальних ресурав ЗВО свщчить про проблеми в мереж!. Ддагностування проблем, таким чином, потребуе вiдображення одночасно чотирьох характеристик: вщсоток використання ЦП, вщсоток використання графiчного процесора, вщсоток використання оперативно! пам'ятi, вщсоток зайнятого об'ему накопичувача даних (рис. 5).

Рис. 5. Пстограми використання обчислювальних ресурмв

Гiстограми на рисунку 5 демонструють, що найбшьше, в однш з лабораторiй мереж1 ЗВО, використовуеться оперативна пам'ять, але бшьштсть ЦП навантажена не бiльше, н1ж на 50%, що може вказувати на вщсутшсть

шкодливого ПЗ в мережт Проте, залишаеться потреба визначати деяш проблеми апаратного забезпечення, напри-клад, падшня швидкосп запису даних на накопичувач (HDD/SSD) призводить до збшьшення навантаження на оперативну пам'ять. Визначити проблеми такого плану можна, використавши д1аграму розсшвання. Ддаграма розсшвання, також в1дома як scatter plot - це графш, який використовуеться для ввдображення залежносп м1ж двома змшними. Д1аграма розсшвання складаеться з точок, розташованих на граф1ку, де кожна точка представ-ляе значення двох змшних для одного спостереження. Горизонтальна в1сь зазвичай вщображае значення одше! змшно!, а вертикальна в1сь - значення шшо! змшно!. 1нструментарш Matplotlib та Seaborn дозволяють виконувати побудову р1зних вар1ацш д1аграм розсшвання. Наприклад, метод jointplot( ) дозволяе малювати комбшований граф1к пстограм та д1аграм розсшвання.

Використовуючи зазначений шструментарш, можна дослщити залежносп м1ж ознаками попарно. Так, наприклад, можна побудувати д1аграму розсшвання для вщсотка завантаженосп ЦП та використання оперативно! пам'ятг (рис. 6).

Рис. 6. Дiаграма розаювання даних про використання оперативно! пам'ят та навантаження ЦП

Отримане графiчне представлення дозволяе швидко оцiнити, як розподiленi данi, та визначити, чи е залеж-шсть м1ж двома ознаками. Представленi пстограми можуть бути використанi для порiвняння розподiлiв даних. Наприклад, для порiвняння результатiв монiторингу використання обчислювальних ресурав в рiзнi днi.

Гiстограми та дiаграми розсiювання можуть допомогти в прогнозуванш майбутнiх тенденцiй. У випадку, коли дiаграма розсшвання показуе сильну залежнiсть мiж двома змiнними, можна передбачити необхвдшсть онов-лення певного апаратного забезпечення в мереж! ЗВО або визначити наявшсть шкодливого ПЗ та запоб^и втратi даних.

Висновки

1) Дослвджено вплив шкодливого ПЗ на рiвень використання обчислювальних ресурсiв. Наведено опис осо-бливостей споживання обчислювальних ресурав одним з найбiльш ввдомих вiрусiв-шифрувальникiв Petya.

2) Проаналiзовано шструментарш мониторингу використання обчислювальних ресурсiв ЗВО, наведено архь тектуру БД для збертання зiбраних даних.

3) На основi Pandas розроблено ПЗ для проведення первинного статичного аналiзy Запропоновано використання DataFrame для визначення розрахунку дескриптивно! статистики, визначення моди та медiани. Застосовано бiблiотеки Matplotlib та Seaborn для вiзуалiзацi! результалв монiторингу використання обчислювальних ресурсiв ЗВО. Наведено приклад застосування дiаграм розсшвання для визначення взаемозв'язку певних ознак.

Застосунок розроблений мовою загального призначення Python, що щдтримуе велику кшьшсть р1зного шструментарш, в тому числ1 реал1зац1ю метод1в штучного штелекту, що можуть бути штегроваш для проведения подальшого анал1зу даних про використання обчислювальних ресурав ЗВО. Результата роботи розробленого ПЗ можуть бути використаш р1зними ЗВО для визначення наявносп проблем апаратного забезпечення та запо-бтання розповсюдження шкодливого ПЗ.

Список використаиоТ лiтератури

1. Leonardi L., Bello L. Lo, Agliano S. Priority-based bandwidth management in virtualized software-defined networks. Electronics. Vol. 9, Issue 6. P. 1-6.

2. Somani G., Chaudhary S. Application Performance Isolation in Virtualization. 2009 IEEE International Conference on Cloud Computing(2009). DOI:10.1109/CLOUD.2009.78. P. 41-48.

3. Кандиба I. О., Горбань Г. В., Ф1сун М. Т., Ткаченко М. П. Дослщження апаратно-технiчного стану локально! мережi закладу вищо! освiти засобами мови Python. Вчеш записки Таврiйського нацiонального ушверситету iменi В. I. Вернадського, 2022. № 3 т.33 С. 44 -49.

4. Чутлко Т., Чушлко О., Мормуль М. Проектування i програмна реалiзацiя автоматизоваиоï системи вщ-вiдуваиостi та аналiзу даних в закладах освгги. Iнформацiйнi технологiï та комп'ютерна iнженерiя. Випуск. 56, Том 1. 2023. С. 35-43.

5. Aidan J. S., Verma H. K., Awasthi L. K. Comprehensive survey on petya ransomware attack. 2017 International Conference on Next Generation Computing and Information Systems (ICNGCIS)(2017). P. 122-125.

6. Bantilan N. Pandera: Statistical data validation of pandas dataframes. Proceedings of the Python in Science Conference (SciPy)(2020). P. 116-124.

7. Teoh T. T., Rong Z. Python for Data Analysis. Artificial Intelligence with Python. Springer, 2022. P. 107-122.

8. Bisong E., Matplotlib and seaborn. Building Machine Learning and Deep Learning Models on Google Cloud Platform: A Comprehensive Guide for Beginners. 2019. P. 151-165.

9. Горбань Г. В., Кандиба I. О., Антшова К. О., Юрей К. О. Первинний та вiзуальний аналiз даних спортивних результата з академiчного веслування засобами мови python з використанням бiблiотек PANDAS, MATPLOTLIB ТА SEABORN. Тавршський науковий вкник. Серiя: Техшчш науки. Том 3. С. 27-37.

10. Несвгт М. I., Несвгт К. В. Розв'язання математичних задач сучасними мовами програмування та техно-лопями. Модернiзацiя вищоï освiти в укрш'ш та проблеми управлiния якiстю подготовки фахiвцiв у технiчному унiверситетi : зб. матерiалiв унiверситетськоï. наук.-метод. конф. ХНУБА. Харкiв. C. 120-123.

References

1. Leonardi L., Lo Bello, L., & Agliano, S. (2020). Priority-based bandwidth management in virtualized software-defined networks. Electronics, 9(6), 1009. DOI: D0I:https://doi.org/10.3390/electronics9061009

2. Somani G., & Chaudhary S. (2009). Application Performance Isolation in Virtualization. 2009 IEEE International Conference on Cloud Computing, pp. 41-48. D0I:https://doi.org/10.1109/CL0UD.2009.78

3. Kandyba I. O., Horban H. V, Fisun M. T., Tkachenko, M. P. (2022). Analysis of the hardware and technical state of the local network of a university's using the languagePython. Scientific notes of Taurida National VI. Vernadsky University". Series: Technical Sciences, 33(3), pp. 44-49. DOI:https://doi.org/10.32838/2663-5941/2022.3/07

4. Chupilko T. A., Chupilko O. S., Mormul M. F. (2023) Design and software implementation of the automated attendance system and data analysis in educational institutions. University of Customs and Finance, Dnipro, pp. 35-43 DOI:https://doi.org/10.31649/1999-9941-2023-56-1-35-43

5. Aidan J. S., Verma H. K., & Awasthi L. K. (2017). Comprehensive survey on petya ransomware attack. 2017 International Conference on Next Generation Computing and Information Systems (ICNGCIS), pp.122-125. DOI:https:// doi.org/10.1109/ICNGCIS.2017.30

6. Bantilan N. (2020). Pandera: Statistical data validation of pandas dataframes. Proceedings of the Python in Science Conference (SciPy), pp. 116-124.

7. Teoh T. T., & Rong Z. (2022). Python for Data Analysis. In Artificial Intelligence with Python (pp. 107-122). Springer. DOI: https://doi.org/10.1007/978-981-16-8615-3

8. Bisong E.(2019). Matplotlib and seaborn. Building Machine Learning and Deep Learning Models on Google Cloud Platform: A Comprehensive Guide for Beginners, P. 151-165. DOI: https://doi.org/10.1007/978-1-4842-4470-8

9. Horban H. V., Kandyba I. O., Antipova K. O., Kirei K. O. (2022). Primary and visual analysis of rowing performance data by means of python using Pandas, Matplotlib and Seaborn libraries. Taurida Scientific Herald. pp. 27-37 DOI: https:// doi.org/10.32851/tnv-tech.2022.3.3

10. Nesvit M. I., Nesvit K. V. (2020) Solving mathematical problems in modern programming languages and technologies. Modernization of higher education in ukraine and problems of quality management training of technical specialists universities. Kharkiv: KNUBA. pp 120-123.

i Надоели баннеры? Вы всегда можете отключить рекламу.