Научная статья на тему 'МОНИТОРИНГ ДАННЫХ О РЕЗУЛЬТАТИВНОСТИ ПРОЦЕССОВ СИСТЕМЫ МЕНЕДЖМЕНТА. НАСТРОЙКА ПАРАМЕТРОВ КЛАСТЕРИЗАЦИИ DBSCAN ПО ПОДХОДЯЩИМ ЗНАЧЕНИЯМ МЕТРИКИ СИЛУЭТА'

МОНИТОРИНГ ДАННЫХ О РЕЗУЛЬТАТИВНОСТИ ПРОЦЕССОВ СИСТЕМЫ МЕНЕДЖМЕНТА. НАСТРОЙКА ПАРАМЕТРОВ КЛАСТЕРИЗАЦИИ DBSCAN ПО ПОДХОДЯЩИМ ЗНАЧЕНИЯМ МЕТРИКИ СИЛУЭТА Текст научной статьи по специальности «Математика»

CC BY
6
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
анализ данных / кластеризация / DBSCAN / метрики машинного обучения / метрика силуэта / scikit-learn / pandas / numpy / data analysis / clustering / DBSCAN / machine learning metrics / silhouette metric / scikit-learn / pandas / numpy

Аннотация научной статьи по математике, автор научной работы — Мосин Владимир Геннадьевич, Козловский Владимир Николаевич, Васин Сергей Александрович, Стрелков Глеб Сергеевич

В настоящей статье рассматривается метод автоматической настройки параметров кластеризации DBSCAN, основанный на авторском алгоритме определения локтевой точки метрики силуэта. Излагается алгоритм настройки и его приложения к наборам синтетических данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Мосин Владимир Геннадьевич, Козловский Владимир Николаевич, Васин Сергей Александрович, Стрелков Глеб Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MONITORING DATA ON THE PERFORMANCE OF MANAGEMENT SYSTEM PROCESSES. CONFIGURING DBSCAN CLUSTERING PARAMETERS BY SUITABLE SILHOUETTE METRIC VALUES

This article discusses a method for automatically adjusting DBSCAN clustering parameters, based on the author's algorithm for determining the ulnar point of the silhouette metric. The tuning algorithm and its applications to synthetic data sets are outlined.

Текст научной работы на тему «МОНИТОРИНГ ДАННЫХ О РЕЗУЛЬТАТИВНОСТИ ПРОЦЕССОВ СИСТЕМЫ МЕНЕДЖМЕНТА. НАСТРОЙКА ПАРАМЕТРОВ КЛАСТЕРИЗАЦИИ DBSCAN ПО ПОДХОДЯЩИМ ЗНАЧЕНИЯМ МЕТРИКИ СИЛУЭТА»

The main changes made to Federal Law N184-FZ "On Technical Regulation " and their impact on the legal basis for standardization and certification of products in Russia are considered. The emphasis is on the text of the amendments in 2016 and 2021.

Key words: Federal Law N 184-FZ, changes, amendments, technical regulation.

Slesarchuk Anastasia Vladimirovna, master, nastena. slesarchuk@mail. ru, Russia, Tula, Tula State University

УДК 005.6

DOI: 10.24412/2071 -6168-2024-4-28-29

МОНИТОРИНГ ДАННЫХ О РЕЗУЛЬТАТИВНОСТИ ПРОЦЕССОВ СИСТЕМЫ МЕНЕДЖМЕНТА. НАСТРОЙКА ПАРАМЕТРОВ КЛАСТЕРИЗАЦИИ DBSCAN ПО ПОДХОДЯЩИМ ЗНАЧЕНИЯМ МЕТРИКИ

СИЛУЭТА

В.Г. Мосин, В.Н. Козловский, С.А. Васин, Г.С. Стрелков

В настоящей статье рассматривается метод автоматической настройки параметров кластеризации DBSCAN, основанный на авторском алгоритме определения локтевой точки метрики силуэта. Излагается алгоритм настройки и его приложения к наборам синтетических данных.

Ключевые слова: анализ данных, кластеризация, DBSCAN, метрики машинного обучения, метрика силуэта, scikit-learn, pandas, numpy.

1. Введение. Кластеризация является одним из основных методов анализа данных, который позволяет разделить множество объектов на группы, называемые кластерами, таким образом, чтобы объекты внутри одного кластера были более похожи друг на друга, чем на объекты из других кластеров. Этот подход играет важную роль в различных областях, таких как машинное обучение, статистика и многих других (см. [4]).

Верный подбор параметров кластеризации является критически важным этапом процесса анализа данных. Параметры кластеризации определяют, какие именно свойства объектов будут учитываться при формировании кластеров. Неправильный выбор параметров может привести к некорректному образованию кластеров, а значит, к неверной интерпретации данных и неправильным выводам.

1. 1. Теоретическая часть. В нашей работе мы проанализируем один из методов автоматической настройки параметров кластеризации DBSCAN, используя в качестве метрики ее эффективности метрику силуэта.

1.1.1. Кластеризация DBSCAN. Кластеризация DBSCAN (Density-Based Spatial Clustering of Applications with Noise) — это алгоритм машинного обучения, который используется для группировки данных на основе их плотности. В отличие от других методов кластеризации, таких как KMeans или агломеративная кластеризация, алгоритм DBSCAN способен обнаруживать кластеры произвольной и сложной формы, а также находить шумовые точки, которые не принадлежат ни одному кластеру. DBSCAN является мощным инструментом для кластеризации данных и находит применение в различных областях, таких как анализ социальных сетей, геоинформационные системы, анализ изображений и т. д. Его способность обнаруживать кластеры произвольной формы и игнорировать шумовые данные делает его очень полезным инструментом для извлечения информации из больших объемов данных.

1.1.2. Метрика силуэта. Метрика силуэта является одной из ключевых метрик, которая используется для оценки качества кластеризации. Она позволяет измерить, насколько хорошо объекты распределены по кластерам, и определить, насколько каждый объект подходит своему кластеру. Принцип работы метрики силуэта основывается на оценке плотности и компактности кластеров. На высокий показатель силуэта влияют два фактора: среднее расстояние между объектом и остальными объектами в его кластере (компактность), а также среднее расстояние до объектов, принадлежащих другим кластерам (разделенность). Чем больше величина силуэта, тем лучше кластеризация.

Одним из основных преимуществ метрики силуэта является ее универсальность. В отличие от других метрик, она может быть применена к различным типам данных и алгоритмам кластеризации. Эта метрика не требует априорного знания количества кластеров, что является ее значительным преимуществом, а в применении к кластеризации DBSCAN, для которой число кластеров заранее неизвестно, метрика силуэта является незаменимой.

1. 2. Постановки задачи

1.2.1. Предмет исследования. Ключевым фрагментом нашего алгоритма настройки параметров кластеризации DBSCAN является функция автоматического определения локтевой точки (см. п. 2). Мы будем исследовать работу этой функции.

1.2.2. Методика исследования. Мы реализуем алгоритм настройки и протестируем его на достаточном количестве синтетических данных.

1.2.3. Цель исследования. Наша цель — выяснить, является ли предложенный нами метод автоматической настройки параметров кластеризации DBSCAN самостоятельным рабочим инструментом, не требующим вмешательства человека, и, по возможности, установить границы применения этого метода.

1. 3. Технологии. Мы работаем с данными в среде Jupyter Notebook, которая предоставляет удобные инструменты для работы с языком программирования Python и его основными библиотеками: numpy, pandas, sklearn и matplotlib.

Для вычислений и обработки массивов данных мы используем библиотеку numpy, которая является одной из лучших библиотек в Python. Одномерные и многомерные числовые массивы эффективно обрабатываются с помощью предлагаемых библиотекой структур данных, алгоритмов и функций (см. [2], [3]).

Другая активно используемая нами библиотека, специально созданная для работы с данными — pandas. Она тесно интегрирована с другими инструментами для анализа и вычислений данных на платформе Python, такими как numpy, sklearn и matplotlib (см. [1]).

Для кластеризации мы применяем библиотеку scikit-leam, которая также известна под именем skleam. Библиотека skleam является мощной и гибкой библиотекой машинного обучения, что делает ее отличным средством для реализации самых разнообразных моделей (см. [3], [4]). 2. Функция 1оЫ_ро1п1

В теле алгоритма (см. п. 3) мы осуществим прогон кластеризации ББСБАК по двумерной сетке ее двух основных параметров:

1.eps — радиус, внутри которого точки облака данных учитываются, как принадлежащие одному кластеру;

2.тк^атр^ — число точек, начиная с которого фрагмент облака может считаться самостоятельным

кластером.

При этом для оценки качества кластеризации мы будем использовать метрику силуэта silhouette_score, которая принимает значения из промежутка [-1, 1], и качество кластеризации оценивается тем выше, чем больше значение silhouette_score-метрики.

Однако при таком вполне очевидном подходе возникает одна из существенных проблем подбора параметров кластеризации ББСБАК. Она состоит в том, что лучшая кластеризация далеко не всегда соответствует лучшему значению метрики.

Рис. 1. Локтевое значение метрики (а) и ее максимальное значение (Ь)

Максимальное значение метрики силуэта (см. р. 1(Ь)) может привести к тому, что все объекты будут объединены в один кластер (плюс, возможно, некоторое количество выбросов), а это не самая лучшая кластеризация, так как она вообще не улавливает каких-либо различий между объектами. При этом разумное разделение на кластеры происходит при так называемом локтевом значении метрики (см. р. 1(а)), которое не определяется математически, а требует интуиции и опыта исследователя.

Обычно говорят, что локтевая точка — это точка, после прохождения которой уже не происходит существенного изменения метрики. Не претендуя на строгое определение локтевой точки (которое, видимо, невозможно), мы предлагаем собственный метод ее нахождения. Мы хотим избавиться от человеческого фактора в процессе локализации локтевой точки и исключить те самые «интуицию и опыт исследователя», а наоборот: дать формальный автоматический алгоритм, возвращающий локтевую точку.

Наша идея состоит в том, чтобы осуществить ансаблирование одномерной линейной регрессионной модели путем разбиения промежутка изменения предиктора метрики силуэта на два интервала (см. [5], [6]). Напомним, что оценка линейной регрессионной модели проводится при помощи коэффициента детерминации К2 = 1 - 8*/Б', где:

1.Б* — сумма квадратов отклонений прогнозируемых значений целевой функции от ее истинных значений,

2.Б' — сумма квадратов отклонений истинных значений целевой функции от ее среднего значения.

Если разбить промежуток изменения предиктора на два участка, построить на каждом из них линейную

модель и вычислить совокупный коэффициент детерминации для ансамбля из двух моделей, то суммарное отклонение в знаменателе останется точно таким же, но суммарное отклонение в числителе станет меньше (см. рис. 2).

Рис. 2. Линейная модель и ансамбль из двух линейных моделей

Это приводит к повышению коэффициента детерминации (см. [6]).

Теперь, если выполнить цикл по одномерной сетке, разбивающей промежуток изменения предиктора, получим список коэффициентов детерминации возникающих при этом ансамблей, среди которых окажется какой-то максимальный элемент. Индекс этого элемента списка мы и примем в качестве абсциссы локтевой точки.

Подробное описание алгоритма функции, определяющей локтевую точку, выходит за рамки настоящей статьи, которая посвящена не локтевым точкам, а кластеризации БББСАК, поэтому мы ограничимся лишь указанием ее основных характеристик:

1.имя функции — Ы(!_рот^

2. аргументы функции — пара одномерных массивов А, Б, обладающих равной длиной, причем, первый массив содержит значения горизонтальной переменной, а второй — вертикальной;

29

3.в теле функции реализован алгоритм, основанный на изложенной выше идее ансаблирования линейной регрессионной модели для метрики силуэта;

4.функция возвращает номер элемента массива A, в котором фиксируется локтевое значение массива B. 3. Алгоритм

3.1. Генерация синтетических данных. Для реализации нашего алгоритма настройки кластеризации DBCSAN мы используем синтетические данные. Мы импортируем модуль datasets библиотеки sklearn, после чего нам становится доступен метод make_blobs, при помощи которого мы генерируем двумерные данные. На старте алгоритма мы создаем облако из 500 точек и записываем его в двумерный массив X.

3.2. Двумерная сетка метрики силуэта на параметрах eps и min_samples. Сетка для вложенного цикла должна учитывать специфику параметров eps и min_samples. Параметр eps задает радиус, внутри которого рассчитывается плотность облака, то есть по своей природе это непрерывный параметр, мы будем варьировать его в пределах от 0.1 (так как нулевой радиус не имеет смысла) до 2 с шагом 0.1. Для задания сетки по параметру eps мы применяем метод arange библиотеки numpy:

eps_grid = np.arange(0.1, 2, 0.1). Второй параметр min_samples задает количество объектов, то есть по своей природе является натуральным числом, и мы варьируем его в пределах от 1 (но не от 0) до 15 с шагом 1. Для задания сетки по параметру eps мы также применяем метод arange библиотеки numpy: min_samples_grid = np.arange(1, 15, 1)

3.3. Таблица метрик. Мы будем обучать модель кластеризации DBCSAN для каждой пары значений параметров eps и min_samples и вычислять соответствующую этим значениям величину метрики silhouette_score. Таким образом, все возможные значения метрики силуэта, которые возникнут по результатам вложенного цикла по сетке, естественным образом заполнят таблицу с двумя входами: столбцы таблицы будут нумероваться значениями eps, а строки — значениями min_samples.

В начале работы алгоритма, еще до исполнения цикла по сетке мы вызываем метод DataFrame библиотеки pandas, передаем ему в качестве значения параметра columns значение переменной eps_grid, а в качестве значения параметра index — значение переменной min_samples_grid. Результат записываем в переменную result: result = pd.DataFrame(columns=eps_grid, index=min_samples_grid)

Таким образом, в начале алгоритма мы имеем датафрейм result, который полностью заполнен значениями NaN. Далее, для сокращения кода, а также для того, чтобы подчеркнуть табличную природу элементов сетки, вводим две переменные:

cols = result.columns ind = result.index

Это два массива, по элементам которых и будет осуществляться вложенный цикл.

3.4. Вложенный цикл по параметрам eps и min_samples

3.4.1. Стартовая итерация. Присваиваем параметрам eps и min_samples стартовые значения массивов cols и ind и, при помощи метода DBCSAN из модуля clusters библиотеки sklearn получаем модель кластеризации clust:

clust = DBSCAN(eps=cols[0], min_samples=ind[0])

Обучаем модель на массиве X при помощи метода fit и выводим метки кластеров в список labels при помощи метода labels_:

clust.fit(X) labels = clust.labels_

Далее нам нужно учесть ограничения метрики силуэта. Дело в том, что ее невозможно вычислить, если по результатам кластеризации с данными значениями параметров возникли следующие ситуации:

1. все объекты оказались объединены в единственный кластер (в этом случае отсутствует межкластерное

различие),

2. каждый объект оказался выделен в самостоятельный кластер (в этом случае отсутствует внутрикла-стерное сходство).

Поэтому для бесперебойной работы цикла при заполнении таблицы result должно выполняться условие: число получившихся кластеров больше 1 и меньше числа объектов в массиве X. Так как число кластеров — это число уникальных элементов в списке labels, мы применяем условный оператор if к следующему логическому выражению:

if (len(set(labels)) > 1) and (len(set(labels)) < len(X))

Если это условие выполняется, то в датафрейм result на место, расположенное в столбце с именем cols[0] и строке с индексом ind[0] записываем метрику силуэта, вычисленную при данных значениях параметров eps и min_smples. Для этого применяем метод silhouette_score из модуля metrics библиотеки sklearn к паре (X, labels) и выполняем присваивание:

result[cols[0]][ind[0]] = silhouette_score(X, labels)

Напомним, что изначально датафрейм result заполнен значениями NaN. Поэтому, если условие присваивания не выполняется, то на соответствующей позиции остается NaN, если же оно выполняется, позиция заполняется значением метрики силуэта.

3.4.2. Внутренний цикл по min_samples. Переходим к следующему значению массива ind и повторяем шаг 3.4.1 до исчерпания всех элементов массива. В результате в датафрейме result получаем заполненный первый столбец (за исключением тех позиций, для которых условие вычисления метрики силуэта оказалось невыполненным).

3.4.3. Внешний цикл по eps. Переходим к следующему значению массива cols и повторяем шаги 3.4.13.4.2 до исчерпания всех элементов массива. В результате получаем заполненный датафрейм result (за исключением тех позиций, для которых условие вычисления метрики силуэта оказалось невыполненным).

3.5. Редукция таблицы результатов. Итак, на этом шаге мы имеет таблицу result, заполненную метриками силуэта, вычисленными для различных значений параметров eps и min_samples. Но некоторые позиции этой таблицы могут быть не заполнены в силу указанных выше причин. Мы удаляем из таблицы result все столбцы, в которых встречается хотя бы одно значение NaN. Для этого мы транспонируем датафрейм result, применяем метод dropna из библиотеки pandas и снова транспонируем то, что получилось:

result = result.T.dropna().T

Теперь в таблице result заполнены все поля, хотя количество столбцов в ней, скорее всего, уменьшилось. 3.6. Лучшая строка в таблице результатов. Визуально строки таблицы result представляют собой семейство кривых, где по горизонтали откладывается параметр eps (при фиксированном значении параметра min_smples), а по вертикали — значение метрики силуэта (см. рис. 3(a)).

Если усреднить значения каждой такой кривой по всем возможным значениям горизонтальной переменной, то получится семейство горизонтальных линий, среди которых какая-то одна линия окажется самой верхней. Это будет означать, что соответствующая кривая по совокупности всех возможных значений горизонтальной переменной демонстрирует наилучший результат (см. рис. 3(b)), в качестве которого в данном исследовании мы используем метрику силуэта.

На этом шаге мы составляем список средних значений по всем кривым, описывающим поведение метрики силуэта в зависимости от параметра eps. Для этого транспонируем датафрейм result, применяем к транспонированному датафрейму метод mean билиотеки pandas, а полученную серию переводим в список при помощи метода list. Получаем список усредненных значений метрики силуэта, отвечающий всем фиксированным значениям параметра min_samples:

min_samples_means_list = list(result.T.mean())

Затем к списку min_samples_means_list применяем метод index и получаем индекс максимального элемента этого списка, который записываем в переменную min_samples_best:

min_samples_best = min_samples_means_list.index(max(min_samples_means_list))

0.5

о.о

-0.5

¡Г/ / /

0.5

о.о -

-0.5 -

0.5 1.0 1.5 0.5

Рис. 3. Семейство кривых и лучшая кривая

На рисунке 3(b) изображена кривая, которая получается извлечением из таблицы result строки с индексом min_samples_best.

3.7. Локтевая точка на лучшей кривой. Мы уже отмечали (см. п. 2) что наилучшая кластеризация не всегда соответствует лучшей метрике силуэта, и что для определения оптимальных параметров кластеризации нужно использовать локтевое значение метрики (см. рис. 5(b)).

0.5 -

0.0

-0.5 -

i ¡

/

0.5 -

0.0 -

-0.5 -

t

i¡ J

/ /

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0.5 1,0 1.5 0.5 1.0

Рис. 5. Лучшая кривая и локтевая точка на лучшей кривой

1.5

На этом шаге мы применяем определенную выше (см. п. 2) функцию 1хМ_рот1 Создаем массив предиктора:

А = np.array(resu1t.co1umns)

Напомним, что в качестве горизонтальной переменной выступает параметр eps, то есть, массив А — это значения горизонтальной переменной для лучшей кривой метрики силуэта (см. рис. 5(Ь)). Далее, создаем массив функции, анализируемой на предмет локтевой точки:

Б = resu1t.i1oc[min_samp1es_best].to_numpy()

Массив Б — это лучшая строка в таблице результатов, переведенная в формат массива numpy при помощи метода to_numpy. Визуализация массивов А и Б дает изображение лучшей кривой из семейства кривых метрики силуэта (см. рис. 5(Ь)).

После этого применяем функцию fo1d_point к паре массивов А и Б. Получаем номер предиктора, при котором наблюдается локтевое значение метрики, и записываем его в переменную йМ_ш!: = fo1d_point(A, Б)

3.8. Оптимальные параметры кластеризации. Выше, на шаге 3.6, мы получили лучшее значение для параметра min_samp1es и записали его в переменную min_samp1e_best. Теперь, пользуясь найденным номером локтевой точки, мы находим оптимальное значение параметра eps и записываем его в переменную eps_best:

eps_best = resu1t.co1umns[fo1d_ind]

3.9. Кластеризация с оптимальными параметрами. Выяснив, при каких значениях параметров eps и min_samp1es кластеризация БББСАК дает приемлемые в смысле метода локтя результаты, проводим кластеризацию исходного множества X с найденными значениями параметров:

c1ust = DBSCAN(eps=eps_best, min_samp1es=min_samp1es_best)

c1ust.fit(X)

4. Результаты. Одной из интересных особенностей кластеризации БББСЛК является то, что точки, которые с ее точки зрения не могут принадлежать никакому кластеру, выделяются в отдельный набор точек: в набор выбросов. Мы провели множественные эксперименты на синтетических данных и обнаружили, что доля выбросов в кластеризации БББСЛК связана с формой кривой метрики силуэта, соотнесенной с радиусом кластеризации (то есть, с величиной параметра ер8).

4.1. Четкое разбиение. Если кривая метрики силуэта, соотнесенной с радиусом кластеризации, обладает ярко выраженной локтевой точкой, то, как правило, определенные нашим алгоритмом оптимальные значения параметров ер8=ер8_Ъе81 и шт_8ашр1е8=шт_8ашр1е8_Ъе81 дают четкое разбиение на кластеры с незначительной долей выбросов (см. рис. 6).

0.5 -

0.0 -

Рис. 6. Локтевая точка ярко выражена, количество выбросов (черные точки) невелико

Это явление наблюдается не всегда, то есть, локтевая точка может быть выраженной ярко, но, тем не менее, разбиение на кластеры будет нечетким. Однако такая ситуация встречается не часто, и в случае ярко выраженной локтевой точки характерным является именно четкое разбиение, проиллюстрированное рисунком 6.

4.2. Разбиение с высокой долей шума. Ели же локтевая точка на кривой метрики силуэта, соотнесенной с радиусом кластеризации, выражена неярко, то, как правило, после проведения кластеризации с найденными значениями параметров ер8=ер8_Ъе81 и шт_8ашр1е8=шт_8ашр1е8_Ъе81 получается нечеткое разбиение с большой долей выбросов (см. рис. 7).

0.2 0.0 -0.2

..У

/ / w

- -

1.2

1.4

1.6 1.8

Рис. 7. Локтевая точка не выражена, количество выбросов сопоставимо с объемом облака

5. Выводы. Итак, есть ручная настройка параметров кластеризации ББСБЛЫ, основанная на визуальном анализе кривой метрики силуэта, и есть автоматическая настройка, основанная на модельном подходе к определению локтевой точки (см. п. 2).

Вне всяких сомнений, ручная настройка точнее отражает специфику данных и дает исследователю возможность выполнить кластеризацию, отталкиваясь от природы данных и особенностей задач, решаемых за счет кластеризации. Однако предложенная нами автоматическая настройка обладает как минимум двумя преимуществами:

1. она выполняется без участия аналитика, что, безусловно, играет решающую роль в ситуациях, когда кластеризация должна осуществляться многократно и/или в режиме реального времени

2. она не допускает грубых ошибок, то есть, предлагая, возможно, не самый лучший вариант кластеризации, она никогда не предлагает неприемлемых вариантов.

В целом, изложенный в настоящей статье алгоритм автоматической настройки параметров кластеризации БББСЛК продемонстрировал хорошие результаты и может быть рекомендован как один из рабочих инструментов анализа данных.

Список литературы

1. Хейдт М. Изучаем Pandas. М.: ДМК Пресс, 2018. 438 с.

2. Бурков А. Машинное обучение без лишних слов. СПб: Питер, 2020. 192 с.

3. Вьюгин В.В. Математические основы теории машинного обучения и прогнозирования. М.: МЦИМО. 2013. 387 с.

4. Бринк Х., Ричардс Дж., Феверолф М. Машинное обучение. СПб.: Питер, 2017. 336 с.

5. Мосин В.Г., Караваев А.В. О некоторых проблемах моделирования измеряемых социально-психологических переменных. Математическое образование в современном мире: теория и практика: сборник статей // Самарский государственный технический университет. Всероссийская научно-методическая конференция с международным участием (28-30 ноября 2022 г; Самара); ред. О. В. Юсупова. Самара, 2022. 175 с.

6. Мосин В.Г. Линеаризация целевой функции в регрессионных задачах методом сингулярных разложений // Математическое моделирование. Тезисы II Международной конференции. Москва, 2021. С. 66-67.

Мосин Владимир Геннадьевич, канд. физ.-мат. наук, [email protected], Россия, Самара, Самарский государственный технический университет,

Козловский Владимир Николаевич, д-р техн. наук, профессор, заведующий кафедрой, [email protected], Россия, Самара, Самарский государственный технический университет,

32

Васин Сергей Александрович, д-р. техн. наук, профессор, [email protected]. Россия, Тула, Тульский государственный университет,

Стрелков Глеб Сергеевич, аспирант, strelkova.zvalley@mail. ru. Россия, Тольятти, Поволжский государственный университет сервиса

MONITORING DATA ON THE PERFORMANCE OF MANAGEMENT SYSTEM PROCESSES. CONFIGURING DBSCAN CLUSTERING PARAMETERS BY SUITABLE SILHOUETTE METRIC VALUES

V.G. Mosin, V.N. Kozlovsky, S. A. Vasin, G. S. Strelkov

This article discusses a method for automatically adjusting DBSCAN clustering parameters, based on the author's algorithm for determining the ulnar point of the silhouette metric. The tuning algorithm and its applications to synthetic data sets are outlined.

Key words: data analysis, clustering, DBSCAN, machine learning metrics, silhouette metric, scikit-learn, pandas,

numpy.

Mosin Vladimir Gennadievich, candidate of physical and mathematical sciences, docent, yanbacha@yandex. ru, Russia, Samara, Samara State Technical University,

Kozlovsky Vladimir Nikolaevich, doctor of technical sciences, professor, head of the department, [email protected], Russia, Samara, Samara State Technical University,

Vasin Sergey Alexandrovich, doctor of technical sciences, professor, vasin_sa53@mail. ru, Russia, Tula, Tula State University,

Strelkov Gleb Sergeevich, postgraduate, [email protected], Russia, Tolyatti, Volga State University of

Service

УДК 006.015.5

DOI: 10.24412/2071-6168-2024-4-33-34

ОБЕСПЕЧЕНИЕ КАЧЕСТВА АДДИТИВНОГО ПРОИЗВОДСТВА ПОСРЕДСТВОМ МОДЕЛИРОВАНИЯ

ПРОЦЕССОВ ПЕЧАТИ

А.В. Чабаненко

В современном мире аддитивное производство, играет ключевую роль в множестве отраслей. Аддитивные технологии дают беспрецедентную гибкость в дизайне и производстве, но также ставит перед инженерами и исследователями новые вызовы в обеспечении и поддержании высокого качества производимых изделий. Основным инструментом в решении этих задач является моделирование процессов печати. Эта статья фокусируется на различных аспектах и методах моделирования, используемых для предсказания и оптимизации качества изделий, произведенных с помощью аддитивных технологий. В свете этих вызовов моделирование процессов аддитивного производства становится неотъемлемой частью разработки и оптимизации технологий печати. Использование передовых компьютерных моделей и симуляций позволяет инженерам и исследователям глубоко понимать влияние каждого аспекта процесса печати на конечное изделие. От точности позиционирования печатающей головки до термического управления процессом - все эти факторы могут быть тщательно изучены и оптимизированы с помощью компьютерного моделирования. Анализируя последние исследования и разработки в этой области, мы стремимся показать, как моделирование процессов печати способствует повышению качества и надежности аддитивного производства, открывая новые горизонты для его применения в различных сферах промышленности и науки.

Ключевые слова: качество, 3D-печать, моделирование процесса, стандартизация, CAD, FDM, контроль качества, аддитивные технологии.

В России активно развивается сфера аддитивного производства, что подтверждается новыми инициативами и стандартами в этой области. С 1 декабря 2023 года вступили в силу четыре новых национальных стандарта в области 3D-печати, разработанные Росатомом. Эти стандарты отражают стремление России к созданию унифицированной и эффективной системы качества в сфере аддитивных технологий.

Важным аспектом развития аддитивных технологий в России является взаимодействие с государственными органами и получение поддержки на федеральном и региональном уровнях. Представляется, что для успешного внедрения и развития этой технологии необходимо не только совершенствование нормативной базы, но и активное участие специалистов, обладающих практическим опытом в данной сфере.

Таким образом, новая нормативная база аддитивного производства в России, в сочетании с активной подготовкой специалистов и поддержкой со стороны государственных органов, создает основу для дальнейшего развития и интеграции этих технологий в различные отрасли экономики страны [1].

Нормативная база играет важную роль в обеспечении качества процессов аддитивного производства по нескольким ключевым аспектам:

i Надоели баннеры? Вы всегда можете отключить рекламу.