Научная статья на тему 'Проблема кластеризации данных электронной компонентной базы космического применения на Python и ее решение'

Проблема кластеризации данных электронной компонентной базы космического применения на Python и ее решение Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
151
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОСМИЧЕСКАЯ ОТРАСЛЬ / ТОЧНОСТЬ ДАННЫХ / КЛАССИФИКАЦИЯ / ОТБРАКОВКА / ЭЛЕКТРОРАДИОИЗДЕЛИЯ / K-СРЕДНИХ / K-МЕДОИД / АЛГОРИТМ / КЛАСТЕР / НАБОР ПАРАМЕТРОВ / SPACE INDUSTRY / THE ACCURACY OF DATA / CLASSIFICATION / REJECTION / ELECTRICAL / K-AVERAGES / K-MEDOID ALGORITHM / CLUSTER / SET OF PARAMETERS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Попов А.Д., Гаспарян А.Н.

При изготовлении любой электронной схемы нужно использовать электрорадиоизделия со схожими характеристиками. Одним из видов повышения качества элементной базы является проверка отечественных партий на однородность и выделение групп элементов с идентичными характеристиками из сборных партий импортного производства. Рассматривается проблема кластеризации данных электронной компонентной базы на языке программирования Python. В качестве методов кластеризации рассматриваются k-средних и k-медоид

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Попов А.Д., Гаспарян А.Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE PROBLEM OF CLUSTERING THE DATA ACCURACY OF SPACE USED ELECTRONIC COMPONENTS BASE ON PYTHON AND ITS SOLUTION

In the manufacture of any electronic circuit, it is needed to use electrical radio products with similar characteristics. One kind of improvement of quality of the element base is checking of the local parties on the uniformity and isolation of groups of elements with identical characteristics from consolidated shipments imported. In this paper we consider the problem of clustering the data of electronic components base on programming language Python.

Текст научной работы на тему «Проблема кластеризации данных электронной компонентной базы космического применения на Python и ее решение»

УДК 629.78.054

ПРОБЛЕМА КЛАСТЕРИЗАЦИИ ДАННЫХ ЭЛЕКТРОННОЙ КОМПОНЕНТНОЙ БАЗЫ КОСМИЧЕСКОГО ПРИМЕНЕНИЯ НА PYTHON И ЕЕ РЕШЕНИЕ

А. Д. Попов, А. Н. Гаспарян Научный руководитель - А. А. Ступина

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: cope12@mail.ru

При изготовлении любой электронной схемы нужно использовать электрорадиоизделия со схожими характеристиками. Одним из видов повышения качества элементной базы является проверка отечественных партий на однородность и выделение групп элементов с идентичными характеристиками из сборных партий импортного производства. Рассматривается проблема кластеризации данных электронной компонентной базы на языке программирования Python. В качестве методов кластеризации рассматриваются k-средних и к-медоид.

Ключевые слова: космическая отрасль, точность данных, классификация, отбраковка, электрорадиоизделия, k-средних, к-медоид, алгоритм, кластер, набор параметров.

THE PROBLEM OF CLUSTERING THE DATA ACCURACY OF SPACE USED ELECTRONIC COMPONENTS BASE ON PYTHON AND ITS SOLUTION

A. D. Popov, A. N. Gasparyan Scientific supervisor - A. A. Stupina

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation

E-mail: cope12@mail.ru

In the manufacture of any electronic circuit, it is needed to use electrical radio products with similar characteristics. One kind of improvement of quality of the element base is checking of the local parties on the uniformity and isolation of groups of elements with identical characteristics from consolidated shipments imported. In this paper we consider the problem of clustering the data of electronic components base on programming language Python.

Keywords: space industry, the accuracy of data, classification, rejection, electrical, k-averages, k-medoid algorithm, cluster, a set of parameters.

В космической отрасли к электронным компонентам предъявляются очень высокие требования [1]. Поэтому, одним из видов повышения качества элементной базы является решение задачи нечеткой кластеризации электрорадиоизделий.

В данной работе были рассмотрены два метода кластеризации данных: k-средних и k-медоид. Данные алгоритмы были реализованы с помощью языка программирования Python в программной среде Python 2.7.10.0 и визуализированы на плоскости с помощью процедуры MDS (Multi - dimensional Scaling - многомерное масштабирование) и средства визуализации GNUPLOT и ELKI. Для проведения эксперимента были взяты результаты отбраковочных испытаний микросхемы 1526ЛЕ2 [1].

В случае задачи k-средних в качестве нового центра выбирается медиана множества, в случае p-медианной задачи новый центр является решением задачи Вебера [2], для чего используется итеративная процедура Вайсфельда [3] или более совершенные ее модификации. Поэтому требуется гораздо больше вычислительных ресурсов.

Секция «Математические методы моделирования, управления и анализа данных»

Рис. 1. Результаты кластеризации алгоритма k-средних

Рис. 2. Результаты кластеризации алгоритма k-медоид

В общем случае непрерывную задачу k-средних можно сформулировать следующим образом:

N

argmin "V min min L(X:,A: |. xb ..! XkeRd 1=1 ^ 1 J ij

Здесь {A1, ..., AN} - множество известных точек - векторов данных в d-мерном пространстве X1, ..., XN - искомые точки (центры кластеров); L (...) - некоторая функция (метрика) расстояния [4; 5].

При использовании метода k-медоид вычисляется не центр кластера, а его медоид, т. е. вектор данных, принадлежащий кластеру, такой, что суммарное расстояние от этого вектора до других векторов данных в кластере достигает минимума.

Такой алгоритм определения минимума работает медленно, так как является комбинаторной процедурой и требует полного перебора всех векторов данных кластера в качестве кандидатур потенциального медоида.

Как видно из рисунков, результатом работы k-средних является разбиения результатов отбраковочных испытаний на 3 кластера. Можно заметить перекрытие между 2 и 3 кластерами. Это вызывает трудности для алгоритма. Алгоритм выполнил задачу кластеризации за 12 минут.

k-медоид выполнил кластеризацию за 20 минут, однако, показал более точно разбиение выборки на 4 кластера.

Одной из проблем кластеризации данных электронных компонентных баз электрорадиоиз-делий космического применения является время кластеризации. Для эксперимента, представленного выше, использовался язык программирования Python 2.7.10.0 и были использованы не полные части электронных компонентных баз. Это говорит о том, что для кластеризации целых компонентных баз необходимо больше времени.

Для решения проблемы скорости кластеризации электронных компонентных баз электро-радиоизделий космического применения необходимо перевести программный аппарат на язык программирования С#.

Библиографические ссылки

1. Масич И. С., Краева Е. М. Отбор закономерностей для построения решающего правила в логических алгоритмах распознавания // Системы управления и информационные технологии. 2013. Т. 51. Вып. 1.1. С. 170-173.

2. Weiszfeld E. Sur le point sur lequel la somme des distances den points donnes est minimum // Tohoku Mathematical Journal. 1937. Vol. 43, No. 1, рp. 335-386.

3. Mishra N., Oblinger D., Pitt L. Sublinear time approximate clustering // 12th SODA. 2001. Рр. 439-447.

4. Казаковцев Л. А., Ступина А. А., Орлов В. И. Выбор метрики для системы автоматической классификации электрорадиоизделий по производственным партиям // Программные продукты и системы. 2015. Вып. 2 (110). С. 124-129.

5. Park H.-S., Jun C.-H. A simple and fast algorithm for K-Medoids clustering // Expert Systems with Applications. 2009. Vol. 36. P. 3336-3341.

© Попов А. Д., Гаспарян А. Н., 2017

i Надоели баннеры? Вы всегда можете отключить рекламу.