УДК 629.7.064.5
ПРОБЛЕМА ТОЧНОСТИ ДАННЫХ ЭЛЕКТРОННОЙ КОМПОНЕНТНОЙ БАЗЫ КОСМИЧЕСКОГО ПРИМЕНЕНИЯ И ЕЁ РЕШЕНИЕ
А. Д. Попов, И. И. Коротецкая, Е. А. Лаврентьева Научный руководитель - А. А. Ступина
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Зачастую качество электронной компонентной базы не удовлетворяет стандартам качества. При изготовлении любой электронной схемы нужно использовать электрорадиоизделия со схожими характеристиками. Одним из видов повышения качества элементной базы является проверка отечественных партий на однородность и выделение групп элементов с идентичными характеристиками из сборных партий импортного производства. Рассматривается решение задачи неточности данных электронной компонентной базы. В качестве методов классификации рассматриваются классический метод k-средних с квадратичной евклидовой нормой расстояния, k-средних в евклидовой метрике, прямоугольной, и k-медоид (k-medoids).
Ключевые слова: космическая отрасль, точность данных, классификация, отбраковка, электрорадиоизделия, k-средних, k-медоид, алгоритм, кластер, набор параметров.
THE PROBLEM OF DATA ACCURACY OF SPACE USED ELECTRONIC COMPONENTS BASE AND ITS SOLUTION
A. D. Popov, I. I. Koroteckay, E. A. Lavrent'eva Scientific supervisor - A. A. Stupina
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation
E-mail: [email protected]
Often, the quality of electronic components base, does not meet quality standards. In the manufacture of any electronic circuit, it is needed to use electrical radio products with similar characteristics. One kind of improvement of quality of the element base is checking of the local parties on the uniformity and isolation of groups of elements with identical characteristics from consolidated shipments imported. In this paper we consider the solution of the data inaccuracy problem of electronic components base. As the methods of classification here are considered classic k-means with quadratic Euclidean distance norm, k-means in the Euclidean metric, rectangular, and k-medoid.
Keywords: space industry, the accuracy of data, classification, rejection, electrical, k-averages, k-medoid algorithm, cluster, a set of parameters.
В космической отрасли к электронным компонентам предъявляются очень высокие требования. Поэтому, принадлежность изделий к различным производственным партиям определяется по расхождениям совокупности измерений, которые практически не превышают точность измерений [1].
Таким образом, результаты измерений представляют собой дискретные значения, шаг изменения которых определяется точностью измерительного прибора. Точность измерения составляет 6 и 4 знаков после запятой. Центр кластера представляет собой реальное или смоделированное изделие с «идеальными» для данной партии параметрами. Но точность более 7 и 4 знаков после запятой невозможна из-за отсутствия соответствующих измерительных приборов. Кроме того, отнесение изделия к той или иной партии осуществляется по результатам расчета квадратичного евклидова расстояния в нормированном пространстве измерений, в то время как специалисту более понятен диапазон колебания значений параметра в пределах партии [2].
Секция «Математические методы моделирования, управления и анализа данных»
Использование классического метода k-средних с квадратичной евклидовой нормой расстояния имеет неоспоримое преимущество: при использовании квадратичной евклидовой метрики определение центра кластера представляет собой простейшую задачу, решаемую за один шаг - определяется среднее значение каждой координаты векторов данных, входящих в кластер, полученные значения являются координатами центра кластера [2].
Если центр /-го кластера X] = (хгд, ..., xi,d) - вектор в d-мерном пространстве, и векторы данных Aj = (аг1, ..., aj,d), j = 1,n соответственно, также имеют d измерений, то новый центр определяется так [10]:
x[k = У с , k=i7d. (i)
y<=-C,lC>l
Задача с евклидовой метрикой более сложная. В этом случае центр кластера представляет собой решение задачи Вебера [2; 3], определяемое с помощью итеративной процедуры Вайсфелда [3] или ее модификаций. Процедура представляет собой алгоритм градиентного спуска [4] и дает приближенное решение задачи.
Использование перечисленных метрик имеет существенный недостаток с точки зрения интерпретируемости результатов [6].
Выходом из этой ситуации является либо применение прямоугольной метрики или использование метода k-медоид (k-medoids) [5] вместо k-средних.
При использовании метода k-медоид вычисляется не центр кластера, а его медоид - вектор данных, принадлежащий кластеру, такой, что суммарное расстояние от этого вектора до других векторов данных в кластере достигает минимума.
Xi = ar g min У llx - yll. (2)
xeXi ~ 1 1
i у^С/
Такой алгоритм определения минимума работает медленно, так как является комбинаторной процедурой и требует полного перебора всех векторов данных кластера в качестве кандидатур потенциального медоида. Существуют методы аппроксимации данного алгоритма [5; 7], неприемлемые в случае, если точность решения особенно важна.
Другой важной особенностью метода k-медоид является неустойчивость его результатов при небольших изменениях в исходных данных. Поэтому, незначительные погрешности измерений могут приводить к сильно различающимся решениям задачи классификации.
Альтернативой является решение задачи k-средних в прямоугольной метрике. Целевая функция при этом выглядит следующим образом [2]:
f t^,.....xk )=i x^ ,iA'- 4. (3)
Рассмотрим ALA-процедуру (Alternating Location-Allocation) - алгоритм локального поиска, ее результаты зависят от выбора начальных центров кластеров. На практике используются следующие варианты запуска ALA-алгоритма:
- многократный запуск из случайно выбранных центров (в качестве центров выбираются векторы данных);
- многократный запуск из центров, выбранных с помощью процедуры k-means++;
- генетические алгоритмы для рекомбинации множеств начальных центров [5].
Генетический алгоритм с агломеративной эвристикой показывает удовлетворительные (по точности и сходимости) результаты [8-10]. Данный алгоритм адаптирован к задачам кластеризации электронных компонентов. Алгоритм позволяет применять любой вариант ALA-алгоритма. Здесь применим ALA-алгоритм с квадратичными евклидовыми расстояниями и прямоугольной метрикой.
При работе ALA-процедуры с прямоугольной метрикой каждая из координат центра кластера определяется как медианное значение данной координаты векторов данных, входящих в кластер.
Алгоритм возвращает значение центра кластера, значение каждой из координат которого совпадает с одним из значений соответствующей координаты векторов данных.
Важно отметить, что значение каждого отдельного параметра обязательно совпадает со значением данного параметра одного из векторов данных (т. е. одного из изделий). Значит, сохраняется точность значения.
Таким образом, использование метода k-медоид и k-средних в прямоугольной метрике, является выходом из ситуации с неудовлетворительной интерпретируемостью результатов.
Резюмируя, можно сказать, что задача классификации по производственным партиям ставится для следующих целей:
- повышение качества электронных узлов через комплектацию электронных компонентов, произведенных в рамках одной производственной партии и имеющих схожие эксплуатационные характеристики;
- продолжение взаимодействия с производителем или поставщиком электронных компонентов в направлении повышения качества поставляемой продукции.
Библиографические ссылки
1. Задача классификации электронной компонентной базы / Л. А. Казаковцев, В. И. Орлов, А. А. Ступина, И. С. Масич // Вестник СибГАУ. 2014. № 4(56). С. 55-61.
2. Sheng W., Liu X. A genetic k-medoids clustering algorithm // J. of Heuristics. 2006. Vol. 12, No. 6. P.447-466.
3. Гимади Э. X. Обоснование априорных оценок качества приближенного решения задачи стандартизации // Управляемые системы : сб. науч. тр. Новосибирск : Ин-т математики СО АН СССР. 1987. Вып. 27. С. 12-27.
4. Надарая Э. А. Об оценке регрессии // ТВиП. 1964. Т. 9, № 1. С. 157-159.
5. Kazakovtsev L. A., Stupina A. A. Fast genetic algorithm with greedy heuristic for p-median and k-means problems // International Congress on Ultra Modern Telecommunications and Control Systems and Workshops 6. Сер. 2014 6th International Congress on Ultra Modern Telecommunications and Control Systems and Workshops, ICUMT 2014. 2015. С. 602-606.
6. Казаковцев Л. А., Ступина А. А., Орлов В. И. Выбор метрики для системы автоматической классификации электрорадиоизделий по производственным партиям // Программные продукты и системы. 2015. № 2(110). С. 124-129.
7. Steinbach M. A comparison of document clustering techniques // KDD Workshop on Text. 2000 [Электронный ресурс]. URL: http://www.cs.cmu.edu/~dunja/KDDpapers/Steinbach_IR.pdf (дата обращения: 09.04.2016).
8. Агеев А. А., Гимади Э. Х., Курочкин А. А. Полиномиальный алгоритм решения задачи размещения на цепи с одинаковыми производственными мощностями предприятий // Дискретный анализ и исследование операций. 2009. Т. 16, № 5. C. 3-18.
9. Kazakovtsev L., Stupina A. Deterministic algorithm with agglomerative heuristic for location problems // IOP Conference Series: Materials Science and Engineering Сер. International Scientific and Research Conference on Topical Issues in Aeronautics and Astronautics. 2015. С. 012016.
10. Bandyopadhyay S., Maulik U. S. An evolutionary technique based on K-Means algorithm for optimal clustering // Information Sciences. 2002. Vol. 146. P. 221-237.
© Попов А. Д., Коротецкая И. И., Лаврентьева Е. А., 2016