Научная статья на тему 'Выбор метрики для системы автоматической классификации электрорадиоизделий по производственным партиям'

Выбор метрики для системы автоматической классификации электрорадиоизделий по производственным партиям Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
377
48
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
k-средних / k-медоид / прямоугольная метрика / кластерный анализ / автоматическая классификация / электронные компоненты / k-means / k-medoid / rectangular metric / cluster analysis / automatic classification / EEE devices

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Л.А. Казаковцев, А.А. Ступина, В.И. Орлов

Комплектация критически важных электронных узлов сложных систем качественной электронной компонентной базой – необходимое условие повышения надежности систем в целом. При этом важно, чтобы однотипные элементы схемы имели одинаковые характеристики, что обеспечивается наилучшим образом, если данные элементы изготовлены в рамках одной производственной партии из одной партии сырья. К различным категориям электронных узлов предъявляются разные требования по количеству используемых в них партий изделий. В настоящей работе задача выявления производственных партий в поставляемой партии изделий по результатам входных тестовых испытаний рассматривается как задача кластерного анализа. В статье обосновывается выбор прямоугольной метрики в задаче k-средних. В работе приведена необходимая при этом модификация используемой процедуры локального поиска. Даны примеры результатов работы системы автоматической классификации электронных компонентов по производственным партиям, решающей задачи кластерного анализа на реальных данных с использованием метода k-средних с квадратичной евклидовой мерой расстояния и с прямоугольной метрикой. В качестве тестовых данных были использованы данные тестовых испытаний партий микросхем. Размерность данных – до 2 500 векторов данных, каждый из которых содержит результаты измерений до 230 параметров. Для визуального представления результатов классификации многомерного массива данных использовался метод многомерного масштабирования (MDS – Multidimensional Scaling).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Л.А. Казаковцев, А.А. Ступина, В.И. Орлов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON DISTANCE METRIC FOR THE SYSTEM OF AUTOMATIC CLASSIFICATION OF THE EEE DEVICES BY PRODUCTION BATCHES

Packaging electronic units of complex technical systems with high quality electronic components is an essential condition of increasing quality of the whole system. Elements of the same type should have equal characteristics, which is achieved if they are produced as one production batch from a one batch of raw materials. Electronic units vary in the requirements concerning the number of production batches of devices. This article considers the problem of discovering the quantity of the production batches in a lot shipped by a supplier of electronic devices based on testing results as a problem of cluster analysis. The authors propose using the rectangular metric in the k-means clustering problem. They also show the necessary modification of a local search procedure. The results of running system of EEE devices automatic classification by production batches are given. Such results are provided for a k-median problem with squared Euclidean and rectangular metrics. Tests data of the electronic chips were used as example data. Data dimension is up to 2500 data vectors, each of them contains the results of measurement that are up to 230 parameters. An MDS method (Multidimensional Scaling) was used for visual representation of the multidimensional vectors classification results.

Текст научной работы на тему «Выбор метрики для системы автоматической классификации электрорадиоизделий по производственным партиям»

Программные продукты и системы /Software & Systems

№ 2 (110), 2015

УДК 519.6 Дата подачи статьи: 12.01.15

DOI: 10.15827/0236-235X.110.124-129

ВЫБОР МЕТРИКИ ДЛЯ СИСТЕМЫ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ЭЛЕКТРОРАДИОИЗДЕЛИЙ ПО ПРОИЗВОДСТВЕННЫМ ПАРТИЯМ

Л.А. Казаковцев, к.т.н., доцент, levk@pk.ru;

А.А. Ступина, д.т.н., профессор, saor_stupina@sibsau.ru (Сибирский государственный аэрокосмический университет им. академика М.Ф. Решетнева, просп. им. газ. «Красноярский рабочий», 31, г. Красноярск,, 660014, Россия);

В.И. Орлов, аспирант, директор, ttc@prasmail.ru (Испытательный технический центр - НПО ПМ, ул. Молодежная, 20, г. Железногорск, 662970, Россия)

Комплектация критически важных электронных узлов сложных систем качественной электронной компонентной базой - необходимое условие повышения надежности систем в целом. При этом важно, чтобы однотипные элементы схемы имели одинаковые характеристики, что обеспечивается наилучшим образом, если данные элементы изготовлены в рамках одной производственной партии из одной партии сырья. К различным категориям электронных узлов предъявляются разные требования по количеству используемых в них партий изделий. В настоящей работе задача выявления производственных партий в поставляемой партии изделий по результатам входных тестовых испытаний рассматривается как задача кластерного анализа. В статье обосновывается выбор прямоугольной метрики в задаче k-средних. В работе приведена необходимая при этом модификация используемой процедуры локального поиска. Даны примеры результатов работы системы автоматической классификации электронных компонентов по производственным партиям, решающей задачи кластерного анализа на реальных данных с использованием метода k-средних с квадратичной евклидовой мерой расстояния и с прямоугольной метрикой. В качестве тестовых данных были использованы данные тестовых испытаний партий микросхем. Размерность данных - до 2 500 векторов данных, каждый из которых содержит результаты измерений до 230 параметров. Для визуального представления результатов классификации многомерного массива данных использовался метод многомерного масштабирования (MDS - Multidimensional Scaling).

Ключевые слова: k-средних, к-медоид, прямоугольная метрика, кластерный анализ, автоматическая классификация, электронные компоненты.

При решении проблемы повышения качества электронной компонентной базы [1, 2] критически важных узлов сложных технических систем одной из важных задач является обеспечение однородности партий применяемых электронных изделий. Классификация электронных компонентов по производственным партиям на основе данных неразрушающих тестовых испытаний дана в [3]. Подход с использованием непараметрических моделей [4] позволяет выполнять отбраковку некачественных изделий единственной производственной партии. В данной работе предлагается использовать метод k-средних (k-means) [5-7] для определения центров каждого из кластеров, представляющих собой предполагаемую производственную партию.

Задача k-средних сводится к минимизации следующей целевой функции при известных векторах данных A1,..., A„.

2

F(Хи ...Xk) = £>inк.^} ||A -|2. (1)

Использование метода k-средних предполагает использование ALA-процедуры (Alternating Location-Allocation - изменяющееся размещение-распределение), суть которой сводится к чередованию двух простых шагов.

Алгоритм 1. ALA-процедура.

Дано: векторы данных A1, ..., Ая, k начальных центров кластеров X1, ., Xk.

1. Для каждого центра Xi определить кластер Ci - подмножество векторов данных, для которых центр Xi является ближайшим.

2. Для каждого кластера Ci переопределить

его центр X,-: Xt =arg min ^ ||x - y||.

X fTc

3. Повторять с шага 1, если хотя бы один кластер изменился на шагах 1, 2.

Использование классического метода k-средних с квадратичной евклидовой мерой расстояния (l\) имеет неоспоримое преимущество: при использовании квадратичной евклидовой меры определение центра кластера представляет собой простейшую задачу, решаемую за один шаг, - определяется среднее значение каждой координаты векторов данных, входящих в кластер, полученные значения являются координатами центра кластера [8].

Если центр i-го кластера Х,=(хк1, ..., xj - вектор в d-мерном пространстве и векторы данных

Aj=(ai1, ..., a-jj), j = 1,n, соответственно, также имеют d измерений, то новый центр определяется так [8]: x'.) =£yeCiy) /|С|.|, 1с = ld.

Более сложной является задача с евклидовой метрикой (/2). В этом случае центр кластера представляет собой решение задачи Вебера [8, 9], определяемое с помощью итеративной процедуры

124

Программные продукты и системы /Software & Systems

№ 2 (110), 2015

Вайсфелда или ее модификаций. Процедура представляет собой алгоритм градиентного спуска [10] и дает приближенное решение задачи.

Надо отметить, что использование вышеперечисленных метрик и мер имеет существенный недостаток с точки зрения интерпретируемости результатов. Задача классификации по производственным партиям ставится с целью как повышения качества электронных узлов путем их комплектации электронными компонентами, произведенными в рамках одной производственной партии и имеющими очень близкие эксплуатационные характеристики, так и дальнейшего взаимодействия с производителем или поставщиком электронных компонентов в направлении повышения качества поставляемой продукции. Если в поставляемой партии обнаружено, что фактически количество производственных партий больше заявленного поставщиком, потребитель электронных компонентов или специализированный испытательный центр должен обосновать отказ в приемке партии изделий.

Требования качества, предъявляемые к электронным компонентам, например в космической отрасли, настолько высоки, что определять принадлежность изделий к одной либо различным производственным партиям приходится по расхождениям (расстояниям) совокупности измерений, едва превышающим точность измерений.

Таким образом, результаты каждого из измерений фактически представляют собой дискретные значения, шаг изменения которых определяется точностью измерительного прибора.

Например, не вдаваясь в физический смысл измеряемых величин, остановимся на некоторых результатах испытаний микросхемы 1526ЛЕ2 по первым семи из 120 измеряемых параметров. В таблице 1 приведены результаты испытаний 14 экземпляров изделий, выбранных из сборной партии из 986 изделий, представляющей собой множество изделий, изготовленных в трех различных производственных партиях.

Как видно из таблицы, значение каждого из измерений колеблется в очень узких пределах.

В частности, для исследуемой сборной партии 7^6(0,001001, 0,001002}, T,e{0,0342, 0,0343,

0,0344, 0,0345, 0,0346, 0,0347, 0,0348, 0,0349}, i = 2,7, |7j| = 2, |T,| = 7. Остальные значения 117 параметров также колеблются в довольно узких пределах. В то же время результат процедуры k-средних (центр кластера) может быть, например, следующим набором значений: ^=0,001001458379, T2=0,03456397208, T3=0,035917650834, ...

Точность измерения параметра Т1 составляет 6 знаков после запятой, параметров T2-T7 - 4 знака. Центр кластера представляет собой реальное или смоделированное изделие с идеальными для данного кластера (то есть партии изделий) параметрами. Но точность более 7 и 4 знаков после запя-

той невозможна из-за отсутствия соответствующих измерительных приборов.

Вследствие этого такой результат кластеризации вызывает недоумение у специалистов. Кроме того, отнесение изделия к тому или иному кластеру (партии) осуществляется по результатам расчета квадратичного евклидова расстояния в нормированном пространстве измерений, в то время как специалисту более понятен диапазон колебания значений параметра в пределах партии.

Возможные методы решения проблемы

Выходом в данной ситуации является применение либо прямоугольной метрики (также именуется манхэттенской метрикой /1), либо метода k-медоид (k-medoids) [11, 12] вместо k-средних.

При использовании метода k-медоид на шаге 2 ALA-процедуры вычисляется не центр кластера, а его медоид - вектор данных, принадлежащий кластеру, такой, что суммарное расстояние от этого вектора до других векторов данных в кластере достигает минимума: X\ = argmin ^ |\х - у||.

x6X, y£Cl

Такой алгоритм определения минимума достаточно медленно работает, поскольку является комбинаторной процедурой и требует полного перебора всех векторов данных кластера в качестве кандидатур потенциального медоида. Существуют методы аппроксимации данного алгоритма [1315], неприемлемые в случае, если точность решения особенно важна.

Альтернативой является решение задачи k-средних в прямоугольной метрике. Целевая функция при этом [8] выглядит следующим обра-

n

зом: F (xi>-> Xd=kk №~ i. (2)

x6ix1,...,xk)

При работе ALA-процедуры с прямоугольной метрикой каждая из координат центра кластера определяется независимо как медианное значение данной координаты векторов данных, входящих в кластер. Процедуру можно описать следующим образом.

Алгоритм 2. Определение центра i-го кластера (медианы) в метрике l1.

1. Для каждого k = 1, d:

1.1. Отсортировать векторыAt =(aj1, ..., aj,d)eCi по значению k-й координаты, получить последовательность значений a\k,..., a'^k. Здесь \c\ -

мощность множества (кластера).

1.2. Рассчитать

Присвоить

x\k = a'mk. Здесь квадратными скобками обозначена целая часть числа.

1.3. Повторять цикл 1.

2. Возвраг X \ =(х ^д,..., х 'id ).

125

Программные продукты и системы /Software & Systems

№ 2 (110), 2015

Таблица 1

Исходные данные измерений параметров микросхемы

Table 1

Source data of chip parameters measurement

№ партии Параметр

Т, Т. Тз Т4 Т5 Тб Т7

1 0,001001 0,0343 0,0343 -0,0343 -0,0343 -0,0342 -0,0343

1 0,001001 0,0343 0,0343 -0,0343 -0,0342 -0,0343 -0,0343

1 0,001001 0,0343 0,0342 -0,0343 -0,0343 -0,0342 -0,0342

2 0,001001 0,0345 0,0345 -0,0345 -0,0345 -0,0345 -0,0345

2 0,001001 0,0345 0,0345 -0,0345 -0,0346 -0,0345 -0,0345

2 0,001001 0,0345 0,0345 -0,0345 -0,0345 -0,0345 -0,0345

2 0,001001 0,0344 0,0344 -0,0344 -0,0344 -0,0343 -0,0344

2 0,001001 0,0346 0,0346 -0,0346 -0,0346 -0,0346 -0,0346

3 0,001001 0,0346 0,0347 -0,0347 -0,0347 -0,0347 -0,0347

3 0,001001 0,0347 0,0347 -0,0347 -0,0348 -0,0347 -0,0347

3 0,001002 0,0347 0,0346 -0,0347 -0,0347 -0,0346 -0,0347

3 0,001002 0,0347 0,0347 -0,0347 -0,0347 -0,0347 -0,0347

3 0,001002 0,0346 0,0346 -0,0346 -0,0346 -0,0346 -0,0346

3 0,001002 0,0349 0,0349 -0,0349 -0,0349 -0,0349 -0,0349

Таблица 2

Центры кластеров в прямоугольной метрике

Table 2

Cluster centers in a rectangular metric

№ кластера Параметр

(партии) Т, Т. Тз Т4 Т5 Тб Т7

1 0,001001 -0,0343 -0,0343 -0,0343 -0,0343 -0,0342 -0,0343

2 0,001001 -0,0345 -0,0345 -0,0345 -0,0345 -0,0345 -0,0345

3 0,001001 -0,0347 -0,0347 -0,0347 -0,0347 -0,0347 -0,0347

Этот алгоритм возвращает значение центра кластера, значение каждой из координат которого совпадает с одним из значений соответствующей координаты векторов данных.

Например, результат кластеризации выборки, часть которой представлена в таблице 1, на три кластера, выглядит в соответствии с таблицей 2.

В таблице в качестве примера приведены значения первых семи измеряемых параметров.

Следует отметить, что набор параметров (значения координат) центра кластера необязательно полностью совпадает с параметрами одного из векторов данных, но значение каждого отдельного параметра обязательно

совпадает со значением данного параметра одного из векторов данных (то есть одного из изделий). Соответственно, сохраняется точность значения.

ALA-процедура является алгоритмом локального поиска, ее результаты зависят от выбора начальных центров кластеров. На практике используются следующие варианты запуска ALA-алгоритма:

- многократный запуск из случайно выбранных центров (в качестве центров выбираются векторы данных);

- многократный запуск из центров, выбранных с помощью процедуры k-means++ [16];

- генетические алгоритмы [17, 18] для рекомбинации множеств начальных центров.

Хорошие (по точности и сходимости) результаты показывает генетический алгоритм с жадной эвристикой [19-21]. Данный алгоритм адаптирован к задачам кластеризации электронных компонентов [3]. Алгоритм позволяет применять любой вариант ALA-алгоритма. Здесь мы применим ALA-алгоритм с квадратичной евклидовой мерой и прямоугольной метрикой.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Результаты работы системы классификации с использованием реальных данных

Сравним результаты разбиения партии микросхем 1526ЛЕ2 на 3 предполагаемые производст-

венные партии (3 кластера) с использованием стандартной процедуры k-средних с квадратичной евклидовой метрикой и процедуры с прямоугольной метрикой.

Количество предполагаемых производственных партий будем определять по резкому изменению полученного значения целевой функции (1) или (2) в зависимости от выбранного числа кластеров.

Результаты разбиения на 3 кластера представлены на рисунке 1. Для визуализации кластеров на плоскости использованы процедура MDS (Multidimensional Scaling - многомерное масштабирование) [22, 23] и пакеты программ GNUPLOT и ELKI [24].

Изменение значения целевой функции в двух рассматриваемых метриках показано на рисунке 2.

Как видно из рисунков, обе процедуры дают приблизительно одинаковое разбиение на кластеры. Значения целевой функции также незначительно меняются при переходе от разбиения на 3 кластера к разбиению на 4 кластера и более, что позволяет сделать вывод о наличии 3 производственных партий изделий в сборной партии [3]. В то же время результат процедуры с прямоугольной метрикой дает усредненные значения параметров в каждом кластере, совпадающие со значением соответствующего параметра одного из реальных

126

Программные продукты и системы /Software & Systems

№ 2 (110), 2015

Рис. 1. Визуализация кластеров в различных метриках Fig. 1. Cluster visualization in different metrics

Рис. 2. Зависимость целевой функции от числа кластеров Fig. 2. A dependence of objective function from the number of clusters

изделий. На работу каждого алгоритма отводилась 1 минута.

Аналогичные результаты были получены для партий других изделий (до 2 511 единиц в партии). При этом количество измерений параметров, используемых при классификации, варьировалось от 16 (диоды) до 230 (большие микросхемы).

В заключение отметим, что применение прямоугольной метрики в задаче классификации электронных компонентов по производственным партиям позволяет получать результаты, аналогичные результатам классической процедуры k-средних. В то же время результаты процедуры кластеризации с применением прямоугольной

127

Программные продукты и системы /Software & Systems

№ 2 (110), 2015

метрики легко интерпретируются, поскольку полученный результат имеет ту же точность, что и исходные данные тестовых испытаний, используемые при классификации.

Литература

1. Коплярова Н.В., Орлов В.И., Сергеева Н.А., Федосов В.В. О непараметрических моделях в задачах диагностики электрорадиоизделий // Заводская лаборатория. Диагностика материалов. 2014. № 80 (7). С. 73-77.

2. Коплярова Н.В., Орлов В.И. Об исследовании компьютерной системы диагностики электрорадиоизделий на основе данных испытаний // Вестн. СибГАУ. 2014. № 1 (53). С. 24-30.

3. Казаковцев Л.А., Орлов В.И., Ступина А.А., Ма-сич И.С. Задача классификации электронной компонентной базы // Вестн. СибГАУ. 2014. № 4 (56). С. 55-61.

4. Коплярова Н.В., Сергеева Н.А. О непараметрических алгоритмах идентификации нелинейных динамических систем // Вестн. СибГАУ. 2012. № 5 (45). С. 39-45.

5. Ackermann M.R. et al. StreamKM: A Clustering Algo-

rithm for Data Streams. J. Exp. Algorithmics, 2012, 17, Article 2.4 published online. URL: http://epubs.siam.org/doi/pdl/10.1137/

1.9781611972900.16 (accessed 11.01.2015); DOI: 10.1145/

2133803.2184450.

6. Kanungo T., Mount D., Netanyahux N., Piatko C., Silverman R., Wu A. A Local Search Approximation Algorithm for k-Means Clustering. Computational Geometry, 2004, no. 28, pp. 89-112.

7. Kazakovtsev L.A., Stupina A.A. Fast Genetic Algorithm with Greedy Heuristic for p-Median and k-Means Problems. IEEE 2014 6th Intern. Congress on Ultra Modern Telecommunications and Control Systems and Workshops (ICUMT), 6-8 October 2014, St.-Petersburg, 2014, pp. 602-606.

8. Farahani R.Z., Hekmatfar M. (eds). Facility Location Concepts, Models, Algorithms and Case Studies. Springer-Verlag, Berlin Heidelberg, 2009, 550 p.

9. Weiszfeld E. Sur le point sur lequel la somme des distances de n points donnes est minimum. Tohoku Math. Journ., 1937, no. 43 (1), pp. 335-386.

10. Максимов Ю.А., Филлиповская Е.А. Алгоритмы решения задач нелинейного программирования: учеб. пособие. М.: Изд-во МИФИ, 1982. 52 с.

11. Park H.-S., Jun C.-H. A simple and fast algorithm for

K-Medoids clustering. Expert Systems with Applications, 2009, no. 36, pp. 3336-3341.

12. Kaufman L., Rousseeuw P.J. Finding groups in data: an introduction to cluster analysis, NY, Wiley Publ., 1990, 368 p.

13. Laucasius C.B., Dane A.D., Kateman G. On k-medoid clustering of large data sets with the aid of Genetic Algorithm: background, feasibility and comparison. Analytica Chimica Acta, 1993, no. 283 (3), pp. 647-669.

14. Zhang Q., Couloigner I. A new and efficient algorithm forr spatial clustering. ICSSA 2005, Singapore, May 9-12, 2005, pp. 181-189.

15. Sheng W., Liu X. A genetic k-medoids clustering algorithm. Journ. of Heuristics, 2006, vol. 12, no. 6, pp. 447-466.

16. Arthur D., Vassilvitskii S. k-Means++: The Advantages of Careful Seeding. Proc. of the Eighteenth Annual ACM-SIAM Symposium on Discrete algorithms, ser. SODA'07, 2007, pp. 1027-1035.

17. Панфилов И.А., Базанова Е.П., Сопов Е.А. Исследование эффективности работы генетического алгоритма оптимизации с альтернативным представлением решений // Вестн. СибГАУ. 2013. № 4 (50). C. 68-71.

18. Vorozheikin A.Yu., Gonchar T.N., Panfilov I.A., So-pov E.A., Sopov S.A. A modified probabilistic genetic algorithm for the solution of complex constrained optimization problems. Vestnik SibGAU, 2009, no. 5, pp. 31-35.

19. Alp O., Erkut E., Drezner Z. An Efficient Genetic Algorithm for the p-Median Problem. Annals of Operations Research, 2003, no. 122 (1-4), pp. 21-42.

20. Kazakovtsev L.A., Antamoshkin A.N. Genetic algorithm with fast greedy heuristic for clustering and location problems. Informatica (Ljubljana), 2014, vol. 38, iss. 3, pp. 229-240.

21. Neema M.N., Maniruzzaman K.M., Ohgai A. New Genetic Algorithms Based Approaches to Continuous p-Median Problem. Netw. Spat. Econ., 2011, vol. 11, pp. 83-99, DOI:10.1007/s11067-008-9084-5.

22. Sun Zh., Fox G., Gu W., Li Zh. A Parallel Clustering Method Combined Information Bottleneck Theory and Centroid Based Clustering. The Journ. of Supercomputing, 2014, no. 69 (1), pp. 452-467. DOI: 10.1007/s11227-014-1174-1.

23. Borg J.F.P. Modern Multidimensional Scaling: Theory and Applications. Springer, 2005, pp. 207-212.

24. Kriegel H.P., Kroeger K.P., Zimek A. Outlier Detection Techniques (Tutorial). 13th Pacific Asia Conf. on Knowledge Discovery and Data Mining (PAKDD 2009), Bangkok, Thailand, 2009, 73 p. URL: https://www.siam.org/meetings/sdm10/tutorial3.pdf (accessed 11.01.2015).

DOI: 10.15827/0236-235X.109.124-129 Received 12.01.15

ON DISTANCE METRIC FOR THE SYSTEM OF AUTOMATIC CLASSIFICATION OF THE EEE DEVICES BY PRODUCTION BATCHES

Kazakovtsev L.A., Ph.D. (Engineering), Associate Professor, levk@bk.ru;

Stupina A.A., Dr.Sc. (Engineering), Professor, saor_stupina@sibsau.ru (Academician M.F. Reshetnev Siberian State Aerospace University,

Krasnoyarsky Rabochy Ave. 31, Krasnoyarsk, 660014, Russian Federation);

Orlov V.I., Postgraduate Student, Director, ttc@krasmail.ru (Test and Technical Center - NPO PM, Molodezhnaya St. 20, Zheleznogorsk, 662970, Russian Federation) Abstract. Packaging electronic units of complex technical systems with high quality electronic components is an essential condition of increasing quality of the whole system.

Elements of the same type should have equal characteristics, which is achieved if they are produced as one production batch from a one batch of raw materials. Electronic units vary in the requirements concerning the number of production batches of devices. This article considers the problem of discovering the quantity of the production batches in a lot shipped by a supplier of electronic devices based on testing results as a problem of cluster analysis. The authors propose using the rectangular metric in the k-means clustering problem. They also show the necessary modification of a local search procedure. The results of running system of EEE devices automatic classification by production batches are given. Such results are provided for a k-median problem with squared Euclidean and rectangular metrics. Tests data of the electronic chips were used as example data. Data dimension is up to 2500 data vectors, each of them contains

128

Программные продукты и системы /Software & Systems

№ 2 (110), 2015

the results of measurement that are up to 230 parameters. An MDS method (Multidimensional Scaling) was used for visual representation of the multidimensional vectors classification results.

Keywords: k-means, k-medoid, rectangular metric, cluster analysis, automatic classification, EEE devices.

References

1. Koplyarova N.V., Orlov V.I., Sergeeva N.A., Fedosov V.V. On the non-parametric models in problems of electronic components diagnostics. Zavodskaya laboratoriya. Diagnostika materialov [Industrial Laboratory. Materials Diagnostics]. 2014, no. 80 (7), pp. 73-77 (in Russ.)

2. Koplyarova N.V., Orlov V.I. About research of radio-electronic equipment diagnostics computer system on the basis of experimental data. Vestnik SibGAU [The Bulletin of Siberian State Aerospace University]. 2014, no. 1 (53), pp. 24-30 (in Russ.).

3. Kazakovtsev L.A., Orlov V.I., Stupina А.А., Masich I.S. Problem of electronic components classifying. Vestnik SibGAU [The Bulletin of Siberian State Aerospace University]. 2014, no. 4 (56), pp. 55-61 (in Russ.).

4. Koplyarova N.V., Sergeeva N.A. About nonparametric algorithms of nonlinear dynamical processes identification. Vestnik SibGAU [The Bulletin of Siberian State Aerospace University]. 2012, no. 5 (45), pp. 39-45 (in Russ.).

5. Ackermann M.R. StreamKM: a Clustering Algorithm for Data Streams. J. Exp. Algorithmics. 2012, no. 17, Article 2.4 (published online).

6. Kanungo T., Mount D., Netanyahux N., Piatko C., Silverman R., Wu A. A Local Search Approximation Algorithm for k-Means Clustering. Computational Geometry. 2004, no. 28, pp. 89-112.

7. Kazakovtsev L.A., Stupina A.A. Fast Genetic Algorithm with Greedy Heuristic for p-Median and k-Means Problems. IEEE 2014 6th Int. Congress on Ultra Modern Telecommunications and Control Systems and Workshops (ICUMT). St. Petersburg, 2014, pp. 602-606.

8. Facility Location Concepts, Models, Algorithms and Case Studies. Farahani R.Z., Hekmatfar M. (Eds.) Springer-Verlag Publ., Berlin Heidelberg, 2009.

9. Weiszfeld E. Sur le point sur lequel la somme des distances de n points donnes est minimum. Tohoku Math. Journ. 1937, no. 43 (1), pp. 335-386 (in French).

10. Maksimov Yu.A., Fillipovskaya E.A. Algoritmy resheniya zadach nelineynogo programmirovaniya [Algorithms of Solving Nonlinear Programming Problems]. Moscow, MIFI Publ., 1982.

11. Park H.-S., Jun C.-H. A simple and fast algorithm for K-Medoids clustering. Expert Systems with Applications. 2009, no. 36, pp. 3336-3341.

12. Kaufman L., Rousseeuw P.J. Finding Groups in Data: an Introduction to Cluster Analysis. NY, Wiley Publ., 1990.

13. Laucasius C.B., Dane A.D., Kateman G. On k-medoid clustering of large data sets with the aid of Genetic Algorithm: background, feasibility and comparison. Analytica Chimica Acta. 1993, no. 283 (3), pp. 647-669.

14. Zhang Q., Couloigner I. A new and efficient algorithm forr spatial clustering. ICSSA 2005. Singapore, 2005, pp. 181-189.

15. Sheng W., Liu X. A genetic k-medoids clustering algorithm. Journal of Heuristics. 2006, vol. 12, no. 6, pp. 447-466.

16. Arthur D., Vassilvitskii S. k-Means++: The Advantages of Careful Seeding. Proc. of the 18th Annual ACM-SIAMSymp. on Discrete algorithms, ser. SODA '07. 2007, pp. 1027-1035.

17. Panfilov I.A., Bazanova E.P., Sopov E.A. Investigation of the genetic algorithm with an alternative representation of solutions. Vestnik SibGAU [The Bulletin of Siberian State Aerospace University]. 2013, no. 4 (50), pp. 68-71 (in Russ.).

18. Vorozheikin A.Yu., Gonchar T.N., Panfilov I.A., Sopov E.A., Sopov S.A. A modified probabilistic genetic algorithm for the solution of complex constrained optimization problems. Vestnik SibGAU [The Bulletin of Siberian State Aerospace University]. 2009, no. 5, pp. 31-35 (in Russ.).

19. Alp O., Erkut E., Drezner Z. An Efficient Genetic Algorithm for the p-Median Problem. Annals of Operations Research. 2003, no. 122 (1-4), pp. 21-42.

20. Kazakovtsev L.A., Antamoshkin A.N. Genetic algorithm with fast greedy heuristic for clustering and location problems. Informatica (Ljubljana), 2014, no. 38 (3), pp. 229-240.

21. Neema M.N., Maniruzzaman K.M., A. Ohgai: new genetic algorithms based approaches to continuous p-median problem. Netw. Spat. Econ. 2011, vol. 11, pp. 83-99.

22. Sun Zh., Fox G., Gu W., Li Zh. A parallel clustering method combined information bottleneck theory and centroid based clustering. The Journal of Supercomputing. 2014, no. 69 (1), pp. 452-467.

23. Borg J.F.P. Modern Multidimensional Scaling: Theory and Applications. Springer Publ., 2005, pp. 207-212.

24. Kriegel H.P., Kroeger K.P., Zimek A.. Outlier Detection Techniques. 13th Pacific Asia Conf. on Knowledge Discovery and Data Mining (PAKDD 2009). Bangkok, Thailand, 2009.

129

i Надоели баннеры? Вы всегда можете отключить рекламу.