Анализ результатов таксономии деталей с помощью различных программных средств

Шестаков Александр Михайлович

УДК 004.67

АНАЛИЗ РЕЗУЛЬТАТОВ ТАКСОНОМИИ ДЕТАЛЕЙ С ПОМОЩЬЮ РАЗЛИЧНЫХ ПРОГРАММНЫХ СРЕДСТВ

А.М.Шестаков1

Иркутский государственный технический университет, 664074, г. Иркутск, ул. Лермонтова, 83.

Рассматриваются прикладные программные пакеты Matlab, R-Project, GNU-Octave, выполняющие таксономию. Приводится сравнительная характеристика этих пакетов, а также описание особенностей реализации методов таксономии: методами нечетких с-средних, к-средних, иерархическим в каждом из них. Выделены признаки деталей, по которым выполняется таксономия. Для получения модельных данных с информацией, близкой к реальным деталям, смешаны в одну выборку представители двух классов, которые сгенерированы как равномерно распределенные случайные числа. Проведен анализ качества разбиения реальных деталей по их признакам и модельных данных в каждом из пакетов. Ил. 4. Табл. 2. Библиогр. 5 назв.

Ключевые слова: таксономия; выделение классов; величина силуэта; классы деталей.

ANALYSIS OF PART TAXONOMY RESULTS USING DIFFERENT SOFTWARE A.M. Shestakov

Irkutsk State Technical University, 83 Lermontov St., Irkutsk, 664074.

The article considers application software packages Matlab, R-Projec and GNU-Octave performing taxonomy. A comparative characteristic of these packages, as well as a description of implementation features of taxonomy methods are provided by the method of fuzzy c-means, k-means method and hierarchical method in each of them. The characteristics of parts, which are the basis for taxonomy, are distinguished. To obtain simulated data with the information close to real parts the author mixes in one sample the representatives of two classes that are generated as even distributed random numbers. The analysis of partitioning quality of real parts by their characteristics and simulated data in each package is carried out.

4 figures. 2 tables. 5 sources.

Key words: taxonomy; distinguishing of classes; size of silhouette; classes of parts.

Введение. Для каждой изготовляемой на предприятии детали необходимо использование нового технологического процесса обработки, ориентированного на различные профили обрабатываемых поверхностей.

Проектирование одного и того же изделия может подразумевать различные варианты изготовления, что усложняет процесс проектирования и выбор наилучшего варианта.

Трудности проектирования технологического процесса обусловлены прежде всего большим числом возможных решений каждой технологической задачи. С ростом разнообразия выпускаемых на предприятиях машиностроительного профиля деталей увеличиваются потери времени на частую переналадку металлорежущих станков. Это приводит к снижению эффективности производства и повышению себестоимости изготовляемой продукции. Проектирование одной и той же детали может подразумевать различные варианты технологических процессов обработки, что усложняет процесс проектирования и выбор наилучшего варианта. Обоснование общих принципов проектирования технологических процессов и разработка на базе классификации деталей типовых процессов позволяет сократить их разнообразие и создать опти-

мальные технологические процессы для различных условий производства.

Для того чтобы сократить затраты на переналадку оборудования, детали должны быть классифицированы. Принципом классификации может являться схожесть параметров деталей. Для того чтобы автоматизировать эту процедуру, применяются алгоритмы классификации. Под термином классификация понимается способ группировки объектов, основанный на представлении результатов точками в многомерном пространстве признаков с последующим выделением групп как "сгустков" этих точек. Сфера применения классификации ничем не ограничена - она необходима везде, где имеются какие-либо данные.

Конечно же, операции выделения объектов в схожие группы можно реализовать и вручную, однако это очень трудоемкая операция, и для решения подобных задач возможно использовать современные вычислительные средства. Для реализации задачи будут использованы готовые алгоритмы классификации. Эти алгоритмы реализованы в различных программных средствах.

На рынке представлено огромное количество программных пакетов, предназначенных для задач классификации. Из этих пакетов были выбраны следую-

1Шестаков Александр Михайлович, аспирант, тел.: 89027606731, e-mail: shestakova_olga2@mail.ru Shestakov Alexander, Postgraduate, tel: 89027606731, e-mail: shestakova_olga2@mail.ru

щие: Matlab, Statistica, R-Project, GNU-Octave. В них реализовано несколько алгоритмов, позволяющих решать поставленную задачу. Алгоритмы классификации могут дать различный результат, пользователю в этом случае предлагается сравнить и выбрать тот, результаты которого удовлетворяют его в наибольшей степени. Для сравнения результатов классификации предлагается использовать среднее значение, подсчитанное функцией silhouette.

Для повышения эффективности изготовления деталей с помощью различных технологических процессов предлагается выполнить классификацию деталей, описываемых некоторыми признаками. Исследователь может осуществлять классификацию субъективно (интуитивно) без каких бы то ни было расчетов. В этом случае необходимо владеть информацией об описании объектов с помощью характеристик или признаков. В общем случае задача, требующая решения методами автоматической классификации, выглядит следующим образом: задается совокупность наблюдений, описанных определенными характеристиками. Все наблюдения группируются таким образом, чтобы они были однородны внутри групп и чтобы различные группы объектов отличались, насколько это возможно, одна от другой.

Будем рассматривать совокупность деталей, близких по конструкции, размерам и общности технологии их изготовления в классы похожих объектов, представляемых в виде скопления точек (сгустков).

Применяя алгоритмы классификации, реализованные в популярных математических пакетах (нечетких с - средних, к - средних, иерархических), получим необходимое разбиение деталей на классы.

Описание признаков выбранных деталей. В качестве примера для задачи классификации были выбраны втулки, изготавливаемые на металлорежущих станках.

При изготовлении деталей используются различные технологические процессы, ориентированные на различный профиль обрабатываемой поверхности, то есть любой технологический процесс обработки заготовки представляет собой совокупность элементарных операций по изготовлению отдельных поверхностей, образующих контур обрабатываемой детали. Для изготовления разных видов втулок необходимо производить переналадку металлорежущих станков.

С целью минимизации переналадок используется комплексная деталь, содержащая все поверхности выбранной группы. Комплексная деталь может быть искусственно создана путем наложения одного чертежа на другой. Идею типизации технологического процесса впервые предложил проф. А.П.Соколовский [2].

Для нашего примера с втулками были определены некоторые признаки для классификации: габаритные размеры детали оказывают влияние на выбор технологического оборудования, так как очевидно, что изделия, даже геометрически подобные, при значительной разнице в размерах должны обрабатываться различным образом [2]. Уровень геометрической точности во многом предопределяет режим обработки, это значит, что детали должны разделяться по квалитету

точности. У большинства деталей конструкция предусматривает отверстия.

На основании этих рассуждений выделим следующий набор признаков втулок: диаметр изделия, ква-литет точности, высота, внутренний диаметр, диаметр отверстия, величина припуска отверстия.

Постановка задачи классификации. Цель применения алгоритмов классификации состоит в отнесении деталей к одному из классов, для того чтобы детали, вошедшие в класс, могли быть изготовлены с помощью общего технологического процесса без существенных переналадок.

Существует большое количество алгоритмов классификации, однако наиболее предпочтительны три, реализованные в том числе в названных пакетах и относящиеся к разным типам алгоритмов разделения данных: иерархический алгоритм относится к аг-ломеративному типу, нечетких с-средних - к дивизим-ному и к-средних - к итеративному. Агломеративные алгоритмы объединяют объекты множества, а диви-зимные разделяют единое множество объектов на подмножества.

На вход алгоритма подается матрица данных с информацией об изготавливаемых деталях. При выполнении алгоритмов пользователю необходимо указать число классов, на которые должны быть разделены объекты. После завершения работы алгоритма на экране необходимо отобразить графическое окно, в котором отражены все объекты, разделенные на классы. Интерпретируя их, исследователь сможет рассматривать каждый класс как отдельную комплексную деталь, а все объекты, входящие в класс, будут являться элементами этой комплексной детали.

Признаки деталей для пакетов не имеют значения, их формирует пользователь. Ограничение, накладываемое на данные для классификации: необходимость измерения признаков в одинаковых единицах, в противном случае их необходимо нормализовать -привести к единичному кубу.

Сравнительная характеристика используемых пакетов. Matlab - пакет для выполнения широкого круга математических задач, содержащий высокоуровневый язык и интерактивную среду для разработки алгоритмов, визуализации и анализа данных, числовых расчетов.

R-Project - многоплатформенный пакет статистической обработки, который широко используется для анализа данных и фактически стал стандартом статистических программ. Он доступен по свободной лицензии, распространяется в виде исходных кодов, а также откомпилированных приложений под ряд операционных систем: GNU/Linux, FreeBSD, Microsoft Windows.

GNU Octave - пакет для решения линейных и нелинейных математических задач, использует язык, в большинстве случаев совместимый с Matlab. Язык Octave оперирует арифметикой вещественных и комплексных скаляров и матриц, имеет расширения (дополнительные модули) для решения линейных алгебраических задач, нахождения корней системы нелинейных алгебраических уравнений, работы с полино-

мами, решения различных дифференциальных уравнений и систем дифференциальных уравнений первого порядка, интегрирования функций.

Все эти пакеты имеют набор функций для классификации объектов, описываемых набором признаков.

Для того чтобы сравнить пакеты, были выбраны критерии, приведенные в табл.1.

Критерий «Наличие графического пользовательского интерфейса» подразумевает создание так называемого GUI-приложения, позволяющего значительно упростить работу пользователя в системе. Критерий «Возможность визуализации» означает наличие необходимого инструментария для построения графических данных при работе с классификацией. По ряду перечисленных критериев пакет Matlab превосходит все остальные.

Критерии оценки результатов классификации. Для оценки качества классификации возможно воспользоваться величиной силуэтов, полученных для разбиения на различное число классов.

Формула вычисления силуэта:

s(Xi) =

a(xi) - b(xi) max( a( xi), b( xi))

где

1

a(xi) = 2d(xi,xj) ;

LCr J xjzCr

b(Xj) = min

2 d(xi,xj),r Ф s = 1,c\ [1].

Значение силуэта лежит в интервале [-1;1]. Если оно имеет низкое значение, то результат считается плохо классифицируемым. Классификация с максимальным средним значением силуэта может быть использована исследователем как наиболее информативная.

Из множества алгоритмов классификации были выбраны три: иерархический, к -средних, нечетких с -средних. Иерархический алгоритм наиболее эффективен для небольшого числа объектов, так как позволяет детально рассмотреть каждый объект. При боль-

шом объеме выборки наблюдений проявляется недостаток этого алгоритма - время расчета матрицы парных расстояний весьма велико.

Иерархический метод. Результаты иерархической классификации выявляют структуру множества объектов, которую можно наглядно представить в виде иерархического дерева, начальные вершины (листья) которого отображают все объекты исходного множества, промежуточные вершины (ветви) описывают все более крупные кластеры, а конечная вершина (корень) представляет собой объединение всего исходного множества объектов в один кластер [1].

Процесс объединения кластеров происходит последовательно: на основании матрицы расстояний или матрицы сходства объединяются наиболее близкие объекты. На первом шаге объекты рассматриваются как самостоятельные кластеры. Если матрица сходства первоначально имеет размерность n*n, то полностью процесс классификации завершается за n-1 шагов, в итоге все объекты будут объединены в один кластер. Последовательность объединения кластеров представляется в виде древовидной диаграммы [1].

Особенности реализации в пакетах. Пакет Matlab. Для построения кластеров необходимо вычисление матрицы парных расстояний между объектами. На основе этой матрицы с помощью функции dendrogram строится дерево кластеров, которое может быть раскрашено различными цветами для различных классов, это может быть полезным для интерпретации полученных результатов.

Пакет R-Project. Для иерархического типа классификации существует дополнительный подключаемый модуль с набором функций pvclust, позволяющий осуществить вычисление значений, определяющих, насколько хорошо данные разделены в иерархической структуре. Пример использования функции pvclust изображен на рис. 1.

На рис.1 представлено дерево классов, в нижней части которого обозначены объекты, разделенные по

Таблица 1

1

Критерий Matlab GNU-Octave R-Project Statistica

Наличие справки + + + +

Возможность под- + - + -

ключения дополни-

тельных модулей

Наличие графиче- + + + +

ского пользователь-

ского интерфейса

Возможность раз- + - - -

вернуть приложение в глобальной сети

Интернет

Возможность визуа- + + + +

лизации в классификации

Количество реали- 3 1 3 2

зуемых алгоритмов классификации

классам. В данном случае можно видеть разделение на два класса: 1 класс - объекты V2 и V3; 2 класс -объекты V5,V4,V6. Слева диаграммы расположена линейка с информацией о расстоянии между объектами.

Рис. 1. Пример функции pvclust для иерархического алгоритма в пакете R-Project

Опишем действия этой функции:

Выполняется алгоритм иерархического метода.

Вычисляются значения функции (au - отмеченные на рис.1 красным цветом и hp -отмеченные зеленым).

Строится иерархическая диаграмма на основе полученной информации алгоритма классификации. Подобное дерево классов реализовано в функции dendrogram в пакете Matlab.

Пакет GNU-Octave. По умолчанию для данных используется метод одиночной связи. Такой метод имеет существенный недостаток: на диаграмме образуются большие продолговатые кластеры, затрудняющие дальнейший анализ.

Метод k-средних. Суть метода состоит в следующем. Исследователь заранее определяет количество классов (k), на которые необходимо разбить имеющиеся наблюдения, и первые k наблюдений становятся центрами этих классов. Для каждого следующего наблюдения рассчитываются расстояния до центров кластеров, и каждое данное наблюдение относится к тому кластеру, расстояние до которого было минимальным. После этого для данного кластера (в котором увеличилось количество наблюдений) рассчитывается новый центр тяжести (как среднее по каждому показателю) по всем включенным в кластер наблюдениям.

Пакет Matlab. В функции вычисления алгоритма

доступно вычисление верного числа кластеров. Помимо этого включение опции display iter при вызове функции позволяет отображать на экране текущие итерации.

Пакет R-Project. Для данного алгоритма отличительной особенностью будет являться функция ini-tial.centers, позволяющая произвести вычисления начальных центров кластеров.

Не менее интересной возможностью в пакете R-Project обладает функция cluster.sim, позволяющая определить оптимальную процедуру классификации для набора данных, меняя все комбинации измерения расстояний.

Пакет GNU-Octave. Функция для использования алгоритма к-средних не входит в состав дистрибутива, поэтому следует подключить ее заранее, скопировав в директорию с программой.

Метод нечетких с-средних. Метод позволяет разбить имеющееся множество точек на заданное число нечетких множеств. Результатом работы алгоритма нечеткой таксономии являются центры нечетких кластеров. По сравнению с другими алгоритмами классификации алгоритм нечетких с-средних более пригоден к обработке больших массивов данных, так как имеет меньшую вычислительную сложность. Метод является приближенным.

Особенности реализации в различных пакетах. Пакет Matlab. В пакете Matlab для решения задачи методом нечетких с-средних реализована функция fcm. Алгоритм работы этой функция сводится к нахождению степени принадлежности элементов к искомым кластерам в указанном множестве данных.

В некоторых случаях для нахождения центров кластеров многомерных данных по алгоритму нечетких с-средних возможно использовать встроенный графический интерфейс пользователя findcluster.

Пакет R-Project. Данный алгоритм не входит в основной состав дистрибутива, следовательно, для его использования необходимо подключить соответствующий модуль для дальнейшей работы. Также следует указать на возможность просмотра детальной информации о полученных результатах выполнения алгоритма в виде четко обозначенных кластеров с помощью функции clusplot. Пример такого графика изображен на рис.2.

На рис.2, как можно заметить, классифицируемые данные разделились на две шарообразных области, отображающие результирующие классы, внутри которых занесены объекты, попавшие в класс.

Рис. 2. Пример графика, показывающий результаты работы алгоритма к-средних

Пакет GNU-Octave. Как и в пакете R-Project, для использования алгоритма нечетких с-средних в пакете GNU-Octave необходимо скопировать файл с алгоритмом в папку с программой, в противном случае на экране выведется сообщение об ошибке.

Количество классов, на которые были разбиты данные, варьировалось от двух до девяти включительно. Исходя из значений силуэтов, производился выбор числа классов, в котором средняя величина силуэта максимальна.

Графики силуэтов, полученных с помощью пакетов Matlab и R-Project для визуализации результатов классификации для 24 втулок по методу К-средних, с помощью функции silhouette представлены на рис.3. и рис.4. на них по оси x расположены кластеры, по оси y - значение силуэта.

Рис. 3. График силуэтов в пакете Matlab

Рис. 4. График силуэтов в пакете R-Project

Результаты таксономии деталей с помощью различных программных средств. В [1] представлено более 70 различных критериев оценки качества классификации.

Для алгоритмов классификации, как и для других алгоритмов, существуют определенные функционалы качества классификации, среди которых выделяют критерий минимума разброса внутри кластеров, коэффициент разбиения, энтропию разбиения, а также критерий эффективности разбиения, которые рассмотрены далее. Эти критерии наиболее универсальны, и подходят для большинства алгоритмов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Критерий классификации - минимум разброса

внутри кластеров: d - евклидово расстояние между векторами. [Ху] - матрица данных типа "объект-признак, i=1,...m, j=1,...n, где i - номер объекта, j - номер признака, элементы матрицы - значения признаков, объекты {Ж} описываются как строки матрицы данных. Производится разбиение совокупности объектов на к классов R={R1...Rk}; R {1...т}; I = 1...к.

Общий квадратичный разброс совокупности объектов определяется формулой

ЖТ = £ё2(хг,Х). [1], где X - центр тяжести всех

г

объектов (среднее арифметическое соответствующих векторов). Внутриклассовый разброс характеризуется

показателем SSQ{R) = YJ^ё2(хг,х1). [1], где Xl -

1 R1

центр тяжести Rl. Величина SSQ(R)/m представляет собой оценку остаточной дисперсии при объяснении разброса классификацией R.

|Х| |с|

Коэффициент разбиения: PC =

II

i=1 j=1

|X|

■[1], где

uj - соответствующий элемент матрицы принадлежности; X - входное множество; С - множество кластеров. Данный критерий принимает значения из [|С| " ,1], причем значению |С| "1 соответствует худший случай разбиения (максимальной неопределенности), а значению 1 - максимально четкое разбиение. Энтропия

|X| |c|

\ InOj )

разбиения: PE = -

II'

i=1 j=1

X|

■[1], где uj - соот-

ветствующий элемент матрицы принадлежности; X -входное множество; С - множество кластеров. Диапазон значений критерия - [0, 1п |С|], причём наилучшему разбиению соответствует 0, а наихудшему - 1п |С|. Сравнивать разные решения при помощи этого критерия некорректно, поскольку его диапазон значений для каждой кластеризации будет разным. Более правильным будет использовать модифицированную энтропию разбиения: |х| |с |

1п(и,) рЕ

-[1]. Ее диапазон

| X11п | С | 1п | С |

значений не связан с количеством кластеров и лежит в отрезке [0,1]. Таким образом, при помощи данного критерия можно сравнивать кластеризации с разным количеством кластеров.

Эффективность разбиения

PEm =

II'

i=1 j=1

C| |X |

PI = IIu2 (d2(Cj,X)-d2(x,cJ)) =

j=1 i =1

|C| |X|

= II j 2(c;, X )-II ujd 2( Xi, Cj )

j=1 i=1

C| |X|

01

j=1 i=1

[1],

где х - среднее значение элементов входного множества, ^ - центр кластера ]. Критерий состоит из двух

2

ij

частей: первая показывает межкластерные отличия, чем они выше, тем лучше выполнена кластеризация, а вторая - внутрикластерные отличия, чем они меньше, тем лучше выполнена кластеризация.

Были вычислены критерии для алгоритма к-средних в рассматриваемых математических пакетах, результаты вычисления представлены ниже: Критерий минимум разброса внутри кластеров: Matlab - 0.1258; GNU-Octave - 0.2051, R-Project - 0.19351; Statistica -0.2290. Коэффициент разбиения: Matlab - 0.7817; GNU-Octave - 0.6572, R-Project - 0.71452; Statistica -0.6592. Модифицированная энтропия разбиения Matlab - 0.3458; GNU-Octave - 0.2251, R-Project -0.2351; Statistica - 0.2592. Эффективность разбиения: Matlab - 0.8210; GNU-Octave - 0.7482, R-Project -0.80554; Statistica - 0.7584.

По вычисленным критериям сделан следующий вывод: пакет Matlab дает по всем критериям наибольший результат, это можно охарактеризовать как лучшую классификацию среди рассматриваемых пакетов.

Так как по нашему предположению функция силуэта интерпретируется пользователем как оценка качества классификации, рассмотрим значения силуэта для различных алгоритмов.

Результаты классификации по среднему значению силуэта, полученные с помощью различных программных средств для 50 реально изготавливаемых втулок, сведены в табл.2.

Как видно из табл. 2, лучшее разбиение получено для 3-х классов, разделение же на другое количество классов дало худший результат.

Проведенный эксперимент показал пригодность алгоритмов для классификации деталей. Наибольшие значения силуэта по всем трем алгоритмам получено в пакете Matlab. В таких пакетах как Matlab, Octave и R-Project имеется возможность подключать пакеты

расширений для различных задач. В пакете МаАаЬ присутствуют инструментальные средства для разработки графического интерфейса пользователя (0111-приложения).

Таблица 2

Наилуч- Среднее

Пакет Алгоритм шее число классов значение силуэта

Иерархический

Matlab 3 0.4887

R-Project 3 0.3948749

Gnu-Octave 3 0.3752

Statistica 3 0.3548

К-средних

Matlab 3 0.5825

R-Project 3 0.3541825

Gnu-Octave 3 0.5140

Statistica 3 0.5325

Нечетких

с-средних

Matlab 3 0.5860

R-Project 3 0.4520958

Gnu-Octave 3 0.5532

Заключение. Оценена эффективность пакетов в зависимости от того, как хорошо они решают задачу классификации. С этой целью проанализирована точность классификации в известных математических пакетах. В результате сравнительного тестирования оказалось, что пакет МаАаЬ дает более точную классификацию, соответственно это даст в реальных условиях эффективность при использовании классификации деталей.

Библиографический список

1. Мандель И.Д. Кластерный анализ. М.: Финансы и статистика, 1988. 177 с.

2. Соколовский А.П. Основы технологии машиностроения. М.: Машгиз, 1938. Т.1. 472 с.

3. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. М.: Институт математики СО РАН, 1999. 264 с.

4. Яцкив И., Гусарова Л. Методы определения количества кластеров при классификации без обучения. Латвия, 2003. 6 с.

5. Rousseeuw J.P. Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. J.Comp. Appl. Math. 1987. Vol.20. P.53-65.

Анализ результатов таксономии деталей с помощью различных программных средств Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шестаков Александр Михайлович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шестаков Александр Михайлович

ANALYSIS OF PART TAXONOMY RESULTS USING DIFFERENT SOFTWARE

Текст научной работы на тему «Анализ результатов таксономии деталей с помощью различных программных средств»