Научная статья на тему 'Формирование классов объектов методом дискриминантного анализа'

Формирование классов объектов методом дискриминантного анализа Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1316
222
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КАНОНИЧЕСКАЯДИСКРИМИНАНТНАЯФУНКЦИЯ / ДИСКРИМИНАНТ / КЛАССЫОБЪЕКТОВ / КЛАССИФИКАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Битюков В. К., Моторин М. Л., Саввина Е. А.

В работе представлен метод дискриминантного анализа, как современный инструмент для классификации объектов, на примере мукомольного производства. Дискриминантный анализ является статистическим методом, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно и дает возможность классифицировать объекты по принципу максимального сходства. Содержанием дискриминантного анализа является разработка и исследование статистических методов для изучения различий между двумя и более группами объектов по нескольким переменным одновременно при помощи дискриминантной линии. В дискриминантном анализе, в отличие от кластерного, имеется обучающая выборка, в которой известно к каким классам относятся объекты. По обучающей выборке получают правила, которые в дальнейшем позволяют определить, к какому классу относятся новые объекты. Построены дискримитнантные функции, графики распределения объектов по классам качества, графически представлена методика классификации. В ходе выполнения работы была сформирована база данных, состоящая из 595 анализов, характеризующих качество муки по 15 признакам. Каждый анализ описывался химическими (массовая доля белка, массовая доля золы, массовая доля жира, содержание клетчатки и водорастворимых углеводов) и органолептическими показателями качества муки (влажность, титруемая и активная кислотность, массовая доля и качество клейковины, вкус, запах, хруст и т.д.). Точность классификации методом дискриминантного анализа составила 576 (98,02 %).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The formation classes of objects by the method of discriminant analysis

The paper provides the method of discriminant analysis as a modern tool for the classification of objects by the example of flour production. Discriminant analysis is a statistical technique that allows us to study the differences between two or more groups of objects on multiple variables simultaneously and provides the ability to classify objects according to the principle of maximum similarity.Content of discriminant analysis is the development and study of statistical methods to examine the differences between two or more groups of objects on multiple variables simultaneously with the dominant line. In discriminant analysis, in contrast to the cluster, there is a training set, which is known what classes are objects. The training set is obtained rules, which further allow you to determine what class are new objects. Built discriminant functions, graphs of distribution of objects on quality classes, graphically presents classification methodology. During the performance was formed database consisting of 595 analyzes characterizing the quality of flour by 15 characters.Each assay described chemical parameters (mass fraction of protein mass fraction of ash, the mass fraction of fat, fiber content and water-soluble carbohydrates) and organoleptic quality of flour (moisture content, titratable acidity and active, and the mass fraction of gluten quality, taste, smell, and the crunch etc.). Classification accuracy of the method of discriminant analysis was 576 (98.02%).

Текст научной работы на тему «Формирование классов объектов методом дискриминантного анализа»

УДК 007.001.362

Профессор В.К. Битюков, ассистент М.Л. Моторин, ассистент Е.А. Саввина

(Воронеж. гос. ун-т инж. технол.) кафедра информационных и управляющих систем,

тел. (473) 255-38-75

E-mail: [email protected]

Professor V.K. Bitiukov, assistant M.L. Motorin, assistant E.A. Savvina

(Voronezh state university of engineering technology) Department of information and control systems, phone (473) 255-38-75 E-mail: [email protected]

Формирование классов объектов методом дискриминантного анализа

The formation classes of objects by the method of discriminant analysis

Реферат. В работе представлен метод дискриминантного анализа, как современный инструмент для классификации объектов, на примере мукомольного производства. Дискриминантный анализ является статистическим методом, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно и дает возможность классифицировать объекты по принципу максимального сходства. Содержанием дискриминантного анализа является разработка и исследование статистических методов для изучения различий между двумя и более группами объектов по нескольким переменным одновременно при помощи дискриминантной линии. В дискриминантном анализе, в отличие от кластерного, имеется обучающая выборка, в которой известно к каким классам относятся объекты. По обучающей выборке получают правила, которые в дальнейшем позволяют определить, к какому классу относятся новые объекты. Построены дискримитнантные функции, графики распределения объектов по классам качества, графически представлена методика классификации. В ходе выполнения работы была сформирована база данных, состоящая из 595 анализов, характеризующих качество муки по 15 признакам. Каждый анализ описывался химическими (массовая доля белка, массовая доля золы, массовая доля жира, содержание клетчатки и водорастворимых углеводов) и органолеп-тическими показателями качества муки (влажность, титруемая и активная кислотность, массовая доля и качество клейковины, вкус, запах, хруст и т.д.). Точность классификации методом дискриминантного анализа составила 576 (98,02 %).

Summary.The paper provides the method of discriminant analysis as a modern tool for the classification of objects by the example of flour production. Discriminant analysis is a statistical technique that allows us to study the differences between two or more groups of objects on multiple variables simultaneously and provides the ability to classify objects according to the principle of maximum similarity. Content of discriminant analysis is the development and study of statistical methods to examine the differences between two or more groups of objects on multiple variables simultaneously with the dominant line. In discriminant analysis, in contrast to the cluster, there is a training set, which is known what classes are objects. The training set is obtained rules, which further allow you to determine what class are new objects. Built discriminant functions, graphs of distribution of objects on quality classes, graphically presents classification methodology. During the performance was formed database consisting of 595 analyzes characterizing the quality of flour by 15 characters. Each assay described chemical parameters (mass fraction of protein mass fraction of ash, the mass fraction of fat, fiber content and water-soluble carbohydrates) and organoleptic quality of flour (moisture content, titratable acidity and active, and the mass fraction of gluten quality, taste, smell, and the crunch etc.). Classification accuracy of the method of discriminant analysis was 576 (98.02%).

Ключевые слова: каноническая дискриминантная функция, дискриминант, классы объектов, классификация

Keywords: canonical discriminant function, the discriminant, classes of objects, classification

Дискриминантный анализ является статистическим методом, который позволяет изучать различия между двумя и более группами объектов по нескольким переменным одновременно и дает возможность классифицировать объекты по принципу максимального сходства.

Цель работы: рассмотреть классификационные различия между классами объектов и графически интерпретировать полученные результаты.

«Дискриминантный анализ» - это общий термин, относящийся к тесно связанным статистическим процедурам: интерпретации и классификации. Интерпретация предполагает поиск различий между классами при данном наборе характеристик (переменных). Метод, относящийся к классификации, связан с получением одной или нескольких функций, обеспечивающих возможность отнести каждый объект к одной из групп [1].

© Битюков В.К., Моторин М.Л., Саввина Е.А., 2014

В дискриминантом анализе используются методы максимального правдоподобия:

1) расчет априорных вероятностей принадлежности к классу, которые можно рассматривать как решающее правило, применяемое в том случае, когда нет никакой дополнительной информации об объектах;

2) расчет условных вероятностей принадлежности к классу, каждая из которых равна вероятности получить соответствующее значение дискриминантной функции при условии, что объект принадлежит классу.

Содержанием дискриминантного анализа является разработка и исследование статистических методов для изучения различий между двумя и более группами объектов по нескольким переменным одновременно при помощи дискриминантной линии.

В дискриминантном анализе, в отличие от кластерного, имеется обучающая выборка, в которой известно к каким классам относятся объекты. По обучающей выборке получают правила, которые в дальнейшем позволяют определить, к какому классу относятся новые объекты.

Функция с линейной комбинацией вида:

/кш=ио+ Ы1Х1кш+ и 2^2кш +----+ ЫрХркш, (1)

где /кш - значение канонической дискриминантной функции для т-го объекта в группе к; Х1кш - значение дискриминантной переменной Х, для ш-го объекта в группе к; и, - коэффициенты, обеспечивающие выполнение требуемых условий.

Коэффициенты и, для первой функции выбираются таким образом, чтобы ее средние значения для различных классов как можно больше отличались друг от друга. Коэффициенты второй функции выбираются так же, то есть соответствующие средние значения должны максимально отличаться по классам, при этом налагается условие, чтобы значения второй функции были некоррелированы со значениями первой.

При классификации указанный объект «принадлежит к» или «очень похож на» данный класс. Такое решение принимается на основе информации, содержащейся в дискрими-нантных переменных.

Значимость дискриминантной функции при классификации определяется несколькими способами:

1. По расчету собственного значения функции:

Л =

(2)

где Л - собственное значение; VI - последова-тельностькоэффициентов; Wij, Ь^ - рассчитаны соотношениями (3) и (4) соответственно:

а пк

Щ] =

/ | / | (^1кт — Хгк )(^]кт — )' (3)

к=1 т=1

Ьц = . (4)

2. По проценту объясненной дисперсии:

(5)

Лобщ = л1 + Л2 + + Лп,

а =

12 л1

общ

(6)

Процент объясненной дисперсии показывает, какова функция по сравнению с другими, то есть та, которая имеет большее процентное содержание, сильнее влияет на дискриминацию.

3. По расчету коэффициента канонической корреляции, который является мерой связи (степени зависимости между группами и дискриминантной функцией).

4. По расчету Л - статистики Уилкса -меры различий между классами по нескольким

дискриминантным переменным:

з

Л

П 1 + л,-'

(7)

¿=к+1

где к - число уже вычисленных функций; символ П означает, что для получения окончательного результата необходимо перемножить все члены. Л является «обратной» мерой, потому величины Л, близкие к нулю, говорят о высоком различении (то есть центроиды классов сильно отличаются друг от друга).

Каждый объект принадлежит одной из групп, поэтому вероятность принадлежности вычисляется для любой из групп. Вероятность того, что объект Xявляется членом класса к, равна:

Рг(Х\вк) Рг(вк\Х) = а и , (8) ( *1 ) Т°=1Рг(Х\Ск)' ( )

где Рг(Х\Ск) - вероятность того, что объект, находящийся далеко от центроида, действительно принадлежит классу к.

Стандартизованной мерой эффективности для любого количества классов является т-статистика ошибок:

пг

Т%=1Р1Щ

Т =

п.

общ

(9)

где Т - число правильно классифицированных объектов; р^ - априорная вероятность принадлежности к классу; а представляет

собой число объектов, которые будут правильно предсказаны при случайной классификации.

Дискриминантные переменные - оси р-мерного евклидова пространства. Каждый объект описывается точкой этого пространства с координатами, представляющими собой наблюдаемые значения каждой переменной. Если классы отличаются друг от друга по наблюдаемым переменным, их можно представить как скопления точек в некоторых областях рассматриваемого пространства. Поскольку классы могут частично «перекрываться», соответствующие им «территории» не совпадают. Для определения положения класса вычисляется его «центроид» - точка, координаты которой есть средние значения переменных в данном классе.

Радиус ядра разброса наблюдений рассчитывается по формуле:

Щ = п + 42 *о1, (10)

где Г; среднее расстояние между центром кластера и кластерными элементами, а о^ средне-квадратическое отклонение величины.

В ходе выполнения работы была сформирована база данных, состоящая из 595 анализов, характеризующих качество муки по 15 признакам. Каждый анализ описывался химическими (массовая доля белка, массовая доля золы, массовая доля жира, содержание клетчатки и водорастворимых углеводов) и органолеп-тическими показателями качества муки (влажность, титруемая и активная кислотность, массовая доля и качество клейковины, вкус, запах, хруст и т.д.). В соответствии с классификацией, предложенной в [3], наблюдения были разделены на 4 группы качества. Первая группа (класс 1 высшего качества) - 140 (23,3 %) наблюдений; вторая (класс 2 хорошего каче-

ства) - 195 (33,3 %); третья (класс 3 плохого качества) - 140 (23,3 %); четвертая (класс 4 очень плохого качества) - 120 (20,0 %).

Исходные качественные признаки были формализованы в категориальные. Качественный признак, например, «вкус», переведен к бинарному виду, где каждый признак имел 2 состояния (0 - признак отсутствует, 1 - присутствует): вкус свойственный (1 - присутствует, 0 - отсутствует); вкус заплесневелый (1 - присутствует, 0 - отсутствует); вкус затхлый (1 - присутствует, 0 - отсутствует); вкус кисловатый (1 - присутствует, 0 - отсутствует); горьковатый (1 - присутствует, 0 - отсутствует). Таким образом, количество признаков увеличилось до 25 [2].

Исходные данные представляют собой случайные величины. Полная информация о случайной величине дается ее функцией распределения. По критерию Колмогорова-Смирнова установлено, что для подавляющего большинства признаков распределение отличается от нормального на уровне значимости P=0,05. Нормальному закону распределения подчиняются признаки: газообразующая способность и содержание водорастворимых углеводов.

Для принятия решений об отнесении хлеба к определенному классу необходимо отобрать наиболее информативные признаки. Выявление наиболее информативных признаков и классификация осуществлялась в два этапа. На первом этапе использовался корреляционный анализ. На втором этапе формировалась классификационная система признаков методом дискриминантного анализа. Методика классификации методом дискриминантного анализа представлена на рисунке 1.

Сбор экспериментальных данных за период времени t

Получение классов экспертным путем

Разделение данных ! ;Тип ;кривои; ■ ; ■ ; ■ ; \ I на 4 класса (по классу качества)

Построение групп классов объектов

Дискрими-- '.■'.■'.'.■

йайтнай фуйй-; ■ ! ■ ция ■.........

Получение решающего правила в виде дискри-минантной функции

Рисунок 1. Методика классификации методом дискриминантного анализа

В качестве критерия информативности признаков принят коэффициент корреляции между признаком и классом качества муки, определенным экспертом.

Для первого класса были выявлены 2 специфических признака: цвет муки белый Х10 и содержание водорастворимых углеводов Х 28, коэффициент корреляции которых варьируется от 0,755 до 0,819, то есть теснота связи сильная. Для 6 признаков (титруемая кислотность Х2, активная кислотность Х3, массовая доля клейковины Х4, число падения Х7, цвет муки Х 8, белизна Х 26, зольность Х27) значение коэффициента корреляции превышает 0,5 по модулю, то есть теснота связи средняя.

Для второго класса выявлен 1 специфический признак: цвет муки с желтоватым оттенком Х12, коэффициент корреляции которого 0,826, то есть теснота связи сильная. Для 3 признаков (вкус свойственный Х14, отсутствие затхлого вкуса Х18, запах свойственный Х19, отсутствие хруста Х23) коэффициент корреляции находится в диапазоне от 0,508 до 0,655 по модулю, то есть теснота связи средняя.

Установлено, что третий класс имеет 1 специфический признак: цвет муки серый Х11, значение г равно 0,748. Для 4 признаков: вкус несвойственный Х14, вкус кислый Х15, вкус затхлый Х18, запах несвойственный Х19, значение коэффициента корреляции варьируется от 0,550 до 0,691, то есть теснота связи средняя.

Для четвертого класса было получено 7 специфических признаков: титруемая кислотность Х2, массовая доля клейковины Х4, число падения Х7, крупность помола Х9, вкус плесневелый Х17, зольность Х27, коэффициент корреляции которых лежит в диапазоне от 0,717

до 0,952. Для 9 признаков (активная кислотность Х 2, цвет серый с частицами Х13, вкус несвойственный Х14, вкус плесневелый Х17, активная кислотность Х 3, запах с посторонними примесями Х22, наличие хруста Х23, наличие металлопримесей Х 25, белизна Х 26, содержание водорастворимых углеводов Х 32, коэффициент корреляции находится в диапазоне от 0,563 до 0,656 по модулю и имеется средняя теснота связи с классом качества.

Для повышения точности классификации был использован метод дискриминации. Преимуществом данного метода является автоматическое построение графиков распределения классов и функций дискриминации.

Была сформирована обучающая выборка из 50 (8,4 %) наблюдений, содержащая объекты всех классов муки. Также как и для кластерного анализа были приняты признаки, отобранные на первом этапе методом корреляционного анализа, имеющие значимую корреляцию с классом качества. Классификационная система признаков включает в себя: цвет муки белый X10, цвет муки серый X11, цвет муки с желтоватым оттенком X12, вкус плесневелый X17, титруемая кислотность X2, массовая доля клейковины X4, число падения X7, цвет муки Xs, крупность помола X9, зольность X27, содержание водорастворимых углеводов X28.

Полезность дискриминантной функции оценивалась при помощи расчета коэффициента канонической корреляции (3); различие между классами - с помощью ^-статистики Уилкса (4); значимость дискриминантных функций - с помощью распределения %2 (хи-квадрат). Результат дискриминантного анализа представлен в таблице 1.

Таблица 1

Результат дискриминантного анализа

Функция Собственное % объясненной Кумулятивный Каноническая Лямбда Хи-

значение дисперсии % корреляция Уилкса квадрат

D1 5901,95 98,4 98,4 1,000 0,000 9118,57

D2 83,95 1,4 99,8 0,994 0,001 4051,92

D3 11,208 0,2 100,0 0,958 0,082 1459,97

Функция D1 обладает большими дискриминирующими возможностями, так как ее собственное значение равно 5901,95. Процент объясненной дисперсии 98,4 %, значение канонической корреляции 1,0 и распределение %2 9118,57 подтверждает дискриминационные

возможности функции D1. Так как значения функций D2 и D3 по данным критериям несколько ниже, данные функции не сильно влияют на процесс дискриминации.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Канонические дискриминантные функции D1, D2, D3, разделяющие выборку на 4 класса:

(11)

Б1=-163,01-0,2Х 2+0,01Х 4-0,01Х7+0,01Х 9-0,56Х 12+0,27Х 15-0,3Х 16-0,07Хп-0,4Х 20-0,41Х22+223,14Х 25;

Б2=-б,17+0,3Х 2-0,01Х 4+0,03Х 7-0,01Х 9+0,17Х 12-4,1Х 15+1,05Х 1б-0,84Х 17+0,59Х 20-0,2Х22+1Х 25; (12) Б3=12,61-2,01Х 2-0,561Х4-0,027Х7-0,026Х 9+2,21Х 12+2,48Х 15+5,33Х1б+2,33Х 17+1,18Х20+ (13)

+1,46Х 22+3,275Х 25.

Уравнения линейных простых классифицирующих функций D1к, D2к, D3к, D4к,

позволяющие относить объекты к одному из 4 классов качества:

D1к=-3346,35+85,73Х 2+48,19Х4+2,29Х 7+1,57Х 9-31,29Х 12+115,86Х 15+28,91Х:б+29,21Х 17--60,80Х 20+70,56Х 22+13936,45Х 25;

D2к=-5034,72+77,66Х 2+44,98Х4+1,99Х 7+1,44Х 9-31,74Х 12+137,58Х 15+59,14Х1б+41,51Х 17--63,9Х20+69,42Х22+47887,02Х25;

D3к=-39368,68+115,34Х2+47,81Х4+1,074Х 7+1,71Х9-144,32Х 12+164,55Х 15-15,2Х 16+ +18,39Х 17-143,9Х 20-13,02Х 22+155295,13Х 25;

D4к=-39421,92+113,14Х2+47,94Х 4+0,79Х 7+1,72Х 9-146,33Х 12+201,51Х 15-25,4Х 1б+25,79Х 17--149,62Х 20-11,99Х 22+155276,21Х 25.

(14)

(15)

(16) (17)

Первые две наиболее дискриминирующие канонические дискриминантные функции и центры в классах качества представлены на рисунке 2. Центроиды четырех классов имеют следующие координаты: (-б8,74; 14,4б; -0,11), (-бб,85; -10,51; 0,05), (8б,59; 0,33; 4,б2), (87,81; -0,18;-5,43).

Рисунок 2 показывает, что группы 1 и 2 вполне различимы, то есть центроиды хорошо отделимы друг от друга. На рисунке четко видно попадание одного ошибочно отнесенного наблюдения второго класса к первому. Однако выявлено перекрытие областей между 3 и 4 классами качества. Это обусловлено тем, что значения дискриминантных функций в центроидах групп для 3 и 4 классов близки друг к другу: 86,59 и 87,81 соответственно.

Рисунок 2. Канонические дискриминантные функции для четырех классов качества и центры групп

Таблица 2

I класс

4 класс

3 класс

Результаты классификации методом дискриминантного анализа представлены в таблице 2.

Результат классификации

Категория класса качества Предсказанная принадлежность к группе Итого

1 2 3 4

Частота 1 класс 140 0 0 0 140

2 класс 1 194 0 0 195

3 класс 0 0 137 3 140

4 класс 0 0 3 117 120

% 1 класс 100 0 0 0 100,0

2 класс 0,5 99,5 0 0,0 100,0

3 класс 0,0 0 97,2 2,8 100,0

4 класс 0,0 0,0 1,7 98,3 100,0

С учетом изложенного, по результатам расчета методом дискриминантного анализа выявлено, что число случаев ложной тревоги составило 3 (2,8 %) - это отнесение плохого качества к худшему. Выявлено 4 (2,3 %) случая пропуска сигнала, из них в 1 (0,5 %) наблюдении хорошее качество было неверно классифицировано как очень хорошее качество, в 3 (1,7 %) других случаях очень плохое качество расценено как плохое качество. По результатам дискриминации было выявлено, что в первом классе было верно классифицировано 140 (100,0 %) наблюдений, во втором классе -194 (99,5 %), в третьем - 137 (97,2 %), в четвертом - 117 (98,3 %). Таким образом, точность классификации методом дискриминантного анализа составила 576 (98,02 %). При этом ошибки отнесения плохого качества к очень плохому не стоит принимать во внимание, так как мука и плохого и очень плохого качества не должна использоваться в хлебопечении.

ЛИТЕРАУРА

1 Клекка У.Р., Ким Дж.-О., Мьюллер Ч.У. Факторный, кластерный и дискриминантный анализ. М.: Финансы и статистика, 1989. 215 с.

2 Саввина Е.А., Балашова Е.А., Битюков В.К. Использование методов дискриминантного анализа для классификации качества муки // Финансы. Экономика. Стратегия. 2013. №3. С. 20-23.

3 Балашова Е.А., Битюков В.К., Саввина Е.А., Пономарева Е.И. Формирование системы информативных признаков для прогнозирования качества муки/ Е.А. Балашова, В.К. Битюков, Е.А. Саввина, Е.И. Пономарева // Сборник трудов 3-ей Международной научно-практической конференции «Ключевые вопросы в современной науке», 2013. С. 74-77.

REFERENCES

1 Klekka U.R., Kim Dzh.-O., M'iuller Ch.U. Faktornyi, klasternyi I diskriminantnyi analiz [Factor, cluster and discriminant analysis]. Moscow, Finansy i statistica, 1989. 215 p. (In Russ.).

2 Savvina E.A., Balashova E.A., Bitiu-kov V.K. Using the discriminant analysis methods for the classification of the quality of the flour. Finansy. Ekonomika. Strategiia. [Finance. Economy. Strategy], 2013, no. 3, pp. 20-23. (In Russ.).

3 Balashova E.A, Bitiukov V.K., Savvina E.A., Ponomareva E.I. Formation of the system of informative signs for prognose quality flour. Sbornik trudov tret'ei Mezhdunarodnoi nauchno-practiche-skoi konferentsii "Kliuchevye voprosy v sovremen-noi nauke" [Proceedings of the 3rd international scientific and practical conference «the Key issues in modern science»], 2013. pp. 74-77. (In Russ.).

i Надоели баннеры? Вы всегда можете отключить рекламу.