Научни трудове на Съюза на учените в България-Пловдив. Серия В. Техника и технологии, естествен ии хуманитарни науки, том XVI., Съюз на учените сесия "Международна конференция на младите учени" 13-15 юни 2013. Scientific research of the Union of Scientists in Bulga ria-Plovdiv, series C. Natural Sciences and Humanities, Vol. XVI, ISSN 1311-9192, Union of Scientist s, International Conference of Young Scientists, 13 - 15 June 2013, Plovdiv.
СРАВНИТЕЛЕН АНАЛИЗ НА КЛАСИФИКАТОРИ ЗА ОБЕКТИВНО ОПРЕДЕЛЯНЕ КАЧЕСТВОТО НА АГРАРНИ ПРОДУКТИ В РЕАЛНО ВРЕМЕ
гл. ас. Радослава Н. Габрова, проф. д-р Атанас Ст. Георгиев Университет по хранителни технологии, Пловдив
Classifiers are an information system that functions in the conditions of incomplete information (indeterminateness) for the pattern of the agricultural product for recognition (classification). The transformed several times useful initial information, may be assessed by using different criteria, as it is being done in each information system. This allows the system to be compared with related to it systems on the base of the fundamental functional characteristics as "fast operation", "accuracy of qualification", "financial efficiency", "not complexity of the technical realization' etc.
1. Увод
Втората половина на 20-и век отбелязва изключително бързо развитие на микроелектрониката, компютърната и комуникационната техника и технологии, и ползотворното им внедряване в редица сфери от човешката дейност. В това число може да бъде включено и усъвършенстване на технологиите за производството и прибирането на аграрните хранителни продукти, като основна част от дейността, осигуряваща прехраната на хората на планетата. Започвайки от ръчния труд, преминавайки през постепенната механизация и автоматизация на операциите, през 60-70-те години на миналия век, в силно развитите страни бурно се развиха промишлените технологии в аграрната индустрия, основани на компютърно управлявани технически устройства и системи за производство и прибиране на аграрни продукти. Машинно прибираната продукция предполага наличие в общата маса на обекти с различни характеристики, което от своя страна води до тяхното различно предназначение (цели на реализация) и срокове (начини) за съхранение. Една от главните характеристики на продуктите в този смисъл е тяхното качество, което налага като основна функция на горните системи определяне в поток (реално време) на качеството, „възлагано" на основните им „подсистеми", наложили се в теорията и практиката като „класификатори". Това са подсистемите (модулите) на системите за машинно прибиране на аграрните продукти, „разпознаващи" при движението им в поток „образите" на всеки от тях в съответствие със състоянието на качеството му, и отклоняващи (сепариращи) го към областта , заемана от обектите на това качество (клас).
„Класификаторите" представляват „информационни системи", изграждащи „образа" на обекта за разпознаване в пространството на важни за него характеристики („признаци за разпознаване"), съдържащи в себе си най-ценната (полезна) за продукта информация. Последната се обработва в съответствие с „разпознаващ" алгоритъм, на базата на резултатите от който с използване на „решаващо правило" се формира „решение" относно принадлежности на обекта към определен „клас по качество". Критериите за оценка на класификатора като най-важна „подсистема" на системата за
сортиране на продуктите, обикновено са: бързодействие на функционирането, точност на класификацията и сложност на практическата реализуемост.
В настоящата работа са представени резултатите от извършените теоретични и експериментални изследвания (подходи) за усъвършенстване класификаторите на аграрни продукти по качество.
Материали и методи
Точността на класификатора представлява сборна характеристика, описваща неговите възможностите във взаимно допълващи се аспекти, изразявани чрез съвкупност от параметри като: матрица на класификацията (СМ), връщане, прецизност, геометрична средна стойност и средна хармонична стойност на връщане и прецизност, „х" (капа)-коефициент, оперативни приемни характеристики (ROC curve), криви на връщане и прецизност (Recall-Precision curve), диаграми на повдигане (Lift
chart) и др.
Таблица 1 Матрица на класификацията (Confusion
Matrix) [6] - съдържа информация за действителната принадлежност на група обекти към дадено множество (клас) и определената принадлежност от дадената класификационна система. В таблица 1 е показана такава матрица за множество обекти, които се разделят на два класа - „лош" и „добър". В таблицата действителното състояние на качеството на продукта, определено на базата на експертна оценка е означено с „Действителнен клас" (ДК), a определеното състояние на качестовото от класифициращата система - „Класифициран клас" (КК). Стойностите на a и d, отразяват правилното класифициране, а стойностите на b и с -грешно.
Построяването на „Матрицата на класификация" дава възможност за определянето на някои показатели за оценка на работата на клaсификаторите [2, 3, 4]:
• Точност (True - Т) на класификацията за всеки клас - показател, който дефинира класифицирането на обектите в техния клас. Определя се като отношението на броя вярно класифицирани обекти от съответен клас, към общия брой от този клас:
a d
КК
добър лош
£ добър a b
лош c d
T
добър
и Тл
(1)
a+b c+d
Точността на класисификацията за по-добрия клас Тдобър се нарича още Recall (R=Tд0бър) - показател на връщане обратно в предпочитания (по-добрия) клас.
• Грешка (False - F) на класификацията за всеки клас - показател, който дефинира „разсейването" на обекти от един клас към друг и се определя като отношението на броя обекти от даден клас, които са грешно класифицирани, към общия брой обекти на съответния клас:
cb
F,
добър
и F„
(2)
djium ,
a+b
Грешките на прехода от лошия клас към добрия, т.е. Fд0бър могат да се класифицират като грешки от първи род при адаптиране на термина от теорията на статистическите решения, а грешките на прехода от добрия клас към лошия, т.е. F^ -като грешки от втори род.
• Прецизност (Precision - P) - показател, който определя относителния дял на правилно класифицираните обекти от „добрия" клас от общия брой класифицирани в този клас, т.е. показва „чистотата на добрия клас":
P = —. (3)
a+c
F-m (F-measure) показателят представлява средно хармонична стойност на R и Р:
F - m =
(Р 2 + 1).P.R
или при р=1 ^ F - m =
2
1/P + 1/R
(4)
(Р 2.Р + Я)
където р е коефициент, който може да заема стойности от 0 до безкрайност и се използа за промяна на теглата на Р и Я, т.е. на чистотата и точността за добрия клас. Обикновено се избират равни тегла, което се получава при р=1.
• Средно геометрична стойност (веотейс-теап) е показател за комплексна
оценка на Я и Р:
В-т = л/Яр. (5)
3. Резултати и обсъждане
Мулти-класификаторите разделят даденото множество на повече от два класа, т.е. броят класове е к>2. Матрицата на класификацията при к класа се представя като (к*к) матрица - лявата част на Таблица 2, където с Ац (1, \ = 1, 2, 3) е означен броят обекти по действително състояние от клас "1", но класифицирани в клас като при това е броят обекти, за които действителното и класифицираното състояние съвпадат.
Таблица 2
Лява част
Дясна част
ДК КК Брой Приор. клас NТдобъp,i NFдобъp,i NTлош,1 №лош,1
1 кл. 2 кл. 3 кл. к кл.
1 кл. А11 А12 А13 А,к 1 кл. ^^добърЛ NFдобъp,1 ^^Тлош,1 NFлош,l
2 кл. Á21 А22 А23 А2к 2 кл. ^^добър,2 №добър,2 ^^Тлош,2 NFлош,2
3 кл. А31 А32 А33 Азк 3 кл. NТдобъp,3 №добър,3 ^^Тлош,3 NFлош,з
к кл. Ак1 Ак2 Акз Акк к кл. NТдобъp,к NFдобъp,к NT 1N L лош,к NF лош,к
Определянето на показателите при класификация в два класа са подробно са описани в литературата. Когато се оценява класификатор при к>2, може да се направи анализ като последователно всеки от класовете се приема за „приоритетен" и се сравнава с останалите, или с други думи, се извършва съпоставяне на даден клас към всички останали. За всяка ,Д"-та стъпка на сравняване (от общо „к") избраният за "приритетен" клас се счита за „добър", а съвкупността от всички останали - за „лош" клас, след което се реализира статистика, включваща определяне на следните данни: брой вярно класифицирани обекти от добрия клас - ЭТдобърд, брой грешно класифицирани обекти в добрия клас - МРдобър1, брой вярно класифицирани обекти от лошия клас - ЭТлошд и броя грешно класифицирани обекти в лошия клас - №лошд:
к
-^^добърД = 2 Api ,
к к к ОТлошД =2 2 Apj и №лошД = 2 Aij . p=l,p^i j=l,j^i j=l,j^i
Получените резултати по (6) могат да се добавят към класификацията, както е показано, като дясна част на Таблица 2.
За определяне на обобщените показатели „Прецизност" (Р), „Точност за по-добрия клас" (T№&jp=R), F-m и g-m на класификацията при мулти-класификаторите могат да се използват два подхода [8]:
-^ТдобърД Aii
(6)
Матрицата на
> метод на средната стойност на микро-ниво - всеки обект (микроединица) участва равностойно и директно за определяне на обобщените показателите;
> метод на средната стойност на макро-ниво - показателите за всеки клас (макроединица) участват равностойно за определяне на обобщените показатели, т.е. обекта участва индиректно в оценката.
При метода на средната стойност на микро-ниво се сумират броя вярно класифицирани обекти от добрия клас, броя грешно класифицирани обекти в добрия клас и броя грешно класифицирани обекти в лошия клас за всички различни групи, след което тези суми се използват за определяне на показателите „Точност" (Я) и „Прецизност" (Р):
к к 2 отдобърд ^ А"
Я = -к-= -к-ПТ"к--(7)
2 NTдобър,i + 2 ^лошд 2 АИ + 2 2 А-i=l i=l -=1 1=1.1=1,.^
к к А 2 ^добърД 2 Aii
Р =--=-^--(8)
к к к к к
2 ОТдобърд + 2 -^РдобърД 2 Aii + 2 2 Api i=1 i=1 -=1 1=1р=1,р^1
След определянето на Я и Р, могат да се определят средно-хармоничната им стойност (4) и средно-геометричната им стойност (5).
При метода на средна стойност на макро-ниво, първо се определят показателите (1), (3), (4) и (5) за всека от различните к стъпки (1=1^к):
Я =-ОТдобърд-=-^--(9)
i от К ■ + № к
^ ^добърд ^ 1 "лош,1 А" + 2 А-
ii -=1,-^1 4
р. = ^^добър,1_= Ап__(10)
i ОТ К ■ + № « ■ к ^ '
^ Адобър,1 ^ 1 "добър,. А-- + 2 А-
i
Р-т = 17Р71Ж", 8-ш' (11)
след което те могат да се усреднят:
1 к 1 к 1 к 1 к Я = -2я. , Р = -2р., Р-т = — 2Р-т. и 8-т= -28-т. (12) к 1=1 к 1=1 к 1=1 к 1=1 При средните на микро-ниво стойности всеки обект има еднаква тежест, но при по-голям брой обекти от даден клас той ще доминира при определяне на оценката, докато при средните на макро-ниво стойности всеки клас има еднаква тежест. Средната на микро-ниво стойност е интегрална оценка, докато при средната на макро-ниво стойност отделните показатели при различен „приоритетен" клас дават диференцирана оценка. Друга особеност е, че показателите Р и Я, определени чрез средна на микро-ниво стойност са еднакви (произтича от анализ на зависимости (7) и (8)), което е предпоставка за противоречиви мнения относно тяхната полезност.
В работата се предлага различен подход за определяне на показателите „Връщане" и „Прецизност" при мулти-класификаторите, като се използва друг начин на съпоставяне на класовете - съпоставяне на всички класове един срещу друг. При такъв подход например при класификация в 3 класа следва да се съпоставят: 1 срещу 2, 2 срещу 1, 1 срещу 3, 3 срещу 1, 2 срещу 3 и 3 срещу 2, като за различните случаи се
приема първия клас в подредбата за приоритетен. При класификацията на аграрни продукти по качество в три класа естественно най-важен е най-добрия клас или първия клас. На второ място по приоритет се нарежда втория клас - той е по-важен от третия. А трети клас продукция няма никакъв приоритет при класификацията - реално при добаване на обекти от другите два класа (първи и втори) към този, само ще се повиши общото качество на получената група. С други думи казано при класификацията на аграрни продукти значение имат грешките от първи род - преминаване на обекти от по-лошо качество към група с по-добро, което физизчески отразява „замърсяването" на „по-добрите" класове. Грешките от втори род - преминаване на обекти от по-добро към група с по-лошо качество не са от същественно значение. В следствие на този анализ може да се намали броя на различните съпоставяния, като се подберат само тези, в които на първо място присъства важен за класификацията клас. Така, при класификация в три класа, съпоставянията могат да се органичат до важните за нея, съответно между: първи и трети класове; първи и втори класове и втори и трети класове. За всеки от различните случаи се определят: броя вярно класифицирани обекти от добрия клас - ОТдобър, броя грешно класифицирани обекти в добрия клас -^Рдобър, броя вярно класифицирани обекти от лошия клас - ОТлош и броя грешно класифицирани обекти в лошия клас - №лош , като се поставя индекса „1/]" на съпоставянето:
-^ТдобърД/] _ Аи , -^РдобърД/] _ А]1 , -^ТлошД/] _ А] и -^РлошД/] _ Ау . (13) Построява се аналогична таблица на Таблица 2, като клетката приоритетен клас се заменя с вида на съпоставянията, съответно 1/2, 1/3 и 2/3. За получаването на обобщени (усреднени) показатели могат да се изпозват споменатите методи за средни на микро- и макро-нива стойности. При изпозлване на подхода за средна на макро-ниво стойност, следва да се определят показателите „Връщане" и „Прецизност", съответно с индекси 1/2, 1/3 и 2/3:
К1/] = Аи , = Аи , (14)
Ац + А1] Ац + А]1
и на тяхна основа - показателите Р-т^ и g-m1/J.
Определените, по този подход на сравняване на всеки клас срещу всеки, показатели „Връщане" и „Прецизност" дават по точна оценка на работата на класификатора, тъй като на тяхна база може се оцени до каква степен класификатора разграничава (различава) класовете един спрямо друг. Може да се оцени кой класове се „припокриват", т.е. дали се преливат един в друг и в каква посока става това преливане. Докато при съпоставянето на един клас срещу всички такива оценки не могат да бъдат направени.
В таблица 3 са показани реални данни от класификация, и оценени показатели „Връщане" и „Прецизност" при съпоставянето на един клас срещу всички и използване на методите за средни на микро- и макро-нива стойности.
Таблица 3
ДК КК Брой Приор. клас ОТДоб.,1 ^доб.Д ОТ ■ 1 ^ А лош,1 № ■ лош,1 Р1
1 кл. 2 кл. 3 кл.
1 кл. 80 18 2 1 кл. 80 23 145 20 0,7767 0,8000
2 кл. 20 60 10 2 кл. 60 43 135 30 0,5825 0,6667
3 кл. 3 25 50 3 кл. 50 12 178 28 0,8065 0,6410
Р ■ А Ш1СГО -^ШГСГО Р А шасго Р -^шасго
0,7090 0,7090 0,7219 0,7026
Показателите Pmicro и Rmicro имат равни стойности и не съдържат много информация за работата на класификатора. За определяне на показателите Pmacro и Rmacro предварително се определят „Прецизност" и „Връщане" за всеки клас при съпоставяне един срещу всички и по получените резултати може да се оцени за кой клас показателите са най-добри, т.е. най-добре работи класификаторът. Показателят Pi характеризира "чистотата" на първи клас, но не съдържа информация за това, че по-голямото замърсяване е от втори клас, а замърсяването от трети клас е незначително. Подобен анализ може да направи и за останалите P1 и R1. Получените макрооценки могат да се използват за разграничаване на този от други класификатори без особенна прецизност на оценката.
В таблица 4 са показани същите данни от класификация и оценените показатели „Връщане" и „Прецизност" на "приоритетните" за класификацията при съпостатвянето на един клас срещу друг и използване на методите за средна на микро- и макро-нива стойности. От резултатите за R1/J и P1/J може да се направи анализ на различимостта на класовете от класификатора, касаеща точността и чистотата на първи клас срещу втори и трети и на втори срещу трети клас. Ясно се вижда, че: класификаторът отлично различава първи и трети класове; има ниска стойност на „прецизност" на втори спрямо трети, т.е. имаме замърсяване на втори от трети клас и т.н. Този анализ дава възможност за търсене на посоки за подобряване работата на класификатора. В такъв случай получените микрооценки за R и Р са различни и по-информативни. И микро- и макро-оценките могат да се използват за интегрална оценка.
Показателите за оценка работата на класификаторите по методиката за съпоставяне на всеки клас срещу всеки дават по-големи и по-гъвкави възможности за анализ.
Таблица 4
ДК КК Брой ЭТдо6.,1 №доб.,1 NT ■ ^ А лош,1 NF - лош,1 Pi/j Ri/j
1 кл. 2 кл. 3 кл. Индекс
1 кл. 80 18 2 1/2 80 20 60 18 0,8000 0,8163
2 кл. 20 60 10 1/3 80 3 50 2 0,9639 0,9756
3 кл. 3 25 50 2/3 60 25 50 10 0,7059 0,8571
P - micro micro P А macro R macro
0.8209 0.8800 0,8232 0,8830
4. Извод
Направено е обобщение на възможностите за оценка коректността на работата на класификаторите. В резултат на извършеното теоретично и експериментално изследване са предложени възможности за построяване на йерархична структура на класификаторите за сепариране на обектите в три класа по качество. Получени са оценки за използване на класификаторите на базата на изследваните им показатели на функциониране.
Използвана литература
1. Gwet K. (2002). Kappa statistic is not satisfactory for assessing the extent of agreement between raters. Series: Statistical Methods for Inter-Rater Reliability Assessment 1(1):1-5
2. Ian H. Witten and Eibe Frank. (2005). Data Mining Practical Machine Learning Tools and Techniques, , Morgan Kaufmann Publishers Inc. San Francisco, CA, USA
3. Kubat, M., Holte, R., and Matwin, S. (1998). Machine Learning for the Detection of Oil Spills in Satellite Radar Images. Machine Learning, 30:195-215.
4. Lewis, D., and Gale, W. (1994). A sequential algorithm for training text classifiers. In Proc. 17th Annual Intl. ACM SIGIR Conf. on R&D in Information Retrieval, pages 3-12.
5. Provost, F., Fawcett, T., & Kohavi, R. (1998). The Case Against Accuracy Estimation for Comparing Induction Algorithms. In Proceedings of the Fifteenth International Conference on Machine Learning, pp. 445-453 Madison, WI. Morgan Kauffmann.
6. Ron Kohavi and Foster Provost, (1998), On Applied Research in Machine Learning. Editorial for the Special Issue on Applications of Machine Learning and the Knowledge Discovery Process volume 30, Number 2/3
7. Swets, J. (1988). Measuring the accuracy of diagnostic systems. Science 240, 12851293.
8. Tsoumakas, G., Katakis, I., & Vlahavas, I. P. (2010). Mining multi-label data. In O. Maimon, & L. Rokach (Eds.) Data Mining and Knowledge Discovery Handbook, (pp. 667-685). Heidelberg, Germany: Springer-Verlag, 2nd ed.