Научная статья на тему 'Імовірнісні та статистичні характеристики моделі виділення найбільш стабільних об’єктів класів'

Імовірнісні та статистичні характеристики моделі виділення найбільш стабільних об’єктів класів Текст научной статьи по специальности «Математика»

CC BY
97
31
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Таянов Віталій Анатолійо

Розглядається консенсусний підхід до прийняття рішень. Консенсус будується на основі двох алгоритмів, що є максимально несхожі за числом об’єктів, на яких не досягається консенсус. Підхід дає можливість виділяти найбільш стабільні об’єкти, на яких досягається консенсус максимально несхожих алгоритмів. Одночасно підхід дає можливість будувати оцінки ймовірностей попадання кожного об’єкта до однієї із трьох груп об’єктів: групи об’єктів, на яких досягається правильний консенсус, групи об’єктів, на яких консенсусні алгоритми одночасно помиляються, та групи об’єктів, на яких не досягається консенсус.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Probabilistic and statistical characteristics of the detection model of the most stable class objects

The totally new approach to the class object classification based on division of all object set that is need to be classified on tree nonoverlapping functional subsets has been proposed. These subsets have been created with help of using of two consensus algorithms that are the most different in the same group of algorithms. The first one is the subset of objects on which consensus of two algorithms works correctly. The second one is subset of objects on which consensus is incorrect and the third one is subset of objects on which two algorithms have no consensus. The error conditioned by the second subset of objects can not be reduced at all. After that one needs to use some special algorithms that give the possibility to classify again the objects from the third subset of objects. If one classifies these objects even fifty-fifty then the sum of two errors conditioned by the first and the second subsets will be essentially less than the error level that characterize the best of existing classification algorithms.

Текст научной работы на тему «Імовірнісні та статистичні характеристики моделі виділення найбільш стабільних об’єктів класів»

УДК 004.93 В.А. ТАЯНОВ

1МОВ1РН1СН1 ТА СТАТИСТИЧН1 ХАРАКТЕРИСТИКИ МОДЕЛ1 ВИД1ЛЕННЯ НАЙБЫЬШ СТАБ1ЛЬНИХ ОБ'еКТШ КЛАС1В

Розглядаеться консенсусний шдх1д до прийняття рiшень. Консенсус будуеться на основ! двох алгортшв, що е максимально несхож! за числом об'екпв, на яких не досягаеться консенсус. Шдхвд дае можлив1сть видшяти найбшьш стабшьт об'екти, на яких досягаеться консенсус максимально несхожих алгортшв. Одночасно тдхвд дае можлив1сть будувати оцшки ймов1рностей попадания кожного об'екта до одте! i3 трьох груп об'екпв: групи об'екпв, на яких досягаеться правильний консенсус, групи об'екпв, на яких консенсусш алгоритми одночасно помиляються, та групи об'екпв, на яких не досягаеться консенсус.

1. Вступ

Алгоритми прийняття ршень використовуються в таких задачах розтзнавання образ!в: розтзнавання з вчителем та розтзнавання без вчителя. Задач! розтзнавання без вчителя носять назву задач кластеризацп i стосуються теорп кластерного анал!зу. Задач! розтзна-вання, де передбачено втручання оператора в процес розтзнавання, стосуються теорп навчання, зокрема машинного. Великий напрямок в теорп машинного навчання носить назву статистичного машинного навчання, започаткований в роботах В. Ваптка та Я. Червоненюса в 60-70-х рр. минулого столгття i продовжений у 90-х рр. того ж столгття [1]. Задача кластерного аналiзу формулюеться так. Потр!бно розбити вхщт дат на зони (кластери) зпдно з прийнятим критерiем. Критерiем може виступати, наприклад, розкид даних вщносно деякого центру, що називаеться центром кластера. В теорп кластеризацп найбшьш вщом! два алгоритми: алгоритм внутршньогрупових середнiх (k-means algorithm) та алгоритм максим!зацп математичного очiкування (Expectation maximization (EM) algorithm) [2]. Останнш е найбiльш популярним алгоритмом в останнш час, однак мае той недолш, що часто не знаходиться глобальний максимум. В задачах кластеризацп часто вважаеться, що немае жодно! апрюрно! шформацп про належтсть даних до вщповщних кластерiв. 1з задачами кластерного аналiзу та ¡з застосуванням р!зних алгоритмiв i тдход!в можна ознайомитись в [3, 4].

Потр!бно вiдзначити, що алгоритми побудови класифiкаторiв на основ! навчаючих вибь рок е нестабiльними, оскшьки нерегулярною е сама навчаюча виб!рка. Внаслiдок цього i виникла щея у розробщ шших алгоритмiв, як! частково використовують статистичне ма-шинне навчання, однак мають значно меншу чутливють до неоднорщносп навчаючих виб!рок.

2. Формулювання задачi

В данш робот! увага придшяеться задачам, що частково використовують навчання, тобто задачам машинного навчання. Зпдно ¡з загальною концепщею машинного навчання генеральна виб!рка розбиваеться на навчаючу та тестову, або контрольну тдвиб!рки. Для навчаючо! тдвиб!рки вважаеться, що належтсть об'екта до свого класу е вщомою. На контрол! перев!ряеться надшнють роботи алгоритму. Надштсть роботи алгоритм!в перев!ряеться методами ковзаючого контролю, яких е достатньо велика кшьюсть р!зно-вид!в [5,6].

Залежно вщ складносп класифшацп вс об'екти можна розбити на три групи: об'екти, як! е стабшьними i класифшуються з великою надштстю, об'екти, що належать пограничнш зон! м!ж класами, та об'екти, що належать одному класу та занурет глибоко в середину шшого ласу [7]. Серед тих об'екпв, як! можуть спричинити помилку, найбшьшу частину складають пограничт об'екти. Тому важливим е розробити алгоритм, що дозволяе вид!ляти найбшьшу кшьюсть пограничних об'екпв. Оскшьки класифшащя пограничних об'екпв е ненадшною. то потр!бно застосувати спещальт верифшацшт алгоритми щодо визначення клас!в, до яких дшсно належать пограничт об'екти. Однак дана робота присвячена першо-

му етапу ieрархiчного алгоритму класифшацп - розробщ консенсусного алгоритму для детектування пограничних об'екпв. Також задача полягае у визначеннi ймовiрностей попа-дання об'екта у кожну iз згаданих вище груп об'ектiв.

Оскiльки математичний апарат, що використовуеться в данш роботi, вiдноситься до побудови комбшованих або iерархiчних алгоритмiв, то важливо присвятити декшька роздiлiв розгляду задачi класифшацп саме з ще1 точки зору.

3. Комбшування результатiв класифнкацп

Розглянемо задачу класифшацп об'ектiв на п класiв. Вважаемо, що класифшащя здiйснюеться ансамблем або композицiею класифiкаторiв. Нехай I - число об'екпв, а р-число алгоритмiв класифшацп. Кожний алгоритм (позначаеться iндексом р, р = 1,...р) асо-щюе кожний об'ект з одним i лише одним класом. Можна зобразити результат роботи р -го алгоритму за допомогою бшарно1 прямокутно! матриц Вр з I рядками i 1р стовпцями, де Jp - це число клаав:

Вк = I1, 1е к;

1 1 0, 1 е к,

тут 1 = 1,...1, к = 1,...Др,а Вр називаеться блочною матрицею. Перелiчимо властивостi

матрицi Вр :

1) Вс колонки матрицi В ортогональна

2) е врк =1.

к=1

Jp

3) Якщо об'екти 1 та 1 з одного класу (мають однакову мггку), то е Вр,Вр1 = 1, шакше

к=1

е ВркВр = 0.

к=1

Представимо матрицю В у виглядi об'еднання матриць Вр так, що

В = [В1,...,Вр,...,Вр] .

Тут вiдстань мiж об'ектами 1 та 1 може бути представлена у виглядi добутку В; та В1. Якщо об'екти 1 та 1 завжди в тому самому клас для рiзних алгоршмв Р, то скалярний

добуток векторiв В1В1 рiвний Р, в шшому випадку В1В1 = 0 . Скалярний добуток

р

Е Jp

В1В1 = р=^ ВА = 0

к=1

мае двi важливi властивостi:

1) обмеження знизу значенням нуля;

2) обмеження значенням Р зверху.

Пюля нормалiзацil на Р отримаемо 0 < В1В1 < 1.

Вщстань мiж об'ектами 1 та 1 може бути представлена у виглядк

р

ЕЕ Jp

^в1) = 1 - р=е В;кВ1к.

к=1

4. Блочш алгоритми

Визначимо евклiдову вiдстань dE(BiBl) мiж точками В1 та В1:

р

ЕЕ Jp

dE(В;,В1) = (В! - В1)2 = р=е (В* - В1к)2 = 2Р - 2В^.

к=1

Хемшгова вщстань мiж об'ектами i та l представляеться у виглядi:

¿и(В1,Б1) = ^dE(Bi,Bi) = P - BiBl.

Хемшгова вiдстань показуе число бiт, на якi вiдрiзняються двi двiйковi послiдовностi. 5. 1мов1рн1сна модель кластеризацн на 0CH0Bi розподiлу Бернуллi

Оскiльки матриця B е бшарною, то вважаемо, що Bei 11 колонки мають розподiл Бернуллi з параметром ц:

p(b | ц) = п ^(i -Ц j)1_Bj j=i '

де Ц = {щ,...,Ц,. .,l-^j} . Середне значення розподшу piBHe E[B] = ц , а коварiацiйна матриця дорiвнюе cov[B] = diag{-j(1 -ц j)}.

Сумiш з k компонент розподiлу Бернуллi для об'екта в; мае вигляд

P(Bi | Ц,а) = е аkPk(B;|-k),

k=1

де - = {-1j,..., -kj,...,-kj}, а ймовiрнiсть для B; даного -k е

Pk(B;||k) =г1 iBjij (1 -|kj)l-Bij j = 1

Знайдемо правдоподiбнiсть для об'екта Bi, даних ц i а , якщо даш у в незалежш та щентично розподiленi:

log P(B | ц, a) = log п P(Bi | ц, а) = £ log J £ аkPk (Bi | цk)}

i=1 i=1 lk=1 J

Використовуючи теорему Баеса, можна отримати ваги або умовну ймовiрнiсть того, що значення в; належить класу k :

w = аkPk(Bi|Цk)

Wik = к--

еа^В^) l=i

Для визначення параметрiв розподiлу Берну^ пропонуеться EM - алгоритм. Параметри ц та а обчислюються на крощ M, а ваги обчислюються на кроцi E. Очiкувана кшьюсть

I

об'ектiв Nk компонента k е: Nk = £ Wik .

i=i

Середне значення компонента дорiвнюе

l ^ B Nk

!kj = ТгЕWikBij i аk = — Nk i=i k N

Вiдзнaчимо, що мають виконуватись таю нерiвностi:

е К=л = i; е J=i!kj = i; 0^ <l; 0<!k <1.

На рис. l наведенi псевдокоди EM - алгоритму для розподшу Бернулл1

1: Initialise К means ц^ and at. 2 E-step

2.1: Calculate piobpbilities | /.i^ )

j

3=1

2,2: Calculate weights w,k

<*ki>m i ы

Wik = ■

14!

i=i

4: M-step Re-est±rHate parameters I

4.1: Щц = У^ tUjt.

¿=1

4,2:

4.3:

5:

1 J

= тг

«fc = "тг-Evaluate the log-likelihood kmc lion:

logP(B \ц,а) =]Tlog\pk)\

i=i I fe-i J

6: If log-like lihood is converged, then slop, else go to Step 2,

Рис. 1. Псевдокод EM - алгоритму для розпод1лу Бернуллi 6. Полiномiальна модель

Полшетшальний розподш застосовуеться тод1, коли елементи бшарно! матриц е взаемо-виключними. Якщо p - число р1зних кластеризацш, кожна з яких мае Kp кластер1в, p = 1,...,P, jp = 1,...,Kp - шдекс кластеру jp в кластеризаци P . Ймов1рн1сть того, що Bijp = 1,

р1вна pij . Тод1

p

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ijp

P(V = п j

jp=

тут Pijp > 0 i xj=i = 1, Vi,p. Пол1ном1альний розподш при цьому запишеться у виглядк

p Jp B;

p(b|p) = пп^ jjp

p=ijp=1 p

де

. Сумш з k

компонент для полiномiального розподiлу запишеться

у виглядi:

P(Bi|p, а) = £а kPk(Bi|p k).

k=1

Функцiя вiдношення прaвдоподiбностей та умовна ймовiрнiсть того, що Bi е k , пред-ставляеться aнaлогiчно бiномiaльному випадку.

Очiкувaнa кiлькiсть елементiв Nk k -го компонента та iншi елементи, що входять у модель сушш^ представляеться так:

j

Nk = z wik; i=1

Nk

ak =—;

kN

^ = iNkSBijp'

Для iнщiалiзащl коефiцieнтiв ak часто приймають, що ak = 1/K.

На рис.2 наведеш псевдокоди ЕМ - алгоритму для полшоупального розподшу. 1: Initialise К means рк arid

2 E-step

2,1: Calculate probabilities Pk(Bi | /iij

p=i jP=i

2,2: Calculate weights wlk

акРк(В1 | y Щк = -

| fit)

1=1

4: M-step Re-estimate parameters Nk I

4.1: Nk = J2u4k-i=1

! 1

1=1

4,3: Q =

ЛГ

5: Evaluate the log-likelihood function:

log P(B \ ^ а) =^^\^акРк(Вг\

i=i U=i J

6: if log-likelihood is converged, then stop, else go to Step 2, Рис.2. Псевдокод EM - алгоритму для полшом1ального розподалу

7. Модель кластеризацн на 0CH0Bi визначення найбшьш стабiльних об'еклв

1дея побудови дано! моделi полягае в тому, що загальна сукупнють об'eктiв, якi тдляга-ють класифшацп розбиваеться на три функцiональнi групи. До першо! групи належать об'екти, що мають високу надiйнiсть класифшацп. Висока надiйнiсть класифшацп означае, що об'екти класифшуються коректно при сильних (максимальних) вщхиленнях параметрiв вiд оптимальних. З точки зору складносп класифшацп цi об'екти вiдносяться до групи легких об'екпв. До друго! групи належать об'екти, на яких немае консенсусу. Якщо вибрати два алгоритми у композицп алгоршмв, то вони повинш бути максимально несхожi [8] i на них не повинно бути консенсусу. Якщо використовувати бшьшу кiлькiсть алгоритмiв, то об'ект належатиме до друго! групи, якщо немае консенсусу на вшх алгоритмах. Якщо для побудови консенсусу використовувати промiжнi алгоритми, параметри яких знаходять-ся в межах iнтервалiв мiж параметрами двох найбшьш неподiбних алгоритмiв, то це не дае можливосп видшяти бiльшу кiлькiсть об'ектiв, на яких немае консенсусу. Неподiбнiсть мiж алгоритмами визначаеться на основi хемшгово! вщсташ мiж результатами роботи двох алгоршмв, заданих у виглядi двiйкових послщовностей. На практицi це означае також, що в цшому не будуть видшятись i новi за складом об'екти, якщо використовувати консенсус iз

бшьшого числа алгоршмв. Третя група складасться з тих об'eктiв, на яких помиляються обидва алгоритми i при цьому вони знаходяться у консенсуса Помилка, що обумовлюеться цими об'ектами, не може бути зменшена вже за жодних умов. Таким чином, помилка не може бути меншою за значення, що обумовлюеться вщносною долею об'екпв iз третьо! групи. Наступним кроком буде перекласифiкацiя об'екпв iз друго! групи, тобто визначення, до якого саме класу належить той чи шший об'ект.

Дослщження, що проводяться в цш роботу стосуються аналiзу статистичних характеристик результата консенсусу, побудованих на основi двох алгоршмв. Задачею аналiзу е визначення регулярносп статистичних характеристик на рiзних пiдвибiрках, взятих шляхом розбиття генерально! вибiрки на блоки рiзних розмiрiв. Розподiли ймовiрностей по консенсусу для трьох груп об'екпв здшснювались непараметричним оцшюванням за допомогою вiкна Парзена з використанням гаушвських ядер.

На рис. 3-6 наведеш графiчнi залежностi результатiв консенсусу для задач, взятих iз репозиторiю иС1. Цей репозиторiй сформований у Калiфорнiйському унiверситетi. Структура даних в задачах iз цього репозиторiю е такою. Кожна задача записана у виглядi текстового файлу, де стовпцями е ознаки того чи шшого об'екта, а рядки складаються iз сукупносп ознак для того чи шшого об'екта, тобто кшьюсть рядюв вiдповiдае кiлькостi об'ектiв, а кшькосп стовпцiв - число ознак для кожного об'екта. Окремий стовпець складаеться iз мггок класiв, якими позначений кожний об'ект. Дуже багато задач iз цього репозиторiю стосуються таких галузей, як бюлопя та медицина. На рис. 3-6 суцшьною лшею позначено розподiл результатiв, отриманих за допомогою алгоршмв крос-валщацп на пiдвибiрках з мiнiмальним розмiром Q=200, а штрихпунктирною - на пiдвибiрках iз мiнiмальним розмiром Q=30.

а б в

Рис. 3. Задача " pima-indians-diabetes" 1з репозиторш иС1: а - непараметрично оцшена густина розпод1лу ймов1рностей правильного консенсусу 1з двох алгоритм1в;б - непараметрично оцшена густина розпод1лу ймов1рностей неправильного консенсусу 1з двох алгоритшв; в - непараметрично оцшена густина розпод1лу ймов1рностей неконсенсусу 1з двох алгоритшв

а б в

Рис. 4. Задача "Ьира" 1з репозиторш иС1: а - непараметрично оцшена густина розпод1лу ймов1рнос-тей правильного консенсусу 1з двох алгоршшв;б - непараметрично оцшена густина розпод1лу ймов1рностей неправильного консенсусу 1з двох алгоршшв;в - непараметрично оцшена густина розпод1лу ймов1рностей неконсенсусу 1з двох алгоршшв

.....'д 1

д 3*° А 70 60 50 " 40 30 20 10 А

73 0.74 0.75 0.76 0.77 0.78 0.79 0.8 0.81 0 32 „ / , \ , J , V ,У V , г.......

а б в

Рис. 5. Задача "haberman" i3 репозиторш UCI: а - непараметрично оц1нена густина розпод1лу ймовь рностей правильного консенсусу i3 двох алгоритмiв;б - непараметрично оцшена густина розподiлу ймовiрностей неправильного консенсусу i3 двох алгоритмiв;в - непараметрично оцшена густина розпод1лу ймовiрностей неконсенсусу i3 двох алгоритмiв

а б в

Рис. 6. Задача "dermatology " i3 репозиторiю UCI: а - непараметрично оцшена густина розпод1лу ймовiрностей правильного консенсусу i3 двох алгоритшв; б - непараметрично оцшена густина розпод1лу ймовiрностей неправильного консенсусу i3 двох алгоритмiв; в - непараметрично оцшена густина розпод1лу ймовiрностей неконсенсусу i3 двох алгоритмiв

У табл. 1-4 наведеш оцшки ймов1рностей попадання кожного об'екта i3 задач репозиторш UCI у кожну i3 трьох груп об'екпв. У даному випадку об'екти, на яких юнуе консенсус найбiльш неподiбних алгорштшв, вiдносяться до "простих" об'ектiв, а об'екти, на яких обидва алгоритми, що утворюють помилковий консенсус, вщносяться до групи об'ектiв, що спричиняють некоректовану помилку, яку не можна зменшити в принцит; об'екти, на яких немае консенсусу, вщносяться до групи пограничних об'екпв. У табл.1-4 також наведеш дисперсп вiдповiдних ймовiрностей. Мiнiмальний розмiр блокiв, на основi яких побудованi оцiнки, в одному випадку складае 30 об'екпв, а в шшому - 200.

Таблиця 1. Задача "pima" 1з репозиторш UCI

Q=200 Q=30

а а

Имовiрнiсть консенсусу 0.635 0.024 0.611 0.064

Помилка консенсусу 0.041 0.006 0.046 0.013

Ймовiрнiсть неконсенсусу 0.324 0.019 0.344 0.052

Таблиця 2. Задача "bupa" 1з репозиторш UCI

Q=200 Q=30

а а

Имовiрнiсть консенсусу 0.616 0.008 0.599 0.030

Помилка консенсусу 0.040 0.002 0.048 0.016

Ймовiрнiсть неконсенсусу 0.344 0.008 0.353 0.017

Q=200 Q=30

Ц а Ц а

Имовiрнiсть консенсусу 0.767 0.006 0.771 0.013

Помилка консенсусу 0.051 0.004 0.043 0.013

Имовiрнiсть неконсенсусу 0.183 0.004 0.186 0.011

Таблиця 4. Задача "dermatology" i3 репозиторiю UCI

Q=200 Q=30

Ц а Ц а

Имовiрнiсть консенсусу 0.962 0.004 0.961 0.007

Помилка консенсусу 0.002 0.002 0.001 0.001

Имовiрнiсть неконсенсусу 0.036 0.003 0.038 0.007

У табл. 5 наведена доля помилок на тестових даних при тестуванш рiзних алгоршмв класифшацп для двох задач iз репозиторiю иС1. Для запропонованого методу наведет мшмальш та максимальш помилки, що можна отримати на приведених тестових задачах.

Таблиця 5. Пор1вняння результапв класифжацп рiзними методами

Метод Задача bupa pima

Monotone (SVM) 0.313 0.236

Monotone (Parzen) 0.327 0.302

AdaBoost (SVM) 0.307 0.227

AdaBoost (Parzen) 0.33 0.290

SVM 0.422 0.230

Parzen 0.338 0.307

RVM 0.333 -

Запропонований метод (min/max) 0.040/0.212 0.041/0.203

В табл. 5 для запропонованого алгоритму значення мшмально! помилки дор1внюе по-милщ консенсусу, а максимально!' - сум1 мшмально! та половин! помилки неконсенсусу. Як видно i3 табл. 5, значення максимально!' помилки значно менше вщ найменшого значення помилки вшх наведених алгоритмiв для обох задач iз репозиторiю UCI. В порiвняннi iз деякими алгоритмами значення мшмально! помилки для запропонованого алгоритму менше на порядок. Запропонований метод характеризусться значно бшьшою стабшьшстю помилок класифшацп за iншi методи.

8. Аналiз отриманих статистичних характеристик

На рис. 3-6 наведеш параметрично оцшеш густини розподiлiв ймовiрностей для ймовiр-ностi правильного консенсусу, ймовiрностi неправильного консенсусу та ймовiрностi неконсенсусу. Як можна побачити з цих рисунюв, данi розподши можуть бути представленi за допомогою однокомпонентно!, двокомпонентно! або багатокомпонентно! моделi розподiлiв. Багатокомпонентна модель задаеться сумшшю гаусiан, якi входять iз сво!ми коефщента-ми впливу. Параметри розподшв та коефiцiентiв участi у моделi оцiнюються за допомогою EM - алгоритму. Оцшювання значень вiдповiдних ймовiрностей здiйснювалось блоками з мiнiмальним розмiром у Q = 30 та Q = 200 елеменпв. Даш розмiри блокiв обумовлюються розмiрами малих вибiрок, якi за рiзними критерiями коливаються в межах вiд 30 до 200 елеменпв [9]. Зпдно iз стандартним означенням малою вибiркою називаеться вибiрка, що характеризуеться нерегулярними статистичними характеристиками. Як видно iз вшх ри-сункiв, оцшки по блоках iз мiнiмальним розмiром у 30 елементiв е нерегулярними, що вказуе на те, що для даних задач пiдвибiрки розмiром у 30 елеменпв i дещо бiльшим е малими. На це вказують довп хвости у вщповщних розподiлах ймовiрностей. Максимум у нульовш точцi для двокомпонентних моделей характеризуеться великою кшьюстю нульових ймовiр-

ностей. Це може бути, коли немае помилок у робот консенсусу iз двох алгоршмв. Оцшки вiдповiдних ймовiрностей на основi середнiх значень та за максимумом вщповщних роз-подшв iмовiрностей (оцiнка за максимумом правдоподiбностi) не сильно вiдрiзняються, що дае додаткову гарантда на правдоподiбнiсть вщповщних оцшок. Значення отриманих оцiнок ймовiрностей правильного консенсусу, неправильного консенсусу та ймовiрностi неконсенсусу дае можливють оцiнити складнiсть задач з точки зору класифшацп. Задачi та алгорит-ми оцiнки складностi задач розтзнавання розглянутi у [10]. Так, задачi "pima" i "bupa" е приблизно однаков^ оскiльки значення зазначених трьох ймовiрностей е приблизно однако-вими. Задача "haberman" е менш складною, а задача "dermatology" е найпроспшою iз всiх чотирьох задач. Математичний аналiз побудови композицiй алгоритмiв детально розгляну-тий у [11].

9. Висновки

В робот визначеш ймовiрностi попадання в кожну iз трьох груп об'ектiв: група простих об'екпв, на яких досягаеться правильний консенсус iз двох алгоритмiв, група об'екпв, на яких досягнутий неправильний консенсус iз двох алгоритмiв, та група об'екпв на яких не досягаеться консенсус. Аналiз показуе, що юнують розподiли даних ймовiрностей, як можна представляти у виглядi багатокомпонентних моделей, зокрема багатокомпонентно! моделi сумiшi гаусiан. Все це дае можливють аналiзувати запропонованi алгоритми методами математично! статистики та теорп ймовiрностей. З наведених рисункiв i таблиць видно, що оцшки ймовiрностей при використанш методiв ковзаючого контролю з усередненням по блоках з мшмальним розмiром у 30 та 200 елементв мало вiдрiзняються мiж собою, що дае можливють зробити висновок про те, що такий метод побудови консенсусу, де у консенсус беруть участь найбшьш несхожi алгоритми, е достатньо регулярним i не мае тако! чутливосп до вибiрки, як iншi алгоритми, що використовують навчання. Як видно iз вщповщних таблиць, мшмальна помилка класифшацп е практично на порядок меншою вщ найкращих iснуючих алгоритмiв, а максимальна помилка - меншою вщ 1,5 до 2-х разiв. Також вщповщш помилки е значно стабiльнiшi як вщносно задачi, на якш тестуеться метод, так i вiдносно серп наведених алгоршмв, де значення помилки мае достатньо велику дисперсда. Бшьше того, оскiльки значення мшмально! помилки е достатньо малим i стабшьним, то це гарантуе стабiльнiсть отримання коректних результата класифшацп на об'ектах, на яких досягаеться консенсус максимально несхожих алгоршмв. Вщносно шших алгоршмв тако! впевненостi не буде. Дшсно, значення помилки на рiвнi 30-40% (у порiвняннi iз 4%) не дае жодно! впевненостi у результатах класифшацп.

Список лiтератури: 1. Vapnik V. The nature of statistical learning theory. New York: Springer-Verlag, 2 edn, 2000. 2. Bishop C. Pattern recognition and machine learning. New York: Springer, 2006. 3. Kyrgyzov I. Recherche dans les bases de donnes satellitaires despaysages et application au milieu urban :clustering, consensus et catgorisation. Ph.D. thesis. Paris: L'cole Nationale Supriere des Tlcommunications, 2008. 4. Taylor, J., Cristianini, N.: Kernel methods for pattern analysis. New York: Cambridge University Press, 2004. 5. Kohavi, R. A study of cross-validation and bootstrap for accuracy estimation and model selection // 14th International Joint Conference on Artificial Intelligence, Palais de Congres, Montreal, Quebec, Canada, 1995. P. 1137-1145. 6. Mullin, M., Sukthankar, R. Complete cross-validation for nearest neighbor classifiers // Proceedings ofInternational Conference on Machine Learning, 2000. P. 639-646. 7. VorontsovK. Combinatorial approach to quality estimation of learning algorithms // Mathematical questions of cybernetic, 13, 2004. P. 536. 8. Vorontsov K. On the influence of similarity of classifiers on the probability of overfitting pattern recognition and image analysis: new information technologies // Pattern Recognition and Image Analysis: new information technologies (PRIA-9), Volume 2, Nizhni Novgorod, Russian Federation, 2008. P. 303-306. 9. Гуров С.И. Оценка надёжности классифицирующих алгоритмов. М.: Издательский отдел ф-та ВМиК МГУ, 2003. 45 с. 10. BasuM. Data complexity in pattern recognition. London: Springer, 2006. 11. Zhuravlev, J. About the algebraic approach to recognition or classification tasks solution // Problems of cybernetics, 33, 1978. P. 5-68.

Таянов В^алш Анатолшович, канд. техн. наук, старший викладач ЛД1НТУ 1м. В'ячеслава

Чорновола. Науков1 1нгереси: математичш методи розтзнавання образ1в. Адреса: Украша,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

79057, Льв1в, вул. генерала Чупринки, 130, тел. 237-80-73, e-mail: vtayanov@yahoo.com.

i Надоели баннеры? Вы всегда можете отключить рекламу.