Научная статья на тему 'Оценка эффективности модели обучения и качества работы метрических классификаторов'

Оценка эффективности модели обучения и качества работы метрических классификаторов Текст научной статьи по специальности «Математика»

CC BY
52
6
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Капустий Б.Е., Русын Б.П., Таянов В.А.

В работе приведена полная концепция вероятностно-комбинаторного подхода, являющаяся результатом длительных предварительных исследований. Подход дает возможность установить причины переобучения алгоритмов распознавания, определить возможные пути его уменьшения, а также строить максимально точные оценки вероятности распознавания. Комбинаторный подход работает с детерминированными результатами распознавания, а вероятностный определяет вероятность существования этих результатов. Основная ценность комбинаторного подхода состоит в том, что он дает возможность определить влияние изменения размера обучающих данных на различные алгоритмы, выбрать наиболее оптимальный из них или композицию оптимальных алгоритмов. Вероятностная часть определяет вероятность результатов, полученных на основании комбинаторного подхода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Оцiнка ефективностi моделi навчання та якостi роботи метричних класифiкаторiв

In this paper the full conception of the probabilistically combinatorial approach has been presented. This conception is the result of previous long preliminary works. The approach gives the possibility to establish the reasons of recognition algorithms overtraining, to define the possible ways of it reduction and to build the most precise estimates of the recognition probability. The combinatorial approach works with determined data of the recognition process and the probabilistic one determines the probability of these results existence. The most usefulness of the combinatorial approach consists in the possibility to determine the training set variation influence on the different algorithms and select the most appropriate one from these algorithms or algorithm composition. The probabilistic part of this approach determines the probability of results obtained on the basis of combinatorial approach.

Текст научной работы на тему «Оценка эффективности модели обучения и качества работы метрических классификаторов»

УДК 004.93

ОЦ1НКА ЕФЕКТИВНОСТ1 МОДЕЛ1 НАВЧАННЯ ТА ЯКОСТ1 РОБОТИ МЕТРИЧНИХ КЛАСИФ1КАТОР1В (с) Капустш Б.О., Русин Б.П., Таянов В.А.

Нацюнальний ун1верситет «Львюська полггехшка» кафедра теоретично! радютехн1ки та радювим1рюванв jtpe

вул. С. Бандери, 12, м. Львт, 79013, Украша

ф13ико-механ1чний шститут im. Г.В. Карпенка НАН Украши в1дд1л метод1в та систем овровки, анал13у та 1дентиф1кацп зовраженв

вул. Наукова, 5, м. Львт, 79601, Украша e-mail: vtayanov@ipm.lviv.ua

Abstract. In this paper the full conception of the probabilistically combinatorial approach has been presented. This conception is the result of previous long preliminary works. The approach gives the possibility to establish the reasons of recognition algorithms overtraining, to define the possible ways of it reduction and to build the most precise estimates of the recognition probability. The combinatorial approach works with determined data of the recognition process and the probabilistic one determines the probability of these results existence. The most usefulness of the combinatorial approach consists in the possibility to determine the training set variation influence on the different algorithms and select the most appropriate one from these algorithms or algorithm composition. The probabilistic part of this approach determines the probability of results obtained on the basis of combinatorial approach.

ВСТУП

Yci клаеифжукга алгоритми можуть бути подшеш на три групп: алгоритми з иавчаниям, п еамонавчанням та алгоритми, гцо не викориетовують навчання як такого. Найбшын важливими i щкавими е алгоритми, хцо викориетовують навчання. U,i алгоритми е об'ектом доелщження в рамках теорп машинного навчання (Theory of Machine Learning), яка доио.ii швидко й veniniHO розвиваетьея на протяз1 оетан-iiix десяти рогав [7]. У рамках ще'Т теорп розглядаються тага иаж. шш питания, як визначення оптимального складу навчаючоТ mioipKii. навчання клаеифжатор1в та побудова оптимально! композицп клаеифжатор1в, що задовольняе певним умовам, а також генеращя та еелекщя найбшын шформативних ознак. Алгоритми, що доз-воляють певпою Mipoio виршувати щ питания, ноеять назви Bagging, Boosting та Random Space Method (RSM). Ana. li з цпх a. iropiri .\iir, встановлюе одну епшьну ix рису, сирямовану на зменшепия надлпшковоста та нешформатпвноста як у самих даних (визначення оптимального складу навчаючоТ mioiprai та набору найбшын in-форматпвнпх ознак), так i надлпшковоста (складноста) самого апарату клаеифжацп, а, власие, класифжуючпх a. iropiri .\iir,. Тому iioi piono спочатку визначити вплив нав-чаючих даних на процее розшзнавання з тим, щоб потам провести генерування та еелекщю найбшьш 1пформативпих ознак та налаштування параметр1в класиф1като-ра таким чином, щоб .\iini.\iiзуг.ач н перенавчання a. iropiri ,\Гп; i досягтп найбшьшого значения ймов1рноета правильного розп1знавання.

У дашй poooi i розглядаються .\iei рнчш класиф1катори. Серед vcix метричиих к. тшфпопорп; найбшьш часто для побудовп практпчнпх цшьовпх систем, що за-стосовуються в pi ¡них галузях . 11я. ibiioc i i людини, застосовуються класиф1катори

типу £N14, яга викориетовують щею класифжацп на основ1 найближчого еуещетва. Переваги ироетих метричиих алгоритм1в типу е такими:

• Простота реалгзацгг та можливгсть введения ргзномангтних модифгкацгй;

• Можливгсть гнтерпретацгг розпгзнавання шляхом предъявления, кориетувачу найближчого об'екта, або декыькох. «Прецедентна» логта, роботи алгоритму е добре зрозумглою експертам з 'таких предметних областей, як медицина, бгометргя, юриспруденцгя, м,еталофг,зика, робототехнта та т.

1, Проблеми теорн машинного навчання класиф1куючих

алгоритм1в

В еучаенш теорп машинного навчання н-нукп ь . гIеерйозш проблеми: отримання точних верхшх оцшок ймов1рноета такого негативного явнща, як перенавчання, та епоеоб1в боротьбн з ним. На даний момент найбшын точш з вщомих оцшок значно завищеш, Екепериментально вдалоея ветановити оеновш причини завпщення ощнок, У порядку зменшення впливу, вони е наетупними:

1, Нехтування ефектом розшарування або локалгзацгг сгмейства алгоритм,¡в. Дана проблема обумовлюеться тим,, що залежно вгд виду задачл використо-вуеться, не все сгмейство алгоритм,¡в, а, лише певна, його частина. Коефщген'т завищеност{ знаходитъся в межах вгд декыькох десяткгв до сотень тисяч.

2, Нехтування схожгстю алгоритм,¡в. Коефщген'т завищеност{ становитъ для, цього фактора, вгд декыькох сотень до десяткгв 'тисяч. Цей фактор завжди присутнгй % менш залежний вгд виду задачл, нгж перший.

3, Експоненцгйна апроксимацгя «хвоста» ггпергеометричного розподглу. В цьому випадку коефщген'т завищеност{ може складати декглька десяткгв.

4, Верхня оцгнка профыя, ргзномангтностг представляешься, одним скалярним коефгцгентом ргзномангтностг. Коефщген'т завищеност{ часто порядку оди-ницг, однак у деяких випадках може досягати декыькох десяткгв.

Причина ефекту перенавчання обумовлюеться тим, що викориетовуютьея алго-ритми з мтмальним числом помилок на навчаючш инб'фш. тобто вщбуваетьея од-ноб'ршо налаштування них алгоритм1в, Перенавчання буде тим бшынпм, чим бшыну композищю з нлгорнч ,\1*п; ми викориетовуемо для класифжацп, якщо алгоритми бе-рутьея з розподшу випадково 1 незалежно, У випадку залежноета алгоритм1в (в ре-нлыпп еитуацп вони, як правило, такими 1 е) перенавчання зменшитьея, Отже, при вибор1 ннип ь одного з двох алгоритм1в може виникнути перенавчання, Розшарування нлгорнч ,\Гп; за числом помилок та збшынення 1хпьо1 под1бноета змепшують ймов1р-шп ь перенавчання, Розглянемо для прикладу дуплет «виб1рка-алгоритм», Кожний алгоритм покривае пег,ну чаетину об'ектав навчаючо! виб1рки, Якщо викориетову-вати г,ну!р*1 шн*1 критерп [6] (наприклад, у випадку метричиих клнпк|нк;порп;)- то можна оцшити п шгап ь цього покрпття 1 звузити число покритих об'ектав зпдпо 1 з заданим рпше.м етшкоеть Таким чином, для того щоб покрити бшыну гальгаеть, потр1бно застосуватп бшыну гальгаеть нлгорпч .\пи. 11*1 алгоритми мають бути схожими 1 мати р1зний р1вень помилок, Однак, якщо викориетовуютьея теетов1 дат,

до яких композищя а. порт ,\Гп; неадаптована, то помилка класифжацп може до-сить сильно шд]я шя ! нем вщ .\iini.\ia. 1ыюТ. отрпманоТ на навчаючих даних, 3 ¡итого боку, щкавою представляеться задача по визначенню кшькоеи надлпшковоТ шфор-мацп у навчаючих даних, Доцшьшеть у зменшенш навчаючих даних полягае в тому, що для кожного конкретного г,пиалку зменшуетьея також 1 кшьгаеть об'ектав пшшх клапк. що заважають класифжацп, При цьому иотр1бно оцшити еередне значения розм1ру клаеу, що забезиечуе потр1бний р1вень чаетоти помилок, Зменшення кшько-п *1 навчаючих даних також означав зменшення ро ¡.\iipy клае1в на еташ теетування, Оцшка ефекту вщ понижения ро ¡.\iipy навчаючих даних дае можливють визначити структуру цих даних, тобто ешввщношения м1ж еталониими об'ектами та об'ектами-викидами, пороговими або нешформативпими, Кр1м того, чим менший розм1р клаеу, тим менший чае, потр1бний для прийняття р'ппення. Однак найбшьшою цшшетю да-ного п*1.1ходу е те, що вш дозволяе детальн1ше вивчити 1 глибше зрозум1ти явище перенавчання алгоритм1в.

2. пщходи до оц1нки якостг роботи класиф1катор1в

Як1еть роботи клаеифжатор1в прийнято характеризувати через поняття вщету-nv (margin), що представляв вщетань об'екта вщ роздшювально'Т гшерплощини, Чим бшьший вщетуп, тим кращим вважаетьея клаеифжатор, Однак якщо Bei об'екти або переважна Тх бшытеть мають приблизио однаковий вщетуп i групуютьея один бшя одного, то в цьому випадку piзко падае Тх шформатившеть, Це означав, що зам1еть Beix ooV k i ir, можна залишити один або декшька, що викориетовуютьея для навчання. Такий шдхщ иороджуе одну з оеновних причин, що обумовлюють ефект перенавчання. О. ihoo'pihc налаштування алгоритма розп1зпаванпя на ocuor.i блпзько'Т за еуттю навчаючо'Т 1нформацп приводить до того, що на контрольнш виб1рщ в1н може часто помилятиеь, наг.'п ь якщо Bin не помплявся на навчаючш впб1рщ. Л'п'н-но. ймов1рн1сть того, що в умовах навчаючо'Т впб1ркп зуетршетьея така ж ептуащя, е близькою до нуля.

Тому для навчання прийнято викориетовувати несхож*! i «важга» для алгоритма об'екти з малими значениями вщетупу, Ця щея викориетана, зокрема, у .\ie io. ii оиор-них вектор1в (Support Vector Machine) або метод1 зваженого голосування. Застосуемо узагальнений ni. ixi. i для характеристики класиф1катор1в на опюш поняття вщсту-пу. Результатом роботи метричних класиф1катор1в е ранжоваш дан1 (посортован1 за ступенем по. lionoc i i до тестового об'екти бази даних). Для таких класиф1катор1в по-няття вщступу представляеться паступпим чином. Вводиться окшиа. нчп на до кла-сичного вщступу характеристика, яка для даного об'екта може бути представлена як вщноена вщетань м1ж його вщетанями вщ тестового об'екта та шд усередиепого об'екта бази даних або останнього об'екта з однорщно'Т (стратег1чно'Т) [3] иослщовност1 «сво'Тх» об'ектав, Передбачаеться, що хоча б частина «ево'Тх» об'ект1в розташовуються на початку списку можливих претепдеитав. Таким чином, гарантуетьея корек ч nic i ь даного означення.

2,1, Характеристика метричних класиф!катор!в. Для бшын строгого означения даноТ характеристики iio i piono ввести поняття розподшу вщстаней ,\ií>k об'ектами, Оскшьки значения вщстаней може бути довшьнпм, то процедура непараметрично-го оцшювання розподшу неус1ченими ядерними функщямн буде коректною, Якщо оцшене математичне спод1вання нормального закону розподшу piene р, а дпспер-<чя -а2, то вщноена вщстань може бути оцшена через параметр г у ипгля i.i = ^^,

То. i.i нормальний закон розподшу вщстаней представляеться як p{z) = ^е На практнщ бшыну корпеть мае не саме значения параметру 2", а функщя розподь лу P{z) = J' /'(с)'/:. Функщя розподшу в даному випадку е однозначною характеристикою вщокремлення «свого» об'екта вщ еукупноета «чужих» об'ектав, Оскшьки гшерплощпна у випадку порогових класифжатор1в викопуе роль гранищ м1ж кла-сами, то екшиалет на Tii характеристика для метричних клаенфжатор1в впзначае, наскшькп добре об'екти «свого» класу вщокремлюютьея шд сукупноп i «чужих» o6'eKTÍB, Ця характеристика мае строге математичне обгрутуиання i е функщею розподшу ймов1рностей [6],

Задача збшынення вщетупу у випадку метричних клаенфжатор1в на ochobí нав-чаючо! виб1рки внршуетьея наетупним чином. Першим етратепчннм напрямком е зменшення диепереп густипи розподшу вщстаней м1ж об'ектами, а також збшьшення середнього значения цього розподшу, В рамках теорп поелщовного ана. и ¡у це означав, що може бути збшынена база дапих, а ймов1ршеть правильного розшзна-вання залпшатпметьея на тому самому pir.ni. Другпй етратепчнпй напрямок полягае в тому, що потр1бно прагнутп, щоб розподш вщстаней був якомога ближним до нормального, Ця i.чем обг^рунтовуеться наетупним чином,

Розглянемо розподш ознак у лшшному багатовнм1рному або вщстаней .\ií>k об'ектами в одновим1рному npoeTopi та проведемо його ана. ii¡. Ймов1ршеть помп.i-ки розшзнавання для /л = 0 може бути представлена як f р(х) dx, де в - nopir,

\х\>в

Згщно з нер1вшетю Чебишева [5] отримаемо f р(х) dx < j?. Розглянемо вппадок

\х\>в

PÍbhoctí сере, uiix зпачепь та . uiciiepciii розподшу р(х). Верхпя межа для одномодаль-пого розподшу з модою p,Q обчпслюеться за допомогою nepiBHOCTÍ Гауса наетупним чином [4]:

р(|х-/Х|>АГ) (1)

де т2 = а2 + (ц — р,о)2.

Нехай ¡л = fj,Q = 0 та т = a, m. i.i nopir в = А а, а А = Таким чином, iiepinnici ь Гауса для порогу в може бути представлена у вигляд1

Г 4/т2

J p{x)dx<w¿. (2)

\х\>6

Як видно з (2), оцшка Гауса зверху для одномодального закону розподшу е в 2,25 ра ¡ir, кращою, н*1ж ощнка Чебишева для довшьних ро ¡no. ii. пи. що пщтверджуе

еуттевий вплив виду розподшу ознак на П.могДршп ь правильно! класифжацп. Нор-мальний закон розподшу ймов1рностей мае однакош моду, мед1ану та математичне ¡•по. 1*п;ання. Кр1м цього, на практищ цей закон е одним ¡з найпоширешшпх, 3 ш-шого боку, нормальний закон розподшу характеризуетьея макеимальпим значениям ентропп при одиакових значениях перших моментав, А це означав, що отримуетьея .\iini.\ia.и>на иомилка класифжацп для нормально розподшених клае1в,

Розглянемо епоеоби обчиелення вщстаней. Один 1з епоеоб1в полягае в застосуван-н*1 р*1 ¡них метрик, ееред яких у першу черту можпа вщзначити узагальпеиу метрику Мшковеького та коеипуеиу метрику, 1нший спое1б обчиелення вщстаней передбачае викориетання ядерних функцш, Найчаеташе вжпванимп ядерними функщями е три, Це - pa. iia. ibna базиена функщя, епгмощальна та полшом1альна функцп, Найбшьш поширеною 1 вживаною ееред них е ра/па. п>на базиена функщя. Спшьною риеою обох епоеоб1в обчиелення вщстаней е викориетання зважених ознак, що е головною задачею, яку инрппуе той чи шший метод обчиелення вщстаней, Зважування ознак дозволяе коректувати напрям гшерплощини в гшерпроетор1 таким чином, щоб найбшьш оптимально роздшяти клаеи. Для ценного набору ознак вибираютьея тага ваги, яга для переважноТ бшыноета об'ектав е оптимальпими.

Розглянемо, як приклад, представления .м*1р вщстаней м1ж векторами ознак х та у через .\iipy Манхетена - проету . пшнну .\iipy п зваженими коефщентами o¿ :

п

= ~ (з)

г=1

де с1(х, у) — довшьна м1ра вщстаней м1ж векторами х та у

\Iipy вщстаней М'шкоиського. як найбшьш узагальнену .\iipy. що використовуеть-ея в теорп розшзнавання обра пи. можна иредетавити у вигляд1

п I "

<~КХ,У) = ( ^ ~ ш ' ) = ( (/,) ^ "' -г' ~ ш •

г=1 г=1

1-р

де С(р) = {Тн=1а^. - У%|) ; о» = (1^ - Р > О-

Таким же чином визначаютьея коефщенти в копшуппп метрищ, метрищ Кан-бера та шших метриках для клаеифжатор1в типу £N14, а також параметри трьох згадапих ядерних функцш для пшшх тишв клаенфжатор1в, 11*1 задач*! внршуютьея на оенов1 конкретно! навчаючо! виб1рки. Таким чином, проблема полягае не у вибор1 найбшьш оптимально! метрики, а у визначенш ваг ознак для того чи никого конкретного випадку. Один ¡з епоеоб1в обчиелення ваг е викориетання функщй вщеташ у г,нг. 1я. 1*1 метрик або ядерних функщй. Цей пюиб е найбшьш простим, математичпо добре обг'рунтованим та зрозумшпм. Вагов1 коефщентп ознак дискретно згортають-ся з певним видом функщй (наприклад, ядерними функщями), що в результат! дае вщетань, Якщо викориетовуютьея ядерш функцп, то метрика буде результатом непа-раметричного ощнювання вщеташ м1ж двома векторами ознак, Точшеть ощнювання оптимально! шдпаш буде визначатися кшьгаетю та набором ознак. Це пщтверджуе,

наприклад, пор1вняння результате непараметричного оцшювання гуетини розподь лу на опили клаеичного методу шкнн Парзена та методу опорних вектор1в В, Вап-шка [8, 9], в якому викориетовуетьея процедура оптим1зацп шляхом розв'язку задач1 квадратичного програмування, Хоч непараметричне оцшювання вщбуваетьея за до-помогою лише невелико! чаетини опорних вектор1в, однак результати оцшювання е бшын точнимн 1'Л. г методу Парзена, Звщеи випливае, що внкориетання порогових 1 метричних клнпк|нкн'1орп; е абсолютно екв1валептпим, а задача полягае лише у знаходженш вщповщпих параметр1в, що максим1зують (мппмпунпь) той чи шший функщонал штрафу за помилку клаеифжацп.

2,2, Анал1з процесу класиф1кащ*1 при використанш метричних класиф!ка-

тор1в. Ni l метричним клаеифжатором ро ¡у.мшп ь вщображення виду

t

а(щ Xе) = arg та= y]w(i, и).

i=1

4-V-'

Ty(u,Xl)

Д1я такого клаеифжатора проявляетьея в тому, що ринеппя про клае прпймаеть-ея на оенов1 максимально! сумарпо! ваги Г^и) = Ту{и,Х^). Ще одною перевагою метричних клаеифжатор1в, KpiM ix простоти, е те, що ринеппя, прийняте цими кла-еифжаторами, не зал ежить вщ порогу. Разом з тим метричш клаеифжатори мають достатню кшьюеть пупешг, свободи для ix налаштування i е, як правило, бшын етшкими до вплпву 30BHimnix фактор1в, шж noporoei клаеифжатори, за рахунок ix нейтрального характеру. Серед метричних клаеифжатор1в за етупенем збшынеппя екладноета можпа видшити nacTynni:

• w(i,u) = [г = 1] — алгоритм пайближчого еуеща;

• w(i,u) = [г < к] — алгоритм к пайближчих еуещв;

• w(i,u) = [г < к ([' — зважений алгоритм к пайближчих еуещв;

• w(i,u) = х — парзеновеьке вжно фжсовано\' ширини;

• w(i,u) = К ^) ) ~~ парзеновеьке вжно змшно\' ширини;

• метод потенщйних функщй,

У вппадку алгоритму найближчого еуеща к = 1, Для алгоритму к найближчих еуещв ваги pir.ni 1, Для випадку зваженого алгоритму к найближчих еуещв чим днл*1 об'ект знаходнтьея вщ початку списку можливих претендентав, тим менша його вага, Постае питания про вщношення .\ii>k вагами двох сус'щшх oovici ir, у спис-

ку можливих претендентав, Покажемо, що воно повинно бути в межах 1 < ^j-j- < 2, При ^j-j- = 1 маемо звичайний kNN алгоритм, при 1 < ^j-j- < 2 - зважений kNN алгоритм, а при ^j-j- > 2 - алгоритм найближчого еуеща або INN, Якщо вага об'екта пропорщйна до ймов1рпоета його пезамщеппя в списку можливих претендент ir, об'ектами iinuiix клаии. то вщбуваетьея поеднання рангового голосування та

методу Парзена, що в результат! предетавляетьея як гДконннн метод Парзена, Оенов-на ¡лея методу шкна Парзена полягае в тому, що вага об'екта задаетьея не його рангом, а на оенов1 функцп вщеташ 1 обчнелюетьея за допомогою ядерних функцш 1з иоетайним або змшннм вжном а центр ядра знаходитьея в самому клаеифжо-г,иному об'екч 'к Оекшьки у метод1 Парзена ваги об'екч *п; визначаютьея не рангом, а вщетанями клаеифжованого об'екта вщ навчаючих, то вщноена вщетань, оцшена за параметром г, та функщя розподшу ймов1рноетей Р(г), м1ж якими е однозначна вщповщшеть, повшетю визначають даний алгоритм, Якщо викориетовувати в якоета ядра pa. iia. ibHy базиену функщю, то диепере1я нормального розподшу вщетаней вщь грае роль шкна у клаеичному метод1 Парзена. Перевага такого шдходу пор1вняно з клаеичним полягае в тому, що ро з.\ир шкна автоматично задаетьея складом навча-ючо1 виб1рки 1 «зашитий» у параметр! г, а також функцп Р(г). Метод потенцшних функщй е модифжащею алгоритму Парзена, основна вщмшшеть якого полягае в тому, що центр ядра знаходитьея не в клаеифжованому об'екта, а в навчаючих, тоб-то викориетовуетьея наб1р ядер з р1зними розм1рами вжои Передбачаетьея, що ядра в обох методах е фшп ш. оекшькн в протилежному випадку для клаеифжацп об'екта доведетьея викориетовувати вею навчаючу инб'фку. Оекшьки розподш вщ-етаней м1ж клаеифжовапим об'ектом 1 навчаючими в силу оптимальноета повинен бути нормальним [6]), то обидва шдходи (клаеичний та ймов1ршено-комбшаторний) е абсолютно екв1валептш щодо задач*! клаеифжацп, Принципова вщмшшеть полягае в тому, що параметри ядер у ймов1ршено-комбшаторному шдщщ визначаютьея на оенов1 навчаючо! виб1рки, а також е функщями ироцееу вщбору ознак, способу обчиелення вщетаней тощо.

3, Суть гмовгршсно-комбшаторного пщходу

Основна мета поеднання двох шдходп; полягае в тому, щоб досягпути бшьшо'! точноета та коректпоета у побудов1 оцшок ймов1риоета розшзнавания при зменшенш ро ¡.\iipy навчаючих даних. Оцшкн ймов1рноета правильного розшзнавання для малих виб1рок розглянута в [2].

Представимо результати розшзнавання у пш ля. и . шшкоиоТ поелщовноета поеор-товапих за мппмумом вщеташ об'ектав, де 1 ставиться у гДдногДдшп ь «евош» образам, а 0 - «чужим». Приклад тако! поелщовноета показаний на рис. 1.

1111 ООО 111 00 1111 ООО 111 ... ООО ... 111 ...

h mi 1-2 rn-2 h "i-з h In тп,г 4-*-'

{l,m}

Рис. 1. Результати розшзнавания v инг. in/ii . шшкоиоТ нос. пдошюп i

(A;NN алгоритм)

Розглянемо випадок ЕМТ(|) + 1 < 5*. Визначимо ймов1рноета того, що серед иоелщовноета образ1в «свого» класу задано! довжини 5 будуть вибраш комбшатор-ним способом 5* образ1в, Тага ймов1рноета носять дов1рчий характер 1 характеризу-ють етупшь накриття нестиснутого класу поелщовшетю з 1образ1в, серед яких вибираеться 5*. Кр1м них, знайдемо також 1мов1рноета того, що не будуть вибраш вщповщним способом певш образи з «чужих» клас1в, Ймов1ршеть коректно! роботи клаеифжатора е добутком цих 1мов1риостей, Визначимо ймов1ршеть помилково! клаеифжацп, обумовлено! образами з «чужих» клаии:

Я 3=ЕЫТ( |)+1 «Л

Обчислимо дошрчу ймов1ршеть для довшьно! послщовноеи з образ1в «свого» класу:

= ^ Е (в)

в ]=ЕЫТ{ |)+1

11.\н>г,1рнн"1 ь правильного розшзнавання при заетоеуванш класифжатора

визиачаеться добутком 1мов1рноета (6) та доповнення до ймов1рноета (5):

я 3=ЕЫТ{ |)+1

Роль 1мов1ршено! частини в 1мов1ршено-комбшаторному шдход1 иолягае у тому, що необхщно обчислити ймов1ршеть н-нуиання однорщних поелщовноетей виду {0} або {1}, Обчиелення ймов1рноета н-нуиання иоелщовноетей змшаного типу не мае сенсу, оегальки для великих розм1р1в иослщовностей вона оберненопропорцшна до величини де | £+гп \ — розм1р поелщовноеть Ймов1ршеть н-нунання однорщно!

поелщовноета з образ1в «свого» класу {1} обчислюеться на основ1 ймов1рноета замь щення останнього образа «свого» класу у цш поелщовноеть Це означав, що розм1р однорщно! поелщовноета вказаного виду визиачаеться найбшын «слабким» образом, Отже, потр1бно обчислити ймов1ршеть н-нуиання заданого розм1ру поелщовноета обра ¡1 и «свого» класу або для заданого р'пшя ймов1рноета обчислити максимальний розм1р иоелщовноета, який забезиечить цю ймов1ршеть. Для двшково! поелщовно-п *1 сума ваг молодших ро зря. чп; завжди на 1 менша шд ваги настуиного старшого розряду, тобто замщення довшьного образа «свого» класу у списку екшиа. нчп не по-черговому замщенню вс1х поиередшх, Мпп.ма. пиши цший порядок системи числения, що г,о. ю/пе щею влаетив1етю, р1вний 2. Отже, потр1бно обчислити ваги положень

образ1в «евого» клаеу 1 пор1вняти \'х з двшковими розрядами, Таке представления дозволяе епроетити обчиелення ймов1рноета замщення в поелщовноета образ1в з1 «евого» клаеу образами з «чужих» клапи. 3 ¡итого боку, довшьш ваги можна вира-зити через показник етупеня 2, що також епрощуе представления та обчиелення них ¡мов1рностей. Таким чином, ймов1ршсть н-нуиання однорщно! поелщовноета з образ1в «евого» клаеу обчиелюетьея на оенов1 розиодшу вщетаней 1 е функщею вщ параметры; алгоритму розшзнавання, Приймаетьея така иоелщовшеть, для якоТ ймов1ршсть н-нуиання е доетатньою,

Вщтак заетоеовуетьея комбшаторна чаетина пщходу, яка дозволяе обчиелити етупшь вплнву понижения розм1ру к. тин на ймов1ршсть правильного розшзпаваи-ня. Оекшьки пмогДршсна чаетина пщходу визначаетьея параметрами алгоритму роз-ш шаиання. то поеднання ймов1ршеноТ та комбшаторио1 чаетин дозволяе бшын точно оппеатн ефект вщ змепшеппя кшькоета павчаючих даних,

Наприкшщ розглянемо покроково приклад швидкого обчиелення ймов1рноета ¡ампцення «евого» образу з поелщовиоета, де ешввщношепия м1ж вагами об'ектав е цший етупшь числа 2, Нехай, наприклад, ваги задаються наетупним чином: т = {29, 26, 24, 23, 22, 21, 2°}, Як вщомо, ймов1ршеть замщення «евого» об'екта з по-елщовпоета «чужим» об'ектом, коли вщомо, що за.м'ппення вщбулоея, оберненопро-порщйпа до ваги об'екта «евого» клаеу, Знайдемо ймов1ршеть замщення об'екта з вагою 29 пор1вняно ¡з об'ектом з вагою 26, Оекшьки невщомо, замщення якого об'екта вщбулоея, то еумарна вага того, що це не будуть об'екти з вагою 26 1 нижче, дорпшюшп пме: 26 + 24 + 23 + 22 + 21 + 2°, У долях ваги 26 це з точшетю до 1 р'пше 26 * (1 + 0,5) = 1,5*26, У г,пиалку великих поелщовпоетей ця 1 мало впливае на точ-шеть, Сшввщношепия м1ж 29 та 26 р1вне 8, У г,пиалку повно! групп подш отримаемо 8А + 1.5А = 1, звщки коефщент пропорщйноеи А прнблпзно р1вннй 0,11, Таким чином, ймов1ршеть незамщення об'екта з вагою 29 р1вна 8 * 0,11 = 0,88, а об'екта з вагою 26 — вщповщно 1 — 0,88 = 0,12, Оекшьки у нашому г,пиалку точно вщомо, що замщення вщбулоея, а оетаннш об'ект мае вагу 1, то поправка на точшеть, р'пша 1, вносить иотр1бну корекщю,

Оекшьки такий параметр, як кшьгаеть пайближчих еуещв, визпачае иадшшеть роботи кММ метричних клаеифжатор1в як в ¡мов1ртенш частит запроионованого пщходу, так 1 в комбшатршп. то вш дае можлпв1еть внзначнти ргтишо м*1ж р1знн-мн алгоритмами розшзнавання на оенов1 методу £N14. Ця р1зниця мае ймов1ршенпй характер 1, як очжуетьея, неее бшыне шформацп для ирогнозування ефекту пере-навчання, шж вщом1 ni. ixo. ni [1],

Висновки

На оенов1 проведеннх доелщжень ветановлено, що поеднання ймов1ршеного та комбшаторного ni. txo. rir, дае можлпв1еть отрнматп бшын коректш ощнкп ймов1рноет1 правильного розшзнавання за лопкою \'х побудови при екороченш розм1ру навчаючо! внб1ркп, шж викориетаипя лише комбшаторного пщходу,

список литературы

1. Воронцов К. В. Комбинаторный подход к оценке качества обучаемых алгоритмов // Математические вопросы кибернетики / Под ред. О. Б. Лупанов.—М.: Физматлит, 2004. — Т. 13. — С. 5-36.

2. Гуров, С.И. Оценка надежности классифицирующих алгоритмов.— М.: Издательский отдел ф-та ВМиК МГУ, 2002. - 45с.

3. КапустпШ Б. О., Русин Б.П., Таянов В.А. Комбшаторна оцшка впливу зменшення шформацш-ного покриття клаав на узагальнюючу властившть 1NN алгоритьйв класифшащ!'.— Штучний штелект—2008—№ 1 —С .49-54.

4. Математическая Энциклопедия: Гл. ред. II.М. Виноградов, т. 5. Слу—Я—М., «Советская Энциклопедия», 1984.^1248 стб., ил.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию»^ Киев: Наукова думка, 2004.^545 с.

6. Kapustii В.Е., Rusyn В.P. and, Tayanov V.A. Features in the design of optimal recognition systems. Automatic Control and Computer Sciences.^2008. —Vol.42.—№2.— Pp.64-70.

7. Skurichina M., Duin R.P. W. Limited bagging, boosting and random subspace method for linear classifiers. Pattern Analysis and Applications.^2002.^JYs5.^Pp.121-135.

8. Vapnik V. The nature of statistical learning theory.—2 edition.^Springer-Verlag, New York, 2000.

9. Webb A. Statistical Pattern Recognition, John Wiley and Sons Inc, 2nd ed., New York, 2002.

Статья поступила в редакцию 14-01.2009

i Надоели баннеры? Вы всегда можете отключить рекламу.