РОЗРОБКА МЕТОДУ K-PLUS-НАЙБЛИЖЧИХ СУСіДіВ ДЛЯ ЗАДАЧ МАШИННОГО НАВЧАННЯ КРЕДИТНОГО СКОРИНГУ

Солошенко О.М.

4. John, W. S. А Bayesian approach to diagnosis and prognosis using built-in test [Text] / W. S. John, A. K. Mark // IEEE Transactions on instrumentation and measurement. - 2005. - Vol. 54, Issue 3. - Р. 1003-1018. doi: 10.1109/tim.2005.847351

5. Jin, L. Accurate testing of analog-to-digital converters using low linearity signals with stimulus error identification and removal [Text] / L. Jin, K. Parthasarathy, T. Kuyel, D. Chen, L. G. Randall // IEEE Transactions on instrumentation and measurement. -2005. - Vol. 54, Issue 3. - Р. 1188-1199. doi: 10.1109/tim.2005.847240

6. Skoczowski, S. A Simple Identification Method for the Order of the Strejc Model and its Application to Autotuning [Text] / S. Skoczowski, A. Osadowski // IFAC Intelligent components and instruments for control applications, 2nd IFAC Symposium. Budapest, Hungary, 1994. - P. 319-325. doi: 10.1016/b978-0-08-042234-3.50054-0

7. Stieber, M. T. Instrumentation architecture and sensor fusion for system control test [Text] / M. T. Stieber, G. Vukovich. // IEEE Transactions on instrumentation and measurement. - 1998. - Vol. 47, Issue 1. - P. 108-113. doi: 10.1109/19.728801

8. Григоренко, I. В. Дослщження впливу нелшшност змши вхщного сигналу на динашчну похибку ви1шрювального пере-творювача тд час проведення тестового контролю [Текст] / I. В. Григоренко // Вестник НТУ «ХПИ». - 2008. - №. 57. -С. 50-57.

9. Григоренко, I. В. Розвиток тестових методiв тдвищення точност електричних компенсацшних вимiрювальних перетворю-вачiв у динамiчних режимах [Текст]: дис. ... канд. техн. наук / I. В. Григоренко. - Харгав, 2010. - 224 с.

10. Опришюна, М. I. Тестовий метод тдвищення точност електричних давачiв з нелшшними функщями перетворення [Текст]: дис. ... канд. техн. наук / М. I. Опришюна. - Харгав, 2013. - 186 с.

Запропоновано оригтальну модифжащю методу ^найближчих сусиНв для виршення задач машинного навчання у кредитному скорингу, а саме розроблено варiанти методу ^р1^-найближчих сусШв на множинах дискретних значень вхидних змтних для виршення задачi ймовiрнiсноi бтар-ног класифжацп видносно бiнарноi цiльовоi змiнноi. Наведено частину програмног реалiзацii запропо-нованого методу мовою структурованих запитiв, використовуючи втонт функцп

Ключовi слова: метод ^найближчих сусиНв, кредитний скоринг, бтарна класифшащя, мова

структурованих запитiв

□-□

Предложена оригинальная модификация метода ^ближайших соседей для разрешения задач машинного обучения в кредитном скоринге, а именно разработаны варианты метода ^р1т-ближай-ших соседей на множествах дискретных значений входящих переменных для разрешения задачи вероятностной бинарной классификации относительно бинарной целевой переменной. Приведена часть программной реализации предложенного метода на языке структурированных запросов, используя оконные функции

Ключевые слова: метод ^ближайших соседей, кредитный скоринг, бинарная классификация, язык

структурированных запросов -□ □-

УДК 519.237.8 : 681.518.25

|DOI: 10.15587/1729-4061.2015.43730|

РОЗРОБКА МЕТОДУ K-PLUS-НАЙБЛИЖЧИХ СУС1Д1В ДЛЯ ЗАДАЧ МАШИННОГО НАВЧАННЯ КРЕДИТНОГО СКОРИНГУ

О. М. Солошенко

Астрант Кафедра математичних методiв системного аналiзу Навчально-науковий комплекс «1нститут прикладного системного аналiзу» Нацюнальний техшчний ушверситет УкраТни «КиТвський пол^ехшчний шститут» пр. Перемоги, 37, м. КиТв, УкраТна, 03056 E-mail: soloshenko s@ukr.net

1. Вступ

Методи математичного та статистичного моделю-вання мають надзвичайно широке, важливе, ефек-тивне та устшне застосування в обласп фшансового ризик-менеджменту [1]. Надзвичайно велика роль в област фшансового ризик-менеджменту выводиться вивченню та моделюванню кредитних ризиюв [1]. Управлшня кредитними ризиками передбачае попе-

редню ощнку кредитоспроможност1 потенцшних кл1-ент1в з метою забезпечення прийнятного р1вня ризику у процеа кредитування [1]. Кредитний скоринг - це методолопя ощнювання кредитоспроможност потенцшних позичальниюв у ризик-менеджмент [2-5]. Скоринг - це методолопя ощнювання кредитоспро-можност або майбутньоï поведшки на р1вш кл1ент1в або договор1в, як потенцшних, так i кнуючих, тому кнуе багато категорш скорингу: кредитний (апль

©

кацшний) скоринг, поведшковий скоринг, скоринг виявлення та попередження шахрайства, колектор-ський скоринг, iншi численнi категорii скорингу [2-4, 6]. Скоринговi моделi також називають скорингови-ми картами (scorecards) [2-7]. Методологiя побудови скорингових моделей ткно пов'язана з методами машинного навчання [8], опосередковано та на практи-щ - з теорieю реляцiйних баз даних [9, 10] (при побу-довi вибiрок, впровадженнi моделей, дослiдженнi та мониторингу ix стабiльностi та предикативноi сили), та напряму - з поняттям штелектуального аналiзу даних (data mining) [2-5, 11]. Одним з найб^ьш популярних методiв, на противагу лопстичнш регресii [2-5, 12, 13], у машинному навчанш для вирiшення задачi класифь кацii е метод k-найближчих сусiдiв (k-nearest neighbor method) або метод виводу на основi пам'ят (memory-based reasoning) [2-4], що в термiнаx машинного навчання ще називаеться навчанням на основi пам'ятi (memory-based learning) [8], який може застосовуватись як до побудови скорингових моделей, так i до промiж-ного етапу аналiзу ввдхилених заявок (reject inference) з метою включення вiдxилениx заявок в модель аплжа-цiйного скорингу [2, 4].

Класичний метод k-найближчих сусвдв визнача-еться у довiльному метричному просторi змiнниx без деталiзацii та без висвилення таких можливих пи-тань як: способи нормування змшних, способи вибору метрики серед множини можливих метрик, способи урахування категорiальниx змiнниx, вибiр оптимального (а не фжсованого) значення кiлькостi сусiдiв та критерп такого вибору, способи призначення ваг змшним вiдносно цiльовоi змiнноi, ощнка узгодже-ностi цiльовиx класiв вщносно метричного простору вxiдниx змiнниx, ощнка на наявшсть «викидiв», ас-пекти ймовiрнiсноi класифiкацii, ситуацii з близькими рiвновiддаленими множинами елементiв, зважування результату вщносно вiдстаней до найближчих сусвдв [3, 8]. Тому актуальними та практично щнними з точки зору ризик-менеджменту е питання детального досль дження та модифжацш методу машинного навчання на основi пам'ятi за допомогою методу k-найближчих сусiдiв саме у задачах кредитного скорингу [3], врахо-вуючи iснуючi розробки та ключовi поняття власне в област скорингу, де ймовiрнiсна бiнарна класифжащя посiдае ключову роль у методологи [2-7].

Ще одним важливим аспектом актуальност досль дження е споаб збереження великих масивiв даних у виглядi таблиць сучасних систем керування базами даних (СКБД), що ввдповщають реляцшнш моделi управлiння даними [9, 10], тому актуальним е питан-ня використання можливостей мови структурованих запипв (Structured Query Language, SQL) [9, 10] для виршення задач моделювання та аналiзу даних без ви-користання стороннix додаткових програмних засобiв.

2. Аналiз лiтературних даних та постановка проблеми

Сучасний стрiмкий прогрес в обласп сучасного ризик-менеджменту [1], зокрема в галузi кредитного скорингу [2-7], забезпечуеться швидким розвитком методiв кiлькiсного аналiзу [1], розвитком шформа-цiйниx теxнологiй [2, 7], розвитком методiв штелекту-ального аналiзу даних (data mining) [2-5, 11], зокрема

статистичних та нестатистичних методiв побудови скорингових моделей [3].

Основш, але далеко не в«, сучасш методи побудови скорингових моделей можна розд^ити таким чином [3]:

1) статистичш методи побудови скорингових карт:

1.2) лшшна регресiя;

1.3) лопстична регресiя (нелiнiйна) [2-5, 12, 13];

1.4) пробгт-регреая (нелiнiйна);

1.5) дерева ршень (рекурсивний пiдxiд розбиття);

1.6) методи найближчих сусiдiв:

1.1.5) метод найближчого сусща;

1.1.6) метод k-найближчих сусвдв;

2) нестатистичнi методи побудови скорингових карт:

2.1) лшшне програмування;

2.2) цiлочисельне програмування;

2.3) нейронш мережi;

2.4) генетичнi алгоритми;

2.5) експертш системи;

3) альтернативнi змшаш методи побудови скорин-гових карт:

3.1) байеавсью мережi та графiчнi моделi [11];

3.2) моделi аналiзу виживання.

На ринку шформацшних теxнологiй присутнi численш рiшення у виглядi програмних додатюв та статистичних пакетiв, що дозволяють здiйснювати моделювання зокрема кредитних ризиюв: рiшення та мова програмування компанп SAS® Institute Inc. [2, 4, 13], проект та в^ьна мова програмування R [13], ста-тистичний пакет IBM® SPSS® Software з внутршньою мовою програмування [4, 13] та iншi рiшення.

Найбiльш популярним методом [2, 4, 5] побудови скорингових моделей е лопстична регреая [2-5, 12, 13], однак великий штерес щодо побудови сучасних скорингових моделей для ощнювання кредитоспро-можност становить саме метод k-найближчих сусдав (k-nearest neighbor method) [3]. Це пояснюеться зокрема концептуальною простотою штерпретацп способу класифiкацii як машинного навчання на основi пам'ятi (memory-based learning) [8] та численними перевагами, що стосуються, наприклад, простоти динамiчно-го он-лайн оновлення моделi через додавання нових елеменпв вибiрки (спостережень) у базу пам'яп та виключення найстарших елементiв (спостережень) з бази пам'яп [3]. Також великий штерес до методу k-найближчих сусвдв обумовлюеться питанням вибору оптимальноi метрики та ввдносно низьким ступенем вивченосп та експериментального застосування у задачах скорингу [3], особливо при використанш катего-рiальниx або дискретизованих змшних. До основних недолтв даного непараметричного методу належать зокрема лише висока обчислювальна складшсть при ощнюванш множин елеменпв, складнiсть вибору метрики, складшсть регулювання та перекалiбрування моделi [3].

Аналiз сучасного джерела [14] сввдчить про вели-ку популяршсть програмних реалiзацiй класичного методу k-найближчих сусвдв, а особливо його мо-дифiкацii - нечiткого методу k-найближчих сусдав (Fuzzy k-Nearest Neighbor, Fuzzy kNN), де ймовiрнiсне значення прогнозу присвоюеться в залежност вщ вiдстаней до найближчих сусiдiв, тобто за допомогою зважування значень фактичних клаив, де вага е

зваженою степеневою функцieю вiд'eмного степеню вщ вiдстанi згiдно з [14] Идентична формула була описана, наприклад, ще в джерелi [15]). Виникае низка закономiрних зауважень та невиршених проблем вiдносно описаного в [14] нечеткого методу, наприклад: коректне опрацювання нульово! вiдстанi, хоча, якщо застосовувати границю для виразу зважування, то можна отримати одиничн значення ваг, але такий тдхщ дуже чутливий до статистичних «викид1в», що знаходяться поблизу вектора, що класифжуеться, а це становить проблему даного методу; порядок врахуван-ня рiвновiддалених вiд вектора груп; важливе питання вiдносно рiвностi спiввiдношення класiв на множинах факпв та прогнозiв, що забезпечувалося б звичайним, а не зваженим по вщсташ, усередненням, яке крiм того не насюльки чутливе до близьких статистичних «ви-кидiв»; питання оптимального вибору к; дослщження iнтегральних критерпв оцiнювання якостi прогнозiв, що притаманш методологii кредитного скорингу i т. д. Також у якосп постановки задачi може виступати програмна реалiзацiя мовами поколiння четвертого поколiння (в [14] програмна реалiзацiя представлена мовою третього поколiння).

Аналiз сучасного джерела [16] може бути вико-ристаний для вибору однiеi з можливих метрик для проведення експерименпв на числових даних (вщ-стань Евклща, Мiнковського, Махаланобiса), також у даному джерелi описуеться новiтнiй горизонт застосу-вання будь-яких вдосконалень та форм методу к-най-ближчих сусiдiв - аналiз знакових послiдовностей та текстових даних на близьюсть - подiбнiсть (мiра Хеммiнга i т. д.). Робота [16] тдтверджуе актуальнiсть дослвджень та модифiкацiй методу машинного навчан-ня на основi пам'ятi, однак, у даному джерелi також не враховуеться, наприклад, що не завжди можливо обрати однозначно рiвно k елементiв при шнувант рiвновiддалених груп елементiв, окрiм того, частина зауважень описана при аналiзi джерела [14] також мае мкце.

3. Цiль та задачi дослщження

Проведенi дослiдження ставили за мету усунути недолжи класичного методу к-найближчих сусiдiв, включаючи вiдсутнiсть конкретики та деталiзацii осо-бливостей застосування машинного навчання на осно-вi пам'ят при використаннi категорiальних та дискре-тизованих змiнних в умовах можливост виникнення ситуацiй з рiвновiддаленими групами найближчих сусвдв вiдносно елемента, що класифжуеться, а також за мету була поставлена розробка способiв знижен-ня обчислювальноi складностi методу за допомогою подальших вдосконалень пропонованоi модифжацп методу.

Для досягнення поставленоi мети виршуються такi задачi:

- застосування понять методологи кредитного скорингу для утворення метричного простору на основi категорiальних (в т.ч. дискретизованих) змшних з ви-користанням перетворень ввдносно цiльовоi змiнноi;

- формалiзацiя виршення проблеми рiвновiдда-лених груп елеменпв вiдносно елемента, що класифi-куеться;

- формулювання та формалiзацiя пропонованого методу k-plus-найближчих сусiдiв;

- наведення ключових можливостей мови структу-рованих запипв SQL щодо реалiзацii пропонованого методу;

- формалiзацiя можливих концептуально значи-мих вдосконалень методу щодо зменшення обчислю-вально'1 складностi та наведення вiдповiдниx можливостей мови структурованих запипв;

- провести порiвняльний аналiз результатiв базового методу k-plus-найближчих сусдав для декшькох значень вxiдного параметру з результатами методу моделювання за допомогою логiстичноi регресп.

4. Методи вдосконалення машинного навчання на 0CH0Bi пам'ят та модифiкацiя методу k-найближчих _сусвдв_

4. 1. Методика створення метричного простору для категорiальних та дискретизованих змшних з вико-ристанням методологи кредитного скорингу

Суть класичного методу k-найближчих сусвдв (k-nearest neighbor method) або навчання на основi пам'яп (memory-based learning) [3, 8] полягае у такш формалiзацii правила класифiкацii по принципу значення бшьшосп (majority) згiдно з формулами (1)-(2):

1, it > 1

о, if * 1,

Г? k 2

У =

(1)

де у* прогнозоване значення бшарного класу (цiльова змшна), у1 - фактичне бiнарне значення класу щльо-воi змiнноi 1-го найближчого сусща, к - юльюсть найближчих сусiдiв (для спрощення можна вважати, що це непарне натуральне число, з метою уникнення си-туацii рiвного спiввiдношення), при цьому найближчi сусвди заздалегiдь визначаються згiдно з метрикою у просторi вхiдних серед скiнченноi множини векторiв лише вхiдних змшних [3, 8]:

x1 = argmind(x, x*);

xeX

Vi e {2,..k}: x, = argmind(x, x*), i-1

xeX\ U xj j=1

(2)

де х - довiльний вектор простору лише вхщних змш-них (вектор спостереження) навчальноi вибiрки, X -скшченна множина векторiв спостережень навчальшл вибiрки для вхiдних змшних, х* - вхщний вектор значень вхщних змiнних, що класифiкуеться (до яко-го застосовуеться прогноз), d - метрика визначена на просторi векторiв вхiдних змiнних.

Таким чином суть алгоритму полягае у присвоен-нi елементу, що класифжуеться, значення локальноi статистичноi моди у якостi прогнозованого щльового класу. На рис. 1 зображено приклад застосування методу трьох найближчих сусвдв у двовимiрному про-сторi [8], коли вектору прогнозовано одиничний клас зпдно з методом.

Рис. 1. Приклад застосування методу k-найближчих сус^в у двовимiрному просторi при k=3 (результат прогнозу: y*=1)

Даний метод вщносно просто застосовний, напри-клад, для побудови скорингових моделей у просторi вхiдних неперервних змшних, якщо можливе деяке нормування неперервних змшних, що забезпечуе не-залежшсть вiд масштабу вхiдних змiнних, де бшарна цiльова змiнна означав шдикатор кредитоспроможно-стi, однак багато питань щодо налаштування метрики та вибору числа найближчих сусвдв залишаються вщкритими. Зокрема, також залишавться невирiше-ним питання врахування можливих спостережень, що рiвновiддаленi вiд x* на вiдстанi k-го найближчого су-сiда, а також залишавться вщкритим просте питання ймовiрнiсноi класифiкацii. Однак найголовнiшими не-виршеними питаннями з точки зору скорингового мо-делювання, що виступають у якост постановки даного дослiдження, окрiм способiв ймовiрнiсного висновку, також лишаються способи врахування категорiальних змiнних, що власне й часто призводитимуть до ситу-ацш з рiвновiддаленими точками, та власне критерп оптимальностi юлькост найближчих сусiдiв вiдносно обраноi метрики на множит спостережень навчальноi вибiрки.

Класична методологiя кредитного скорингу пе-редбачав два основнi методи числового оперування категорiальними (в т. ч. дискретизованими) змшними, що значно вiдрiзняються, головне, через наявнiсть не-обхщносп залучення цiльовоi бiнарноi змiнноi або не-обхiдностi замiни оригiнальноi множини змшних [2].

Перший метод, менш популярний та ефективний, полягав у розбитп кожноi категорiальноi змiнноi на множину бшарних змiнних, що ввдповщають окре-мим значенням окремоi категорiальноi змiнноi. Даний метод у статистищ ще називають методом створення фжтивних змiнних (dummy variables) [2]. Недолжом даного методу в замiна кожноi категорiальноi змш-ноi на множину бшарних змшних, що ввдповвдають можливим значенням категорiальноi змiнноi, що при-зводить до збiльшення сукупноi юлькосп змiнних в процесi моделювання. Недолжом з точки зору методу навчання на основi пам'ятi в можлившть рiвноцiнного входження всiх суто бшарних координат в формулу метрики без врахування наявносп факту взавмозв'яз-ку значення бiнарноi координати з щльовою змiнною.

Другий методом iнтерпретацii категорiальних як числових значень в метод перетворення кожного ка-тегорiального значення окремоi змiнноi в вагу значення змiнноi (Weight Of Evidence, WOE), тобто вагу атрибуту змiнноi [2, 5, 6], що входить як до форму-

ли розрахунку вщстат Кульбака-Лейблера [5], так i до формули розрахунку шдексу значення iнформацiï (Information Value, IV) [2, 5, 6]. Для кожного значення категорiальноï змшшл вага значення змшшл обчислю-еться як натуральний логарифм вiд вщношення долi одиничних («хороших») значень цiльовоï змiнноï, що вiдповiдають значенню категорiальноï змiнноï, вщ-носно всiх одиничних («хороших») значень цiльовоï змiнноï, до долi нульових («негативних») значень щ-льовоï змiнноï, що вiдповiдають значенню категорь альноï змiнноï, вiдносно в«х нульових («негативних») значень цiльовоï змiнноï [2, 5, 6]:

WOEjj = ln

С \ gj

V j

(3)

де i - номер змiнноl, j - номер можливого значення (категорп) конкретноi змшно!, gjj - доля одиничних («good») значень щльово! змiнноi, що вщповщають j-й категорп i-i змiнноi, вщносно всiх одиничних («good») значень щльово! змшно!, - доля нульових («bad») значень щльово! змшно!, що вщповщають j-й категорп i-i змшно!, вщносно в«х нульових («bad») значень щльово! змшно!, тобто:

G

gj = nJ' (4)

(5)

I Bik

тут mj - кiлькiсть категорiй i-ï змшно!, Gj - юль-кiсть одиничних («good») значень цiльовоï змiнноï, що вщповщають j-й категорп i-ï змшно!, By - кiлькiсть нульових («bad») значень щльово! змшно!, що вщповь дають j-й категорiï i-ï змшно!.

Очевидно, що виконуеться така тотожшсть:

vi е {i,..n}: ig^iv^

(6)

j=i

де n - кглькгсть змшних, що окремо аналiзуються.

ТодГ формула обчислення iндексу значення шфор-мацiï [2, 5, 6] (або iнформацiйноï статистики [3]) для кожноï змiнноï мае такий вигляд:

IV, = I(gij-b,j)b f =I(gj-bj)WOEj, (7) V Dij ) j=l

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

де IV, - шдекс значення iнформацiï i-ï змiнноï.

Як наслщок, кожне спостереження навчальноï ви-6Грки (без вiдображення в списку координат власне цiльовоï змiнноï) можна описати вектором конкретних ваг категорш n змшних:

xT = (WOE1j,(p) WOE2j2(p) ...WOE.j1(p) ... WOEn;„(p)) , (8)

де ji(p) - фактичний номер категорiï для i-ï змiнноï вектору xp.

У дослщжент у якост метрики запропоновано ви-користовувати класичну вiдстань Евклща (Euclidean distance) [2, 3, 8] саме у просторi векторiв ваг категорш змiнних розмiрностi n:

d (x p, Xr ) =

,-xrii^:L(woEJ,(P) - woE,j,(r))2, (9)

де d - метрика.

Застосування дано1 метрики опосередковано (через попередне обчислення WOE. ) залежить вщ бiнарноi цiльовоi змiнноi, тому мае бути ефектив-ним. Тим паче, запропонована метрика узгоджуеть-ся з поняттям шдексу значення шформацп, осюль-ки високе значення шдексу значення шформацп IV, зазвичай свiдчить про високу дисперсiю ваг категорш i-i змiнноi Var^{WOE^^} ^ на навчальнiй

вибiрцi розмiру N та вiдповiдно про достатньо високу рiзницю («розмах») мiж максимальним та мжмаль-

ним значенням max WOE. (p) - min WOE. (p), що озн-

ачае, що саме змiннi з високим значенням шдексу шформацп грають ключову роль у варiацii запропоно-ваноi метрики. Також легко показати, що при низькш варiацii ваг категорп змiнноi ii значення близьке до нуля, осюльки виконуеться наступна рiвнiсть [17], що пов'язуе вагу категорп змiнноi з долею нульового («bad») класу по окремш категорп та взагалi на всiй вибiрцi (або середньозваженiй по кiлькостi дол^:

Woe,. = ln

B B + G

1-

B

= ln

P(B)

1 - P(B)

B + G - ln

- ln

Pij(B)

B

V G

1 --Bl

1 - PS(B).

(10)

де B - загальна кiлькiсть спостережень з нульовим («bad») класом (знаменник вщношення (5)), G - загальна юльюсть спостережень з одиничним («good») класом (знаменник ввдношення (4)), p(B) - доля нульового класу на всш вибiрцi, Pij(B) - доля нульового класу по j-й категорii i-i змiнноi.

Таким чином, навгть при включеннi в проспр змш-них з низьким шдексом значенням iнформацii вплив таких змшних буде низьким, тобто важливою влас-тивiстю запропонованоi метрики е ii чутлившть до предикативноi сили змшних.

Також суть даноi метрики можна описати спробою перемктити бшьшшть одиничних значень у частину простору, де ва координати позитивнi, а б^ьшкть ну-льових значень - де в« координати негативнi.

4. 2. Методика виршення проблеми рiвновiддалених груп елементiв вiдносно елемента, що класифжуеться

Класичний метод k-найближчих сусвдв [3, 8] не дае рекомендацш вiдносно вирiшення ситуацiй, коли,

наприклад, починаючи з якогось найближчого сусвда йде велика група вели^ юлькост рiвновiддалениx елементiв, що не можуть помктитися разом з попере-дшми найближчими сусiдами в число k.

У рамках пропонованого методу пропонуеться ви-користовувати такий алгоритм, що дозволяе розгляда-ти щонайменше (а не точно рiвно) k сусiдiв:

1) вщсортувати множину, що представляе собою склад пам'яп, по зростанню вщсташ вiд елемента, що класифiкуеться, при цьому внутршне сортування елементiв рiвновiддалениx груп можна проводити ви-падковим чином;

2) обрати першi окремi k елеменпв згiдно з сорту-ванням по першому пункту;

3) доповнити k елементiв всiма елементами, що перебувають на такш же вщсташ вiд елемента, що кла-сифжуеться, як останнiй обраний (k-й) найближчий сусвд, якщо такi елементи кнують.

4. 3. Формулювання та формалiзацiя базового методу k-plus-найближчих сусiдiв та його вдоско-налення з використанням пропонованого критерто оптимальностi

Формалiзацiя пропонованого базового методу k-plus-найближчих сусвдв та його застосування:

1) розрахувати значення ваг категорш для в«х змшних, що використовуються при проектуванш ме-тричного простору навчальноi вибiрки, згщно з формулою (3) або (10);

2) визначити метрику на просторi ваг категорш змшних зпдно з формулою (9);

3) задати значення k;

4) для кожноi окремоi категорii кожного окремо-го вxiдного елемента з множини елеменпв, що кла-сифiкуються, присвогти значення ваги цiеi окремоi категорп ввдповвдне такому ж значенню категорп в навчальнш вибiрцi (тобто категорп елемента, що кла-сифiкуеться, перетворюються в числа - ваги категорш змшно'Г - згщно з вщповщшстю «категорiя-WOE» в навчальнiй вибiрцi);

5) для кожного елемента з множини елеменпв, що класифжуються, отримати щонайменше k сусiдiв з навчальноi вибiрки згiдно з алгоритмом методики опи-саноi в пiдроздiлi 4.2 та метрикою, що визначена в п. 2;

6) для кожного елемента з множини елеменпв, що класифжуються, розрахувати долю одиничних («good») елеменпв в чи^ обраних щонайменше k сусь дiв згiдно з п. 5, що й буде дорiвнювати прогностичнш ймовiрностi належностi до одиничного («good») класу. Таким чином визначаеться споаб виводу ймовiрнiсно-го висновку. Формула (1) замшяеться пропонованою формулою (11):

k+(X*)

У* =1

у,

k + (x*)

(11)

де k ( ) > k - фактична юльюсть найближчих сусiдiв (не менше k) для вектору x*.

Також класичний метод k-plus-найближчих сусдав (навiть з детермшованим висновком) не встановлюе критерпв вибору k, виходячи з навчальноi вибiрки [3, 8]. У вдосконаленш методу k-plus-найближчих сусь дiв у якост критерiю оптимальностi вибору k пропо-

нуеться використання шдексу Джинi [2-4, 7] , але за допомогою перехресно! валiдацii (cross-validation) [3] на навчальнш вибiрцi за допомогою методу виключен-ня одного елементу - методу «leave-one-out» [3].

Згiдно з [7] в штегральнш формi формулу обчис-лення iндексу Джинi можна записати таким чином вщносно кумулятивних функцш розподiлу прогнозiв на двох тдмножинах, що вiдповiдають двом класам:

GINI =

J FB(y')dFG(y')-2

(12)

де Y* ввдображав множину значень ймовiрнiсних про-гнозiв на множинi, що дослiджувться на яюсть прогнозу в порiвняннi з фактичними класами, FG - ем-пiрична кумулятивна функцiя розподшу прогнозiв на множинi фактичного одиничного («good») класу, FB -емтрична кумулятивна функцiя розподiлу прогнозiв на множит фактичного нульового («bad») класу.

Пропонований метод передбачав, що Y* ввдповь дав множинi навчально! вибiрки, але формувться за допомогою перехресно! валщацп (cross-validation) з використанням методу «leave-one-out» [3], а оптималь-не значення k на навчальнiй вибiрцi вiдповiдав максимальному значенню шдексу Джиш на навчальнiй вибiрцi при застосуванш перехресно! валiдацii, що й пропонувться за критерiй оптимальностi.

Таким чином, вдосконалений метод k-plus-най-ближчих сусвдв передбачав наступнi кроки:

1) створити порожнш масив для значень k та Gini (масив «юльюсть-Джиш»);

2) перший цикл (зовнiшнiй): для кожного значення k вiд 1 до зменшеного на два значення розмiру навчально! вибiрки N-2 (всюди включно) провести наступнi ди:

2.1) створити новий порожнш масив для значень ймовiрнiсного прогнозу у* та бшарного факту y (масив значень «прогноз-факт»);

2.2) другий цикл (внутршнш): для кожного еле-мента вибiрки вiд 1 до N (всюди включно):

2.2.1) зпдно з методом «leave-one-out», сформувати тдмножину навчально! вибiрки розмiром N-1 без ура-хування поточного елементу, що розглядавться;

2.2.2) обчислити значення ймовiрнiсного прогнозу у* для поточного елементу на основi пiдмножини навчально! вибiрки без його врахування, використовую-чи базовий метод k-plus-найближчих сусiдiв;

2.2.3) додати значення ймовiрнiсного прогнозу у* та бiнарного факту у у ввдповвдний масив значень «прогноз-факт»;

2.3) тдрахувати значення емпiричних кумулятивних функцш розподшу, використовуючи масив «прогноз-факт»;

2.4) розрахувати значення критерж оптимальнос-тi - iндексу Джиш зпдно з формулою (12), використовуючи класичний метод трапецш [7];

2.5) додати значення k та Gini у вщповщний масив «юльюсть-Джиш»;

2.6) видалити масив значень «прогноз-факт»;

3) знайти максимальне значення Gini у вщповщно-му масивi «юльюсть-Джиш», що вiдповiдатиме оптимальному значенню k: ko.

Очевидно, що вироджений випадок k=N-1 ви-ключаеться, бо, пiсля застосування базового методу (п. 2.2.2) для вах елеменив вибiрки на внутрiшньому циклi, шдекс Джинi дорiвнюватиме мiнус одиницi (видимость штучно отримано! анти-класифiкацii), оскшь-ки для кожного елемента прогностичне значення y* буде лiнiйно залежним вщ бiнарного факту при застосуванш методу «leave-one-out»:

y=

G - y B + G - Г

(13)

Також на практищ достатньо та рекомендовано брати праву границю для зовшшнього циклу по k меншою наприклад в деюлька разiв за N-2, тим бiльше застосування дуже великого значення k не е ефектив-ним, швидким та логiчним.

4. 4. Методика проведення експерименту з використанням ключових можливостей мови структуро-ваних запиив SQL

Мова структурованих запипв SQL вiдноситься до мов четвертого поколшня та дозволяе ефектив-но оперувати з множинами та великими масива-ми шформацп [7, 9, 10, 13]. Застосування вжонних функцiй [10] дае змогу лакошчно та швидко розрахувати для кожного рядка навчально! вибiрки вагу категорп вщповщно! рядку для будь-яко! змiнноi зпдно з формулою (3), наприклад, таким чином (де поле GOOD - бшарний шдикатор щльово! змiнноi): SELECT LOG(1.0*(SUM(GOOD) OVER(PARTITION BY <поле-змiнна>))/(SUM(GOOD) OVER())/ (SUM(1-GOOD) OVER(PARTITION BY <поле-змт-Ha>))*(SUM(1-GOOD) OVER())) AS WOE FROM <повна таблиця навчальног eu6ipKU>.

У даному тдроздШ наведено приклад застосування базового методу k-plus-найближчих сусдав на тестову вибiрку, що не входить до складу навчально!, але мае бшарний фактичний результат щльово! змш-но! для подальшого оцiнювання якост прогнозiв.

Приклад лаконiчного (в порiвняннi з мовами третьо-го поколшня) коду генерацп ваг категорiй п'яти змш-них для навчально! вибiрки, що вiдповiдае проведеному експерименту на даних споживчого кредитування:

IF OBJECT_ID('dbo.TEMP_DEV_WOE_ MEMORY') IS NOT NULL DROP TABLE dbo.TEMP_ DEV_WOE_MEMORY;

SELECT t.*, ROWNUM = IDENTITY(INT, 1, 1) INTO dbo.TEMP_DEV_WOE_MEMORY

FROM

(

SELECT VAR2_GENDER_AGE, VAR2_EDU_ CURREXP,

VAR3_EDU_MARR_CHILD, VAR3_BRANCH_ POSITION_TOTALEXP,

VAR2_BRANCH_SECTOR,