Научная статья на тему 'РОЗРОБКА МЕТОДУ K-PLUS-НАЙБЛИЖЧИХ СУСіДіВ ДЛЯ ЗАДАЧ МАШИННОГО НАВЧАННЯ КРЕДИТНОГО СКОРИНГУ'

РОЗРОБКА МЕТОДУ K-PLUS-НАЙБЛИЖЧИХ СУСіДіВ ДЛЯ ЗАДАЧ МАШИННОГО НАВЧАННЯ КРЕДИТНОГО СКОРИНГУ Текст научной статьи по специальности «Математика»

CC BY
106
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОД K-БЛИЖАЙШИХ СОСЕДЕЙ / КРЕДИТНЫЙ СКОРИНГ / БИНАРНАЯ КЛАССИФИКАЦИЯ / ЯЗЫК СТРУКТУРИРОВАННЫХ ЗАПРОСОВ / K-NEAREST NEIGHBOR METHOD / CREDIT SCORING / BINARY CLASSIFICATION / STRUCTURED QUERY LANGUAGE

Аннотация научной статьи по математике, автор научной работы — Солошенко О.М.

Предложена оригинальная модификация метода k-ближайших соседей для разрешения задач машинного обучения в кредитном скоринге, а именно разработаны варианты метода k-plus-ближайших соседей на множествах дискретных значений входящих переменных для разрешения задачи вероятностной бинарной классификации относительно бинарной целевой переменной. Приведена часть программной реализации предложенного метода на языке структурированных запросов, используя оконные функции

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

K-plus-nearest neighbor method development for credit scoring machine learning tasks

The pace of development of modern risk management and data mining technologies causes the relevance of searching for new or improved effective methods for statistical and non-statistical forecasting, as well as forming the problems of deep study of existing methods and characteristics of their application conditions. Machine learning, namely memory-based learning is one of the most practically useful, broad and insufficiently studied areas. Also, the development of modern information technologies and ways to improve readability and simplicity of code causes the relevance of the study support with the implementation of the fourth-generation programming language.The research deals with developing basic and advanced k-plus-nearest neighbor method as significantly improved classical k-nearest neighbor method with eliminated shortcomings and inaccuracies of practical realization: the problem of selecting a metric space and the metrics itself, problem of using categorical (including sampled) variables on the set, the issue of probabilistic classification, problem of taking into account equally spaced groups of elements relative to the element to be classified, the model optimality criterion based on the method and the method of its use for selecting the optimal parameter, ways to accelerate application. The main work is focused on using the methodology and indicators of credit scoring in machine learning problems. The full code for the basic proposed method in the SQL language MS SQL (T-SQL) dialect was given.As a result of the study, efficiency was determined at the stage of applying the basic proposed method in terms of the optimality criterion Gini index relative to probabilistic forecasts compared to logistic regression in terms of two factors: the quality of forecasts and number of parameters to be optimized.The practical value of the results obtained on the example of simulation using mass consumer credit data lies in the simplicity and effectiveness of the proposed method by means only of the server part of the DBMS.

Текст научной работы на тему «РОЗРОБКА МЕТОДУ K-PLUS-НАЙБЛИЖЧИХ СУСіДіВ ДЛЯ ЗАДАЧ МАШИННОГО НАВЧАННЯ КРЕДИТНОГО СКОРИНГУ»

4. John, W. S. А Bayesian approach to diagnosis and prognosis using built-in test [Text] / W. S. John, A. K. Mark // IEEE Transactions on instrumentation and measurement. - 2005. - Vol. 54, Issue 3. - Р. 1003-1018. doi: 10.1109/tim.2005.847351

5. Jin, L. Accurate testing of analog-to-digital converters using low linearity signals with stimulus error identification and removal [Text] / L. Jin, K. Parthasarathy, T. Kuyel, D. Chen, L. G. Randall // IEEE Transactions on instrumentation and measurement. -2005. - Vol. 54, Issue 3. - Р. 1188-1199. doi: 10.1109/tim.2005.847240

6. Skoczowski, S. A Simple Identification Method for the Order of the Strejc Model and its Application to Autotuning [Text] / S. Skoczowski, A. Osadowski // IFAC Intelligent components and instruments for control applications, 2nd IFAC Symposium. Budapest, Hungary, 1994. - P. 319-325. doi: 10.1016/b978-0-08-042234-3.50054-0

7. Stieber, M. T. Instrumentation architecture and sensor fusion for system control test [Text] / M. T. Stieber, G. Vukovich. // IEEE Transactions on instrumentation and measurement. - 1998. - Vol. 47, Issue 1. - P. 108-113. doi: 10.1109/19.728801

8. Григоренко, I. В. Дослщження впливу нелшшност змши вхщного сигналу на динашчну похибку ви1шрювального пере-творювача тд час проведення тестового контролю [Текст] / I. В. Григоренко // Вестник НТУ «ХПИ». - 2008. - №. 57. -С. 50-57.

9. Григоренко, I. В. Розвиток тестових методiв тдвищення точност електричних компенсацшних вимiрювальних перетворю-вачiв у динамiчних режимах [Текст]: дис. ... канд. техн. наук / I. В. Григоренко. - Харгав, 2010. - 224 с.

10. Опришюна, М. I. Тестовий метод тдвищення точност електричних давачiв з нелшшними функщями перетворення [Текст]: дис. ... канд. техн. наук / М. I. Опришюна. - Харгав, 2013. - 186 с.

Запропоновано оригтальну модифжащю методу ^найближчих сусиНв для виршення задач машинного навчання у кредитному скорингу, а саме розроблено варiанти методу ^р1^-найближчих сусШв на множинах дискретних значень вхидних змтних для виршення задачi ймовiрнiсноi бтар-ног класифжацп видносно бiнарноi цiльовоi змiнноi. Наведено частину програмног реалiзацii запропо-нованого методу мовою структурованих запитiв, використовуючи втонт функцп

Ключовi слова: метод ^найближчих сусиНв, кредитний скоринг, бтарна класифшащя, мова

структурованих запитiв

□-□

Предложена оригинальная модификация метода ^ближайших соседей для разрешения задач машинного обучения в кредитном скоринге, а именно разработаны варианты метода ^р1т-ближай-ших соседей на множествах дискретных значений входящих переменных для разрешения задачи вероятностной бинарной классификации относительно бинарной целевой переменной. Приведена часть программной реализации предложенного метода на языке структурированных запросов, используя оконные функции

Ключевые слова: метод ^ближайших соседей, кредитный скоринг, бинарная классификация, язык

структурированных запросов -□ □-

УДК 519.237.8 : 681.518.25

|DOI: 10.15587/1729-4061.2015.43730|

РОЗРОБКА МЕТОДУ K-PLUS-НАЙБЛИЖЧИХ СУС1Д1В ДЛЯ ЗАДАЧ МАШИННОГО НАВЧАННЯ КРЕДИТНОГО СКОРИНГУ

О. М. Солошенко

Астрант Кафедра математичних методiв системного аналiзу Навчально-науковий комплекс «1нститут прикладного системного аналiзу» Нацюнальний техшчний ушверситет УкраТни «КиТвський пол^ехшчний шститут» пр. Перемоги, 37, м. КиТв, УкраТна, 03056 E-mail: soloshenko s@ukr.net

1. Вступ

Методи математичного та статистичного моделю-вання мають надзвичайно широке, важливе, ефек-тивне та устшне застосування в обласп фшансового ризик-менеджменту [1]. Надзвичайно велика роль в област фшансового ризик-менеджменту выводиться вивченню та моделюванню кредитних ризиюв [1]. Управлшня кредитними ризиками передбачае попе-

редню ощнку кредитоспроможност1 потенцшних кл1-ент1в з метою забезпечення прийнятного р1вня ризику у процеа кредитування [1]. Кредитний скоринг - це методолопя ощнювання кредитоспроможност потенцшних позичальниюв у ризик-менеджмент [2-5]. Скоринг - це методолопя ощнювання кредитоспро-можност або майбутньоï поведшки на р1вш кл1ент1в або договор1в, як потенцшних, так i кнуючих, тому кнуе багато категорш скорингу: кредитний (апль

©

кацшний) скоринг, поведшковий скоринг, скоринг виявлення та попередження шахрайства, колектор-ський скоринг, iншi численнi категорii скорингу [2-4, 6]. Скоринговi моделi також називають скорингови-ми картами (scorecards) [2-7]. Методологiя побудови скорингових моделей ткно пов'язана з методами машинного навчання [8], опосередковано та на практи-щ - з теорieю реляцiйних баз даних [9, 10] (при побу-довi вибiрок, впровадженнi моделей, дослiдженнi та мониторингу ix стабiльностi та предикативноi сили), та напряму - з поняттям штелектуального аналiзу даних (data mining) [2-5, 11]. Одним з найб^ьш популярних методiв, на противагу лопстичнш регресii [2-5, 12, 13], у машинному навчанш для вирiшення задачi класифь кацii е метод k-найближчих сусiдiв (k-nearest neighbor method) або метод виводу на основi пам'ят (memory-based reasoning) [2-4], що в термiнаx машинного навчання ще називаеться навчанням на основi пам'ятi (memory-based learning) [8], який може застосовуватись як до побудови скорингових моделей, так i до промiж-ного етапу аналiзу ввдхилених заявок (reject inference) з метою включення вiдxилениx заявок в модель аплжа-цiйного скорингу [2, 4].

Класичний метод k-найближчих сусвдв визнача-еться у довiльному метричному просторi змiнниx без деталiзацii та без висвилення таких можливих пи-тань як: способи нормування змшних, способи вибору метрики серед множини можливих метрик, способи урахування категорiальниx змiнниx, вибiр оптимального (а не фжсованого) значення кiлькостi сусiдiв та критерп такого вибору, способи призначення ваг змшним вiдносно цiльовоi змiнноi, ощнка узгодже-ностi цiльовиx класiв вщносно метричного простору вxiдниx змiнниx, ощнка на наявшсть «викидiв», ас-пекти ймовiрнiсноi класифiкацii, ситуацii з близькими рiвновiддаленими множинами елементiв, зважування результату вщносно вiдстаней до найближчих сусвдв [3, 8]. Тому актуальними та практично щнними з точки зору ризик-менеджменту е питання детального досль дження та модифжацш методу машинного навчання на основi пам'ятi за допомогою методу k-найближчих сусiдiв саме у задачах кредитного скорингу [3], врахо-вуючи iснуючi розробки та ключовi поняття власне в област скорингу, де ймовiрнiсна бiнарна класифжащя посiдае ключову роль у методологи [2-7].

Ще одним важливим аспектом актуальност досль дження е споаб збереження великих масивiв даних у виглядi таблиць сучасних систем керування базами даних (СКБД), що ввдповщають реляцшнш моделi управлiння даними [9, 10], тому актуальним е питан-ня використання можливостей мови структурованих запипв (Structured Query Language, SQL) [9, 10] для виршення задач моделювання та аналiзу даних без ви-користання стороннix додаткових програмних засобiв.

2. Аналiз лiтературних даних та постановка проблеми

Сучасний стрiмкий прогрес в обласп сучасного ризик-менеджменту [1], зокрема в галузi кредитного скорингу [2-7], забезпечуеться швидким розвитком методiв кiлькiсного аналiзу [1], розвитком шформа-цiйниx теxнологiй [2, 7], розвитком методiв штелекту-ального аналiзу даних (data mining) [2-5, 11], зокрема

статистичних та нестатистичних методiв побудови скорингових моделей [3].

Основш, але далеко не в«, сучасш методи побудови скорингових моделей можна розд^ити таким чином [3]:

1) статистичш методи побудови скорингових карт:

1.2) лшшна регресiя;

1.3) лопстична регресiя (нелiнiйна) [2-5, 12, 13];

1.4) пробгт-регреая (нелiнiйна);

1.5) дерева ршень (рекурсивний пiдxiд розбиття);

1.6) методи найближчих сусiдiв:

1.1.5) метод найближчого сусща;

1.1.6) метод k-найближчих сусвдв;

2) нестатистичнi методи побудови скорингових карт:

2.1) лшшне програмування;

2.2) цiлочисельне програмування;

2.3) нейронш мережi;

2.4) генетичнi алгоритми;

2.5) експертш системи;

3) альтернативнi змшаш методи побудови скорин-гових карт:

3.1) байеавсью мережi та графiчнi моделi [11];

3.2) моделi аналiзу виживання.

На ринку шформацшних теxнологiй присутнi численш рiшення у виглядi програмних додатюв та статистичних пакетiв, що дозволяють здiйснювати моделювання зокрема кредитних ризиюв: рiшення та мова програмування компанп SAS® Institute Inc. [2, 4, 13], проект та в^ьна мова програмування R [13], ста-тистичний пакет IBM® SPSS® Software з внутршньою мовою програмування [4, 13] та iншi рiшення.

Найбiльш популярним методом [2, 4, 5] побудови скорингових моделей е лопстична регреая [2-5, 12, 13], однак великий штерес щодо побудови сучасних скорингових моделей для ощнювання кредитоспро-можност становить саме метод k-найближчих сусдав (k-nearest neighbor method) [3]. Це пояснюеться зокрема концептуальною простотою штерпретацп способу класифiкацii як машинного навчання на основi пам'ятi (memory-based learning) [8] та численними перевагами, що стосуються, наприклад, простоти динамiчно-го он-лайн оновлення моделi через додавання нових елеменпв вибiрки (спостережень) у базу пам'яп та виключення найстарших елементiв (спостережень) з бази пам'яп [3]. Також великий штерес до методу k-найближчих сусвдв обумовлюеться питанням вибору оптимальноi метрики та ввдносно низьким ступенем вивченосп та експериментального застосування у задачах скорингу [3], особливо при використанш катего-рiальниx або дискретизованих змшних. До основних недолтв даного непараметричного методу належать зокрема лише висока обчислювальна складшсть при ощнюванш множин елеменпв, складнiсть вибору метрики, складшсть регулювання та перекалiбрування моделi [3].

Аналiз сучасного джерела [14] сввдчить про вели-ку популяршсть програмних реалiзацiй класичного методу k-найближчих сусвдв, а особливо його мо-дифiкацii - нечiткого методу k-найближчих сусдав (Fuzzy k-Nearest Neighbor, Fuzzy kNN), де ймовiрнiсне значення прогнозу присвоюеться в залежност вщ вiдстаней до найближчих сусiдiв, тобто за допомогою зважування значень фактичних клаив, де вага е

зваженою степеневою функцieю вiд'eмного степеню вщ вiдстанi згiдно з [14] Идентична формула була описана, наприклад, ще в джерелi [15]). Виникае низка закономiрних зауважень та невиршених проблем вiдносно описаного в [14] нечеткого методу, наприклад: коректне опрацювання нульово! вiдстанi, хоча, якщо застосовувати границю для виразу зважування, то можна отримати одиничн значення ваг, але такий тдхщ дуже чутливий до статистичних «викид1в», що знаходяться поблизу вектора, що класифжуеться, а це становить проблему даного методу; порядок врахуван-ня рiвновiддалених вiд вектора груп; важливе питання вiдносно рiвностi спiввiдношення класiв на множинах факпв та прогнозiв, що забезпечувалося б звичайним, а не зваженим по вщсташ, усередненням, яке крiм того не насюльки чутливе до близьких статистичних «ви-кидiв»; питання оптимального вибору к; дослщження iнтегральних критерпв оцiнювання якостi прогнозiв, що притаманш методологii кредитного скорингу i т. д. Також у якосп постановки задачi може виступати програмна реалiзацiя мовами поколiння четвертого поколiння (в [14] програмна реалiзацiя представлена мовою третього поколiння).

Аналiз сучасного джерела [16] може бути вико-ристаний для вибору однiеi з можливих метрик для проведення експерименпв на числових даних (вщ-стань Евклща, Мiнковського, Махаланобiса), також у даному джерелi описуеться новiтнiй горизонт застосу-вання будь-яких вдосконалень та форм методу к-най-ближчих сусiдiв - аналiз знакових послiдовностей та текстових даних на близьюсть - подiбнiсть (мiра Хеммiнга i т. д.). Робота [16] тдтверджуе актуальнiсть дослвджень та модифiкацiй методу машинного навчан-ня на основi пам'ятi, однак, у даному джерелi також не враховуеться, наприклад, що не завжди можливо обрати однозначно рiвно k елементiв при шнувант рiвновiддалених груп елементiв, окрiм того, частина зауважень описана при аналiзi джерела [14] також мае мкце.

3. Цiль та задачi дослщження

Проведенi дослiдження ставили за мету усунути недолжи класичного методу к-найближчих сусiдiв, включаючи вiдсутнiсть конкретики та деталiзацii осо-бливостей застосування машинного навчання на осно-вi пам'ят при використаннi категорiальних та дискре-тизованих змiнних в умовах можливост виникнення ситуацiй з рiвновiддаленими групами найближчих сусвдв вiдносно елемента, що класифжуеться, а також за мету була поставлена розробка способiв знижен-ня обчислювальноi складностi методу за допомогою подальших вдосконалень пропонованоi модифжацп методу.

Для досягнення поставленоi мети виршуються такi задачi:

- застосування понять методологи кредитного скорингу для утворення метричного простору на основi категорiальних (в т.ч. дискретизованих) змшних з ви-користанням перетворень ввдносно цiльовоi змiнноi;

- формалiзацiя виршення проблеми рiвновiдда-лених груп елеменпв вiдносно елемента, що класифi-куеться;

- формулювання та формалiзацiя пропонованого методу k-plus-найближчих сусiдiв;

- наведення ключових можливостей мови структу-рованих запипв SQL щодо реалiзацii пропонованого методу;

- формалiзацiя можливих концептуально значи-мих вдосконалень методу щодо зменшення обчислю-вально'1 складностi та наведення вiдповiдниx можливостей мови структурованих запипв;

- провести порiвняльний аналiз результатiв базового методу k-plus-найближчих сусдав для декшькох значень вxiдного параметру з результатами методу моделювання за допомогою логiстичноi регресп.

4. Методи вдосконалення машинного навчання на 0CH0Bi пам'ят та модифiкацiя методу k-найближчих _сусвдв_

4. 1. Методика створення метричного простору для категорiальних та дискретизованих змшних з вико-ристанням методологи кредитного скорингу

Суть класичного методу k-найближчих сусвдв (k-nearest neighbor method) або навчання на основi пам'яп (memory-based learning) [3, 8] полягае у такш формалiзацii правила класифiкацii по принципу значення бшьшосп (majority) згiдно з формулами (1)-(2):

1, it > 1

о, if * 1,

Г? k 2

У =

(1)

де у* прогнозоване значення бшарного класу (цiльова змшна), у1 - фактичне бiнарне значення класу щльо-воi змiнноi 1-го найближчого сусща, к - юльюсть найближчих сусiдiв (для спрощення можна вважати, що це непарне натуральне число, з метою уникнення си-туацii рiвного спiввiдношення), при цьому найближчi сусвди заздалегiдь визначаються згiдно з метрикою у просторi вхiдних серед скiнченноi множини векторiв лише вхiдних змшних [3, 8]:

x1 = argmind(x, x*);

xeX

Vi e {2,..k}: x, = argmind(x, x*), i-1

xeX\ U xj j=1

(2)

де х - довiльний вектор простору лише вхщних змш-них (вектор спостереження) навчальноi вибiрки, X -скшченна множина векторiв спостережень навчальшл вибiрки для вхiдних змшних, х* - вхщний вектор значень вхщних змiнних, що класифiкуеться (до яко-го застосовуеться прогноз), d - метрика визначена на просторi векторiв вхiдних змiнних.

Таким чином суть алгоритму полягае у присвоен-нi елементу, що класифжуеться, значення локальноi статистичноi моди у якостi прогнозованого щльового класу. На рис. 1 зображено приклад застосування методу трьох найближчих сусвдв у двовимiрному про-сторi [8], коли вектору прогнозовано одиничний клас зпдно з методом.

Рис. 1. Приклад застосування методу k-найближчих сус^в у двовимiрному просторi при k=3 (результат прогнозу: y*=1)

Даний метод вщносно просто застосовний, напри-клад, для побудови скорингових моделей у просторi вхiдних неперервних змшних, якщо можливе деяке нормування неперервних змшних, що забезпечуе не-залежшсть вiд масштабу вхiдних змiнних, де бшарна цiльова змiнна означав шдикатор кредитоспроможно-стi, однак багато питань щодо налаштування метрики та вибору числа найближчих сусвдв залишаються вщкритими. Зокрема, також залишавться невирiше-ним питання врахування можливих спостережень, що рiвновiддаленi вiд x* на вiдстанi k-го найближчого су-сiда, а також залишавться вщкритим просте питання ймовiрнiсноi класифiкацii. Однак найголовнiшими не-виршеними питаннями з точки зору скорингового мо-делювання, що виступають у якост постановки даного дослiдження, окрiм способiв ймовiрнiсного висновку, також лишаються способи врахування категорiальних змiнних, що власне й часто призводитимуть до ситу-ацш з рiвновiддаленими точками, та власне критерп оптимальностi юлькост найближчих сусiдiв вiдносно обраноi метрики на множит спостережень навчальноi вибiрки.

Класична методологiя кредитного скорингу пе-редбачав два основнi методи числового оперування категорiальними (в т. ч. дискретизованими) змшними, що значно вiдрiзняються, головне, через наявнiсть не-обхщносп залучення цiльовоi бiнарноi змiнноi або не-обхiдностi замiни оригiнальноi множини змшних [2].

Перший метод, менш популярний та ефективний, полягав у розбитп кожноi категорiальноi змiнноi на множину бшарних змiнних, що ввдповщають окре-мим значенням окремоi категорiальноi змiнноi. Даний метод у статистищ ще називають методом створення фжтивних змiнних (dummy variables) [2]. Недолжом даного методу в замiна кожноi категорiальноi змш-ноi на множину бшарних змшних, що ввдповвдають можливим значенням категорiальноi змiнноi, що при-зводить до збiльшення сукупноi юлькосп змiнних в процесi моделювання. Недолжом з точки зору методу навчання на основi пам'ятi в можлившть рiвноцiнного входження всiх суто бшарних координат в формулу метрики без врахування наявносп факту взавмозв'яз-ку значення бiнарноi координати з щльовою змiнною.

Другий методом iнтерпретацii категорiальних як числових значень в метод перетворення кожного ка-тегорiального значення окремоi змiнноi в вагу значення змiнноi (Weight Of Evidence, WOE), тобто вагу атрибуту змiнноi [2, 5, 6], що входить як до форму-

ли розрахунку вщстат Кульбака-Лейблера [5], так i до формули розрахунку шдексу значення iнформацiï (Information Value, IV) [2, 5, 6]. Для кожного значення категорiальноï змшшл вага значення змшшл обчислю-еться як натуральний логарифм вiд вщношення долi одиничних («хороших») значень цiльовоï змiнноï, що вiдповiдають значенню категорiальноï змiнноï, вщ-носно всiх одиничних («хороших») значень цiльовоï змiнноï, до долi нульових («негативних») значень щ-льовоï змiнноï, що вiдповiдають значенню категорь альноï змiнноï, вiдносно в«х нульових («негативних») значень цiльовоï змiнноï [2, 5, 6]:

WOEjj = ln

С \ gj

V j

(3)

де i - номер змiнноl, j - номер можливого значення (категорп) конкретноi змшно!, gjj - доля одиничних («good») значень щльово! змiнноi, що вщповщають j-й категорп i-i змiнноi, вщносно всiх одиничних («good») значень щльово! змшно!, - доля нульових («bad») значень щльово! змшно!, що вщповщають j-й категорп i-i змшно!, вщносно в«х нульових («bad») значень щльово! змшно!, тобто:

G

gj = nJ' (4)

(5)

I Bik

тут mj - кiлькiсть категорiй i-ï змшно!, Gj - юль-кiсть одиничних («good») значень цiльовоï змiнноï, що вщповщають j-й категорп i-ï змшно!, By - кiлькiсть нульових («bad») значень щльово! змшно!, що вщповь дають j-й категорiï i-ï змшно!.

Очевидно, що виконуеться така тотожшсть:

vi е {i,..n}: ig^iv^

(6)

j=i

j=i

де n - кглькгсть змшних, що окремо аналiзуються.

ТодГ формула обчислення iндексу значення шфор-мацiï [2, 5, 6] (або iнформацiйноï статистики [3]) для кожноï змiнноï мае такий вигляд:

IV, = I(gij-b,j)b f =I(gj-bj)WOEj, (7) V Dij ) j=l

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

де IV, - шдекс значення iнформацiï i-ï змiнноï.

Як наслщок, кожне спостереження навчальноï ви-6Грки (без вiдображення в списку координат власне цiльовоï змiнноï) можна описати вектором конкретних ваг категорш n змшних:

xT = (WOE1j,(p) WOE2j2(p) ...WOE.j1(p) ... WOEn;„(p)) , (8)

де ji(p) - фактичний номер категорiï для i-ï змiнноï вектору xp.

У дослщжент у якост метрики запропоновано ви-користовувати класичну вiдстань Евклща (Euclidean distance) [2, 3, 8] саме у просторi векторiв ваг категорш змiнних розмiрностi n:

d (x p, Xr ) =

,-xrii^:L(woEJ,(P) - woE,j,(r))2, (9)

де d - метрика.

Застосування дано1 метрики опосередковано (через попередне обчислення WOE. ) залежить вщ бiнарноi цiльовоi змiнноi, тому мае бути ефектив-ним. Тим паче, запропонована метрика узгоджуеть-ся з поняттям шдексу значення шформацп, осюль-ки високе значення шдексу значення шформацп IV, зазвичай свiдчить про високу дисперсiю ваг категорш i-i змiнноi Var^{WOE^^} ^ на навчальнiй

вибiрцi розмiру N та вiдповiдно про достатньо високу рiзницю («розмах») мiж максимальним та мжмаль-

ним значенням max WOE. (p) - min WOE. (p), що озн-

ачае, що саме змiннi з високим значенням шдексу шформацп грають ключову роль у варiацii запропоно-ваноi метрики. Також легко показати, що при низькш варiацii ваг категорп змiнноi ii значення близьке до нуля, осюльки виконуеться наступна рiвнiсть [17], що пов'язуе вагу категорп змiнноi з долею нульового («bad») класу по окремш категорп та взагалi на всiй вибiрцi (або середньозваженiй по кiлькостi дол^:

Woe,. = ln

B B + G

1-

B

= ln

P(B)

1 - P(B)

B + G - ln

- ln

Pij(B)

B

V G

1 --Bl

1 - PS(B).

(10)

де B - загальна кiлькiсть спостережень з нульовим («bad») класом (знаменник вщношення (5)), G - загальна юльюсть спостережень з одиничним («good») класом (знаменник ввдношення (4)), p(B) - доля нульового класу на всш вибiрцi, Pij(B) - доля нульового класу по j-й категорii i-i змiнноi.

Таким чином, навгть при включеннi в проспр змш-них з низьким шдексом значенням iнформацii вплив таких змшних буде низьким, тобто важливою влас-тивiстю запропонованоi метрики е ii чутлившть до предикативноi сили змшних.

Також суть даноi метрики можна описати спробою перемктити бшьшшть одиничних значень у частину простору, де ва координати позитивнi, а б^ьшкть ну-льових значень - де в« координати негативнi.

4. 2. Методика виршення проблеми рiвновiддалених груп елементiв вiдносно елемента, що класифжуеться

Класичний метод k-найближчих сусвдв [3, 8] не дае рекомендацш вiдносно вирiшення ситуацiй, коли,

наприклад, починаючи з якогось найближчого сусвда йде велика група вели^ юлькост рiвновiддалениx елементiв, що не можуть помктитися разом з попере-дшми найближчими сусiдами в число k.

У рамках пропонованого методу пропонуеться ви-користовувати такий алгоритм, що дозволяе розгляда-ти щонайменше (а не точно рiвно) k сусiдiв:

1) вщсортувати множину, що представляе собою склад пам'яп, по зростанню вщсташ вiд елемента, що класифiкуеться, при цьому внутршне сортування елементiв рiвновiддалениx груп можна проводити ви-падковим чином;

2) обрати першi окремi k елеменпв згiдно з сорту-ванням по першому пункту;

3) доповнити k елементiв всiма елементами, що перебувають на такш же вщсташ вiд елемента, що кла-сифжуеться, як останнiй обраний (k-й) найближчий сусвд, якщо такi елементи кнують.

4. 3. Формулювання та формалiзацiя базового методу k-plus-найближчих сусiдiв та його вдоско-налення з використанням пропонованого критерто оптимальностi

Формалiзацiя пропонованого базового методу k-plus-найближчих сусвдв та його застосування:

1) розрахувати значення ваг категорш для в«х змшних, що використовуються при проектуванш ме-тричного простору навчальноi вибiрки, згщно з формулою (3) або (10);

2) визначити метрику на просторi ваг категорш змшних зпдно з формулою (9);

3) задати значення k;

4) для кожноi окремоi категорii кожного окремо-го вxiдного елемента з множини елеменпв, що кла-сифiкуються, присвогти значення ваги цiеi окремоi категорп ввдповвдне такому ж значенню категорп в навчальнш вибiрцi (тобто категорп елемента, що кла-сифiкуеться, перетворюються в числа - ваги категорш змшно'Г - згщно з вщповщшстю «категорiя-WOE» в навчальнiй вибiрцi);

5) для кожного елемента з множини елеменпв, що класифжуються, отримати щонайменше k сусiдiв з навчальноi вибiрки згiдно з алгоритмом методики опи-саноi в пiдроздiлi 4.2 та метрикою, що визначена в п. 2;

6) для кожного елемента з множини елеменпв, що класифжуються, розрахувати долю одиничних («good») елеменпв в чи^ обраних щонайменше k сусь дiв згiдно з п. 5, що й буде дорiвнювати прогностичнш ймовiрностi належностi до одиничного («good») класу. Таким чином визначаеться споаб виводу ймовiрнiсно-го висновку. Формула (1) замшяеться пропонованою формулою (11):

k+(X*)

У* =1

у,

k + (x*)

(11)

де k ( ) > k - фактична юльюсть найближчих сусiдiв (не менше k) для вектору x*.

Також класичний метод k-plus-найближчих сусдав (навiть з детермшованим висновком) не встановлюе критерпв вибору k, виходячи з навчальноi вибiрки [3, 8]. У вдосконаленш методу k-plus-найближчих сусь дiв у якост критерiю оптимальностi вибору k пропо-

нуеться використання шдексу Джинi [2-4, 7] , але за допомогою перехресно! валiдацii (cross-validation) [3] на навчальнш вибiрцi за допомогою методу виключен-ня одного елементу - методу «leave-one-out» [3].

Згiдно з [7] в штегральнш формi формулу обчис-лення iндексу Джинi можна записати таким чином вщносно кумулятивних функцш розподiлу прогнозiв на двох тдмножинах, що вiдповiдають двом класам:

GINI =

J FB(y')dFG(y')-2

(12)

де Y* ввдображав множину значень ймовiрнiсних про-гнозiв на множинi, що дослiджувться на яюсть прогнозу в порiвняннi з фактичними класами, FG - ем-пiрична кумулятивна функцiя розподшу прогнозiв на множинi фактичного одиничного («good») класу, FB -емтрична кумулятивна функцiя розподiлу прогнозiв на множит фактичного нульового («bad») класу.

Пропонований метод передбачав, що Y* ввдповь дав множинi навчально! вибiрки, але формувться за допомогою перехресно! валщацп (cross-validation) з використанням методу «leave-one-out» [3], а оптималь-не значення k на навчальнiй вибiрцi вiдповiдав максимальному значенню шдексу Джиш на навчальнiй вибiрцi при застосуванш перехресно! валiдацii, що й пропонувться за критерiй оптимальностi.

Таким чином, вдосконалений метод k-plus-най-ближчих сусвдв передбачав наступнi кроки:

1) створити порожнш масив для значень k та Gini (масив «юльюсть-Джиш»);

2) перший цикл (зовнiшнiй): для кожного значення k вiд 1 до зменшеного на два значення розмiру навчально! вибiрки N-2 (всюди включно) провести наступнi ди:

2.1) створити новий порожнш масив для значень ймовiрнiсного прогнозу у* та бшарного факту y (масив значень «прогноз-факт»);

2.2) другий цикл (внутршнш): для кожного еле-мента вибiрки вiд 1 до N (всюди включно):

2.2.1) зпдно з методом «leave-one-out», сформувати тдмножину навчально! вибiрки розмiром N-1 без ура-хування поточного елементу, що розглядавться;

2.2.2) обчислити значення ймовiрнiсного прогнозу у* для поточного елементу на основi пiдмножини навчально! вибiрки без його врахування, використовую-чи базовий метод k-plus-найближчих сусiдiв;

2.2.3) додати значення ймовiрнiсного прогнозу у* та бiнарного факту у у ввдповвдний масив значень «прогноз-факт»;

2.3) тдрахувати значення емпiричних кумулятивних функцш розподшу, використовуючи масив «прогноз-факт»;

2.4) розрахувати значення критерж оптимальнос-тi - iндексу Джиш зпдно з формулою (12), використовуючи класичний метод трапецш [7];

2.5) додати значення k та Gini у вщповщний масив «юльюсть-Джиш»;

2.6) видалити масив значень «прогноз-факт»;

3) знайти максимальне значення Gini у вщповщно-му масивi «юльюсть-Джиш», що вiдповiдатиме оптимальному значенню k: ko.

Очевидно, що вироджений випадок k=N-1 ви-ключаеться, бо, пiсля застосування базового методу (п. 2.2.2) для вах елеменив вибiрки на внутрiшньому циклi, шдекс Джинi дорiвнюватиме мiнус одиницi (видимость штучно отримано! анти-класифiкацii), оскшь-ки для кожного елемента прогностичне значення y* буде лiнiйно залежним вщ бiнарного факту при застосуванш методу «leave-one-out»:

y=

G - y B + G - Г

(13)

Також на практищ достатньо та рекомендовано брати праву границю для зовшшнього циклу по k меншою наприклад в деюлька разiв за N-2, тим бiльше застосування дуже великого значення k не е ефектив-ним, швидким та логiчним.

4. 4. Методика проведення експерименту з використанням ключових можливостей мови структуро-ваних запиив SQL

Мова структурованих запипв SQL вiдноситься до мов четвертого поколшня та дозволяе ефектив-но оперувати з множинами та великими масива-ми шформацп [7, 9, 10, 13]. Застосування вжонних функцiй [10] дае змогу лакошчно та швидко розрахувати для кожного рядка навчально! вибiрки вагу категорп вщповщно! рядку для будь-яко! змiнноi зпдно з формулою (3), наприклад, таким чином (де поле GOOD - бшарний шдикатор щльово! змiнноi): SELECT LOG(1.0*(SUM(GOOD) OVER(PARTITION BY <поле-змiнна>))/(SUM(GOOD) OVER())/ (SUM(1-GOOD) OVER(PARTITION BY <поле-змт-Ha>))*(SUM(1-GOOD) OVER())) AS WOE FROM <повна таблиця навчальног eu6ipKU>.

У даному тдроздШ наведено приклад застосування базового методу k-plus-найближчих сусдав на тестову вибiрку, що не входить до складу навчально!, але мае бшарний фактичний результат щльово! змш-но! для подальшого оцiнювання якост прогнозiв.

Приклад лаконiчного (в порiвняннi з мовами третьо-го поколшня) коду генерацп ваг категорiй п'яти змш-них для навчально! вибiрки, що вiдповiдае проведеному експерименту на даних споживчого кредитування:

IF OBJECT_ID('dbo.TEMP_DEV_WOE_ MEMORY') IS NOT NULL DROP TABLE dbo.TEMP_ DEV_WOE_MEMORY;

SELECT t.*, ROWNUM = IDENTITY(INT, 1, 1) INTO dbo.TEMP_DEV_WOE_MEMORY

FROM

(

SELECT VAR2_GENDER_AGE, VAR2_EDU_ CURREXP,

VAR3_EDU_MARR_CHILD, VAR3_BRANCH_ POSITION_TOTALEXP,

VAR2_BRANCH_SECTOR,

LOG(1.0*(SUM(GOOD) OVER(PARTITION BY

VAR2_GENDER_AGE))/

(SUM(GOOD) OVER())/(SUM(1-GOOD) OVER(PARTITION BY

VAR2_GENDER_AGE))*(SUM(1-GOOD) OVER())) AS WOE1,

LOG(1.0*(SUM(GOOD) OVER(PARTITION BY

VAR2_EDU_CURREXP))/

(SUM(GOOD) OVER())/(SUM(1-GOOD) OVER(PARTITION BY

VAR2_EDU_CURREXP))*(SUM(1-GOOD) OVER())) AS WOE2,

LOG(1.0*(SUM(GOOD) OVER(PARTITION BY

VAR3_EDU_MARR_CHILD))

/(SUM(GOOD) OVER())/(SUM(1-GOOD) OVER(PARTITION BY

VAR3_EDU_MARR_CHILD))*(SUM(1-GOOD) OVER())) AS WOE3,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

LOG(1.0*(SUM(GOOD) OVER(PARTITION BY

VAR3_BRANCH_POSITION_TOTALEXP))/ (SUM(GOOD) OVER())/(SUM(1-GOOD) OVER(PARTITION BY

VAR3_BRANCH_POSITION_ TOTALEXP))*(SUM(1-GOOD) OVER())) AS WOE4,

LOG(1.0*(SUM(GOOD) OVER(PARTITION BY

VAR2_BRANCH_SECTOR ))/

(SUM(GOOD) OVER())/(SUM(1-GOOD) OVER(PARTITION BY

VAR2_BRANCH_SECTOR))*(SUM(1-GOOD) OVER())) AS WOE5, GOOD

FROM dbo.T_V1_DEV_GRAY ) t;

Приклад коду доповнення тестовоi вибiрки значення-ми WOE з навчальноi вибiрки (тобто доповненнями чис-ловими перетвореннями категорiальних змiнних), вико-ристовуючи конструкщю JOIN [9] для з'еднання таблиць:

IF OBJECT_ID('dbo.TEMP_VAL_WOE') IS NOT NULL DROP TABLE dbo.TEMP_VAL_WOE;

SELECT t.*, convert(float, NULL) AS P_GOOD_ FORECAST, ROWNUM = IDENTITY(INT, 1, 1) INTO

dbo.TEMP_VAL_WOE

FROM (

SELECT val.VAR2_GENDER_AGE, val.VAR2_ EDU_CURREXP, val.VAR3_EDU_MARR_CHILD, val.VAR3_BRANCH_POSITION_TOTALEXP, val.VAR2_BRANCH_SECTOR, t1.WOE1, t2.WOE2, t3.WOE3, t4.WOE4, t5.WOE5, val.GOOD

FROM dbo.T_V2_VAL_GRAY val LEFTJOIN

(SELECT DISTINCT VAR2_GENDER_AGE, WOE1 FROM dbo.TEMP_DEV_WOE_MEMORY) t1 ON ISNULL(t1.VAR2_GENDER_AGE, 'NULL' )= ISNULL(val.VAR2_GENDER_AGE, 'NULL')

LEFTJOIN

(SELECT DISTINCT VAR2_EDU_CURREXP, WOE2

FROM dbo.TEMP_DEV_WOE_MEMORY) t2 ON ISNULL(t2.VAR2_EDU_CURREXP, 'NULL' )= ISNULL(val.VAR2_EDU_CURREXP, 'NULL')

LEFTJOIN

(SELECT DISTINCT VAR3_EDU_MARR_CHILD, WOE3

FROM dbo.TEMP_DEV_WOE_MEMORY) t3 ON ISNULL(t3.VAR3_EDU_MARR_CHILD, 'NULL' )=

ISNULL(val.VAR3_EDU_MARR_CHILD, 'NULL') LEFTJOIN

(SELECT DISTINCT VAR3_BRANCH_POSITION_ TOTALEXP, WOE4

FROM dbo.TEMP_DEV_WOE_MEMORY) t4 ON ISNULL(t4.VAR3_BRANCH_POSITION_ TOTALEXP, 'NULL' )=

ISNULL(val.VAR3_BRANCH_POSITION_ TOTALEXP, 'NULL' )

LEFTJOIN

(SELECT DISTINCT VAR2_BRANCH_SECTOR, WOE5

FROM dbo.TEMP_DEV_WOE_MEMORY) t5 ON ISNULL(t5.VAR2_BRANCH_SECTOR, 'NULL' )=

ISNULL(val.VAR2_BRANCH_SECTOR, 'NULL' ) ) t;

CREATE INDEX TEMP_VAL_WOE_INDEX5 ON dbo.TEMP_VAL_WOE (WOE1, WOE2, WOE3, WOE4, WOE5);

Очевидно, для найпростшого прискорення подаль-ших обчислень застосовуеться iндексування доповне-hoï тестовоï вибiрки (про бiльш ефективнi пропоноваш методи прискорення методу йдеться у наступному тдроздШ).

Надалi для ймовiрнiсноï класифiкацiï застосовуеться ключова можливкть мови структурованих за-питiв SQL, що iдеально застосовна отримання k+ (x*) найближчих сусiдiв, а саме конструкщя «TOP N WITH TIES» [9, 10]. Наведемо приклад коду для ймовiрнiсноï класифжацп при k=10:

DECLARE @k int; SET @k = 10;

UPDATE dbo .T EM P_VA L_WO E SET P_GOOD_FORECAST = (SELECT avg(convert(float, t2.GOOD)) FROM (SELECT TOP(@k) WITH TIES t1.GOOD FROM dbo.TEMP_DEV_WOE_MEMORY t1 WHERE t1.ROWNUM != dbo.TEMP_VAL_WOE. ROWNUM

ORDER BY SQRT(POWER(t1.WOE1-dbo.TEMP_

VAL_WOE .WOE1,2)+

POWER(t1.WOE2-dbo.TEMP_VAL_WOE. WOE2,2)+

POWER(t1.WOE3 - dbo.TEMP_VAL_WOE. WOE3,2)+

POWER(t1.WOE4-dbo.TEMP_VAL_WOE. WOE4,2)+

POWER(t1.WOE5 - dbo.TEMP_VAL_WOE. WOE5,2))

) t2 );

4. 5. Формалiзацiя вдосконалень методу щодо зменшення обчислювально! складностi при проведен-ш експерименту та наведення вщповщних можливо-стей мови структурованих запиив

Програмну реалiзацiю даного методу можна знач-но вдосконалити методом агрегування за допомогою агрегатних функцш визначених на групах [9, 10], про-гнозуючи за допомогою ймовiрностi спочатку щльову змшну для векторiв x*, що вщразу по нульовiй вiдстанi (точнш рiвностi) потрапляють у групу рiвних по координатах векторiв x, яка становить щонайменше k век-торiв, а далi класифiкуючи за допомогою ймовiрностi методом описаним в тдроздШ 4. 4 всi iншi вектори, що ще не класифжувалися:

DECLARE @k int; SET @k = 10;

IF OBJECT_ID('dbo.TEMP_QUICK_MEMORY') IS NOT NULL

DROP TABLE dbo.TEMP_QUICK_MEMORY; /*для випадкiв нульово! вiдстанi до груп чисельш-стю не менше k:*/

SELECT WOE1, WOE2, WOE3, WOE4, WOE5, count(*) AS cnt, sum(GOOD) AS goods, 1.0*sum(GOOD)/count(*) AS P_good,

ROW_NUMBER() OVER(ORDER BY count(*) DESC) RN

INTO dbo.TEMP_QUICK_MEMORY FROM dbo.TEMP_DEV_WOE_MEMORY GROUP BY WOE1, WOE2, WOE3, WOE4, WOE5 HAVING count(*) >= @k ORDER BY count(*) DESC;

CREATE UNIQUE INDEX TEMP_QUICK_ MEMORY_PK ON dbo.TEMP_QUICK_ MEMORY(WOE1, WOE2, WOE3, WOE4, WOE5);

/*на всякий випадок, додаткова очистка ввд попе-реднiх значень прогнозiв:*/

UPDATE dbo.TEMP_VAL_WOE SET P_GOOD_ FORECAST = NULL;

UPDATE VAL

SET VAL .P_GOOD_FORECAST = QM.P_good FROM dbo.TEMP_VAL_WOE VAL

INNER JOIN dbo.TEMP_QUICK_MEMORY QM ON QM.WOE1 = VAL.WOE1 AND QM.WOE2 = VAL .WOE2

AND QM.WOE3 = VAL .WOE3 AND QM.WOE4 = VAL .WOE4

AND QM.WOE5 = VAL .WOE5;

UPDATE dbo.TEMP_VAL_WOE SET P_GOOD_FORECAST = (SELECT avg(convert(float, t2.GOOD)) FROM (SELECT TOP(@k) WITH TIES t1.GOOD FROM dbo.TEMP_DEV_WOE_MEMORY t1 WHERE t1.ROWNUM != dbo.TEMP_VAL_WOE. ROWNUM

ORDER BY SQRT(POWER(t1.WOE1-dbo.TEMP_

VAL_WOE .WOE1,2)+

POWER(t1.WOE2-dbo.TEMP_VAL_WOE. WOE2,2)+

POWER(t1.WOE3 - dbo.TEMP_VAL_WOE. WOE3,2)+

POWER(t1.WOE4-dbo.TEMP_VAL_WOE. WOE4,2)+

POWER(t1.WOE5 - dbo.TEMP_VAL_WOE. WOE5,2))

) t2 )

WHERE P_GOOD_FORECAST IS NULL;

4. 6. Ощнка якостi прогнозiв на тестовш вибiрцi при проведеннi експерименту засобами мови структурованих запиив

Осюльки критерiвм оптимальностi вдосконале-ного методу k-plus-найближчих сусвдв обрано ш-декс Джиш, як найбшьш популярний показник яко-стi прогнозiв у кредитному скорингу [2-4, 7], то, використовуючи вжонш функцп [10], наведемо його програмну реалiзацiю, iдея та реалiзацiя яко! для висвiтлена в [7], адаптувавши ii до особливостей сис-теми керування базами даних (СКБД) MS SQL Server (нижче наведено код сумшний як м^мум починаючи з версп 2005):

WITH smpl(BAD, GOOD, score) AS (

/*start sample*/

SELECT 1 - GOOD AS BAD, GOOD, P_GOOD_ FORECAST AS SCORE

FROM dbo.TEMP_VAL_WOE

/*end sample*/

),

distr AS (

SELECT score,

1.0*(sum(GOOD))/(sum(sum(GOOD)) over()) AS GOOD,

1.0*(sum(BAD))/(sum(sum(BAD)) over()) AS BAD FROM smpl

GROUP BY score ),

cum AS (

SELECT D_BASE.SCORE,

sum(D_LESS.GOOD) AS GOOD, sum(D_LESS. BAD) AS BAD,

ROW_NUMBER() OVER(ORDER BY D_BASE. SCORE) AS RN

FROM distr d_base LEFT OUTER JOIN distr d_less ON D_LESS.SCORE<=D_BASE.SCORE

GROUP BY D_BASE.SCORE ),

cum_with_lag AS (

SELECT cum.*, ISNULL(cum_prev.GOOD, 0) AS GOOD_PREV,

ISNULL(cum_prev.BAD, 0) AS BAD_PREV FROM cum LEFT JOIN cum AS cum_prev ON cum_

prev.RN = cum.RN - 1 )

SELECT 'GINI' AS "Indicator",

convert(varchar(6), convert(numeric(5, 2), ROUNDS*

sum((GOOD - GOOD_PREV)*(BAD + BAD_ PREV) / 2)- 0.5)/0.5, 4)*100)) + '%' AS "Value" FROM cum_with_lag;

Дана програмна реалiзацiя легко застосовна для оцшювання якостi прогнозiв довiльних бшарних ймо-вiрнiсних класифiкаторiв.

4. 7. Додатковi засоби монiторингу процесу вико-нання експерименту за допомогою SQL

Осюльки процес виконання експерименту на етат останнього «UPDATE» мае високу обчислювальну складнiсть, то практично цшним е можливiсть он-лайн контролю ходу виконання експерименту. Для цього можна застосувати рiвень iзоляцiï транзакцiï «READ UNCOMMITTED» [9], щоб порахувати наприклад миттеву кшьюсть векторiв з тестовоï вибiрки, яким ще не присвоено прогноз:

SET TRANSACTION ISOLATION LEVEL READ UNCOMMITTED; SELECT COUNT(*) FROM dbo.TEMP_VAL_WOE WHERE P_GOOD_FORECAST IS NULL;

5. Результата проведення експерименту на 6a3i даних споживчого кредитування

Як згадуеться в пiдроздiлi 4.4, моделювання за допомогою базового методу k-plus-найближчих сусiдiв здiйснюеться на даних споживчого кредитування з використанням п'яти комбшованих змшних, що вклю-чають в себе атомарнi змiннi (наприклад, змшна VAR2_ GENDER_AGE включае даш про стать та вiк клiента).

Результати якостi порiвняння прогнозiв (в т. ч. з лопстичною регреаею) наведенi в табл. 1 (скорочено запропонований метод будемо називати k-plus-NN, тоб-то походить вiд «k-plus-nearest neighbor»).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблиця 1

Порiвняння якосп nporH03iB базового методу k-plus-найближчих сус^в з логiстичною регресieю

Метод моделювання 1ндекс Джишi Клькють параметрiв, що оптимiзуються Юльюсть безу-мовно заданих параметрiв

Лопстична регресiя 40,32 % 6 0

k-plus-NN (k=10) 30,45 % 0 1

k-plus-NN (k=50) 36,58 % 0 1

Кiлькiсть параметрiв логiстичноï регресп включае змiщення (intercept), а застосована тут формула для порiвняння результапв мае вигляд [2, 12]:

Ур =

1

1+e

-f(Xp)

де

f(Xp) = Со + X c.WOE^p),

де m - юльюсть змiнних.

(14)

(15)

6. Анаиз результатiв проведеного експерименту побудови моделей навчання на основi пам'ятi та за допомогою лопстично!' регресп (для порiвняння) на даних споживчого кредитування

На основi аналiзу табл. 1 можна зробити висновок, що навггь базовий метод k-plus-найближчих сусвдв, на фон повноï вiдсутностi оптимiзацiï будь-яких па-раметрiв (тут значення k) та лише завдяки обранiй метрищ на множинi ваг категорiй змшних та заданим значенням k, дае результати не набагато гiршi та щл-ком порiвняннi з результатами логiстичноï регресiï, тому, логiчно, вдосконалений метод k-plus-найближчих сусдав, де значення k оптимiзуеться при застосуваннi складшл обчислювальноï процедури, даватиме набагато крашд результати.

7. Висновки

1. Дослщжено та запропоновано простiр числових перетворень категорiальних (в т. ч. дискретизова-них) змiнних з використанням перетворень вщнос-но цiльовоi змшно1, використовуючи ваги категорiй змiнних згщно з класичною методологiею кредитного скорингу, застосовано класичну метрику та детально дослщжено ii властивостi у рамках саме термшологп скорингового моделювання. Таким чином тшшше пов'язано методологiю побудови скорингових карт з теорiею машинного навчання на основi пам'ятi. Надалi експериментально доведено дощльшсть вико-ристання запропонованоi метрики, як однiеi з можли-вих ефективних метрик.

2. Формалiзовано вирiшення проблеми рiвновiд-далених груп елеменпв вiдносно елемента, що кла-сифiкуеться, що е однiею з невисвгглених (або не-належно розв'язних) проблем у класичному методi k-найближчих сусiдiв. Продемонстровано нагальну необхiднiсть виршення цього питання саме у випадку числових перетворень категорiальних змiнних, коли область визначення в«х змiнних скшченна. Доведено ефективнiсть та детермiнованiсть запропонованого методу виршення проблеми рiвновiддалених груп у рамках загального методу, а також простоту та спещ-альш готовi засоби реалiзацii саме за допомогою мови структурованих запипв дiалекту MS SQL (T-SQL) -транзакцiйноi SQL.

3. Наведено чiтке формулювання формалiзацii пропонованого базового методу k-plus-найближчих су-сiдiв та вдосконаленого методу на основi базового з використанням критерт оптимальностi класичного для кредитного скорингу - шдексу Джинi. Ключови-ми особливостями методу та його вдосконалення е: ймовiрнiсне значення прогнозiв, коректне та детер-мiноване врахування рiвновiддалених груп, викори-стання метрики на просторi класичних показникiв у рамках методологи кредитного скорингу, визначення критерт оптимальносп моделi та вибору значення вхщного параметру на основi перехресноi валiдацii, проста iнтерпретацiя методу, властивостей простору та опосередкований взаемозв'язок з показниками ана-лiзу характеристик. У результат метод передбачае всi можливi ситуацii та бiльш детально пояснюе особли-востi та застереження вщносно використання мето-

ду виключення одного елементу - методу «leave-one-out» - у якост побГчного результату.

4. Запропоновано повну програмну реалiзацiю базового методу k-plus-найближчих сусдав та розрахун-ку критерГю оптимальностi з належним та влучним використанням ключових можливостей мови структу-рованих запитГв SQL дiалекту MS SQL (T-SQL). Вико-ристана мова СКБД четвертого поколшня мае високу властивГсть читабельност мови високого рГвня, забез-печуе оперування множинами та можливГсть обробки даних безпосередньо у середовишд !х збереження, що е суттевою перевагою. Продемонстровано використання саме транзакцшних особливостей дiалекту T-SQL на прикладi контролю процесу виконання методу.

5. Представлено оригшальний тдхщ до приско-рення процесу виконання методу за допомогою змен-шення його обчислювально! складностi через роз-биття на два етапи процесу прогнозування засобами

агрегування мови SQL. ВажливГсть даного методу прискорення прогнозування надзвичайно важлива при малих значеннях вхщного параметру загального пропонованого методу.

6. Проведено порГвняльний аналiз результаив базового методу k-plus-найближчих сусвдв для декiлькох значень вхщного параметру з результатами методу моделювання за допомогою лопстично! регресiï. У якост висновюв, вiдзначено яюсть моделей, основа-них на базовому пропонованому методГ, порГвнянною з результатами лопстично! регресп на прикладi да-них масового споживчого кредитування. Основними перевагами перед лопстичною регресiею е простота реалiзацiï (а для базового методу взагалi ввдсутшсть параметрiв, яю оптимГзуються), також бГльш явне са-мостiйне врахування метрикою предикативно! сили вхщних змшних з нiвелюванням впливу змшних зГ слабким взаемозв'язком з щльовою змшною.

Лiтература

1. Барбаумов, В. Е.Энциклопедия финансового риск-менеджмента [Текст] / В. Е. Барбаумов, М. А. Рогов, Д. Ф. Щукин и др.; под ред. А. А. Лобанова, А. В. Чугунова. - М.: Альпина Паблишер, 2003. - 786 с.

2. Siddiqi, N. Credit risk scorecards: developing and implementing intelligent credit scoring [Text] / N. Siddiqi. - Hoboken: John Wiley & Sons, Inc., 2006. - 196 p.

3. Thomas, L. C. Credit Scoring and its Applications [Text]: monograph / L. C. Thomas, D. B. Edelman, J. N. Crook. - Philadelphia: SIAM, 2002. - 248 p.

4. Ванг, Вэй Руководство по кредитному скорингу [Текст] / Вэй Ванг, А. Д. Влатса, К. Д. Гленнон и др.; пер. с англ. И. М. Ти-кота; науч. ред. Д. И. Вороненко; под. ред. Э. Мэйз. - Минск: Гревцов Паблишер, 2008. - 464 с.

5. Солошенко, О. М. Вдосконалення методу ^еративно! класифшацп з включення вщхилених заявок у кредитному скорингу [Текст] / О. М. Солошенко // Наук. вют НТУУ «КП1». - 2014. - № 5. - С. 63-69.

6. Солошенко, О. М. Дослщження вщсташ Кульбака-Лейблера у задачах моделювання у кредитному скорингу [Текст]: сб. науч. трудов междунар. конф. / О. М. Солошенко // Развитие информационно-ресурсного обеспечения образования и науки в горно-металлургической отрасли и на транспорте. - Днепропетровск: НГУ, 2014. - С. 328-333.

7. Солошенко, О. М. Споаб розрахунку показника Джиш, статистики Колмогорова-Смирнова та вщсташ Махаланобюа у кредитному скорингу засобами мови SQL [Текст] / О. М. Солошенко // Наук. вют НТУУ «КП1». - 2015. - № 1. - С. 29-35.

8. Haykin, S. Neural networks: a comprehensive foundation. 2nd edition [Text] / S. Haykin. - Delhi: Pearson Education, Inc., 2005. - 823 p.

9. Ben-Gan, I. Microsoft® SQL Server® 2012 T-SQL fundamentals [Text] / I/ Ben-Gan. - Sebastopol: O'Reilly Media, Inc., 2012. - 412 p.

10. Ben-Gan, I. Microsoft® SQL Server® 2012 high-performance T-SQL using window functions [Text] / I. Ben-Gan. - Sebastopol: O'Reilly Media, Inc., 2012. - 221 p.

11. Терентьев, О. М. Моделi i методи побудови та анашзу байеавських мереж для штелектуального анашзу даних [Текст]: дис. ... канд. техн. наук / О. М. Терентьев. - К., 2009. - 258 с.

12. Allison, P. D. Logistic regression using the SAS® system: theory and application [Text] / P. D. Allison. - Cary: SAS Institute Inc., 1999. - 287 p.

13. Шипунов, А. Б. Наглядная статистика. Используем R! [Текст] / А. Б. Шипунов, Е. М. Балдин, П .А. Волкова и др. — М.: ДМК Пресс, 2014. — 298 с.

14. Егорова, И. Н. Программная реализация методов классификации [Текст] / И. Н. Егорова, С. В. Егоров // Схщно-Свропей-ський журнал передових технологш. - 2010. - T. 1, № 5 (43). - С. 52-54. - Режим доступу: http://journals.uran.ua/eejet/ article/view/2579/2384

15. Keller, J. M. A fuzzy k-nearest neighbor algorithm [Text] / J. M. Keller, M. R. Gray, J. A. Jr. Givens // IEEE transactions on systems, man and cybernetics. - 1985. - Vol. SMC-15, Issue 4. - P. 580-585. doi: 10.1109/tsmc.1985.6313426

16. Берзлев, О. Ю. Метод прогнозування знагав прироспв часових рядiв [Текст] / О. Ю. Берзлев // Схщно-Свропейський журнал передових технологш. - 2013. - T. 2, № 4 (62). - С. 8-11. - Режим доступу: http://journals.uran.ua/eejet/article/ view/12362/10250

17. Солошенко, О. М. Адаптащя формул шдрахунку ваг категорш змшно! та значення шформацй змшно! при вщомому розподЫ категорш та вщомих умовних ймовiрностях негативних значень щльово! змшно! [Текст] / О. М. Солошенко // Проблеми науки. - 2014. - № 10 (166). - С. 45-47.

i Надоели баннеры? Вы всегда можете отключить рекламу.