Научная статья на тему 'ДЕЯКИ АСПЕКТИ ПОБУДОВИ СКОРИНГОВИХ СИСТЕМ НА ОСНОВІ МАШИННОГО НАВЧАННЯ'

ДЕЯКИ АСПЕКТИ ПОБУДОВИ СКОРИНГОВИХ СИСТЕМ НА ОСНОВІ МАШИННОГО НАВЧАННЯ Текст научной статьи по специальности «Математика»

CC BY
18
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СКОРИНГОВА МОДЕЛЬ / КРЕДИТНИЙ СКОРИНГ / МАШИННЕ НАВЧАННЯ / МЕТОДИ СТАТИСТИКИ

Аннотация научной статьи по математике, автор научной работы — Овчарук І., Давидов С.

В статті наведено алгоритми для побудови скорингової моделі на основі машинного навчання. Розглянуто підходи, які найбільш поширено застосовуються для побудови скорингової моделі в банківській сфері, а саме розглянуто такі методи статистики та дослідження операцій як логістична регресія, лінійна регресія, дискримінантний аналіз, дерева класифікації.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SOME ASPECTS OF CONSTRUCTION OF SCORING SYSTEMS BASED ON MACHINE LEARNING

The article presents algorithms for building a scoring model based on machine learning. The approaches that are most widely used to build a scoring model in the banking sector are considered, namely, such methods of statistics and operations research as logistic regression, linear regression, discriminant analysis, and classification trees are considered.

Текст научной работы на тему «ДЕЯКИ АСПЕКТИ ПОБУДОВИ СКОРИНГОВИХ СИСТЕМ НА ОСНОВІ МАШИННОГО НАВЧАННЯ»

TECHNICAL SCIENCES

SOME ASPECTS OF CONSTRUCTION OF SCORING SYSTEMS BASED ON MACHINE

LEARNING

Ovcharuk I.,

PhD, Docent, Associate Professor of the Department of Information technologies, State University of In-

frasructure and Technologies, Kyiv, Ukraine

Davydov S.

Student, State University of Infrasructure and Technologies, Kyiv, Ukraine

ДЕЯКИ АСПЕКТИ ПОБУДОВИ СКОРИНГОВИХ СИСТЕМ НА ОСНОВ1 МАШИННОГО

НАВЧАННЯ

Овчарук I.,

к.т.н., доцент, доцент кафедри iнформацiйних технологш Державного yHieepcumemy тфраструк-

тури та технологш м. Кшв, Украша Давидов С.

студент, Державний yнiверситет iнфрастрyктyри та технологш

м. Кш'в, Украша https://doi.org/10.5281/zenodo.7327215

Abstract

The article presents algorithms for building a scoring model based on machine learning. The approaches that are most widely used to build a scoring model in the banking sector are considered, namely, such methods of statistics and operations research as logistic regression, linear regression, discriminant analysis, and classification trees are considered. Анотащя

В статп наведено алгоритми для побудови скорингово! моделi на 0CH0Bi машинного навчання. Розг-лянуто тдходи, яш найб№ш поширено застосовуються для побудови скорингово! моделi в баншвськш сфер^ а саме розглянуто так методи статистики та дослвдження операцш як лопстична регреая, лшшна регреая, дискримшантний аналiз, дерева класифжацп.

Keywords: scoring model, credit scoring, machine learning, statistical methods.

Ключовi слова: скорингова модель, кредитний скоринг, машинне навчання, методи статистики.

Одшею з постшних проблем кредитних орга-шзацщ, що потребуе своечасного вирiшення, це ви-дача позики неблагонадiйному позичальнику та вь дмова у видачi благонадiйному. Тому розробка ефе-ктивних скорингових сисетм е актуальною задачею.

Скоринг - повсюдна оцшка клiента на кожному етат життя кредиту, що йому був виданий. Суть скорингу полягае в тому, що кожному параметру, що характеризуе позичальника, надаеться реальна оцшка в балах. У спрощеному виглядi скорингова модель - це зважена сума визначених характеристик позичальника. Така методика може застосовуватись як для фiзичних, так i для юридич-них оаб. За допомогою скорингу на основi кредит-но! iсторii попереднiх кшенпв банк може визна-чити, наскшьки велика ймовiрнiсть того, що конк-ретний потенцiйний позичальник поверне кредит у визначений термш. В основу скорингу покладено вивчення кредитних гсторш позичальнишв, яш отримували позики в минулому, з метою !х класи-фiкацii' та визначення характерних ознак надiйних та безнадiйних клiентiв щодо погашення кредитно! заборгованостi. Скоринг е класифжацшним завдан-ням, яке повинне на основi аналiзу кредитного

портфеля банку та шформацп про позичальнишв надати функцш, за допомогою яко! можна роздь лити клieнтiв на надшних i безнадiйних щодо пове-рнення кредиту. Скоринг допомагае визначити, хто отримае кредит, особливостi кредиту, хто е шахраем, операцшш ди для пiдвищення ефективностi повернення проблемних кредитiв. Невiрно прийняте ршення в концевому результатi призведе до збитшв та можливого банкрутства. Ця проблема юнуе вже калька тисячолиъ з часiв появи запози-чення коштiв. В ходi iсторii це завдання не втратило актуалъностi i, бiлъш того, набрало ще бшъшо! зна-чущостi. Кредитнi оргашзацп, особливо банки, гра-ютъ вирiшалъну роль в ринковш економiцi.

Кредитний ризик включае втрату основно! суми позики, ввдсотшв, яш фактично е заробггком банку. Всi цi втрати в шнцевому пiдсумку можутъ призвести не просто до порушення потоку грошо-вих кошпв та дестабiлiзацii фiнансового стану банку, а, навиъ, до банкрутства та нездатносл вщш-кодувати заощадження клiентiв. Щоб уникнути таких проблем, або, принаймш, мiнiмiзувати !х вплив, кредитнi органiзацii повиннi постшно проводити монiторинг та покращення юнуючих методiв, змь нювати свою внутршню кредитну полiтику.

Сучасш скоринговi моделi базуються на таких методах статистики та дослщження операцш: лоп-стична регресiя, лшшна регресiя, дерева класифша-ци. Традицшними та найбiльш поширеними е ль нiйнi багатофакторнi регресiйнi методи, дискримь нантний аналiз, алгоритми машинного навчання.

Кредитний скоринг е системою прогнозного моделювання, що використовуеться для передба-чення того, чи принесе надання кредиту потенцш-ному клiенту-заявнику збиток компани, при цьому мiнiмiзувавши вплив людського фактору при прий-нятп рiшення. 1накше кажучи, скоринг допомагае оцшити кредитний ризик. Ця система заснована на реальних даних ктенпв, тому може максимально точно виршувати подiбнi завдання [1]. Крiм того, Кредитний скоринг використовуеться з метою: прискорення процедури оцiнки позичальника; зме-ншення обсягу неповернутих позик, знизити сфор-моваш резерви пiд можливi втрати за кредитними зобов'язаннями, створити централiзоване накопи-чення даних про позичальнишв, швидко i як1сно оцiнити динамжу змiн позичкового рахунку кожного конкретного ктента та кредитного портфеля в цшому.

Одним iз сучасних пiдходiв до вирiшення за-дачi скорингу е алгоритми машинного навчання. Отже, виникае питання про вивчення методiв побу-дови системи кредитного скорингу, а також методiв штелектуального аналiзу даних, що лежить в його основ^ з подальшим виявленням найефективнiших алгоритмiв. Оск1лькн перед банком стоиъ завдання вiдокремити як1сних позичальнишв вщ ризикових, можна використовувати як методи виршення за-дачi класифжацп, так i регресп. Крiм побудови кредитного скорингу, регресшний аналiз можна використовувати на етат вибору значимих змiнних.

В даний час метод лопстично! регресп е методом, що найб№ш часто використовуеться для побудови скорингових систем у банках. Лопстична регреая дозволяе роздiляти клiентiв на дешлька груп ризику. Усi регресiйнi методи чутливi до коре-ляци мiж характеристиками, тому в моделi не повинно бути сильно корельованих незалежних змш-них. Коефiцiенти регресп пояснюють вплив пара-метрiв на ймовiрнiсть ввднесення клiента до ризикового [2].

Хоча лопстична регреая i не е найбiльш ефек-тивним методом для класифшацп, вона значно менш чутлива до розмiру вибiрки та сшвввдно-шення «поганих» i «хороших» клiентiв у нiй, у по-рiвняннi з багатьма шшим методами, як1 застосову-ються для класифжацп.

На основi отриманих оцшок коефiцiентiв лопстично! регресп будуеться скорингова карта, що переводить коефщенти моделi в скоринговi бали. Саме за набраним сумарним скоринговим балом вь дбуваеться ранжування позичальника i прийма-еться рiшення про видачу кредиту. / \

де: р. - ймовiрнiсть настання дефолту по кредиту для I -го позичальника; X - значения I -о!

незалежно! змшноц

i; Ъ -

незалежна константа мо-

ln

Рг

1 - Рг

= b0 + bx ,(i) + Ъ2 x,(Z> +... + bkxi

(к)

делi, Ь - параметри моделi.

Рiвняння, наведене вище, показуе лшшну зале-жиiсть мiж ймовiрнiстю дефолту по кредиту та зна-ченням незалежних змiнних. Незалежна константа

Ь вiдображае ступiнь ризику при умов^ що всi не-

залежш змiннi рiвнi нулю. Значення параметра Ь

ввдображае рiвень впливу змшно! при цьому пара-метрi на шанс дефолту в логарифмiчнiй шкал^

Однак, у такого класичного методу е мшусове обмеження щльно! змшно! в числах 0 i 1 для моделей навчання. На виходi ми можемо отримати ймо-вiрну оцiнку приналежностi об'екта тому або ш-шому класу, однак вщсутшсть можливостi вклю-чення об'екпв з цiльовим класом у виглядi ймовiрного прогнозу е недолiком моделi лопстично! регресп.

Лiнiйна регреая зв'язуе характеристики позичальника, представленого вектором X Е , з щ-

льовою змiнною у Е {— 1; 1} :

У = Ро + {Р,х) + е,

де £ - випадкова помилка з нульовим серед-нiм. При виршенш питання про вiднесення у до

того чи шшого класу величина Р + ^ Р, X тра-ктуеться як умовне математичне сподiвання

Е(у | х).

Дискримiнантний аиалiз (ДА) е найважливь шим iнструментом тд час вирiшения задач класи-фжацп. На вiдмiну ввд iнших методiв, дискримша-нтний аиалiз дозволяе дослвднику спрогнозувати, до якого класу належить новий об'ект. Вiн мiстить статистичш методи класифшацп багатовимiрних об'ектiв у ситуацп, коли дослвдник мае так зваш на-вчальнi вибiрки (класифжащя з навчанням). Незва-жаючи на багато обмежень тд час виконання да-ного методу, дискримiнаитний аналiз доцiльно за-стосовувати в комплекс з iншими методиками багатовимiрного статистичного аиалiзу. При вико-ристаинi дискримшантного аиалiзу у скоринговому прогнозуваннi використовуються лшшш скорин-говi функцп, за допомогою яких можна оцiнити ймовiрнiсть належиостi клiента тому чи шшому класу [3]

При використаннi лшшно! регресп фактично робиться спроба зв'язати ймовiрнiсть дефолту р iз

значеннями вiдповiдей на питання лшшно! функцп: р = + ^ +... + ,

де лiва частина представляе собою ймовiрнiсть i повинна змiнюватися ввд 0 до 1, тодi як права може приймати будь-як1 значення. Для виршення ще!

проблеми необхщна деяка функ^. Лопстична ре-rpeciH замiнюe ймовiрнiсть дефолту на логарифм шанав дефолту:

Формула логарифму шанав дефолту:

log

Р

Р

= w0 + W1J1 +... + wnxn = s( x).

Формула ввдношення ймовiрностi дефолту:

s( x) = log

p(B | x) p(G1 x)'

Поряд з вищезгаданими методами для класи-фжацп «поганих» i «хороших» кредитних ризик1в використовують дерева ршень.

Метод дерев ршень (decision trees) е одним iз найбiльш популярних методiв розв'язання задач класифжацп й прогнозування. Iнодi цей метод Data Mining також називають деревами вирiшальних правил, деревами класифжацп i регресii. За допо-могою данного методу розв'язуються задачi класи-фiкацii й прогнозування. Якщо залежна, тобто щ-льова змiнна приймае дискретнi значення, за допо-могою методу дерева ршень розв'язуеться задача класифжацп. Якщо ж залежна змшна приймае без-перервнi значення, то дерево ршень установлюе за-лежшсть цiеi змiнноi ввд незалежних змшних, тобто розв'язуе задачу чисельного прогнозування.

Область використання методу "дерева ршень" можна об'еднати в три класи:

- опис даних: застосування "дерева ршень" дозволяе зберiгати iнформацiю про вибiрку даних в компактнiй i зручнiй для обробки формi, що мю-тить в собi точш описи об'ектiв;

- класифiкацiя: застосування "дерева ршень" дозволяе справитися iз завданнями класифiкацii, тобто ввдношення об'екпв до одного з описаних клаав;

- регресiя: якщо змiннa мае недостовiрнi значення, то застосування "дерева ршень" дозволяе визначити залежшсть цiеi цiльовоi змiнноi вiд незалежних (вхвдних) змiнних.

Застосування методу "дерева ршень" дозволяе: визначати шляхи досягнення мети, якщо з ви-конанням кiлькiсноi оцiнки е складносл та виника-ють труднощi з оцiнкою того чи iншого вaрiaнту; полiпшувaти як1сть рiшень в умовах невизначено-стi.

Метод дерев е популярним алгоритмом не тiльки в кредитному скорингу, але й у багатьох ш-ших бaнкiвських процесах. Дерево рiшень класифь куе ктенпв на кaтегорii близьких за яшстю, однак

вони сильно вiдрiзняються один вщ одного. За до-помогою даного методу класифжацп також можна сформулювати правила прийняття рiшень заявки на кредит, видшити найважливiшi змшш, як1 краще всього впливають на точшсть класифжацп. Як i ре-гресiйний аналiз, дерева рiшень е методом ви-вчення статистичного взаемозв'язку мiж однiею за-лежною змшною i дек1лькома незалежними змш-ними. Базова ввдмшшсть методу дерев ршень ввд регресiйного аналiзу полягае в тому, що взаемозв'-язок м1ж значеннями залежить вiд змшно! та значення незалежних змшних представлених не у ви-глядi загального прогнозного рiвняння, а у виглядi деревовидно! структури, яку отримують за допомо-гою iерархiчноi сегментацп даних.

Ентротя Шенона допомагае здiйснити ефек-тивне роздiлення вибiрки на кожному етат, при ви-борi змшно!, за якою робити роздiлення. Ентротя вказуе на стушнь хаотичного розподшу предиктору (мiра неоднорiдностi множини), чим бiльше И значення, тим хаотичшше розкид. Ентропiя знаходить правила (предикати), на основi яких розбивати тре-нувальний набiр даних таким чином, щоб зменшу-валося середне. Формула ентропи Шенона: N

S = -Е Р l0g2 Р.

i=1

В основi прогнозно! аналгшкн клiентiв на ви-явлення !хньо! кредитоспроможностi повиннi ле-жати рiзнi алгоритми машинного навчання, як1 отримують приховаш данi з маси даних. Мета даного дослвдження сфокусована на методах, як1 ви-користовуються для перевiрки ймовiрностi заяв-ника на отримання кредиту, а також на метод^ за допомогою якого точшсть може бути збшьшена.

Список лггератури:

1. Кочеткова В.В., Евремова К.Д. Обзор методов кредитного скоринга. Juvenic scientia 2017. №6. [Електронний ресурс]/ URL: https://cyberleninka.ru/artide/n/obzor-metodov-kreditnogo -skoringa/viewer

2. Гринь Н.В. Методологические аспекты построения скоринговых моделей // Экономика, моделирование, прогнозирование: сб. науч. тр. №6. Минск: НИЭИ Минэкономики РБ. 2012. С. 174-180.

3. Т. С. Клебанова, Л. С. Гур'янова, Л. О. Чаго-вець, О. В. Панасенко, О. А. Серпенко, Р. М. Яценко. Бiзнес-аналiтика багатовимiрних процеав: мультимедшний навчальний посiбник. -Харк1в, 2020. URL: http://ebooks.git-elt.hneu.edu.ua/babap/5 -1 -id5 -1. html

1

i Надоели баннеры? Вы всегда можете отключить рекламу.