Научная статья на тему 'РАЗРАБОТКА СКОРИНГОВОЙ МОДЕЛИ. МЕТОДЫ КЛАССИФИКАЦИИ ЗАЕМЩИКОВ'

РАЗРАБОТКА СКОРИНГОВОЙ МОДЕЛИ. МЕТОДЫ КЛАССИФИКАЦИИ ЗАЕМЩИКОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
309
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАЗРАБОТКА СКОРИНГОВОЙ МОДЕЛИ / СКОРИНГОВАЯ КАРТА / КОРРЕЛЯЦИОННЫЙ АНАЛИЗ / ПРОВЕРКА ЗНАЧИМОСТИ ХАРАКТЕРИСТИК / СТАТИСТИЧЕСКИЕ МЕТОДЫ / ЛИНЕЙНАЯ РЕГРЕССИЯ / ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ / ДЕРЕВО РЕШЕНИЙ / НЕЙРОННЫЕ СЕТИ / МЕТОД БЛИЖАЙШИХ СОСЕДЕЙ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Котляр В.П., Антипова Е.А.

В статье рассмотрен процесс построения скоринговой модели «с нуля». Начиная от этапа сбора данных до конечной классификации заемщика с помощью различных методов. Описаны примеры подобных методов, с их подробным описанием. Также приведены варианты решения проблемы реализации скоринговой модели на практике, с приведением конкретной компании разработчика в качестве примера.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «РАЗРАБОТКА СКОРИНГОВОЙ МОДЕЛИ. МЕТОДЫ КЛАССИФИКАЦИИ ЗАЕМЩИКОВ»

6. Бернацкий Ю.И., Полукаров Д.Ю. Моделирование распределения сетевых задержек в пакете OMNeT++ // Дистанционное и виртуальное обучение. 2013. № 1 (67). С. 48-52.

Котляр В. П. студент 3го курса Антипова Е. А. старший преподаватель кафедра МИАЭП

ФГБОУ ВПО «Орловский государственный университет»

Россия, г. Орёл РАЗРАБОТКА СКОРИНГОВОЙ МОДЕЛИ. МЕТОДЫ КЛАССИФИКАЦИИ ЗАЕМЩИКОВ

Ключевые слова: разработка скоринговой модели; скоринговая карта; корреляционный анализ; проверка значимости характеристик; статистические методы; линейная регрессия; логистическая регрессия; дерево решений; нейронные сети; метод ближайших соседей; BaseGroup Labs; Credit Scorecard Modeler .

В статье рассмотрен процесс построения скоринговой модели «с нуля». Начиная от этапа сбора данных до конечной классификации заемщика с помощью различных методов. Описаны примеры подобных методов, с их подробным описанием. Также приведены варианты решения проблемы реализации скоринговой модели на практике, с приведением конкретной компании разработчика в качестве примера.

Под скоринговой моделью принято понимать математико-статистическую модель, на основе которой по анализируемым характеристикам заемщиков вычисляются вероятности невыполнения ими кредитных обязательств (вероятность дефолта). В результате использования скоринговой модели получают количественную оценку кредитоспособности потенциального заёмщика в виде суммарного скорингового балла или класс кредитоспособности. Скоринг выделяет те характеристики клиента, по которым можно определить, надежен или не надежен клиент. То есть люди какого социального статуса, профессии, семейного положения всегда и исправно возвращали кредиты в срок, с кем возникали проблемы, а кто оказывался мошенником или недобросовестным заемщиком. Скоринговые модели могут применяться для объяснения уже имеющихся прецедентов и для предположений о том, что следующие кредитополучатели поведут себя аналогично.

Моделей скоринга множество, каждая из них использует свой метод, для получения итоговой оценки, которая и позволяет разделять заемщиков на "плохих" и "хороших".

Процесс разработки скоринговой модели, грубо говоря, условно можно разделить на три больших этапа:

1. Сбор первоначальных данных;

2. Анализ данных и выделение наиболее значимых характеристик;

3. Классификация заемщика с помощью различных методов скоринга.

Для построения модели сначала производится выборка клиентов кредитной организации, о которых уже известно, хорошими заемщиками они себя зарекомендовали или нет. Данные должны быть предоставлены в необходимом объеме. Как правило, для корректного отображения результата нужно не менее 2 000 «хороших» записей, и не менее 2 000 «плохих» записей. Под «хорошими» подразумеваются записи о платежеспособных заемщиках, под «плохими» неплатежеспособных, или тех, которым было отказано в кредите. Примерами «плохих» заемщиков в мировой практике считаются клиенты, допустившие просроченную задолженность (больше 30 дней; больше 60 дней; больше 90 дней) с частотой просрочек (3 раза задолженность свыше 30 дней, 2 раза задолженность свыше 60 дней, один раз задолженность свыше 90 дней). Иногда к «плохим» рискам относятся клиенты, которые слишком рано возвращают кредит, и банк не успевает ничего на них заработать.

При этом из всей совокупности данных следует исключить:

1. Отказы в выдаче кредита, обусловленные единой политикой банка. Например: повторяющиеся заявки, заявки от несовершеннолетних, или банкротов.

2. Инсайдерские кредиты. То есть те кредиты, что выдаются физическим лицам, способным воздействовать на принятие решения о выдаче кредитов банком. К ним могут относиться сотрудники банка, VIP клиенты, члены совета директоров и т.д.

3. Нестандартные случаи. Например, необычные цели выдачи займа, кредиты, с аномально большими суммами, заемщики с нестандартными условиями выплат.

4. Заявки, находящиеся на стадии рассмотрения

Источниками исходных данных являются:

• Анкетные данные клиента на момент подачи заявки. Они обычно включают: Данные по запрашиваемому кредиту (цель кредита, общий размер займа, срок финансирования, первоначальный взнос, отношение размера займа к размеру обеспечения по кредиту и др.). Демографические показатели:( возраст, пол, национальность, место проживания, длительность проживания в актуальном месте жительства, образование, профессия, длительность трудоустройства, наличие собственности, семейное положение, наличие детей и др. ). Финансовые показатели: (сумма задолженности к доходу, ежемесячные выплаты по кредиту к ежемесячному доходу, месячный свободно располагаемый бюджет к ежемесячному доходу, ежемесячные выплаты по кредиту к месячному свободно располагаемому бюджету и др.)

• Собственная внутренняя кредитная история банка

• Информация, полученная в бюро кредитных историй. Последние два пункта могут включать такие данные: количество

текущих счетов клиента, количество и наличие кредитных карт, общая сумма всех кредитов, время получения последнего кредита, наличие у клиента других продуктов этой финансовой организации, состояние текущего счета, утилизация существующих лимитов.

Результат сбора данных удобнее представить в виде таблицы, где каждому столбцу соответствует определенная характеристика, а строке -номер примера (прецедента, заемщика)

Далее целесообразно подвергнуть собранные данные корреляционному анализу, чтобы исключить взаимно коррелированные характеристики. Корреляционный анализ заключает в себе следующие основные практические приёмы:

1) построение корреляционного поля и составление корреляционной таблицы;

2) вычисление выборочных коэффициентов корреляции или корреляционного отношения;

3) проверка статистической гипотезы значимости связи. Выбранные характеристики следует проверить на их статистическую

значимость. Проверка статистической значимости может выполняться с помощью:

1) статистика х 2

2) коэффициент Крамера V

3) информационное Значение (IV - Information Value)

С помощью статистики X сравнивается распределение «платежеспособных» и «неплатежеспособных» клиентов для каждой анализируемой отдельно переменной по формуле:

х2 О) = Къ-ЕУ/Е

где V - число степеней свободы, xt - наблюдаемое значение, Е -ожидаемое значение.

Если х2 меньше критического значения (0,5), то гипотеза H0 об одинаковом распределении подтверждается, и, следовательно, анализируемая переменная не является статистически значимой.

Коэффициент Крамера V - это коэффициент, полученный на основе статистики х2, который принимает значения от 0 до 1. 0 означает, что две выборки идентичны, а 1, что они абсолютно разные. Коэффициент рассчитывается по формуле:

V =л-

N(k - 1)

где х2 - вычисленное по таблице сопряженности значение критерия хи-квадрат; N - объем выборки, к - наименьшее число строк и столбцов в выборке.

Чем больше значение коэффициента, тем статистически значимее переменная.

Информационное Значение (/V) - считается самой распространенной мерой определения значимости переменных. Информационное Значение рассчитывается по формуле: IV = £ (Gt- В{) In (Gi/Bi),

где Gt - процент всех «хороших» случаев, Вt - процент всех «плохих» случаев.

Значения данного коэффициента можно трактовать так:

> □менее 0,02 - статистически незначимая переменная;

> D0,02 - 0,1 - статистически малозначимая переменная;

> □ 0,1 - 0,3 - статистически значимая переменная;

> □ 0,3 и более - статистически сильная переменная.

В результате остаются 15-20 характеристик наименее коррелированных между собой и наилучшим образом помогающих предсказать поведение заемщика.

На последнем этапе происходит выбор метода классификации будущих заемщиков. Существуют следующие методы:

• Скоринговые карты;

• статистические методы, основанные на дискриминантном анализе (линейная регрессия, логистическая регрессия);

• различные варианты линейного программирования;

• дерево решений;

• нейронные сети;

• метод ближайших соседей.

Одним из наиболее часто используемых методов классификация заемщика является использование скоринговой карты. То есть части модели, которая состоит из набора характеристик и соответствующих для них весовых коэффициентов (баллов).

Для составления скоринговой карты необходимо выделить характеристики, между значениями которых и вероятностью дефолта существует корреляция.

Далее на основе статистических данных и экспертных оценок для каждой характеристики вводится весовой коэффициент, определяющий степень ее влияния на вероятность дефолта. Также банком устанавливается балл отсечения, т.е. итоговой балл, с которым сравнивается набранный балл заемщика, в зависимости от стратегии, используемой банком. Например, при стратегии наращивания кредитного портфеля банк будет более лояльным к потенциальным клиентам и соответственно балл будет ниже, по сравнению с ситуацией реализации других стратегий.

Еще одним способом ранжирование клиента является использование статистических методов. Они связывают поведение зависимой переменной с линейной функцией ряда независимых. Это осуществляется с помощью:

• многофакторной регрессии, по формуле: р = и/0 + + и/2х2 + ... + и/пхп,

где р - вероятность дефолта, и - весовые коэффициенты, х -характеристики клиента.

• логистической регрессии, по формуле: 1од(р/( 1 - р)) = и/0 + и^ + и/2х2 + ... + и/пхп

где р - вероятность дефолта (невозврата кредита), и - весовые коэффициенты, - характеристика клиента.

Преимуществом логистической регрессии в том, что она является достаточно наглядной. Кроме этого, переменные могут включаться в модель последовательно, что дает возможность сравнивать заемщиков внутри одного признака (например, по качеству кредитной истории), а также сравнивать весомость различных признаков в итоговом балле заемщика. Логистическая регрессия по сравнению с остальными методами менее чувствительна к размеру выборки и соотношению плохих/хороших заемщиков в ней.

При использовании метода дерева решений классификация объектов осуществляется путем последовательного дробления факторного пространства х1,х2,.,хт на вложенные прямоугольные области. Вначале происходит разделение выборки по самой значимой характеристике. Последующие шаги - повторение процедуры до тех пор, пока никакой вариант последующей сегментации не даст значимого различия между соотношением объектов разных классов по сравнению с полученными ранее сегментами. В зависимости от цели деревья решений подразделяются на деревья регрессии (цель - спрогнозировать значение переменной в зависимости от предикторов) и деревья классификации (цель-предсказать принадлежность объекта к той или иной целевой категории зависимости от значений предикторов). Метод «деревьев решений» дает возможность построить нелинейную зависимость между количественной оценкой кредитоспособности и характеристиками заемщика, а также представляет собой один из самых удобных способов визуализации и интерпретации логики решений, принимаемых скоринговыми моделями.

Для аппроксимации скоринговой функции может применяться аппарат нейронных сетей. Нейронная сеть является математической моделью, параметры которой для конкретной задачи формируются путем обучения модели на специальной выборке данных. Сеть состоит из множества нейронов, сгруппированных в слои. Отдельный нейрон позволяет реализовать заданную для него единичную функцию. Благодаря связям между нейронами создается сеть, по которой можно определить взаимосвязь между отдельными характеристиками. Применительно к скоринговым

системам нейросеть рассматривается как черный ящик, содержание которого не имеет какой-либо смысловой трактовки или явного смысла.

При использовании метода ближайших соседей выбирается единица измерения для определения расстояния между клиентами. Все клиенты в выборке получают определенное пространственное положение. Каждый новый клиент классифицируется исходя из того, каких клиентов - плохих или хороших - больше вокруг него.

Применение всех вышеперечисленных методов классификации клиентов вручную довольно затруднительно, а в случае с нейронными сетями практически невозможно. Не будем также забывать о непрерывном потоке клиентов в банке, когда время на обработку каждой заявки следует сократить до минимально возможного. Поэтому у руководства банка есть несколько путей разрешения проблемы реализации скоринга. Первый, самый простой, и возможно менее эффективный это приобрести уже готовую программу у стороннего разработчика. Второй, обратиться в фирму, специализирующуюся не разработке скоринг моделей, этот вариант затратнее, но и эффективность сравнительно выше. Фирмы предоставляют разработанную программу, реализующую анализ, обработку данных, моделирование и формирование отчетности. Например компания BaseGroup Labs, предлагающая продукт Credit Scorecard Modeler построенный на платформе Deductor . Deductor поддерживает полный спектр технологии анализа данных: Data Warehouse, ETL, OLAP, nowledge Discovery in Databases и Data Mining. Третий, разработать скоринговую модель самостоятельно, пожалуй, это самый трудоемкий путь. При разработке следует помнить, что чем более простой алгоритм, тем он грубее, но при этом легче объяснить полученные результаты. Наиболее мощные алгоритмы способны находить сложные нелинейные зависимости, но их интерпретация является непростой задачей. На практике необходимо находить компромисс между точностью и простотой. Следует отметить, что качество скоринговых моделей следует постоянно проверять и мониторинг является обязательной процедурой в процессе эксплуатации. Со временем могут меняться как экономические условия, так и поведенческие особенности заемщиков, и только своевременная подстройка или даже замена скоринговых моделей обеспечат эффективное управление кредитными рисками.

Использованные источники:

1. Малюгин, В.И. Об эффективности статистических алгоритмов кредитного скоринга. / В.И. Малюгин, Н.В. Гринь // Банковский вестник. - № 31. - 2010. - C. 39-46.

2. Ниворожкина, Л.И. Эконометрическое моделирование риска невыплат по потребительским кредитам. // Прикладная эконометрика. -30 (2). - 2013. с. 65-76.

3. Румянцев А. Скоринговые системы: наука помогает бизнесу. -Финансовый Директор ISSN 1680 - 1148. - 2006. - № 7.

4. Рыкова И.Н. Скоринг - оценка физических лиц на рынке потребительских кредитов. Финансы и кредит. - 2007. - №18 (258).

5. Тавасиев А.М., Москвин В.А., Эриашвили Н.Д. Банковское дело. - М.: ЮНИТИ-ДАНА, 2007. - С. 243.

6. Фетисов М. Как выбрать платформу для скорингового моделирования. Риск-Менеджмент. - 200S. - №11-12.

7. Harrell, Frank. Regression modeling strategies. [Text] - NY: Springer, 2001 -60s p. - ISBN 03S7952322, 97S03S7952321

S. Lewis, E. M. An introduction to credit scoring. [Text] - San Rafael: The Athena Press, 1992. - 172 p. , - ISBN 9995642239, 978-9995642235

9. Liu Y. New issues in credit scoring application. Arbeitsbericht 16/2001, Institut fur Wirtschaftsinformatik, 2001.

10. BaseGroup.ru [Электронный ресурс] // Режим доступа [http : //www. basegroup. ru/deductor/]

Манафова Г.М. студент 5 курса Гикис С.Н.

научный руководитель, старший преподаватель

ФГБОУ ВПО «ПГЛУ» Россия, г. Пятигорск ОСОБЕННОСТИ ОСВЕЩЕНИЯ ОЛИМПИЙСКИХ ИГР В СОЧИ 2014 ГОДЫ В РОССИЙСКИХ И БРИТАНСКИХ СРЕДСТВАХ МАССОВОЙ ИНФОРМАЦИИ Спортивные соревнования и связанная с ними деятельность на протяжении тысячелетий привлекали к себе внимание широкой аудитории. Средства массовой информации с самого своего создания уделяли особое внимание результатам таких соревнований, информируя граждан о победителях и побежденных. В современном мире спорт является прибыльной разновидностью бизнеса, а его организаторы заинтересованы как в популяризации спорта и разных видов соревнований, так и в привлечении зрителей с целью заработка на рекламе. По этой причине спортивные соревновании сопровождаются специальной культурной программой с элементами театрализованного шоу, наибольший масштаб которое имеет во время открытия и закрытия олимпийских игр.

Наиболее обсуждаемыми в средствах массовой информации являются крупные спортивные соревнования, среди которых лидируют олимпийские игры, а также паралимпийские игры, чемпионаты мира и Европы по футболу, финалы международных соревнований в других видах спорта, кубки и турниры. Информационными поводами для подготовки журналистских материалов могут быть ответы на вопросы: что именно и где произошло, кто являлся участником, кто присутствовал, как именно это было, с каким результатом закончилось и какие были высказаны мнения об

i Надоели баннеры? Вы всегда можете отключить рекламу.