Научная статья на тему 'Сравнение нейросетевых и статистических методов оценки кредитного риска'

Сравнение нейросетевых и статистических методов оценки кредитного риска Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1669
373
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КРЕДИТНЫЙ СКОРРИНГ / КРЕДИТНЫЙ РЕЙТИНГ / КРЕДИТОСПОСОБНОСТЬ / ВЕРОЯТНОСТЬ ДЕФОЛТА / ДИСКРИМИНАНТНЫЙ АНАЛИЗ / НЕЙРОННАЯ СЕТЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лукашевич Н.С.

В статье отмечается, что актуальность данного исследования определяется необходимостью создания банками эффективной системы управления кредитными рисками, отвечающей требованиям Базеля II. Проведен сравнительный анализ нейросетевых и статистических методов (как подходов к оценке кредитного риска). Предложены модели, использующие аппарат нейросетевого и статистического моделирования. Проведена апробация моделей на фактических данных о заемщиках.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сравнение нейросетевых и статистических методов оценки кредитного риска»

УДК 330.4; 336.7

СРАВНЕНИЕ нейросетевых

и статистических методов оценки кредитного риска

н. С. ЛУКАШЕВИЧ, кандидат экономических наук, ассистент кафедры предпринимательства

и коммерции E-mail: nikita@pikgroup.com Санкт-Петербургский государственный политехнический университет

В статье отмечается, что актуальность данного исследования определяется необходимостью создания банками эффективной системы управления кредитными рисками, отвечающей требованиям Базеля II. Проведен сравнительный анализ нейросетевыхи статистических методов (как подходов к оценке кредитного риска). Предложены модели, использующие аппарат нейросетевого и статистического моделирования. Проведена апробация моделей на фактических данных о заемщиках.

Ключевые слова: кредитный скорринг, кредитный рейтинг, кредитоспособность, вероятность дефолта, дискриминантный анализ, нейронная сеть.

В современных условиях задача по управлению кредитным риском является одной из приоритетных для банков. После кризисного периода, характеризующегося высокими темпами роста просроченной задолженности, банки стремятся увеличить объемы кредитных портфелей, чтобы компенсировать потери (снижая процентные ставки, возобновляя кредитные программы и рекламные мероприятия). В этот период необходимо должное внимание уделять вопросам, связанным с отбором потенциальных заемщиков. Требования к надежности банковской системы, предъявляемые со стороны различных регулирующих органов, постоянно возрастают, увеличиваются сроки кредитования, растет доля проводимых операций, успех которых напрямую связан с экономическим положением заемщиков. В соответствии с Базельским соглашением о капитале, известным как Базель II, для оценки заемщиков

рекомендуется использовать подход, основанный на внутренних рейтингах [4]. Использование подхода предполагает проектирование адекватных математических моделей. Одной из главных проблем, стоящих перед банками, ориентированных на применение внутренних рейтинговых систем, является выбор методики оценки кредитного риска (вероятности дефолта) как основной составляющей формулы расчета минимальных требований к капиталу. Тенденция ухудшения качества кредитных портфелей, с одной стороны, и необходимость разработки моделей, ориентированных на Базель II (позволяющих оценивать вероятность дефолта по каждому заемщику как на этапе рассмотрения кредитной заявки, так и далее в процессе кредитного мониторинга), с другой стороны, обусловливают актуальность исследования.

Целью исследования является, во-первых, сравнение статистических и нейросетевых методов оценки кредитного риска как традиционно применяемых в российской практике риск-менеджмента, во-вторых, построение адекватных моделей, позволяющих не просто усовершенствовать процесс оценки кредитоспособности заемщиков, но и создать предпосылки для внедрения в будущем продвинутых подходов Базеля II. В качестве информационной базы исследования рассматривается обезличенная выборка заемщиков — физических лиц. Выбор такого сегмента заемщиков обусловлен резким увеличением количества дефолтов по кредитным сделкам в кризисный период.

Для оценки кредитного риска Базель II предлагает использовать одну из двух методологий: измерение кредитного риска на основе стандартизированного подхода и измерение кредитного риска на основе применения внутренних рейтинговых систем банка [4]. В соответствии с продвинутым подходом внутренних рейтингов для оценки каждого из этих параметров требуется разработать специальную математическую модель. Для оценки вероятности дефолта можно использовать сокращенные, структурные и кредит-скорринговые модели. Первые два подхода основаны на рыночных данных, поэтому непосредственно не применимы к большей части стандартных заемщиков российских банков. Таким образом, наибольший практический интерес представляют именно кредит-скорринго-вые модели, в результате использования которых

каждому заемщику присваивается некоторый рейтинг. В работе [2] изложены многочисленные подходы к разработке подобных моделей. Эти подходы можно разделить на следующие основные группы: статистические методы, нейронные сети, экспертные методы, нечетко-множественные описания. Различие между подходами заключается в природе используемых данных и в том, каким образом происходит агрегирование факторов кредитоспособности в кредитный рейтинг. Характеристика четырех основных подходов к разработке моделей оценки кредитного риска с точки зрения требований к подобным моделям представлена в табл. 1.

Выбор подхода зависит от многих факторов, к которым можно отнести: субъективные предпочтения разработчика, наличие и качество исходных данных, цели и задачи построения модели, слож-

Таблица 1

Характеристика основных подходов к оценке кредитного риска

требования Подходы к разработке моделей оценки кредитоспособности

нечетко-множественные описания экспертные методы статистические методы нейронные сети

Объективность Скорее нет, поскольку функции принадлежности задаются субъективно разработчиком модели. Частично устранить субъективность позволяет построение функций принадлежности на основе квазистатистики Скорее нет, поскольку мнения экспертов субъективны. Высокий уровень субъективности можно частично устранить с помощью коллективных экспертных оценок Скорее да. Субъективность заключается в выборе параметров статистического метода Скорее да. Субъективность заключается в выборе топологии сети и алгоритма обучения

Автоматизация Да Частично, поскольку логику и мышление экспертов трудно формализовать Да, поскольку голу^-нте peзyльтaтoв тpeбyeт oбpaбoтки большого объема данных Да, поскольку пoлyчe-нте peзyльтaтoв тpeбyeт oбpaбoтки большого объема данных в процессе обучения нейронной сети

Точность Зависит от вида функций принадлежности Зависит от квалификации экспертов Не учитывают многих зависимостей, в том числе нелинейные. Результаты применения статистических методов достоверны c определенной вероятностью. Точность зависит от качества исходных данных Только при правильном обучении. Точность зависит от качества исходных данных, топологии сети, алгоритма обучения

Адаптируемость Да, можно скорректировать функции принадлежности Зависит от квалификации экспертов Скорее да Только если изменения вписываются в структуру сети

Гибкость Скорее да, можно изменить параметры нечетких классификаторов и добавить факторы Зависит от квалификации экспертов Скорее нет. Набор факторов определяется выборкой. По мере накопления объема выборки параметры модели могут пересчитываться Скорее нет. По мере накопления объема выборки цикл обучения нейронной сети можно повторить

Окончание табл. 1

требования Подходы к разработке моделей оценки кредитоспособности

нечетко-множественные описания экспертные методы статистические методы нейронные сети

Объяснимость Да, за счет лингвистических переменных, близких к человеческому мышлению Да, поскольку эксперт может обосновать оценку Да, можно оценить вклад факторов в результат Нет, существует проблема интерпретируемости весовых коэффициентов и передаточной функции

Сложность Скорее нет. Сложность модели определяется подходом к построению функций принадлежности Скорее нет. Сложность определяется подходом к формализации оценок экспертов Скорее нет. Сложность определяется количеством факторов модели Да, высокие временные затраты на обучение сети. Сложны взаимосвязи факторов

Нет

рис. 1. Схема выбора подхода к оценке кредитного риска

ность взаимосвязей между факторами кредитоспособности. На практике основным критерием выбора является качество и наличие исходных данных о заемщиках. Целесообразно дать рекомендации по выбору подхода. Схема принятия решения о выборе подхода представлена на рис. 1.

В контексте решаемой проблемы рассмотрены статистические и ней-росетевые методы. Эти группы методов являются традиционными в оценке кредитного риска и реализованы в большинстве современных банковских программных продуктов. Например, нейросетевая модель «CRIS» оценивает вероятность мошенничества посредством анализа схемы авторизации и характеристики расходов владельца кредитной карточки. Модель «Experian National Risk Model» основана на прошлых кредитных характеристиках и прогнозирует проблемное поведение заемщика в течение 24 мес. Система «HORIZON» включает 11 статистических и ней-росетевых моделей, пос-

троенных на основе характеристик заемщика, и определяет коэффициент потерь при банкротстве заемщика. Модель «TransRisk Auto» определяет вероятность просрочки выплат по кредиту в течение 24 мес. по кредитам на приобретение транспортного средства [7]. Примеры моделей, основанных на других подходах, описаны, например, в работах [2, 5].

Возможность использования статистических методов рассматривается во многих работах, посвященных проблемам оценки кредитоспособности. Большинство изученных моделей строились на базе статистических методов. Существует несколько статей [7, 10], в которых идет речь о моделях оценки заемщика, построенных на базе нейронных сетей. В работе [9] представлена сравнительная характеристика различных моделей с точки зрения их предикативной мощности (табл. 2).

Для разработки кредит-скорринговых моделей на базе статистических методов необходима историческая выборка данных.

От качества выборки зависит точность оценок параметров модели и соответственно ее предикативная мощность. К выборке предъявляется ряд требований, которые обусловливают возможность применения статистических методов и получения адекватных моделей.

Во-первых, в выборке должны содержаться исходы кредитных обращений.

Во-вторых, выборка должна содержать и положительные, и отрицательные исходы кредитных обращений.

В-третьих, размер выборки должен быть достаточным для выявления закономерностей.

В-четвертых, необходимо обеспечить однородность выборки, т. е. данные в выборке должны подчиняться одним и тем же закономерностям.

В-пятых, исходы кредитных обращений должны быть независимыми событиями.

Использование статистических методов предполагает выполнение следующих этапов:

1) формирование выборки исходов кредитных обращений, отвечающей изложенным ранее требованиям. Формирование такой выборки в рос-

сравнительная характеристика м

сийских нестабильных условиях затруднительно. Например, проблемным является формирование такой выборки для долгосрочных кредитных продуктов, по которым неизвестно большинство исходов (для банков, впервые внедряющих на рынок потребительские кредитные продукты). Несмотря на это, для большинства банков, специализирующихся на потребительском кредитовании, такие выборки доступны;

2) необходимо нормализовать выборку, т. е. исключить неполные данные, отфильтровать данные, закодировать номинальные переменные, исключить дубликаты и противоречия, а также аномальные наблюдения и мультиколлинеарность факторов. Неполные данные могут исказить результаты статистического анализа. Современные программные средства позволяют восстанавливать неполные данные, например, заменяя их средним значением. Фильтрация данных необходима для формирования выборки с определенными параметрами, например банковская информационная система может содержать данные как о качестве обслуживания задолженности, так и данные по отклоненным кредитным заявкам. Среди многих наблюдений окажутся и такие, которые имеют одинаковые наборы сведений, но относятся к разным категориям. Такие объекты описываются противоречивыми признаками, что будет приводить к ошибкам при их классификации. Оценка заемщика осуществляется по многим качественным характеристикам, например социальному статусу и региону проживания. Поскольку статистические методы не позволяют работать с данными нечисловой природы, необходимо провести процедуру кодирования. Выборка может содержать аномальные наблюдения, например в виде заемщика с высоким (выше среднего) уровнем дохода. С одной стороны, аномальные заемщики представляют интерес для анализа, но, с другой, могут исказить его результаты. Мультиколлинеарность не позволяет однозначно оценить параметров статистической модели и, как правило, на предварительном этапе нет необходимости в ее устранении, поскольку

Таблица 2

елей оценки кредитоспособности

Автор количество правильно классифицированных, %

линейная регрессия логистическая регрессия деревья классификации нейросети

Henley (1995 г.) 43,4 43,3 43,8 -

Boyle (1992 г.) 77,5 - 75 -

Srinivisan (1987 r.) 87,5 89,3 93,2 -

Yobas (1997 г.) 68,4 - 62,3 62,0

Desai (1997 г.) 66,5 67,3 67,3 64,0

существует достаточное число методов, позволяющих устранить мультиколлинеарность на этапе построения статистической модели;

3) на основе выборки определяются классы заемщиков. Традиционно можно сформировать классы по следующему принципу: заемщики, не нарушающие графика погашения задолженности, и заемщики, имеющие хотя бы одну задержку платежа в части сроков погашения или суммы. Можно увеличить число классов, что позволит получать более точную классификацию, например заемщики, не нарушающие графика погашения задолженности; заемщики, имеющие несколько нарушений по срокам и суммам погашения задолженности; заемщики, имеющие просроченную задолженность и не исполняющие кредитных обязательств;

4) определяются веса параметров заемщика с помощью регрессионных методов, чтобы обеспечить наилучшее разделение заемщиков на классы. Важным условием эффективного применения кредит-скорринговой модели является обоснованный выбор порогового значения кредитного рейтинга для принятия управленческого решения. Например, в случае применения логистической регрессии в качестве основы кредит-скорринговой модели для нахождения оптимального порогового значения применяется ROC-анализ [1];

5) корректировка кредит-скорринговой модели имеет значение, поскольку с течением времени предикативная мощность модели снижается. Состав и характер влияния существенных факторов не остаются постоянными. Корректировка моделей может осуществляться с любой периодичностью. Индикаторами, показывающими необходимость корректировки модели, могут быть: пополнение базы данных новыми кредитными обращениями, снижение точности классификации заемщиков, увеличение числа дефолтов заемщиков, увеличение числа отказов по кредитным обращениям.

Обобщая работы [3, 8], можно сформулировать следующие этапы построения моделей на базе нейронных сетей:

1) сбор данных для обучения — на этом этапе необходимо выбрать факторы, определяющие кредитоспособность, и преобразовать данные соответствующим образом для подачи на вход сети. Набор данных для обучения должен удовлетворять критериям репрезентативности и непротиворечивости. Если необходимо, то проводится процедура нормирования, фильтрации и квантования;

2) конструирование и обучение — на этом этапе проектируется топология сети, и выбираются

параметры сети и обучения. Для сетей, подобных многослойному персептрону, это будет: число слоев, число блоков в скрытых слоях (для сетей Ворда), факт наличия или отсутствия обходных соединений, факт наличия передаточных функций нейронов. Далее необходимо оценить качество работы сети и остановиться на варианте сети (параметрах сети), который обеспечивает наилучшую способность к обобщению;

3) использование и диагностика — на этом этапе выясняется степень влияния различных факторов на принимаемое решение и точность классификации.

Для проведения исследования была собрана выборка, которая формировалась на основании данных подсистемы мониторинга погашения кредитов в банковской информационной системе. Была собрана статистика в размере пятисот заемщиков. Фрагмент исследуемой выборки заемщиков представлен на рис. 2. Для дальнейшей работы с выборкой было проверено отсутствие пропущенных значений факторов, а также наличие положительных и негативных исходов в части погашения текущей задолженности. Поскольку некоторые факторы носят номинальный характер, то была проведена процедура кодирования. Для моделирования использовалась программная среда «SPSS 16.0.2».

Дискриминантный анализ и логистическая регрессия являются широко применяемыми на практике статистическими методами. Дискрими-нантный анализ является более универсальной статистической процедурой по сравнению с методами логистической регрессии. Основным результатом проведения дискриминантного анализа являются (так же, как для логистической регрессии) рассчитанные вероятности попадания каждого заемщика в ту или иную группу, а также переменная, кодирующая принадлежность их к данным группам. Данную переменную можно рассматривать как кредитный рейтинг заемщика. Далее будут применены методики пошагового и принудительного включения факторов.

В пошаговом дискриминантном анализе в качестве критерия включения факторов выбрана F-статистика. Первым важным результатом пошагового дискриминантного анализа, представленным в табл. 3, является тест, который показывает, насколько значимо выбранные независимые факторы разделяют выборочную совокупность заемщиков на исследуемые группы.

Были получены весьма значимые результаты для большинства исследуемых факторов.

Наличие просрочек, Z оГ ч о С Наличие семейного статуса, Q2 Возраст, лет, Q3 Кредитная история, Q4 Количество детей, Q5 Должность, Q6 Доходы, руб., Q7 со о» б. у р я д о х с а Р СЛ о» б. у & н" и м и Ч о оГ £ и еди & о п а к в а ¿3 Образование,

Да Ж Да 27 Нет 1 Менеджер, инженер, рабочий 35 000 10 000 50 500 0,36 Неполное высшее

Да Ж Да 26 Нет 0 Менеджер, инженер, рабочий 29 500 10 000 50 000 0,46 Неполное высшее

Да М Нет 45 Нет 0 Менеджер, инженер, рабочий 32 000 9 000 175 000 0,49 Высшее

Да Ж Нет 22 Нет 0 Менеджер, инженер, рабочий 15 000 4 000 201 000 0,39 Неполное высшее

Да М Нет 26 Нет 0 Руководитель 15 000 6 000 150 000 0,34 Неполное высшее

Да М Да 37 Нет 1 Менеджер, инженер, рабочий 23 000 8 000 167 000 0,44 Среднее специальное

Да Ж Да 36 Нет 2 Менеджер, инженер, рабочий 28 000 7 000 150 000 0,22 Среднее специальное

Да Ж Нет 27 Нет 0 Менеджер, инженер, рабочий 25 000 8 000 290 000 0,34 Высшее

Да М Нет 22 Нет 0 Менеджер, инженер, рабочий 15 000 6 000 120 000 0,44 Высшее

рис. 2. Фрагмент исследуемой выборки заемщиков (факторы некодированные)

Таблица 3

результаты одномерного дисперсионного анализа

Переменные лямбда Уилкса F-критерий значимость

Семейный статус 0,980 1,370 0,246

Возраст 0,911 6,524 0,013

Кредитная история 0,857 11,225 0,001

Количество детей 0,921 5,725 0,020

Тип должности 0,964 2,502 0,118

Доходы 0,904 7,094 0,010

Расходы 0,997 0,232 0,632

Сумма кредита 0,999 0,049 0,825

Ставка по кредиту 0,998 0,109 0,742

Образование 0,779 19,023 0,000

Пол 0,995 0,358 0,552

Это свидетельствует о том, что на их основании исследуемые группы существенно различаются. В наибольшей степени группы различаются по уровню образования, кредитной истории и доходам. Можно сделать предположение о том, что именно эти переменные в большей степени влияют на финансовую дисциплину заемщиков.

В табл. 4 показано, какие независимые факторы оказались включенными в дискриминантную модель на последнем шаге анализа. По сути это факторы, которые в большей степени обусловли-

вают различие между группами заемщиков и определяют наличие нарушений погашения задолженности. На основании данных, указанных в табл. 5, можно оценить качество разделения респондентов на заданные группы зависимой переменной.

Соответствующий вывод можно сделать, исходя из корреляционного коэффициента, значение которого свидетельствует о хорошем результате. Еще одним важным показателем является собственное значение дискриминантной функции.

Таблица 4

отобранные факторы в результате процедуры пошагового

дискриминантного анализа

Шаг Фактор F-критерий

значение значимость

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1 Образование 19,023 0,000

2 Кредитная история 16,421 0,000

3 Количество детей 13,361 0,000

4 Тип должности 11,549 0,000

Таблица 5

расчет собственных значений дискриминантной функции

Функция собственное значение доля объясненной дисперсии,% доля с нарастающим итогом, % коэффициент канонической корреляции

1 0,722 100,0 100,0 0,647

В общем случае большие значения указывают на высокую точность подобранной дискриминантной функции. Статистическая значимость результата теста Уилкса указывает на существенные различия между средними значениями дискриминантных функций в двух исследуемых группах заемщиков, что говорит о достаточном качестве приближения дискриминантной модели. На основании полученных нестандартизированных коэффициентов построена дискриминантная модель следующего вида: ^ = -6,883 + 0,986 Q4 + 0,496 Q5 + + 0,752 Q6 + 1,075 Q11, где Q4 — кредитная история заемщика;

Q5 — количество детей;

Q6 — должность;

Q11 — уровень образования.

На основании данной модели можно рассчитать вероятность, с которой та или иная целевая группа потенциальных заемщиков не будет нарушать графика погашения задолженности. По аналогии был проведен анализ с включением всех факторов. Результаты оценочных тестов говорят о достаточной приемлемости полученной диск-риминантной модели. Полученные результаты дискриминантного анализа на основе полного включения факторов более объективны, поскольку имеют более высокое собственное значение, а также коэффициент канонической корреляции.

С учетом константы модель имеет вид: Z2 = -6,423 + 0,933 Q4 + 0,310 Q5 + + 0,571 Q6 + 0,939 Q11 + 0,154 Q2 + + 0,029 <3 - 1,659 <10 - 0,278 где <4 — кредитная история заемщика;

<5 — количество детей;

<6 — должность;

<11 — уровень образования;

<2 — семейный статус;

<3 — возраст, лет;

<10 — ставка по кредиту, %;

<1 - пол.

наличие просроченной задолженности Предсказанная принадлежность Итого

да Бет

Реальная принадлежность Z1 Число Да 100 60 160

Нет 50 290 340

Доля, % Да 62,5 37,5 100

Нет 14,7 85,3 100

Z2 Число Да 140 20 160

Нет 35 305 340

Доля, % Да 87,5 12,5 100

Нет 10,3 89,7 100

рис. 3. Результаты классификации заемщиков на основе дискриминантных моделей

Обобщая полученные дискриминантные модели, можно сделать выводы о том, что на высокую вероятность отсутствия нарушений влияют положительная кредитная история, наличие руководящей должности, наличие высшего образования и низкая кредитная ставка. Обратим внимание, что уровень доходов и расходов заемщика не вошел в дискриминантную модель.

Сравним точность классификации заемщиков из исследуемой выборки на основе полученных дискриминантных моделей. Результаты классификации представлены на рис. 3. В случае пошагового включения факторов 78 % респондентов были корректно отнесены к одной из двух исследуемых групп (см. рис. 3). Результаты оценки корректности классификации варьируются в пределах от 50 до 100 %, поэтому полученный результат — примерно 78 % — можно считать отличным. Точность классификации в случае полного включения факторов выше на 11 п. п. и составляет 89 %, что в первую очередь обусловлено лучшим приближением дискриминантной функции за счет включения дополнительной информации (факторов) и более высокими результатами оценочных тестов. Необходимо отметить, что полное включение факторов не всегда приводит к более точной классификации, например из-за тесной связи между факторами, кроме того, точность классификации может оказаться ниже для тестовой выборки.

Главная задача при построении нейронных сетей — это выбор трех составляющих нейронных сетей (топологии сети, параметров каждого нейрона и метода обучения). По сравнению с дискрими-нантным анализом, где количество возможных методик его проведения ограниченно, нейросетевое моделирование базируется на значительном числе типов сетей, методов обучения, первоначальных настроек, выбор которых трудно формализуем и содержит субъективную составляющую, поэтому целесообразно строить несколько нейронных сетей с различными параметрами. Были смоделированы нейронные сети в среде «SPSS 16.0.2» с различными параметрами, обобщенно представленными в табл. 6.

Были построены различные топологии сетей двух типов: многослойного персептрона (MLP-сеть) и сетей на основе радиальной базисной функции (RBF-сеть) [8]. В качестве функции ошибок использована сумма квадратов оши-

Таблица 6

Результаты нейросетевого моделирования

Параметр Модели нейронных сетей

MLPj MLP2 MLP3 MLP4 mlp5 RBF1 RBF2 RBF3

Инициирующие параметры

Количество скрытых слоев 1 1 1 2 1 1 1 1

Вид передаточной функции скрытого слоя Гиперболический тангенс Гиперболический тангенс Гиперболический тангенс Гиперболический тангенс Сигмоида Логистическая Логистическая Экспонента

Количество нейронов 10 10 40 10\10 10 10 40 10

Метод обучения Online Online Online Online Online - - -

Количество эпох 100 400 100 100 100 - - -

Основные результаты

Значение площади под ROC-кривой 0,967 0,995 0,968 0,909 0,941 0,954 0,993 0,923

Значение функции ошибки 7,09 2,6 7,4 5,9 2,8 4,95 1,5 6,5

Факторы с наибольшей (свыше 80 %) нормированной важностью 04 Q8 Q9 Ql0 Ql2 Q4 q8 Q10 Q4 Q10 Q12 Q12 Q5 Q2 Q5 Q9 Q5 Q6 Q7

Точность классификации, % 91,3 95,7 88,4 92,8 95,7 88,4 94,2 88,4

бок. Модели на базе многослойного персептрона показали более высокую точность классификации, сравнимую с дискриминантными моделями. В большей мере на точность классификации оказали влияние количество нейронов в скрытых слоях и количество эпох обучения. Модели на базе радиальной базисной функции показали меньшую точность по сравнению с многослойным персепт-роном, но имеют значительно меньшее количество параметров настройки.

Среда моделирования «SPSS 16.0.2» позволяет оценить вклад каждого фактора в разделении заемщиков на группы путем вычисления нормированной важности. В целом, в сравнении с дискриминантными моделями в большей части полученных моделей сетей наличие просроченной задолженности определяется финансовыми параметрами заемщиков (расходами и доходами).

Необходимо провести сравнение точности классификации заемщиков на основе данных, которые не вошли в исследуемую (обучающую) выборку. Результаты классификации заемщиков в тестовой выборке представлены на рис. 4. Отклонение от результатов, полученных на базе исследуемой выборки, незначительно. Нейронная сеть улучшила показатель точности классификации заемщиков, что говорит об успешном обучении. Если точность классификации

снизилась, как в случае с дискриминантнои моделью, то модель перестала выполнять обобщение и просто «запоминает» исследуемые данные, поэтому можно говорить о ее переобучении.

Далее проведем сравнение статистических и нейросетевых методов (табл. 7). В целом, автор не разделяет мнения о превосходстве того или иного метода в решении задачи оценки кредитного риска. Статистические методы просты, позволяют получать легко интерпретируемые результаты, но требуют выборки, отвечающей жестким требованиям. Нейронные сети на фоне целого ряда недостатков позволяют моделировать сложные нелинейные взаимосвязи значительного числа факторов, что делает их хорошим инструментом в решении практических задач.

Разработанные модели, несмотря на применение разных подходов, обладают высокой точностью классификации заемщиков, что дает возможность применять на практике оба подхода. Нейросетевые

Наличие просроченной задолженности Предсказанная принадлежность Итого

Да Нет

Реальная принадлежность Z2 Число Да 65 5 70

Нет 28 2 30

Доля, % Да 92,8 7,2 100

Нет 93,3 6,7 100

mlp2 Число Да 86 3 89

Нет 1 10 11

Доля, % Да 96,6 3,4 100

Нет 9,0 91,0 100

Рис. 4. Результаты классификации заемщиков из тестовой выборки

Таблица 7

сравнение статистических и нейросетевых методов

Параметр сравнения Отатистические методы Нейронные сети

Наличие выборки Требуется выборка кредитных обращений. Выборка должна быть однородной (относиться к одной и той же тенденции), непротиворечивой (не должна содержать одинаковые наборы значений факторов с разными исходами), содержать положительные и негативные исходы и достаточное их количество. Оба метода чувствительны к выбросам и мультиколлинеарности факторов (существуют методики для работы с малыми выборками). На практике выборка требует предварительной обработки (фильтрация, устранение пропущенных значений и выбросов, нормирование, квантование, кодирование и т. д.). Существует возможность по работе с выборкой без значений исходов кредитных обращений, например, с помощью кластерного анализа

— Не существует требования к определенному типу распределения исходных данных

Возможность работы с качественными данными Методы работают с любыми типами данных, но требуется предварительная обработка выборки, например, кодирование значений факторов. Для моделирования данные должны иметь числовой вид (должны быть закодированы)

Чувствительность к количеству входных факторов Проблема отбора факторов актуальна для обоих методов. Теоретически методы работают как с малым, так и со значительным количеством факторов. С одной стороны, увеличение количества факторов вносит дополнительную информацию для построения модели, повышая ее точность, с другой стороны, может вносить дублирующую информацию, содержащуюся в других факторах. При увеличении факторов существует высокая вероятность проявления мультиколлинеарности факторов, также необходимо повышение количества наблюдений в выборке

Нейронные сети лучше справляются с «проклятием размерности», которое не позволяет адекватно моделировать линейные зависимости в случае большого числа переменных

Возможность отбора значимых факторов Статистические методы изначально реализуют пошаговые алгоритмы отбора значимых факторов (в большей степени объясняющих результат) на основе того или иного критерия Традиционные нейросетевые методы не позволяют отбирать значимые факторы, данную процедуру можно осуществлять косвенно на основе, например, статистических методов, генетических алгоритмов или субъективного мнения

Возможность оценки вероятности того или иного исхода кредитного обращения Возможность существует. Например, такими статистическими методами являются логистическая регрессия и дискриминантный анализ. Основным преимуществом статистических методов является возможность получения (прямо или косвенно) вероятностного распределения какой-либо величины. Вероятностные нейронные сети позволяют выходным значениям приобретать вероятностный смысл

Возможность оценки важности факторов Возможность существует. Например, в случае дискриминантного анализа факторы с наибольшими регрессионными коэффициентами вносят наибольший вклад в дискриминацию (разделение на группы) Проблема заключается в том, что нейронные сети не предоставляют инструмента, описывающего относительный вклад различных характеристик заемщика в результат. Существуют алгоритмы, позволяющие косвенно осуществить данную процедуру, например, оценка нормализованной важности факторов в среде «SPSS»

Количество параметров настройки Статистические методы (логистическая регрессия, дискриминантный анализ) имеют ограниченный набор параметров настройки, основными из которых является критерий включения (исключения) факторов, количество итераций и выполняемые статистические тесты Одним из главных недостатков является отсутствие формализованных алгоритмов выбора параметров сети. Это является актуальной проблемой, поскольку существует значительное число типов сетей, алгоритмов обучения, видов передаточных функций и т. д., что затрудняет нейросетевое моделирование и поиск наилучшей сети

Возможность совмещения с другими методами Возможность существует. Например, статистические методы могут применяться для отбора значимых факторов для нейронной сети или для построения функций принадлежности в нечетко-множественных моделях. Нечеткие нейронные сети осуществляют выводы на основе аппарата нечеткой логики, однако параметры функций принадлежности настраиваются с использованием алгоритмов обучения нейросетей

Окончание табл. 7

Параметр сравнения Статистические методы Нейронные сети

Сложность интерпретации результатов Результаты статистических методов просты в интерпретации. Аналитик получает возможность объяснять, каким образом модель классифицировала заемщика, за счет каких факторов и т. д. Это позволяет не потерять управленческий контроль над процессом оценки кредитного риска Значения параметров элементов сети почти всегда невозможно объяснить в терминах решаемой задачи, следовательно, практически невозможно объяснить решение, полученное с помощью нейронной сети

Точность классификации Оба метода не имеют явных преимуществ в части точности получаемых моделей. Точность модели определяется качеством исследуемой выборки, выбранными параметрами моделей. Нейронные сети показывают более высокую точность, когда связи факторов сложны и нелинейны

модели не обладают явными преимуществами перед статистическими моделями, сложны в настройке и не позволяют извлекать знания, но способны моделировать сложные нелинейные взаимосвязи факторов. Областью дальнейших исследований может стать изучение влияния параметров настройки на точность классификации заемщиков, а также разработка полноценных систем внутренних рейтингов на основе рассмотренных подходов.

Список литературы

1. Бююль А. SPSS: искусство обработки информации: анализ статистических данных и восстановление скрытых закономерностей. СПб.: ДиаСофтЮП. 2005. 608 с.

2. ДуболазовВ. А., ЛукашевичН. С. Нечетко-множественный подход к оценке кредитоспособности физических лиц // Финансы и кредит. 2009. № 13(349). С. 35-45.

3. Дуболазов В. А, Павлов Н. В. Принятие управленческих решений в маркетинге с помощью компьютерных средств. СПб.: Изд-во Политехнического ун-та. 2005. 210 с.

4. Ефимова Ю. В. Оценка заемщиков малого бизнеса с учетом международных требований // Банковское кредитование. 2009. № 6(28). С. 55-72.

5. Лукашевич Н. С. Нечетко-логическая модель расчета кредитного рейтинга физических лиц // Управление финансовыми рисками. 2009. № 2(22). С. 110-124.

6. Лукашевич Н. С. О проблеме выбора подхода к отбору кредитных обращений. Опубл. Экономические реформы в России: сб. научных трудов. СПб.: Изд-во Политехнического ун-та. 2009. С. 182-186.

7. Руководство по кредитному скоррингу / Элизабет Мэйз. Минск: Гревцов Паблишер. 2008. 464 с.

8. СаймонХайкин. Нейронные сети: полный курс. М.: Вильямс. 2006. 1104 с.

9. Thomas L. C. A survey of credit and behavioral scoring: forecasting financial risk of lending to consumers // International Journal of Forecasting. 2000. № 16. P. 149-172.

10. West D. Neural network credit scoring models // Computers & Operations Research. 2000. № 27. P. 1131-1152.

i Надоели баннеры? Вы всегда можете отключить рекламу.