Научная статья на тему 'Категориальный анализ как метод оценки кредитоспособности клиента -физического лица'

Категориальный анализ как метод оценки кредитоспособности клиента -физического лица Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
264
98
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КАТЕГОРИАЛЬНЫЙ АНАЛИЗ / СКОРИНГ / ПЛАТЕЖЕСПОСОБНОСТЬ / КЛИЕНТ / БАЙЕСОВСКАЯ ВЕРОЯТНОСТЬ / СЕГМЕНТИРОВАНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кораблин М. А., Бедняк О. И.

Представленный подход имеет не только теоретическое, но и определенное практическое значение, позволяющее предсказывать различные изменения в поведении клиентов и, соответственно, экономические результаты, которые позволят компаниям наиболее эффективным образом выстраивать взаимоотношения с клиентами, учитывая их индивидуальные свойства.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Категориальный анализ как метод оценки кредитоспособности клиента -физического лица»



КАТЕГОРИАЛЬНЫМ АНАЛИЗ КАК МЕТОД ОЦЕНКИ КРЕДИТОСПОСОБНОСТИ КЛИЕНТА -ФИЗИЧЕСКОГО ЛИЦА

М. А. КОРЛБЛИН,

доктор технических наук, профессор, декан факультета информационных систем и технологий E-mail: [email protected]

О. И. БЕДНЯК,

аспирант кафедры информационных систем и технологий E-mail: [email protected] Поволжский государственный университет телекоммуникаций и информатики

Представленный подход имеет не только теоретическое, но и определенное практическое значение, позволяющее предсказывать различные изменения в поведении клиентов и, соответственно, экономические результаты, которые позволят компаниям наиболее эффективным образом выстраивать взаимоотношения с клиентами, учитывая их индивидуальные свойства.

Ключевые слова: категориальный анализ, скорринг, платежеспособность, клиент, байесовская вероятность, сегментирование.

Экономическая деятельность неразрывно связана с переработкой и использованием существующей информации. Те сферы экономики, в которых используются количественные оценки, применяют ЭВМ не только как «счетную машину», но и как инструмент, позволяющий сравнивать и выбирать наиболее приемлемый вариант решения при анализе экономических проблем.

В связи с развитием банковского сектора экономики стал активно развиваться рынок кредитования физических лиц. Деятельность в этой области связана с большим количеством кредитных рисков, от правильного управления которыми и качественного анализа данных напрямую зависит доходность кредитного портфеля банка.

Такой анализ тесно связан с использованием новых информационных технологий, формирующих оценки гипотез о принадлежности клиента — потенциального заемщика к тому или иному сегменту рынка. В первую очередь такие технологии

связаны с концепциями CRM (Customer Relation Management), Data Mining и т.д. Онтология отношений в системе «клиент — компания» как альтернатива гносеологии изобилует многочисленными практическими деталями, далеко выходящими за рамки чисто математических моделей. В этом смысле аспекты онтологического знания не имеют четкой формализации, часто опираются на эвристический подход и, к сожалению, лишены строгой математической основы [2].

Скорринговые системы фактически являются CRM для банков. В рамках жесткой конкурентной борьбы использование скорринговых систем становится решающим фактором формирования решений о выдаче кредита потенциальному заемщику. Кредитование, основанное на субъективных решениях, на сегодняшний день становится все более рискованным.

Ниже описываются основы категориального анализа данных, позволяющего анализировать информацию о клиенте — потенциальном заемщике на разных уровнях и на строго математической основе, формируя оценки реального состояния клиента и гипотетического развития событий.

Категориальный анализ отношений в системе «клиент—компания». Отношения в системе «клиент— компания» рассматриваются с двух точек зрения: индивидуальные (личностные) и массовые (групповые). Индивидуальные отношения характеризуются свойствами, которые описывают отдельные черты, присущие клиенту. Например, свойство

«отцовство» — клиент имеет детей (является отцом). При этом качество «отцовство» характеризуется количеством детей. Такого рода качество имеет несколько категорий: многодетный отец, малодетный отец, бездетный отец.

Свойства клиента могут быть тесно связаны с интересами компании (например, материальное состояние клиента) или представлять второстепенный интерес для компании (является ли клиент «совой» или «жаворонком»). Важность изучения свойств клиента заключается в том, что второстепенные, на первый взгляд, свойства в определенных ситуациях могут стать важным фактором для оценки поведения. В этом заключаются скрытые связи между свойствами.

Массовые (групповые) отношения определяют совокупность клиентов, обладающих общими свойствами и близкими качествами. Такая совокупность обычно рассматривается как сегмент рынка. При этом совокупность свойств и качеств определяет не конкретного клиента, а некоторый стереотип, который может формироваться менеджером из собственных соображений полезности для компании.

В любом случае основу категориального анализа клиентов определяет таблица свойств и кате-горийкачества(табл. 1).

Индивидуальная характеристика клиента (ИХК) формируется путем подчеркивания нужных или вычеркивания ненужных категорий. Такая таблица может выглядеть как анкета, вопросник и т.д.

В табл. 2 характеризуется молодой мужчина со средним образованием, проживающий в Промышленном районе:

Таблица 1

Свойства и категории качества

Свойство Категория

1 2 3

Возраст Молодой Пожилой Старый

Образование Начальное Среднее Высшее

Пол Мужской Женский -

Район проживания Октябрьский Ленинский Промышленный

Таблица 2

Индивидуальная характеристика клиента

Свойство Категория

1 2 3

Возраст Молодой Пожилой Старый

Образование Начальное Среднее Высшее

Пол Мужской Женский -

Район проживания Октябрьский Ленинский Промышленный

ИХК = (возраст = молодой) & (образование = среднее) & (пол = мужской) & (район проживания = Промышленный).

Здесь ИХК представляет собой набор из четырех показателей, связанных конъюнктивной связью (&).

Любая строка таблицы свойств и качеств может быть расширена путем введения более «тонких» категорий или сокращена введением более «грубых». Детализируем категорию:

Возраст = (10 ^ 30 лет) ОЯ (30 ^ 40 лет) ОЯ (40 ^ 60 лет) ОЯ (> 60 лет), где ОЯ — логическая дизъюнкция.

Обратный пример (интеграция категории): Возраст = [(не старый = (молодой ОЯ пожилой)] ОЯ (старый)].

Если ИХК всегда ассоциируется с конкретным клиентом, то стереотип (и соответствующий сегмент) идентифицируется групповым именем, например:

Пенсионер с достатком = [образование = (высшее ОЯ среднее) & возраст =

(пожилой ОЯстарый) & (доход > 10 000)].

Такая двойственность интерпретации таблицы свойств и категорий позволяет, с одной стороны, идентифицировать место конкретного клиента в процессе сегментации, а с другой стороны, сформировать тот стереотип, качества которого позволят реализовать сегмент с хорошим наполнением. Таким образом, индивидуальность и массовость в отношениях с клиентами следует рассматривать как своеобразное единство и борьбу противоположностей в бизнесе.

Для менеджера, которого интересует наполнение сегмента и его финансовые показатели, в конечном счете важны те свойства и качества потенциальных клиентов, которые определяют такое наполнение.

Структура табл. 1 в программной реализации обладает большой гибкостью. В процессе эксперимента по оценке поведения клиентов можно добавлять новые свойства, интегрировать категории (столбцы), детализировать их, добавляя новые столбцы и т. п.

Для дальнейшей формализации введем свойства и качества с использованием буквенно-индек-сных обозначений (табл. 3).

Верхний индекс в записи К\ идентифицирует свойство, нижний — категорию качества, присущую клиенту (или сегменту), подчеркивание определяет выбранную категорию соответствующего свойства.

ЭКОНОМИЧЕСКИЙ АНАЛИЗ:

19

Таблица 3

Свойства и категории качеств

Свойство Категория

1 2 т м

1 К; К; К; KM

2 К2 К2 К2 т KM

N К? к n2 Km KM

Исходные данные

Общая посегментная статистика Посегментная статистика свойств ИХК

Расчет апостериорных вероятностей

Пересчет априорных вероятностей

Рис. 1. Общая схема категориального анализа на основе байесовского пересчета вероятностей

Основная схема описываемого подхода связана с переопределением байесовских вероятностей на основе получения фактов, определяющих ИХК: априорная ситуация ^ констатация фактов ^ апостериорная ситуация ^ новая априорная ситуация.

В практических реализациях эта схема приводит к устойчивой оценке гипотез [7] и практически снимает проблему априоризма априорной неопределенности и субъективизма.

Общая схема категориального анализа на основе байесовского пересчета вероятностей иллюстри-руетсянарис. 1.

В качестве исходных данных рассматриваются: индивидуальная характеристика клиента (ИХК); общая посегментная статистика клиентов (или априорные вероятности попадания клиента в сегменты Р (5^); посегментная статистика категорий клиентов (или условные вероятности принадлежности клиента

Категории в строке альтернативны (несовместные события), т. е. в каждой строке может быть выбрана только одна категория качества. Выбор такой категории и включение ее в структуру ИХК рассматривается как достоверный_факт, связанный с конкретным клиентом [3]. Категории по столбцам конъюнктивны (совместные события — факты). Совокупность таких выбранных категорий по всем строкам таблицы определяет ИХК в целом. Например, для табл. 3: ИХК = (K &K22 &... & K? ).

Символ ^"формально определяет числовое или лингвистическое значение категории. Это может быть терм (например, «молодой» в свойстве Возраст) или числовое ограничение (например, (10 <) & (< 30) в том же свойстве).

Выдвижение и оценка гипотез о том, попадает ли конкретный клиент в тот или иной сегмент рынка, связаны с задачей классификации, при этом количественное значение оценки определяется вероятностной мерой. В описываемом подходе используется байесовская вероятность [1, 4, 6], которая интерпретируется как оценка влияния свойств и категорий клиента на его поведение в процессе сегментации.

Байесовская теория связывает вероятность гипотез возможных событий с информацией об имеющихся фактах, содержащихся в ИХК. Этот подход используется также как один из методов классификации Data Mining.

к категориям , составляющим ИХК, для всех сегментов Бк,к=\, 2,...К).

Пересчет апостериорных вероятностей реализуется по формуле Байеса [5]:

Р(ИХК | )Р(Бк)

P(Sk | ИХК) = -

t Р( HXK\Sk) Р( Sk)

k=1

где Р(Бк | ИХК) — условные вероятности тяготения к сегменту Бк при условии, что ИХК является фактом;

Р(Бк) — априорные вероятности попадания клиента (тяготения) в сегмент Р(ИХК 15к) — обратная вероятность (вероятность наличия фактов ИХК в сегменте Схема (рис. 1) интерпретируется в условиях тривиальных ограничений:

1) ) -1;

к=1 М

2) для всех и для любого / V Р(К' 15к) = 1;

¿—i v j

j=i

то

3) если ИХК = К1 & К2т & КЗ &... & К, для любого

Р( ИХК\Бк) = Р( К[ |5к) • Р( К^ |5к) •

■Р{КЗ |5к)•...• Р{К[_ |5к);

4) Обновление для всех к:

Р(5к): = Р(5к | ИХК). Последний оператор обновляет априорные вероятности сегментов, заменяя их апостериорны-

ми, полученными на основе фактов, заключенных в ИХК.

Итерационный процесс переопределения байесовских вероятностей может развиваться различными путями: итерациями по свойствам, итерациями по новым клиентам, итерациями по группам клиентов. На этой основе формируется устойчивое тяготение клиента в системе сегментов.

Основой категориального анализа является общая и посегментная статистика клиентов, дифференцированная по всем свойствам и категориям. Наличие такой статистики определяет достоверность оценки проверяемых гипотез на основе наличия фактов, свойственных клиентам как по отдельности, так и в совокупности. Как правило, такая статистика базируется на предыстории деятельности компании, на прецедентах, характерных для различных ситуаций. Все перечисленные выше вероятности определяются как частости (отношения количества клиентов, обладающих присущими свойствами и категориями, к общему количеству клиентов в сегменте).

Отсутствие такой информации можно заменить только субъективными умозаключениями о взаимовлияниях свойств клиентов на процессы сегментации. Этот подход фактически реализует концепцию «What if», свойственную многим системам поддержки принятия управленческих решений.

Анализ кредитоспособности клиента — потенциального заемщика банка. Кредитные аналитики банка располагают информацией о предполагаемом заемщике из данных заполняемой им анкеты и оперируют такими понятиями, как «характеристики клиентов» и «признаки». Соответственно, характеристиками являются вопросы анкеты, а ответы заемщика — признаками.

Существенную значимость в этом случае имеет полнота информации, которая определяется как оптимальное соотношение между необходимой и полученной информацией, так как от этого напрямую зависит качество принимаемых решений о выдаче кредита. С полнотой тесно связана достоверность информации, которая отражает степень ее объективности в процессе сбора и передачи. С увеличением полноты информации интуитивно возрастает степень ее достоверности, т. е. практически можно утверждать, что чем больше вопросов анкеты (характеристик клиента) рассматривается при принятии решения, тем выше достоверность принимаемого решения.

Скорринг как процесс выдачи и возврата кредитов наиболее ярко подчеркивает достоинства и

особенности критериального анализа. Он является методом классификации совокупности заемщиков на различные сегменты, когда необходимая характеристика, в данном случае плохой или хороший заемщик, неизвестна, зато известны другие характеристики, которые в определенной степени коррелируют с искомой. В простейшем и наиболее распространенном случае в этом процессе можно рассматривать только два сегмента — «неплательщики» и «надежные заемщики».

Философия скорринговой системы заключается не в поиске объяснений, почему человек не платит, а в выделении характеристик, которые связаны с надежностью и ненадежностью заемщика. Скорринг представляет собой типичную классификационную задачу, в которой, исходя из имеющихся данных, необходимо применить функцию, наиболее точно разбивающую выборку клиентов на «плохих» и «хороших».

Разрабатываемая система позволит снизить риски банка, отвечая по кредитной заявке на запрос: насколько проблематичной будет работа банка с конкретным заемщиком, и вернет ли он кредит. Система строится на основании различных факторов:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• опыт персонала кредитных подразделений банков;

• статистические данные по уже выданным кредитам, учитывающие «хороших» и «плохих» заемщиков;

• прецеденты, связанные с наиболее существенными стереотипами;

• фильтрация данных и отсеивание историй с большими отклонениями;

• формализация исходных данных. Реальные неплательщики, попавшие в историю с их атрибутами, свойствами и качествами, образуют темпоральную базу данных, в которой скрыты закономерности отношений между отдельными атрибутами. Эти отношения формируют шаблоны — стереотипы для оценки свойств потенциального заемщика на предмет его тяготения к соответствующему сегменту (табл. 4).

Посегментная статистика категорий выстраивалась на основе кредитных историй, включающих в себя 500 анкет (индивидуальных характеристик клиентов). Такая статистика содержит вероятности (частости) всех категорий клиентов Р(К\ \ 5к) для рассматриваемых двух сегментов — «неплательщики» и «надежные заемщики». Структура таблицы, содержащей посегментную статистику Р(К\ |5к), строится на основе табл. 4 с добавлением статистических данных кредитной истории.

ЭКОНОМИЧЕСКИЙ АНАЛИЗ: жго7>ъЯ-Ъ.'Н?>?4'К'ШЪ.Ъ4

21

Таблица 4

Свойства и категории для скорринга (вариант)

Свойство Категория

1 2 3 4 5 6

Должность Предприниматель ОЯ руководитель Специалист

Стаж общий Более 5 лет ОтЗдо5 лет От1доЗ лет

Стаж после Более 1 года От 4 мес. до 1 года Менее 4 мес.

выдачи кредита

Образование Ученаястепень ОЯ 2 высших образования Высшее Неоконченное высшее Среднее специальное Среднее

Наличие Нет 1 2 3 4 5 и более

иждивенцев

Возраст, лет От 22 до 25 От 26 до 45 От 46 до 65 -

Кредитная Положительная Положительная Нет Удовлетво- Отрица- -

история (>2/3 от запрашиваемой суммы) (<2/3 от запрашиваемой суммы) рительная тельная

Пол Мужской Женский

Семейное Замужем (женат) Не замужем

положение (не женат)

Формирование ИХК и результаты расчета байесовской вероятности, формирующей оценку испытания клиента (в нашем случае это правдоподобие принадлежности клиента сегменту), изображено на рис 2.

Разработанная система удачно дополняет средствами формального категориального анализа работу кредитного аналитика. Чем меньше сумма запрашиваемого кредита, тем больше полномочий можно отдать автоматизированному принятию решения. Фактически система принимает решения по 85 % заявок с небольшими кредитными суммами (в частности, потребительские кредиты).

Классификация заемщиков на кредитоспособных и некредитоспособных сопровождается определением вероятности невозврата кредита. В общем случае разрабатываемый подход позволяет оценить потенциального заемщика с разных сторон и с учетом качественного изменения его характеристик, расширяя или сужая его свойства и качества.

Так, с помощью имитационного эксперимента можно количественно оценить, насколько изменится вероятность возврата кредита, например при изменении количества иждивенцев или общего стажа. Варьирование этими характеристиками

Рис. 2. Фрагмент системы описания ИХК и оценки кредитоспособности клиента

22

ЭКОНОМИЧЕСКИЙ АНАЛИЗ: жго7>ъЯ-Ъ.'Н?>?4?:Ж'иЪ4

Рис. 3. Результат имитационного эксперимента

выявляет своеобразный запас прочности заемщика, его стабильности или нестабильности.

Изменение кредитоспособности при увеличении общего стажа работы потенциального заемщика показано на рис. 3.

Актуальность и необходимость внедрения систем кредитного скорринга регулярно отмечается на различных межбанковских семинарах и форумах, на страницах средств массовой информации.

В данный момент рынок соответствующих программных продуктов находится в стадии развития. При этом большинство фирм-разработчиков и поставщиков скорринговых программ скрывают детали алгоритмов, лежащих в основе программ. В итоге из-за непонимания идеи скорринга и «непрозрачности» скорринговой модели только около 10 % банков используют приобретенные скорринговые системы.

Отечественные и западные скорринговые системы SAS Credit Scoring, EGAR Scoring, Transact SM (Experian-Scorex), Deductor имеют большой срок эксплуатации и, как следствие, большой объем кредитных историй, которые, как правило, отсутствуют в российских банках. Использование разнородных форматов, а также необходимость формализации и консолидации собираемых данных в больших инструментальных средах и комплексных скорринговых системах также вызывают большие трудности.

Зачастую банки, которые решают воспользоваться услугами консалтинговой фирмы для внедрения скорринговой системы, сталкиваются с тем,

что последние ориентируются в большей степени не на качество решения, а на известность фирмы-разработчика и их крупные внедрения. На практике же далеко не всем банкам необходимы все функции внедряемого продукта. В результате банки получают определенные интеграционные сложности, так как даже внедрение малейшего изменения в систему может занять значительное время, что выльется в дополнительные денежные расходы.

В последнее время наиболее ясное понимание необходимости разработки и внедрения скорринговых систем складывается именно у средних банков как единственно возможный способ вести эффективную деятельность на рынке кредитования частных лиц.

Наглядным отражением этого является запуск в Европе в 2006 г. исследовательского проекта Bayesian Approach to Cognitive Systems. Его основной целью является применение теории Байеса для создания искусственных систем, способных решать в реальных условиях сложные задачи [7].

Применение байесовской теории для анализа экономической информации позволит улучшить организацию работы банка и процесса принятия решений о выдаче кредитов. На ее основе может быть создано новое поколение программ для работы с данными, поступающими из реального мира, и, что важнее всего, этот тип программного обеспечения может способствовать преодолению дистанции между данными и информацией, превращая потоки данных в полезные для потребителя сведения.

ЭКОНОМИЧЕСКИЙ АНАЛИЗ: •мгоРЪЯЪ'ИРЛ'ХЖКХ*

23

Наиболее существенным результатом исследования является не собственно формирование оценки клиента, а динамика изменения правдоподобия в процессе анализа влияния той или иной категории клиента на эту оценку. При этом удается выделить наиболее информативные категории, которые резко меняют общую оценку принадлежности клиента, второстепенные категории, которые могут быть изъяты из анкеты без снижения правдоподобия и т. п. Большое значение

Список литературы

для категориального анализа имеют также взаимозависимости между свойствами. Такая корреляция может констатировать избыточность свойств в системе «свойства—категории» [2].

Описываемый инструмент, основанный на весьма простом анализе фактов—категорий, присущих заемщикам, может успешно использоваться не только для формирования оценок надежности заемщиков, но и для выявления главных факторов, влияющих на эту надежность.

1. Байесовские процедуры классификации // иКТ:М1р://№Ш%8рс-соп8иШ^.га/ВМ8/МасЫпе%20 Ьеагш^/МасЫпеЬеагш^/Оуете.

2. Бедняк О. И., Кораблин М.А., Салмин А. А., Таев С. С. Прогнозирование рыночных отношений на основе категориального анализа клиентов // Проблемы управления и моделирования в сложных системах, XI Международная конференция, 2009.

3. Бернштейн С. Н. Теория вероятностей / 2-е изд. Л.: 1934.

4. Гнеденко Б. В., Хитин А. Я. Элементарное введение в теорию вероятностей / М.: Наука, 1976.

5. Кораблин М.А., Мелик-Шахназаров А. В., Салмин А.А. Оценка лояльности клиентов телекоммуникационной компании на основе байесовского подхода //Информационные технологии, 2006. № 4.

6. Секей Г. Парадоксы в теории вероятностей и математической статистике / пер. с англ. М.: Мир, 1990.

7. Теорема Байеса научит роботов принимать решения // СМе№8, 2006. №6 (15).

24

ЭКОНОМИЧЕСКИЙ АНАЛИЗ: жг0РЪЯ-Ъ.'НР?4?:Ж'иЪ4

i Надоели баннеры? Вы всегда можете отключить рекламу.