ПОСЛЕДОВАТЕЛЬНЫЕ ШАБЛОНЫ В БАНКОВСКОЙ АИРЕКТ МАРКЕТИНГЕ
Н.Б. ПАКЛИН
Московский государственный университет экономики, статистики и информатики (МЭСИ), Рязанский филиал, кандидат технических наук, доцент e-mail: [email protected] С.В. УЛАНОВ
Сарапульский политехнический институт, кандидат экономических наук, доцент
В статье рассказывается о подходе к обнаружению связанных событий, основанному на применении специального алгоритма машинного обучения — последовательных шаблонов.
В качестве событий выступают розничные банковские услуги, в различное время приобретенные клиентами банка. Приведен практический пример того, как можно выявлять, интерпретировать и использовать последовательные шаблоны в сфере розничного банкинга при продаже дополнительных услуг и моделировании лояльности клиентов.
Ключевые слова: директ-маркетинг; банковский менеджмент; последовательные шаблоны; машинное обучение.
Коды классификатора ^ЕЬ: 021, М31.
Введение
Вопросы удержания существующей клиентской базы и развития программ лояльности сегодня актуальны как никогда.
Как известно, директ-маркетинг — это действия потребителям компании, направленные на прямые предложения товаров и услуг, которые осуществляются с применением клиентской базы данных. В ней хранится информация о клиенте и история взаимодействия с ним, основу которой составляет транзакция — покупка, сделанная клиентом по одному чеку.
Эффективная работа с клиентской базой данных позволяет в маркетинге решать три основные задачи: выделять целевые сегменты лиц для массовой рассылки рекламы новой услуги; измерять и анализировать процент отклика клиентов на предложения; сегментировать клиентов на лояльных потребителей и не лояльных.
Современный рынок розничных банковских услуг характеризуется жесткой конкурентной борьбой за клиента. В то же время российские потребители банковских услуг более мобильны, так как между ними и банками еще не сформировались долгосрочные связи [1]. Большинство клиентов, на привлечение которых банк уже затратил значительные средства, ограничивается одной банковской услугой. Поэтому немаловажную роль играют так называемые кросс-продажи, когда клиенту предоставляют несколько связанных или дополнительных продуктов и услуг, которые реально могут повысить доходность банка в расчете на одного клиента. И сегодня специалисты все чаще обращаются к количественным методам маркетинга [4, 3]. Эти методы предполагают визуальный анализ структурированных данных из клиентской базы данных, а также изучение их статистических характеристик, построение отчетности, ,№М-сегментацию, А5С-ХУ7-анализ. Несмотря на свою относительную простоту, они часто оказываются эффективными при условии применения современных информационно-аналитических систем, например генераторов отчетов и средств просмотра данных в многомерных разрезах (так называемые О/ЛР-кубы).
К сожалению, более сложные зависимости в массивах данных эти методы выявить не способны. К тому же директ-маркетинг характеризуется большими рисками: акция нецелевому сегменту (например, рассылка каталогов или кредитных карт) может сильно ухудшить позицию компании на рынке. Массовые акции убыточны, а для целевых нужны инструменты. Поэтому в последние годы все большую популярность получают методы интеллектуального анализа, которые решают задачи нахождения нетривиальных зависимостей в клиентских базах данных и позволяют снизить риски при управлении лояльностью клиентов. В первом ряду таких методов стоят ассоциативные правила и последовательные шаблоны [2].
Отметим, что банковские базы данных всегда являются клиентоориентированными, поскольку любая банковская услуга (или транзакция в терминологии ассоциативных правил) персонифицирована. Когда клиент не ограничивается одной услугой, то сразу или спустя какое-то время обращается, например, за новым кредитом или оформляет кредитную карту. При этом возникает вопрос: связаны ли данные события? Эту связь и устанавливают ассоциативные правила. Например, может быть обнаружено ассоциативное правило, утверждающее, что клиент, открывший срочный вклад, с вероятностью 65% оформит и дебетовую карту.
© Паклин Н.Б., Уланов С.В., 2009
ТЕRRА ECONOMICUS ^кономичєский вестник Ростовского государственного университета) ^ 2009 Том 7 № 2 (часть 3)
ТЕRRА ECONOMICUS (Экономичeский вестник Ростовского государственного университета) ^ 2009 Том 7 № 2 (часть 3)
Ассоциативные правила имеют ряд ограничений, которые не позволяют с их помощью охватывать некоторые аспекты анализа, представляющие большой практический интерес, а именно:
1) они учитывают только факты совместного появления товаров и не учитывают временной аспект (последовательность заказа услуг или покупок товара);
2) ассоциативные правила не являются клиентоориентированными, так как не связывают наборы предметов в транзакции с определенным клиентом.
Решить эту проблему помогают последовательные шаблоны, которые основаны на теории ассоциативных правил и, по сути, являются ее расширением. Ниже рассматривается идея поиска последовательных шаблонов, после чего она иллюстрируется на примере из банковской сферы розничных услуг.
1. Основные понятия теории последовательных шаблонов
Если в ассоциативных правилах рассматривается только факт совместного появления товаров в одной транзакции, то в последовательных шаблонах — последовательность появления товаров. Последовательный шаблон — это всегда последовательность появления предметов в их группах.
Рассмотрим постановку задачи поиска последовательных шаблонов [5]. Пусть имеется база данных, в которой каждая запись представляет собой клиентскую транзакцию. Транзакция содержит следующие поля: идентификатор клиента, дата (или номер визита) транзакции и набор купленных товаров. Положим, что ни один клиент не имеет двух или более транзакций, совершенных в один и тот же момент времени.
Введем несколько основных понятий. Предметный набор — это не пустой набор предметов (товаров), появившихся в одной транзакции. Последовательность — это упорядоченный список предметных наборов. Транзакцию будем заключать в треугольные скобки, а предметный набор — в круглые. Тогда если обозначить предметы целыми числами, то предметные наборы будут записаны в виде (2, 4, 5); (1, 3), а транзакция, содержащая эти наборы, как <(2, 4, 5); (1, 3)>. Если предметы появились в одном наборе, это значит, что они были приобретены одновременно.
Пусть I = (^,¡'2...^) — предметный набор, где I — предмет. Обозначим последовательность через S = <11,12.1п>. Последовательность S1 содержится в другой последовательности S2, если все предметные наборы S1 содержатся в предметных наборах S2. Например, последовательность <(3); (4, 5); (8)> содержится в последовательности <(7); (3, 8); (9); (4, 5, 6); (8)>, поскольку (3) £ (3, 8), (4, 5) £ (4, 5, 6) и (8) £ (8). Последовательность S называется максимальной, если она не содержится в какой-либо другой последовательности.
Все транзакции одного клиента могут быть показаны в виде последовательности, в которой транзакции упорядочены по дате или времени (или по номеру визита). Такие последовательности называются клиентскими. Последовательность называется поддерживаемой клиентом, если она содержится в клиентской последовательности данного клиента. Тогда поддержка последовательности S определяется как число клиентов, поддерживающих данную последовательность.
Для базы данных клиентских транзакций задача поиска последовательных шаблонов заключается в обнаружении максимальных последовательностей среди всех последовательностей, имеющих поддержку выше заданного порога. Каждая такая максимальная последовательность и представляет собой последовательный шаблон. Последовательности, удовлетворяющие ограничению минимальной поддержки, называют частыми последовательностями.
Рассмотрим небольшую базу данных транзакций, представленную в табл. 1.
Таблица 1
База данных транзакций
Идентификатор клиента Дата транзакции Приобретенные предметы
1 25.06.2008 3
1 30.06.2008 9
2 10.06.2008 1, 2
2 15.06.2008 3
2 20.06.2008 4, 6, 7
3 25.06.2008 3, 5, 7
4 25.06.2008 3
4 30.06.2008 4, 7
4 25.07.2008 9
5 12.06.2008 9
Транзакции в базе данных упорядочены по кодам клиентов, а для каждого клиента — по дате транзакции. После преобразования исходной базы данных в набор клиентских последовательностей получим следующую таблицу (табл. 2).
Таблица 2
Клиентские последовательности
Код клиента Клиентская последовательность
1 <(3), (9)>
2 <(1, 2), (3), (4, 6, 7)>
3 <(3), (5), (7)>
4 <(3), (4, 7), (9)>
5 <(9)>
Зададимся уровнем минимальной поддержки 25%. В нашем примере ему будет удовлетворять любая последовательность, поддерживаемая как минимум двумя клиентами. Данному уровню поддержки будут удовлетворять две последовательности <(3); (9)> и <(3); (4, 7)>, которые также являются максимальными.
В примере они и есть искомые последовательные шаблоны. Последовательный шаблон <(3); (9)> поддерживается клиентом 1 и 4. Клиент 4 приобрел предметы (4, 7) между предметами 3 и 9, но поддерживает шаблон <(3); (9)>, поскольку шаблоны не обязательно являются непрерывными последовательностями. Шаблон <(3); (4, 7)> поддерживается клиентом 2 и 4. Клиент 2 купил предмет 6 между 4 и 7, но поддерживает данный шаблон, поскольку набор (4, 7) является подмножеством (4, 6, 7).
Не удовлетворяет уровню минимальной поддержки последовательность <(1, 2); (3)>, поскольку она поддерживается только клиентом 2. Последовательности <(3)>, <(4)>, <(7)>, <(9)>, <(3); (4)>, <(3); (7)> и <(4, 7)>, хотя и удовлетворяют минимальной поддержке, но не являются максимальными, поскольку содержатся в более длинных последовательностях.
Длина последовательности — это число предметных наборов, которое в ней содержится. Последовательность длины к назовем ^-последовательностью. Поддержкой предметного набора I является число клиентов, которые приобрели входящие в него предметы в одной транзакции. Таким образом, предметный набор I и 1-последовательность <1> имеют одну и ту же поддержку. Предметный набор, удовлетворяющий уровню минимальной поддержки, называется частым.
Частые предметные наборы из табл. 2 представлены в табл. 3.
Таблица 3
Частые предметные наборы
Частый набор Поддерживается клиентом Представление
(3) 1, 2, 3, 4 А
(4) 2, 4 В
(7) 2, 3, 4 С
(4, 7) 2, 4 D
(9) 1, 4, 5 Е
2. Поиск последовательных шаблонов
Процесс поиска последовательных шаблонов содержит следующие шаги.
1. Сортировка. Транзакции исходной базы данных сортируются по кодам клиентов, а транзакции каждого клиента — по дате или времени. Таким образом, исходная база данных преобразуется в базу данных клиентских последовательностей.
2. Поиск частых предметных наборов. Ищется множество всех частых предметных наборов F. Одновременно ищется множество всех частых 1-последовальностей.
Задача поиска частых предметных наборов на множестве клиентских транзакций использует следующее определение поддержки: число клиентов, купивших данный набор хотя бы в одной из транзакций. Затем множество частых предметных наборов преобразуется в альтернативное представление в виде букв, целых чисел или двоичных последовательностей. Использование такого представления в виде отдельных значений позволяет упростить алгоритмическую реализацию задачи.
3. Преобразование. Определяется, какие из частых последовательностей содержатся в клиентской последовательности. Для этого каждая транзакция клиентской последовательности замещается множеством ее частых предметных наборов. Если транзакция не
ТЕRRА ECONOMICUS (Экономичeский вестник Ростовского государственного университета) ^ 2009 Том 7 № 2 (часть 3)
ТЕRRА ECONOMICUS (Экономичeский вестник Ростовского государственного университета) ^ 2009 Том 7 № 2 (часть 3)
содержит ни одного частого предметного набора, то в результате преобразования она вообще исключается (отсекается) из рассмотрения. Если клиентская последовательность не содержит ни одного частого предметного набора, то вся эта последовательность также исключается.
После преобразования каждая клиентская последовательность будет представлена в виде множества частых предметных наборов //,■■■/}.
4. Поиск частых последовательностей. Используя множество частых предметных наборов, производится поиск частых последовательностей. Здесь разработано несколько алгоритмов, самыми известными из которых являются AprioriAll и AprioriSome [5].
5. Поиск максимальных последовательностей. На данном этапе среди частых последовательностей производится поиск максимальных последовательностей. Иногда данный этап совмещают с предыдущим, чтобы уменьшить затраты времени на вычисление немаксимальных последовательностей.
Детали реализации процедур поиска последовательных шаблонов интересны только специалистам, которые программируют их на алгоритмических языках. Для конечного пользователя (аналитика) сегодня доступны как коммерческие пакеты прикладных программ (SAS Enterprise Miner, SPSS Clementine, Statistica Data Miner, PolyAnalyst и др.), так и свободно распространяемые (RapidMiner, Tanagra и др.).
3. Пример поиска последовательных шаблонов в клиентской Базе
Для демонстрации подхода будет использоваться база данных, содержащая транзакции по розничным банковским услугам. Набор данных содержит 7000 записей по следующим 13 услугам: sms-банкинг, автокредит; депозитный сертификат, доверительное управление, индивидуальный пенсионный счет, кобрендинговая карта; кредитная карта; потребительский кредит, сберегательный счет, срочный вклад, счет до востребования, ценные бумаги, экспресс-кредит. Сформулируем следующую задачу: банк сделал эмиссию новых кобрендинговых карт, существенно изменив условия и снизив ставки. Требуется сделать персонифицированную рекламу новой программы кобрендинга существующим и новым клиентам банка.
Одним из вариантов решения вышеописанной задачи является применение последовательных шаблонов. Располагая знаниями о типичных шаблонах поведения клиентов, можно проводить адресное предложение именно тем клиентам, которые с большой долей вероятности на него откликнутся.
Результаты работы алгоритма поиска последовательных шаблонов приведены в табл. 4 (использовалось ПО «SPSS Clementine 12» с параметрами: минимальная и максимальная достоверность 30 и 70% соответственно). Обозначение S соответствует поддержке шаблона, а C — его достоверности. Достоверность интерпретируется как вероятность того, что возникнет событие In при условии, что все предшествующие события 11 ...I уже наступили.
Таблица 4
Последовательные шаблоны для банковских услуг
№ п/п Последовательный шаблон S, % C, %
1 <(счет до востребования, ценные бумаги); (депозитные сертификаты)> 7,5 70,0
2 <(экспресс-кредит); (экспресс-кредит)> 16,7 53,4
3 <(счет до востребования, экспресс-кредит); (экспресс-кредит)> 16,7 53,4
4 <(счет до востребования, сберегательный счет, экспресс-кредит); (экспресс-кредит)> 5,8 51,0
5 <(кредитная карта); (кобрендинговая карта)> 15,7 34,0
6 <(доверительное управление); (кобрендинговая карта)> 17,0 44,3
7 <(кредитная карта); (срочный вклад)> 15,0 36,0
Так, анализируя результаты, мы можем выделить интересные шаблоны <(доверительное управление); (кобрендинговая карта)> и <(кредитная карта); (кобрендинговая карта)>. Вероятность того, что существующий держатель кредитной карты согласится на предложение получить кобрендинговую карту, составляет 34%. Это объяснимо: кобрендинговые карты одновременно включают в себя преимущества как кредитных, так и дисконтных карт. Анализ базы транзакций выявил их сильную ассоциацию с кредитными картами и доверительным управлением. Поэтому можно легко выделить целевой сегмент клиентов, которым будет интересен новый банковский продукт. Аналогично интерпретируются и другие шаблоны. Видим, что высокой достоверностью обладает первый шаблон: если клиент открыл счет до востребования и приоб-
рел ценные бумаги, то с вероятностью 70% при повторном обращении он возьмет депозитный сертификат.
Отечественные банки в своих корпоративных информационных системах еще только накапливают информацию, на основе которых возможно решать рассмотренную задачу. Но рынок розничных банковских услуг активно развивается, и потребность в технологиях количественного анализа в России будет только расти, а управление лояльностью клиентов при помощи современных аналитических инструментов позволит обеспечить функционирование бизнеса в сложных условиях.
ЛИТЕРАТУРА
1. Мартынова Т. Настало время удерживать клиента / Банковское обозрение. 2008. № 2 (104).
2. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям. СПб.: Питер, 2009.
3. Паклин Н.Б., Уланов С.В. Ассоциативные правила в программах банковской лояльности // Финансы и кредит. 2009. № 23(359).
4. Полежаев И.Е. Метод сегментации клиентских баз данных на основе жизненного цикла клиента : Исследовано в России : Журнал. Режим доступа: http://zhurnal.ape.relarn.ru/articles/2006/200.pdf.
5. Agrawal R. Srikant R. Mining Sequential Patterns // Journal Intelligent Systems. 1997. Vol. 9. № 1. P. 33-56.
ТЕRRА ECONOMICUS (Экономичeский вестник Ростовского государственного университета) ^ 2009 Том 7 № 2 (часть 3)