Научная статья на тему 'Разработка тарифной политики для клиентов брокерского обслуживания на базе методов адаптивной кластеризации'

Разработка тарифной политики для клиентов брокерского обслуживания на базе методов адаптивной кластеризации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
147
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АДАПТИВНАЯ КЛАСТЕРИЗАЦИЯ / АНАЛИЗ ФАКТОГРАФИЧЕСКИХ ДАННЫХ / MST / FUZZY C-MEANS / САМООРГАНИЗУЮЩИЕСЯ КАРТЫ КОХОНЕНА / БРОКЕРСКОЕ ОБСЛУЖИВАНИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нейский Иван Михайлович, Филиппович Андрей Юрьевич

В статье исследуются современные принципы анализа информационного пространства, используемые в системах, поддерживающих работу экспертов фондового рынка. Предложенная авторами методика явилась основой соответствующего программного решения.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка тарифной политики для клиентов брокерского обслуживания на базе методов адаптивной кластеризации»

№1(31)2011

И. М. Нейекий, А. Ю. Филиппович

Разработка тарифной политики для клиентов брокерского обслуживания на базе методов адаптивной кластеризации

В статье исследуются современные принципы анализа информационного пространства, используемые в системах, поддерживающих работу экспертов фондового рынка. Предложенная авторами методика явилась основой соответствующего программного решения.

Большинство финансовых компаний, которые работают на фондовом рынке и являются его профессиональными участниками, привлекают клиентов на брокерское обслуживание. На сегодняшний день в России существует более 60 крупных компаний со среднемесячным оборотом около 800 млн долл. [1]. Основной показатель эффективности работы в данном направлении — объем комиссионных сборов с клиентов за совершаемые от их имени и за их счет операции. Поэтому для успешного развития брокерского обслуживания необходимо увеличивать количество клиентов и/или их обороты, на основе которых, как правило, определяется сумма комиссионного вознаграждения.

В различных компаниях процесс разработки тарифной политики состоит из разных стадий. Например, в одном из крупных банков России этот процесс включает следующие этапы:

а) анализ тарифов ближайших конкурентов;

б) обобщение накопленного экспертного (аналитического) мнения;

в) разработка и согласование тарифной политики с заинтересованными подразделениями.

Эффективность такого подхода подтверждается постоянным ростом клиентской базы банка на протяжении многих лет. Увеличению количества клиентов также способ-

ствует расширение перечня предлагаемых им услуг и возможностей. Данный способ формирования ставок имеет свои достоинства, среди которых — простота и прозрачность механизма установления расценок на услуги. Однако он имеет и недостатки — отсутствие возможности оценки планируемой прибыли с учетом операционных расходов (так как разрабатываемые таким образом ставки содержат информацию только о возможных доходах от оборотов клиентов, без оценки их массовой доли среди имеющихся клиентов), а также зависимость от изменений тарифной политики конкурентов.

В связи с кризисной обстановкой на всех мировых финансовых рынках повышается необходимость в создании «выигрышных» тарифных политик для клиентов, т. е. таких политик, смена которых всегда ведет к увеличению показателей доходности и количества клиентов. Кризис — это не только спад большинства показателей в различных отраслях экономики, но и возможность достичь более значимых результатов за счет повышения собственной эффективности, что в свою очередь требует привлечения дополнительных, ранее не используемых ресурсов, сосредоточенных в компании, — внутреннее информационное поле (аналитики, эксперты, накопленная информация об операциях, клиентах и т.д.).

№1(31)2011

Методики анализа информационного пространства

Согласно существующей оценке, объем данных в мире удваивается каждые два месяца [2], поэтому для анализа информационного пространства наиболее предпочтительными являются автоматизированные методы и алгоритмы. Анализ показателей брокерского обслуживания исследуемой кредитной организации показал, что количество ее клиентов за последние 3 года увеличилось в 20 раз, составив несколько десятков тысяч человек, за счет предложения новой услуги по инвестированию в российские предприятия. Такая динамика подтверждает необходимость применения машинных методов для решения описанной задачи, так как использование человеческих ресурсов потребует значительных затрат времени для большого количества сотрудников. Главная особенность этого анализа в том, что его нужно проводить на регулярной основе, чтобы сохранить конкурентные преимущества на рынке данного вида услуг. Также при анализе показателей клиентов кредитной организации выявлено, что их количество составляет от 50 до 70 человек, что тоже затрудняет решение задачи с помощью человеческих ресурсов. Сложностью проведения такого анализа является нетривиальность разыскиваемых закономерностей в силу большого количества информации и наличия НЕ-факторов.

Изучением проблем и созданием решений в этой области активно занимаются направления Business Intelligence (интеллектуальный анализ данных) и Knowledge Management (управление знаниями), в рамках которых выделяются поднаправления Knowledge Discovery ¡n Databases (выявление знаний в базах данных), Data Mining (анализ фактографических данных), Text Mining (анализ неструктурированных данных) и др. Результаты проведенных исследований положены в основу многих информационно-аналитических систем, используемых в основном для персональной работы

экспертов. Однако современной тенденцией является применение указанных технологий и для централизованного управления организациями.

При изучении структурированных массивов информации используется анализ фактографических данных, состоящий из шести различных задач:

1) классификация;

2) регрессия;

3) кластеризация;

4) выявление ассоциаций;

5) выявление последовательностей;

6) прогнозирование.

Потребность в кластеризации возникает в тех областях/этапах деятельности, где есть необходимость в разбиении объектов (ситуаций) на непересекающиеся подмножества, называемые кластерами, таким образом, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Четкое разделение на кластеры возможно только в идеальных условиях и при сильно различающихся параметрах объектов кластеризации, поэтому для решения реальных задач все чаще применяются нечеткие методы, в которых выполняется разбиение объектов (ситуаций) на частично пересекающиеся подмножества.

Анализ существующих решений и методов показал, что на сегодняшний день нет специализированных или успешно примененных универсальных методов для решения этой задачи [3]. Известно более 100 методов кластеризации [4], поэтому при проведении конкретного практического исследования возникает задача обоснованного выбора наиболее подходящего из них. Еще одна проблема в данной области — оценка качества получаемого результата и выбор количества групп — кластеров, которое является входным параметром для большинства алгоритмов [5]. Таким образом, задача построения эффективной тарифной политики разбивается на две подзадачи: техническую и экономическую. Решение экономической задачи состоит в оценке стоимости внедрения и сопровождения предлагаемых продук-

№1(31)2011

тов, а решением технической задачи становятся сбор и анализ имеющейся информации с помощью одного или совокупности методов фактографического анализа.

Методика адаптивной кластеризации (АОАКЬ)

В связи с тем, что на сегодняшний день отсутствует достаточное количество практических рекомендаций по применению существующих методов в данной предметной области, а методов достаточно много, была разработана методика адаптивной кластеризации, направленная на решение этой

задачи, общая схема которой представлена на рис. 1.

На первом этапе методики производится выборка исходных данных для проведения анализа. Описанная выборка может осуществляться с помощью различных средств: построение регулярных запросов, получение сведений в различных системах оперативного, аналитического учета и т. п.

На втором этапе проводится исследование полученной выборки с целью выявления значимых объектов или их характеристик, которое выполняется на основе существующих методов, например, статистических данных, понижения размерности с помощью

о

I

Результат )

Рис. 1. Структурная схема методики адаптивной кластеризации

-ч ПРИКЛАДНАЯ ИНФОРМАТИКА

№1(31)2011 ' -

факторного анализа, устранения незначащих характеристик посредством корреляционного анализа, выявления дубликатов и противоречий и т. п.

Третий этап включает разработку контрольного примера, который будет исполь-

зован для проверки эффективности метода с привлечением носителей экспертных знаний в исследуемой области.

На четвертом этапе выполняется выбор метода кластерного анализа (рис. 2). Можно использовать существующие методы кпа-

Начало

I

¡8

I

е

и

I

48

0

1

1=

I

со

0 ?

1 8

!

I

I

е

§

I

о £

1

I

I

I

§

I

£ I

Я ¿2

Шаг 1. Выбор метода кластерного анализа

1. На основе существующих рекомендаций по исследованию предметных областей и задач.

2. На основе критериев.

3. Общий алгоритм.

Шаг 2. Настройка параметров выбранного метода кластерного анализа

• объем обучающего • количество кластеров; • способ определения

множества; • алгоритм выполнения расстояния между

• объем валидационного дополнительной кластериза- кластерами;

множества; ции; • метод оценки качества

• объем тестового • пороговое значение кластеризации;

множества; остановки работы • пороговое значение для

• количество атрибутов алгоритма; метода оценки качества

входного набора данных; • способ выбора начальных кластеризации;

• тип атрибутов входного центров; • начальное пороговое

набора данных; • максимальное количество значение алгоритма;

• степень используемости итерации; • процентаномалии

атрибутов входного набора • количество одновременно (выбросов) в полном объеме;

данных обрабатываемых данных; • разделяющая функция;

• количество предваритель- • скорость обучения сети

ных разделов;

• коэффициент удаленности

Характеристические параметры Итерационные параметры Экспертные параметры

Шаг 3. Анализ массива фактографических данных

Кластерный анализ

Оценка полученного разбиения

Аналитическаяоценка Индексоценки! Индексоценки2

Индекс оценки к

Конец

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 2. Алгоритм выбора метода кластерного анализа

№1(31)2011

стеризации или метод адаптивнои кластеризации АОАК1_ (рис. 3), предложенный авторами настоящей статьи.

После выбора метода кластерного анализа осуществляются кластеризация полного объема данных и получение результа-

Фактографические данные

Этап 1. Нормализация значений числовых атрибутов

0

1

I

Конфигурационные параметры алгоритма

Этап 2. Вычисление матрицы взаимных расстояний между объектами

Этап 3. Построение минимального остовного дерева

Этап 4. Разделение объектов на кластеры и построение матрицы нечеткого разбиения

1

Шаг 1. Определение количества кластеров итерации

Шаг 2. Разделение минимального остовного дерева на к кластеров

Шаг 4. Расчет матрицы расстояний от объектов до центров кластеров □¡э1к

Шаг 3. Расч класп ет центров еров

Шаг 5. Нормализация матрицы расстояний □¡э^

Шаг 6. Соотнесение объектов к кластерам в соответствии со степенью удаленности элементов кластера

Шаг 7. Расчет степени

принадлежности элементов к кластеру

Шаг 8. Нормализация матрицы нечеткого разбиения

1

Шаг 9. Вычисление центров полученных кластеров

Шаг 10. Оценка полученного разбиения

Шаг 11. Уменьш клас ение количества теров

Шаг 12. Оценка количества кластеров

Этап 5. Выбор наилучшего разбиения

Фактографические данные, распределенные по кластерам

Рис. 3. Этапы реализации метода АОАК1_

№1(31)2011

та в виде конечного разбиения множества исходных объектов на кластеры.

Выбор метода кластеризации представляет собой циклическую структуру, поэтому по итогам третьего шага производится оценка достижения требуемого уровня качества разбиения. Если этот уровень достигнут, то искомый метод получен. В противном случае необходимо выполнить переход на второй шаг для донастройки выбранного алгоритма или переход на первый шаг для выбора нового метода и продолжения исследования.

После анализа существующих методов и алгоритмов [5] для решения поставленной задачи из инструментов кластеризации были выбраны теория графов и нечеткая логика. Определяющим фактором в такой комбинации является способность при использовании графов выделять кластеры произвольной формы и оптимальной структуры, а при привлечении математического аппарата нечеткой логики решается задача разделения объектов с лингвистическими атрибутами. За основу данного алгоритма в части первичного разделения объектов на кластеры взята идея метода MST [6], использующего минимальные остовные деревья, и метода Fuzzy C-means [7].

На их базе разработан метод ADAKL, в котором применяется оценочная функция разбиения, повышающая качество проводимой кластеризации. Вычисление глобального критерия делает алгоритм кластеризации во много раз более быстродействующим, чем с привлечением локального критерия для парного сравнения объектов.

Совокупность задействованных методов и алгоритмов помогает преодолеть недостатки каждого из них. Для MST применение нечеткости позволяет выполнить более плавное разбиение путем помещения объектов в разные кластеры с различной степенью принадлежности. Для Fuzzy C-means предварительное использование MST и модифицированного критерия оптимальности дает возможность сократить ко-

личество итераций исследования входного набора данных, а следовательно, и снизить временные, человеческие и технические затраты.

Оценка качества в методе АОАК1_ выполняется на основе локального критерия с использованием полученных центров кластеров:

т

т-к2

где к— количество кластеров; т — количество объектов кластеризации; \vik' | — количество элементов в кластере /; цр.. — степень принадлежности /-го объекта ку'-му кластеру;

р — размазанность кластеров;

-Ujj = Metric(Vik',u]) — расстояние от центра кластера /' до элемента и-, Uj е Vf — отражение условия о принадлежности элемента к кластеру.

Для разработанного метода проведена аналитическая оценка сложности, которая показала квадратичную зависимость от количества исследуемых объектов и линейную зависимость от количества атрибутов и кластеров:

а) слинейнойнормализацией: О(т2 -(а + Ь + Lg(т) + д));

б) со статистической нормализацией: О[т2 -(а + Ь + Lg(m2) + g)).

Предложенный метод имеет следующие достоинства:

• двухэтапная кластеризация позволяет выделить большее количество закономерностей;

• способность работать с лингвистическими атрибутами объектов решает проблему применения экспертных оценок и текстовых атрибутов объектов;

№1(31)2011

• использование весовых коэффициентов для анализируемых атрибутов дает возможность не менять результирующий набор данных и работать со всем массивом, варьируя влиянием атрибута на результат анализа;

• учитывая степень удаленности объектов/элементов, можно соотносить объекты по кластерам при разделении на основе вычисленного расстояния;

• размазанность кластера обеспечивает определение четкости получаемых границ кластеров;

• применяемый критерий оценки разбиения на кластеры учитывает требования и специфику предметной области.

Вместе с тем предложенный метод характеризуется квадратичной зависимостью ана-

литической сложности алгоритма от количе- | ства исходных данных по объектам кпасте- != ризации, что существенно увеличивает вре- § менные затраты при регулярном появлении ® новых данных и повторной кластеризации. ^ Частично преодолеть этот недостаток '=§ возможно за счет специальной процедуры докластеризации (рис. 4), которая оп- ё ределяет необходимость повторного запус- Ц ка исследования полного массива данных * и в случае отсутствия признаков появления новых значимых групп объектов осуществляет распределение новых (расширяющих) объектов по имеющимся кластерам. Для расширения исходных данных в процессе проведения анализа нужно произвести дополнительное исследование добавляемых данных.

Набор данных 1

АРАКЬ

Набор данных 2

Докластеризация

Итоговые кластеры 1

Рис. 4. Этапы докластеризации дополнительного набора данных

№1(31)2011

Оценочная функция в этом случае рассчитывается следующим образом:

¿||Л, - Ауд[А][

¿И - Ауд[в]||2

где 01,02 — оценочная функция исходного набора данных 1 и 2 соответственно; А, В — исходные наборы данных 1 и 2 соответственно;

г, о — количество объектов в исходных наборах данных 1 и 2 соответственно; ||/4( - Ауд[/4]|,||в( - Ауд[в]|| — оператор вычисления расстояния между объектом и средним значением множества, полученного с использованием оператора вычисления среднего значения основного алгоритма.

Для оценки работоспособности АОАК1_ в сравнении с другими алгоритмами были проведены три основных и одна дополнительная серии экспериментов:

1) выделение секторов инвестирования с помощью анализа показателей финансовых инструментов;

2) выделение групп клиентов на основе статистических данных о деятельности клиентов за период;

3) выявление категорий финансовых инструментов для оценки эффективности операций;

4) выделение классов автомобилей на основе данных о максимальной скорости, цвете кузова, сопротивлении воздушному потоку, массе.

Исследование проводилось с помощью трех методов:

1) самоорганизующиеся карты Кохоне-

на;

2) алгоритм к-средних;

3) метод АОАК1_.

Полученные результаты с усредненными оценками разбиений приведены в табл. 1.

В соответствии с итоговой оценкой, представленной в таблице, можно сделать вывод, что наилучшее разбиение на исследованных массивах по сериям экспериментов получено с применением разработанного метода АОАК1_. Проведенные эксперименты подтвердили, что использование интеграции методов кластеризации (многоэтапная кластеризация) улучшает качество выявления знаний в сравнении с одноэтапными методами, а также то, что превосходство данного метода достигается за счет привлечения математического аппарата нечеткой логики и внутренних словарей системы при определении информационных расстояний между объектами.

На основе метода АОАК1_ было разработано программное решение, с помощью ко-

Таблица 1

Средневзвешенная оценка разбиений

^чОценка Метод Средневзвешенная оценка разбиения Средневзвешенная оценка разбиения с заданным количеством кластеров (без учета лингвистических атрибутов) Средневзвешенная оценка разбиения с заданным количеством кластеров (с учетом лингвистических атрибутов) Итоговая оценка

Карты Кохонена 0,7913 0,9150 0,9237 0,8767

Алгоритм к-средних — 0,8232 — 0,8232

А0АК1_ 0,9762 0,9981 0,9990 0,9911

№1(31)2011

торого выполнялось выделение групп клиентов и определение доли от их общего количества (рис. 5).

Заключение

Последующий анализ экономических показателей полученных групп объектов позволил дать названия кластерам и разработать целевую, направленную на конкретную клиентскую группу тарифную политику, а также предложить им более выгодные условия по совершаемым видам операций, увеличив количество этих операций и объем комиссионных сборов, что положительно повлияет на доходность данного направления деятельности кредитной организации.

Дополнительная информация о методике адаптивной кластеризации представлена в публикациях [3, 5, 8-11], а также на сайте научно-образовательного кластера CLAIM1.

Описок литературы

1. Прытин Д. Крупнейшие брокеры России. http://rating.rbc.ru.

2. Frawley W. L., Piatetsky-Shapiro G., Matheus С. J. Knowledge discovery in databases: An overview // AI Magazine. 1992. №13(3).

3. Нейский И. M., Филиппович А. Ю. Методика адаптивной кластеризации фактографических данных на основе интеграции алгоритмов MST и Fuzzy C-means // Известия высших учебных заведений. Проблемы полиграфии и издательского дела. М.: Изд-во МГУП, 2009. №3. С. 8-61.

4. Чубукова И. A. Data Mining: учеб. пособие. М.: Интернет-университет информационных технологий; БИНОМ, Лаборатория знаний, 2006.

5. Нейский И. М. Классификация и сравнение методов кластеризации // Интеллектуальные технологии и системы. Сб. учебно-методических работ и статей аспирантов и студентов. Вып. 8. М.: Изд-во ООО «Элике +», 2008. С. 111-122.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Speer N., Merz P., Spieth С., Zell A. Clustering Gene Expression Data with Memetic Algorithms based on Minimum Spanning Trees // Uni-

1 http://philippovich.ru.

\ Кластер 2

\ Спекулянты 47%

Рис. 5. Распределение клиентов по группам

versity of Tubingen, Center for Bioinformatics. fs.informatik.uni-tuebingen.de.

7. Штовба С. Д. Введение в теорию нечетких множеств и нечеткую логику, matlab.exponenta.ru.

8. Нейский И. М. Характеристика технологий и процессов интеллектуального анализа данных // Интеллектуальные технологии и системы. Сб. учебно-методических работ и статей аспирантов и студентов. Вып. 7. М.: Изд-во ООО «Эликс+», 2006. С. 111-122.

9. Нейский И. М., Филиппович А. Ю. Интеграция ди-визимных и итерационных методов для адаптивной кластеризации фактографических данных// Труды XVI Всероссийской научно-методической конференции «Телематика 2009». Секция: Технологии распределенных вычислений и компьютерного моделирования в образовании и науке. СПб. Т. 2. С. 413-414.

10. Нейский И. М. Адаптивная кластеризация на основе дивизимных и итерационных методов // Сб. трудов третьей международной научно-практической конференции «Информационные технологии в образовании, науке и производстве»/ Под ред. Ю. А. Романенко, 2009. С. 172-175.

11. Нейский И. М. Докластеризация как способ оптимизации времени анализа исходных данных // Научная школа для молодых ученых «Компьютерная графика и математическое моделирование (Visual Computing)»: тезисы и доклады. М., 2009. С. 141-161.

i Надоели баннеры? Вы всегда можете отключить рекламу.