Научная статья на тему 'Применение метода анализа иерархий соместно с алгоритмом кластеризации в обрабоке данных социологических исследований'

Применение метода анализа иерархий соместно с алгоритмом кластеризации в обрабоке данных социологических исследований Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
278
38
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОД АНАЛИЗА ИЕРАРХИЙ / МАИ / КЛАСТЕРИЗАЦИЯ / ТАКСОНОМИЯ / ANALYTIC HIERARCHY PROCESS / CLUSTERING / TAXONOMY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мироненко А.Н.

В работе рассматривается возможность применения известного в математике метода анализа иерархий совместно с алгоритмом кластеризации FOREL для классификации субъектов. Смысл объединения заключается в том, что, применяя метод анализа иерархий, а именно принятия решений в условиях определённости, мы подготавливаем данные для дальнейшей работы с ними, а алгоритмом кластеризации (таксономии) происходит их непосредственная обработка. Работу предлагаемого подхода можно условно разделить на два этапа: этап обучения и этап работы. Было проведено компьютерное моделирование, проверяющее состоятельность предлагаемого подхода.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Мироненко А.Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Applying the Analytic Hierarchy Process in Conjunction with Clustering Algorithm to Classify Different Subjects

This paper examines the possibility of applying the analytic hierarchy process, known in mathematics, in conjunction with the FOREL clustering algorithm to classify different subjects. By term “conjunction” we mean a process when the analytic hierarchy process (namely decision making under certainty) is used for preparation of data for further work with them, and the clustering algorithm (taxonomy) is used for direct processing of the data. The proposed approach can be divided into two stages: the training stage and the work stage. We carried out a computer simulation which verifies validity of the proposed approach.

Текст научной работы на тему «Применение метода анализа иерархий соместно с алгоритмом кластеризации в обрабоке данных социологических исследований»

структуры и моделирование 2016. №4(40). С. 90-95

УДК 004.912

ПРИМЕНЕНИЕ МЕТОДА АНАЛИЗА ИЕРАРХИЙ СОМЕСТНО С АЛГОРИТМОМ КЛАСТЕРИЗАЦИИ В ОБРАБОКЕ ДАННЫХ СОЦИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ

А.Н. Мироненко

к.т.н., доцент, e-mail: mironim84@mail.ru

Омский государственный университет им. Ф.М. Достоевского

Аннотация. В работе рассматривается возможность применения известного в математике метода анализа иерархий совместно с алгоритмом кластеризации FOREL для классификации субъектов. Смысл объединения заключается в том, что, применяя метод анализа иерархий, а именно принятия решений в условиях определённости, мы подготавливаем данные для дальнейшей работы с ними, а алгоритмом кластеризации (таксономии) происходит их непосредственная обработка. Работу предлагаемого подхода можно условно разделить на два этапа: этап обучения и этап работы. Было проведено компьютерное моделирование, проверяющее состоятельность предлагаемого подхода.

Ключевые слова: метод анализа иерархий, МАИ, кластеризация, таксономия.

Введение

В работе предлагается исследовать возможность применения теории игр, а именно метода анализа иерархий, с целью подготовки данных для их последующей кластеризации одним из существующих алгоритмов.

В статье [1] рассматриваются возможности метода анализа иерархий, способы его применения и их особенности. Одним из важных элементов метода анализа иерархий являются матрицы попарных сравнений (pairwise comparison matrices). В статье [2] автором описывается процесс их построения и нормализации. В работе [3] проводится исследование проблемы реверса рангов (rank reversal), т.е. изменения ранжирования альтернатив выбора при их удалении или добавлении, даётся математическое описание данной проблемы и приводится доказательство её существования.

Кластерный анализ достаточно подробно был рассмотрен в статье [4]. Автор рассматривает различные методы кластеризации, а также отмечает важную роль выбора координат центра таксонов и критерия схожести (расстояние от центра таксона до точек, которые будут считаться принадлежащими таксону).

Кроме того, показывается, насколько результат кластеризации чувствителен к выбору функции расстояния, использующейся для определения близости точек.

Идея объединения кластеризации и других математических методов рассмотрена в статье [5]. В ней также исследуется возможность совместного применения метода главных компонент, иерархической кластеризации и строгой кластеризации (Principal component methods — hierarchical clustering — partitional clustering) с целью лучшей визуализации данных. Метод главных компонент применяется для предварительной обработки, а методы иерархической и строгой кластеризации — для представления данных.

1. Постановка задачи

Актуальность повышения качества, поиска новых методов и методологий социологического исследования не вызывает сомнения. Наиболее востребованным является поиск возможных применений методов математического моделирования и информационных технологий для сбора и анализа данных.

В рамках социологических исследований и дальнейшей обработки данных решается задача отнесения субъекта к той или иной группе. Кроме того, может решаться и другая задача — выделение нетипичных субъектов, то есть тех, которые нельзя отнести ни к одной из групп. Данная задача называется одно-классовой классификацией, обнаружением нетипичностей или новизны (novelty detection) [6].

С целью поиска новых методов и подходов к социологическим исследованиям, а именно с целью решения задачи классификации субъектов и обнаружения нетипичностей, предлагается объединить хорошо изученный в математике метода анализа иерархий (МАИ) с одним из алгоритмов кластерного анализа и исследовать результаты данного объединения на практике.

2. Теория

Применение МАИ совместно с алгоритмом кластеризации для классификации субъектов можно условно разделить на два этапа: этап подготовки данных (алгоритм формирования групп) и непосредственно сама классификация (алгоритм определения принадлежности субъекта к группе).

Для решения задачи классификации субъектов предлагается использовать алгоритм кластеризации FOREL. Алгоритм работает с точками на n-мерном пространстве, т.е. нам необходимо представить субъекты, которые мы хотим классифицировать в виде точек с n-координатами.

Прежде чем приступить к классификации, необходимо подготовить данные для работы с ними. Для этого используется МАИ. Перед субъектом ставится задача с определёнными критериями выбора и альтернативами её решения. Затем выполняется следующий алгоритм.

Алгоритм формирования групп:

1. Субъект для каждого из критериев указывает его важность относительно других;

2. Вычисляются относительные веса критериев;

3. Субъект указывает, насколько каждая из альтернатив предпочтительнее других в пределах каждого критерия;

4. Вычисляются относительные веса альтернативных решений;

5. Вычисляются комбинаторные весовые коэффициенты для каждого из решений;

6. Используя полученные весовые коэффициенты как координаты, получаем точку в п-мерном пространстве;

7. Повторяем шаги с 1 по 6 для всех субъектов;

8. Для полученного множества точек при помощи алгоритма FOREL решается задача кластеризации;

9. Для каждого таксона определяются координаты центра масс;

10. Таксоны упорядочиваются по величине й=У/Х, где X и У — координаты центра масс таксона.

После формирования таксонов проводится анализ каждого из них с целью определить, какую группу субъектов он характеризует. Определяется, какое количество субъектов того или иного класса попало в тот или иной таксон в процентном соотношении от общего числа субъектов.

Алгоритм определения принадлежности субъекта к группе:

1. Перед новым субъектом, который мы хотим классифицировать, ставится задача с определёнными критериями выбора и альтернативами её решения.

2. Субъект выполняет шаги 1-6 алгоритма формирования данных для последующей классификации

3. Определяется принадлежность субъекта (п-мерной точки) к одному из таксонов.

3. Результаты эксперемента

Для проверки состоятельности предлагаемого метода был проведён эксперимент. Целью эксперимента является определение субъекта к группе людей с техническим складом ума или же с гуманитарным. Для этого было подготовлено три различных анкеты, в которых перед анкетируемыми ставится задача с некоторыми критериями выбора и альтернативами её решения. Всего в анкетировании приняло участие более 115 студентов различных факультетов ОмГУ им. Ф.М. Достоевского.

Затем выполнялись шаги алгоритма формирования групп.

В результате проведения данного этапа эксперимента были получены следующие кластеризации с различным количеством таксонов, например, рис. 1.

На рис. 1 слева представлена кластеризация с параметром критерия схожести 0.2, справа — с параметром 0.7. Так как нам необходимо получить 2 таксона, мы экспериментально подбираем параметры, при которых получим нужную нам кластеризацию. Для нашего эксперимента критерий схожести равен 0.2. На рис. 1 таксономия представлена слева.

Рис. 1. Пример кластеризации

Уже на данном этапе проведения эксперимента можно видеть, что таксоны располагаются очень близко, при этом получается, что один экземпляр может одновременно попадать в несколько разных таксонов, что не желательно в связи с тем, что усложняет процедуру определения принадлежности к той или иной группе, которой соответствует таксон.

4. Обсуждение результатов

В результате эксперимента возникли некоторые сложности, связанные с тем, что при выборе критерия схожести, который бы давал нужную нам кластеризацию, мы получили очень близко расположенные таксоны, что существенно затрудняет классификацию новых объектов в силу того, что не удалось получить чётко сформированные группы. Это может быть связано с неудачным выбором алгоритма кластеризации, так как алгоритм FOREL, как правило, применяется в случаях, когда число таксонов, на которые необходимо осуществить разбиение выборки, заранее не известно. В нашем эксперименте число таксонов было известно, и чтобы получить необходимое количество, пришлось изменять критерии схожести, что в свою очередь могло негативно сказаться на результатах эксперимента.

При этом в результате эксперимента подтвердилось предположение о возможном применении МАИ и алгоритма кластеризации, то есть, возможность применять МАИ для подготовки данных с целью их последующей кластеризации.

Выводы и заключение

В работе был предложен метод совместного применения метода анализа иерархий (принятие решения в условиях определённости) и кластерного анализа. Был проведён эксперимент, позволяющий проверить возможность такого объединения.

Эксперимент показал, что такое применение возможно, но требует дополнительного исследования. Необходимо выбрать более удачный алгоритм кластеризации в случае, когда нам необходимо получить классификацию субъектов по чётко определённым группам и выявить принадлежность нового субъекта к той или иной группе.

В случае, когда количество групп, по которым необходимо осуществить классификацию, нам неизвестно, применение метода возможно с алгоритмом FOREL, но необходимо дополнительное исследование каждой из групп для определения, какие объекты она содержит. В этом случае можно решать задачу обнаружения нетипичностей, определять объекты, которые невозможно отнести ни к какой группе.

Литература

1. Thomas L. Saaty Decision making with the Analytic Hierarchy Process // International Journal of Services Sciences. 01/2008. N. 1(01). P. 83-98.

2. Farkas A. The Analysis of the Principal Eigenvector of Pairwise Comparison Matrices // Acta Polytechnica Hungarica. 2007. V. 4, Issue 2.

3. Недашковская Н.И. Метод анализа иерархий в методологии сценарного анализа решения задач предвидения // Восточно-Европейский журнал передовых технологий. 2010. № 9(46), Т. 4.

4. Cluster Analysis. URL: https://www.qualtrics.com/wp-content/uploads/ 2013/05/Cluster-Analysis.pdf (дата обращения: 10.05.2016).

5. Husson F., Josse J., Pages J. Principal component methods — hierarchical clustering — partitional clustering: why would we need to choose for visualizing data? // Technical Report — Agrocampus. 09/2010.

6. Метод одноклассовой классификации интервальных данных с использованием треугольного ядра, основанный на теории Демстера-Шефера // Официальный сайт Санкт-Петербургского государственного лесотехнического университета им. С.М. Кирова URL: http://spbftu.ru/UserFiles/Image/izvesti/ 22-210.pdf (дата обращения: 10.05.2016).

APPLYING THE ANALYTIC HIERARCHY PROCESS IN CONJUNCTION WITH CLUSTERING ALGORITHM TO CLASSIFY DIFFERENT SUBJECTS

A.N. Mironenko

Ph.D.(Eng.), Associate Professor, e-mail: mironim84@mail.ru

Dostoevsky Omsk State University

Abstract. This paper examines the possibility of applying the analytic hierarchy process, known in mathematics, in conjunction with the FOREL clustering algorithm to classify different subjects. By term "conjunction" we mean a process when the analytic hierarchy process (namely decision making under certainty) is used for preparation of data for further work with them, and the clustering algorithm (taxonomy) is used for direct processing of the data. The proposed approach can be divided into two stages: the training stage and the work stage. We carried out a computer simulation which verifies validity of the proposed approach.

Keywords: analytic hierarchy process, clustering, taxonomy.

Дата поступления в редакцию: 09.10.2016

i Надоели баннеры? Вы всегда можете отключить рекламу.