Научная статья на тему 'Кластерный анализ и его применение'

Кластерный анализ и его применение Текст научной статьи по специальности «Математика»

CC BY
3178
479
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Кластерный анализ и его применение»

3. Оре О. Графы и их применение. М.: Мир.

1965. 174 с.

4. Сворень Р. Цветное ТВ: столпотворение стандартов // Наука и жизнь. 1990. № 5. С. 33-36.

Д.Ю. КУЗНЕЦОВ, Т.Л. ТРОШИНА

Кластерный анализ и его применение

Исследователь часто стоит перед лицом огромной массы индивидуальных наблюдений. Возникает задача сведения множества характеристик к небольшому ряду обобщающих итогов, выражающему действительно существенное для явления. Но пока каждый вовлеченный в анализ признак остается отдельным самостоятельным элементом со своими характеристиками, число параметров, выражающих результаты обработки, не поддается уменьшению. Единственный путь к нему - либо в отсечении большинства признаков и возвращении к малоразмерным классическим задачам, либо в объединении признаков, в замене целых «гроздей» их одним, искусственно построенным на их основе. Так и появилось направление - «многомерный анализ».

В многомерном статистическом анализе образовались разделы, которые не изолированы, а проникают, переходят один в другой. Это кластерный анализ, метод главных компонент, факторный анализ. Наиболее ярко отражают черты многомерного анализа в классификации объектов кластерный анализ, а в исследовании связей - факторный анализ.

Кластерный анализ - это способ группировки многомерных объектов, основанный на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек (кластеров, таксонов). «Кластер» (cluster) в английском языке означает «сгусток», «гроздь винограда», «скопление звезд» и т.д. Данный метод исследования получил развитие в последние годы в связи с возможностью компьютерной обработки больших баз данных.

Кластерный анализ предполагает выделение компактных, удаленных друг от друга групп объектов, отыскивает «естественное» разбиение совокупности на области скопления объектов. Он используется, когда исходные данные представлены в виде матриц близости или расстояний между объектами либо в виде точек в многомерном пространстве.

Наиболее распространены данные второго вида, для которых кластерный анализ ориентирован на выделение некоторых геометрически удаленных групп, внутри которых объекты близки.

Выбор расстояния между объектами является узловым моментом исследования, от него во многом зависит окончательный вариант разбиения объектов на классы при данном алгоритме разбиения.

Существует большое количество алгоритмов кластерного анализа, их можно разделить по способу построения кластеров на 2 типа: эталонные и неэталонные. В процедурах эталонного типа на множестве объектов задается несколько исходных зон, с которых начинает работу алгоритм. Эталоны могут представлять собой первоначальное разбиение на классы, центр тяжести класса и др. После задания эталонов алгоритм производит классификацию, иногда меняя определенным способом эталоны.

К алгоритмам кластеризации, работающим по иному принципу, относятся иерархические алгоритмы кластерного анализа, процедура разрезания и др. Задача кластерного анализа

Пусть множество 1={11,12,...ДП} обозначает п объектов. Результат измерения >й характеристики I объекта обозначают символом Хщ, а вектор Х^[х^] отвечает каждому ряду измерений (для _)-го объекта). Таким образом, для множества I объектов исследователь располагает множеством векторов измерений Х={Х1, Х2,...,Хп}, которые описывают множество I. Множество Х может быть представлено как п точек в р-мерном евклидовом пространстве Ер.

Пусть т - целое число, меньшее чем п. Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов I на т кластеров (подмножеств) льл2,..., пт так, чтобы каждый объект I принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие разным кластерам, были разнородными (несходными).

Решением задачи кластерного анализа является разбиение, удовлетворяющее некоторому условию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий уровни желательности различных разбиений и группировок.

Этот функционал часто называют целевой функцией. Задачей кластерного анализа является задача оптимизации, т.е. нахождение минимума целевой функции при некотором заданном наборе ограничений. Примером целевой функции может служить, в частности, сумма квадратов внутригрупповых отклонений по всем кластерам. Основные понятия кластерного анализа

N измерений Хь Х2,...,ХП могут быть представлены в виде матрицы

Х=[ХЬ Х2,.,Хп]= Хц Х12 ... Х1

42

4N

X

21

X

22

X

2 N

X

Xn1 Xn2 ••• XnN.

Аналогичным образом расстояния между парами векторов d(X^Xj) могут быть представлены в виде матрицы расстояний:

О di2 ••• din

X

Д=

d

21

О

d

dn1 dn

2n

О

zi =

X - X

а

X

z4 =

X

, z2 = 3, z3 = X

X - X

X

X - X ■

max min

1 ^12 ^ 21 1

^1n

^ 2n

1

, цц=0 для i=1,2,...,n

_Мп1 Мп2 ••

Величину ц^ называют коэффициентом близости. Примером линейной близости является коэффициент корреляции.

Рассмотрим основные способы определения расстояний между объектами.

Метрики для количественных шкал (расстояние).

а) Линейное расстояние N

ОД,Х0= 21 Хц - |; к=1

б) евклидово расстояние

d(Xj,Xi)=

Ё(Xki- Xkj)2

k=1

1/2

в) обобщенное степенное расстояние Минковского (универсальная метрика)

-|1/p

d(Xj,Xi)=

п1 п2 4=0 для 1=1,2,...,п.

Если признаки измерены в разных единицах измерения, то определить расстояние между объектами нельзя. Тогда применяется нормировка показателей, переводящая их в безразмерные величины. Наиболее распространенные способы нормирования следующие:

N

Ё (Xki -

Xkj ) Р

k=1

Понятием, противоположным понятию расстояния между объектами Х; и Хь является понятие близости (сходства) между Х; и Xj• Точнее, мера близости между объектами Х; и Xj - это вещественная функция ц(Х;^)=Цц со свойствами:

0<ц(Хъ^)<1 для Х^;

Ц(Х;,Х;)=1;

Пары значений мер близости можно объединить в матрицу близости:

Метрики для качественных шкал (мера близости).

К качественным шкалам относят:

а) номинальную шкалу (или шкалу наименований). Примеры измерения: пол (мужчина, женщина), национальность (француз, итальянец, немец), профессия (учитель, врач, бухгалтер) и др.;

б) порядковую шкалу (или ранговую, ординарную). Примеры измерения: экспертные ранжировки, оценки предпочтений, шкала твердости минералов и др.

Расстояние для номинальных шкал вводится следующим образом. Пусть имеются два объекта X и У с N признаками. Введем координаты х; и у; (1=1,2,...,№) как логические переменные, принимающие значение 1, если объект обладает 1-м признаком, и 0, если признак с номером 1 у объекта отсутствует.

Выбор конкретного измерителя близости объектов Х и У должен осуществляться из содержательных соображений: если предполагается значимость совпадения единичных и нулевых свойств, то применяют расстояние Хемминга - отношение количества совпадающих значений к числу всех значений N. Если же важно наличие свойства, а не его отсутствие, то применяют коэффициенты Рао

или Роджерса-Танимото, в которых учитываются только совпадающие единичные значения, а совпадающие нулевые игнорируются.

Матрицы расстояний А или близостей ц нередко задаются непосредственно либо как таблицы экспертных оценок близости, либо как матрицы прямых измерений сходства, например, матрицы межотраслевого баланса, степеней соседства географических регионов, взаимной цитируемости авторов и т. д.

Рассмотрим возможные способы точного определения кластеров.

Класс типа сгущения (класс типа ядра): все расстояния между объектами внутри класса меньше любого расстояния между объектами класса и остальной частью множества.

Класс с центром: класс называется

классом с центром, если существует порог

*

т>0 и некоторая точка щ в пространстве, занимаемом объектами кластера со свойствами:

если * < т , то х,е8ь щ

если * > т , то х.^ь щ

*

Точка щ называется центром класса.

*

Часто в качестве щ рассматривается центр

тяжести, то есть координаты центра определяются как средние значения признаков у объектов класса.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Далее пусть Х={ХЬ Х2,...,Хщ } - множество измерений, произведенных над множеством объектов 1={1ь 12, - Л щ }, а У={УЬ У2, . ,У ^2 } - множество измерений, соответствующее множеству 1={.Ть -Ь,. . }.

ппо — — т — —

Величину Б= 1 2 (X - У)Т (X - У) ,

П, X,

Щ + П2

П2 у,

где X = ^ —-, У = ^ —=- называют рас-,=1 П1 ,=1 П2 стоянием между кластерами I и I. Формула вычисления расстояния между кластерами используется как один из параметров в алгоритмах кластерного анализа.

В настоящее время процедуры эталонного типа применимы для решения многих задач классификации, алгоритмы быстры и удобны в вычислительном отношении, их результаты наглядно представимы в диаграммах

и графиках. Для проведения эталонной классификации необходимо выбрать метод первичного задания эталонных множеств и способ корректировки классов и стабилизации в целом, задать значения параметров алгоритма кластеризации.

Иерархические алгоритмы кластерного анализа могут быть двух типов - агломера-тивные и дивизионные. В агломеративных процедурах начальным является разбиение, состоящее из п одноэлементных классов, а конечным - из одного класса, в дивизионных - наоборот. Принцип работы иерархических агломеративных (дивизионных) алгоритмов состоит в последовательном объединении (разделении) групп элементов, т.е. в создании иерархической структуры классов. Обычно такая классификация представляется в виде дендограммы - графика, отражающего последовательное объединение двух кластеров в один с указанием расстояний между ними.

В качестве частного примера рассмотрим результаты кластерного анализа, проведенного с использованием статистического пакета "81ай8йса". Анализировались результаты тестирования (тест Амтхауэра на определение интеллектуального уровня, состоящий из 9 субтестов) и экспертная оценка успеваемости студентов ЯГПУ. Данные предварительно нормировались. При анализе определялся метод анализа, вид формулы для расстояния (евклидово) и количество кластеров (3) в эталонном алгоритме. Средние значения субтестов и экспертной оценки успеваемости (БХР08Я) для каждого кластера представлены на рис.1 (все курсы) и рис.2 (3 курс).

Их анализ наглядно демонстрирует, например, что если в целом студенты с низкой экспертной оценкой успеваемости имеют и более низкие показатели Щ, то высокие показатели Щ не столь однозначно связаны с успеваемостью - ситуация меняется от курса к курсу, и, например, на 3 курсе более успешной оказывается группа со средними значениями Щ. В качестве примера выполнения иерархического агломеративного алгоритма приведем дендограмму тех же показателей, отражающую структуру связей между субтестами и успеваемостью на исследуемой выборке (рис.3).

2,0

1,5 1,0

£>•— ------о—... ...--о--...

0,5 0,0 -0,5 Т

й" -и "'■•■б -'■о.

N — 1 ]

-1,0 -1,5 -2,0

БХРОЭК ДЭ1 ДЭ2 ДЭ4 ДЭЭ ДЭ5 Переменные Двв Двв ДЭ7 ДвЭ -□ - —о— Кластер 1 Кластер 2 Кластер Э

Рис.1

Рис.2

Рис.3

Библиографический список

1. Дюран Б., Оделл П. Кластерный анализ. М.: Статистика, 1977. 128 с.

2. Жамбю М. Иерархический кластер-анализ и соответствия. М.: Финансы и статистика, 1988. 342 с.

3. Мандель И. Д. Кластерный анализ. М.: Финансы и статистика, 1988. 176 с.

И.Е. МАЛОВА

Сущность и уровни методической компетентности учителя математики

Компетентность определяют как степень овладения некоторой деятельностью. Профессиональная деятельность учителя математики - это, прежде всего, педагогическая деятельность, связанная с освоением математики учащимися (такую деятельность называют методической). Таким образом, от выбора подхода к понятию педагогической деятельности зависит сущность методической деятельности, а, значит, и методической компетентности.

Нам удалось выделить четыре подхода к понятию "педагогическая деятельность учителя". Педагогическая деятельность учителя рассматривается как совокупность определенных действий (В.В. Краевский, И.Я. Лер-нер, Е.И. Лященко, М.Н. Скаткин, Н.Л. Сте-фанова и др.); строится на основе понятия управленческой деятельности (Ю.К. Бабан-ский, С.Ф. Петрушкин и др.); определяется как процесс решения педагогических задач (И.Ф. Исаев, Н.В. Кузьмина, В.А. Сластенин, Е.Э. Смирнова, А.И. Уман, Е.Н. Шиянов и др.); раскрывается как деятельность по орга-

низации педагогического процесса (И.А. Зимняя, Г.Е. Сенькина). И тогда методической компетентностью учителя математики будет называться определенная степень овладения методическими умениями, отраженными в профессиограмме учителя (при первом подходе); управленческими умениями (при втором подходе); приемами и способами решения методических задач (при третьем подходе); организацией педагогического процесса, обеспечивающего освоение математики учащимися (при четвертом подходе).

Мы придерживаемся четвертого подхода, поскольку в нем выделен объект деятельности учителя - педагогический процесс, что позволяет целостно и образно представить методическую деятельность учителя, выделить, опираясь на структурные элементы процесса обучения и этапы его развития, объекты методической деятельности учителя различных уровней, ее функции и виды.

Объектом первого уровня является некоторый математический объект, с которым учащиеся выполняют учебно-познавательную деятельность. Нельзя ли выделить такие объекты математики, организация овладения которыми обеспечит успешность всего обучения математике? Данная постановка вопроса приводит к необходимости выделения структурных составляющих математики. Ее структурными элементами являются математические понятия, алгоритмы, теоремы, задачи (их еще называют дидактическими единицами математики), а также ее содержательные линии. От того, насколько методически грамотно учитель организует педагогический процесс, связанный с освоением учащимися перечис-

i Надоели баннеры? Вы всегда можете отключить рекламу.