Петрунин Ю.Ю.*
КЛАССИФИКАЦИЯ ПРИ ОГРАНИЧЕННОЙ ИНФОРМАЦИИ: МИКРОАНАЛИЗ ДАННЫХ
Быть может, эти электроны -Миры, где пять материков, Искусства, знанья, войны, троны И память сорока веков!
Валерий Брюсов
Постановка проблемы
Классификация является традиционным и весьма полезным инструментом анализа данных в различных областях науки и практики: социологии, маркетинге, политической науке, экономике, государственном управлении. Разбиение объектов на классы, или кластеры, дает более глубокое и адекватное реальности понимание происходящих процессов в той или иной области. Кроме того, оно может быть подготовительным этапом исследования, делающим возможным использования других, более содержательных методов. Например, разбив предварительно объекты на классы, мы можем лучше проследить степень и характер зависимостей между свойствами объектов, которые различаются для каждой из полученных групп.
Обычно само собой разумеющимся представляется, что чем лучше и по большим свойствам описаны изучаемые объекты, тем проще провести классификацию, или кластерный анализ1, тем интереснее и перспективней его результаты. Конечно, это не всегда так. Как говорит известная поговорка, если собрать вместе 9 беременных женщин, они не родят через месяц. То же самое часто наблюдается и с огромными массивами информации, которые могут не прояснить, а только запутать ситуацию. Само по себе наличие многих переменных, описывающих объекты, не влечет автоматически к лучшим результатам.
В данной статье обращается внимание на другой момент кластерного анализа. К сожалению, существует достаточно много ситуаций, когда мы вынуждены проводить его при достаточно бедной информационной базе. Иными словами, мы можем часто наблюдать картину, когда множество объектов описываются всего по двум, а то и по одному свойству (переменной). Можно ли в таком случае проводить кластерный анализ? Как это делать? Полезен ли он? Какие другие методы анализа данных в таких случаях можно применять или какие он может дополнить и уточнить? В статье делается попытка ответить на эти вопросы.
Изложение сути метода
Если мы имеем при решении некоторой практической задачи описание объектов только по одной переменной, то задача кластерного анализа кажется тривиальной. Разделить, например, супермаркеты по объемам продаж не представляет никакого труда: богатые, средние, бедные. Вопрос стоит только в том, на сколько именно классов это лучше сделать. Имеющиеся данные могут подсказать нам наилучшее количество
* Петрунин Юрий Юрьевич - доктор философских наук, управления МГУ им. М.В. Ломоносова
1В данной статье эти термины рассматриваются как синонимы,
профессор факультета государственного но, вообще говоря, это не всегда так.
кластеров: разместив на шкале доходов каждое наблюдение, мы можем увидеть несколько скоплений, между которыми есть зоны относительной разреженности. При этом, правда, могут возникнуть две проблемы: во-первых, как это часто бывает с эмпирическими данными, они расположены так, что никаких разреженностей не наблюдается, а, во-вторых, если они все-таки есть, то оказывается затруднительным интерпретировать каждое скопление-кластер. Как, скажем, назвать (а значит и понять) каждую из 7 (или большего количества) групп супермаркетов по объемам продаж?
Все-таки, несмотря на эти возможные затруднения, кластерный анализ для одной переменной не представляет труда. Однако он очень мало информативен. Грубо говоря, мы можем сказать только, где торговля идет бойче. Полезная информация, но бедная. Хорошо бы к единственной переменной добавить еще 2-3-4 для более глубоких и содержательных выводов. Допустим, торговую площадь. Тогда можно распределить магазины не только по объему выручки, но и по эффективности использования торговых площадей. Добавив к этим переменным ассортимент продукции, можно получить еще более сложные кластеры, посмотрев, какие магазины похожи друг на друга, какие и чем отличаются, различить действительно эффективные организации от псевдоэффективных.
Но часто мы ограничены либо временем, либо сложностью и дороговизной для получения дополнительной информации. В некоторых случаях, тем не менее, мы можем воспользоваться и одной переменной для получения весьма нетривиальных результатов кластеризации. Условием возможности для этого является ситуация, когда единственная переменная есть агрегированная переменная, то есть ее значение - не результат непосредственного измерения, а результат вычисления над массивом первичных данных.
Так, например, когда мы говорим об объемах продаж различных магазинов, речь идет не о единичных значениях, а об обобщенных показателях: или о суммарных объемах за некоторый промежуток времени, или о средних объемах продаж в некоторый промежуток времени. Последнее предпочтительней в том смысле, что сведения из разных супермаркетов, вообще говоря, могут не совпадать по временному отрезку. Среднее значение показывает типичный уровень продаж, который мы можем сравнивать для разных торговых организаций. Переменная «средний уровень продаж» позволит нам легко упорядочить все супермаркеты.
Однако хорошо известно, что среднее значение может вводить в заблуждение и искажать действительное положение дел. Для решения этой проблемы в статистическом анализе имеется богатый инструментарий. При распределении, близком к нормальному, среднее арифметическое адекватно описывает типичное значение для имеющихся данных. При асимметрии в распределении целесообразнее использовать медиану. Кроме того, при описании данных важное значение имеет мера разброса данных вокруг среднего. Наиболее часто для характеристики разброса данных используется стандартное отклонение. Одним словом, при описании данных необходимо использовать не только среднее значение, но и дополнительные дескриптивные статистики. Все они относятся к одной и той же переменной, но выделяют ее различные аспекты, только в совокупности характеризующие данные.
Таким образом, имея только одну переменную, можно выделить из нее несколько характеристик (параметров), например среднее значение, стандартное отклонение и асимметрию и, как бы «расщепив» переменную на несколько, провести своего рода микроанализ. Для кластерного анализа это дает достаточно много. Если остановится только на среднем значении некоторой переменной (группы наблюдений), то у нас, если вернуться к упоминаемому примеру, в один класс могли бы попасть магазины, существенно различающиеся по типу продаж. В один класс, например, могли бы
попасть супермаркеты, которые регулярно обеспечивают неплохой уровень продаж товара, и те, в которых в течение рабочей недели наблюдается низкий уровень продаж, но за счет большой активности воскресной торговли достигают тех же цифр среднего объемов продаж. Разумеется, для менеджмента такая картина затушевывает действительные различия магазинов и дает либо очень мало информации для принятия решений, либо, что еще хуже, дает ошибочную информацию.
Использование в данном случае кроме средних значений стандартного отклонения и асимметрии более адекватно отражает похожесть и различие изучаемых объектов и дает возможность провести более эффективный кластерный анализ. Рассмотрим конкретные примеры такого подхода в разных областях.
Политическая карта Греции
В последнее время в политической науке стало популярным создавать «карты выборов», которые показывают политические пристрастия различных регионов по результатам выборов. Еще на слуху выражение «красный пояс», которым обозначили группу областей вокруг Москвы, преимущественно придерживающихся коммунистической ориентации. Для того чтобы избежать ангажированности, рассмотрим нейтральный случай - результаты парламентских выборов в Греции в 1990-е годы2.
В течении последнего десятилетия XX века парламентские выборы проводились в этой стране в 1990, 1993 и 1996 гг. Таблица 1 демонстрирует колебания «политического маятника» на протяжении этого времени. Цифра показывают разницу (в процентах) между проголосовавшими за правые или правоцентристские партии и проголосовавшими за левые или левоцентристские партии. Таким образом, положительный индекс показывает преобладающее влияние правых сил в регионе, а отрицательный - левых.
Таблица 1. Индекс политических симпатий населения в Греции по результатам
парламентских выборов в 1990-е гг.
Округа 1990 1993 1996
Вост.Македония-Фракия
Эврос 8,09 1,93 -0,37
Родопи 5,52 -1,82 -26,25
Ксанфи 11,15 1,54 6,49
Драма 8,02 2,00 0,21
Кавала 0,93 -5,32 -9,16
Центр.Македония
Фессалоники 1 -1,14 -8,32 -17,83
Фессалоники 2 1,12 -4,73 -7,75
Серрес 10,45 3,75 3,14
Халкидика 7,10 0,40 -2,55
Килкис 5,50 1,53 -0,22
Пела 0,26 -7,19 -8,07
Имафия -4,51 -12,77 -16,48
Пиерия 3,38 -4,60 -8,14
Зап.Македония
2 Материал представлен в книге: Петрунина О.Е. Политическая система современной Греции. М., 1999.
Флорина 7,15 3,87 -5,45
Козани 3,95 -4,34 -8,18
Касторья 24,10 18,91 8,04
Гревена -9,56 -13,68 -22,31
Эпир
Янина -6,12 -13,81 -19,08
Арта 5,24 -5,57 -8,41
Феспротия -3,38 -10,67 -18,48
Превеза -1,47 -8,15 -11,19
Фессалия
Лариса -6,87 -11,85 -15,76
Магнисия -5,98 -12,48 -13,85
Трикала -7,25 -14,11 -15,69
Кардица -1,87 -6,85 -8,90
Центр.Греция
Фтиотида 4,93 -3,88 -8,48
Эвритания 6,92 0,01 -5,37
Фокида 9,21 3,22 -2,63
Беотия -5,25 -16,90 -19,77
Эвбея -6,40 -16,52 -19,16
Ионические о-ва
Керкира -13,85 -22,01 -21,20
Левкада -5,88 -15,54 -24,27
Кефаллиния -3,99 -18,91 -27,87
Закинф -6,83 -19,62 -19,93
Зап.Греция
Этолоакарнания -1,34 -10,36 -14,80
Ахайя -11,77 -22,81 -24,41
Элея -4,83 -15,41 -15,75
Аттика
Афины 1 7,87 -0,27 -13,59
Афины 2 -10,19 -17,77 -26,95
Пирей 1 2,91 -6,11 -14,30
Пирей 2 -21,27 -29,78 -33,66
ост. Аттика 1,94 -7,52 -14,58
Пелопоннес
Коринфия 5,23 -3,55 -8,94
Арголида 10,14 3,96 0,22
Аркадия 4,56 -3,32 -9,47
Мессения 11,54 6,99 3,50
Лакония 24,48 19,21 14,54
Сев.Эгейский бассейн
Лесбос -20,57 -25,49 -30,27
Хиос -3,18 -12,66 -16,43
Самос -8,84 -20,76 -21,35
Юж.Эгейский бассейн
Киклады 5,39 -5,81 -11,06
Додеканезы -12,16 -20,48 -22,45
Крит
Ханья -18,75 -23,96 -30,49
Ретимно -9,59 -19,13 -23,72
Ираклио -29,26 -37,11 -38,86
Ласифи -21,63 -30,33 -34,76
В целом по стране в конце XX столетия заметен рост влияния левых политических сил: средние общенациональные значения индекса изменяются от -1,19 в 1990 г. к -9,02 в 1993 г. и достигают отметки -13,62 в 1996 г. Тем не менее, не во всех регионах этот процесс имеет одинаковую направленность. Посчитав средние значения по регионам мы увидим картину, представленную в таблице 2.
Таблица 2. Усредненные показатели индекса симпатий по округам
Регионы Среднее значение индекса политических симпатий
Вост.Македония-Фракия 0,1973
Центр.Македония -2,8196
Зап.Македония 0,2083
Эпир -8,4240
Фессалия -10,1213
Центр.Греция -5,3380
Ионические о-ва -16,6583
Зап.Греция -13,4978
Аттика -12,2180
Пелопоннес 5,2727
Сев.Эгейский бассейн -17,7278
Юж.Эгейский бассейн -11,0950
Крит -26,4658
Отчетливо видна как «левизна» электората в таких регионах как Крит, Южный и Северный Эгейский бассейн, Западная Греция, Ионические острова, так и «правизна» поведения избирателей на Пелопонессе, относительно нейтральное в Западной и Восточной Македонии. Для того чтобы картина была более реалистична, она должна быть более дифференцирована. Можно разбить все регионы Греции на 3 кластера в соответствии с политическими пристрастиями: «левые», «правые» и нейтральные. Большинство политических аналитиков и журналистов на этом часто и останавливаются. Однако такое разбиение на классы, во-первых, слишком бедно, а во-вторых, может приводить к ошибочным выводам.
Например, по табл. 2 кажется, что регионы Восточная Македония-Фракия и Западная Македония почти неразличимы в политическим пристрастиях. Из статистического анализа известно, что средняя арифметическое адекватно отражает набор данных только в том случае, если распределение этих данных близко к нормальному. Если же мы более внимательно рассмотрим данные по этим регионам, то увидим, что для региона Восточная Македония-Фракия характерна сильная отрицательная асимметрия в имеющихся данных (см. гистограмму на рис 1).
Рис.1. Распределение индекса политических симпатий в округе Восточная Македония -
Фракия в 1990-е гг.
Это означает, что среднее арифметическое не показывает типичное значение данных, а для этой цели лучше подходит медиана, которая равна 1,54. Таким образом, объединение указанных регионов не вполне уместно. Уменьшение индекса политических пристрастий произошло от того, что в одном из избирательных округов (Родопи, 1996 г., см. табл.1) в 1996 г. наблюдались результаты голосования, резко выделяющиеся как из других районов этого региона, так и весьма непохожие на предыдущие цифры в этом же округе в 1990 и 1993 гг. Поэтому, если рассматривать типические характеристики, то объединять эти два региона нельзя. Более того, высокая асимметрия первого региона говорит о том, что в политическом отношении он гораздо менее предсказуем, чем первый. Соответственно и объединять его надо было бы с похожими непредсказуемыми или плохо предсказуемыми регионами.
Отдельные резко отличающиеся значения данных, или на языке статистики «выбросы», заметно ухудшают возможность использования среднего арифметического для характеристики совокупности данных. Еще одним важным параметром, который надо учитывать при использовании среднего, является стандартное отклонение, т.е. насколько имеющиеся данные разбросаны (отклоняются) от этого среднего. При небольшом разбросе среднее достаточно точно отражает типичное поведение избирателя, при высоком оно размывается. Конечно, выбросы, ведущие к большой асимметрии то же увеличивают стандартное отклонение. Однако интерпретация здесь будет другая: если высокая асимметрия показывает наличие некоторых экстремальных значений, которые возможно нуждаются в специальном отдельном изучении, то просто высокое стандартное отклонение выражает неопределенность мнений избирателей, его подвижность.
Из вышеизложенного следует, что необходимо при рассмотрении близости или удаленности различных регионов в политическом пространстве учитывать (наряду со средним значением) как асимметрию, так и стандартное отклонение. Для Греции конца прошлого века мы получаем результаты, приведенные в табл. 3.
Таблица 3. Основные статистические параметры выборов в Греции в 1990-е гг.
Округа Среднее арифметическое Стандартное отклонение Асимметрия
Вост.Македония-Фракия 0,1973 9,03099 -1,87945
Центр.Македония -2,8196 7,14719 -0,35709
Зап.Македония 0,2083 13,40266 0,23562
Эпир -8,4240 6,62789 0,21923
Фессалия -10,1213 4,24310 0,32307
Центр.Греция -5,3380 9,44038 -0,17794
Ионические о-ва -16,6583 7,62677 0,51357
Зап.Греция -13,4978 7,51658 0,13502
Аттика -12,2180 12,38909 -0,12820
Пелопоннес 5,2727 9,69867 0,30916
Сев.Эгейский бассейн -17,7278 8,41093 0,37118
Юж.Эгейский бассейн -11,0950 10,17680 0,66480
Крит -26,4658 8,58109 0,34264
Для кластерного анализа может оказаться полезной визуализация данных таблицы 3 (см. рис. 2). На графике отчетливо видно, что выделяются три кластера. К первому принадлежат округа Западная Македония и Пелопоннес, ко второму все остальные округа за исключением одиноко стоящей Восточной Македонии-Фракии. Большее количество кластеров требует дополнительных усилий. Первым шагом может стать объединение округов, показанное на рис.
30 Эеайегр^: Среднее уб. Станоткл уб. Асимметрия
....-г I | I Зап.Македония
Рис.2. Трехмерная диаграмма рассеяния греческих округов (данные стандартизованы) © ФГУ 2005 7
Tree Diagram for 13 Cases Complete Linkage Euclidean distances
В.Македония-Фракия • Ц.Македония • Ц.Греция • Пелопоннес • Зап.Македония • Аттика •
Эпир • ■
Зап.Греция Фессалия Ионич.остр. С.Эгейс.бассейн • Ю.Эгейс.бассейн • Крит •
_______■_I_I___■___I_I_I_I_I_I_I_I_____
0 1 2 3 4 5
Linkage Distance
Рис. 3. Дендрограмма греческих выборов по округам. Данные стандартизованы, использована евклидова метрика, объединение методом полной связи
Изучая дендрограмму на рис. 3, пожалуй, можно выделить только один неожиданный результат - относительную близость Аттики и Западной Македонии. Причина - большие стандартные отклонения в этих округах. При таких больших разбросах на выборах (13 %и 12,4 % соответственно), различия средних уже не представляются такими существенными, как если сравнивать только точечные величины средних. Интервальные значения уверенно перекрывают друг друга. Кроме того, такого уровня разброс результатов голосований в Греции последнего десятилетия прошлого века наблюдался только в этих двух округах, которые поэтому вполне можно назвать трудно предсказуемыми.
Другие намечающиеся группы вполне понятны: довольно «революционный» Крит близок Северному и южному Эгейскому бассейнам и Ионическим островам. Это кластер сильного левого влияния, с не очень большой изменчивостью голосований.
Куда идет мировой футбол?
Современный спорт является, безусловно, как важнейшей сферой государственных интересов, так и интересов бизнеса. Не может он оставаться и без внимания серьезных научных исследований, в том числе и в области управленческих наук. Важнейшим вопросом при этом является адекватная оценка состояния того или иного вида спорта и прогноз его дальнейшего развития. Это достаточно сложный и комплексный предмет изучения, обратимся здесь только к одной, относительно простой его стороне. Речь пойдет о достаточно элементарных показателях, характеризующих зрелищность, динамизм, уровень соперничества и соотношение сил отдельных спортсменов и спортивных коллективов - о голевой результативности. Для сужения темы рассмотрим такой популярный во всем мире вид спорта как футбол.
Поскольку забитые голы, вероятно, самая привлекательная сторона футбола, неразрывно связанная с экономической составляющей спортивного бизнеса, то в истории всегда проводились попытки повысить результативность различными способами. С этим связано, например, изменение порядка начисления очков за результат поединка. Если раньше за победу команде начислялось два очка, за ничью -одно, а за поражение - ноль, то уже несколько лет как во всем мире за победу начисляет три очка, за ничью - одно, и ноль за поражение. Другими, не прижившимися методами стимулирования результативности, были правило «золотого гола» в дополнительное время, назначение послематчевых пенальти и т.п.
Конечно, для того чтобы сравнивать между собой результативность команд или игроков, которые провели разное количество матчей, средняя результативность является наиболее подходящим инструментом сравнения. Однако здесь имеются некоторые подводные камни, которые могут привести к тому, что этот инструмент, образно говоря, «испортится», приводя не к объективному сравнению, а к искажению действительной картины.
Вообще говоря, для характеристики различных футбольных турниров, команд или отдельных игроков понятие «средняя результативность» используется довольно часто. Правильней было бы говорить о «средней арифметической результативности», то есть о числе всех забитых голов, разделенных на количество проведенных матчей. Желание применять этот показатель вполне понятно: как иначе сравнить результативность футболистов, команд или турниров, если число игр неодинаково? Вроде бы понятен и «физический» смысл средней результативности - это наиболее вероятный исход произвольно выбранного матча. Если мы, например, знаем, что игрок Х забивает в этом сезоне в среднем 3 гола за одну игру, то, собираясь на матч с его участием, мы рассчитываем, что увидим, скорее всего, 3 забитых мяча в его исполнении, или хотя бы 2 или 1, а может быть и 4 или даже 5. То же самое относится и к турнирам, и к командам. Средняя результативность служит нам более или менее точным ориентиром для нашего ожидания количества голов, забитых в каждом матче.
Однако использование среднего арифметического очень часто не достаточно информативно. Рассмотрим для примера результаты двух небольших турниров (см. табл. 1 и 2).
Таблица 4. Результаты первого турнира
№ матча 1 2 3
Количество забитых голов 3 3 3
Таблица 5. Результаты второго турнира
№ матча 1 2 3 4
Количество забитых голов 0 0 0 12
Как мы видим, количество проведенных матчей в турнирах разное (3 и 4), поэтому общее забитое количество голов (9 и 12) сравнивать нельзя. Средняя результативность для первого турнира вычисляется как
(3 + 3 + 3) / 3 = 3 гола за игру, Для второго турнира находим этот же показатель
(0 + 0 + 0 + 12) / 4 = 3 гола за игру. Таким образом, средняя результативность двух турниров одинакова. Однако любой скажет, что если в первом случае средняя результативность действительно отражает, как эффективно команды играли в атаке, то во втором случае, средняя результативность только вводит в заблуждение. Услышав от кого-нибудь цифру
средней результативности, и не зная ничего больше, мы отправимся на матч с предвкушением увидеть красиво забитые голы, но наше ожидание, скорее всего, не подтвердится. Очевидно, что нам необходим еще какой-то показатель, который отразит разницу между первым и вторым турнирами: если в первом во всех матчах забивалось одно и то же количество голов, то во втором результативность матчей существенно отличалась.
Как и в приведенных ранее примерах, необходимо, как минимум, использовать дополнительно такие важные инструменты как стандартное отклонение и асимметрия. При этом их содержательная интерпретация различна. Если большая величина стандартного отклонения говорит просто о большом разбросе количества забитых мячей в матче, то большая положительная асимметрия показывает, что в турнире были матчи с очень большим количеством голов. Здесь возможны два сценария. Если эти голы забивались в одни и те же ворота, можно смело говорить о наличии в турнире команд, заметно уступающим остальным. Отсюда и астрономические счета в матчах с участием этих команд3. Другой вариант повышенной результативности - проявление так называемого открытого футбола, когда команды соревнуются, кто больше забьет, а не кто больше пропустит.
Чемпионат мира по футболу 1998 г.
Рис. 4. Результаты матчей чемпионата мира по футболу 1998 г. Размеры столбиков (по оси у) показывают, сколько на турнире было матчей с указанной результативностью (по оси х), причем эту величину нужно смотреть по правой границе столбика. Соответственно, первый столбик отражает тот факт, что матчей с незабитыми мячами было 4; второй столбик - что забито по одному голу было в 12 матчах и т.д. График красного цвета показывает ожидаемое нормальное
распределение
3 Большая отрицательная асимметрия в наше время практически не наблюдается. Она возможна только при очень высокой средней результативности, когда есть несколько матчей с нулевыми или почти нулевыми результатами (0:1). Такое наблюдалось только на заре футбола. Интерпретировать это можно следующим образом: при общем подавляющем превосходстве атаки над обороной, есть две или несколько сильных приблизительно равных по уровню команд. Известно, например, что в XIX в. средняя результативность превышал 5 и более голов за матч. Тем не менее, первых «международный» матч между Англией и Шотландией в 1872 г. закончился со счетом 1:0! В наше время это возможно наверное только в турнирах детских команд.
Принято считать, что уменьшение средней результативности - глобальная тенденция мирового футбола, связанная с усилением защитных линий команд, с попытками избежать ненужного риска. Главным лозунгом при этом становится девиз «любой ценой не проиграть!». Естественно это вызывает отток зрителей со стадионов и от экранов телевизоров. Однако так ли бесспорен этот вывод? Попробуем разобраться.
Возьмем для анализа результаты высших форумов мирового футбола, по которым можно судить о развитии игры в целом - чемпионаты мира по футболу. Как известно, они проводятся один раз в четыре года, начиная с 1930 г. Очередной чемпионат должен состояться летом 2006 г. Рассмотрим только финальные части этих масштабных мероприятий.
Для начала приведем примеры, показывающие, что для одних чемпионатов мира распределение забитых голов достаточно близко к нормальному, дли других - довольно сильно отклоняется от нормального.
По графику на рис. 5 видно, что распределение забитых голов на чемпионате мира 1998 г. близко к нормальному.
Чемпионат мира 1974 г.
Рис. 5. Результаты чемпионата мира 1974 г.
Распределение забитых голов в 1974 г. имеет сильно выраженную положительную асимметрию. Объясняется она просто - при в целом невысокой результативности, были матчи сильных соперников со слабыми, где забивалось намного больше мячей: Югославия - Заир 9:0, Польша - Гаити 7:0. По сравнению с 22 матчами (больше трети от всех), где было забито 2 и меньше голов, это почти Эверест, помещенный среди Крымских гор.
Для определения тенденций мировых чемпионатов построим таблицу, где наряду со средней арифметической результативностью, будут приведены стандартные отклонения и асимметрии распределения голов в турнире (см. табл. 6).
Таблица 6. Основные показатели средней результативности чемпионатов мира по футболу 1930 - 2002 гг. Они вычислены на основании результатов матчей в основное и
добавочное время4
Среднее Стандартное отклонение Асимметрия
ЧМ 30 3,8889 2,27231 0,594
ЧМ 34 4,1875 1,97379 0,06
ЧМ 38 4,6667 2,40098 1,074
ЧМ 50 3,9565 2,03332 0,633
ЧМ 54 5,2 2,87228 0,596
ЧМ 58 3,6286 2,34 0,858
ЧМ 62 2,7813 1,99571 0,66
ЧМ 66 2,7813 1,67975 0,804
ЧМ 70 3,03 2,1813 0,148
ЧМ 74 2,5526 1,99591 1,221
ЧМ 78 2,6842 1,86149 0,065
ЧМ 82 2,8077 2,18765 1,109
ЧМ 86 2,5385 1,73162 0,946
ЧМ 90 2,2115 1,55092 0,747
ЧМ 94 2,7115 1,52543 0,27
ЧМ 98 2,6719 1,49129 0,233
ЧМ 02 2,5667 1,65054 1,037
График средних ГОЛЫ
5,5
2,0 ; • 1 5 _I_I_I_I_I_I_I_I_I_I_I_I_>_>_>_>_>_!
ЧМ_30 ЧМ_38 ЧМ_54 ЧМ_62 ЧМ_70 ЧМ_78 ЧМ_86 ЧМ_94 ЧМ_02 ЧМ_34 ЧМ_50 ЧМ_58 ЧМ_66 ЧМ_74 ЧМ_82 ЧМ_90 ЧМ_98
ТУРНИР
Рис. 7. Результативность чемпионатов мира по футболу с 1930 по 2002 гг.
4 Статистики рассчитаны на основе первичных данных, приведенных в справочниках: Чемпионат мира по футболу 2002: Календарь-справочник. М.: ООО «Издательство АСТ»: ООО «Издательство Астрель», 2002; Мировой футбол 2002-03. Справочник. Составитель И.В. Гольдес. М.: Терра-спорт, 2002.
На рисунке 7 показана только динамика средней результативности. Создается впечатление, что она неуклонно снижается. Однако если мы возьмем более подробные диаграммы размаха (рис. 8), то увидим, что это не так. Маленький квадрат показывает среднюю (арифметическую) результативность турнира. Поскольку мы имеем дело со статистическими, то есть с вероятностными данными, прямоугольник обозначает диапазон среднего значения, в которое среднее значение попадает с 95 % вероятностью (так называемую ошибку среднего). Наконец, «усы» показывают меру разброса результатов вокруг средней результативности (стандартное отклонение). Хорошо видно, что, начиная с чемпионата 1962 года, результативность практически не меняется. Исключение составляет разве что 1990 год.
Диаграмма размаха: ГОЛЫ
^ 4 О 4
I—
□ □ □
□ Г 1
□ 1
□ 1 - □ □ Г ц н ГЦ л
Г
ЧМ_30 ЧМ_38 ЧМ_54 ЧМ_62 ЧМ_70 ЧМ_78 ЧМ_86 ЧМ_94 ЧМ_02 ЧМ_34 ЧМ_50 ЧМ_58 ЧМ_66 ЧМ_74 ЧМ_82 ЧМ_90 ЧМ_98
ЧЕМПИОНА
I ±Ст. откл. I I ±Ст. ош. □ Среднее
Рис. 8. Диаграммы размаха («ящики с усами») распределения голов на
чемпионатах мира
Но в таком случае напрашивается вывод о том, что нужно искать не линию тренда, вдоль которой выстраиваются сменяющие друг друга чемпионаты мира по футболу, а попытаться выделить чемпионаты, похожие друг на друга, по крайней мере, по тому аспекту, который характеризует средняя результативность.
Проведенный кластерный анализ методом к-средних позволил разбить все 17 чемпионатов мира на три и четыре кластера (см. рис. 9 и 10).
Plot of Means for Each Cluster
2,0
1,5
1,0 0,5 о-____
4 4 Ч П
s 411
0,0 /
О у/
-0,5 -1,0
-1,5
-2,0 Cluster 1
Среднее Отклонение Асимметрия Variables -□- Cluster 2 Cluster 3
Рис. 9. Характеристики каждого из 3 кластеров мировых первенств
Один кластер образуют турниры 1930, 1938, 1950, 1954 и 1958 гг. Это чемпионаты с высокой результативностью, относительно большим разбросом значений и малой асимметрией («голевая фиеста»). Их можно интерпретировать как зрелищные спортивные форумы с менее предсказуемыми результатами5. Обратим внимание, что все эти чемпионаты принадлежат к ранней эпохе мирового футбола.
В другой кластер попали состязания 1962, 1966, 1974, 1982, 1990 и 2002 гг. Это чемпионаты с низкой результативностью и высокой асимметрией, т. е. наличием отдельных матчей с большим (по отношению к общей массе игр) количеством забитых мячей. Примеры: 1962 г. - СССР - Югославия 4:4; 1966 г. - Португалия - КНДР 5:3; 1974 уже упоминавшиеся матчи Югославия - Заир 9:0, Польша - Гаити 7:0; 1982 -Венгрия - Сальвадор 10:1 и т.д.) Высокая положительная асимметрия этих турниров означает реально более низкую результативность, чем та, что отражена в средней арифметической. Однако, как мы видим, причины этой асимметрии различны - иногда это матчи с разгромным счетом, иногда матчи более или менее равных соперников с преобладанием атаки над защитой, что нашло отражение в высокой результативности обеих команд.
Наконец в последний кластер попали чемпионаты мира 1934, 1970, 1978, 1994 и 1998 гг. Для этого кластера характерна относительно высокая результативность, хорошей предсказуемостью количества забитых мячей в матче. Очень любопытно, что в эту группу попал еще довоенный чемпионат 1934 г. Трехмерная диаграмма рассеяния (см. рис. 11) показывает, что все же 1934 г. стоит несколько особняком от других турниров, хотя действительно ближе всех к чемпионатам 1970, 194 и 1998 гг.
5 Имеется ввиду неопределенность количества забитых голов в матче, а не неопределенность победителя в нем. © ФГУ 2005
Plot of Means for Each Cluster
Variables
Рис. 10. Характеристики каждого из 4 кластеров мировых первенств
3D Scatterplot: Среднее vs. Отклонение vs. Асимметрия
I
<г>
z.o
1.0
0.6 Q.Q
-1Л
-1 .Б
s 1
ЧМЦ|\7482
оа-
ЧМ 58
сг
Ч|
38
ЧМ 54
ö"
4 ; -I \ ,: 1
t h; I I
I, I :i, I у i j] ['■{
"I hi '
ЧМ 02
ЧМ_86 ЧМ 30 ЧМд62в ЧМ_50
М 90 ^
^ ЧМ_70
о
ЧМ_34
о
ШЛь
^ч! 'к 1414 'ifiPiiN
з-.о
-I .с-
5.. О
Рис. 11. Трехмерный диаграмма рассеяния чемпионатов мира (стандартизированные величины)
При разбиении на большее число кластеров, первый и последний кластеры оказывают достаточно устойчивыми. Можно заметить, что графики средних этих кластеров параллельны друг другу. Фактически последний кластер несколько смещен вниз по всем переменным относительно первого. Думается, что чемпионаты последнего кластера - это как бы уменьшенная современная копия модели довоенного и послевоенного футбола. Во втором кластере представлена неизвестная ранее футбольная модель с преобладанием обороны над нападением, с выравниванием силы команд и с редкими неожиданными результатами.
ЭР БсайегрЫ: Среднее vs. Отклонение vs. Асимметрия
Рис. 12. Выделение 3 кластеров на трехмерной диаграмме рассеяния
Тем самым там, где раньше мы видели простой линейный тренд движения мирового футбола, некоторую общую глобальную тенденцию, мы уже можем различить более сложную динамику, со скрытыми циклами и закономерностями.
Социологические опросы
Другой пример, показывающий, что часто вместо анализа временных рядов полезней использовать кластерный анализ, или, по крайней мере, дополнять первый последним, можно привести из области социологических опросов.
В качестве иллюстрации рассмотрим социологический мониторинг на факультете государственного управления МГУ6. В течение нескольких лет здесь проводится как
6 Беляева Г.Ф., Купряшин Г.Л. Опыт подготовки специалистов на факультете государственного управления МГУ им. М.В. Ломоносова // Ученые труды ФГУ. Выпуск третий. М., 2004; Беляева Г.Ф.,
тщательный сбор эмпирических данных, так и их теоретическое осмысление и использование в стратегии развития факультета, прежде всего его учебного процесса. Результат, как говорится, налицо: за последние годы заметно вырост конкурс при поступлении на факультет, а также удовлетворенность выпускников полученными знаниями. Однако, на наш взгляд, полезно было бы несколько изменить применяющиеся инструменты при опросе студентов, которые позволили бы заметить не только более или менее очевидные тенденции и настроения, но и подспудные, не лежащие на поверхности процессы.
Первое предложение касается замены дихотомических переменных («да»-»нет») на порядковые, например, по шкале Ликерта (Лайкерта). В таком случае, можно будет знать не просто, допустим, какой процент студентов удовлетворен степенью теоретической или практической подготовки, но и характер распределения этих ответов от «полностью не удовлетворен» до «полностью удовлетворен» . Второе предложение неразрывно связано с первым: как только мы начинаем использовать порядковую шкалу, мы можем применять многочисленные дескриптивные статистики, в первую очередь те, о которых говорилось выше - среднее, стандартное отклонение, асимметрию и др.
При этом возможен такой вариант: среднее показателя растет, например, оценка удовлетворенности подготовкой, но при этом растет и стандартное отклонение, т.е. попросту говоря разброс ответов, а может быть и их поляризация. О чем это говорит? О том, что устойчивого типичного ответа просто не существует для данной совокупности и любые выводы будут опрометчивыми. Поляризация ответов легко может быть увидена на гистограмме как бимодальная форма распределения. Это означает, что на факультете существует как бы два факультета, точнее сказать, две группы студентов, существенно различно оценивающих происходящее.
Чтобы прояснить сказанное рассмотрим 2 вполне возможных гипотетических вариантов ответов 15 студентов (см. рис. 13 и 14).
Varl
Рис. 13. Один из вариантов распределения ответов на вопрос анкет
по 7-бальной шкале
Купряшин Г.Л. Факультет государственного управления МГУ на рынке образовательных услуг // Ученые труды ФГУ. Выпуск четвертый. М., 2005 и др.
7 Конечно, шкала Ликерта имеет свои недостатки и подводные камни, которые обсуждались в специальной литературе, но есть также и наработанные практиками приемы снижения ее негативных последствий
Var2
Рис. 14. Другой вариант распределения ответов на вопрос анкеты по 7-бальной шкале
Что приводит к бимодальному распределению, неоднородности данных? Очевидно, какой то дополнительный фактор (переменная). Например, являются ли это ответы бюджетных или контрактных студентов, успевающих или отстающих, девушек или юношей и т.п. Это - тема для дополнительного исследования. Чтобы тема неоднородности распределения не казалось исключительно умозрительно-отвлеченной, посмотрим влияние последнего фактора - пола.
Автор на протяжении некоторого времени проводил на лекциях по информационному менеджменту опрос о росте, весе и поле студентов. На графике рис.15 едва видна бимодальность распределения по росту. Тем не менее, в ее основе лежит действительное различие студентов по полу. Обратим внимание, что поскольку среди студентов ФГУ преобладают девушки, то вторая («мальчишечья») мода 180-185 см значительно меньше (7 человек), чем первая 170-175 (20 человек).
22 | I I I I I I I I I I I I
145 150 155 160 165 170 175 180 185 190 195 200
РОСТ
Рис. 15. Распределение студентов ФГУ по росту
Этот вывод подтверждает диаграмма рассеяния по росту и весу с подписями пола респондента (Г - женщины, т - мужчины) на рис. 16. Нельзя не заметить, что более или менее точно можно не только отличить респондента по полу, но и обнаружить различную форму связи между весом и ростом у мужчин и женщин (наклон прямой регрессии у юношей гораздо больше, а может быть регрессия для них вообще является нелинейной). Так что к бимодальности следует относиться предельно внимательно.
Рис. 16. Рост и вес студентов ФГУ
Возвращаясь к материалам социологических опросов студентов, можно предположить, что разбив прежде слитную совокупность студентов на 2 или большее число групп (даже и по одной переменной), мы можем, поскольку речь идет о временном срезе, вычленить динамику этих групп (растут, уменьшаются, стабилизировались, увеличилось число кластеров и т.п.) и рассматривать факультет не как некую усредненную массу, а как совокупность взаимодействующих элементов. Естественно такой взгляд на вещи должен приводить и к выработке не одной тактики или стратегии со стороны руководства учебного заведения, а к более дифференцированному подходу к каждой группе.
Выводы и обсуждение
Таким образом, можно констатировать, что использование наряду со средними значениями переменной других статистических параметров, прежде всего стандартного отклонения и асимметрии, позволяет, во-первых, провести полноценный и нетривиальный кластерный анализ даже по одной (агрегированной) переменной, и, во-вторых, для данных, имеющих характер временного ряда, не только находить обобщенные тенденции (тренды), но и, дополняя методы прогнозирования кластерным анализом, оценивать не только обобщенные тенденции для всей совокупности, но и выделять различные группы с различающимися параметрами изменения во времени.
Поскольку имеется большое разнообразие дескриптивных статистик, то возможно было бы полезно использовать в анализе и другие статистические параметры с теми же
целями кластерного анализа. В результате может быть получена более адекватная реальности, более детальная и более полезная для практического применения картина происходящего.
Конечно при таком подходе, как впрочем и вообще при решении задач кластерного анализа, необходимо не только выделить различные группы наблюдений, но и подыскать для характеристики каждой из них рациональные интерпретации. В противном случае классификация явлений может вылиться в математическую эквилибристику, способную удовлетворить только незаинтересованного наблюдателя.