Научная статья на тему 'Методы обработки многомерных данных объектов числовой и нечисловой природы'

Методы обработки многомерных данных объектов числовой и нечисловой природы Текст научной статьи по специальности «Математика»

CC BY
896
167
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Долинина Ольга Николаевна, Каримов Равиль Нургалиевич

Рассматриваются методы представления и совместной обработки многомерных данных объектов числовой и нечисловой природы в пространстве действительных чисел.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Долинина Ольга Николаевна, Каримов Равиль Нургалиевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Methods of presentation and joint processing of multidimensional data for objects of numeric and non-numeric origin in the field of real numbers are considered in the article.

Текст научной работы на тему «Методы обработки многомерных данных объектов числовой и нечисловой природы»

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

УДК 519.24+681.3

О.Н. Долинина, Р.Н. Каримов

МЕТОДЫ ОБРАБОТКИ МНОГОМЕРНЫХ ДАННЫХ ОБЪЕКТОВ ЧИСЛОВОЙ И НЕЧИСЛОВОЙ ПРИРОДЫ

Рассматриваются методы представления и совместной обработки многомерных данных объектов числовой и нечисловой природы в пространстве действительных чисел.

O.N. Dolinina, R.N. Karimov

METHODS OF PRESENTATION AND JOINT PROCESSING OF

MULTIDIMENSIONAL DATA FOR OBJECTS OF NUMERIC AND NON-NUMERIC ORIGIN

Methods of presentation and joint processing of multidimensional data for objects of numeric and non-numeric origin in the field of real numbers are considered in the article.

1. Постановка задачи

В социологических, эконометрических, психологических, педагогических и других исследованиях большинство объектов содержат признаки числовой и нечисловой природы, измеряемые в качественных и количественных шкалах.

Разделение данных на два однородных подмножества, измеряемых в качественных и количественных шкалах, не позволяет решить задачу совместной обработки многомерных данных, так как к качественным данным неприменимы операции над пространством действительных чисел [5, 7].

Совместная обработка таких многослойных данных, принадлежащих различным пространствам, в большинстве случаев осуществляется методами самой слабой шкалы, в которой измеряется один или несколько признаков исследуемого множества. Например, если хотя бы один признак измеряется в номинальной шкале, то необходимы преобразования всех переменных к этой шкале с неизбежными потерями информации.

Для совместной обработки полученного множества номинальных данных пригодны только категориальные методы и невозможно реализовать важные многомерные классические методы: анализ главных компонент, факторный, кластерный и

дискриминантный анализы, методы канонической корреляции, сингулярного разложения и др.

Для решения задачи анализа данных объектов числовой и нечисловой природы нужен математический аппарат, который бы позволил решать задачи многомерного анализа данных числовой и нечисловой природы в линейном пространстве.

Поставленную задачу предлагается решать в два этапа. На первом этапе все данные в матрице типа «объект-признак», измеряемые в количественных шкалах, преобразуются в номинальную шкалу и представляются в виде таблицы сопряженности признаков (ТСП). На втором этапе ТСП преобразуется в числовую матрицу, к которой применимы операции над действительными числами, что позволяет решать ряд задач представления многомерных объектов в виде точек в координатном пространстве малой размерности.

2. Представление данных

Шкалы измерений. В системах обработки информации данные подразделяются на качественные (нечисловые) и количественные (числовые). В соответствии с поставленной задачей все измерения переменных объекта преобразуются к номинальной шкале.

Тип шкалы определяется группой допустимых преобразований Ф = (ф(х)} шкалы, переводящих одну систему измерений, являющейся гомоморфным образом эмпирической системы, в другую, также являющуюся гомоморфным образом этой же эмпирической системы. Для шкал качественных измерений допустимы преобразования: взаимнооднозначные, монотонные, тождественные. Чем меньше множество систем, в которые гомоморфно отображается рассматриваемая эмпирическая система, тем сильнее шкала. Тип шкалы определяет также возможности применения к измерениям операций сравнения, арифметических действий.

Номинальная шкала строится разбиением измерений на классы по тому или иному признаку. Измерениям, попавшим в один и тот же класс, присваивается одно и то же обозначение. Например, мужской и женский пол можно обозначить М и Ж, или 1 и 2. Разбиение на классы нужно производить так, чтобы они носили неупорядоченный характер и не перекрывали друг друга.

Группа допустимых преобразований в этой шкале состоит из всех взаимно однозначных преобразований. Арифметические операции не имеют смысла. Не существуют арифметическое среднее, медиана. Оценкой среднего может служить мода распределения, которая не зависит от однозначных преобразований измерений. Например, гипертоников больше, чем гипотоников. Мода является параметром среднего для гипертоников и гипотоников вне зависимости от обозначений: ГП и ГИП, 1 и 2. Измерения качественны, но можно сосчитать количество объектов каждого класса и частоты.

Методы анализа: пригодны только методы категориального анализа - х (хи-квадрат) критерий для полиномиального распределения; х2 для проверки гипотезы о связанности двух и более номинальных переменных; выводы относительно биномиального распределения; операции над структурными функциями от дихотомических переменных.

Порядковая шкала. В этой шкале не только качественные измерения разбиваются на классы, но и упорядочиваются сами классы. Каждому классу присваивается свой символ и порядок символов соответствует порядку класса по правилу «больше, чем», «более предпочтителен, чем», «сильнее». Множество A называется упорядоченным, если для любых двух его элементов A и B установлено, что либо A предшествует B, либо B предшествует A. Если не удается установить строгое предшествование для всех элементов множества, но можно произвести «групповое» упорядочение, тогда упорядочиваются подмножества равноценных элементов. Например, такую переменную, как социальноэкономический статус (СЭС) можно расположить в таком порядке: высший класс, средний класс, рабочий класс, низший класс (уровни статуса можно обозначить: 4, 3, 2, 1 или а, б, с, д).

В этой шкале можно отличить высокие значения от низких, но нельзя описать различия между объектами в единицах измерения. Хотя известно, что значение СЭС 4 больше, чем значение 2, но нельзя утверждать, что оно в 2 раза больше. Не всегда ясен принцип сравнения и возникают случаи нетранзитивности. Например, команда A выигрывает у команды В, команда В выигрывает у команды С, но команда С выигрывает у А.

Если ни A > B, ни A < B, то А и В несравнимы. Если одновременно A > B и A < B, то получаем рефлексивное отношение A = B. В случае, когда некоторые элементы измеряемого множества несравнимы по упорядочивающему отношению, а остальное подмножество элементов допускает сравнение, то имеем частичный порядок.

Преобразования в шкале порядка - монотонные функции ф(х). Порядковая шкала позволяет производить все операции номинальной шкалы и преобразования полученных оценок (например, от экспертов), отвечающие всем монотонно возрастающим функциям. Например, положительные оценки могут быть заменены их квадратами, или логарифмами, или любой другой монотонно возрастающей функцией.

Арифметические операции не имеют смысла. Нельзя вычислить среднеарифметическое. Среднее можно оценить медианой или, с некоторой потерей информации, модой распределения.

Методы анализа: пригодны непараметрические методы, не зависящие от вида семейства распределений, используются знаки, ранги абсолютных значений и знаки их разностей, число инверсий. Применяются процедуры: проверки гипотезы равенства медианы заданному значению, равенства двух медиан, методы дисперсионного анализа Крускала-Уоллиса и Фридмана, методы ранговой корреляции Кендалла и Спирмена.

Количественные измерения. Для этих измерений различают шкалы: интервальная, отношений, разностей, абсолютная.

Для любых шкал количественных измерений имеют смысл все арифметические операции. Оценкой параметра сдвига могут служить среднее, медиана, мода распределения.

Сила шкалы определяется группой допустимых преобразований: чем шире эти преобразования, тем слабее шкала. По мере увеличения силы шкалы располагаются в таком порядке: номинальная, порядковая, интервальная, отношения, разностей,

абсолютная. Хотя качественные шкалы самые слабые, но они более помехоустойчивы, если помеха находится в рамках допустимых преобразований. Методы вычислений слабой шкалы применимы, с некоторой потерей информации, и для измерений в сильных шкалах. Обратное утверждение не имеет смысла, так как данные слабой шкалы без специальных преобразований невозможно обработать в сильных шкалах [3].

Квазиколичественные измерения. Качественные данные: многозначные

номинальные; порядковые и данные, построенные на субъективных критериях, удобно заменять квазиколичественными переменными, называемыми квазиквантитативными (квантитативное - от лат. диаШйаБ - количество). Такая замена порядковых данных приводит к некоторой потере информации, но зато каждый качественный признак можно представить в виде квазиколичественного признака [2].

Пусть имеется измерение х качественного признака Х с k взаимно исключающими классами, подвергнутыми некоторому упорядочению, например, путем соглашения. Измерение х можно представить как квазиквантитативную переменную, определяемую как ^мерный вектор-строку (подвектор) с компонентами, принимающими только значения 0 и 1, причем одна компонента вектора, соответствующая наблюдаемому классу, равна 1, а остальные компоненты равны 0.

Если значения признака измерены у п объектов (n-подвекторов), то получим матрицу квазиквантитативной переменной Х размерности п х k с элементами 0 и 1. В матрице X каждый объект отображается своей строкой как точка ^мерного пространства, а признак отображается k столбцами:

X = [(Х1Р ^, % X (Х21, ^, Х2к X ^, (*,1 ^, Хпк )]'

1, если событие 5.(. = 1,...,к)наступило в1-мподвекторе;

Х .. =< 1

1 10 - в противном случае.

Пример. Пусть задан порядок измерений в порядковой шкале признака x = [1 2 1 3]', к = 3, п = 4. Преобразовав эти данные в квазиквантитативную переменную, получим матрицу размерности (4x3):

^1 0 0“

X =

0 1 0

1 0 0

0 0 1

Так как для каждого подвектора матрицы Х справедливо соотношение =1 Хд = 1, то представление качественных данных с помощью квазиквантитативных переменных избыточно. Наблюдение дихотомической (булевской, бинарной) переменной, состоящей из двух элементов «0 или 1», соподчиненных постулату классического принципа исключенного третьего: «А или не-А», является частным случаем квазиквантитативной переменной при к = 2 для всех 1.

Пример. Квазиквантитативные переменные имеют большое значение в социологических, эконометрических и медико-биологических исследованиях, в которых большинство переменных не может быть измерено в количественных шкалах. При этом квазиквантитативные переменные с небольшим числом состояний зачастую являются более адекватными, чем результаты измерений по методикам, использующим большее число градаций. Квазиквантитативный признак Х качественных измерений с п классами задается к булевскими столбцами, который в силу избыточности можно задать к - 1 столбцами. Представление квазиквантитативной переменной с (к - 1) столбцами носит название индикаторной переменной и широко используется в пакетах прикладных программ.

3. Многомерные данные

На практике объекты характеризуются большим количеством различных свойств и связей между ними, примерами являются объекты в социологии, эконометрике, медицине, экологии, сложных технических системах. Если каждый объект в выборке определяется значениями двух или более переменных, то имеем дело с многомерными данными, которые подразделяются на два класса данных - числовые и нечисловые.

Матрица «объект-признак». Многомерные данные представим в виде матрицы «объект-признак» [4], строки которой соотнесены с анализируемыми объектами или номерами опытов, а столбцы - со значениями изучаемых признаков. Матрицу «объект-признак» обозначим X = Х], где . = 1, ..., п - объекты, 1 = 1, ..., т - признаки.

Особенностью данных типа «объект-признак» является то, что формирование матрицы связано со временем. Если измерения признаков осуществляются с неизменным сдвигом по времени, то получаем синхронную схему (рис. 1). Частным случаем такой схемы являются данные, полученные «одномоментно». Термин «одномоментно» означает такой отрезок времени, в течение которого не могут произойти существенные изменения в объекте. В матрице синхронных данных для п объектов и1, ..., ип фиксируются ^ х значения т признаков Х1, ., Хт приблизительно в одно и то же время. 1 т

В ряде случаев оказывается, что некоторые элементы X были и 1

получены в различное время, тогда предпринимаются действия для м

устранения этого влияния, например, случайным образом определяется порядок, в котором будут опрошены люди. ип |_ Хп1 ■ " Хпт

Х,, ■" Х,

11 1т

Рис. 1

При более точных исследованиях нужно учесть изменение данных во времени одного или нескольких признаков и объектов. Такие схемы называются диахронными.

Признак Признак B Всего

A 1 2 ••• с по строкам

1 n11 n12 "■ n1c n1.

2 n21 2 2 £ n2c n 2 •

r nr1 nr 2 ••• nrc nr.

Всего по столбцам n •! «•2 ••• n • c n..

4. Таблицы сопряженности признаков

Рассмотрим таблицу сопряженности признаков (ТСП), которая описывает каждый объект в выборке двумя признаками А и В, измеренных в номинальной или порядковых шкалах. Если данные измерены в количественных шкалах, то они должны быть сгруппированы в не

перекрывающиеся классы [1].

Пусть признак А имеет r > 2 классов, а признак В - с > 2 классов, тогда получим ТСП вида (рис. 2).

Часто ТСП называют rc-таблицей в соответствии с числом строк (row) и столбцов (column). Пересечение i-й строки и j-го столбца образует //-ячейку (cell). Число объектов щ в j-ячейке называют наблюдаемой частотой (observed frequencies) ячейки. Сумму объектов i-й строки и j-го столбца записывают так:

n = Уc n , n . =Уr n .

!• j=1 i ’ •/ t—t i=1 i

Объем выборки равен сумме итогов строк и столбцов:

n = n = У r,n. = У c,n. = У r У

•• Z—t 1=1 !• /=1 •/ 1=1/—t

Рис. 2

c

n .

1=1 j

ТСП используются для решения ряда важных задач:

1. Выявления наличия статистически значимой связи между признаками А и В.

2. Построения логарифмически-линейных (логлинейных) моделей, которые основаны на представлении распределений с системами «вкладов» (эффектов), даваемых теми или иными множествами признаков. Такие модели позволяют решать задачи конструирования факторов, наилучшим образом соответствующих исходным данным.

3. В методе анализе соответствий (МАС), основной целью которого является переход от ТСП к числовым матрицам типа «объект-объект» при исследовании пространства объектов-точек, или «признак-признак» при исследовании признаков-точек в координатном пространстве малой размерности.

5. Логарифмически-линейные модели для ТСП

Логлинейные модели позволяют исследовать простые и сложные связи между большим числом признаков. Приведем основные свойства этих моделей для ТСП 2x2.

Гипотезы. Рассматривается нуль-гипотеза Н0, относящаяся к независимости друг от друга признаков А и В. Проверку истинности Н0 с альтернативной гипотезой Н1, которую определяют как Н0. Сначала предполагают, что Н0 верна. Затем подсчитывают вероятности, связанные с возможными значениями критериальной статистики. Если наблюдаемое значение статистики больше ожидаемого на уровне значимости а, то утверждают, что либо произошел редкий случай, либо не верна Н0.

Критериальная статистика вычисляется по формуле

X2 = х, I,(п' )2 , (1)

е

У

где

] - ожидаемые частоты. Если вц не слишком малы,то распределение X хДраспределение с числом степеней свободы (с.с.) V = (г - 1)(с - 1).

Можно применить и другую критериальную статистику

имеет

Ч V

Пц = 2! г I цПц 1П пцп-

V ) 1 П. )

которая также имеет xv -распределение. На практике редко наблюдаются значительные

2 2

расхождения между значениями X и У .

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2

Критическая область. Область, лежащая выше а% точки распределения XV . Если 2 2

окажется, что X > XV , то нулевая гипотеза отвергается.

Если признаки А и В независимы, то теоретическая вероятность ргц того, что случайно выбранное наблюдение попадет в ячейку (г, ц), равна

Рц = Рг. Р.ц , Рг. = I ;=1 Рц, Р.ц = I Г=1 Рц .

Хотя значения {Рц} и неизвестны, отношения {пг./п..} являются их оценками, и эти оценки можно использовать для вычисления ожидаемых частот при условии независимости А и В.

В случае ТСП 2^2 признаки независимы, если для вероятностей справедливо соотношение Рц = Рг. Р.ц, где Рг. = I2=1 Рц, Р.ц = 12=1 Рц .

Случай зависимых признаков представим моделью

А В АВ

Ру = ПТ Т ц . (3)

Для независимых признаков (тгцАВ = 1) заменим неизвестные значения вероятностей Рц их частотами Пц и запишем модель (3) в аддитивной форме

N = 1п пц =0° +0А +0В +0

АВ

(4)

где 0 - общий эффект; 0А - эффект строк; 0В - эффект столбцов; 0АВ - эффект взаимодействия. Параметры модели (4) должны удовлетворять условию

ЛАВ

1. 0^В = I . 0^В =1. 0Л =1 . 0В = 0 .

^ г гц ^ ц гц ^ г г ^ ц ц

< 3 г

3 3

(5)

Решив системы уравнений (4) и (5), получаем

0° =1 г I ц ^ / Г • С = ^, 0В =1 Г= Рц / г - ц*. = N.ц - N..,

*

' 1^4 \А

АА_ . .* . .* ААВ м * * *

0г = цг. - ц.., 0ц = - ц.. - - ц

Формула (4) дает полное описание насыщенной модели и точно предсказывает частоты ячеек. При наличии большого числа признаков смысл исследования состоит в поиске модели с меньшим числом признаков, которая бы адекватно описывала исходные данные. Проверяются гипотезы независимости признаков, отсутствия эффекта одного или нескольких признаков, отсутствия эффекта от всех признаков, кроме общего.

Многомерные ТСП. В ТСП 2*2 всего 4 ненасыщенных модели, для трех факторов это число равно 18, для четырех - 16°, а для пяти приближается к 100°. В многомерном случае из всего многообразия моделей нужно выбрать несколько относительно простых моделей. Такой выбор нужно начинать с построения насыщенной модели, включающей все эффекты. При построении ненасыщенной модели следует учитывать только те эффекты 0, которые существенно отличаются от нуля.

При росте числа признаков и их категорий растет и число ячеек в многомерной таблице. При практических исследованиях часто получается, что число ячеек превосходит число наблюдений и во многих ячейках оказываются нулевые частоты. В таких случаях

2

логлинейный анализ неприменим и невозможно построение насыщенной модели, так как логарифм 0 равен Если количество факторов больше трех, то для построения моделей нужно воспользоваться пакетами прикладных программ, например, ППП 81а1§гарЫсБ позволяет строить модели для девяти переменных.

6. Метод анализа соответствий

Метод анализа соответствий (МАС) можно рассматривать как специальный метод исследования многомерных данных типа ТСП со многими входами. Целью МАС является представление многомерных нечисловых данных в координатном пространстве латентных переменных малой размерности в надежде получить хорошо интерпретируемую конфигурацию исследуемых объектов (признаков)-точек. Таким образом, МАС по своей сути похож на метод факторного анализа. Основной проблемой является переход от данных типа ТСП к числовой матрице типа «объект-объект» при исследовании пространства объектов-точек, или типа «признак-признак» при исследовании признаков-точек в сжатом координатном пространстве.

Пусть дана двухвходовая ТСП N размерности (г х с). Целью МАС является представление исходных данных в пространствах меньшей размерности, которые бы сохраняли всю или почти всю информацию о различиях между строками или столбцами. Для такого представления можно использовать теорему Экарта-Юнга [6] с различными преобразованиями исходной матрицы данных N. При применении МАС оперируют матрицей X, которая является специальной стандартизованной формой матрицы N. Прежде чем получить матрицу X, введем понятия масса, инерция и профили строк и столбцов, которые используются в МАС.

Масса. Сначала вычислим относительные частоты таблицы N поделив каждый элемент на общее число наблюдений п. Тогда получим нормированную матрицу Р = N/n = {щ/п} = {рц}, / = 1, г, ] = 1, ..., с, сумма всех элементов которой равна 1, и она показывает, как распределена единичная масса по ячейкам. Масса каждой строки и столбца определяется по формулам

^ г = Р1г , с = Р1с, (6)

где 1г, 1с - векторы размерности г и с с единичными элементами.

Профили строк. Для получения профилей строк элементы рц нужно поделить на нг. рг/г) = рц/ нг. Тогда получим ТСП (рис. 3).

Группа Категория Всего по

1 2 ••• с строкам

1 2 (г) р[(1 ) (г ) р2(; а, а, .. а, а, 1 1

г (г) р(1) р (г) ргс) 1

Масса Нс( н ••• с2 нс сс

Рис. 3

Масса каждого столбца нс. вычисляется по формуле (6). Сумма элементов строки равна 1 и каждый элемент рг/г) в матрице профилей строк интерпретируется как условная вероятность того, что элемент 1-й строки принадлежит столбцу Ц.

Профили столбцов. В этом случае элементы рц нужно поделить на нс/. рЦс) = рц/ Нсц. Масса каждой строки вычисляется по формуле (6). Сумма элементов столбца равна

1 и каждый элемент рг/с) в матрице профилей столбцов интерпретируется как условная вероятность того, что элементц-го столбца принадлежит 1-й строке. Тогда получим

Группа Категория Macca

l 2 ••• С

l 2 pn) p 2l) p12) ••• p22 ••• p (с ) Plc p (с ) P2 c г 2 * *

г p(с) p rC2) L p(c ) rc w r rr

Всего по столбцам l l •• l

Рис. 4

Расстояние точки до центра масс определяется по формулам:

l/2

dr =

r

Е ,-т

J w

c

(P. Л

—3— - w w c

j V ri У

w • d2 wc • d2

r r c. c.

Inotr = =—‘------------- , Inotc = - j j

Е w • d2 ’ j Е w • d

r. r. Z-U j c . (

Инерция. Термин инерция является аналогом понятия «момент инерции», и определяется как интеграл произведения элементов массы на квадрат расстояния до центра масс. Тогда инерция каждой строки и столбца равна

Inr = w • d2, Inc = w • d2 .

‘ ri ri j cj cj

2

Инерции определяются как значения X статистики Пирсона для соответствующих строк и столбцов исходной ТСП, деленные на n. При этом суммы инерций исходной и преобразованной систем по всем строкам или столбцам должны совпадать.

Относительная инерция. Относительная инерция каждой строки или столбца вычисляется по формуле

w

• d2 w • d2

Inotr ^ r‘—'J——, Inotc . =

j

У ^ • й 2 ’ 1 V ^ • d2

*-ч Г Г 21 21

Если вычисления проведены правильно, то сумма относительной инерции по всем строкам или столбцам должна равняться 1.

Порядок описания модели МАС. Для описания исходных данных моделью МАС используем теорему Экарта-Юнга [6]. Так как теорема верна при различных преобразованиях исходной ТСП, то будем применять такое преобразование, которое использует введенное выше понятие инерции. Порядок этих преобразований имеет вид:

1. Вычисляются суммарные значения wГ, w2 по формулам (6).

2. Векторы масс wr и w2 преобразуются в диагональные матрицы

Бг = diag^Г_1/2), Б2 = diag^2'1/2).

3. Тогда нормированная матрица Р будет равна

У = Б РБ .

2

4. Умножая У справа на Б2" *1 и слева на 1'БГ \ получаем

УБ^1 = Б Р1 = Б _11; 1Б _1У = 1РБ = 1Б _1.

2 Г Г 5 Г 2 2

Выражения Б Г *1 и 1'Б2" 1 есть пара сингулярных векторов, соответствующих единичному сингулярному значению. Так как матрица У положительная и состоит из элементов, меньших 1, то из теоремы Фробиниуса-Перрона следует, что единичное сингулярное значение является максимальным. Элементы собственных векторов,

2j

соответствующие этому сингулярному значению, равны суммам строк и столбцов и не могут быть использованы непосредственно для вывода координатного описания мультипликативной модели МАС Исключив влияние эффектов строк и столбцов, получаем следующее сингулярное разложение

Z = D PD -D _111'D _1 =V o.u.v' = UEV' . (7)

r c r c ^uj=2 i i i 4 y

Правая часть выражения (7) есть сингулярное разложение матрицы Z с элементами

n Jnn . n - n n / n

z = l1 V .• •1 = l1 .• • 1 (O)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

zj = / =-----------------1 — . (O)

1 Vni-n-1 n V*”;

Выражение (O) представляет собой квадратный корень, деленный на n, из элемента Х2-статистики Пирсона, и применяется для проверки гипотезы независимости групп-строк категорий-столбцов.

Таким образом, МАС можно рассматривать как метод декомпозиции х2-статистики для ТСП, которая обеспечивает два вида шкалирования: для групп-строк и для категорий-столбцов

F = DUE , G = D VE . (9)

Г 5 С v 7

Выбор размерности координатного пространства. Выбор размерности пространства можно осуществить отдельно как для групп-строк, так и для категорий-столбцов. Размер базиса для групп-строк или категорий-столбцов в евклидовом пространстве выбирается, как и в факторном анализе, по доле вклада собственных значений или доли инерции (следовательно, и величины хи-квадрат) строк (столбцов) в общую инерцию в зависимости от числа координат пространства.

Оценка качества решения. Качество решения определяется точностью представления расстояний между точками в пространстве более низкой размерности. Если используется максимальная размерность (min(r,c) - 1), то все расстояния воспроизводятся без ошибок. Сначала рассмотрим задачу для разложения по строкам. Найдем значения относительной инерции при выборе координаты F-k) к общей инерции исходной системы

w • (Fk))2

InotF^k) = 1-' ... „ , k = 1,...,m; i = 1,...,r,

l £«•. • (Fk>)2’ ’ ’ ’ ’ ’ ’

где m < r - размерность выбранного координатного пространства. По величине InotF^ можно судить, какая координата вносит больший вклад в относительную инерцию.

Оценку качества решения по координате F/k) можно определить по отношению величин инерций полученной и исходной координат

y(f (-)) = V(F'k ))2 = (F “ ’)2

wr • й2г й2г

’І ’І ’І

Величина у(Р/к)) интерпретируется как корреляция /-го объекта с координатной осью к. Качество решения для координатного пространства размерности т определяется по формуле

у( г т к рк >)=ітж1.

Если величина ур/1^ ... Р/к)) для і-й строки мала (например, меньше 0,1), то выбранный размер т координатного пространства мал и недостаточно хорошо представляет данную строку.

Качество решения для разложения по точкам столбцов по каждой отдельно взятой координате О] можно определить по вышеприведенным формулам, заменив Р на О, а индексы і на], г на с.

Тогда получим

м> • (О(к)}2

1поО(к) „ 3-----7 , к = 1,...,да; г = 1,.. .,с,

. £А • (О3к>Г ’ ’ ’ ’ ”

где да < с - размерность выбранного координатного пространства

уО* >) = (О зк ^)2 / ^, у з (о« . о (к )> = хда=1 уО 3).

Углы точек, исходящие от центра масс. Углы при разложении по строкам и столбцам (9) относительно строки и столбца определяются по формулам

аFi(к) = агссо$(д/у(/(к)), аО(к) = агссоБ (7у°Р).

Статистическая значимость анализа соответствий. МАС является разведочным методом, и он разработан на методологии построения моделей с точки зрения их соответствия данным, а не наоборот. Отсюда следует, что не существует статистических гипотез, которые могут быть применены для проверки результатов этого анализа.

ЛИТЕРАТУРА

1. Аптон Г. Анализ таблиц сопряженности / Г. Аптон; пер. с англ. М.: Финансы и статистика. 1982. 143 с.

2. Благуш П. Факторный анализ с обобщениями / П. Благуш; пер. с чешск. М.: Финансы и статистика, 1989. 248 с.

3. Литвак Б.Г. Экспертная информация: методы получения и анализа / Б.Г. Литвак. М.: Радио и связь, 1982. 184 с.

4. Миркин Б.Г. Анализ качественных признаков и структур / Б.Г. Миркин. М.: Статистика, 1980. 319 с.

5. Орлов А.И. Нечисловая статистика / А.И. Орлов. М.: МЗ-Пресс, 2004. 513 с.

6. Справочник по прикладной статистике: пер. с англ. / под ред. Э. Ллойда, У. Ледермана, Ю.Н. Тюрина. М.: Финансы и статистика, 1989. Т. 1. 510 с. 1990. Т. 2. 526 с.

7. Луценко Е.В. Математический метод СК-анализа в свете идей интервальной бутстрепной робастной статистики объектов нечисловой природы / Е.В. Луценко // Научный электронный журнал КубГАУ. 2004. № 01 (3).

Долинина Ольга Николаевна -

кандидат технических наук, доцент,

заведующая кафедрой «Прикладные информационные технологии»

Саратовского государственного технического университета

Каримов Равиль Нургалиевич -

кандидат технических наук,

профессор кафедры «Прикладные информационные технологии»

Саратовского государственного технического университета

i Надоели баннеры? Вы всегда можете отключить рекламу.