Математические структуры и моделирование 2015. №4(36). С. 74-92
УДК 519.237.7
алгоритмы кора и фордиасимпт как методы распознавания двух образов в пространстве двоичных признаков
В.В. Гольтяпин
к.ф.-м.н, доцент, e-mail: [email protected] В.А. Шовин
научный сотрудник, e-mail: [email protected]
Омский филиал Федерального государственного бюджетного учреждения науки Института математики им. С.Л. Соболева Сибирского отделения РАН
Аннотация. В данной статье в рамках теории латентного анализа сформулированы и доказаны утверждение, лемма и теорема, позволяющие находить апостериорные вероятности на базе альтернативных показателей с использованием ортогональной факторной структуры. На основе полученных теоретических выкладок построен вычислительный алгоритм ФОР-ДИАСИМПТ, позволяющий строить диагностические симптомокомплексы на базе вероятностного метода распознавания образов. Проведен сравнительный анализ алгоритмов КОРА и ФОРДИАСИМПТ как методов распознавания двух образов в пространстве двоичных признаков в случае независимых симптомокомплексов при адекватной статистической информации.
Ключевые слова: симптомокомплекс, факторная модель, латентная модель, корреляционный анализ, маргинальное распределение, маргинал, алгоритм КОРА, алгоритм ФОРДИАСИМПТ.
Введение
Основная цель работы заключается в обосновании практической целесообразности применения алгоритма формирования диагностических симптомокомплексов для случаев независимых симптомокомплексов. Ввиду длинного названия алгоритма предлагается использовать сокращение ФОРДИАСИМПТ. Для демонстрации достоинств и недостатков алгоритма ФОРДИАСИМПТ было проведено сравнительное исследование с алгоритмом КОРА.
Предлагаемый алгоритм решает следующие задачи. Во-первых, формирует набор симптомокомплексов, опираясь на ортогональную факторную структуру и на уровень значимости у коэффициента по х2 критерию. Во-вторых, для каждого симптомокомплекса находит диагностическую шкалу на базе простейшей латентно-структурной модели.
Математические структуры и моделирование. 2015. №4(36)
75
В силу обоснованности использования факторного анализа для альтернативных показателей, считаем известным матрицу ортогонального факторного отображения. С полным изложением теоретических основ алгоритма ФОРДИА-СИМПТ, относящихся к поиску факторной структуры, можно ознакомиться в работах [1-4].
If *J *J *J O
Математический аппарат простейшей латентной модели и алгоритма фордиасимпт
Особое внимание в данной статье уделим непосредственно математическому аппарату, который используется в построении латентной модели на базе альтернативных данных. Обозначим количество объектов исследования n — объем выборки, а количество измеряемых параметров m — размерность выборки. Тогда исходные альтернативные данные представляются в виде матрицы Y = {yij} размерности m х n, столбцы которой — объекты исследования, а строки — значения измеряемых параметров у конкретного объекта.
Далее введём следующие обозначения:
pi - отношение количества объектов к n, у которых i-ый показатель равен 1;
pij - отношение количества объектов к n, у которых i-ый и j-ый показатели равны 1;
Pij - отношение количества объектов к n, у которых i-ый показатель равен 1, j-ый показатель равен 0;
Pij - отношение количества объектов к n, у которых i-ый и j-ый показатели равны 0;
P-ijk - отношение количества объектов к n, у которых i-ый, j-ый и к-ый показатели равны 1;
Pijk - отношение количества объектов к n, у которых i-ый и k-ый показатели равны 1, а j-ый показатель равен 0;
Pijk - отношение количества объектов к n, у которых i-ый и j-ый показатели равны 0, а k-ый показатель равен 1;
ф(х1) - частота, соответствующая относительному объёму /-го класса;
fi(xi) - вероятность значения 1 по i-му показателю у объекта, находящегося в /-ом классе;
fik(xi) - вероятность значения 1 по i-му и k-му показателям у объекта, находящегося в /-ом классе;
fijk(xi) - вероятность значения 1 по i-му, j-му и k-му показателям у объекта, находящегося в /-ом классе.
Основываясь на теории латентного анализа, можно говорить об однозначном разделении объектов по трём альтернативным показателям на два латентных класса и сформировать разрешимую систему уравнений с дискретными переменными [5,6]:
76 В.В. Гольтяпин, В.А. Шовин. Алгоритмы КОРА и ФОРДИАСИМПТ...
4>(xi) + ф(х 2) = 1,
Pi = .fi(xi)(^(xi) + fi (Х2)ф(х2),
P2 = f2(Хl)ф(Хl) + ,/2 (Х2)ф(Х2),
< P3 = + /а(х2)ф(х2) , (1)
Pi2 = /^(хЖЖ) + /п(Х2)ф(Х2),
Pi3 = flз(Хl)ф(Хl) + /^Ж^Ж),
P23 = f 2э(Х\)ф(Х\) + f 2э(Х2)ф(Х2),
,Pi23 = fl2з(Хl)ф(Хl) + /тЖ^Ж)
Определение. Параметры латентно-структурной модели отношения Pi, Pij, Pijk называются маргиналами.
Определение. Латентно-структурная модель называется простейшей, если для её построения используются три альтернативных показателя, Утверждение. Нахождение частоты фЖ) в простейшей модели латентно-структурного анализа сводится к каноническому уравнению прямой с точкой (p1,p2,p3) и направляющим вектором
n = (Л(х0 - Л Ж^ ЖЖ - f 2(xj- f 3(хj^, где г = j.
Доказательство, Выразим из уравнения (1) одну из частот (например, ф(х2)) и подставим в остальные три уравнения:
Pi = fl(xl)ф(xl) + fi (х2) (1 - ЖО) = ф(xl) (Л (xl) - fi (Ж) + fi (х2),
P2 = f2(xl)ф(xl) + f2 (х2) (1 - ЖО) = ф(xl) f2 (xl) - f 2 (Ж) + f2(x2),
P3 = f3(xl)ф(xl) + f3(х2) (1 - = ф(xl) (f3(xl) - f3(Ж) + f3(х2).
Осуществив последовательно элементарные преобразования, получим требуемое:
фЖ)
Pi - fi (х2)
■ЖЖ - fi(х2)
P2 - /2(х2)
f2(xl) - f2(х2)
P3 - /3(х2) ЖЖ - /3(х2)
В целях дальнейшего изложения теоретического аппарата введём следующие обозначения:
A
ij
Aij|k
A
ij |j
Pij Pij \Pij Pijу
Pijk Pijjk vPjk Pjk,
Pijk Pijk
\Pijk PijkJ
Математические структуры и моделирование. 2015. №4(36)
77
Тогда определители вышеуказанных матриц равны ||Aj || = 'Pij'Pij — PijPi],
llAij|k1 pijkpijk pjkpijk, ||Aij|j! pijkpjk pjjpijk И называются произведени-
ем i-ro и j-го показателей при условии (или без такового), что k-ый показатель равен 0 или 1.
В основе поиска неизвестных вероятностей простейшей модели можно воспользоваться нижеследующими таблицами совместных распределений:
Таблица 1. Совместное распределение двух альтернативных показателей i и j.
i-ый показатель / j-ый показатель 1 0
1 pij pij pi
0 pjj pij 1 — pi
pj 1 — pj
Таблица 2. Совместное распределение двух альтернативных показателей i-ro и j-го при
условии, что k-ый показатель равен 1.
i-ый показатель / j-ый показатель 1 0
1 pijk pijk pik
0 pjk pjk pk pik
pjk pk pjk
Таблица 3. Совместное распределение двух альтернативных показателей i-ro и j-го при
условии, что k-ый показатель равен 0.
i-ый показатель / j-ый показатель 1 0
1 pijk pjk pij
0 pjj pjk 1 pk pij
pjj 1 pk pjk
Лемма. Отношение определителей матриц ||Aij || и |Aij|k| равно произведению вероятностей /(x) и f (x).
Доказательство. Анализ таблицы 1 и таблицы 2 позволяет сформировать следующий список вспомогательных равенств:
pj pj pij; pij pi pij; pj = 1 — pi— pj + pij; pjk pjk pijk;
78 В.В. Гольтяпин, В.А. Шовин. Алгоритмы КОРА и ФОРДИАСИМПТ...
Pijk Ргк Pijk;
Pijk = Pk - Pik - Pjk + Pijk.
Используя эти равенства, можно преобразовать определители ||Aij-1| и ||Aij-|k к следующему виду:
11 Aij 1 Pij Pij Pjj Pij
= Pij (1 - Pi - Pj + Pij) - (Pj - Pij) (Pi - Pij)
= Pij - Pij Pi - Pij Pj + Pij - {Pj Pi - Pj Pij - Pij Pi + Pij)
= Pij- Pij Pi- Pij Pj + Pij- Pj Pi + Pj Pij + Pij Pi- Pij = Pij- PiPj;
II Aij|k1 = PijkPijk - Pijk Pijk Pijk ('Pk Pjk Pik + Pijk)) ('Pik Pijk) ('Pjk Pijk)
— Pijk (Pk Pjk Pik + Pijk) (PikPjk PikPijk PijkPjk + Pijk)
— Pijk Pk Pijk Pjk Pijk Pik + Pijk Pik Pjk + Pik Pijk + Pijk Pjk Pijk
Pijk Pk Pik Pjk.
Подставив вместо маргиналов в данных определителях соответствующие выражения вероятностей /(xi) и частот Ф(Ж и осуществив элементарные преобразования, получим:
|| Aij | = Pij - PiPj = fij(xi)0(xi) + fijЖЖЖ - (/i(xi)0(xi) + /ЖЖЖ) X
X (fj ЖЖЖ + fj ЖЖЖ)
= fi(x1)fjЖЖЖ + /(x2)fj(х2)ф(х2) - fiЖЖЖfj(х1)ф(х1)--/ЖЖЖfjЖЖЖ - /(ЖФ Ж)/jЖ)Ф(Ж - /Ж)ФЖ)fjЖ)ФЖ)
= (Ф(Ж + Ф(Ж) (/i(x1)/j ЖЖЖ + fi (x2)fj (x2ЖЖ) -
-/i(x1)fj(х1)ф2(х1) - .АЖЖЖ/?ЖЖЖ - ^ЖЖЖЛЖЖЖ
- fi(x2) fj (х2)ф2(х2)
= Ф(Ж/Ж)fj (x)Ф(Ж + Ф(Ж/Ж)fj Ж)ФЖ) + Ф(Ж/Ж)/j Ж)Ф(Ж +ФЖШЖ/? ЖЖЖ - /i(x1)fj(х1)ф2(х1) - /ЖЖЖЖЖЖЖ -fi ЖЖЖ^ЖЖЖ - /i(x2)/j (х2)ф2 (x2)
= ф2 (X1) / (X1) fj (X1) + ФЖШЖ/jЖ)Ф(Ж + ФЖШЖ/jЖ)Ф(Ж
+ф2(x2)fi(x2)fj (x2) - fi(x1)fj Ж^Ж - /(ЖФ(ЖfjЖЖЖ
-/i Ж)ФЖ)/Ж)Ф(Ж - /Ж)/j (Х2)Ф2 Ж)
Математические структуры и моделирование. 2015. №4(36)
79
= $(xi)fi(x2 )fj (Х2)Ф(Х2) + $(x2)fi(xi)fj (xi)$(xi) - fi(x 1 )ф(хх ) f j (х2)ф(х2)
- fi (x2)ф(x2) /^фф^ф
= ф(xl)ф(x2) fi(x2)fj (x2) + fi(x1)f j (xl) - fi(x1)f j (x2) - fi(x2)fi(x1)^j = ф(x1)ф(x2) {f i (x2) f j (x2) + fi(x1)f j (xl) - fi(x1)f j (x2) - fi(x2)fi(x1)^j = ф(x1)ф(x2) fi(x2) f j (x2) - fi(x O) - fi (x1) f j (x2) - f j (x1)))
= ф(x1)ф(x2) fi(x 2) - fi(x O) f j (x2) - /j (x1^j .
||Aij|fc | PijkPk PikPjk
= fijk^фф^ф + fijk(xфф(x2^ fk^фф^ф + fk(xфф(x2^ -- fik^фф^ф + fik(xфф(x2^ f jk^фф^ф + f jk(xфф(x2)^
= fijk^фф^ф + fijk(xфф(x2^ fk^фф^ф + fk(xфф(x2^ -
-fik^фф^ф/jk^фф^ф - fik^фф^ф/jk(x2^(x2)-
- fik Ы)ф^2) f jk (x1 )ф^ф - fik (x2^(x2) f jk (x2)фЫ = fk (x1^(x1 )fijk ^фф^ф + fk (x1 )ф(x1) fijk (X2)Ф(X2) +
+ fk Ы)фЫ ) fijk (x1 )ф^ф + fk (x2 )фЫ fijk Ыф^)
-f2(xl)f%k (xf)f jk (x1) - fik ^фф^ф/jk ^2)ф^2)-- fik ЫфЫ f jk Ыф^ф - $2(x2) fik (x2) f jk (x2 )
= fk (x1 )f2(xl)hjk (x1) + fk (x1^(x1)fijk (X2)Ф(X2) +
+ fk (x2^(x2)fijk Ыф^ф + fk (x2)$2(x2)fijk (x2)
-ф2Ы fik (xf) f jk (x1) - fik ^фф^ф f jk (x2)ф(x2) fik ЫфЫ f jk Ыф^ф - $2(x2) fik (x2) f jk (x2 )
= $2(x1) fk (x1)fijk (x1)) - fik (x1)f jk (x1^ +
+$2(x2) fk (x2 ) fijk (x2)) - fik (x2)fjk (x2^ +
+ fk ^фф^ф fijk (x2^(x2) + fk (x2^(x2) fijk ^фф^ф-
- fik ^фф^ф f jk (x2)ф^2) - fik (x2)ф(x2) f jk (x1 )ф^ф
= fk (x1)fk (x2 )Hx1)Hx2) fij (x1) + fij (x2 ) - fi(x1)f j (x2 ) - fi (x2)fj (x1))
= fk (x1) fk (x2)IAij ||.
80 В.В. Гольтяпин, В.А. Шовин. Алгоритмы КОРА и ФОРДИАСИМПТ...
Теорема. Наличие всех маргиналов в простейшей латентно-стуктурной модели позволяет свести поиск всех неизвестных вероятностей к решению трёх квадратных уравнений.
Доказательство. В первую очередь обратим внимание на, то что из выше-доказанной леммы следует выполнение следующих двух равенств:
llAij|k || = fk (x1 )fk (x2 )||Aij ||, ||Aij|k || = Ik (x1)fk (x2)WAij ||.
Или в более наглядной форме
llAij|k || fk (x1)fk (x2)WAij ||, llAij|k || = (l - fk (x0) (l - fk (x2^ ||Aij ||.
Раскрыв скобки и осуществив элементарные преобразования, получим следующий вид системы уравнений с двумя неизвестными:
llAij|k || fk (x1)fk (x2)WAij ||,
llAij|k | = (1 - fk (x1) - Ik (x2) + fk (x1)fk (x2^ WAij ||.
Поделив обе стороны уравнений данной системы с двумя неизвестными на определитель ||Aij-||, получим
II Aij|k II llAij |
fk(x1)fk(x2) ,
W Aij|k 11 Aij |
1 - fk(x1) - fk(x2) + fk(x1)fk(x2^ .
Если осуществить подстановку первого уравнения во второе и разместить неизвестные в левой части уравнений, а известные - в правой, то получим классическую теорему Виета:
fk (x1)fk (x2)
II Aij|k |A
ij |
fk (x1) + fk (x2)
1 _ 11 Aij |k II + llAij|'
11 Aij W 11 Aij \
где fk(x1) и fk(x2) - корни квадратного уравнения
x2 — 1 -
W Aij|k W , II Aij|k
+
x +
W Aij|k W
0.
llAij W 11 Aij II / 11 Aij W
Если же рассматривать каждый показатель как условный, то соответственно получим ещё два квадратных уравнения:
у2 - | 1 - WAjk|'
W Ajk|i | W AjkW ' ||AjkW
+
У +
W Ajk|i W W Ajk W
0,
Математические структуры и моделирование. 2015. №4(36)
81
2 _ (1 _ 11 Aifc|j I . II Aik|j || \ . II Aik|j | _ 0
z V II A*II + |AikII J Z + |AikII _ ,
где fi(x1) и fi(x2) - корни первого уравнения, a f j(x1) и f j(x2) - второго. Далее предполагается совместное использование латентной модели и ортогональной факторной структуры для построения алгоритма метода ФОРДИА-СИМПТ вероятностного метода распознавания на базе альтернативных показателей.
Во-первых, необходимо сформулировать определение диагностической шкалы, симптомокомплекса и независимости симптомокомплексов в методе фор-
диасимпт.
Определение. Диагностической шкалой называется набор апостериорных вероятностей, полученных с помощью простейшей латентно-структрной модели и формулы Баейса, позволяющей отнести объект исследования к одному из двух сформированных классов.
Определение. Симптомокомплекс - тройка альтернативных показателей, используемых для построения диагностической шкалы в методе ФОР-
диасимпт.
Определение. Два симптомокомплекса считаются зависимыми, если они содержат один и более общих параметров, в противном случае они независимы.
Во-вторых, в целях упрощения дальнейшего изложения, введем функцию ( Ч Г /i(k)(xi) если Vikj _ 1
ll (yifc j) _ \ , 7(k)f ч п
[1 - fi )(xi) если Vikj _ О,
где / - номер класса и может принимать значение 1 или 2, k - номер номер симптомокомплекса, fi(k')(xl) - вероятность значения 1 по ik-му показателю у объекта из /-ого класса. Выбранный исследователем ik-ый показатель входит в состав k-ro симптомокомплекса, полученного на основании анализа факторной структуры.
Тогда вероятность принадлежности к первому классу можно определить посредством формулы Баейса с использованием введённой функции
P (1|v«fc j, ybk j, yck j )
7i (v«fej )Ti (ybkj )h (Уск j )0k (xi)
Si=l 7i (v«k j ) Ti (ybkj ) 7i (yCk j ) 0k (xi )
где ak, bk, ck - номера трёх параметров k-ro симптокомплекса.
(2)
Алгоритм ФОРДИАСИМПТ:
1. Из матрицы Y путём элементарного преобразования получаем стандартизованную матрицу Z размерности m х n [1-3]. 2
2. Вычисляем корреляционную матрицу R размерности m х m [1-3].
82 В.В. Гольтяпин, В.А. Шовин. Алгоритмы КОРА и ФОРДИАСИМПТ...
3. С целью исключения незначимых показателей вычисляем вероятностные значения уровней зависимости по формуле х2 = n ■ у при единичной степени свободы.
4. Определяем наименьшее количество выделяемых факторов (критерий Гуттмана, критерий «каменной осыпи» или другой адекватный критерий) [1-3].
5. Находим общности любым из известных методов (лучше взять метод минимальных остатков) [1-3].
6. Вычисляем первичную ортогональную матрицу весовых нагрузок факторов A размерности m х r (метод главных факторов, метод минимальных остатков или любой другой адекватный метод) [1-3].
7. Полученную на предыдущем шаге матрицу весовых нагрузок подвергаем ортогональномоу вращению в соответствии с варимакс критерием [23,7,8].
8. Осуществляем анализ ортогональной факторной структуры, полученной после вращения и формируем зависимые и независимые симптомокомплексы [3].
9. Для каждого симптомокомплекса формируем диагностическую шкалу, вычисляя маргиналы и решая систему уравнений (1), используя результаты теоремы.
10. По формуле (2) вычисляем частные апостериорные вероятности для всех объектов исследования.
Утверждение. Алгоритм ФОРДИАСИМПТ используется для распознавания двух образов в пространстве двоичных признаков при совпадении количества выделенных измеряемых факторов и полученных независимых симптомокомплексов.
Доказательство. В силу ортогональности выделяемых факторов получаем, что группы параметров, наполняющие тот или иной фактор, очень слабо коррелируют между собой. Тогда можно использовать условия независимости частных апостериорных вероятностей для получения формулы общей апостериорной вероятности:
P(1 |y«ij , ybij , ycij , . .
, y«r j , ybr j , ycr j ) = P (1 |y«ij , ybij
i= 1
yCij ).
(3)
Замечание. Объект распознавания в случае независимых симптомокомплексов относится к первому классу, если общая апостериорная вероятность из формулы (3) меньше или равна 0,5, и ко второму классу - в противоположном случае.
Математические структуры и моделирование. 2015. №4(36)
83
Вычислительный алгоритм КОРА
Алгоритм Кора (комбинаторного распознавания) — алгоритм классификации (взвешенного голосования правил), предложенный М. Вайнцвайгом и М. Бонгардом в 1973 г. [9-10], который применяется как метод распознавания двух образов в пространстве двоичных признаков путём построения и анализа набора конъюнктивных закономерностей.
Полагаем, что даны две таблицы «объект-свойство». Обозначим количество объектов исследования в каждой таблице за n и k соответственно, а количество измеряемых параметров за m — размерность выборки. Тогда исходные альтернативные данные представляются в виде таблиц, столбцы которой — объекты исследования, а строки — значения измеряемых параметров у конкретного объекта. На первом шаге алгоритма осуществляется объединение исходных таблиц в одну матрицу Y размерности m х (n + k) с сохранением информации о классовой принадлежности объектов. Далее просматриваются всевозможные матрицы Yruv размерности 3 х (n + k), получаемые извлечением из матрицы Y, что составляет СД извлечения.
Vi Уг2 . . yrn yr(n+i) . . yr(n+k)
Y = 1 ruv yul yu2 . . yun yu(n+i) . . yu(n+k)
\yvi yv2 . . . yvn yv(n+i) . . yv(n+k) J
На следующем шаге среди первых n столбцов матрицы Yruv выделяются и фиксируются все тройки, не совпадающие ни с одной из троек в столбцах с (n + 1) по (n + k). Аналогичная операция осуществляется со столбцами с (n + 1) по (n + k). Из полученных двух совокупностей троек формируются два
множества, которые о6означим за Aruv { (yri, yui, yvi) } и Bruv {(yrj ,yuj ,yvj)}.
Множества Aruv и Bruv называются характеристиками классов A и B. Эти характеристики формируются по всевозможным матрицам Yruv.
Основной этап алгоритма КОРА заключается в распознавании некоторого объекта x = (x\ ...xr ...xu ...xv ...xm) относительно классов A и B. Число совпадений (xr,xu,xv) = (yri, yui, yvi) обозначим V(x,A) - число голосов, поданных для x за класс A, аналогично V(x,B) - число голосов (xr,xu,xv) = (yrj,yuj,yvj). Если V(x,A) > V(x,B), то объект относится к первому классу, если V(x,A) < V(x, B), то к второму, при равенстве алгоритм отказывается от классификации.
Некоторые авторы предлагают вводить пороговое значение L. В этом случае если V(x,A) — L > V(x,B), то объект относится к первому классу, если V(x,A) < V(x, B) — L, то к второму, при равенстве или нулевом значении голосов алгоритм отказывается от классификации.
84 В.В. Гольтяпин, В.А. Шовин. Алгоритмы КОРА и ФОРДИАСИМПТ...
Сравнительный анализ алгоритмов КОРА и ФОРДИА-симпт на независимых симптомокомплексах
Отметим, что алгоритм ФОРДИАСИМПТ статистического типа, а алгоритм КОРА относится к категории эмпирических алгоритмов. В этой связи не имеет особого смысла сравнивать их на объёмах малых и средних выборок. На очень малых выборках алгоритм ФОРДИАСИМПТ нецелесообразно использовать из-за низкого уровня значимости коэффициента у по х2 критерию. Вычислительные эксперименты на независимых симпотомокомплексах с средними выборками показали, что результаты обоих алгоритмов приблизительно одинаковы. А в том случае, когда обрабатывается выборка Большого объёма, выявляются существенные расхождения. В качестве примера таких исходных данных для вычислительного эксперимента предлагаются альтернативные показатели с объёмом n = 150. Основные результаты работы алгоритма ФОРДИАСИМПТ представлены в нижеследующих таблицах (для краткости будем обозначать симптомокомплекс как С-комплекс).
Таблица 4. Матрица коэффициентов корреляции.
1 2 3 4 5 6
1 0,293 0,362 -0,0611 -0,0215 -0,0159
0,293 1 0,418 -0,173 0,0189 0,0586
0,362 0,418 1 -0,0161 0,0509 0
-0,0611 -0,173 -0,0161 1 0,23 0,207
-0,0215 0,0189 0,0509 0,23 1 0,39
-0,0159 0,0586 0 0,207 0,39 1
Таблица 5. Матрица значимости ^ коэффициентов по х2 распределению.
1 2 3 4 5 6
1,000 0,999 0,999 0,545 0,207 0,154
0,999 1,000 0,999 0,167 0,183 0,527
0,999 0,999 1,000 0,156 0,466 0,000
0,545 0,167 0,156 1,000 0,995 0,988
0,207 0,183 0,466 0,995 1,000 0,999
0,154 0,527 0,000 0,988 0,999 1,000
При использовании алгоритма КОРА получены следующие характеристики
классов:
Математические структуры и моделирование. 2015. №4(36)
85
Таблица 6. Матрица ортогонального факторного отображения после варимакс вращения.
Фактор №1 Фактор №2
1 0,699 0,0441
2 0,769 0,012
3 0,785 -0,061
4 -0,198 -0,597
5 0,0517 -0,784
6 0,0505 -0,765
Таблица 7. Основные показатели симптомокомплекса №1.
Маргиналы Значения частот и Варианты Апостериорная
априорных вероятностей ответов вероятность
Pi = 0,266 ф = 0,770 1 1 1 0,007
P2 = 0,166 ф2 = 0, 230 0 1 1 0,086
^3 со CD СО /i(xi) = 0, 048 0 0 1 0,705
Pi2 = 0, 113 тс 1—1 -а 0 0 0 0,992
Pi3 = 0,153 /3(xi) = 0, 096 1 0 0 0,914
P23 = 0,1 /i(x2) = 0, 849 1 1 0 0,294
P123 = 0, 08 /2(^2) = 0, 564 1 0 1 0,162
/зЫ = 0, 723 0 1 0 0,837
Таблица 8. Основные показатели симптомокомплекса №2.
Маргиналы Значения частот и Варианты Апостериорная
априорных вероятностей ответов вероятность
pi = 0,66 0i = 0, 746 1 1 1 0,995
P2 = 0, 7 Ф2 = 0, 254 0 1 1 0,972
Рз = 0,51 /i(xi) = 0, 842 0 0 1 0,486
Pi2 = 0, 546 /2(xi) = 0, 858 0 0 0 0,046
Pi3 = 0, 393 /3(xi) = 0, 615 1 0 0 0,220
Р23 = 0, 406 /i(x2) = 0,125 1 1 0 0,913
Pi23 = 0, 333 /2Ы = 0, 235 1 0 1 0,857
/3Ы = 0, 214 0 1 0 0,643
86 В.В. Гольтяпин, В.А. Шовин. Алгоритмы КОРА и ФОРДИАСИМПТ...
Таблица 9. Таблица исходных объектов исследования с частотой встерчаемости в каждом
классе.
Класс А Частота Класс В Частота
0 1 1 1 1 1 0.015625 0 0 0 1 1 1 0.372093
0 0 0 1 0 0 0.078125 1 0 0 0 1 1 0.034884
1 1 1 1 1 1 0.046875 1 0 0 1 1 1 0.058140
1 0 1 1 0 1 0.046875 0 1 0 0 1 0 0.011628
0 0 0 0 0 0 0.171875 0 0 0 0 1 0 0.046512
1 0 0 0 0 1 0.015625 0 0 0 0 1 1 0.197674
0 0 0 0 0 1 0.093750 0 0 1 1 0 1 0.011628
1 0 0 1 0 0 0.015625 1 0 0 1 1 0 0.023256
0 1 0 0 0 1 0.031250 0 0 1 1 1 0 0.034884
1 1 1 0 1 1 0.093750 0 0 0 1 0 1 0.058140
1 0 1 0 0 1 0.015625 0 0 0 1 1 0 0.034884
1 0 1 0 0 0 0.031250 1 0 0 1 0 1 0.011628
1 1 0 0 1 1 0.015625 0 0 1 1 1 1 0.034884
1 0 0 0 0 0 0.078125 0 1 0 1 1 1 0.011628
1 0 1 1 1 1 0.062500 0 0 1 0 1 1 0.034884
1 1 1 0 0 0 0.015625 0 1 0 1 0 1 0.011628
1 1 0 0 0 1 0.015625 1 0 0 0 1 0 0.011628
1 1 0 1 1 1 0.015625
1 1 1 0 1 0 0.015625
0 1 1 0 1 1 0.015625
0 0 1 0 1 0 0.015625
0 1 1 0 0 1 0.015625
0 1 1 0 0 0 0.031250
0 0 1 1 0 0 0.015625
1 1 1 1 1 0 0.015625
1 0 1 0 1 1 0.015625
Математические структуры и моделирование. 2015. №4(36)
87
A123 = {(011), (111), (101), (110)}, Л124 = {(111), (110)}, А125 = {(111), (110)},
Л126 = {(111),(110)}, Л134 = {(111), (110)} , Л135 = {(111),(110)},
Л136 = {(111),(110)}, Л145 = {(000), (100)}, Л156 = {(000), (100)},
Л234 = {(111), (110)} , Л235 = {(111), (110)} , Л236 = {(111),(110)},
A245 = {(000), (100)}, Л246 = {(101), (110)}, Л256 = {(000), (100)},
Л345 = {(000), (100)}, Л346 = {(100)}, Л356 = {(000), (100)},
Л456 = {(100), (000), (001)},
B135 = {(001)} , B235 = {(001)} , B236 = {(100)} , B245 = {(110)} , B356 = {(010)}.
В таблицах №11 и №12 вместо количества голосов в алгоритме КОРА для нераспознанных объектов стоят вопросы.
Т. о. при работе алгоритма КОРА имеются объекты, которые остались не распознанными, а алгоритм ФОРДИАСИМПТ позволяет распознать все объекты исследования. За исключением нераспознанных объектов, алгоритмы сработали одинаково. Для того чтобы понять, почему алгоритм КОРА не смог распознать некоторые объекты, достаточно сравнить нижеследующие распознанные объекты из класса Л с первым из нераспознанных объектов из класса B.
Анализ данной таблицы показывает, что объект класса B не распознан в силу полного перекрытия тройками объектов класса Л. Аналогичная ситуация наблюдается и у остальных нераспознанных объектов. Возможно, подобная ситуация редко встречается в геологии или сейсмологии [11-12], однако, в медицине и социологии этот случай встречается довольно часто [3,5].
Резюмируя изложенное, отметим, что преимуществом алгоритма ФОРДИА-СИМПТ является возможность подтвердить или опровергнуть саму возможность разбиения объектов на два класса, основываясь на полученной статистической информации. Требование минимального пересечения классов является, например, ключевым для медицинских исследований [13,14].
Выводы
В рамках теории латенто-структурной модели сформулированы и доказаны:
1. Утверждение, позволяющее находить относительный объем соответствующего класса через каноническое уравнение прямой и утверждение, позволяющее использовать алгоритм ФОРДИАСИМПТ для распознавания двух образов в пространстве двоичных признаков при независимых симптомокомплексах.
2. Лемма о связи отношения определителей матриц ЦЛ^|| и ||Л„|к|| с произведением вероятностей Д(жг) и f (x)
3. Теорема о сведении решения системы уравнений латентно-структурной модели к решению трёх квадратных уравнений.
На базе полученных теоретических выкладок построен и апробирован вычислительный алгоритм ФОРДИАСИМПТ, позволяющий строить диагностические симптомокомплексы на базе альтернативных данных, ортогональной
88 В.В. Гольтяпин, В.А. Шовин. Алгоритмы КОРА и ФОРДИАСИМПТ...
Таблица 10. Таблица исходных объектов класса А с результатом распознавания алгоритмами
фордиасимпт и кора.
Класс А Вероятность в первом С-комплексе Вероятность во втором С-комплексе Баейсовская вероятность Число голосов в КОРА
0 1 1 1 1 1 0.0861 0.9952 0.0856 4
0 0 0 1 0 0 0.9924 0.2199 0.2182 4
1 1 1 1 1 1 0.0076 0.9952 0.0075 10
1 0 1 1 0 1 0.1622 0.8471 0.1374 4
0 0 0 0 0 0 0.9924 0.0458 0.0455 7
1 0 0 0 0 1 0.9138 0.4856 0.4437 4
0 0 0 0 0 1 0.9924 0.4856 0.4819 4
1 0 0 1 0 0 0.9138 0.2199 0.2009 4
0 1 0 0 0 1 0.8375 0.4856 0.4067 5
1 1 1 0 1 1 0.0076 0.9725 0.0073 11
1 0 1 0 0 1 0.1622 0.4856 0.0788 8
1 0 1 0 0 0 0.1622 0.0458 0.0074 12
1 1 0 0 1 1 0.2942 0.9725 0.2861 5
1 0 0 0 0 0 0.9138 0.0458 0.0419 7
1 0 1 1 1 1 0.1622 0.9952 0.1614 4
1 1 1 0 0 0 0.0076 0.0458 0.0003 18
1 1 0 0 0 1 0.2942 0.4856 0.1429 9
1 1 0 1 1 1 0.2942 0.9952 0.2928 4
1 1 1 0 1 0 0.0076 0.6427 0.0049 11
0 1 1 0 1 1 0.0861 0.9725 0.0837 5
0 0 1 0 1 0 0.7053 0.6427 0.4533 1
0 1 1 0 0 1 0.0861 0.4856 0.0418 9
0 1 1 0 0 0 0.0861 0.0458 0.0039 12
0 0 1 1 0 0 0.7053 0.2199 0.1551 4
1 1 1 1 1 0 0.0076 0.9134 0.0069 11
1 0 1 0 1 1 0.1622 0.9725 0.1577 4
Математические структуры и моделирование. 2015. №4(36)
89
Таблица 11. Таблица исходных объектов класса В с результатом распознавания алгоритмами
фордиасимпт и кора.
Класс В Вероятность в первом С-комплексе Вероятность во втором С-комплексе Баейсовская вероятность Число голосов в КОРА
0 1 1 1 1 1 0.0861 0.9952 0.0856 4
0 0 0 1 0 0 0.9924 0.2199 0.2182 4
1 1 1 1 1 1 0.0076 0.9952 0.0075 10
1 0 1 1 0 1 0.1622 0.8471 0.1374 4
0 0 0 0 0 0 0.9924 0.0458 0.0455 7
1 0 0 0 0 1 0.9138 0.4856 0.4437 4
0 0 0 0 0 1 0.9924 0.4856 0.4819 4
1 0 0 1 0 0 0.9138 0.2199 0.2009 4
0 1 0 0 0 1 0.8375 0.4856 0.4067 5
1 1 1 0 1 1 0.0076 0.9725 0.0073 11
1 0 1 0 0 1 0.1622 0.4856 0.0788 8
1 0 1 0 0 0 0.1622 0.0458 0.0074 12
1 1 0 0 1 1 0.2942 0.9725 0.2861 5
1 0 0 0 0 0 0.9138 0.0458 0.0419 7
1 0 1 1 1 1 0.1622 0.9952 0.1614 4
1 1 1 0 0 0 0.0076 0.0458 0.0003 18
1 1 0 0 0 1 0.2942 0.4856 0.1429 9
1 1 0 1 1 1 0.2942 0.9952 0.2928 4
1 1 1 0 1 0 0.0076 0.6427 0.0049 11
0 1 1 0 1 1 0.0861 0.9725 0.0837 5
0 0 1 0 1 0 0.7053 0.6427 0.4533 1
0 1 1 0 0 1 0.0861 0.4856 0.0418 9
0 1 1 0 0 0 0.0861 0.0458 0.0039 12
0 0 1 1 0 0 0.7053 0.2199 0.1551 4
1 1 1 1 1 0 0.0076 0.9134 0.0069 11
1 0 1 0 1 1 0.1622 0.9725 0.1577 4
90 В.В. Гольтяпин, В.А. Шовин. Алгоритмы КОРА и ФОРДИАСИМПТ...
Таблица 12. Таблица объектов независимого контроля с результатом распознавания алгоритмами ФОРДИАСИМПТ и КОРА.
Класс В Вероятность в первом С-комплексе Вероятность во втором С-комплексе Баейсовская вероятность Число голосов в КОРА
1 1 0 0 0 0 0.2942 0.0458 0.0135 11(А)>1(в)
0 0 1 0 1 1 0.7053 0.9725 0.6859 ?
0 0 1 0 0 1 0.7053 0.4856 0.3425 4(А)> 0(В)
1 1 1 0 1 1 0.0076 0.9725 0.0073 11(А)> 0(В)
0 0 0 1 1 1 0.9924 0.9952 0.9877 0(А)< 2(В)
0 0 0 0 1 1 0.9924 0.9725 0.9651 0(А)< 2(В)
0 0 0 0 0 0 0.9924 0.0458 0.0455 7(A)> 0(В)
1 0 0 1 1 0 0.9138 0.9134 0.8347 0(А)< 2(В)
0 0 0 0 1 0 0.9924 0.6427 0.6378 0(А)< 3(В)
1 1 1 1 1 1 0.0076 0.9952 0.0075 10(А)> 0(В)
1 0 1 1 1 0 0.1622 0.9134 0.1481 4(A)> 0(В)
1 0 0 0 1 0 0.9138 0.6427 0.5872 0(А)< 2(В)
0 1 1 1 0 0 0.0861 0.2199 0.0189 9(A)> 1(В)
0 0 1 1 0 0 0.7053 0.2199 0.1551 4(A)> 0(В)
0 1 0 1 1 1 0.8375 0.9952 0.8335 0(А)< 1(в)
0 1 1 1 0 1 0.0861 0.8471 0.0729 4(A)> 1(В)
1 0 1 0 0 0 0.1622 0.0458 0.0074 12(A)> 0(В)
1 0 0 0 0 0 0.9138 0.0458 0.0419 7(A) > 0(В)
Математические структуры и моделирование. 2015. №4(36)
91
Таблица 13. Первый нераспознанный объект класса B и объекты класса A, имеющие
пересечение по тройкам.
Часть объектов класса А и нераспознанные объекты класса В Вероятность в первом С-комплексе Вероятность во втором С-комплексе Баейсовская вероятность Число голосов в КОРА
1 О 1 1 О 1 0.1622 0.8471 0.1374 4
О О 1 0 1 0 0.7053 0.6427 0.4533 1
О О 1 1 О 0 0.7053 0.2199 0.1551 4
О 1 1 1 1 1 0.0861 0.9952 0.0856 4
О О 0 0 О 1 0.9924 0.4856 0.4819 4
О 1 0 0 О 1 0.8375 0.4856 0.4067 5
О 1 1 0 1 1 0.0861 0.9725 0.0837 5
О О 1 1 О 1 0.7053 0.8471 0.5974 ?
факторной структуры, простейшей латентно-структурной модели и формулы Баейса.
Проведён сравнительный анализ алгоритмов КОРА и ФОРДИАСИМПТ на выборке объёмом 150 объектов. Показана целесообразность применения алгоритма ФОРДИАСИМПТ для независимых симптомокомплексов при адекватной статистической информации.
Литература
1. Иберла К. Факторный анализ. М. : Статистика, 1989.
2. Харман Г. Современный факторный анализ. М. : Статистика, 1972.
3. Гольтяпин В.В. Реализация вычислительного алгоритма метода ФОРДИАСИМПТ на примере альтернативных показателей артериальной гипертензии // Современные наукоёмкие технологии 2014. № 11. С. 50-55.
4. Гольтяпин В.В. Вероятностный метод формирования симтомокомплексов. // Математические структуры и моделирование. 2014. № 4(32). С. 53-59.
5. Осипов Г.В. Методы измерения в социологии. М. : Наука, 2003.
6. Lazarsfeld P.F. The logical and mathematical foundation of latent structure analysis. 1950 In: Measurement and Prediction. N.Y.
7. Kaiser H.F. The varimax criterion for analytic rotation in factor analysis // Psyhometrika. 1958. № 23. С. 187-200.
8. Saunders D. The rationale for an “oblimax” method of transformation in factor analysis // Psyhometrika. 1961. № 26. С. 317-324.
9. Вапник B.H. Алгоритм обучения распознаванию образов. М. : Советское радио, 1973.
10. Журавлев Ю.И. Математические основы теории прогнозирования (курс лекций). 2008, МГУ.
92 В.В. Гольтяпин, В.А. Шовин. Алгоритмы КОРА и ФОРДИАСИМПТ...
11. Платоненко И.М. Исследование и реализация алгоритмов распознавания по представительным наборам на базе решения специальных систем булевых уравнений: диссертация на соискание учёной степени кандидата физико-математических наук: 01.01.09. 1973. Москва.
12. Завьялов А.Д. Среднесрочный прогноз землетрясений по комплексу признаков: диссертация на соискание ученой степени доктора физико-математических наук: 25.00.10. 2003. Москва.
13. Гольтяпин В.В., Друк И.В., Нечаева Г.И. Возможности практической реализации принципа динамического наблюдения пациентов с недифференцированной дисплазией соединительной ткани и риском развития неблагоприятных сердечнососудистых проявлений // Справочник врача общей практики. 2014. № 19. С. 2737.
14. Гольтяпин В.В., Шовин В.А. Косоугольная факторная модель артериальной гипертензии первой стадии // Вестник Омского университета. 2010. № 4. С. 120-128.
kora and fordiasimpt algorithms as methods of recognition of the two images in the space of binary features
V.V. GoLTYApiN
Ph.D.(Phys.-Math.}, Associate Professor, Senior Reseaeher, e-mail: [email protected]
V.A. ShoviN
Researcher, e-mail: [email protected]
Omsk Branch of the Federal State budget institution Science Institute of Mathematics
S.L. Soboleva of Siberian Branch of RAS
AbsTrAeT. In this article we proved the assertions, lemma and theorem allowing us to find posterior probabilities based on binary data of orthogonal factor structure. On the basis of theoretical calculations there was build FORDIASIMPT computational algorithm allowing us to build diagnostic symptom complexes based on probabilistic method of pattern recognition. A comparative analysis of FORDIASIMPT and KORA algorithms as a methods of recognition of the two images in the space of binary characters in the case of independent symptom complexes with adequate statistical information is conducted.
KeYwords: symptom, factor model, the latent model, correlation analysis, KORA algorithm, the algorithm FORDIASIMPT.