структуры и моделирование 2014. № 4(32). С. 53-58
УДК 519.237.07
ВЕРОЯТНОСТНЫЙ МЕТОД ФОРМИРОВАНИЯ СИМПТОМОКОМПЛЕКСОВ
В.В. Гольтяпин
старший научный сотрудник, к.ф.-м.н., доцент, e-mail: [email protected]
Омский филиал Учреждения Российской академии наук Института математики им. С.Л. Соболева Сибирского отделения РАН, г. Омск
Аннотация. Разработан метод и построен вычислительный алгоритм, позволяющие формировать диагностические симтокомплексы с помощью вероятностного метода распознавания. В рамках теории латентного анализа сформулированы утверждение, лемма и теорема, позволяющие находить апостериорные вероятности на базе альтернативных показателей с использованием ортогональной факторной структуры.
Ключевые слова: симптомокомплекс, факторная модель, латентная модель, корреляционный анализ, маргинальное распределение, маргинал.
1. Введение
Известно, что многомерный факторный анализ применяется преимущественно для обработки количественных показателей. В основе любого факторного исследования лежит корреляционная матрица, полученная на базе исходных количественных показателей, имеющих нормальное распределение или хотя бы близкое к нему [1, 2]. Но, к сожалению, не всегда переменные могут быть измерены количественно. Особо часто встречаются переменные, которые обладают альтернативной вариацией. Нижеследующий математический аппарат позволяет использовать модели факторного анализа для обработки альтернативных данных и формировать зависимые и независимые симптомокомплексы с помощью латентного анализа.
2. Постановка задачи
Обозначим количество объектов исследования как n — объем выборки, а количество измеряемых параметров как m — размерность выборки. Тогда исходные альтернативные данные для факторного исследования представляются в виде таблицы, столбцы которой — объекты исследования, а строки — значения измеряемых параметров у конкретного объекта. Далее полученная таблица записывается в виде матрицы Y размерности m х n. Элемент этой матрицы обозначим как yj, где индекс i=1, ...,m относится к параметрам, а индекс j=1,..., n - к объектам, а — число единиц в i-ой строке матрицы Y.
Каждый столбец этой матрицы можно рассматривать в виде вектора-объекта исследования и обозначать у = (уу,...,уту). Стандартное отклонение и выборочное математическое ожидание ¿-го показателя обозначим соответственно
/ 1 ( а2\ _ «г
как вг = а -- а»--и уг = —.
У п — 1 \ п ) п
Для альтернативных данных модель факторного анализа предлагается в
следующем виде:
г = аР, (1)
где г — матрица стандартизованных данных, полученных по формуле
_ а
= угу—й у п (2)
" 1 'а. —
аг
п — 1 \ п
размерности тх п, А — матрица факторного отображения размерности тх г, Р — матрица факторных значений размерности г х п, г — количество выделяемых факторов. Ниже следующая теорема позволяет нам строить факторные модели на альтернативных показателях.
Теорема 1. Фундаментальная теорема Терстоуна справедлива для альтернативных данных [1].
Полагая отсутствие корреляционной зависимости между факторами, матрицу весовых нагрузок факторов А можно находить различными ортогональными методами факторного анализа (метод главных факторов с варимакс вращением, метод минимальных остатков, метод максимума правдоподобия и т.д.) [1, 2].
Для определения количества выделяемых факторов предлагается выбрать одну или несколько процедур: определение, основанное на предварительной информации; определение, основанное на собственных значениях факторов (критерий «каменистой осыпи»); определение на основе процента объяснённой дисперсии; метод расщепления и критерии значимости.
3. Вероятностный метод формирования диагностических симптомокомплексов
Суть латентного анализа состоит в обработке теста или анкеты, состоящей из г вопросов, которые относятся к изучаемой скрытой характеристике. Выделенные вопросы называют явными переменными, а скрытую характеристику — латентной переменной. В теории тестов скрытая характеристика интерпретируется как одномерный латентный континуум (непрерывная латентная переменная) [4, 5]. Переходя непосредственно к построению латентной модели на базе альтернативных данных, введём следующие обозначения: рг — отношение числа лиц, положительно ответивших на ¿-ый вопрос к общему числу респондентов; ру — отношение числа лиц, положительно ответивших на ¿-ый
и ]-ый вопросы к общему числу респондентов; — отношение числа лиц, положительно ответивших на г-ый и отрицательно на ]-ый вопросы, к общему числу респондентов; щ — отношение числа лиц, отрицательно ответивших на г-ый и ]-ый вопросы к общему числу респондентов; — отношение числа лиц, положительно ответивших на г-ый, ]-ый и к-ый вопросы, к общему числу респондентов; Р^к — отношение числа лиц, положительно ответивших на г-ый и к-ый вопросы и отрицательно на ]-ый, к общему числу респондентов; щк — отношение числа лиц, отрицательно ответивших на г-ый и ]-ый вопросы при положительном ответе на к-ый вопрос, к общему числу респондентов; ф(хг) — частота, соответствующая относительному объему г-го класса; ^(хг) — вероятность положительного ответа респондента на ]-ый вопрос, находясь в г-ом классе; (хг) — вероятность положительного ответа респондента на ]-ый и к-ый вопросы, находясь в г-ом классе; ¡\23(хг) — вероятность положительного ответа респондента на первый, второй и третий вопросы, находясь в г-ом классе.
Используя эти данные при построении латентной модели на базе альтернативных при наличии трех вопросов и двух латентных классов, получаем дискретные классы респондентов и разрешимую систему уравнений с дискретными переменными:
/
ф(хг) + ф(х2) = 1 Р1 = Шф> (хг) + ¡\(х2)ф(х2) Р2 = 12(хг)ф(хг) + ¡2Ыф(х2) Рз = ¡з(х1)ф(х1) + / 3 (х2)ф(х2)
(3)
Р12 = 112(хг)ф(х1) + /п(х2 )ф(х2) Р13 = /1з(хг)ф(х1) + ¡1 (х2)ф(х2) Р23 = ¡2з(х\)ф(хг) + ¡2з(х2 )ф(х2) Р123 = 112з(хг)ф(х1) + ¡12з(х2)ф(х2).
<
Для решения системы уравнения (3) предлагается воспользоваться результатами и формулами из ниже следующего утверждения, леммы и теоремы.
Утверждение. При известности вероятностей латентной модели с двумя классами и тремя вопросами нахождение частоты ф(хг) сводится к каноническому уравнению прямой с точкой (Р\,Р2,Р3) и направляющим вектором
П = (1г(хг) - ¡1(х] ) , ¡2 (хг) - ¡2 (х] ),!'з(хг) - ¡3(х] )) ,
где г = ].
Лемма. Отношение условного произведения трёх вопросов к произведению двух вопросов в латентной модели равно произведению вероятностей положительного ответа респондента на условный вопрос.
Теорема 2. Наличие всех маргиналов для латентной модели с двумя классами и тремя вопросами позволяет свести поиск всех неизвестных вероятностей к решению трёх квадратных уравнений.
Далее предполагается совместное использование латентной модели и ортогональной факторной структуры для построения алгоритма метода. Первая задача метода — сформировать набор симптомокомплексов, опираясь на ортогональную факторную структуру с учётом уровня значимости ^ коэффициента по X2 критерию. Вторая задача метода — для каждого симптомокомплекса найти диагностическую шкалу на базе простейшей латентно-структурной модели.
Для упрощения в целях дальнейшего изложения введём функцию
I !гк(х), если уу = 1 Ик (Угу )Н ~ ('), 1 (4)
1 — ¡гк (XI), если Угу = 0,
где / — номер класса и может принимать значение 1 или 2, к — номер симптомокомплекса, ¡гк(х1) — вероятность положительного ответа респондента из /-ого класса на ¿-ый вопрос, выбранный как параметр, составляющий симпто-мокомплекс. Условием вхождения параметров в зависимый или независимый симтокомплекс является значение весовых нагрузок соответствующего фактора на уровне не ниже 0,5.
Вероятность принадлежности первому классу вычисляется посредством формулы Баейса с использованием введённой функции
р(1 |у . ш . у ) = 71к(Уаи)Ък(Уьк3)Ък(Усу) (5)
р(1|Уаку , УЬку , Уск] ) = Е 27гк (уаку )7гк (^ .^ (у^у ) ' (5)
г=1
где ак, Ьк, ск — номера трёх параметров к-го симптомокомплекса.
Алгоритм метода:
1. Из матрицы У путём элементарного преобразования получаем матрицу г размерности т х п.
2. Вычисляем корреляционную матрицу Д.
3. С целью исключения незначимых показателей вычисляем вероятностные значения уровней зависимости по формуле х2 = п ■ ^ при единичной степени свободы.
4. Определяем наименьшее количество выделяемых факторов (критерий Гуттмана, критерий «каменной осыпи» или другой адекватный критерий) [1].
5. Находим общности любым из известных методов (лучше взять метод минимальных остатков) [1, 2, 6].
6. Вычисляем первичную ортогональную матрицу весовых нагрузок факторов А размерности т х г (метод главных факторов, метод минимальных остатков или любой другой адекватный метод) [1, 2, 6].
7. Полученную на предыдущем шаге матрицу весовых нагрузок подвергаем ортогональномоу вращению в соответствии с варимакс критерием [2, 6].
8. Осуществляем анализ ортогональной факторной структуры, полученной после вращения, и формируем зависимые и независимые симптомоком-плексы.
9. Для каждого симптомокомплекса формируем диагностическую шкалу, вычисляя маргиналы и решая систему уравнений (3), используя результаты теоремы 2.
10. По формуле (4) вычисляем частные апостериорные вероятности для всех объектов исследования.
4. Заключение
Дано математическое обоснование возможности применения альтернативных данных в факторном исследовании. Для латенто-структурной модели сформулированы и доказаны: Утверждение, позволяющее находить относительный объем соответствующего класса через каноническое уравнение прямой; Лемма о соотношении условного произведения трёх вопросов к произведению двух вопросов; Теорема о сведении решения системы уравнений латентно-структурной модели к решению трёх квадратных уравнений.
На базе полученных теоретических выкладок построен вычислительный алгоритм, позволяющий строить диагностические симтокомплексы на базе альтернативных данных, оптимальной ортогональной факторной структуры, простейшей латентно-структурной модели и формулы Баейса.
Литература
1. Иберла К. Факторный анализ. М.: Статистика, 1980.
2. Харман Г. Современный факторный анализ. М.: Статистика, 1972.
3. Кендалл М.Дж., Стюарт А.Т. Статистические выводы и связи. М.: Наука 1973.
4. Осипов Г.В. Методы измерения в социологии. М.: Наука, 2003.
5. Lazarsfeld P.F. The logical and mathematical foundation of latent structure analysis // Measurement and Prediction. N.Y., 1950.
6. Гольтяпин В.В. Вычислительные аспекты метода минимальных остатков при разрешении варианта Хейвуда // Сибирский журнал индустриальной математики. 2005. Том VII, № 3(23). С. 145-151.
THE PROBABILISTIC METHOD OF THE SET OF SYMPTOMS FORMATION
V.V. Goltyapin
PhD(Math.), Associate Professor, Senior Reseacher, e-mail: [email protected]
Omsk Branch of Sobolev Institute of Mathematics, Siberian Branch of the Russian
Academy of Science, Omsk
Abstract. This paper presents a method for calculating the redistribution of the initial and / or ongoing resources in a wide range of practical problems of optimal control. The presented method is based on a special extension of the dynamic equations of the system that formalizes the original problem. Additional terms of the right sides of the equations describe the managed switch in currents linking the components of the system state. Within a given intensity-sharing switch allows arbitrary reallocation of module components (resources) while maintaining their current amount. The form of the function, majorizing flow rate, is determined by the type of task. In problems of the first type accommodation of the initial resources is a part of optimizable initial conditions, and the reallocation of resources to the control interval is prohibited or physically impossible. In problems of the second type initial conditions are hard coded, but it is allowed to reallocate current total resources in the control interval. In problems of the third type it is allowed to optimize the initial resource accommodation as well as the reallocation of resources in the control interval.
Keywords: accommodation, reallocation, resources, flows, switching, dynamic systems, neural networks.