Научная статья на тему 'Идентифицируемость моделей структурных уравнений с латентными переменными'

Идентифицируемость моделей структурных уравнений с латентными переменными Текст научной статьи по специальности «Математика»

CC BY
44
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТРУКТУРНЫЕ УРАВНЕНИЯ / ЛАТЕНТНЫЕ ПЕРЕМЕННЫЕ / ИДЕНТИФИЦИРУЕМОСТЬ / STRUCTURAL EQUATIONS / LATENT VARIABLES / IDENTIFIABILITY

Аннотация научной статьи по математике, автор научной работы — Стафеев Сергей Вячеславович

В статье получены условия почти всюду локальной идентифицируемости для одного класса моделей структурных уравнений с латентными переменными.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFIABILITY OF STRUCTURAL EQUATION MODELS WITH LATENT VARIABLES

In this paper the problem of identifiability of structural equation models with latent variables is considered. The conditions of the almost everywhere local identifiability for such models are obtained.

Текст научной работы на тему «Идентифицируемость моделей структурных уравнений с латентными переменными»

Труды Карельского научного центра РАН № 7. 2019. С. 53-57 DOI: 10.17076/mat1086

УДК 519.237.7

ИДЕНТИФИЦИРУЕМОСТЬ МОДЕЛЕЙ СТРУКТУРНЫХ УРАВНЕНИЙ С ЛАТЕНТНЫМИ ПЕРЕМЕННЫМИ

С. В. Стафеев

Институт прикладных математических исследований КарНЦ РАН, ФИЦ «Карельский научный центр РАН», Петрозаводск, Россия

В статье получены условия почти всюду локальной идентифицируемости для одного класса моделей структурных уравнений с латентными переменными.

Ключевые слова: структурные уравнения; латентные переменные; идентифицируемость.

S. V. Stafeev. IDENTIFIABILITY OF STRUCTURAL EQUATION MODELS WITH LATENT VARIABLES

In this paper the problem of identifiability of structural equation models with latent variables is considered. The conditions of the almost everywhere local identifiability for such models are obtained.

Keywords: structural equations; latent variables; identifiability.

МОДЕЛЬ

Пусть О = (V,, Е) - смешанный граф с множеством вершин V = {1,...,п} и множеством ребер Е. Множество ребер Е графа О состоит из ориентированных (г ^ 3) и двуориентиро-ванных (г о 3) ребер.

Рассмотрим следующую, связанную с графом О, систему структурных уравнений с латентными переменными [2]:

X = Б*Х + ЛН + е, (1)

где X = (Х1,..., Хп)г - вектор наблюдаемых случайных величин с матрицей ковариаций £ = ); Н = (Н1,...,Нк) - вектор независимых нормально распределенных латентных (скрытых) случайных величин с М(Н) = 0, и М(Н)2 = 1; Л = ) е Мкхп; Б = (Ъ^) е Мпхп, причем Ъ^ = 0, если г ^ 3 / Е. Вектор остатков е = (е1,..., еп)г имеет нормальное

распределение с нулевым вектором математических ожиданий и неизвестной положительно определенной матрицей ковариаций О = (ш^), причем = 0, если г о 3 / Е. Мы будем предполагать, что векторы Н и е являются независимыми.

Таким образом, с помощью графа О постулируются некоторые нули в матрицах Б и О. Вектор параметров в = (Л, Б, О) модели (1) состоит из матрицы Л и ненулевых элементов матриц Б и О. Пусть РЮу - множество п х п симметричных положительно определенных матриц, Вс - множество матриц, для которых матрица I—Б обратима. Определим параметрическое множество модели (1): Ос =

{в : Л = ) е Мкхп, Б еВс, О е РБУ}.

Пусть в е Ос. Тогда матрица ковариаций наблюдаемых случайных величин имеет вид:

£ = £(в) = (I — Б)-(О + ЛЛ*)(1 — Б)-1. (2)

®

Пусть Ыс - множество всех матриц, допускающих разложение (2). Таким образом, граф О задает следующее семейство нормальных распределений:

= [Ы(0, £):£ е Ыс}. (3)

Условия ИДЕНТИФИЦИРУЕМОСТИ

Одной из наиболее важных проблем, связанных с моделями, содержащими латентные переменные (в частности, с моделью (1)), является проблема параметрической идентифицируемости [4, 6]. Данная проблема заключается в ответе на вопрос о возможности однозначного определения неизвестных параметров модели по совместному распределению наблюдаемых случайных величин.

Рассмотрим вероятностно-статистическую модель М(в), заданную семейством распределений [Р0,в е в}.

Определение 1. [6] Модель М(в) называется идентифицируемой, если любым различным в е в и в е в соответствуют различные распределения и Р^.

Модель М(в) называется локально идентифицируемой, для любого в е в найдется конечное число таких в е в, в / в, что Р^ = .

Определение 2. [6] Модель М(в) называется почти всюду (п.в.) идентифицируемой (п.в. локально идентифицируемой), если она является идентифицируемой (локально идентифицируемой) при в е в С в, а множество в \ в имеет меру нуль.

В нашем случае модель задается семейством распределений (3). Легко видеть, что матрица Л модели (1) может быть определена только с точностью до ортогонального преобразования. Поэтому целеобразно считать, что модель (1) идентифицируема, если по матрице £ матрица Л определяется с точностью до ортогонального преобразования, а элементы матриц О и В определяются однозначно. Для того чтобы оставаться в рамках определений 1 и 2, будем считать матрицы Л и Л различимыми, если не существует такой ортогональной матрицы Q, что Л = ^Л. Таким образом, модель (1) называется идентифицируемой, если любым различным в е вс и в е вс соответствуют различные матрицы ковариаций £(в) и £(в').

В работе [4] получены достаточные условия п.в. локальной параметрической идентифицируемости модели (1) в случае, когда О является простым ациклическим графом (т. е. гра-

фом, в котором любые две различные вершины могут быть соединены только одним ребром и он не содержит ориентированных циклов) и к = 1. В данной работе получены достаточные условия п.в. локальной идентифицируемости для произвольного к.

Пусть О = (V, Е) - дополнительный к О граф. Образуем граф Я = (V, Е), где V = [1 = (%!,..., %к), 1 ^ ¿1 < ¿2 < ... < ^ к}, а Е = [(1, .011 = (¿1,...,1к), j = (Э1,...,Эк), (г8,3г) е

Е,в,1 = 1,..., к}. (Заметим, что граф Я использовался в работе [1] для решения вопроса об идентифицируемости модели факторного анализа с зависимыми остатками.)

Теорема 1. Пусть О - простой ациклический граф. Модель (1) будет п.в. локально идентифицируемой при в е вс, если граф Я содержит подграф Я' = (V', Е'), каждая компонента связности которого содержит нечетный простой цикл и и^-у' 1 = V.

Доказательство. Соотношение (2) задает отображение

V :вс ^ . (4)

Пусть § - число ребер графа О. Элементы матрицы Л по матрице ЛЛ*, максимальный ранг которой равен к, восстанавливаются с точностью до ортогонального преобразования, поэтому матрица Якоби 3(в) отображения V имеет ранг, меньший или равный К = в + п + пк — 2 к (к — 1). Нетрудно показать, что модель будет локально идентифицируемой в некоторой окрестности в* е в, если ранг матрицы 3(в*) равен К.

Так как элементы матрицы 3 (в) являются полиномами относительно параметров модели, то ее ранг будет почти всюду при в е в максимален [4, 6]. (Максимальный ранг матрицы 3(в) называют размерностью модели.) Поэтому, если мы покажем, что существует такое в* е в, что ранг матрицы Якоби 3(в*) равен К, теорема будет доказана.

Произведем невырожденную замену параметров:

А = (1 — В)-* Л. (5)

Соотношение (2) принимает следующий вид:

£ = (I — В)-*П(1 — В )-1 + АА(6)

Очевидно, что ранг матриц Якоби отображений, заданных соотношениями (2) и (6), совпадает. Далее находим матрицу Якоби отображения (6).

Используя свойства матричных производных, мы получаем:

для i = 1,..., к, j = 1, ...,n '2a

Hj,

^ = < Z

Л

для i о j e E

если s = l = i; если l = i, s = i; если l = i, s = i; в противном случае;

\-t.

= (1 — Б)- (О'ш..)(1 — Б)

• для г — 3 е Е

= [(1 — Б)-% (О)(1 — Б)-* + (1 — Б)-1(О)[(1 — Б)-%з — (I — Б)-1(1 — Б(I — Б)-1(О)(1 — Б)-—(I — Б )-1 (ОXI — Б— Б * (I — Б = (I — Б)-1Б>Ь ^ £ + £(Б%^ (I — Б)-*.

Выберем в* е О, при котором: Ъ^ = 0, г — 3 е Е, ш^ =0, г о 3 е Е, шjj = 1, 3 = 1, ...,п. Для г,1 = 1, ...,п, мы получаем:

• для г о 3 Е

{1, если г = г,3 = I или г = 1,3 = г,

0, в противном случае;

• для г — 3 Е

{1, если г = г,3 = I или г = 1,3 = к,

0, в противном случае.

Пусть C = AAt и Eu = {i — j : (i,j) e E, (i, i),i = 1,..., n}. Обозначим:

/ = dcj _/ = r dajj drTij i c j = da ' °ij = { дш , db }

Образуем матрицы: M11 = (c'ij)i-jeEu , M21 = (Cij)i-j£E,

M12 = {a[j)i-jE , M22 = (*ij)iZE.

Легко видеть, что матрица J(9*) с помощью перестановки строк и столбцов может быть приведена к виду

(Mil Mi2\ М21 М22 ,

где матрица М12 - единичная матрица, а М22 - матрица, все элементы которой равны нулю.

Очевидно матрица J(9*) имеет ранг R, если ранг матрицы М21 равен пк — 2 к (к — 1). Предположим, что любые к строк матрицы A линейно независимы. (Заметим, что это условие выполняется п.в. при A eRnxk.) Применяя результат работы [1], получаем, что если граф G содержит компоненту связности

Я' = (V', Е') с нечетным простым циклом и и^у7 1 = V, то все элементы матрицы С однозначно восстанавливаются по множеству элементов {е^,г — 3 еЕ}. Отсюда следует, что ранг матрицы М21 п.в. при А е Мпхк равен пк — 2 к (к — 1). Теорема доказана.

Предположим, что О - полный граф, содержащий не менее 2к + 1 вершин. Тогда очевидно, что граф Я является связным. Граф О также содержит нечетный цикл длины 2к + 1: 11 — ... — 12к+1 — 11, где Ч = {(2(к — т) + I + 3)та6(2к + 1), I = 1,..., 2к + 1.

Таким образом, в этом случае условия теоремы выполнены. Например, для случая к = 3 цикл длины 7 будет:

(1, 6, 4) — (2, 7, 5) — (3,1, 6) — (4, 2, 7) — (5, 3,1) — (6, 4, 2) — (7, 5, 3) — (1, 6, 4).

Верна следующая теорема.

Теорема 2. Пусть п ^ 4к+1. Если О является лесом, в котором нет вершины с не менее чем с п — к смежными вершинами, то модель (1)^ п.в. локально идентифицируема при в е

Доказательство. Ввиду того что лес является двудольным графом, множество вершин графа О можно представить в виде объединения двух непересекающихся подмножеств V1 и V2 несоединенных между собой вершин. Пусть (для определенности) множество V1 содержит не менее 2к + 1 вершин. Индуцированный подграф графа О с множеством вершин V1 является связным и содержит нечетный цикл.

Если любая вершина множества V2 дополнительного графа О соединена ребрами с более чем к вершинами множества V1, то нетрудно показать, что условия теоремы 1 выполнены. Предположим, что некоторая вершина ¿1 е V2 соединена ребрами с менее чем к вершинами множества V1. Тогда, как легко видеть, любая вершина множества V2 \ %1 соединена с не менее чем к вершинами множества V1, так как в противном случае граф О имел бы неориентированные циклы. Таким образом, и в этом случае условия теоремы 1 выполнены. Теорема доказана.

СТРУКТУРНЫЕ УРАВНЕНИЯ И УСЛОВНЫЕ НЕЗАВИСИМОСТИ

С помощью смешанного графа О удобно представлять условные независимости среди случайных величин множества {Х1 ,...,Хп}. Введем необходимые определения [6].

55

Определение 3. Простая цепь, принадлежащая графу О, содержит тупиковую вершину к, если она содержит один из подграфов: г1 — к ^ ¿2, ¿1 — к о ¿2, ¿1 о к ^ ¿2, г1 о к о ¿2.

Определение 4. Вершины % и з называются ^-связанными множеством вершин 5 С V, если граф О содержит такую простую цепь, соединяющую ъ и з, у которой все тупиковые вершины принадлежат 5, а не тупиковые не принадлежат. Вершины { и з называются ^-отделимыми множеством вершин 5, если они не являются ^-связанными.

Из ^-отделимости вершин { и з множеством вершин 5 следует условная независимость соответствующих случайных величин X± и Х^ при данном Xs = [Х3, в е 5} [6].

Определим граф О = (V, Е), где множество ребер Е состоит из всех ребер множества Е, кроме таких ребер I — з е Е, для которых найдется простая цепь графа О, которая соединяет { и ^ и содержит только тупиковые вершины. Очевидно, что I и з будут ^-отделимы множеством V \ [¿,з}, при { — з е Е.В случае нормального распределения с матрицей кова-риаций £ это будет равносильно равенству нулю соответствующих элементов матрицы £-1.

Определим граф С = (V, Е), где V = [1 = (¿1,...,1к), 1 ^ ¿1 < ¿2 < ... < ¿к ^ к}, а Е = [(1,|» = (¿1,...^),. = (31,...,3к), (¿8,3г) е Е,в,1 = 1, ...,к}.

Очевидно, что граф С является подграфом графа Я.

В следующей теореме сформулированы достаточные условия п.в. идентифицируемости модели (1).

Теорема 3. Пусть О - простой ациклический граф. Модель (1) будет п.в. идентифицируемой при в е в, если граф С содержит компоненту связности С' = ((V', Е') с нечетным простым циклом и и^-у' 1 = V.

Доказательство. Пусть £с = (I — В)-*О(1 — В)-1. Из определения графа О = (V, Е) следует, что для элементов матрицы £-1 = (а^С) выполнено следующее условие.

(Г%С = 0, если I — ] е Е. (7)

Легко видеть, что из (6) следует

£-1 = £-1 — £—А(1к + А'£С1А)А'£С1. (8)

Нетрудно показать, что каждый (к+1) х (к+1) минор матрицы D = £-1A(Ik+A1 £-1 A) A равен нулю, а при предположении, что любые к строк матрицы A линейно независимы, каждый к х к минор матрицы D не равен нулю. Теперь, используя результат работы [1] и соотношение (8), можно показать, что множество элементов матрицы D п.в. однозначно выражается через множество элементов {dij, i —j € E}. Таким образом, по матрице £ мы можем однозначно восстановить элементы матрицы £g. В [3] показано, что по £g параметры {B, Q} п.в. определяются однозначно. Используя (6), мы однозначно определяем AAt, а значит, (с помощью (5)) и матрицу ЛЛ1. Таким образом, матрица Л определена с точностью до ортогонального преобразования. Теорема доказана.

Финансовое обеспечение исследований осуществлялось из средств федерального бюджета на выполнение государственного задания КарНЦ РАН (Институт прикладных математических исследований КарНЦ РАН).

ЛИТЕРАТУРА

1. Стафеев С. В. Об условиях глобальной идентифицируемости для моделей факторного анализа // Труды КарНЦ РАН. 2011. № 2. С. 111114.

2. Boollen K. A. Structural equations with latent variables. New York: John Wiley and Sons, 1990.

3. Carlos B., Pearl J. A new identification condition for recursive models with correlated errors // Struct. Equ. Model. 2002. Vol. 9, no. 4. P. 459—474.

4. Drton M. Algebraic problems in structural equation modeling // The 50th Anniv. of Grobner Bases, Mathematical Society of Japan. Tokyo, Japan, 2018. P. 35-86. doi: 10.2969/aspm/07710035.

5. Leung D., Drton M, Hara H. Identifiability of directed Gaussian graphical models with one latent source // Electron. J. Statist. 2016. Vol. 10, no. 1. P. 394-422. doi: 10.1214/16-EJS1111.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Maathuis M., Drton M., Lauritzen S., Wainwright M. (Eds) Handbook of Graphical Models. Chapman & Hall/CRC., 2018. 536 p.

Поступила в редакцию 17.05.2019

References

1. Stafeev S. V. Ob usloviyakh global'noi identifitsiruemosti dlya modelei faktornogo analiza [On global identifiability conditions of factor analysis models]. Trudy KarNTs RAN [Trans. KarRC RAS]. 2011. No. 2. P. 111-114.

2. Boollen K. A. Structural equations with latent variables. New York: John Wiley and Sons, 1990.

3. Carlos B, Pearl J. A new identification condition for recursive models with correlated errors. Struct. Equ. Model. 2002. Vol. 9, no. 4. P. 459-474.

СВЕДЕНИЯ ОБ АВТОРБ:

Стафеев Сергей Вячеславович

младший научный сотрудник, к. ф.-м. н.

Институт прикладных математических исследований

КарНЦ РАН, Федеральный исследовательский центр

«Карельский научный центр РАН»

ул. Пушкинская, 11, Петрозаводск,

Республика Карелия, Россия, 185910

эл. почта: stafeev@krc.karelia.ru

тел.: (8142) 763370

4. Drton M. Algebraic problems in structural equation modeling. The 50th Anniv. of Grobner Bases, Mathematical Society of Japan. Tokyo, Japan, 2018. P. 35-86. doi: 10.2969/aspm/07710035.

5. Leung D., Drton M, Hara H. Identifiability of directed Gaussian graphical models with one latent source. Electron. J. Statist. 2016. Vol. 10, no. 1. P. 394-422. doi: 10.1214/16-EJS1111.

6. Maathuis M., Drton M., Lauritzen S., Wainwright M. (Eds) Handbook of Graphical Models. Chapman & Hall/CRC., 2018. 536 p.

Received May 17, 2019

CONTRIBUTOR:

Stafeev, Sergei

Institute of Applied Mathematical Research,

Karelian Research Centre,

Russian Academy of Sciences

11 Pushkinskaya St., 185910 Petrozavodsk,

Karelia, Russia

e-mail: stafeev@krc.karelia.ru

tel.: (8142) 763370

i Надоели баннеры? Вы всегда можете отключить рекламу.