Научный вестник НГТУ. -2013. -№ 1(50)
УДК 519.233.22
Устойчивое оценивание параметров модели по многомерным неоднородным неполным данным
Д.В. лисицин
В работе развивается теория оптимального оценивания неизвестных параметров статистической модели по многомерным неоднородным данным. Данные представляются в числовой форме, но не обязательно являются числовыми, например, могут быть качественными или разнотипными. Оценки обеспечивают устойчивость к отклонению распределения наблюдений от постулированного. В основе теории лежит использование подхода Ф. Хампеля, связанного с функцией влияния, и подхода A.M. Шурыгина, связанного с байесовским точечным засорением распределения. Отдельное внимание уделяется случаю неполных данных, получены условия, при которых механизм порождения пропусков можно игнорировать.
Ключевые слова: оценивание параметров, робастность, функция влияния, неоднородные данные, неполные данные, разнотипные данные.
ВВЕДЕНИЕ
При изучении сложных объектов их состояние может описываться большим числом характеристик. Нередко эти характеристики измерены в разных шкалах, тогда наблюдения за изучаемым объектом являются разнотипными [1]. Часто выделяют непрерывные, дихотомические, счетные, номинальные, порядковые и смешанные (полунепрерывные) переменные .
Если в наблюдениях характеристик не всегда можно зафиксировать их значения, то данные являются неполными, содержат пропуски. С такой ситуацией часто сталкиваются при моделировании многомерных данных 12—41. Однако к задаче моделирования по данным с пропусками может быть сведен более широкий круг задач. Например, при наличии цензурирован-ных выборок может использоваться моделирование разнотипных переменных по неполным данным [2]. При некотором сочетании условий переменная вообще может быть не определена, как, например, в двухчастной модели полунепрерывных данных, где также используется моделирование разнотипных переменных по неполным данным [5].
Если постулирована параметрическая модель, то оценивание ее параметров может производиться по методу максимального правдоподобия [2]. Однако, в условиях отклонения реального распределения переменных от постулированного (модельного), такие оценки часто оказываются неустойчивыми.
Для решения этой проблемы разработаны различные подходы, приводящие к устойчивым (робастным) процедурам [6-10]. Тем не менее, теория робастности применяется, в основном, при моделировании непрерывных случайных величин. Устойчивым методам моделирования дискретных и разнотипных переменных уделяется меньше внимания, за исключением, пожалуй, лишь дихотомических и счетных переменных, а также случая цензурированных вы-
Для случая пропусков в многомерных данных в [11-13] предлагаются робастные методы оценивания параметров сдвига и масштаба модели многомерной, главным образом, нормаль-
Статья получена 19 октября 2012 г. Работа выполнена при частичной поддержке гранта Президента РФ (№ МД-2690.2008.9)
ной случайной величины, при этом базируются данные методы на эвристических суждениях. Можно получить робастные оценки параметров модели, используя метод максимального правдоподобия с переходом к стьюдентовскому распределению (см., например, [14]).
В целом следует отметить, что современные подходы к устойчивому моделированию часто носят эвристический характер и являются специфическими для переменных конкретного типа или конкретного типа модели.
В данной работе рассматриваются достаточно общие методы оптимального оценивания неизвестных параметров модели по многомерным неоднородным данным. Данные представляются в числовой форме, но не обязательно являются числовыми. Так, числовая кодировка обычно используется для значений качественных (номинальных, порядковых) переменных. В более общем случае данные могут быть разнотипными.
Получаемые методы оценивания являются устойчивыми к отклонению распределения наблюдений от модельного. В основе представленной теории лежит использование подхода Ф. Хампеля [7], связанного с функцией влияния, и подхода А.М. Шурыгина [8], связанного с байесовским точечным засорением модельного распределения.
Если подход Ф. Хампеля развит на многопараметрический случай для данных достаточно общей природы, то A.M. Шурыгин развил теорию для количественных данных и однопара-метрических задач (или задач, приводимых к однопараметрическим), а также для случая оценивания параметров уравнения регрессии. Теория устойчивого оценивания на базе подходов Ф. Хампеля и A.M. Шурыгина для многопараметрических задач в случаях неоднородных количественных (в том числе, счетных) и качественных данных была развита нами в [9, 10,
Отдельное внимание в работе уделяется случаю неполных данных, для которого теория робастного оценивания развивается впервые. В том числе получены условия, при которых механизм порождения пропусков можно игнорировать.
Также в работе расширяются концепции введенных A.M. Шурыгиным условно оптимальных и стойких оценок, обсуждаются свойства инвариантности оценок.
ют модельные распределения с функциями 1 ф) , е Я" , плотностями gi(z¡ \ ф) отно-
сительно некоторой а-конечной меры |д и вектором параметров ф размера т. Обозначим
М-оценку ф вектора параметров модели ф определим по наблюдениям С,, / = 1,..../V , случайных величин / = 1,..., N , путем решения системы оценочных уравнений [19]
15-18].
U
B = {Zj : gi (" | ф) > 0} .
(1)
E'v(",ф) ^ 0 , i = 1,N,
(2)
Е - оператор математического ожидания.
Следствием (2) является асимптотическая несмещенность оценки [6]. Будем рассматривать решения системы уравнений (1), дающие состоятельные оценки.
При некоторых условиях регулярности оценка ф является асимптотически нормальной с разбросом [19]
V (') 2 мг1м2 [ мг1 ]Т, (3)
о
где ' 2 ('['I)Т, Mj Е'i,ф)
i=1 оф
= 1 J УД^Ф- невы-
i=1 Rn оф
N
рожденная матрица, М2 = X Е\|/г- , , ф).
¿=1
В теории робастного оценивания конструируются оценки, имеющие высокое качество не только при постулируемом распределении ошибок, но и при отклонении от него [7-10]. Одним из показателей качества оценки в теории робастности является функция влияния. Функциональному аналогу уравнения (1)
N
XI' (, фв ])ав, (1Ф) 2 о,
1 к"
i=1 оn
где G — (G,,...,6Л ), соответствует оценка ф = ф|G| как функционал от G. Введем модель точечного засорения распределения некоторого /-го наблюдения. Для этого заменим функцию распределения Gy(z,- | ф) функцией засоренного распределения
G*(zi |ф) = (1 — t)Gi{zi |ф)-КД , где А *(z,-) - вероятностная мера, приписьшающая
zi zi
точке z* единичную массу, и обозначим G = (G},...,G¡_\,G*,Gi+],...,GN). Тогда функция влияния будет определяться формулой
A ( * ) 1- SbG* ] - ф[В] Щ("i,') = lim---.
t^O t
Можно показать, повторяя выкладки из [7], что в рассматриваемом случае для Af-оценок при некоторых условиях регулярности функция влияния будет иметь вид
A ("i,') = м-1' ("i, ф).
В соответствии с моделью байесовского точечного засорения засоряющая точка z* является случайной величиной, имеющей в серии выборок плотность 5г-(zi | ф) , zt е R" , относительно меры ц, причем Гг с X,, где X, = {z, : st (zl | ф) > 0} , а функция влияния определена
на X, (в отличие от классического случая [7], где она определена на Г,-). Показателем качества оценок является матрица
N N
V (') = 1@Si [IFi (",')IF* (",')] =£ J Щ (", ')IFU (", ("i I ф)ф , (4)
i=1
V=1 Rn
где E^. -математическое ожидание по плотности s{{z{ | ф) .
Показатель (4) можно представить в виде
и, (') 2 мг1м2>, [ мг1 "
(5)
1
где м2>х 21 1 'г("х, Ф)'[("V, Ф),("VI №М •
1=1кп
Заметим, что формула (3) может рассматриваться как частный случай формулы (5) при
| ф) = 1 Ф)-
Укажем на одну особенность рассматриваемого подхода. Часто привлекательными свойствами обладают оценки, связанные с показателем (5) при функциях s¡\ ф), которые не удовлетворяют условию нормировки и, более того, могут не быть интегрируемыми функциями [10].
Например, с точки зрения теории робастности представляет интерес случай
,("г • Ф) 2 1,
не требующий, в отличие от общего случая, для получения показателя (5) каких-либо сильных предположений о механизме засорения. Однако для непрерывных случайных величин, имеющих значения на вещественной прямой или полупрямой, и счетных случайных величин функция (6) не является интегрируемой.
Получить интерпретацию показателя (5) в таком случае можно, обобщив результаты из [20].
Будем рассматривать оценочные функции *|/ как элементы пространства со
скалярным произведением
I
I
г 21 к"
(',ф) = 1 1 (Ъ, Ф)Хф,- (^, Ф), (^ I Ф)^ц 2 1 (", ф)^(", ф) ® Хф(", ф)^ц,
т
где ^ = ,..., 5_дг) , IV = Ж(ф) - некоторая симметричная положительно определенная мат" ,( "1Ф) о
рица размера тХт, ф) =
о
(" • Ф).
символ кронекерова произве-
дешь
Тогда функционал
¥ [и, (')]2 Й- [хи, (')],
есть
где 1х - след матрицы, можно представить как квадрат Х2 (я, IV) — нормы функции влияния: 1х [хи, (')] 2 ||/А||2 ,где /А 2 (Щт /А^ )т •А и -й элемент V -го столбца (5) ционал [и, (')]иу 2^/А,,где Виу 2 /1 ®[х 1Еиу , /1 - ^^^^ичная ^^^эица размера N X N, Еш - матрица размера т X т, и -м элементом V -го столбца которой является единица, а остальные элементы - нулевые.
Поскольку для ряда дальнейших рассуждений необходимо сохранить интерпретацию функций (,21 | ф) как плотностей, будем допускать нарушение свойств нормировки и интегрируемости плотностей (,21 | ф) .
2. ОПТИМАЛЬНЫЕ ОЦЕНКИ
Для получения оптимальной оценочной функции будем минимизировать с учетом ограничений (2) некоторый непрерывно дифференцируемый функционал у¥ от матрицы (\|/) (не обязательно вида (7)):
тт¥ [V (')]. (8)
В работе [10] показано, что для случая непрерывных случайных величин в области Гг = Ег- необходимому условию экстремума удовлетворяет функция
у;, (х,, ф) ^ с ^ ("V |ф)+р,} ^^' (9)
[Эф ] ^(" • ф)
где С — С(ф) - невырожденная матрица, с точностью до которой определяются оценочные функции, Рг = рДф) - константа, определяемая из условия (2). Легко показать, повторяя выкладки из [10], что для рассматриваемого нами случая справедлив этот же результат (в том числе в области \ Г/, где оценочная функция нулевая). Заметим, однако, что функция (9) не
обязательно существует.
Для получения дальнейших результатов ограничимся случаем функционала вида (7). Поскольку оценочная функция определена с точностью до умножения на невырожденную матрицу, решение задачи (8) не единственно, поэтому введем следующую нормировку:
Мх 21т . (10)
В результате задача получения оптимальной оценочной функции принимает вид
тЧ |'||2
у
с ограничениями (2), (10).
Данная задача без учета условий регулярности для функций *|/ является выпуклой экстремальной задачей со строго выпуклым оптимизируемым функционалом и квадратичным функционалом Лагранжа, квадратичный член которого положительно определен; в результате единственным решением задачи в области является функция (9), если она существует [21, 22]. Матрица С в (9) обеспечивает выполнение условия (10) и с соответствующей ему матрицей
множителей Лагранжа, которую обозначим Л, связана соотношением С 2-х-1Л (с точностью до несущественного скалярного положительного сомножителя). Если данное решение удовлетворяет условиям регулярности, то оно является оптимальной оценочной функцией. Заметим, что решение существенно от матрицы Ж не зависит.
Перейдем к задачам условно оптимального оценивания. Для случая скалярного параметра и однородных непрерывных данных в [8] рассматривалась оптимизация показателя К(*|/)
при фиксированном значении показателя 0'| (*|/) (показателя 0'Л (*|/) с плотностью (6)), оптимизация показателя И \ (\|/) при фиксированном значении К(»|/), а также оптимизация показателя, явно задающего компромисс между /) и и] (*|/) (также в [8] рассмотрен случай регрессии). В [7] рассматривается задача оптимизации К(»|/) при ограничении сверху на модуль функции влияния, получаемая оценка называется оптимальной робастной (аналогичные задачи рассматриваются и для ряда случаев с многомерным параметром).
Обобщим формулировку задачи условно оптимального оценивания из [8]. Будем рассматривать задачу оптимизации показателя Ч' при ограничениях (2), (10) и
¥ |32(')]< 9 (1)
с некоторыми не равными функциями % {г{ | ф) , я2г- {г{ | ф) и 9 = .
Пусть существует функция (9) с матрицей С, обеспечивающей выполнение условия (10), и плотностью
^ (" I Ф) 2 % (| ф) + у^ (| ф), (12)
где множитель у = у(ф) > 0 определяется из условий (11) и у • |"[/^ (у)] ~~ = 0 , в области
2 /(у) — {21 '■ ¡(21 I Ф) + У!!ц(2г | Ф) > 0} . Ограничиваясь рассмотрением функционала (7) и
не учитывая условия регулярности для функций *|/, получим выпуклую экстремальную задачу в
Ь2 (о?! + Ья2, , где функции (г{ | ф) + Ъй2г- (г{ | ф) положительны в областях 2 г- (у) и
равны нулю вне их, со строго выпуклым оптимизируемым функционалом и квадратичным функционалом Лагранжа, квадратичный член которого положительно определен; в результате единственным решением задачи является указанная функция (9) [21, 22]. Если данное решение удовлетворяет условиям регулярности, то оно является оптимальной оценочной функцией.
Заметим, что величину И удобно определять, исходя из ограничения на относительную характеристику устойчивости. Такая характеристика имеет вид
для некоторой плотности я и положительного функционала Ч' [10]. В рассматриваемом случае можно выбирать 0 < яЛ^ (\|/) < 1.
Условно оптимальные оценки представляют собой компромисс между показателями и Ч-^О'^ - при улучшении одного из них второй ухудшается. Однако такое семейство оценок не является полным: могут существовать оценки, которые имеют большие значения показателей и/или (V)] • Такие оценки задаются формулой (9) с
плотностью (12) при некоторых отрицательных значениях параметра у . Они являются дополнительными членами семейства условно оптимальных оценок и имеют свойства устойчивости, выраженные в большей или, наоборот, меньшей степени по сравнению со стандартными условно оптимальными оценками. На практике такие оценки могут быть полезны при неудачном выборе функций , л12 , когда стандартные условно оптимальные оценки либо слишком устойчивы (с неоправданно малой эффективностью), либо, наоборот, недостаточно устойчивы. Например, в рамках теории робастности уместен выбор функции л1, в виде (6), а функции л'2 , равной модельной плотности (см. также [8]); тогда, не выходя за пределы этой теории, можно получить «сверхустойчивые» оценки, если устойчивость оценки, оптимальной при функции л1 в виде (6), оказывается недостаточной.
Рассмотрим возможный вариант экстремальной задачи, приводящий к получению дополнительных условно оптимальных оценок. Будем оптимизировать показатель при ограничениях (2), (10) и
¥[Е/Я2(х|/)] = Я, (13)
где 9 2 9(Ф) > ¥ [^2 (у; )] , ¥ [^2 ('; )]
1 ^ .
Пусть существует функция (9) с матрицей С, обеспечивающей выполнение условия (10), плотностью (12) и множителем у = у(ф), определяемым из условия (13), в области
Е12Ду), причем выполняются условия | ф) + у^Д2/1 ф) > 0 для всех г^ Я" и
Гг с X12 (у) • Вновь ограничимся рассмотрением функционала (7) и не будем учитывать условия регулярности для функций \|/. Получим при некоторых условиях гладкую экстремальную задачу в Ь2 (а^ + 2, IV) , где функции (г1 | ф) + б52г | ф) положительны в областях Х| 2 Ду) и равны нулю вне их, с квадратичным функционалом Лагранжа, квадратичный
член которого строго положителен; в результате единственным решением задачи является указанная функция (9) [22, 23]. Если данное решение удовлетворяет условиям регулярности, то оно является оптимальной оценочной функцией.
В [10] для случая непрерывных данных рассмотрен ряд формулировок задач оптимизации при явном компромиссе между К(*|/) и (Ул. (\|/) . Данные задачи легко распространяются на рассматриваемый нами случай.
Составим компромиссный показатель
и и+и2(у) 2 и (у),
где к = &(ф) > 0, | ф) = 1 | ф) + кз2, | ф). Оптимальные оценочные функции тогда
находим, решая задачу (8).
Можно составить компромиссный функционал
¡^ + аь,2(у) 2 т[и,1 )]*^ (У)]+ т[и^)]^^(У)]'
минимизация которого эквивалентна минимизации функционала + ¿Ч^О'^
с к 2 к т[и (у,1)]
]/т[и,2(у,2)] .Если функционал Т линейный (например,вида (7)),
то имеем
т [и (у) ]+кт [и,2 (у) ] 2 Т [и (у)+и2 (у) ] 2 т [и, (у)]
,, (|ф) 2 ,м ("V | ф) + Ь2. (|ф). (14)
В результате вновь приходим к задаче (8).
Аналогично, оптимизация компромиссного функционала
1 - к к
¡А , (у) ¡А ,2 (у)
где к — к(ф), 0<к<1, при линейном функционале у¥ приводит к задаче (8), (14) с
к 2—т[и(у,1)]/т[и,2(у*2)]
к 1 - к
Если же во введенных компромиссах выбирать к < 0 , к < 0 или к > 1 при 1 ф) > 0
для всех 21 е М", то будем получать дополнительные члены семейства компромиссных оценок.
Показатель (5) зависит от плотности si\ ф) , которая неизвестна на практике. Один из путей решения этой проблемы - использование максиминной формулировки [8]. Для случая одномерного параметра она имеет вид
Если множество 5" совпадает с множеством модельных плотностей, то оценка с оценоч-
лись в [8], исходя из оптимизации показателя (5), построенного для каждого параметра в отдельности. Однако такой подход может затруднить интерпретацию получаемого решения при совместном оценивании параметров, когда для разных параметров получаются разные плотности 5*.
Полученное выше многомерное решение позволяет ввести многомерные стойкие оценки, когда оптимизируемым является функционал ¥ от матричного показателя (5):
В рамках такой постановки задачи получается одна плотность , поэтому она более согласована со смыслом решаемой задачи. Однако здесь появляется проблема выбора вида функционала у¥, так как при разных функционалах получаются разные плотности .
В связи с неоднозначностью выбора параметризации плотности распределения - параметры могут быть введены в модель до некоторой степени произвольно - важным является свойство инвариантности оценок к преобразованиям параметров. У оценок по методу максимального правдоподобия такое свойство известно [19]. В [24] для случая непрерывных данных свойство инвариантности доказано и по отношению к оценкам, оптимальным при байесовском точечном засорении, в условиях, когда параметры двух параметризаций связаны взаимно однозначной дифференцируемой функцией. В этом случае соответствующие оценочные функции оказываются эквивалентными (отличаются одна от другой несущественным матричным сомножителем С). Легко показать, повторяя выкладки из [24], что для рассматриваемого нами случая справедливы эти же результаты.
В максиминной формулировке (15) инвариантность к преобразованию параметров отсутствует, так как оказываются различными плотности , а значит, и оценочные функции \|/* . Не являются инвариантными также условно оптимальные оценки и компромиссные оценки, построенные с использованием показателя я1:Ьл. (\|/), для них оказываются различными величины у и к , что приводит к различным функциям я .
Причиной отсутствия свойства инвариантности в этих случаях является изменение показателя (5) при переходе от одной параметризации к другой [24]. В связи с этим в [24] предложены функционалы Ч', инвариантные к репараметризации. Примечательно, что основной инвариантный функционал имеет вид (7), где в качестве матрицы IV может использоваться матрица, обратная к показателю (5) при некоторой фиксированной оценочной функции и некоторой фиксированной плотности я (эти оценочная функция и плотность не обязательно должны быть как-то связаны между собой). Показатель я1:Ьл. (\|/) обладает свойством инвариантности также при использовании функционала в виде определителя, поэтому условно оптимальные и компромиссные оценки, построенные с использованием я1:Ьл. (*[/), для данного функционала также обладают свойством инвариантности.
2 аг§ тах тт и5 (') .
2 а^ тах тт ¥ [и5 (')].
(15)
3. ОЦЕНИВАНИЕ ПО НЕПОЛНЫМ ДАННЫМ
Применим развитую в п. 1,2 теорию к случаю неполных данных.
Если в векторе С, значение каждого его элемента может либо присутствовать, либо отсутствовать, то всего имеется 2" структур пропусков. Однако на практике может быть допустимо меньшее число структур пропусков, причем разное для разных наблюдений. Предположим, что для / -го наблюдения допустимо М1 структур пропусков; перенумеруем их некоторым образом. Вслед за [2] будем считать номера структур пропусков наблюдений случайными величинами. Обозначим рг - такую случайную величину для / -го наблюдения, рг - ее наблюдаемое значение, а соответствующий аргумент в плотностях, оценочных функциях и т.п.
Для г1 -й структуры пропусков введем векторы С^оЪэ и ^¡тш > состоящие соответственно из наблюдаемых и отсутствующих элементов вектора С, и имеющие плотности относительно и -конечных мер и , таких, что мера |Д является их произведением.
В результате реально нам доступны векторы С,; оЪз, / = 1,..., Л', наблюдений случайных
векторов С^оЬэ > = Таким образом, выборку составляют векторы (сГоЪэ'Рг) >
Поскольку наблюдения в неполной выборке принадлежат различным подпространствам исходного пространства, непосредственно применить разработанный в п. 1, 2 подход невозможно. Перейти к единому пространству можно следующим образом.
Введем произвольные п -мерные случайные векторы г|г, независимые от случайных векторов с, и величин р,, с плотностями gУ(zj), е М" , относительно меры |Л (эти плотности не зависят от вектора ф). Для гг-й структуры пропусков введем случайные векторы
Л^пиэ > состоящие из элементов г|г, которые имеют те же номера, что и пропущенные элементу,, имеют плотности ^(^'п^) относительно мер .
ты в векторе ^¿.Векторы "П/пив имеют плотности ^(^-'гшв) относительно мер М-/1тт • Дополним выборку фиктивными наблюдениями f\i т;3 случайных векторов . В результате
(ки ~и ~ \и Сг оЬэ'Лг пиэ'Рг ) =
К такой модели теория из п. 1,2 может быть применена.
Случайные векторы Г(с^ьз) >(п£ша) >Р»
и
У
имеют плотности
§ 1("Ши> "г>!з, Гг 1 ф) 2 ёг ("Ши' гг \ ф)("г>!з ) .
В рамках модели байесовского точечного засорения распределения случайных векторов введем соответствующие им плотности засоряющих значений рав-
""г,оЬв ) ' (г, гтв ) ' Рг
/
ными
8 г ("г.оЬв' "г
?,та' Гг 1 ф) 2 , (" Й,Ь> > Гг \ ф) §Р ("^¡з ) .
Заметим, что такой выбор не накладывает на модель реально наблюдаемых случайных
векторов ^((ь, ) , р;
Имеем следующие результаты.
Оптимальная оценочная функция (9) не зависит от и имеет вид
/г \ ГЭ /п \ 1 ("гПоЬз' П 1 Ф)
' (( ,>Ф)2 с {эф (( -,1ф)+Л } ).
Величина Рг определяется из условия
м{
U \Т
каких-либо ограничений.
Ё J ' ((obs' ri . ф) (( ri I ф)M^bs 2 0 .
n=1r^
где пг - размер вектора •
Показатель (5) определяется матрицами следующего вида:
NM Г /г. Л^ i (Zrobs> r I ф) n
M1 =ЁЁ J 'i ((ri>ф)-Z7T-dMv'obs
v=1 n =1 Rnn v ; Эф
N Mv
M2,s = J 'i ((ri.ф)— ((obs'ri.ф— ((obs'ri 1 ф—Mrobs •
•=1 п 21 к"п
В результате и показатель (5), и оптимальная оценочная функция определяются только
, т
\Т
моделью реально наблюдаемых случайных векторов И С ¿'obs) ' Р i
Полученное решение зависит от механизма порождения пропусков - распределения случайной величины р,. В некоторых случаях переменная рг является мешающей и заниматься ее моделированием нежелательно. Найдем условия, при которых механизм порождения пропусков можно игнорировать.
В методе максимального правдоподобия для игнорирования механизма порождения пропусков достаточно наложить условие ОС - «отсутствующие данные отсутствуют случайно» [2] (англоязычная аббревиатура MAR - missing at random). Представим совместную плотность случайных величин С, и рг в виде
gi(".ri 1 ф) = g i(" 1 ф1)g i(ri 1 ".ф2) .
где ф = (ф^,ф2, причем векторы ф1; ф2 раздельны в том смысле, что параметрическое пространство ф есть прямое произведение параметрических пространств для ф1 и ф2 . Тогда условие ОС можно записать в виде
gi (ri 1 "i.ф2) = g i(ri 1 "¿iobs'ф2) •
Если выполнено данное условие, то функция правдоподобия для вектора основных параметров ф1 строится на основе плотностей случайных величин C|'<)bs.
Однако легко убедиться, что наложение условия ОС на плотности (z,, /-■ | ф) и sl{zl,rl | ф) в нашем случае не избавляет от необходимости моделирования случайных величин Pi.
Более жестким по сравнению с условием ОС является условие ОПС - «отсутствующие данные отсутствуют случайно, присутствующие данные присутствуют случайно» [2] (англоязычная аббревиатура MCAR - missing completely at random), когда случайная величина рг не зависит от случайного вектора С,, т.е. справедливо представление
g i {ri\"i, ф2) 2 gi {ri |ф2).
Наложим условия ОПС на плотности gj(zj,rj | ф) , s^Zj,^ | ф) и, поскольку мы желаем получить решение, не зависящее от механизма порождения пропусков, предположим, что распределение рг не зависит от оцениваемых параметров модели ф, т. е. справедливо ф = ,
gi (Л-1 ф2) 2 gifo) , sfa I Ф2) 2 Фд ■
Выпишем вид матриц, определяющих показатель (5), и оптимальное решение (9) для этого случая.
Имеем
N М :
9g i ("robs \ф)
' I \ О i \ obs I т I
Mi = II gi{r) J '((r.ф)-^-'-dцr,obs' {16)
i=i r=1 Rnn v ' Эф
N М j
M2,s = II Ь {Г ) J ' ("robs'Г.ф— ("Jobs.Г.ф) ("robs \ ф)r,obs . {1&)
R ''
\ ГЭ \ ] 8; ("?,оЬ81Ф)8; (г;)
где gi ^гг,оЬз | ф| - плотность распределения С^оЬз, sj ^гг,оЬз | ф| - плотность засоряющих значений, соответствующая С'/^ , вектор Рг- определяется из условия
I 8;(г) 1 ((Г,ф) ("^оЬз I^!оЬ8 2 0. (19)
Г;21 "
R n
Вновь приходим к выводу, что наше решение зависит от механизма порождения пропусков. Чтобы освободиться от необходимости моделирования случайной величины рг , нужно, помимо условия ОПС, наложить некоторые дополнительные условия. Рассмотрим их.
Чтобы освободиться от отношения 8 ; (Г )/£; (Г;) в оценочной функции достаточно наложить условие
8; (Г;) 2 (Г ). (20)
В модели байесовского точечного засорения это будет означать, что распределение рг искажается в соответствии с модельным распределением. Однако, поскольку в итоге мы будем избавлены от необходимости моделирования распределения р,, с практической точки зрения данное условие не будет сколько-нибудь ограничивающим.
Чтобы освободиться от учета распределения рг при определении вектора Р,, на оценочную функцию необходимо наложить более жесткое условие, чем (19), а именно
1 ' (п'ф)Si ("ПоЪз 1ф)П!оЬз 2 0 (21)
кпп
для каждой гг -й структуры пропусков. Из него, очевидно, следует выполнение условия (19). В
(г)
результате для каждой гг -й структуры пропусков будет определен собственный вектор р, ' из условия (21), а оценочная функция примет вид
' (( п. Ф)2 с{ЭФ("ПоЪЯ I ф) + Р(п) 1. •(("П'0Ъз1Ф|. (22)
^ ' ^ ^ ' > 5; ((П'оЪз I ф)
1 \ 1
Легко проверить, что данная оценочная функция будет оптимальной в задачах из п. 2 с ограничением (21) вместо (2).
Хотя оптимальная оценочная функция теперь не зависит от распределения рг, показатель (5), в том числе и частный случай (3), определяется с его использованием. На практике можно использовать определение (5) условно по структурам пропусков (см. также [25]), т.е.
) ("ЙЪ3 1Ф)
х-, Г / п- \ •.оЪэ 1т1 Р,
М1(К) = 1 1 ' ( ( Р;> Ф)-^-(2")
•=1 Я"Р; У ' ЭФ
N
М2,5 (К) 21 1 '; (( Р;> ф) (( Р; >ф) ((^Р0ъз1ф)а»р0ъз> (2#)
•21 Кпп ;
где К 2(р1,...,РN) .
Заметим, что номера структур пропусков можно считать детерминированными величинами с рассмотрением решений, условных по пропускам. В этом случае будет справедливой формула (18), а также выражения (16), (17), (19) при
. Лп ) 2 5 ; (П ) 2 5
п >Р;
где Ъш - символ Кронекера. Отсюда можно сделать вывод, что оценочная функция (22) при ограничении (21), полученная в условиях игнорирования механизма порождения пропусков, является оптимальной при показателе (5), определяемом условно по пропускам, т.е. формулами (23), (24).
ЗАКЛЮЧЕНИЕ
Развиваемый в работе подход к устойчивому оцениванию может быть использован для моделирования широкого множества типов многомерных числовых, или сводящихся к таковым, данных, в том числе разнотипных и неполных. При этом главное, что необходимо еде-
лать для его применения - это постулировать плотность распределения реально наблюдаемых
пропусков. Плотность распределения засоряющих значений часто определяется на основе модельной плотности.
Полученные в работе решения обоснованы как оптимальные, что соответствует логике классической теории робастности.
Важной частью работы является выяснение условий игнорирования механизма порождения пропусков. Эти условия являются более сильными, чем для метода максимального правдоподобия, но практически приемлемыми.
Поскольку изложение теории велось на достаточно абстрактном уровне, примеров ее применения не приведено. Тем не менее, на основе данной теории нами сконструированы устойчивые оценки для ряда моделей, в том числе регрессионной модели с разнотипным откликом (частного случая модели из [4]), регрессионной модели при наличии частично-группированных данных (см., например, [26]), многооткликовой нормальной регрессии при наличии пропущенных данных и игнорировании механизма порождения пропусков. Однако их описание должно стать темой отдельных
[1] Лбов Г.С. Логические решающие функции и вопросы статистической устойчивости решений / Г.С. Лбов, Н.Г. Старцева. - Новосибирск: Изд-во Ин-та математики, 1999.
[2] Лиггл Р.Дж.А. Статистический анализ данных с пропусками / Р.Дж.А. Литтл, Д.Б. Рубин. - М.: Финансы и статистика, 1991
[3] Little R.J.A. Maximum likelihood estimation for mixed continuous and categorical data with missing values / R.J.A. Little, M.D. Schluchter // Biometrika. - 1985. - Vol. 72. - P. 497-512.
[4] Лисицин Д.В. Оценивание параметров многофакторной модели при наличии разнотипных откликов / Д.В. Лисицин // Научный вестник НГТУ. - Новосибирск, 2005. - № 1(19). - С. 11-20.
[5] Javaras K.N. Multiple imputation for incomplete data with semicontinuous variables / KN Javaras, D^A^ Dyk van // J. Am. Statist. Assoc. - 2003. - Vol. 98. - P. 703-715.
[6] Смоляк C.A. Устойчивые методы оценивания: (Статистическая обработка неоднородных совокупностей) / С.А. Смоляк, Б.П. Титаренко. -М.: Статистика, 1980.
[7] Робастность в статистике. Подход на основе функций влияния / Ф. Хампель, Э. Рончетти, П. Рауссеу,
B. Штаэль. - М.: Мир, 1989.
[8] Шурыгин A.M. Прикладная стохастика: робастность, оценивание, прогноз / A.M. Шурыгин. - М.: Финансы и статистика, 2000.
[9] Денисов В.И. Методы построения многофакторных моделей по неоднородным, негауссовским, зависимым наблюдениям / В.И. Денисов, Д.В. Лисицин. - Новосибирск: Изд-во НГТУ, 2008.
[10] Лисицин Д.В. Об оценивании параметров модели при байесовском точечном засорении / Д.В. Лисицин // Доклады АН ВШ РФ. - 2009. - № 1(12). - С. 41-55.
[11] Little R.J.A. Editing and imputing for quantitative survey data / RXA^ Little, PX Smith // J Amer Statist Assoc -1987^-Vof 82^-P^58-68^
[12] Cheng T.-C. High breakdown estimation of multivariate location and scale with missing observations /
Cheng, M^ Victoria-Feser // British J Math Statist Psych - 2002^ - Vol 55^-P^ 317-335^
[13] Copt S. Fast algorithms for computing high breakdown covariance matrices with missing data / S^ Copt, M^-P^ Victoria-Feser // Theory and Applications of Recent Robust Methods / Hubert M^ et at, eds^ - Basel: Birkhauser, 2004^-P^71-82^
[14] Little R.J.A. Robust estimation of the mean and covariance matrix from data with missing values / RXA^ Little // Appl. Statist. - 1988. - Vol. 37. - P. 23-38.
[15] Калинин А.А. Робастное оценивание параметров регрессионных моделей с качественным откликом / А.А. Калинин, Д.В. Лисицин // Рос. науч.-техн. конф. «Информатика и проблемы телекоммуникаций», Новосибирск, 21-22 апр., 2011.: Материалы конф. - Новосибирск, 2011. - Т. 1. - С. 69-72.
[16] Kalinin A.A. Robust estimation of qualitative response regression models / A^A^ Kalinin, D^V^ Lisitsin // «Applied Methods of Statistical Analysis^ Simulations and Statistical Inference» - AMSA'2011, Novosibirsk, 20 - 22 September, 2011/ Proceedings ofthe International Workshop^ - P^ 303-309^
[17] ДовгальС.Ю. Робастные методы оценивания параметров регрессионной модели со счетным откликом /
C.Ю. Довгаль, Д.В. Лисицин // Рос. науч.-техн. конф. «Информатика и проблемы телекоммуникаций», Новосибирск, 21-22 апр., 2011.: Материалы конф. - Новосибирск, 2011. - Т. 1. - С. 64-67.
[18] Dovgal S.Yu. Robust estimation of count response regression models / S^Yu Dovgal, D^V^ Lisitsin // «Applied Methods of Statistical Analysis^ Simulations and Statistical Inference» - AMSA'2011, Novosibirsk, 20 - 22 September, 201L: Proceedings ofthe International Workshop^ - P^ 318-32L
СПИСОК ЛИТЕРАТУРЫ
[19] Боровков A.A. Математическая статистика / A.A. Боровков. - Новосибирск: Наука; Изд-во Ин-та математики, 1997.
[20] Лисицин Д.В. Оценивание при байесовском точечном засорении: связь с подходом Хампеля и минимаксная оценка / Д.В. Лисицин // Сб. науч. тр. НГТУ. - Новосибирск: НГТУ, 2011. - Вып. 3(65). - С. 61-66.
[21] Магарил-Ильяев Г.Г. Выпуклый анализ и его приложения / Г.Г. Магарил-Ильяев, В.М. Тихомиров. - М.: Едиториал УРСС, 2003.
[22] Ванько В.И. Вариационное исчисление и оптимальное управление / В.И. Ванько, О.В. Ермошина, Г.Н. Ку-выркин. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2006.
[23] Галеев Э.М. Оптимизация: теория, примеры, задачи / Э.М. Галеев. - М.: Едиториал УРСС, 2002.
[24] Лисицин Д.В. Свойства инвариантности при оценивании параметров модели в условиях байесовского точечного засорения / Д.В. Лисицин // Доклады АН ВШ РФ. - 2010. - № 1(14). - С. 18-25.
[25] Никифоров A.M. Методы анализа данных с пропусками и их свойства. Программное обеспечение статистической обработки неполных данных / A.M. Никифоров // Статистический анализ данных с пропусками / Литтл Р.Дж.А., Рубин Д.Б. - М.: Финансы и статистика, 1991. - С. 284-332.
[26] Денисов В.И. Оптимальное группирование, оценка параметров и планирование регрессионных экспериментов. В 2-х ч. / В.И. Денисов, Б.Ю Лемешко, Е.Б. Цой. - Новосиб. гос. техн. ун-т. - Новосибирск, 1993.
Лисицын Даниил Вачеръевич, доктор технических наук, профессор кафедры прикладной математики Новосибирского государственного технического университета. Основное направление научных исследований -методы построения многофакторных моделей по статистическим данным. Имеет 90 публикаций, в том числе 1 монографию. E-mail: [email protected]
Lisitsin D.V.
Robust estimation ofmodelparameters inpresence of multivariate nonhomogeneous incomplete data
In paper the theory of an optimum estimation of unknown parameters of statistical model in presence of multivariate nonhomogeneous data develops. Outcomes are represented in the numerical form, but not necessarily are numerical, for example, they can be qualitative or mixed. Estimators provide robustness to deviation of observations distribution from postulated distribution. The basis of the theory is constructed with use of F. Hampel's approach connected with influence function and with use of A.M. Shurygin's approach connected with Bayesian dot contamination of distributions. The separate consideration is given to case of the incomplete data; conditions which make the missing-data mechanism ignorable are obtained.
Key words: parameter estimation, robustness, influence function, nonhomogeneous data, incomplete data, mixed outcomes.