А. Е. Шемякин
Новый подход к построению объективных априорных распределений: информация Хеллингера
Объективные (неинформативные) априорные распределения играют важную роль в байесовской статистике. Наиболее известные пути построения объективных априорных распределений включают правило Джеффриса, принцип соответствия вероятностей и референтный подход, предложенный Бергером и Бернардо. Все существующие методы достаточно трудоемки, особенно в случае векторного параметра, что часто является препятствием к получению точных аналитических решений. Предлагаемая автором альтернативная конструкция неинформативных априорных распределений основана на концепции информации Хеллингера, определяемой через расстояние Хеллингера между точками параметрического семейства распределений. В регулярном случае предложенный подход обобщает правило Джеффриса. Однако, что наиболее интересно, информация Хеллингера может использоваться и в нерегулярных случаях, когда правило Джеффриса неприменимо. Неинформативные априорные распределения, основанные на информации Хеллингера, построены для нерегулярного класса распределений Гхосала-Саманты и некоторых интересных примеров параметрических семейств вне этого класса.
ключевые слова: неинформативные априорные распределения; референтные априорные распределения; правило Джеффриса; расстояние Хеллингера; информация Хеллингера.
JEL classification: C11.
1. Введение
Байесовская статистика получила широкое распространение в течение последних сорока лет, предлагая интересную альтернативу классическим методам современной статистики, основанным на теории Неймана-Пирсона. Повышенный интерес к байесовским статистическим методам можно связать, прежде всего, с осознанием роли, которую во многих приложениях играет априорная информация об интересующих параметрах. Естественным образом байесовский подход нашел свое место в таких областях применения, как медицина (где при диагностике различных заболеваний субъективное мнение врачей учитывается наряду с результатами анализов), передача информации (где исходные предположения о возможной форме и характере сигнала позволяют более эффективно отделять сигнал от шума), страховой и финансовой математике (где зачастую возникает необходимость принимать в рассмотрение как краткосрочные данные конкретных наблюдений, так и большой объем накопленной исторической информации). Байесовский подход, в первую очередь благодаря работам Арнольда Зелльнера (Zellner, 1971), становится все более популярен и в эконометрике, в тех ситуациях, когда использование априорной информации наряду с данными наблюдений представляется
возможным и разумным. Особенно надо отметить эффективность байесовского анализа § при малых объемах выборок. §
Математически привлекательная и логически стройная концепция байесовского стати- Э стического вывода вплоть до 70-х годов XX века имела довольно узкую сферу применения. ^ Это было связано с технической необходимостью взятия сложных интегралов для вывода характеристик апостериорного распределения. Такое интегрирование аналитически выполнимо для ограниченного числа так называемых сопряженных семейств распределений. Возможности применения байсовского подхода были расширены революционным образом за счет использования методов Монте-Карло на цепях Маркова (в англоязычной литературе известных под аббревиатурой MCMC), в первую очередь алгоритма Метрополиса и метода Гиббса для построения выборок из априорного распределения и последующего использования выборочных статистик для оценки апостериорных характеристик. Именно введение MCMC в инструментарий статистических исследований в начале 1970-х годов привело к скачкообразному росту числа прикладных статистических работ, использующих байесовскую методологию.
Один из центральных вопросов байесовской статистики — выбор априорного распределения параметра, наилучшим образом представляющего доступную априорную информацию. Этот выбор, как правило, учитывает субъективные соображения исследователя. Существует развитая теория построения субъективных априорных распределений по имеющейся априорной информации.
Однако интересно, что даже при отсутствии значимой априорной информации использование байесовской методологии предоставляет исследователю определенные преимущества. Они связаны с относительной устойчивостью байесовских методов (основанных на интегрировании) по сравнению с известной альтернативой — методом наибольшего правдоподобия (основанном на оптимизации), особенно в случае высокой размерности параметрического пространства и выборок сравнительно небольшого объема.
Это объясняет интерес к построению так называемых объективных или неинформативных априорных распределений, максимально свободных от излишнего субъективизма и отвечающих отсутствию значимой информации, однако допускающих использование байесовских методов, в частности MCMC. Объективные (неинформативные) априорные распределения играют важную роль в байесовской статистике.
В следующем разделе будут кратко рассмотрены наиболее известные пути построения объективных априорных распределений, включая правило Джеффриса (Jeffreys' rule), принцип соответствия вероятностей (matching probability principle) и референтный подход (reference priors), впервые предложенный в работе (Berger, Bernardo, 1989). Все эти подходы достаточно трудоемки, особенно в случае векторного параметра, что часто является препятствием к получению точных аналитических решений. В связи с этим в настоящей работе предлагается альтернативная конструкция неинформативных априорных распределений, основанная на расстоянии Хеллингера между точками параметрического множества. При выполнении определенных условий регулярности поведение расстояния Хеллингера тесно связано с информацией Фишера (см., например, (Боровков, 1984)). В этом случае предложенный подход эквивалентен правилу Джеффриса. Однако расстояние Хеллингера может также применяться для описания информационных характеристик параметрического множества в нерегулярных случаях, когда фишеровская информация не существует, и правило Джеффриса неприменимо. Для этих ситуаций полезным является определение информации
Хеллингера, обобщающей информацию Фишера на нерегулярный случай. Это понятие концептуально связано с исследованиями по асимптотической теории оценивания (Ибрагимов, Хасьминский, 1976; Le Cam, 1986). Оно было формализовано в работе (Шемякин, 1992), где интегральные неравенства типа Рао-Крамера, полученные для регулярного случая в (Боровков, Саханенко, 1980), обобщались на нерегулярный случай. Расстояние Хеллингера и его свойства рассматриваются в разделе 3. Раздел 4 настоящей работы посвящен применению информации Хеллингера для исследования нижних границ байесовского риска.
Объективные априорные распределения, основанные на информации Хеллингера, предложены в разделе 5, где приведены основные результаты, устанавливающие связь между подходом данной работы и традиционными методами построения объективных априорных распределений. В большинстве случаев результаты либо совпадают, либо незначительно отличаются от результатов применения референтного подхода (Berger et al., 2009). Несколько примеров, иллюстрирующих эти совпадения или различия, приведены в разделе 6. В заключение обсуждается возможность использования данного подхода для более сложных ситуаций и попытка его обоснования с точки зрения информационной геометрии.
2. Байесовская статистика и неинформативные априорные распределения
Как широко известно, отличительной особенностью байсовских статистических методов (включая и методы оценивания, и проверку статистических гипотез), является использование непрерывной версии классической формулы Байеса
*(в' ^Tpí» " p (x;в)*(в) •
где x = (,...,xn) представляет собой фиксированный (неслучайный) вектор наблюденных данных, в — случайный параметр, p (x; в) — функция правдоподобия, ж (в) — априорное распределение параметра, ж(в| x) — апостериорное распределение параметра, а знак а соответствует пропорциональности левой и правой части выражения (совпадению с точностью до постоянного множителя, не зависящего от параметра). В дальнейшем в рамках этой работы во избежание возможных технических трудностей ограничимся случаем вещественного параметра, 0G R1. Обобщения на многомерный случай 0G Rd, d >1 возможны, но иногда являются нетривиальными. Все статистические выводы в байесовском анализе делаются на основе апостериорного распределения параметра, позволяющего использовать как информацию, полученную непосредственно из данных, так и априорную информацию, не зависящую от данных и обобщающую представления исследователя о распределении случайного параметра до того, как данные были получены. Выбор априорного распределения может быть либо субъективным (базирующимся на доступной априорной информации), либо объективным. В последнем случае необходимо сформулировать критерий, пользуясь которым можно математически строго вывести закон распределения, соответствующий отсутствию априорной информации и максимизирующий информационный вклад последующих наблюдений (Bernardo, Smith, 1994).
Здесь следует задать вопрос: почему нельзя ввести в рассмотрение некое простое уни- § версальное распределение, например, равномерное, интуитивно соответствующее отсутст- § вию информации? На примере равномерного распределения легко убедиться в недостаточ- Э ности такого подхода. ^
Во-первых, равномерное распределение параметра предполагает его локализацию на А заданном конечном интервале, что возможно не во всех реальных постановках задачи. Рассмотрение «несобственного» равномерного «распределения» на всей оси вещественных чисел или, например, положительной полуоси, технически возможно, если допустить определение плотности распределения с точности до постоянного множителя и отказаться от требования единичной площади под графиком плотности. С точки зрения байесовской статистики несобственные априорные распределения имеют право на существование, если они не приводят в результате применения формулы Байеса к несобственным апостериорным распределениям, которые не допускают возможности разумной трактовки. Второе, более существенное неудобство использования несобственного равномерного распределения заключается в отсутствии инвариантности относительно ре-параметризации. Например, в случае неизвестной дисперсии нормального распределения N(¡и, о2) допущение несобственного равномерного априорного распределения для дисперсии о2 или стандартного уклонения о приводит к двум ощутимо различным результатам. И в третьих, даже если игнорировать два предыдущих замечания и использовать несобственное распределение, отказавшись от инвариантности относительно ре-параметризации, такой выбор часто приводит к результатам, расходящимся (даже для больших объемов данных) с результатами применения классических статистических процедур. В дальнейшем рассмотрим три наиболее популярные варианта задания объективных априорных распределений, основанных на строго математических критериях. Правило Джеффриса использует идею инвариантности относительно ре-параметризации, правило соответствия вероятностей постулирует необходимость соотнесения с результатами классической статистики, а референтные априорные распределения строятся исходя из логичного требования максимизации информационной роли наблюдений.
Правило Джеффриса (Jeffreys, 1946). Согласно этому подходу, при условии существования информации Фишера I (в) = E ((ln p (x; в)) , объективное априорное распределение
определяется (с точностью до постоянного множителя) как ж (в) ос ^I (в), что, как нетрудно убедиться, обеспечивает инвариантность при ре-параметризации.
Правило соответствия вероятностей (Ghosal et al., 1995; Ghosh, Mukerjee, 1998; Datta, Sweeting, 2005). Согласно этому правилу, объективное априорное распределение обеспечивает для определенного уровня доверия a асимптотическое (с точностью до второго порядка по размеру выборки) равенство
Р(ве Aa (x)| X) =Р(ве Aa (x)| в),
в котором левая часть представляет собой апостериорную вероятность попадания случайного параметра в байесовское доверительное множество, определенное по выборке, в то время как правая часть, согласно принципам классической статистики, представляет собой вероятность покрытия истинного значения параметра классическим случайным доверительным множеством. В основе этого подхода лежит соответствие байесовских результа-
тов при отсутствии априорной информации классическим результатам для выборок большого объема.
Референтное априорное распределение (Berger, Bernardo, 1989, 1992; Berger et al., 2009), удовлетворяет следующим свойствам:
1) является допустимым (т. е. в результате применения формулы Байеса не приводят к несобственному апостериорному распределению);
2) максимизирует глобальное (интегральное) расстояние Кульбака-Лейблера между
се ж(в\x)
априорным и апостериорным распределениями II log—p(x;в)ж(в)dвdx, таким об-
X хе ж(в)
разом, эффективно максимизируя информационную значимость данных.
Во многих распространенных примерах при соблюдении определенных условий регулярности параметрического множества все три подхода приводят к одному и тому же ответу.
Принцип максимальной энтропии, предложенный в (Jaynes, 1957), тоже часто приводит к аналогичным априорным распределениям. Эти ответы могут сильно расходиться с интуитивными неинформативными априорными распределениями, например, с вышеупомянутым равномерным. Известно, что для случая бернуллиевского распределения данных (независимых и одинаково распределенных) с неизвестной вероятностью «успеха» в, p (x; в) а Bin (в, n), естественным является выбор априорного из сопряженного класса бета-распределений ж (в) а вa—1 (1 - в)3-1, 0 < в < 1, однако правило Джеффриса диктует
выбор a = b = —, ж (в) а =, а не равномерного a = b = 1, и согласно принципу мак-
2 >/в(1 — в)
симальной энтропии следует выбирать a = b = 0, т. е. ж (в) а ——. Выбор в качестве
неинформативного априорного распределения не плоского, а «подковообразного», с плотностью, возрастающей по направлению к экстремальным значениям вероятности в = 0 и в = 1 и минимумом в точке в = 0.5, вовсе не кажется противоестественным, если представить себе, что большая часть «случайных» событий в нашей жизни, не будучи вполне детерминированными, тем не менее относятся к категории «почти достоверных» или «почти невозможных» (см. также (Clarke, Barron, 1994)).
3. расстояние Хеллингера и его свойства
Расстояние Хеллингера между двумя вероятностными мерами т и п на пространстве й с доминирующей мерой 1 можно определить как
dH (m n) =
I
\2
\1/2
d l
Предположим, что семейство вероятностных мер [Рв, 0Е ©} определено на измеримом пространстве (Х,В), так что все меры семейства абсолютно непрерывны по отношению к некоторой ст-конечной мере 1 на В. Тогда расстояние Хеллингера между двумя точками
!
Q
\
/
параметрического множества можно определить в терминах плотности распределения 5
2
2
dP I
p (x; qi)
d l,
«расстоянием» хи-квадрат
d,, (в,, в,_)- ; (p (q >-p( в 2 ))2 di,
SUpp(Pg )USUpp(Pg ) p(x;)
или расстоянием по полной вариации
dTv (в,, в,) = sup Pe (A) - Pq2 (A).
AeB 1 2
Выполняются следующие неравенства:
72 < d d-H- < d < d d2 < 2
-*я <"' 2 < tv < h > uH < ^/"V ,
m
4
Р(х; 0) = ТТТ как
"1 / Х1/2 =3
¿Н (01, ^2 ) = !/(((Х; ^) -V Р(в 2 ) )2 ^ 1
V х
Таким образом, расстояние Хеллингера можно использовать для определения близости между мерами из одного семейства, индексированного различными параметрами. Это расстояние не зависит от выбора доминирующей меры 1 и определено для всех точек параметрического множества. Оно обладает всеми свойствами метрики, включая неравенство треугольника (Золотарев, 1979). Оно также удовлетворяет следующим свойствам:
1) ¿Н (01,02 ) = 0 о Рв1 = Р,2;
2) ёН (, 02) = л/2 о Р0 и Р0 взаимно сингулярны;
3) 0 < ¿Н (1,02 )<Т2.
Расстояние Хеллингера тесно связано с другими мерами близости точек параметрического множества, в частности, с «расстоянием» Кульбака-Лейблера
^ (1, 02) = / Р (х; 02 )1п[Р (х; 02)
1)
и более сильное неравенство ¿Н < , справедливое при дополнительном условии доминирования мер: Р0 << Р02 (см. (Reiss, 1989)).
Расстояние (дивергенция) Кульбака-Лейблера играет особую роль в теории информации и находит естественное применение в байесовской теории. Однако ни расстояние Кульбака-Лейблера, ни расстояние хи-квадрат не являются симметричными, а также не могут быть определены для всех точек параметрического множества в случае, когда носитель плотности зависит от параметра.
Следующий факт делает расстояние Хеллингера особенно удобным для анализа выборок, состоящих из независимых одинаково распределенных наблюдений. Для произведения мер т = т1 X т2 и п = п1 X п2 выполняется равенство
№ 4 (28) 2012 | ПРИКЛАДНАЯ ЭКОНОМЕТРИКА_APPLiED Е^^МЕТ^
1-1 ¿1 (т, п) = (-14 (т, V! ))( 4 (т2, п2)),
из которого можно вывести неравенство
4 (Р, 4 (, VI ) + ¿Н (Р2, П2 )
ИР( п)
и важную формулу для случая х = (х1,...,хп) и р(п) (х;0) =
d1n '
dl (p(n) (x; 0!), p(n)(x; 02)) = 2
-(l-2dl (p(x;0), p(x;02)))"
которая помогает сводить общий случай конечных выборок к исследованию выборок размера 1.
В дальнейшем будем полагать параметрическое множество открытым и вещественным ©CR1. Если почти для всех (по мере l) 0Е© существует такое a> 0 , что
lim dl (0,0 + е).|ер= j (0),
£^0
то определим информацию Хеллингера как
ii (0)=j 2"(0).
Показатель a обеспечивает правильный порядок убывания расстояния Хеллингера по е. Следующий раздел посвящен обоснованию роли информации Хеллингера в теории параметрического оценивания и частично объясняет несколько неестественный выбор степени
2a"1.
4. нижние границы для квадратичного байесовского риска
Определим квадратичный байесовский риск для независимой одинаково распределенной выборки X(n) = ((,...,Xn) объема n из модели, рассмотренной во втором разделе, как
R(0*(X(n)))= / (0*(x(n))-0)p(x(n);0)^(0)dx(n)d0.
X(n) X0
Рассмотрим интегральную версию классического неравенства Рао-Крамера, которая при соблюдении определенных условий регулярности приводит к следующей нижней границе
для байесовского риска в терминах информации Фишера I (0) = E ((log p (x; 0)) :
R(0* (X(n))) > n-1 /1-1 (0)tt(0)d0 + o(n-1). 0
Эта граница была впервые получена в работе (Borovkov, Sakhanenko, 1980); см. также статьи (Bobrovsky et al., 1987), где выведена альтернативная форма нижней границы, (Шемякин, 1987), в которой получено обобщение на случай векторного параметра, и (Brown,
Gajek, 1990), где использована альтернативная схема доказательства. Порядок остаточного §
члена в правой части можно улучшить до 0(п 2) при соблюдении дополнительных усло- §
5
ф
вий регулярности. В настоящей статье условия регулярности будут, напротив, ослабляться, Э следуя подходу (Шемякин, 1991). Полученные нижние границы могут быть далее обобще- ^ ны на случай, когда информация Фишера не существует. Одно из таких обобщений (назовем его информационным неравенством Хеллингера) — это асимптотическая нижняя граница риска
inf R (в* (X(n))) > C(a)n-2/a ГI-1 (в)ж (в) dв + o(п2'a),
в*( X(n)) ■©
полученная в (Шемякин, 1992) при предположении, что информация Хеллингера IH (в) строго положительна, непрерывна почти наверное, ограничена на любом компакте из © и удовлетворяет условию
/1-1 (в) ж(в^ в<^,
©
где © — открытое вещественное множество, постоянная C(а) определена как C(a) = 22/a-3sup(v-1 -3)ln2/a(l + v), например, C(2) = 0.25, C(l)» 0.036.
v>0
Это неравенство проясняет роль, которую информация Хеллингера может играть в том случае, когда информации Фишера не существует. Отметим показатель 2/ а, который появляется в определении информации Хеллингера как обеспечивающий сходимость. В данном случае он также определяет асимптотический порядок риска по отношению к объему выборки. Регулярный случай асимптотической нормальности соответствует а = 2. Нерегулярный случай плотности со скачками (носитель плотности зависит от параметра) соответствует а = 1. Промежуточные случаи (Гёльдеровские плотности в смысле L -сходимости) соответствуют a£ (1,2).
Аналогичные нижние границы можно получать и в терминах расстояний хи-квадрат (Шемякин, 1992) или Кульбака-Лейблера, но они требуют дополнительных предположений.
Хотя значение постоянного множителя C (a) связано с техническими деталями доказательства и не является точным, порядок нижней границы в информационном неравенстве Хеллингера по объему выборки является неулучшаемым. Следующий пример призван проиллюстрировать этот факт.
Рассмотрим равномерное распределение Unif (0, в). Хорошо известно, что при использовании референтного априорного распределения ж(в)а в-1, апостериорное распределение имеет форму Pareto(,п), где Yn = max{{,...,Xn}, и байесовская оценка, мини* n
мизирующая риск Я(в ), допускает явное выражение в, =-Yn. В общем случае, при
n — 1
априорном распределении ж(в)^в-ь, b >1, апостериорное распределение имеет вид Pareto (Yn, n + b -1), где Yn = max{X1,..., Xn}, и байесовская оценка, минимизирующая риск
Я(в*), есть в; = '^ТYn.
n - b
Очевидно, что информационное неравенство Хеллингера не может применяться для случая © = R1, поскольку I-1 (в) = j-2 (в) = в2, и интеграл в правой части неравенства не су-
ществует. Однако, определяя стандартным образом вложенную возрастающую последовательность открытых множеств ©K = (K_1, K) С R1, K ^œ, можно гарантировать выполнение всех условий неравенства для © = ©K. Левая часть для случая априорного ^(q)aq-1 .(2ln K)_1, qe (KK) имеет вид R(Yn ) = n~2K2 (2ln K)_1 + o(n~2), а правая часть
n~2C • 2_1 • K2 (2ln K) 1 теперь обретает правильный порядок убывания по n и, более того, правильный вид функциональной зависимости от K (с точностью до постоянного множителя).
5. Априорное распределение Хеллингера
Определим априорное распределение Хеллингера для параметрического множества © как корень из информации Хеллингера (с точностью до постоянного множителя):
я h =/ a(q).
Цель состоит в сравнении априорных распределений Хеллингера с другими семействами объективных априорных распределений, а именно джеффрисовскими, референтными и априорными по принципу соответствия вероятностей. Следующие результаты ставят условия, при которых априорные распределения Хеллингера совпадают с другими известными классами. Отдельный интерес представляет случай, когда информация Фишера не определена, что исключает применение подхода Джеффриса и затрудняет построение референтных априорных распределений.
Предложение 1. Если информация Фишера
I (q) = E (( ln p (x; q))2
непрерывна почти всюду по q из ©, функция -yjp (x; q) дифференцируема по q, и выполняются дополнительные условия регулярности, гарантирующие предельные переходы под знаком интеграла (см. (Боровков, 1998)), то:
а = 2, ih (q) = 0.25- i (q).
Следствие 1. В условиях Предложения 1 яH (q) совпадает с джеффрисовским априорным распределением.
Это соответствие между фишеровской и хеллингеровской информацией исследовалось в работе (Боровков, 1998).
Следующий результат имеет отношение к классу распределений, обобщающему класс нерегулярных распределений Гхосала-Саманты (Ghosal, Samanta, 1997).
Предложение 2. Если вероятностная плотность p(x; q) = dPq¡dq, определенная на носителе S (q) = [a1 (q), a2 (q)], зависящем от q, строго положительна на S (q), непрерывна и дифференцируема по совокупности переменных в int S (q), и обе функции a1 (q) и a2 (q) непрерывно дифференцируемы, то:
а=1, Ih (q)=|a;(q)|p( (q);q)+a (q)p( (q);q)
Следствие 2. Для нерегулярного класса Гхосала-Саманты яH (q) совпадает с априорным распределением, построенным по принципу соответствия вероятностей в (Ghosal, 1999) и с референтным априорным распределением, построенным в (Berger et al., 2009).
Схема доказательства Предложения 2 может выглядеть следующим образом (в предпо- § ложении выполнения всех предельных переходов под знаком интеграла, что может потре- § бовать дополнительных технических условий): Э
_ __Цц
4(0,0 + е) = / ((х0) -Vр(х;0 + е))) = ^
X (0)иХ (0+е)
= f р(х; 0)/х + f р(х; 0 + е)/х + f ((р(х; 0) — ^/p(x;'в~+£)) ¿/х =
Х(0)ПХе (0+е) Xе (0)ГВ(0+Е) х(0)Пх(0+Е)
= \а1 (0 + е) - а (0) р (а1 (0); 0) + |а2 (0 + е) - а2 (0) р (а2 (0); 0) + о (е) = = |а'(0)е| р (а1 (0); 0) + |а^(0)е| р (а2 (0); 0) + о( е).
Утверждение следствия 2 вытекает из того, что нерегулярный класс Гхосала-Саманты представляет собой подкласс множества распределений, описанного в условиях Предложения 2 (дополнительная монотонность носителя плотности по параметру, которая требуется для попадания в класс Гхосала-Саманты, не входит в условия Предложения 2).
6. Примеры
Следующие примеры показывают, что в некоторых случаях априорное распределение Хеллингера совпадает, а в некоторых отличается от референтного апиорного и других объективных априорных распределений. В рамках настоящей статьи ограничимся случаем одномерного параметра. Согласно следствию 1, регулярный случай не представляет особого интереса. Поэтому сосредоточим внимание на отклонениях от регулярности, рассмотрев некоторые распределения из класса Гхосала-Саманты, а также распределения, не входящие в этот класс. Важным преимуществом информации Хеллингера, существенно упрощающим последующий анализ, является возможность ограничиться рассмотрением случая одного наблюдения х £ X и затем переносить результаты на случай выборок произвольного объема.
Пример 1. Равномерное распределение с носителем, зависящим от параметра —
иш/(0,0), 0е(о,«).
Вычислим расстояние Хеллингера прямым интегрированием
dH (в, в + e) = f((p(х; в) -Vp(x; в + e))dx =
в+Е 1 u e2 lei
= fl~/=--/ 1 dx + f--dx = ---\--^ --y = —+ o (e),
•0W0 ТвГ^ в в + е в + е (1 + е/в)((7 + 70)2 в
таким образом, а = 1, я(0) а j (0) = —, что совпадает с известными результатами для ре-
0
ферентных априорных распределений.
Пример 2. Равномерное распределение из класса Гхосала-Саманты — ит/ (0-1, 0), 0£(1,
Этот случай непосредственно следует из Предложения 2 для а1 (0) = 0-1, а2 (0) = 0, 0 02 + 1
р(х; 0) = —^-. Легко убедиться, что а = 1, жн (0) а j (0) = ——-. Такой же результат
0 — 1 0(0 — 1)
в
был получен для принципа соответствия вероятностей (Ghosal, 1999) и референтного априорного распределения (Berger et al., 2009).
Пример 3. Равномерное распределение вне класса Гхосала-Саманты — Unif (в, в2 ), ве(1, œ). 1
Используя Предложение 2 для a1 (в) = в, a2 (в) = в2, p(x; в) = ---, получаем a = 1,
в(в -1)
2в -- 1
жH (в) a j(в) = ---. Это априорное распределение отличается от референтного
0(0-1)
/лЧ 20-1 I ( 20
жк (0) ос ---exp^ р
0(0-1)
20-1
полученного в работе (Berger et al., 2009), где р(z) — дигамма-функция (полигамма-функция порядка 1, определяемая как р(z) = — log T(z), z > 0 ). Однако в силу того, что функ-
dz
ция р(z) монотонна при 1 < z < оо, справедливы следующие оценки:
3exp {р(2)}< Ж;!) = Итг expM 20-Î J f <exp {р(1)}'
из которых следует, что отношение двух априорных распределении ограничено равномерно по 0 сверху и снизу: ^е1_у < жк (0) / жн (0) < в~у, где 0.5772 — постоянная ЭИлера,
что приводит к численным оценкам 0.5087 < жк (0) / жн (0) < 0.5615.
Таким образом, референтное априорное распределение и априорное распределение Хел-лингера достаточно близки (с точностью до постоянного множителя). Пример 4. Несимметричное треугольное распределение. Для такого распределения с плотностью
p (x; 0)=
2 x
—, при 0 < x < 0, 0
2 (1-x)
1-0
при 0 < x <1
информация Фишера не определена, и правило Джеффриса не работает. Выражение для референтного априорного распределения ж(в)ав-1/2 (1- в) было вначале подсказано приближенными вычислениями (Berger et al., 2009), а затем выведено аналитически с преодолением больших технических трудностей. Априорное распределение Хеллингера легко выводится аналитически. Рассмотрим расстояние Хеллингера как сумму трех интегралов
(0,0 + e) = j(p(x;0) -Vp(x; 0 + e) ) dx = Ix +12 +I3,
где «левый» интеграл асимптотически по e вносит вклад
i1 = ri ¡Щ-ХЩ2 —x=2(Л-XrQ2 г x—x=(ce-V0)2-^-=
1 J0 V 0 V0 + e \0 V0 + e J0 [ > 1 + e/0
0
1
((+ё+л/0)
1 + e / 0 40
Аналогично, «правый» интеграл равен
' = = /
0 + e
2 (1-х) 2 (1-х)
1-0
\2
1-0-
dx = ((0-V 1-0-e) (1 + о(1)) =
-(1 + о(1))
((-^^f 4(1-0) Интеграл по среднему интервалу пренебрежимо мал:
0+e
'з = .
2 (1-х) 1-0-e
2
dx < Ke , т. к.
2 (1-х)
1-q
■ K 'e.
Объединяя асимптотические выражения для двух первых интегралов, получаем
1 2 (0,0 + e) = .(((х; 0) -Vp(х; 0 + e)) dx =
e +
+ « (e2 ) = -
40 4(1-0) ; 40(1-0) следовательно, a = 2 и j(0) = 1/(40(0-1)), я(0)а //2(0)а1Д10(0-1) .
+о(e2),
d2H (0,0 + e) = .((p(х;b,t,0) -Vp(х;b,t,0 + e) )2^^ =
0
при e^ 0 , где e
g(b, e) = . i b-1e-d
g(b,e) eb
r(b) br(b)
I Ü I
iu
Пример 5. Трехпараметрическое гамма-распределение — Gamma (ß, t, 0) на [0,^):
_ x—0
p(x;b,t,0) = (x_^eß) , xG[0,~).
Если основной интерес представляет нижняя граница носителя 0 (параметр сдвига) в случае, когда значения параметров формы ßE [1,2] и масштаба t считаются известными, то
есть нижняя неполная гамма-функция. Таким образом, a = b и жH (0) a j(0) = const, что совпадает с общим представлением для референтных априорных распределений для параметра сдвига.
Поведение плотности гамма-распределения в окрестности x = 0 зависит от параметра формы и соответствует различным значениям показателя a в определении информации Хеллингера. Значение a = b = 1 соответствует случаю конечного разрыва (скачка); a = b £ (l, 2) — переходным нерегулярностям (гёльдерова непрерывность с точкой недифференцируемости x = 0); a = b = 2 — пограничному регулярному случаю (хотя в точке x = 0 дифференцируемости нет, порядок изменения расстояния Хеллингера в окрестности этой точки тот же, что и в случае дифференцируемой плотности — сравните с Примером 4); b > 2, a = 2 — случаю дифференцируемости.
2
2
e
e
2
2
e
е
2
0
7. заключение
Из вышеприведенных примеров следует, что понятие информации Хеллингера может быть полезно в различных областях статистики. Это понятие удобным образом описывает информационные характеристики параметрических семейств распределений. Одной из возможных областей применения, как показано в разделе 4, представляется исследование нижних границ риска в задачах параметрического оценивания. Дополнительные примеры подобных задач можно найти в работах (Ибрагимов, Хасьминский, 1976; Le Cam, 1986; Birge, 1985). Информация Хеллингера выступает как альтернатива (или обобщение) понятия информации Фишера, когда последняя не существует или трудно вычислима.
Одномерное параметрическое семейство распределений, рассмотренное в настоящей работе, с метрикой, индуцированной информацией Хеллингера, определяет одномерное рима-ново многообразие. Априорное распределение Хеллингера является естественным с точки зрения информационной геометрии, поскольку его можно рассматривать как определяющее элемент объема на данном многообразии. Однако отметим, что контекст римановой геометрии теряется при рассмотрении многомерных нерегулярных параметрических семейств. Перспективным представляется поиск аналогий со структурой финслеровых многообразий.
Как показывают примеры из раздела 6, информация Хеллингера представляет определенный интерес с точки зрения объективного байесовского анализа. Однако для того чтобы судить о теоретической и практической применимости этого понятия для построения неинформативных априорных распределений, необходимо ответить на три вопроса.
1. Можно ли утверждать, что априорное распределение Хеллингера, подобно референтным априорным распределениям, представляет собой решение некой оптимизационной задачи (например, максимизации некоторого расстояния между априорным и апостериорным распределениями)?
2. Можно ли сформулировать общие условия, при которых гарантируется совпадение априорного распределения Хеллингера с референтным?
3. Может ли информация Хеллингера использоваться для построения неинформативных априорных распределений в сложных многопараметрических случаях, когда построение референтных априорных распределений затруднено (например, рассмотренных в (Ghosal, 1997; Sun, 1997; Sun, Berger, 1998))?
Ответы на эти вопросы пока не получены. Однако, как показывают примеры, приведенные в настоящей работе, аналитический вывод априорного распределения Хеллингера, в отличие от вывода референтных распределений, часто не требует больших усилий, а результаты, как правило, совпадают или отличаются незначительно.
Автор благодарен Донг Чу Суну (Dongchu Sun) и Фумиясу Комаки (Fumiyasu Komaki) за исключительно полезные предложения и обсуждения, а также всем участникам конференции O-Bayes-2011 в Шанхае за многие ценные замечания.
Список литературы
Боровков А. А. (1984). Математическая статистика. М.: Наука.
Золотарев В. М. (1979). О свойствах и связях некоторых типов метрик. Исследования по математической статистике. Записки научных семинаров ЛОМИ, 87, 18-35.
Ибрагимов И. А., Хасьминский Р. З. (1976). Асимптотическая теория оценивания. М.: Наука.
Шемякин А. Е. (1987). Интегральные неравенства типа Рао-Крамера для оценок векторного па- ^
раметра. Теория вероятностей и ее применения, 32 (3), 469-477. |
§
Шемякин А. Е. (1991). Многомерные интегральные неравенства типа Рао-Крамера для парамет- ^ рических семейств с особенностями. Сибирский математический журнал, 32 (4), 706-715. uj
Шемякин А. Е. (1992). Об информационных неравенствах в параметрическом оценивании. Тео- 4 рия вероятностей и ее применения, 37 (1), 89-91.
Berger J. O., Bernardo J. M. (1989). Estimating a product of means: Bayesian analysis with reference priors. Journal of American Statistical Association, 84, 200-207.
Berger J. O., Bernardo J. M. (1992). On the development of reference priors (with discussion). In: Bayesian Statistics, Oxford University Press, 4, 35-60.
Berger J. O., Bernardo J. M., Sun D. (2009). The formal definition of reference priors. Annals of Statistics, 37 (1), 905-938.
Bernardo J. M., Smith A. F. M. (1994). Bayesian theory. Wiley. Chichester.
Birge L. (1985). Non-asymptotic minimax risk for Hellinger balls. Probability and Mathematical Statistics, 5, 21-29.
Bobrovsky B. Z., Mayer-Wolf E., Zakai M. (1987). Some classes of global Cramer-Rao bounds. Annals of Statistics, 15 (4), 1421-1438.
Borovkov A. A., Sakhanenko A. I. (1980). On estimates for the average quadratic risk. Probability and Mathematical Statistics, 1 (2), 185-195. (In Russian).
Brown L. D., Gajek L. (1990). Information inequalities for the Bayes risk. Annals of Statistics, 18 (4), 1578-1594.
Clarke B., Barron A. (1994). Jeffreys' prior is asymptotically least favorable under entropy risk. Journal of Statistical Planning and Inference, 41, 37-60.
Datta G. S., Sweeting T. J. (2005). Probability matching priors. In: Handbook of Statistics, 25 (Bayesian Thinking: Modeling and Computations), 91-114, North Holland, Amsterdam.
Ghosal S., Ghosh J. K., Samanta T. (1995). On convergence of posterior distributions. Annals of Statistics, 23 (6), 2145-2152.
Ghosal S. (1997). Reference priors in multiparameter nonregular cases. Test, 6, 159-186.
Ghosal S., Samanta T. (1997). Expansion of Bayes risk for entropy loss and reference prior in nonregular cases. Statistics and Decisions, 15, 129-140.
Ghosal S. (1999). Probability matching priors for non-regular cases. Biometrika, 86, 956-964.
Ghosh M., Mukerjee R. (1998). Recent developments on probability matching priors. In: Applied Statistical Science III, 227-252, Nova Science Publishers, New York.
Jaynes E. T., (1957). Information theory and statistical mechanics. Physical Review Series II, 106 (4), 620-630.
Jeffreys H. (1946). An invariant form for the prior probability in estimation problems. Proceedings of the Royal Statistical Society A, 186, 453-461.
Le Cam L. (1986). Asymptotic methods in statistical decision theory. Springer Verlag, New York.
Reiss R.-D. (1989). Approximate distributions of order statistics. Springer Verlag, New York.
Sun D. (1997). A note on non-informative priors for Weibull distribution. Journal of Statistical Planning and Inference, 61 (2), 319-338.
Sun D., Berger J. O. (1998). Reference priors with partial information. Biometrika, 85, 55-71.
Zellner A. (1971). An introduction to Bayesian inference in econometrics. Wiley, New York.