Научная статья на тему 'Обобщение информационного критерия Акаике для выбора значений непрерывных параметров в моделях данных'

Обобщение информационного критерия Акаике для выбора значений непрерывных параметров в моделях данных Текст научной статьи по специальности «Математика»

CC BY
322
37
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Ежова Е.О., Моттль В.В., Красоткина О.В.

Применение информационного критерия Акаике (AIC) для выбора класса модели из упорядоченного множества вложенных классов моделей ограничено предположением, что классы определяются возрастающей размерностью вектора параметров. Мы распространили принцип максимума информации по Кульбаку, лежащий в основе классичечского инфомационного критерия Акаике, на более широкий класс моделей, в котором размерность вектора параметров фиксирована, но свобода выбора его значений ограничена системой непрерывно вложенных семейств априорных плотностей распределения. Мы проиллюстрировали применение обобщенного критерия Акаике на задаче анализа нестационарного сигнала, регрессионная модель которого меняется во времени.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The crucial restriction of the Akaike Information Criterion (AIC) as means of adjusting a model to the given data set within a succession of nested parametric model classes is the assumption that the classes are rigidly defined by the growing dimension of an unknown vector parameter. We extend the Kullback information maximization principle underlying the classical AIC onto a wider class of data models in which the dimension of the parameter is fixed, but the freedom of its values is softly constrained by a class of continuously nested a priori probability distributions We illustrate the proposed continuous generalization of AIC by its application to the problem of time-varying regression estimation which implies the inevitable necessity to choose the time-variability of regression coefficients treated a nonstationary model of the given signal.

Текст научной работы на тему «Обобщение информационного критерия Акаике для выбора значений непрерывных параметров в моделях данных»

УДК 004.9311

ОБОБЩЕНИЕ ИНФОРМАЦИОННОГО КРИТЕРИЯ АКАИКЕ ДЛЯ ВЫБОРА ЗНАЧЕНИЙ НЕПРЕРЫВНЫХ ПАРАМЕТРОВ В

МОДЕЛЯХ ДАННЫХ (с) Ежова Е.О., Моттль В.В., Красоткина О.В.

Московский Физико-Технический институт Институтский пер, 9, г. Долгопрудный, 141700, Россия e-mail: lena-ezhovat@rambler.ru

ВЦ РАН

ул Вавилова, 40, г. Москва, 117967, Россия e-mail: vmottl@yandex.ru

ТулГУ

пр-т Ленина, 92, г. Тула, 300600, Россия e-mail: krasotkina@uic.tula.ru

Abstract. The crucial restriction of the Akaike Information Criterion (AIC) as means of adjusting a model to the given data set within a succession of nested parametric model classes is the assumption that the classes are rigidly defined by the growing dimension of an unknown vector parameter. We extend the Kullback information maximization principle underlying the classical AIC onto a wider class of data models in which the dimension of the parameter is fixed, but the freedom of its values is softly constrained by a class of continuously nested a priori probability distributions We illustrate the proposed continuous generalization of AIC by its application to the problem of time-varying regression estimation which implies the inevitable necessity to choose the time-variability of regression coefficients treated a nonstationary model of the given signal.

Введение

Широко используемый в современном анализе данных информационный критерий Акаике (AIC) [1] является простым и эффективным, способом, выбора, наиболее адекватного класса, м,одели из упорядоченного дискретного множества вложенных классов моделей.

В классической постановке критерия обычно рассматривается выборка У = (Vjj 3 = 1; ■ ■ ■ > N) независимых случайных величин с неизвестной плотностью распределения (р*(у), принадлежащей некоторому параметрическому семейству <р(у | с), с е Шт. Часто размерность вектора параметров т оказывается очень большой и существенно превосходит размер обучающей выборки N, что делает бессмысленным применение для оценивания вектора параметров с принципа максимального правдоподобия.

N

с(у) = argmaxln<i>(y |с),1пФ(у | с) = ^^ln ip(yj |с). (1)

з=1

Если же предположить, что элементы вектора с обладают естественной упорядоченностью по степени значимости и при этом г( = 0. и < / < ///:

с = (е;,.е(„ (,).е(, е К".е((, = 0 е R'" ". (2)

то это позволит нам рассмотреть параметрическое семейство Ф (у | с) как последовательность вложенных классов моделей Ф(у | с = (с„|0)), К"™»™ с • • • С

Критерий А1С в классической постановке является способом оценивания подходящей размерности вектора параметров, как меры сложности модели

п = нщ шах,,

1пФ(у | с„(у)) - п

Однако это формула получена в предположении,

что гессиан Ус„с„ 1пФ(у | с„, 0) в точке максимального правдоподобия имеет полный ранг, а значит и оценка с„(у) — единственная, В более общем случае заменим штраф п на ранг матрицы

п = агётах|1пФ(у|с„(у),0) - гапк[успсп 1пф(у I сп, 0)] } (3)

В основе классического А1С лежит принцип максимизации информации по Куль-баку между моделью плотности распределения и настоящей гипотетической плотностью распределения,

и* = нщ шах у*[1пФ(у | п,с*)]Ф*(у)с!у (4)

есть желаемая размерность в предположении, что Ф*(у) = Ф(у | с**) с некоторым значением (с**0), вырезанного из неизвестного с* = (с*,..., с*п)

Одним из первых применений А1С было моделирование нестационарного сигнала на дискретной временной оси, разделенной на на неизвестное количество п интервальных блоков, и проверка локальной стационарности модели авторегрессии с фиксированным порядком к на каждом их них [2].

Со времен публикации первой статьи Акаике было предложено много модификаций этого критерия [3, 4, 5, 6]. Среди них Байесовский информационный критерий (В 1С) [3] нашел более широкое применение. Однако все они были нацелены на выбор размерности вектора параметров для, случая известной упорядоченности его элементов по степени значимости.

В данной работе предлагается, совершенно новое обобщение критерия Акаике, которое было вызвано необходимостью анализа нестационарного сигнала, (у,х) = = 1,,,,, ЛГ),регрессионная модель которого

У1 = + %,с4,х4 е Шк,г]г ~ М(г]г\0,5),Е(г]г,г]3) = 0, (5)

меняется на, интервале наблюдения. Очевидно, что при этом размерность вектора параметров в семействе условных плотностей распределения Ф(у | х,с) оказывается фиксированной с = (сх... Сдг) € и в А; раз превосходит количество наблюдений, Вместо этого предполагается, что искомая последовательность коэффициентов представляет собой случайный марковский процесс

с, = с4_х + 0,АЛ), Е (6СТ) = 0, (6)

который начинается с неизвестного первого значения Сх ~ Сх | 0,р1), р —оо. Параметр дисперсии шума X является, структурным параметром, априорной м,одели и отвечает за, степень временной нестационарности коэффициентов регрессии.

Это типичный пример задачи, в которой плавное изменение параметра Л определяет систему непрерывно вложенных априорных плотностей распределения Ф(с|А) вектора параметров модели, начиная от «однородного» распределения в при А = О до «однородного» распределения в при А —оо. Такая ситуация фактически представляет собой введение вместо дискретной последовательности целочисленных размерностей понятия «размытой размерности» вектора параметров с, непрерывно меняющейся от к до к.У при увеличении параметра X.Естественно, что классический критерий А1С оказывается неприменимым для выбора наиболее подходящего для, данного сигнала, (у,х) значения па,ра,м,етра, 0 < А < оо,

В этой статье мы рассматриваем параметрическую модель плотности распределения неизвестной генеральной совокупности /•'* (у) как смесь условной плотности из заданного семейства Ф(у |с), с е К™ и априорной плотности распределения вектора параметров Ф(с | А):

Значение структурного параметра модели А, оцененное по наблюдаемой выборке у, обеспечивает оптимальную степень сокращения слишком большой размерности вектора параметров с. Как только значение А выбрано, результат анализа представляет собой байесовскую оценку вектора параметров с

Мы будем эксплуатировать ту же идею, что и в (4), т.е. будем с помощью варьирования параметра А пытаться обеспечить наилучшее приближение модельного распределения Р(у | А) (15) и неизвестного распределения генеральной совокупности .Р*(у)

Мы предлагаем в этой статье два, способа, обобщения критерия А1С, а, также покажем, что классический А1С может быть получен как частный случай обоих способов при принятии специальных предположений об априорной плотности Ф(с | А),

Наконец, мм опишем, результаты модельного эксперимента, сравнивающего предложенный обобщенный информационный критерий оценки непрерывного структурного параметра м,одели с критерием скользящего контроля на, задаче анализа нестационарного сигнала.

1, Два способа вычисления расстояния по Кульбаку между

неизвестной истинной плотностью распределения и ее

моделью

С одной стороны, идея максимизации информации по Кульбаку о распределении выборки значений наблюдаемой переменной Р*(у), содержащейся в модельной плотности | А), есть математическое ожидание: Д1п.Р(у | А)]Р*(уу)с1у. Идея максимизации этой информации путем выбора подходящего значения А приводит к критерию:

Сд(у) = ащ тах [1п Ф(у | с) + 1п Ф(с | А)]

(8)

(9)

Этот способ выбора параметра Л подходит для любого вида истинной плотности распределения F*(у),

С другой стороны, рассматриваемая нами модель (15) включает в себя произвольный параметр с, как скрытую переменную. Таким образом, мы можем выбирать модель совместной плотности распределения скрытой и наблюдаемой переменной Н(с,у | Л) = Ф(с | А)Ф(у | с) наиболее близкую к истинному распределению Н*(с,у),Этот способ имеет смысл, только если неизвестная истинная плотность распределения F*(у) согласуется с принятым параметрическим семейством распределений Ф(у |с), то есть существует такое распределение Ф*(с), что выполняется

F*( у) = уФ(у|с)Ф*(фс. (10)

Тогда Н*(с,у) = Ф*(с)Ф(у |с), и «идеальный» критерий выбора Л принимает вид

Л* = argmax JJ[lnff(c,y \X)]H*(c,y)dcdy. (11)

Мы увидим, что формализации (9) и (11) приведут к существенно различным обобщениям классического информационного критерия Акаике для выбора значения непрерывного структурного параметра,

2, Основные предположения и некоторые свойства семейств

параметрических плотностей

Предположения. Мы ограничимся здесь рассмотрением случая параметрических семейств плотностей распределения ip(y | с), для которых логарифмическая функция правдоподобия 1пФ(у | с) асспмптотическн квадратична в окрестности оценки макеимальногоправдоподобия с , т.е. для достаточно большого размера N выборки у = (иj. j = 1,..., N) можно считать, что

In Ф(у | с) = In Ф(у | с(у)) + (1/2)(с - с(у))ТАлг(с - с(у)), Vclog Ф(у I с) = An(c - с(у)).

(12)

Причем гессиан Адг = Vccln<^(y Iе); называемый информационной матрицей Фишера, не зависит от точки с, в которой определен.

Рассмотрим теперь семейство плотностей априорного распределения скрытой переменной Ф(с | А), Будем полагать, что каждая из этих плотностей является нормальной, возможно вырожденной, с нулевым математическим ожиданием и ковариационной матрицей, определяемой значением структурного параметра А, Это приводит к тому, что логарифмическая функция правдоподобия 1пФ(с|А) есть квадратичная функция, достигающая своего максимального значения в нуле Ус1о§Ф(0 | А) = 0 и определяемая своим Гессианом Вд = у се In Ф(с | А), так что

In Ф(с | А) = const + (1 /2)стВас. (13)

Что касается неизвестной плотности распределения выходной переменной F*(у), то мы будем предполагать, что оно согласуется с семейством плотностей Ф(у | с) в

том смысле, что существует неизвестная плотность Ф*(с), которая допускает представление

Р'*(у) = УФ(у | с)Ф*(с)с/с (14)

Свойства. Рассмотрим произвольную выборку у, порожденную вероятностным распределением Ф(у | с) с некоторым фиксированным значением параметра с. Хорошо известно, что для гораздо более широкого класса условных распределений, чем те, что описаны выше (12), таких, что если А у есть матрица с полным рангом гапк(Адг) = п, произвольная оценка максимума правдободия с (у) оказывается несмещенной

с(у)Ф(у|фу = с, (15)

а ее условная ковариационная матрица полностью определяется информационной матрицей Фишера:

I(с(у) - с) (с(у) - с)тф(у I фу = (16)

В более общем случае, когда гапк(Адг) < п, (22) и (16) имеют вид:

Алг(с(у) - с) (с(у) - с)ТФ(у | фу = О, (17)

Алг(с(у) — с) Алг(с(у) — с) Ф(у с)г/у = - Ау (18)

Если условия (12) и (20) выполнены, то произвольная Байессовская оценка (8) есть линейная функция от оценки максимального правдоподобия

сА(у) = (Ау + ВА)-1А]¥с(у) (19)

с условной ковариационной матрицей относительно фиксированного значения параметра с

I(сА(у) - сА(с)) (сА(у) - сА(с))ТФ(у I фу = ^(Адг + ВО 1А у (А у + Вд)-1, (20) где с \ (с) есть условное матеметическое ожидание

сА(с) = / сх(у)Ф(у\фу = (Ам + Вх)-1Амс. (21)

3, Критерий максимума информации о распределении

наблюдаемой переменной

Непосредственная реализация критерия (9) невозможна хотя бы потому, что истинное распределение -Р*(у) неизвестно. Максимизация функции правдободобия по одной доступной реализации 1п^(у | А), как несмещенной оценки критерия, также бессмысленно, так как при этом будут предпочтительны значения структурного параметра, приводящие к слишком большим размерностям с & К™,

Для того чтобы преодолеть «проклятие единственной выборки», мы применим идею компромисса, обосновывающего классический информационный критерий Ака-ике ([1]), а именно вообразим существование другой независимой выборки у. Пусть по ней получена произвольная байессовская оценка сА(у) (8), Заменим 1п.Р(у | Л) в (9) на математическое ожидание 1п Ф(у | сА(у)):

А = агётахД/[1пФ(у | сА(у))]Ф(у | фу}ф(у I фу |ф*(фс. (22) Предложение 1. При предположениях (12) и (20),

[1п Ф(у I сА(у))] Ф(у I фу }ф(у I фу |ф*(фс =

Л(А|у)^(у)^у, (23)

Л(А|у)^(у)=1пФ(у|сА(у))-Гг

Адг(Адг + В \)

(12) в

Доказательство, основано на квадратичном представлении 1пФ(у | с) с = Сд(у) в выражениях (16)— (20),

Эта теорема указывает на построение непрерывного аналога классического А1С. Хотя распределение Ф*(с) в (12) по-прежнему неизвестно, а значит непосредственно применить критерий (22) невозможно, но выражение (23) дает легко вычисляемую функцию Л (А | у), которая является несмещенной оценкой полного критерия. Аналогично рассуждениям Акаике, эту функцию можно также максимизировать по искомому значению структурного параметра:

А = argmax< 1пФ(у |сА(у)) — Тг

А у (А у + Вд)

(24)

Это и есть обобщенный информационный критерий Акаике (6), Сравнение кри-

териев (24) и (6) позволяет интерпретировать штрафной член Тг

А у (А у + Вд)

как условную «размытую размерность» параметра с, выбор которого ограничено распределением 1пФ(с | А), □

4, Критерий максимума информации о совместном

распределениии наблюдаемой переменной и скрытого

параметра

Критерий (11) также невозможно вычислительно реализовать, не только по тому, что совместное распределение Н*(с,у | А) неизвестно, но также из-за того, что призвольный параметр с скрыт от наблюдателя. Как и в предыдущем разделе мы применим компромисс, заключающийся в использовании независимой воображаемой выборки у и замене lnii(c,y | А) на математическое ожидание In Н(с(у),у | А):

А = arg max JJ< / In Я(с(у),у | А) Ф(у | с) >H*(c,y)dcdy.

Здесь lnff (с(у),у | Л) = 1пФ(у,с(у)) + 1пФ(с(у) | А) и #*(с | у) = Ф(у | с)Ф*(с). Мы

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

получаем критерий

Л = arg max

А

1пФ(у,с(у))+1пФ(с(у)|А) Ф(у Iс) >ф(у|фу >Ф*(фс. (25)

который отличается от (22) только наличием дополнительного слагаемого Ф(с(у) | А), Предложение 2. При принятых предположениях (12) и (20),

1пФ(у|с(у)) +1пФ(с(у)|А) Ф(у |с) \Ф(у | c)dy \Ъ*(ф

(А | y)F*(y)dy,

h(A | у) = In Ф(у,с(у)) + In Ф(с(у) | А) - Tr-

im

Адг(Адг + В \)

Доказательство, этого утверждения основано на таких же рассуждениях, которые были сделаны для Предложения 1,

Выражение (26) показывает, что функция ^(А | у) есть несмещенная оценка критерия (25), Его непосредственная максимизация и есть другая версия обобщения классического Л К'

А = arg max = <j In Ф (у,с(у)) + In Ф (с(у) | А) - Тг

А\(А \ — В \)

(27)

5, Частный случай: классический информационный критерий

Акаике

Пусть структурный параметр принимает целые положительные числа 0 < А < /// и урезает вектор параметров с упорядоченными элементами с = (с\.с(„ \) & К, так же как и в (5) с п = А, то есть сд 6 1А, сто_д & Никакой априорной информации

о векторе с нет, то есть

Ф(сА | А) = ТТА фг{сг I п), фг{сг I А) = N(a I о,а2), а ^ оо

Так как только первая часть вектора параметров входит в условную плотность Ф(у |сА,сто_д), то Гессиан Av.\ = УсЛсЛ 1пФ(у | сА,0) есть матрица (А х А),

При принятых предположениях, обе версии обобщения AIC (24) и (27) приводят к критерию (6):

max In Ф (у | сд,0) — rank (Алг,л) —max,

ел ' А

6, Применение критерия Акаике в задаче оценивания

нестационарной регрессии: модельные эксперименты

В задаче оценки нестационарной регрессии (5)-(6) сама байессовская оценка скрытой последовательности коэффициентов регрессии с = (cf - с^ висит только от отношения А предполагаемых дисперсий шума в уравнениях наблюдения (5) и состояния (6), в том время ее статистические свойства существенно определяется дисперсией шума в модели наблюдения. Байесовская оценка вектора параметров с может быть получена минимизацией критерия Flexible Least Squares

(ш -+~ с*-1)т(с* - min(c) с помощью фильтра-интерполятора Калмана-Бьюсп [7].

Представим модель в явной форме. Мы будем полагать, что у = (//, • • • yN)T е Шм

и с = е ШкК есть вектор-столбцы, X = (Xts,i, = 1......Y)

есть блочная матрица размера (kN х N) с блоками Xts = (х4,еслп£ ф s) (к х 1), В\ф(кМ х kN) есть квадратная блочно-трехдиагональная матрица с диагональю ((1 /р + 1/А)1,(2/А)1,... ,(2/A)I,(l/A)l) и не диагоналями (—(1/А)1,..., — (1/А)1), где I есть единичная матрица размера (к х к). Положим также дисперсию наблюдаемого шума равной единице S = 1, тогда модель (5) будет тогда давать функцию максимального правдоподобия In Ф(у | с,Х) = In Л'(у | XTc,I) = const + (1 /2)с7 A vc. гессиан которой A v = ^ХХТ (kNxkN) всегда вырожден и, если регреееоры (.г ¡¡J = 1,... ,N) линейно независимы, имеет максимальный ранг ratik( А у) = N. Скрытый марковская модель коэффициентов регрессии (6) выражается семейством априорных плотностей распределения 1пФ(у|А,р) = In Л'(с O.Bv;,) = const + (1/2)|ВА,р| - (1/2)стВА,рс.

Мы проанализировали 200 независимых реализаций случайного процесса (5) длинной N = 50 , полученного как линейная комбинация трех регрессоров (.%ц, t = 1,... ,N), i = 1,... ,k, k = 3, представляющих собой случайный белый шум с нулевым средним, с коэффициентам,и регрессии, взятыми как синусоидальные последовательности c*t = 4sin((2-7r/iV)i+ (2-7г/3)(г — 1)) смещенные друг относительно друга по фазе 10%. Дисперсией шума в модели наблюдения составляла 10 процентов

i = 0.l((l/iV)Ef=i(xrct)2).

Предполагается, что нет никакой априорной информации о векторе коэффициентов в первый момент времени, то есть р —оо. Зависимость «эффективной размерности» последовательности коэффициентов регрессии (ci • • • Сдг) от предполагаемой дисперсии А, вычисленная по единственной реализации произвольной последовательности регрессоров, изображена на Рис. 1. Эта размерность равна числу регрессоров в случае нулевой дисперсии А —0 и достигает длины временных серий при А —оо.

Для, каждой из 200 смоделированных временных серий, были вычислены 3 значения параметра дисперсии А, во-первых, по принципу двух версий обобщенного критерия Акаике (24) и (27), во-вторых, традиционным, методом скользящего контроля, |7|, Затем мы, применили каждое из полученных значений к оставшимся 199 временным сериям, как к контрольному множеству, и сравнили истинную последова,-тельность коэффициентов регрессии (с^---сд,) с полученной оценкой (сх д • • • сл, д) по критерию

N /

- - _ Г*\г(п (Г*\ТГ*

/,=1 !

Мы, получили следующие результаты:

Критерий А -л

Максимум близости распределения наблюдаемой переменной 0.010 0.012

Скользящий контроль 0.033 0.034

Максимум близости совместного распределения наблюдаемой переменной и скрытого параметра 0.072 0.055

Формально, первая, версия, критерия, Акаике показала наилучшие результаты, хотя, результаты, всех трех критериев очень близки друг к другу. Эксперименты выявили важный факт, что два, фундаментально различных подхода: новый класс непрерывного обобщения, информационного критерия, Акаике и традиционный принцип скользящего контроля, не превосходят друг друга, в вопросе вы,бора, наиболее подходящего значения, параметра дисперсии, отвечающего за нестационарность регрессивной модели. В то же время, непрерывный А1С несравненно лучше с вычислительной точки зрения.

Рис. 1. Эффективная размерность последовательности коэффициентов регрессии как функция от А (логарифмический масштаб)

список литературы

1. Akaike Н. A new look at the statistical model idendification // IEEE Trans, on Automatic Control, Vol. IC-19, No.6, December 1974, pp. 716-723.

2. Kitagawa G., Akaike H. A procedure for the modeling of no-stationary time series. // Ann. Inst. Statist. Math., Vol. 30, Part ВД987, pp. 351-363.

3. Scharz G. Estimating the dimtnsion of the model. // The Annals of Statistics, Vol. 6,No.2, 1978, pp. 461-464

4. Bozdogan H. Model selection fnd Akaik's Information Criterian (AIC): The general theory ands its analitical extensions. // Psychometrica, Vol. 52, No.3, September 1987.

5. Spiegelhalter D., Best N., Carlin B. Van der Linde A. Bayesian mesures of model complexity and fit. // Journal of the Royal Statistical Society. Series В (Statistical Methodology), Vol. 64, No.4, 2002, pp. 583-639.

6. Rodrigues С. C. The ABC of model selection: AIC, BIC and new CIC. // AIP Conference Proceedings., Vol. 803, November 23, 2005, pp. 80-87.

7. Markov M., Krasotcina O., Mottl V., Muchnik I. Time-varying regression model with unknown time-volatility for nonstationary signal analyses. // Proceedings of the 8th IASTED Internation Conference on Signal and Image Processing. Honolulu, Hawaii, USA, August 14-16, 2006.

Статья поступила в редакцию 08.05.2008

i Надоели баннеры? Вы всегда можете отключить рекламу.