Научная статья на тему 'Конкурирующие регрессии: критерии и процедуры отбора'

Конкурирующие регрессии: критерии и процедуры отбора Текст научной статьи по специальности «Математика»

CC BY-NC-ND
297
57
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Ершов Э. Б.

Предложен и реализован новый подход к определению наборов факторов для регрессии при заданном множестве потенциальных аргументов и фиксированной выборке. Выбираются наборы, являющиеся для используемых критериев качества регрессий конкурирующими, и такие, что не отвергается нормальность ошибок. К искомым регрессиям предъявляется требование быть гармоничными, обобщающее предложенное Хелвигом понятие коинцидентности. Несуществование одновременно конкурирующих, нормальных и гармоничных регрессий (KNH-регрессий) в условиях доверия к предположениям МНК интерпретируется как наличие в выборке нетипичных наблюдений. Предложен класс процедур «регрессионного тримминга», выявляющих и корректирующих такие наблюдения с целью нахождения скорректированных KNH-регрессий. Приведены примеры, использующие данные из классических работ по регрессионному анализу.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Rival Regressions: Criteria and Selection Procedures

In the article a new approach to regression models selection [diagnostics] is presented. It covers the case of fixed sample and predefined set of potential factors/ exogenous variables. By using conventional criteria it is possible to select alternative models with subsets of exogenous variables, for which the normality condition of residuals is not rejected. The harmonicity condition, based on a generalization of Hellwig's coincidence concept, is then applied to these models. Nonexistence of simultaneously rival, and harmonical regressions with normal residuals (RHTV-regressions), given the sample and the set of exogenous variables, signifies presence of data outliers [atypical observations] in the sample. A class of regression trimming procedures to test for outliers and adjust them so to apply the RHN-regression selection procedures is proposed. Examples of application of the proposed procedures are based on the data samples borrowed from classical sources on regression analysis.

Текст научной работы на тему «Конкурирующие регрессии: критерии и процедуры отбора»

ПРАКТИЧЕСКИЙ АНАЛИЗ

Конкурирующие регрессии: критерии и процедуры отбора1)

Ершов Э.Б.

Предложен и реализован новый подход к определению наборов факторов для регрессии при заданном множестве потенциальных аргументов и фиксированной выборке. Выбираются наборы, являющиеся для используемых критериев качества регрессий конкурирующими, и такие, что не отвергается нормальность ошибок. К искомым регрессиям предъявляется требование быть гармоничными, обобщающее предложенное Хелвигом понятие коинцидентности. Несуществование одновременно конкурирующих, нормальных и гармоничных регрессий (КМИ-регрессий) в условиях доверия к предположениям МНК интерпретируется как наличие в выборке нетипичных наблюдений. Предложен класс процедур «регрессионного тримминга», выявляющих и корректирующих такие наблюдения с целью нахождения скорректированных КМИ-регрессий. Приведены примеры, использующие данные из классических работ по регрессионному анализу.

1. Введение

В эконометрике известны так называемые проблемные задачи, для которых отсутствуют строгие постановки, позволяющие получать однозначно интерпретируемые и признаваемые в общем случае решения. К числу таких ставших уже классическими задач, безусловно, относится задача выбора множества факторов для линейного регрессионного уравнения при заданном наборе потенциальных факторов и фиксированной объясняемой переменной.

Возможные теоретические подходы к выбору таких множеств факторов и практически применяемые методы их нахождения рассматривались в научной и учебной литературе многократно и со многих позиций, в том числе в специальных обзорных работах [14, 19, 25, 27, 32, 36, 39, 45, 63], монографиях общего характера [1, 2, 3, 7, 8, 15, 59, 61, 62] и оригинальных статьях, часть которых включена в список литературы к данной работе.

1) Статья представляет собой расширенный вариант доклада с тем же названием на VII Международной школе-семинаре «Многомерный статистический анализ и эконометрика» (Республика Армения, поселок Цахкадзор, 21-30 сентября 2008 г.), организаторами которой являлись ЦЭМИ РАН, Московская школа экономики МГУ, Российско-Армянский (Славянский) государственный университет, Армянский государственный экономический университет и журнал «Прикладная эконометрика».

Ершов ЭБ. - к.э.н., профессор кафедры математической экономики и эконометрики ГУ ВШЭ. Статья поступила в Редакцию в октябре 2008 г.

Исходные предположения, на которых основываются разнообразные предлагаемые методы выбора предпочтительного уравнения, как правило, принимаются в качестве аксиом и лишь в редких случаях могут тестироваться с использованием данных выборки ограниченного и тем более малого объема.

Общий вывод, к которому можно придти, непредвзято анализируя содержание упомянутых публикаций, состоит в том, что применяемые в совокупности методы из множества потенциально возможных регрессий только выделяют подмножество конкурирующих между собой регрессий, каждая из которых является оптимальной или субоптимальной для одного или нескольких количественных, скалярных критериев качества регрессии. Поскольку такие критерии в рамках экономегрической теории представляют собой случайные величины-статистики, свойства которых определяются неизвестным в общем случае характером генеральной совокупности изучаемых величин и характером используемой выборки, то у исследователя имеется возможность субъективного выбора аксиом, относящихся к используемым данным.

Исследователь, выбирая аксиомы, может и даже должен принимать во внимание цели, для достижения которых будет применяться искомая регрессия. Но при этом возникает опасность того, что выбираемые так исходные предположения не будут согласованы с фактическим, труднотестируемым характером данных. В этих условиях естественно попытаться выделить из конкурирующих регрессий некоторое множество-ядро, которому по предположению, принадлежат «наилучшие» регрессии, какими бы методами они не определялись. Из такого понимания задачи следует, что к регрессиям из ядра должны предъявляться качественные требования, не противоречащие предположениям-аксиомам, на которых базируется применение частных критериев качества регрессий, и в то же время достаточно общие для того, чтобы в ядро не включались «спорные» конкурирующие регрессии, для которых есть основания сомневаться в оправдываемости «критических» аксиом, признаваемых обязательными к выполнению.

Предлагается практически реализуемый подход к определению такого ядра. Множество определений наилучших регрессий может пополняться за счет вводимых понятий, определений и конструкций. Возникает возможность проверки того, будут ли новые определения приводить к регрессиям из определяемого таким образом ядра. Выбор регрессии из ядра или даже конструирование зависимости объясняемой переменной от факторов с использованием регрессий из ядра как самостоятельных объектов представляет собой важную, но самостоятельную задачу, которой предполагается посвятить отдельное исследование.

Рассматривается следующая, не имеющая общепринятой постановки и метода решения проблема: для заданной величины у из множества факторов (х1 х2,...,хм) выбрать подмножество ат = (ху-(1), ху-(2), ..., ху-(т)), определяющее «наилучшее» уравнение

У = ао х]а] +е, ] е®т, оцениваемое методом наименьших квадратов (МНК) по

]

данным п-мерной выборки (ук; хк1,...,хм), к = 1,...,п. Для нее предлагается относительно новая постановка и подход к решению, состоящий из нескольких этапов, на которых выявляются и используются специфические особенности данных. При этом будем исходить из признаваемой специалистами целесообразности различать задачу определения наилучшей регрессии для заданной выборки и задачу отбора множеств факторов, которые следует в первую очередь использовать в уравнениях для объясняемой переменной при значениях факторов, не включенных в вы-

борку, или при конструировании регрессии по данным других выборок, порождаемых, по предположению, общей для таких выборок и для имеющейся выборки генеральной совокупностью или моделью данных.

2. Множество конкурирующих наборов факторов

Многими авторами были предложены и применяются при выборе множества факторов тт различные «критерии качества регрессий» (ККР).

Для большинства критериев известны предположения, при которых они имеют теоретическое обоснование. В дальнейшем будем использовать традиционные для эконометрики обозначения:

Х(т) = (г„, х(1),..х(т)) х где /'П =(1,...,1) - п-мерный вектор;

а(ют) = (X Х)-1Ху - МНК -оценка вектора коэффициентов

а = (a0,aj(1),.,aj(m)),

Р(Ют) XXХ)-'Х ,

ё(Ют) = (1п - Р(®т))У,

Я££(Ют) = ё(«т) ё(®т),

Я 2 (Ю )= 1 - ЯЖ (Ю ) / Х( У, - У )2.

к

Будем предполагать, что матрица Х(0.м) Х(0.м) невырождена и, следовательно, при заданном множестве потенциальных факторов метод наименьших квадратов реализуем для любого подмножества факторов ат при 1 „ т „ М.

Кратко охарактеризуем критерии, которые будут вычисляться на множестве всевозможных регрессий при фиксированных у, Ом(х) и выборке с тем, чтобы определить регрессии, являющиеся претендентами на роль наилучшей регрессии. Предлагаемая схема выделения множества таких регрессий инвариантна по отношению к выбору используемых скалярных ККР.

Основными максимзируемыми критериями являются:

Я2 ° Я2аф = 1 -(п-1)(1-Я2) / (я - т -1) [61, 62];

Я2 = 1 - п(1 - Я2)/(я - т - 1) [7, 24, 63];

Я2 = 1 - {(я - 3)/(я - т - 1)}(1 - Я2)^(1;1;0,5(п - т + 1);1 - Я2), где ^(а;в;у;^) - специальная гипергеометрическая функция [46], и для математического ожидания ЕЯ2 статистики Я2 (ют) при я > (т + 1) ^ 3 имеем ЕЯ2 (ют) = Ш2 - коэффициент детерминации для регрессии с набором факторов ат для (т + 1)-мерной нормальной случайной величины

(у;Х/(1>. • -"/(т)) = (У; ЮтХ х/ € Ют;

» Я2 = Я2 - (т -2)(1 - Я2)/(я - т - 1) - 2(п - 3)(1 - Я2)2/{(я - т - 1)(п - т + 1)}, где Я2 - статистика, аппроксимирующая статистику Я2 при больших я [6];

^n = R2 - {8m(n - m - 1)/[(n - 1)(n + 1)]}05(1 - R2), где R^dn - «нижняя доверительная граница» для Â2 [2];

1

HELL = Х r (х,. ; y)2 Щr (X,. ; х, )

где Xj,Xj ä wm, r (x, v) - выборочное значение коэффициента корреляции для переменных x,v [30, 31].

В качестве минимизируемых критериев часто используются:

AIC = ln(RSS/n) + 2(m + 1)/n [12];

BIC = ln(RSS/n) + {(m + 1)/n}ln(n) [53];

J = PC = (n + m + 1) RSS/(n - m - 1) [14, 32, 43, 50];

FPE = J/n [11];

H = RSS/(n - m - 1) [61, 62];

HOCK = Sp= RSS(w)/{(n - m - 1)(n - m - 3)} [20, 32, 63];

СКОП = RSS(w)/{(n - m - 1)(n - m - 2)} критерий «среднеквадратическая ошибка прогнозирования» [1, 4, 17, 54, 59, 64];

PRESS = Х ê\/(1 - Pkk )2 [13, 52, 60];

к

SRSS = X ê2/ (1 - Pk ) [32, 52];

k

SHOCK = {RSS(wm) + RSS(WM)}/{(n - m - 1)(n - m - 3)} [32, 63];

MAL = Cp = RSS(am)/ à2e (WM) + 2(m + 1) - n, MALL = MAL - (m + 1) [28, 43, 44];

MOO = maxk|êk /yk| • 100; COO = n-êk / Jk| -100 (для числа коэффициентов в рег-

k

рессии используется обозначение m + 1= p).

Множественность критериев и трудности тестирования альтернативных теоретических условий корректного применения отдельных критериев с использованием данных выборки ограниченного объема делают обоснованный выбор из числа реализуемых ККР практически нерешаемой задачей. Обращает на себя внимание то, что некоторые критерии, имеющие свои обоснования, отличаются друг от друга лишь сомножителями, зависящими только от параметров n, m и констант 1, 2, 3. Взаимоотношения между наборами факторов, выбираемыми с использованием различных критериев при фиксированных объясняемой переменной, множестве потенциальных факторов WM и выборке, а также ранги наборов при их упорядочивании по значениям ККР изучены недостаточно. Фактически проанализированы взаимосвязи критериев Cp, Sp, J [35], известны результаты, относящиеся к асимптотической эквивалентности некоторых критериев (см., например, [38, 58]), и арифметические соотношения, следующие непосредственно из определений критериев, представляющих собой функции от аргументов (n), (m) и RSS.

В статистических и эконометрических пакетах программ представлены только наиболее простые ККР. Даже в случае, когда методы тестирования условий при-

менимости таких критериев известны, их автоматическое тестирование не предусматривается и почти всегда не выполняется. Косвенные признаки невыполнения таких условий, в том числе связанные со спецификой используемой выборки, часто игнорируются, и, как следствие, особенности выборки не выявляются и не учитываются при наивно доверчивом выборе множества факторов.

Уровень изученности проблемы выбора применяемого критерия качества регрессии иллюстрирует ситуация с «несмещенным» критерием Я2. До последнего времени этот критерий не использовался из-за отсутствия эффектовного метода вычислений его значений. Такой метод был предложен и реализован в работе [5]. Заметим, что гипотеза нормальности генеральной совокупности для случайной величины (у;ют), на которой базируется применение ряда критериев, в том числе и Я2, тестируется в этой работе с помощью статистики W Шапиро - Уилка [7, 22, 23, 34, 55, 56, 57], которая фактически «вытеснена» из эконометрических пакетов и учебников асимптотической статистикой ^ [18]. Статистика W вычисляется для каждой из переменных у, х ат и их ортогональных комбинаций, представленных в виде главных компонент их выборочной ковариационной матрицы. Этот прием известен, по-видимому, давно [49] и почти очевиден, но в статистической практике не используется, что возможно и даже скорее всего объясняется опасением столкнуться с отклонением гипотезы нормальности.

Доказано [5], что независимо от результатов тестирования этой гипотезы при Я2 1 выполняются неравенства Я2 < min I Я2/; Я2 I max I Яаа/; Я2 I Я2. Следо-

вательно, если гипотеза нормальности не отвергается, то статистики Я2а^) , Я2 и Я2

от значения Я2 выполняются неравенства Я2аС] Я2 и Я2а^ Я1 . Для этих неравенств и для уравнения Я\ = Я2 найдены общие решения - множества троек

•аС] '

можно считать положительно смещенными относительно Ш2. Но значения статистик Я2ас1] и Я2 не упорядочиваются, т.е. при фиксированных я и т в зависимости

ТТ/ГСГ ??2 "О Т_ Т ТТ ГЧ ТТТГ СГХГЧ^Т' Г» СГ ГГО'ГЧОТЭОГТГ'^Г'ТЭ О К Я и Я

ас] аСЦ

= Я2 найдены

(я,т,Я2). Для критерия Я2 получены формулы и разработана программа, вычисляющая его значения для любых я и т при я т + 1 3. Известно [6], что статистика Я2 представляет собой функцию от полной системы достаточных статистик и единственную функцию от статистики Я2, чье математическое ожидание равно

детерминированной величине Ш2.

В охарактеризованных условиях, когда выбор какого-либо одного критерия качества регрессии затруднен, предлагается вычислять значения всех или нескольких отобранных эвристически или алгоритмически из охарактеризованных критериев. Эта рекомендация близка к позиции Себера, выраженной следующим образом: «Из приведенного рассмотрения ясно, что выбор критерия во многом зависит от того, каким образом модель собираются использовать. Поскольку очевидно, что дальнейшее исследование требует определенных свойств различных мер, то при сравнении моделей рекомендуется всегда вычислять не одну, а несколько мер» [7, с. 360]. Но

причины, из-за которых следует характеризовать набор факторов и регрессию значениями многих критериев, а также не ограничиваться сравнением этих критериев для разных регрессий, по нашему мнению и как будет видно из дальнейшего, не сводятся только к различиям направлений использования оцениваемых зависимостей.

Совместно с H.A. Толмачевой разработана программа, вычисляющая значения задаваемых ККР для всех вариантов множеств факторов (при М 10) и для каждого такого критерия определяющая его экстремальное (наибольшее или наименьшее) значение и множество факторов, для которого оно достигается, а также наборы факторов с близкими к экстремальным значениями выбранных критериев (для разных определений «ближайших» регрессий).

Многочисленные экспериментальные расчеты подтвердили предположение, согласно которому, как правило, для критерия K9(a) существуют такие наборы факторов cas, s = 1...Д что Kj(as) ~ max(min)fflKj(a) = Kj(a°vt). Это позволяет определить ОД,) - множество конкурирующих (для критерия Kj) наборов факторов. Тогда для критериев Kv(a), j ä W, где ¥ - множество отобранных ККР, определяется

множество конкурирующих (для ¥) наборов факторов W(K) = UjW(Kj) = W(K[¥]).

Такие наборы факторов рассматривались многими исследователями в иллюстративных примерах для эмпирически выбираемых в процессе анализа критериев (см., например, [3, гл. 6; 7, гл. 12]). Себер отмечает, что в пакете BMDP для каждого из трех критериев R2, R2dj, MAL = Cp находится задаваемое число субоптимальных наборов факторов.

Дрейпер и Смит так характеризуют практическую неразрешимость задачи универсального выбора критерия качества регрессий и одновременно метода определения «наилучшего» набора факторов: «Для реализации такого выбора нет однозначной статистической процедуры» (с. 9); «Чтобы окончательно выбрать модель, требуются дополнительные априорные соображения и здравый смысл экспериментатора» (с. 28); «Никакой метод не будет хорошо работать при всех условиях, как бы хорошо он не проявил себя на частном примере» (с. 58).

При практической трудности классификации и тестирования достаточных условий применения отдельных критериев для всевозможных вариантов регрессий предлагается на первом этапе решения поставленной задачи в качестве промежуточного результата рассматривать именно множество конкурирующих наборов факторов W(K[¥]). На втором этапе к конкурирующим регрессиям с a W(K[¥]) = W(K) предъявим качественные «дополнительные априорные» требования, в которых, по нашему мнению, проявляется «здравый смысл экспериментатора».

3. Конкурирующие нормальные и гармоничные регрессии

Наиболее простым и логичным качественным требованием к набору факторов, для которого регрессия претендует на роль «наилучшей» регрессии, является, конечно, его принадлежность к множеству конкурирующих наборов. При сравнении

12 12 1 12 двух таких «вложенных» (а а ) или «невложенных» (а а а ) наборов а и а

с целью определить из них более предпочтительный традиционно в прикладной эконометрике принимается гипотеза нормальности ошибок для искомой «истинной» регрессии. Все критерии качества регрессий на стадии их теоретической интерпретации также в той или иной степени базируются на этой гипотезе. Поэтому естественно требовать от рассматриваемых регрессий, и в первую очередь от конкурирующих, чтобы для них не отвергалась гипотеза нормальности ошибок. Такие регрессии и их наборы факторов будем называть нормальными, вводя для множества нормальных наборов факторов и соответствующих регрессий обозначение W(N).

Гипотезу нормальности набора факторов am W(N) можно тестировать многими способами. Проведенный анализ соответствующих публикаций показал, что предпочтение можно отдать использованию уже упоминавшейся статистики Шапиро -Уилка W„(e), рассчитываемой по МНК-остаткам ¿k(am), k = 1,...,n. Гипотеза нормальности ошибок (ек) не отвергается, если Wn(e) wnp, где wnp - получаемое из таблицы критическое значение статистики Wn и p - задаваемая доверительная вероятность (уровень значимости). Величины wnp известны по крайней мере для n = 3,...,50 и p = 0,01; 0,02; 0,05; 0,10; 0,50; 0,90; 0,95; 0,98; 0,99. В тесте Шапиро -Уилка используются уровни значимости p = 0,5 и p 0,5. Принадлежность Wn(e) к интервалу между критическими значениями wn,p позволяет получить представление о степени оправдываемости гипотезы нормальности. Тест Шапиро - Уилка включен в статистический пакет SPSS и в оригинальные программы, разработанные Толмачевой Н.А. в сотрудничестве с автором статьи.

Таким образом определяется множество конкурирующих и нормальных наборов факторов W(KN) = W(K)H W(N).

Второе качественное требование к наборам факторов am WM определим как требование гармоничности набора и соответствующей регрессии. Оно состоит в том, что знаки МНК-оценок äj коэффициентов aj при факторах xj am должны совпадать со знаками выборочных коэффициентов корреляции r(y;xj) и ковариа-ции cov(y; xj) для объясняемой переменной y и факторов xj.

Для того чтобы это определение можно было распространить на случай, когда äj = 0 для фактора xj wm, требование гармоничности сформулируем в более общем виде, а именно как систему неравенств äjr(y; xj) 0, xj wm. Тот факт, что аналогичные неравенства можно считать выполняющимися для всех факторов, которые не включены в набор wm, не влияет на свойства гармоничных регрессий и возможности их использования при решении рассматриваемой проблемной задачи. Регрессии, для которых выполняются неравенства äjr (y;xj) 0, xj wm, можно называть вполне гармоничными.

Определение гармоничных регрессий целесообразно дополнить требованием надежного определения знака произведения статистик äj и r (y;xj) или cov(y; xj). Его можно было бы интерпретировать как условие неотклонения нелинейной гипотезы неотрицательности или положительности произведений a,r(y;xj) при xj wm, в которых ненаблюдаемые теоретические величины aj и r(y;xj) должны быть определены с учетом особенностей данных и предполагаемых использований регрессий.

Эта гипотеза должна тестироваться с использованием только выборочных значений коэффициентов корреляции и МНК-оценок коэффициентов а,. Но метод, позволяющий оценивать вероятность выполнения системы неравенств а,т(у;х) 0, х, ат, даже при упрощающих предположениях о регрессии с множеством факторов ат и о случайной величине (у;ат), не разработан. В этих условиях приходится ограничиваться эвристическими оценками вероятностей выполнения неравенств а"™ > 0,

а^т £ о, т (у; х) 0, т (у; х) 0, а,т (у;х,) 0 в предположениях о нормальности ошибок

и случайной величины (у;ат) или о детерминированности значений факторов. Если

получаемые оценки вероятностей выполнения неравенств а"стт (у; х,) > 0 достаточно

велики, то будем считать, что регрессия признается гармоничной «надежно». Задача строго обоснованного тестирования гипотезы гармоничности при различных упрощающих, но реалистичных предположениях, безусловно, заслуживает внимания. В данной статье ограничимся простым определением гармоничности, использующим статистики а,т (у;х,).

Но возможен и иной подход к объяснению того, почему по отношению к конкурирующим регрессиям предъявляется требование быть гармоничными. Можно рассматривать задачу оценки или даже вычисления вероятности того, что регрессия

с детерминированными факторами х, ат, независимыми нормальными ошибками с дисперсией и2е и известными истинными значениями коэффициентов аист будет при оценивании методом наименьших квадратов признана гармоничной, т.е. будут выполняться неравенства а,т(у;х,) 0, х, ат. Эта задача относительно легко решается в простейшем случае, когда имеется всего два фактора, которые можно считать центрированными и нормированными.

Охарактеризуем метод решения этой задачи. Пусть значения переменных х1, х2 в выборке образуют столбцы матрицы (х). Тогда находится множество Г(аист; т12) значений нормально распределенных МНК-оценок а коэффициентов при факторах {а Ы(аист; аге (х'х)-1)} такое, что при а Г (а "ст; т12) оцененная регрессия признается гармоничной. При этом корреляционная матрица (т) для факторов определяется известным значением коэффициента корреляции т12 = т (х1; х2), а неравенства т(у;х1) ( )0, т(у;х2) ( )0 эквивалентны неравенствам а1 + т12а2 ( ) 0, т12а1 + а2 ( ) 0. Интегрируя по имеющему простую структуру множеству Г(аист;т12) нормальную плотность для двумерного вектора а, можно вычислить искомую вероятность р(аист,т12,о'1) как функцию четырех аргументов. Предположение о том, что однофак-торные и гармоничные регрессии с аргументами х1 и х2 являются конкурирующими, будем интерпретировать в виде приближенного равенства коэффициентов детерминации для этих регрессий: т(у;х1)2 т (у;х2)2. Получаемое таким образом решение подтверждает предположение, согласно которому вероятность Р(аист,т12, сте2), как правило, будет значительно превосходить вероятность получить негармоничную регрессию, что и является аргументом, мотивирующим формулирование требования гармоничности. Задачу вычисления вероятности р предполагается рассмотреть в отдельной публикации.

Очевидно, что выделять гармоничные и особенно «надежно гармоничные» наборы факторов целесообразно из множества конкурирующих и нормальных наборов 0.(К№). Для множества гармоничных или кратко Н-регрессий (Н~Ьагшошс) и наборов факторов введем обозначение О(Я). Таким образом определены множества 0.(КИ), О(ЫИ), ЩКЫИ), представляющие собой результаты операций пересечения множеств, включенных в их обозначения

(ае£ О(ЛБ) = 0(Л)П ^(Б), О(ЛВС) = 0(Л)П ОБ)П О(С)}.

Наибольший интерес представляет множество наборов факторов О(КЫИ), называемое ядром конкурирующих, нормальных, гармоничных регрессий и являющееся результатом второго этапа решения задачи. Но следует иметь в виду, что введенные множества наборов факторов в конкретных случаях могут быть пусты. Так, для фиксированной выборки возможно: ЩКЫИ) = 0 и даже О(И) = 0, но всегда существуют конкурирующие регрессии (О(К) 0) и гармоничные регрессии (О(И) 0), так как однофакторная регрессия является гармоничной (ю1(хЦ)еО(Н)) и даже вполне гармоничной, если г (у;хЦ) 0. Поэтому результатом второго этапа может быть и обнаружение несовместности требований конкурентности, нормальности, гармоничности наборов факторов и регрессий.

Поясним мотивы, по которым к конкурирующим регрессиям целесообразно предъявлять требование быть гармоничными. Гармоничные регрессии обладают следующими представляющими интерес для теоретических и прикладных исследований свойствами.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Во-первых, определение гармоничности инвариантно относительно невырожденных, линейных, сепарабельных преобразований переменных. Поэтому такие регрессии удобно рассматривать в центрированных и нормированных переменных, для которых знаки МНК-оценок /Ц коэффициентов в при факторах совпадают со знаками оценок йц при Х/ сот.

Во-вторых, в так называемом факторном разложении коэффициента детерминации Я2 (с) ° ^ Г (у; хц) /ц (с) вклады факторов Хц неотрицательны, а для вполне

ЦЕС

гармоничных регрессий даже положительны, т.е. Г (у;хц) /j (с) > 0, ХцЕю. Целесообразность и обоснованность включения в регрессию факторов с отрицательнами вкладами в показатель-статистику Я2, по мнению автора статьи, нуждается в специальном мотивировании. Если для вполне гармоничной регрессии вклады факторов принадлежат полуоткрытому интервалу (0; Я2], то для негармоничных регрессий вклады некоторых факторов отрицательны и даже могут быть меньше, чем (-И2). Такой набор факторов и объясняемую переменную можно охарактеризовать как внутренне противоречивую, несамосогласованную с позиций регрессионного анализа совокупность переменных. Условие неотрицательности вкладов факторов в Я2 можно принимать в качестве определения гармоничных наборов факторов и регрессий.

В-третьих, множество гармоничных регрессий при заданных переменных у и ху Ом обладает свойством, формулируемым в виде следующего утверждения, непосредственно связанного с часто применяемыми для выбора наилучшей регрессии «методом исключения» факторов и «шаговым регрессионным методом» пополнения множества факторов.

Для ат = (хь...,хт)еО(И) существует такая последовательность факторов {х,-(1),...,х,-(т)}, х,(^)Еат, что гармоничны все «вложенные» регрессии с наборами факторов а1 = (хЛ1)), а2 = (х,(1),х,(2)),., ат-1 = (х^),...,-!), ат = (х^),...,)) = ат, отличающиеся одним исключаемым или включаяемым фактором.

Доказателъство. В работах [37, 65] рассматривались достаточные и необходимые условия, при которых МНК-оценки коэффициентов а,(ат-1) и а,(ат) при факторе х, в регрессиях с наборами аргументов ат-1 и ат (ат-1;х), где х1 - исключаемый из ат фактор, имеют одинаковые или противоположные знаки. В частности, было показано, что а(ат-1)а,(ат) 0 при ] 1, если модули /-статистик ^(ат), /,(ат) для коэффициентов при факторах х1 и х, в регрессии с набором факторов ат удовлетворяют неравенству ^(ат) (ат). Следовательно, исключая из гармоничного набора факторов ат любую переменную х1 с наименьшим значением модуля /-статистики, получаем гармоничную регрессию. С регрессией, имеющей набор факторов ат-1, поступаем таким же образом и т.д. Поскольку регрессия с одним фактором всегда гармонична, получаем искомую последовательность регрессий.

Таким образом, гармоничные регрессии представляют собой последовательности вложенных гармоничных регрессий, отличающихся одним фактором. Это представление не обязано быть единственным. Среди гармоничных регрессий выделяются финально-гармоничные регрессии с наборами факторов ат, для которых при заданном множестве потенциальных факторов Ом не существуют «включающие» их гармоничные регрессии с факторами х, ат + И, И 0 и ат ат + И.

В частном случае гармоничные регрессии изучались Хеллвигом (Е^1ау Н. НеП'шд) как регрессии, «обладающие свойством коинцидентности», у которых отсутствует «эффект катализа» [30, 31]. Хеллвиг так определил это свойство: при условиях, что факторы положительно коррелированны с переменной у, т.е. т0, = т (у; х) > 0 (условие всегда выполнимо с помощью перехода от переменной х, к -х, если т, 0, ] = 1,...,т), и | т, | 1, выполняются неравенства:

1) т01 т0, > т, = т (х; х) > 0, в которых 1

2) аi > 0, 1 = 1,...,т.

Если отказаться от условий (1) и от неравенств т, +1,-1, а неравенства (2)

трансформировать в а, 0, то получаем определение гармоничной регрессии. Элж-бета Максимиак [41] нашла два варианта условий, достаточных для того, чтобы регрессия обладала свойством коинцидентности. Хеллвиг и Максимиак рассматрива-

ли это свойство как присущее «хорошим» регрессиям. Следует, однако, заметить, что свойство коинцидентности также определялось в терминах выборочных значений соответствующих статистик, т.е. без внимания к их случайному характеру.

Эффект катализа проявляется в том, что выборочное значение Г (у; хц) коэффициента корреляции имеет знак, отличный от знака коэффициента при факторе х, в предполагаемом существующем, истинном уравнении регрессии. Поскольку такое уравнение неизвестно (неизвестен даже набор его факторов) и ищется, то, заменяя понятие коинцидентности более общим понятием гармоничности, можно исходить из следующего объяснения причин возникновения нежелательного или требующего содержательного обоснования эффекта катализа: негармоничность регрессии, если она «надежно» выявляется при использовании имеющихся данных (следует помнить, что знаки МНК-оценок й, и коэффициентов г0ц не обязательно надежно определяются), возможно является следствием неправильного выбора множества факторов или наличия в данных нетипичных наблюдений. Тогда негармоничность конкурирующей регрессии может рассматриваться как предупреждение о выборе и использовании набора факторов, нуждающегося в дополнительном оправдании, и гармоничность искомых конкурирующих и нормальных регрессий представляется качественно правдоподобным и естественным постулатом.

Примеры негармоничных регрессий, признаваемых удовлетворительно моделирующими зависимость объясняемой переменной от факторов и даже наилучшими, относительно редко, но все же встречаются в серьезных публикациях. Так, например, в [6] вычисление МНК-оценок коэффициентов иллюстрируется примерами 27.1 и 27.2, в которых регрессии с полными наборами факторов (ст = аи = Ом) не являются гармоничными. Но в этих примерах, заимствуемых из работ других авторов, выбор множества потенциальных факторов не ставится под сомнение, нормальность данных и ошибок для регрессии не тестируется, «надежность» определения знаков выборочных коэффициентов корреляции г(у;хц) и МНК-оценок йц коэффициентов ац не анализируется. Фактически принимается без обсуждения и проверки гипотеза однородности выборки или по крайней мере отсутствия в ней нетипичных наблюдений. Последнее допущение оправданно при разработке теории, но вызывает опасения, когда в конкретных ситуациях обнаруживаются эффект катализа, маскирующие связи переменных и требующие разъяснений знаки оценок коэффициентов при факторах.

4. Выявление и учет нетипичных наблюдений с помощью процедур регрессионного тримминга

Гипотезы нормальности и гармоничности конкурирующих регрессий могут отклоняться по отдельности или противоречить друг другу по многим причинам. Среди них могут быть и такие, что задача конструирования линейного уравнения связи объясняемой переменной с факторами из выбранного множества в виде оцениваемой методом наименьших квадратов регрессии должна признаваться не соответствующей исследуемому объекту.

Будем предполагать, что рассматриваемая задача все же сформулирована адекватно и что причины отклонения этих гипотез следует искать в особенностях используемой выборки, проявляющихся в наличии в ней нетипичных наблюдений,

которые не были выявлены на стадии предварительного анализа данных. Более сложный случай, когда выборка фактически состоит из нескольких, не разделяемых очевидным образом подвыборок, для которых искомая зависимость должна представляться регрессиями с разными значениями коэффициентов при факторах, различающимися дисперсиями ошибок или даже своими наборами факторов, здесь не рассматривается и заслуживает специального исследования.

Выявлять, корректировать, не удаляя, и учитывать при оценивании конкурирующих регрессий нетипичные наблюдения предлагается на третьем этапе решения задачи, используя процедуру регрессионного тримминга или, коротко, RTR-проце-дуру. В названии этой процедуры используется информативный в данном случае англоязычный термин «trimming» - удаление заусенцев, выглаживание, отделка.

На этом этапе для множества факторов а рассматривается регрессия

(1) y = a0 xJaJ + vb + u

JEW

с независимыми ошибками u = (uk) и v = (vk) такими, что u ~ N(0; crjIn) и vk = -1, 0 и +1 с вероятностями, равными соответственно (р), (1 - 2р), (р) или даже p-, p0 = (1 - p- -p+), p+. Параметры n (a,b, ст2 ,p) оцениваются методом максимального правдоподобия (МП)

на подмножестве П(а) возможных вариантов ошибок v = (vk) с вариантами Br(v)en(a),

r =1,...,n. Общее число возможных вариантов велико и равно (3n - 3). Поэтому задача оценивания параметров, предствляющая собой в данном случае задачу комбинированного, т.е. непрерывного и дискретного математического программирования, рассматривается на множестве П(а), состоящем всего из n элементов-вариантов ошибок (vk). Задача оценивания регрессии (1), тестирования ее нормальности и гармоничности (по переменным Xj а) решается для каждого такого варианта Br(v).

Исходная гипотеза, относящаяся к механизму «засорения» значений переменной у ошибками (vk), имеющими дискретное распределение и приводящими к появлению нетипичных наблюдений, состоит в том, что такие ошибки проявляются в наблюдениях с «большими» модулями МНК-остатков ek для простейшей, исходной регрессии

(2) y = a0 Xjaj + e ° X(a)a + e

JEW

или большими модулями нормализованных остатков ek = ek /(1 - Pkk)0'5, имеющих равные дисперсии, если ошибок (vk) в регрессии действительно нет.

Заметим, что критерий SPSS определяется в виде суммы квадратов остатков ёк, а критерий PRESS - в виде суммы квадратов иначе нормализованных остатков ek /(1 - Pkk) ek. Для того чтобы определить варианты дамми-переменной v в регрессии (1), наблюдения будем упорядочивать одним из трех способов: в соответствии с невозрастанием модулей остатков ek, ёк или ek, т.е. так, что |ek(1)| |ek(2)| ... |ek(n)| или что аналогичные неравенства выполняются для какого-либо из вариантов нормализованных остатков.

Тогда вариант Вт(у) дамми-переменной V = (ук) определим следующим образом: vk^s-) = 81§п(ёед) при \ s т, vk^я) = 0 при т + 1 q п. Для нормализованных остатков значения переменной V в варианте Вг(у) определяются аналогичным образом. Для ненулевых Ук можно использовать и определение Ук = sign(-ëk), что для регрессии (1) приводит лишь к изменению знака оценки коэффициента Ь. Таким образом, вариант Вт(у) характеризуется числом т ненулевых величин Ук и включаемых в регрессию возможных корректировок укЬ значений объясняемой переменной.

Для регрессии с вариантом Вт(у) ошибок V = (ук): находятся МП-оценки параметров п, включая /-статистики для оценок а, и остатки и = (ик); вычисляются

значения критериев КфЕК\у\ЕК\^\, где у - выбираемое подмножество критериев

(у ¥); вычисляется значение критерия КМЪ, минимизация которого эквивалентна максимизации критерия метода максимального правдоподобия; с использованием статистики ^(и{Вт}) Шапиро - Уилка тестируется нормальность ошибок и = ( и к);

проверяется гармоничность скорректированной регрессии у - V (Вт) Ь = Ха + и. Для минимизируемого критерия КМЪ получено явное выражение

(3) КМЪ = 1п(1 - Я2) - 2{(т-/п)1п(т- /п) + (т0/п)1п(т0 /п) + (т+ /п)1п(т+ /п)},

в котором используются МП-оценки вероятностей ошибок Ук = -1,0,+1: р = т/2п или р-1 = т- /п, р0 = т0 /п и р+1 = т+ /п, где т-, т0, т+ - числа отрицательных, нулевых и положительных величин Ук для варианта ошибок Вт(у).

Полученная в результате обширная информация, относящаяся к каждому из п вариантов регрессии (1), анализируется с целью выделить наборы факторов ат, признаваемые одновременно конкурирующими, нормальными, гармоничными и имеющими коэффициенты а, при факторах х, ат, для которых гипотезы а, = 0 отвергаются. При этом используется выявляемая нормальность регрессий. В разработанной версии программного комплекса, включающего процедуры всех трех этапов решения рассматриваемой задачи, анализ результатов третьего этапа, т.е. регрессионного тримминга, реализована в двух вариантах: предназначенном для углубленного анализа, когда регрессии (2) оцениваются для всех п вариантов Вт(у), т = 1,...,п, переменной V = (ук); предназначенном для практического анализа, когда регрессии

(2) оцениваются при возрастающих значениях т (т = 1,...^) до получения скорректированной регрессии, признаваемой нормальной или нормальной и гармоничной.

Процедура ИТИ применяется к набору факторов а из ядра О(КЫИ), из О.(КИ/Щ и из О(КМИ) ^е£аеО(ЛВ/С) аеО(Л) О(В), но а О(С)], что сокращает число рассматриваемых на этом этапе наборов факторов. Из наборов факторов а О.(КИ/Ы), не являющихся по определению этого множества нормальными, выделяются такие наборы а ОЯ(КЫИ/Щ, для которых регрессия (1) с вариантом ошибок В^) с возможно наименьшим числом т ненулевых элементов vk признается удовлетворяющей предъявляемым требованиям. Таким же образом из множества О(КМИ) конкурирующих и нормальных, но негармоничных регрессий выделяется его подмноже-

ство ОЯ(КЛИ/И) регрессий, признаваемых гармоничными в результате применения тримминга, корректирующего нетипичные наблюдения.

В результате на этом этапе определяется множество устойчиво (или робастно) конкурирующих (относительно ЯТЯ), нормальных и гармоничных КК^Н-регрессий: соеОЯ(КЫИ) = П(КЛИ) [ОЯ(КЛИ/Л) ОЯ(КЫИ/И)].

Если множество-ядро ОЯ(КЛИ) оказывается пустым, а такие случаи встречались при проведении экспериментальных расчетов, использующих данные из работ других исследователй, то в регрессию (1) включаются две дамми-переменные со значениями 0 и -1 или 0 и +1 в наблюдениях, номера которых определяются по величинам остатков ек, ёк или ек для рассматриваемых наборов факторов. Эти дамми-переменные в регрессии включаются с оцениваемыми коэффициентами Ъ_ и Ъ+. Для таких регрессий выполяется анализ нормальности и гармоничности. Такое выявление и учет нетипичных наблюдений позволяют, как правило, определить непустое множество ОЯ(КЛИ), т.е. найти решение задачи в предлагаемой постановке.

Число наборов факторов, включенных в ОЯ(КЛИ), можно сократить, используя методы парных сравнений нормальных регрессий. Для пар вложенных наборов факторов из ядра ОЯ(КЛИ), используя нормальность ошибок, можно проверить гипотезу равенства нулю коэффициентов при переменных, которыми такие наборы различаются. Для пары невложенных регрессий можно тестировать гипотезу «предпочтительности» одной из них с помощью статистики Вуонга [29, 66], базирующейся на информационном критерии КЫС Кульбака - Лейблера.

Наборы факторов для регрессии из ядра ОЯ(КЛИ) или часть таких наборов, отобранных в результате парных сравнений регрессий и образующих, по определению, множество-ядро конкурентных наборов факторов ОЯ(КЛИ), можно рассматривать в качестве опорных элементов, с использованием которых будут конструироваться функциональные зависимости переменной (у) от факторов из ^и по данным используемой выборки и других выборок для выбранной модели данных. Эта также проблемная задача, требующая корректной формулировки, в настоящее время исследуется.

5. Два обозримых, иллюстрирующих примера

Предложенные процедуры применялись к широко используемым в учебных целях, содержащимся в монографиях, статьях и учебниках по прикладной статистике, многомерному статистическому анализу и эконометрике [2, 3, 6, 7, 8, 9, 29, 40, 63] примерам с различными числами потенциальных факторов (М) и наблюдений (п), а также к линейным по параметрам регрессионным зависимостям, оцениваемым по данным российских таблиц « Затраты - Выпуск » и национальных счетов.

Предлагаемый подход к выделению ядер ОЯ(КЛИ) конкурирующих и ОЯ(КЛИ) конкурентных регрессий продемонстрируем на двух обозримых примерах с относительно небольшими значениями и и п.

Пример 1. Регрессии для количества тепла, выделяемого при производстве цемента.

В этом широко используемом, детально разбираемом рядом авторов примере [3, 7, 8] и = 4, п = 13, факторы сильно коррелированны, нормальность генеральной со-

вокупности уверенно отвергается. Для всех а е Ом рассчитаны значения выбранных критериев КгеК(¥), протестирована нормальность ошибок и проверена гармоничность регрессий (см. табл. 5.1, 5.2). В этих таблицах и далее наборы факторов приводятся в упрощенном виде («12» ~ (хьх2)),курсивом выделяются признаваемые конкурирующими наборы. Принадлежность регрессии к множествам нормальных (Ы), гармо-ничних (Н) и КЖН-регрессий отмечается знаком «+» в соответствующем столбце таблицы.

В табл. 5.3 приведены критические значения статистики Шапиро - Уилка для чисел наблюдений п = 13 и п = 20, используемые в примерах 1 и 2.

Конкурирующими, нормальными и гармоничными (КЫИ-регрессиями) признаны регрессии с наборами факторов (хь х4) и (хь х2, х4) (1,2,4). Для этих регрессий и других конкурирующих регрессий (1,2), (1,2,3), (1,3,4), (1,2,3,4) проверяется их принадлежность к устойчиво КЫИ-регрессиям. В табл. 5.4 приведены значения статистики W для исходных регрессий и результаты тестировния нормальности и гармоничности КТК-скорректированных регрессий. Тестировалась нормальность

ошибок (ик) и проверялась гармоничность (по х^еа) скорректированных регрессий

у = (Ха + уЬ) + и с одной дамми-переменной V = (ук), определяемой по остаткам ек. «Спорные» регрессии с факторами (1,2) и (1,2,3) оказались устойчиво (относительно КТК) ненормальными или негармоничными; для регрессии (1,4) подтверждена нормальность (хотя и с понижением уровня нормальности: W = 0,967) и гармоничность; для регрессии (1,3,4) выявлена КТК-нормальность (для скорректированной регрессии W = 0,957), а для регрессии (1,2,3,4) - КТК-гармоничность при сохранении нормальности. «Идеальная» регрессия а (1,2,4)еО(КЫН) является КТИ-устойчи-во нормальной ^ = 0,948) и КТК-гармоничной.

Таблица 5.1.

Значения максимизируемых критериев Кф 105

}еа Я2 яаф Я1 Я2 Я2 НБЬЬ N Н

1 53395 49158 39421 - - 53395 + +

2 66627 63593 56620 - - 66627 +

3 28587 22095 7175 - - 28587 +

4 67454 64495 57696 - - 67454 +

1,2 97867 97441 96841 97860,26 97860,21 97691 +

1,3 54817 45780 33051 51414,12 50770,98 44943 +

1,4 97247 96697 95921 97234,48 97234,37 97033 + +

2,3 84703 81643 77333 84312,52 84294,42 83577

2,4 68006 61607 52594 66300,00 66122,19 67959 +

3,4 93529 92235 90412 93459,18 93457,85 93286 +

1,2,3 98228 97638 97058 98025,29 98025,26 89282 +

1,2,4 98234 97645 97067 98030,97 98030,94 96894 + +

1,3,4 98128 97504 96891 97913,04 97913,00 94128 +

2,3,4 97282 96376 95486 96965,07 96964,95 89688

1,2,3,4 98238 97356 96728 97789,19 97789,14 96049 +

кын

+

+

Таблица 5.2.

Значения минимизируемых критериев Кф

)ет А1С В1С РЯЕЯЯ НОСК МОО СОО N Н KNH

1 4,886 4,973 1456,9 1699,6 11,506 20,46 9,30 + +

2 4,552 4,639 1040,4 1202,1 8,239 18,45 6,82 +

3 5,313 5,400 2248,2 2616,4 17,631 30,79 11,94 +

4 4,527 4,614 1023,5 1194,2 8,035 17,36 7,43 +

1,2 1,955 2,086 72,8 93,9 0,643 3,90 2,04 +

1,3 5,009 5,139 1598,5 2218,1 13,634 17,99 9,58 +

1,4 2,211 2,341 94,1 121,2 0,831 6,93 2,22 + + +

2,3 3,926 4,056 537,1 701,7 4,616 11,64 4,45

2,4 4,664 4,794 1122,2 1461,8 9,654 16,40 6,98 +

3,4 3,066 3,196 226,0 294,0 1,953 7,12 2,96 +

1,2,3 1,924 2,098 65,0 90,0 0,668 4,49 1,71 +

1,2,4 1,921 2,095 63,4 85,4 0,666 4,26 1,73 + + +

1,3,4 1,979 2,153 68,2 94,5 0,707 4,04 1,82 +

2,3,4 2,352 2,526 101,6 146,9 1,025 4,70 2,03 +

1,2,3,4 2,073 2,290 71,0 110,3 0,855 4,38 1,72 +

Таблица 5.3.

Критические значения статистик и №20 Шапиро — Уилка

Р 0,01 0,02 0,05 0,10 0,50 0,90 0,95 0,98 0,99

^13, р ^20, р 0,814 0,868 0,837 0,884 0,866 0,905 0,889 0,920 0,945 0,959 0,974 0,979 0,979 0,983 0,984 0,986 0,986 0,988

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 5.4.

Результаты анализа КТК-устойчивости множеств т

К N H KNH ™ 13, р < Ш ™ 13, р' ятк-н аеШ(ШИ)

1,2 + + 0,8890 1 0,905 0,9450,50 +

1,4 + + + + 0,9740,9 0,975 0,9790,95 + + +

1,2,3 + + 0,9740,9 0,977 0,9790,95 +

1,2,4 + + + + 0,9450,5 0,964 0,9740,90 + + +

1,3,4 + + 0,8890 1 0,944 0,9450,50 + + +

1,2,3,4 + + 0,9450,5 0,970 0,9740,90 + + +

Для регрессий (1,4), (1,2,4), (1,3,4) и (1,2,3,4) необходимо выяснить, не приводит ли RTR-учет нетипичных наблюдений к такому изменению значений контрольных критериев R2adJ (заменяет критерий RSS при данном а), MOO и COO, использованных при определении конкурирующих регрессий, если их вычислять по остаткам в скорректированных регрессиях, что среди отобранных регрессий выявится явный претендент на роль наилучшей регрессии либо регрессии, уступающие явным образом другим регрессиям.

Для признаваемых нормальными регрессий с вложенными наборами факторов (xbx4) (xj,x2,x4) и (xj,x4) (xj,x3,x4) отвергаются гипотезы а2 = 0 и a3 = 0, так как в нормальных и гармоничных регрессиях с различными вариантами переменной v модули соответствующих /-статистик достаточно велики (|/2| [5,6; 8,5], |/3| [4,9; 7,1]). Но регрессия (xi,x4) проигрывает регрессиям с этими трехфакторными наборами по значениям контрольных критериев R]dJ, AIC, BIC, SRSS, PRESS, HOCK, MOO и COO, хотя по другим критериям такие преимущества не выявляются. Поэтому набор (x1,x4) признан «неконкурентным» по отношению к наборам (x1,x2,x4) и (x1,x3,x4). В табл. 5.5 приведены значения некоторых контрольных критериев, рассчитываемых для регрессии а по остаткам е в уравнении y = Ха + e, по остаткам и в уравнении y = (Ха + v(r)b) + u и по «остаткам» g = и + (r) b .

Для регрессий (1,3,4) и (1,2,3,4), являющихся претендентами на включение в ядро конкурентных регрессий WR(KNH), переход от остатков е в исходной регрессии к остаткам g для RTR-регрессий мало изменяет значения максимизируемого критерия Rldj (в сторону уменьшения) и минимизируемого критерия COO (в сторону увеличения), но даже приводит к уменьшению значения критерия MOO. В то же время для регрессий-претендентов значения критериев близки к их значениям для «идеальной» регрессии c (x1,x2,x4) W(KNH).

Таблица 5.5.

Значения контрольных критериев для регрессий-кандидатов на включение в множество устойчиво KNH-регрессий, а ä WR(KNH)

Остатки Критерии

jäw Rhj МОО СОО

е и g е и g е и g

1,4 0,967 0,996 0,961 6,93 1,86 5,74 2,22 0,73 2,44

1,2,4 0,976 0,998 0,971 4,26 0,96 3,86 1,73 0,48 1,82

1,3,4 0,975 0,997 0,970 4,04 1,30 3,94 1,82 0,53 1,84

1,2,3,4 0,974 0,998 0,966 4,38 1,15 3,64 1,72 0,46 1,82

Из табл. 5.5 следует, что регрессия (1,4) проигрывает другим регрессиям по значениям критериев (хотя проигрыш по К^ незначителен) и поэтому может рассматриваться как неконкурирующая с ними. Следовательно, регрессии (1,2,4), (1,3,4) и (1,2,3,4) образуют ядро устойчиво конкурирующих, нормальных и гармоничных регрессий. Из них только ю(х1,х2,х4) е ЩКЫИ) ОК(КМИ).

Для пар отобранных вложенных регрессий с наборами факторов (1,2,4) (1,2,3,4) и (1,3,4) (1,2,3,4) протестированы гипотезы равенства нулю коэффициентов при переменных x3 и x2, т.е. a3(xbx2,x3,x4;v) = 0 и a2(xbx2,x3,x4;v) = 0. Эти гипотезы не были отвергнуты (|/2| 1,36,|/3| 0,91). Для невложенных регрессий с факторами (x1,x2,x4;v) и (x1,x3,x4;v) тест Вуонга показал их «равноправие» (эквивалентность), что не противоречит значениям критериев в табл. 5.5. Поэтому в ядре конкурентных наборов факторов WR(KNH) оставлены только наборы (x1 ,x2,x4) и (xi,x3,x4).

Детальный анализ «Примера Хальда», выполненный в [3, 7], но без тестирования нормальности ошибок, без проверки гармоничности регрессий и, конечно, без применения корректировки данных с использованием процедуры RTR, привел к рассмотрению конкурирующих наборов факторов (1,2), (1,4), (1,2,3), (1,2,4), (1,3,4) и к выбору регрессии с w(xbx2) как наиболее предпочтительной. Но этот набор факторов не был признан ни нормальным, ни нормальным после корректировки данных (RTR-нормальным), хотя гипотеза нормальности ошибок этими авторами фактически использовалась. Поэтому регрессия с факторами x1, x2 не включена в ядра наборов факторов W(KNH), WR(KNH) и WR(KNH).

Пример 2. Регрессии для урожайности зерновых в районах некоторой области.

Этот пример используется в работе [2] как сквозной пример, на котором иллюстрируются многие постановки и методы решения задач регрессионного анализа. Для него нормальность генеральной совокупности уверенно отвергается, факторы слабее коррелированны с объясняемой переменной, чем в примере 1. В исходных данных имеются 20 наблюдений и 5 факторов, но фактор x1 был исключен, так как r (x1,x3) ~ 0,98, что позволило снизить опасность проявления мультиколлинеар-ности факторов. Оставшимся четырем факторам даны номера 1,...,4.

Была применена та же схема анализа множества возможных регрессий, что в примере 1. Это позволяет избежать подробного описания ее этапов и промежуточных результатов.

В табл. 5.6 и 5.7 приведены значения критериев для конкурирующих вариантов множеств факторов, результаты тестирования нормальности ошибок в исходных уравнениях и проверки их гармоничности.

Из этих таблиц следует, что среди конкурирующих регрессий нет так называемых KNH-регрессий, поскольку все эти регрессии не признаются нормальными. Ни одна из 31 возможных регрессий не является нормальной, и велики значения критериев MOO и COO. Это позволяет предполагать отсутствие в данных важных факторов или наличие в них нетипичных наблюдений. В такой ситуации применение процедуры регрессионного тримминга с целью выявления RKNH-регрессий вполне оправданно и даже представляется необходимым.

Таблица 5.6.

Значения максимизируемых критериев К9 105

Я2 Я* Яи» Я2 Я2 НБЬЬ Н

1,3 46196 39866 29674 43148 42783 46085 +

2,3 48237 42147 32342 45416 45093 48146 +

1,2,3 48386 38708 27092 42015 41635 47374 +

1,3,4 51346 42223 31273 45510 45195 35711

2,3,4 49823 40415 29122 43715 43367 39221

1,2,3,4 51730 38858 26712 42188 41819 38592

Таблица 5.7.

Значения минимизируемых критериев К

)ет А1С В1С РЯБЯЯ НОСК МОО СОО Н

1,3 0,991 1,140 46,28 54,51 0,1467 25,34 11,71 +

2,3 0,952 1,101 43,54 49,93 0,1413 28,35 10,47 +

1,2,3 1,049 1,248 45,48 55,52 0,1505 27,71 10,63 +

1,3,4 0,990 1,189 43,51 53,63 0,1503 24,29 10,97

2,3,4 1,021 1,220 43,78 52,42 0,1550 28,38 10,09

1,2,3,4 1,082 1,331 45,38 61,65 0,1704 25,58 10,42

Была применена ИТИ-процедура выявления нетипичных наблюдений. В качестве таких наблюдений были выделены наблюдения с номерами к = 7, 19, 20. Включение в регрессии переменной V = (ук) такой, что у7 = у19 = -1, у20 = +1, vk = 0 при к 7, 19, 20, привело к результатам, характеризуемым в столбцах табл. 5.8, относящихся к скорректированным регрессиям. Для регрессий с наборами факторов (1,3) и (1,3,4) нормальность ошибок отвергается при всех вариантах дамми-переменной V. Для регрессий с факторами (1,3,4), (2,3,4) и (1,2,3,4) введение такой переменной не позволило добиться их ИТИ-гармоничности.

Таблица 5.8.

Результаты анализа НТК-устойчивости множеств т

)ет Для уравнения у = Ха + е Для уравнения у = Ха + и + vb ЯТЯ-Н

М 20, р' < Ш М 20, р" М 20, р' < Ш М 20, р"

1,3 0,905о,О5 0,913 0,9200,ю 0,9200,1 0,928 0,9590,5 +

2,3 0,862 0,8680,01 0,9590,5 0,975 0,9790,9 + +

1,2,3 0,865 0,8680,01 0,9590,5 0,970 0,9790,9 + +

1,3,4 0,920о,1о 0,923 0,9590,50 0,9200,1 0,944 0,9590,5

2,3,4 0,8680,01 0,882 0,8840,02 0,9880,99 0,989 1,01,0 +

1,2,3,4 0,9050,05 0,918 0,9200,10 0,9590,5 0,971 0,9790,9 +

Таблица 5.9.

Значения контрольных критериев для регрессий-кандидатов на включение в множество устойчиво ЯKNH-регрессий

Остатки Критерии

jew МОО СОО

е й g е й g е й g

2,3 0,827 0,978 0,793 16,77 5,53 15,73 5,90 2,15 6,68

1,2,3 0,818 0,975 0,780 17,29 5,84 15,75 5,77 2,23 6,63

Ядро КК№Н-регрессий образуют уравнения с наборами факторов (х2,х3) (хьх2,х3). Для этих регрессий рассчитаны значения контрольных критериев, которые приводятся в табл 5.9. Из табл. 5.8 и 5.9 следует, что для этих регрессий значения критериев и статистик W близки при небольшом преимуществе регрессии (х2,х3). Поскольку для этих регрессий нормальность ошибок не отвергается, протестируем гипотезу равенства нулю «истинного» коэффициента при переменной х! для скорректированной регрессии с со = (хьх2,х3). МНК-оценки коэффициентов и их {-статистики ^ приводятся в табл. 5.10.

Таблица 5.10.

Оценки коэффициентов при факторах для а € ОЯ(КМН)

w a1 ti а2 t2 а3 t3

2,3 - - 0,4257 16,4 2,980 14,1

1,2,3 2,6254 0,77 0,3845 6,7 3,048 13,7

Очевидно, что «наилучшей» регрессией должно быть признано уравнение с факторами х2 и х3, так как t1 1 и, следовательно, WR(KNH) = (х2,х3). Этот вывод совпадает с рекомендацией С.А. Айвазяна и B.C. Мхитаряна [2], базировавшейся на использовании критерия Rin' но здесь используется иная, более общая аргументация.

6. Общие выводы и рекомендации

Определение «наилучшей» регрессии с использованием единственного, вьби-раемого без обоснования критерия качества регресии, без тестирования гипотезы нормальности ошибок и других неявно принимаемых гипотез не имеет надежного оправдания и может приводить к «случайному», даже неверному выбору множества факторов. B общем случае некорректна трактовка выбранной таким способом «наилучшей» регрессии как регрессии, имеющей «правильные» знаки МНК-оценок коэффициентов при факторах. Если гипотеза нормальности генеральной совокупности данных уверенно не отвергается, то относительно просто выделяются факторы, для которых знаки коэффициентов корреляции r (y;xj) надежно определены. Априорные представления о знаках коэффициентов при факторах в искомом урав-

нении для объясняемой переменной у, по-видимому, должны совпадать с получаемыми эмпирически и не могут индуцироваться результатами оценок коэффициентов для регрессии с набором факторов, который не был корректно проанализирован на включение в него «чужих», не только «лишних» в классическом смысле факторов и на выполнение используемых предположений (например, о нормальности ошибок и отсутствии нетипичных наблюдений).

Если знаки коэффициентов корреляции r (у; xj) определены уверенно, то гипотеза гармоничности искомых (а не единственной, наилучшей) конкурирующих и нормальных регрессий представляется качественно оправдываемым требованием.

Предъявляемое к конкурирующим регрессиям требование быть устойчивыми по отношению к выявлению нетипичных наблюдений, нормальными и гармоничными достаточно естественно и может применяться при выборе факторов, т.е. реализуемо с использованием процедур регрессионного тримминга.

Целесообразно продолжить исследования в следующих направлениях.

При упрощающих предположениях о генеральной совокупности данных или модели данных, например, о нормальности случайных величин (y;wm) или (wm), нормальности ошибок и детерминированности факторов, полезно и интересно в теоретическом отношении разработать методы тестирования точно формулируемой нелинейной гипотезы гармоничности регрессии.

Необходимо исследовать процедуры выявления нетипичных наблюдений с помощью различных вариантов регрессионного тримминга, корректировки значений объясняемой переменной в таких наблюдениях и выделения ядер регрессий и наборов факторов WR(KNH) и WR(KNH).

Для задачи конструирования линейной зависимости переменной у от факторов в виде функции от регрессий из WR(KNH) и WR(KNH) должна быть предложена просто интерпретируемая и имеющая решение постановка.

* *

*

СПИСОК ЛИТЕРАТУРЫ

1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Исследование зависимостей. М.: Финансы и статистика, 1985.

2. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998.

3. Дрейпер Н, Смит Г. Прикладной регрессионный анализ. Книга 2. М.: Финансы и статистика, 1987. (Перевод монографии: Draper N.R., Smith H. Applied Regression Analysis. John Wiley and Sons, 1981.)

4. Енюков И.С. Оценивание параметров и критерии отбора информативных переменных в линейных регрессионных моделях со случайными аргументами // 11 Всесоюзная науч.-техн. конференция «Применение многомерного статистического анализа в экономике и оценке качества продукции»: Тезисы доклада. Тарту, 1981. С. 214-218.

5. Ершов Э.Б. Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации // Прикладная эконометрика. 2008. № 4.

6. Кендалл М, Стьюарт А. Статистические выводы и связи. М.: Наука, 1973. (Перевод монографии: Kendall M.G., Stuart A. The Advanced Theory of Statistics. Vol. 2. Inference and Relationship. London: Charles Griffin and Company Limited, 1969.)

7. Себер Дж. Линейный регрессионный анализ. М.: Мир, 1980. (Перевод монографии: Seber G.A.F. Linear Regression Analysis. Wiley Series in Probability and Statistics. John Wiley and Sons, 1977.)

8. Хальд А. Математическая статистика с техническими приложениями. М.: ИЛ, 1956. (Перевод монографии: Hald A. Statistical Theory with Engineering Application. John Wiley and Sons, 1952.)

9. Abt K. On the Identification of the Significant Independent Variables in Linear Models // Metrika. 1967. Vol. 12. P. 2-15.

10. Aitkin M.A. Simultaneous Inference and the Choice of Variable Subset in Multiple Regression // Technometrics. 1974. Vol. 16. P. 221-227.

11. Akaike H. Statistical Predictor Identification // Annals of the Institute of Statistical Mathematics. 1970. 22. P. 203-217.

12. Akaike H. Information Theory and an Extension of the Maximum Likelihood Principle // B. Petrov, F. Csake (eds.) Second International Symposium on Information Theory. Budapest: Akademiai Kiado, 1973. P. 257-281.

13. Allen D.M. Mean Square Error of Prediction as a Criterion for Selecting Variables // Technometrics. 1971. Vol. 13. P. 469-475.

14. Amemiya T. Selection of Regressors // International Economic Review. 1980. Vol. 21. P. 331-354.

15. Amemiya T. Advanced Econometrics. Cambridge: Harvard University Press, 1985.

16. Anscombe F.J. Topics in the Investigation of Linear Relations Fitted by the Method of Least Squares // Journal of the Royal Statistical Society. 1967. 29. P. 1-52.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

17. Bendel R.B., Afifi A.A Comparison of Stopping Rules in Forward «Stepwise Regression» // Journal of the American Statistical Associations. 1977. Vol. 72. P. 46-53.

18. Bera A., Jarque C. Efficient Test for Normality, Hеteroscedasticity, and Serial Independence of Regression Residuals: Montе Carlo Evidence // Economic Letters. 1981. 7. P. 313-318.

19. Boyce H.J., Farhi A., Weischedel R. Optimal Subset Selection. Lecture Notes in Economics and Mathematical Systems / H.E. Beckman, H.P. Kunzi (eds.) N.Y.: Springer-Verlag, 1974.

20. Breiman L, Freedman D. How Many Variables should be Entered in a Regression Equation? // Journal of the American Statistical Associations. 1983. Vol. 78. № 381. P. 131-136.

21. Chow G.C. The Selection of Variables for Use in Prediction: A Generalization of Ho-telling's Solution / / L.N. Klein, M. Nerlove, S.C. Tsiang (eds.) Quantitative Econometrics аnd Development. N.Y.: Academic Press, 1980. P. 105-114.

22. Csorgo M., Seshardi V., Yalovsky M. Some Exact Tests for Normality in the Presence of Unknown Parameters // Journal of the Royal Statistical Society. Series B (Methodological). 1973. 35. № 3. P. 507-522.

23. Dyer A.R. Comparisons of Tests for Normality with a Cautionary Note // Biometrika. 1974. Vol. 61. P. 185-189.

24. Ezekiel M. Methods of Correlation Analysis. N.Y.: Wiley, 1930.

25. Gaver K.M., Geisel M.S. Discriminating among Alternative Models: Bayesian and Non-Bayesian Methods // P. Zarembka (eds.) Frontiers in Econometrics. N.Y.: Academic Press, 1974. P. 48-80.

26. Golan A. A Simultaneouse Estimation and Variable Selection Rule // Journal of Econometrics. 2001. 101. P. 165-193.

27. Golan A., Judge G.G., Miller D. Maximum Entropy Econometrics: Robust Estimation with Limited Data. N.Y.: John Wiley and Sons, 1980.

28. Gorman J.W., Toman R.J. Selection of Variables for Fitting Equation to Data // Technometrics. 1966. Vol. 8. P. 27-51.

29. Green W.H. Econometric Analysis. 6th ed Prentice Hall: Pearson Education, Inc., 2008.

30. Hellwig Z. Problem Optymalnego wyboru predyktant (A Problem of Optimal Choice of Predicands) // Przeglad Statystyczne. 1968. № 3-4.

31. Hellwig Z. Efect katalizy, jego wykrywanie i usuwanie (The Effect of Catalysis, its Detection and Elimination // Przeglad Statystyczny. 1977. № 2. P. 179-192.

32. Hocking R.R. The Analysis and Selection of Variables in Linear Regression // Biometrics. 1976. № 62. P. 1-49.

33. Hotelling H. The Selection of Varieties for Use in Prediction with Some Comments on the General Problem of Nuisance Parameters // Annals of Mathematical Statistics. 1940. Vol. 11. P. 271-283.

34. Huang C.J., Bolch B.W. On the Testing of Regression Disturbances for Normality // Journal of the American Statistical Associations. 1974. Vol. 69. № 346. P. 330-335.

35. Kinal T., Lahiri K A Note on Selection of Regressors // International Economic Review. 1984. Vol. 25. № 3.

36. Lavergne P. Selection of Regressors in Econometrics: Parametric and Nonparamet-ric methods // Econometric Reviews. 1998. 17. P. 227-273.

37. Leamer E. A Result of the Sign of Restricted Least-Squares Estimates // Journal of Econometrics. 1975. 3. P. 387-390.

38. Lien D., Vuong Q.H. Selecting the Best Linear Regression Model. A Classical Approach // Journal of Econometrics. 1987. 35. P. 3-23.

39. Lindley D.V. The Choice of Variables in Multiple Regression // Journal of the Royal Statistical Society. 1968. 30. P. 31-53.

40. Maddala G.S. Introduction to Econometrics. 2nd ed. N.Y.: Macmillan Publishing Company, 1992.

41. Maksymiak E. O wlasnosci koincydencji i efekcie katalizy dia modeli opisywanych przez pewne pary korelacyjne // Preglad. Statystyczny. 1986-1987. № 4. P. 353-360.

42. Mallows C.L. Chosing Variables in Linear Regression: A Graphical Aid. Presented at the Central Regional Mitting of the Institute of Mathematical Statistics. Manhattan, Kansas, 1964.

43. Mallows C.L. Choosing a Subset Regression. Presented at the Joint Statistical Meeting. Los Angeles, California, 1966.

44. Mallows C.L. Some Comments on Cp // Technometrics. 1973. Vol. 15. P. 661-675.

45. Miller A.J. Subset Selection in Regression. London: Chapman & Hall, 1980.

46. Olkin I., Pratt J.W. Unbiased Estimation of Certain Correlation Coefficients // Annals of the Institute of Statistical Mathematics. 1958. 29.

47. Pesaran M.H. On the General Problem of Model Selection // Review of Economic Studies. 1974. Vol. 41. P. 153-171.

48. Pesaran M.H. On the Comprehensive Method of Testing Non-Nested Regression Models // Journal of Econometrics. 1982. 18. P. 263-274.

49. Putter J. Orthonormal Bases of Error Spacts and their Use for Investigating the Normality and Variance of Residuals // Journal of the American Statistical Associations. 1967. Vol. 62. P. 1022-1036.

50. Rothman D. Letter to the Editor // Technometrics. 1968. Vol. 10. P. 432.

51. Sawa T. Information Criteria for Discriminating among Alternative Regression Models // Econometrica. 1978. Vol. 46. P. 1273-1291.

52. Schmidt P. Methods of Choosing among Alternative Linear Regression Models. Chapel Hill, North Carolina: University of North Carolina, 1973.

53. Schwarz G. Estimating the Dimension of a Model // Annals of Statistics. 1978. 6. P. 461-464.

54. Sclove S.LL Improved Estimation of Regression Parameters. Tech. Report № 125. Palo Alto, California: Dep. of Statist., Stanford University, 1967.

55. Shapiro S.S., Francia R.S. An Approximate Analysis of Variance Test for Normality // Journal of the American Statistical Associations. 1972. Vol. 67. P. 215-216.

56. Shapiro S.S., Wilk M.B. An Analysis-of-Variance Test for Normality (Complete Samples) // Biometrika. 1965. Vol. 52. № 3/4. P. 591-611.

57. Shapiro S.S., Wilk M.B., Chen H.J. A Comparative Study of Various Tests for Normality // Journal of the American Statistical Associations. 1968. Vol. 63. № 324. P. 1343-1372.

58. Shibata R. An Optimal Selection of Regression Variables // Biometrika. 1981. Vol. 68. № 1. P. 45-54.

59. Stein C. Multiple Regression // Contribution to Probability and Statistics: Essays in honor of Harold Hotelling. Palo Alto, California: Stanford University Press, 1960. P. 424-443.

60. Stone M. Cross-Validatory Choice and Assessment of Statistical Predictions // Journal of the Royal Statistical Society. 1974. 30. P. 111-147.

61. Theil H. Economic Forecasts and Policy. 2nd ed. Amsterdam: North-Holland, 1961.

62. Theil H. Principles of Econometrics. N.Y.: John Wiley and Sons, 1971.

63. Thompson M.L. Selection of Variables in Multiple Regression: Part 1. A review and evaluation. Part 11. Chosen procedures, computations and examples // International Statistical Review. 1978. Vol. 46. № 1, 2. P. 1-19, 129-146.

64. Tukey J.W. Discussion (of Anscombe [1967]) // Journal of the Royal Statistical Society. 1967. 29. P. 47-48.

65. Visco I. On Obtaining the Right Sign of a Coefficient Estimate by Omitting a Variable from the Regression // Journal of Econometrics. 1978. 7. P. 115-117.

66. Vuong Q.H. Likelihood Ratio Tests for Model Selection and Non-Nested Hypotheses // Econometrica. 1989. Vol. 57. P. 307-334.

67. Zhang P. On the Distributional Properties of Model Selection Criteria // Journal of the American Statistical Associations. 1992. Vol. 87. P. 732-737.

68. Zheng X., Loh W.-Y. Consistent Variable Selection in Linear Models // Journal of the American Statistical Associations. 1995. Vol. 90. P. 151-156.

i Надоели баннеры? Вы всегда можете отключить рекламу.