Математика -►
DOI: 10.5862ZJPM.218.13 УДК 519.226.2-519.248
Ю.А. Пичугин
Российский государственный педагогический университет им. А.И. Герцена
ГЕОМЕТРИЧЕСКИЕ АСПЕКТЫ ПРОВЕРКИ СЛОЖНЫХ СТАТИСТИЧЕСКИХ ГИПОТЕЗ В МАТЕМАТИЧЕСКОМ МОДЕЛИРОВАНИИ
Рассмотрены геометрические аспекты задачи проверки сложной статистической гипотезы о принадлежности вектора параметров модели некоторой области. Сформулирована и доказана основополагающая теорема для решения этой задачи. теорема утверждает, что задача решается проверкой простой статистической гипотезы относительно точки максимального правдоподобия. Рассмотрены типовые примеры применения в математическом моделировании.
граничная точка максимального правдоподобия, задача лагранжа, эллипсоид надежности, обобщенная евклидова метрика.
Введение
Процесс построения каких-либо математических моделей реальных процессов обычно содержит два неотъемлемых этапа: спецификация и идентификация. При учете факторов стохастической природы, которые естественно возникают на этапе идентификации, состоящем, главным образом, в оценке параметров, возникает необходимость проверки статистических гипотез. Обычно эти гипотезы относятся к значениям параметров. Например, в хорошо известных моделях эконометрики проверяются, в основном, гипотезы о равенстве нулю некоторых параметров модели. Это позволяет определять целесообразность как включения анализируемых переменных в модель, так и построения самой модели. Проверка таких статистических гипотез осуществляется посредством хорошо известного аппарата математической статистики. Однако на практике исследователь нередко сталкивается с ситуацией, когда интересен вопрос о принадлежности набора параметров, рассматриваемого как точка пространства или вектор, некоторой (наперед заданной) области. В этом случае возникает задача проверки сложной многомерной статистической гипотезы.
В работе [1], опубликованной в настоящем журнале, решалась задача проверки такой сложной гипотезы, в частности, речь шла о принадлежности вектора пара-
метров модели Вольтерры (системы двух дифференциальных уравнений) некоторой области, что позволяло делать выводы об устойчивости решения. Представленное в упомянутой публикации и в ряде других работ (например, в [2]) решение содержало в качестве обоснования лишь лаконичную ссылку на геометрические свойства нормального распределения.
С учетом важности этой проблемы для математического моделирования в целом, настоящая работа ставит целью полностью обосновать предлагаемый метод проверки сложной статистической гипотезы и сделать все необходимые уточнения.
При этом делается акцент на геометрические аспекты развития общей идеи и обоснования этого метода, а также на указанные аспекты решения различных прикладных задач математического моделирования, с тем, чтобы показать диапазон применимости рассматриваемого математического аппарата. По убеждению автора, такое представление метода должно улучшить понимание его сути и прикладного значения.
Далее везде в статье предполагается, что исходные данные подчиняются многомерному нормальному распределению.
Граничная точка максимального
правдоподобия и эллипсоид надежности
Хорошо известно, что когда одномер-
ный параметр 0 оценивается статистически, например, как среднее значение по некоторой выборке, и проверяется H0 : 0 = 00, то доверительная область есть симметричный относительно 0О интервал, а критическая область есть внешность или дополнение этого интервала. Ширина доверительной области определяется выбором уровня значимости а (вероятность попадания в критическую область). При этом обычно используется распределение Стьюдента, симметрия функции плотности которого и приводит к симметрии доверительной области.
Однако при достаточно большом объеме выборки можно использовать нормальное стандартное распределение N (0,1). Именно так и поступали в эпоху статистических таблиц. Обобщение этой простой идеи на многомерный случай оказывается вполне конструктивным. Действительно, предположим, что объем выборки настолько велик, что можно использовать нормальное распределение и в многомерном случае. Пусть вектор параметров
0 = (01, 02, ..., 0^ (T — знак транспонирования) размерности k оценен по выборке {0., i = 1, 2, ..., n}.
Как известно, несмещенные оценки математического ожидания 0 и матрицы взаимных ковариаций компонент этой оценки 0, соответственно, равны
где
V, = (л - 1)_1Х(0, - в)(в, - §)г.
1=1
При проверке простой гипотезы H0 : 0 = 0О доверительная область Ю есть часть пространства, которая имеет вероятностную меру (1 - а) и ограничена эллипсоидом
Wa = {0 : /(0, ©0, Vg) = са},
т. е. Р(Int Wа) = (1 -а).
Этот эллипсоид W хорошо известен в литературе как эллипсоид рассеяния, а
/(в, в0, V§) = (2n)"*/2[det VS]"I/2 х *ехр(-0, 5(0 - 0O)7 Vj'(8 - 0O))
— плотность многомерного нормального распределения , У§) [3].
Здесь и далее предполагается, что матрица У§ — невырожденная (определение функции плотности в вырожденном случае см. в монографии [3]).
Предположим, что мы хотим проверить сложную гипотезу вида ИС : 0 е С, где С — заданная область пространства параметров, которую, не уменьшая общности, будем считать замкнутой, так как при непрерывном распределении граница дС есть множество вероятностной меры нуль.
Будем рассматривать Н( как объединение простых гипотез вида Ит : 0 = 0т, где 0т е С. Тогда доверительная область гипотезы Н( есть объединение ^ ю"доверитель-
8те(?
ных областей гипотез Н , т. е.
т 7
<={е:/(е,ет,у§)<0,
а критическая область НС есть пересечение
Пс<
дополнений сю к ют .
в teG
Границей раздела доверительной и критической областей будет огибающая (кривая, поверхность или гиперповерхность, соответственно при к = 2, 3 и более) семейства эллипсоидов
МТ = {0 : /(0, 0Т, У8) = са, вт е
центры которых лежат на границе дС.
Проверку такой сложной гипотезы в первом приближении можно осуществить по следующему алгоритму, основанному на том, что в функции плотности распределения вероятностей аргумент и параметр сдвига занимают симметричное положение относительно друг друга.
Геометрическая интерпретация этого факта состоит в следующем. Пусть два эллипсоида Ща и №2а конгруэнтны и совпадают с точностью до параллельного переноса, т. е. определяются одним набором параметров {У§, са}. Тогда, если центр Ж1а лежит на №2а, то и центр №2а лежит на Ж"'. Рассмотрим множество эллипсоидов, центры которых совпадают с 0, а форма определена матрицей У§. Один из эллипсоидов этого множества Жт соприкасается с границей дС в некоторой точке 0,. Значение еу для этого эллипсоида будет вычис-
ляться непосредственно как правдоподобие распределения N(9, Vg) в найденной точке 0,, т. е. c = /(0„,9, V). Тогда, если cy > ca, то следовательно, P(Int Wу) < P(Int Wа) и точка 0, попадает в доверительную область одной из гипотез Нт : 0 = 0т. Это означает принятие общей гипотезы HG : 0 е G. При выполнении условия С^ < Са, наоборот, точка 0, не попадает в доверительную область ни одной из гипотез Нт : 0 = 0т и общая гипотеза HG отвергается.
В часто встречающейся ситуации, когда оценка 0 g G и мы заинтересованы отвергнуть гипотезу HG, вероятностная мера пространства P(Int WY), ограниченного эллипсоидом WY, по распределению N(9, Vg), есть оценка меры надежности [4, 5], поэтому сам эллипсоид WJ целесообразно именовать эллипсоидом надежности.
Решение задачи нахождения точки 0,, как хорошо известно, дается методом Ла-гранжа. Геометрическая интерпретация и сама суть метода состоит в том, что в точке касания нормали к соприкасающимся поверхностям WJ и dG коллинеарны. Решение сводится к дифференцированию по всем аргументам функции лагранжа вида [1, 2]:
Цв, X) = 1п(/(0, в,У§)-Лф(в).
(2)
Здесь предполагается, что граница д0 задается уравнением ф(0) = 0 для некоторой гладкой функции ф. Если граница д0 является кусочногладкой, т. е. задается некоторым набором уравнений для системы гладких функций
{Ф,(9) = 0, ] = 1, 2, ..., /},
то вместо одной задачи (2) мы будем иметь систему задач и функций Лагранжа:
L(9, Л) = 1п(/(9, §,Vg)-Me),
(3)
] = 1, 2, ..., I.
Из всех решений системы (3) выбирается значение 0», которое доставляет максимум правдоподобия Д0»,9, У§). Найденная таким образом точка 0», очевидно, является граничной точкой максимального правдоподобия и для распределения Ж9,У§).
Проверка простой гипотезы относительно граничной точки максимального правдоподобия
Рассмотрим простую гипотезу Н» : 0 = 0». Ее проверку можно осуществить посредством следующих статистик. Если ортогональная матрица Q такова, что
= А = <Иаё(Хи Х2,..., Хк),
где Х1 > X2 > ... > Xк , то тогда компоненты вектора
s = 5 2,..., *к )Т = Л"1/20г (9 -9.) (4)
будут иметь в точности распределение Стьюдента с числом степеней свободы (п - 1), т. е.
S:
tn_i (j = 1, 2, ..., к).
Величина
г = (9 - 9,)гУ-_1(§ - 9,) (5)
при верной гипотезе Н» имеет распределение, которое с увеличением объема выборки п асимптотически приближается к х-квадрат с к степенями свободы, т. е. г ~ %2к.
Предположим, что вектор параметров оценивается по схеме линейной регрессии
У = Х9 + е,
где Y — вектор-столбец измерений размерности п, X — (п х £) -матрица, г — вектор-столбец погрешностей измерений размерности п.
В предположении независимости и нормального распределения погрешностей регрессии
г~ N(0, а2!),
где 0 — нулевой вектор-столбец, I — единичная матрица.
оценка методом наименьших квадратов (МНК) 0 и матрица взаимных ковариаций этой оценки, соответственно, равны [3]:
9 = (Х^ХГ^У, У§ = ^(Х'Х)"1. (6)
Здесь несмещенная оценка а2 равна ^(«-АгГ'Х^-Х,. 9)2,
где у. — 1-я компонента, а X. — 1-я строка, соответственно, вектора-столбца Y и матрицы X (см. [3]).
Тогда, при условии, что гипотеза Н„ верна, величина
*-1(ё-е.)г(хгх)(§-е.)
9 =
а-2г1(ё-е.)г(хгх)(§-в.) =
(7)
будет иметь в точности ^-распределение со степенями свободы (к, п - к), т. е.
Я ~ ^к, п-к .
Для критерия Стьюдента (см. выше) в этом случае число степеней свободы равно п - к. Здесь следует напомнить, что среднее арифметическое (см. раздел «Граничная точка максимального правдоподобия и эллипсоид надежности») также является МНК-оценкой.
При выполнении хотя бы одного из следующих неравенств, для некоторого, заранее заданного, значения а, т. е.
г > х2 (а); я > , п-к(а);
> 'а/2 7 = 12 к
> 'п-к, 7 1, 2, •••, к,
/а/2 _
(8)
(9)
(10)
где х, (а), Рк п-к (а) и п - суть критические значения соответствующих распределений (здесь используется значение а/2, так как критерий Стьюдента относится к двусторонним), гипотеза Н( отвергается.
Для полноты общей картины линейного МНК-оценивания параметров рассмотрим случай, когда многомерный параметр представляет собой не вектор, а (т * Л)-матрицу 0. При этом его оценка получается из системы линейных уравнений регрессии:
У, =Х0, + е„1 = 1, 2, • .., т (11)
(как, например, в упомянутой выше работе [1], где эта матрица параметров обозначалась В, а сами параметры - в), т. е. общее число параметров к = т * Л (т — число уравнений, Л — число параметров в каждом уравнении).
В работе [1] рассматривался случай т = Л = 2, к = 4, однако предложенная в данной работе методика легко обобщается на произвольные значения т и Л. Единственное препятствие, состоящее в возмож-
ной вырожденности вычисляемых матриц (параметров многомерных распределений), преодолевается хорошо известными приемами. Как показано в статье [1], при оценке матрицы параметров
0 = (в15в2,...,ви),
где 0, — вектор параметров 1-го уравнения системы (11), I = 1, 2, •.., т, следует переходить к центрированным переменным, когда в матрицу параметров не входят свободные члены, а входят только коэффициенты при переменных правой части (как правило, именно они и представляют главный интерес).
Действительно, пусть У имеет размерность (п х т) (матрица, составленная из левых частей системы (11), т. е.
У = (уР ^ УЛ
а X — (п х к), и эти матрицы центрированы на средние по выборке значения переменных.
Тогда МНК-оценка матрицы параметров равна
0 = (01,е2,...,ёт) = (хгх)-1хгу. (12)
Если вместо матрицы рассматривать составной вектор параметров 0 = (в[, 02,..., то матрица взаимных
ковариаций У§ компонент оценки этого вектора
0 = (бГ» 62,..., 0^)г
строится следующим образом.
Пусть Я — (т * т)- и W — (Л * Л)-орто-гональные матрицы, приводящие к диагональному виду матрицы УТ У и Xт X, соответственно.
Тогда, как показано в статье [1],
у§ = Я О 1л V (Я О Л,
где Я О 1Л — кронекеровское произведение Я (см. [6]) на единичную матрицу порядка Л, а V — [(тЛ) * (тЛ)]-блочно-диагональная матрица следующего вида:
^§2(хт X)-1 о ...
... о §т^г1^
Здесь, как обычно, 0 — нулевой блок,
а коэффициенты диагональных блоков {б;2, ..., 52} есть несмещенные оценки дисперсий погрешностей регрессии {52, 5^, ..., 52} на центрированные значения X также центрированных (см. ниже), но независимых переменных Ъ1 (I = 1, 2, ..., т), выборочная (п х т) -матрица для которых равна
ъ = (Ър ъ2, ..., Ът) = уя,
так как Ът Ъ = Ят Ут УК — диагональная матрица (см. выше).
Из структуры У8 следует, что ортогональная матрица Q, приводящая У8 к диагональному виду, равна
Q = (К ® I, )(1т ® При этом имеет место следующее, легко проверяемое, соотношение:
(Я ® Iк )(1т ® W) = Я® W =
= (1т® W)(К ® I,),
означающее, что порядок перехода к независимым регрессорам и независимым компонентам отклика, когда У§ принимает диагональный вид, не имеет принципиального значения.
Имея МНК-оценку
8 = (8^, §2,...,
и матрицу взаимных ковариаций У6 компонент этого вектора, находим граничную точку максимального правдоподобия
0. = (вГи •••»
для распределения N(8, У§).
При этом для проверки Н„ также получаются х2- и /-статистики вида (5) и (4) (т. е. величины г и 8). В работе [1] вместо общей ^-статистики вида (7) (т. е. #) было предложено использование т ^-статистик для каждого 1-го уравнения (I = 1, 2, ..., т):
9
(/г)"'(8г -8./)г(ХгХ)(ёг - б,,)
(л-А-П^СУу-Х.в^ (13) = а^Г1(в,-ё.,)Г(Х7'Х)(в,-ё.,),
которые, при верной гипотезе Н„, имеют распределение ¥к пк-1 (здесь число степеней свободы не (п - к), а (п - к - 1), так как учитывается центрирование, приводящее к «исчезновению» свободного члена).
Однако следует заметить, что только при определенном условии, а именно при верной и легко проверяемой гипотезе
Но : 52 = 52 = ... = С которая эквивалентна гипотезе для дисперсий погрешностей системы (11):
н0: = =... =
выполняется весьма важное соотношение:
~ ~ т (14)
г ^е-еуу^Че-е.) = ( )
1=1
В противном случае в качестве ql следует брать статистики
_ (ИГЦ-иЧ^Ш,-и = (15) ' (я-А-Пы^-Х^,)2 (15)
где
1 = {11Л1,.-ЛУ =
Тогда условие (14) будет выполнено, т. е.
от
г = (ё-8.)гУ81(в-0,) = АХ?, =
¡=1
(16)
так как столбцы {Ъ1, Ъ2, ..., Ът} матрицы Ъ не коррелируют между собой, а матрица взаимных ковариаций параметров регрессии для этих переменных У_ имеет блочно-диагональную структуру (см. выше).
При верной гипотезе Н0 выражения (13) и (15) совпадают. Условие (14) (или (16)) является весьма существенным уточнением результатов работы [1].
При выполнении хотя бы одного из неравенств
9 ,> ^,п-к-1(а) (17)
для каждого 1-го уравнения (I = 1, 2, ..., т) гипотеза Н( отвергается.
Обобщенная евклидова метрика и основная теорема
Теперь, когда выяснен алгоритм нахождения граничной точки максимального правдоподобия 0( и проверки простой гипотезы Н( : 0 = 0„, придадим задаче проверки сложной гипотезы НО : 0е О совершенно
строгий доказательный вид, отличный от предложенного в разделе «Граничная точка максимального правдоподобия и эллипсоид надежности». При этом мы не будем делать никаких существенных предположений относительно объема выборки п. Для всех рассмотренных выше оценок имеет место следующая теорема.
теорема. Пусть в (линейная МНК-оценка вектора параметров 0) не принадлежит замкнутой области О, и У6 — матрица взаимных ковариаций компонент этой оценки.
Тогда, если для граничной точки максимального правдоподобия 0„ (0„ е дО ) по распределению ^(0, У§) на некотором уровне значимости а гипотеза Н„ : 0 = 0„ отвергается по какому-либо критерию (х2, ' или ¥), то и для любой другой точки 0те О на этом же уровне значимости а отвергается гипотеза Нт : 0 = вт, а, следовательно, отвергается гипотеза Н: 0 е О.
О
Доказательство. Введем в вещественном к-мерном пространстве Як обобщенную евклидову метрику [7, 8]:
с12(и, V) = 7(и-у)гУ^(и-у) (18) (и, v е Як), порожденную распределением
Ж§,У§).
Напомним, что метризовать Як мы можем посредством любой невырожденной, положительно определенной, симметричной матрицы A. Если определить скалярное произведение векторов по формуле
u у = итЛу,
то норма (длина) вектора, а также расстояние и угол между векторами определяются соответственно следующими формулами:
|Ы1 = V ит Ли;
а2(и, у) = V (и - у)тЛ(и - у); Ф = агссо8(иТЛу/и|2 |у||2)).
Если матрица А не является положительно определенной (среди собственных значений есть отрицательные), то введенная посредством А метрика (типа ё2) называется индефинитной [7]. Тот факт, что невырожденная матрица У§, как и обратная к ней, положительно определены, хорошо известен. Здесь как раз и рассматривается
невырожденный случай.
Очевидно, что граничная точка 0„ максимального правдоподобия является ближайшей из всех точек области О, включая границу, в метрике (18) к точке 0 (к полученной оценке вектора параметров по (1), (6), (12)). Следовательно, при выполнении неравенства (8) для 0„, это неравенство будет выполняться и для любой другой точки 0т е О. То же самое утверждение справедливо и для неравенства (9), использующего ^-тест, так как в этом случае (оценка по одному уравнению регрессии) мы имеем дело с эквивалентной метрикой
а2(и, у) = к-1/2а2(и, у)
(см. неравенство (9)).
Из равенства (4) непосредственно вытекает соотношение
<Ме> е.) = 7(е - е.)ТУвЧё - е.) = ^р2, (19)
которое в свою очередь означает, что использование стьюдентовских статистик, с геометрической точки зрения, есть переход к обобщенной метрике
<!.(§, 0«)
шах 5,
Эта метрика совпадает с обычной метрикой ^ (максимум модуля компоненты) в пространстве, подвергнутом линейному пребразованию с матрицей оператора Л-1/^Т, которое, как всякое линейное преобразование, является аффинным, т. е. сохраняет все метрические соотношения. Следовательно, при выполнении какого-либо из неравенств (10) для 0( это неравенство будет выполняться и для любой другой точки 0 из области О.
т
Осталось рассмотреть случай применения статистик (13) и (15), когда параметры оцениваются по системе регрессионных уравнений, так как использование в этом случае статистик (5) и (4) (т. е. величин г и 8) ничем принципиально не отличается от случая оценивания параметров как средних по выборке или по схеме одного уравнения линейной регрессии.
Представим пространство Як в виде декартова произведения т подпространств размерности Л, т. е.
Як = Я" х Я" х ... х Я",
т сомножителем
и в каждом подпространстве Я" введем следующую метрику. Пусть
а2, ь) =
(g, ь Е Я"),
где
У/=52(Хт X)-1,
X. — 1-я строка центрированной матрицы X. Тогда
Последнее означает, как это следует из равенств (16), что аналогично равенству (19) выполняется и равенство
^ = (20)
Теперь, если в Як ввести метрику
а»(к/")(и V) = /етахт} ^(и,, V,),
то из равенства (20) следует, что эта метрика так же, как и метрика а»(и, V), будет эквивалентна метрике ¿2(и, V).
Иными словами, метрика ¿»(к/А)(и, V) играет роль а»(и, V) в метрическом фактор-пространстве размерности т (Як / Я" = Ят), подвергнутом, за исключением случая верной гипотезы Н0, ортогональному, т. е. изометрическому, преобразованию с матрицей оператора . Вполне очевидно, что выполнение какого-либо из неравенств (17) для 0( влечет за собой непременное выполнение этого неравенства и для любой другой точки 0т из области О.
Таким образом, теорема доказана.
Примеры применения методики в различных областях математического моделирования
Рассматривая примеры применения разработанной методики проверки сложной многомерной гипотезы, мы для вектора параметров 0 иногда будем использовать и другие обозначения, соответствующие принятым в рассматриваемой предметной области. Остальные обозначения, по воз-
можности, будем сохранять неизменными. Начнем с рассмотрения задач математической экономики.
Оценка экономической состоятельности предприятий по модели Альтмана. Оценка осуществляется сравнением значения линейной формы
ф(х) = сТх
от выбранных Э. Альтманом экономических показателей [9], образующих вектор х = (х1, х2, ..., х5)Т размерности к = 5, с двумя значениями фс и фЯ (фс > фЯ). Коэффициенты ф(х), образующие вектор (вектор Альтмана) с = (с1, с2, ..., с5)Т, как и значения фс и фЯ, определяются статистическими методами. Вектор с есть нормаль к гиперплоскости, которая минимизирует сумму квадратов отклонений по данным экономически стабильных предприятий. При условии ф(х) > фс предприятие считается успешным (принадлежащим области стабильности ОС), а при ф(х) < фЯ — несостоятельным (принадлежащим области банкротства ОЯ).
Двойное неравенство
фс > ф(х) > фс
трактуется как неопределенность (область неопределенности Ож).
Пусть по выборке данных показателей какого-либо стабильного предприятия {х., I = 1, 2, ..., п} получены оценки
х = п-1 £ х,, У,=1Т1УЖ,
,=1
где Ух= (п-1)-1]>П (х,.-х)(хх ,.-х)
,=1
Тогда, решив задачу Лагранжа для
Дх, X) = 1п(/(х, х, У_) - Х(сТх - фс),
найдем точку максимального правдоподобия на граничной плоскости ф(х) = фс
Решение для этого случая имеет достаточно простой вид:
хС = х + ХУхс, X = (фс - сТх)(сТУхс)-1. ( 21)
Используя в решении (21) значение фЯ, получаем точку хЯ. Как было отмечено в конце раздела «Граничная точка.», полученные значения не изменятся, если заме-
Рис. 1. Схема модели Альтмана для оценки экономической состоятельности предприятий:
ЖС — эллипсоид надежности; — эллипсоид риска; Ос, Ок , Ок — области успешности, неопределенности и банкротства соответственно (остальные обозначения даны в тексте)
нить в (21) Vx на V x. Более того, для эллипсоида надежности имеют место равенства Wc ={x : f(x, X, Vx) = f(xc, X, Vx)} = = {x : f (x, x, Vx) = f(xc , x, Vx)},
как и для эллипсоида риска, определяемого точкой xR (рис. 1).
Очевидно, что экономист предпочтет оценивать вероятностную меру надежности предприятия P(Int Wc) или меру риска 1 - P(Int WR) по распределению вектора самих показателей x ~ N(x, Vx), а не по распределению оценки вектора его средних значений x (с матрицей взаимных кова-риаций Vx), так как последнее было бы с его точки зрения легкомысленным благодушием (если учесть, что область допустимых значений ограничена, эти величины можно вычислять в терминах условной вероятности). Аналогично дело обстоит с гипотезами потери стабильности и банкротства. Экономиста вряд ли будет интересовать формулировка этих гипотез в терминах математических ожиданий, т. е. HN:Ex g Gc и HR :Ex e GR, соответственно. В последнем случае величины xc - x и xR - x, соответ-
ственно, анализировались бы переходом к распределениям tn_1 или х5 (поскольку рассмотрено пять показателей, (см. выше)), от распределения N(Х, Ух). Это означает, что при вычислении соответствующих статистик использовалась бы матрица Ух (см. формулы (4) и (5)). Однако, если учесть вышеизложенное, то следует использовать матрицу Ух. Иными словами, проверяется не возможность попадания средних значений экономических показателей в опасную область, а возможность попадания в опасную область текущих значений этих показателей.
При этом наши статистики уменьшаются, по сравнению с вышеуказанным случаем, на величины 4п и п, соответственно. Именно этот момент, собственно, и уменьшает излишнее благодушие. Гипотезы Н^хх г (?с и Ид:хе следует интерпретировать как случаи неизбежной, хоть и случайной потери стабильности и банкротства.
Относительно альтмановской модели можно сделать следующие замечания.
Замечание 1. Если по всей совокупности стабильных предприятий оценены параметры распределения х ~ N(0^ Ух) то с = Р5, где Р5 — последний столбец ортогональной матрицы Р, такой, что
РгУХР = ШанЦ, й, ..., й)
и й1 > й2 > .... > й5.
Действительно, сумма квадратов отклонений всех значений х от гиперплоскости стх = ст0х минимальна и равна N — 1)й5 где N — объем всей выборки стабильных предприятий, по которой производилась оценка параметров распределения N(0^ Ух). Кроме того, если определен уровень доверия (1 — а) области стабильности, то
Фс = сг0х - Ц)1/2 tN/_2l,
а для значения фд уровень доверия (т. е. tN/21) берется предельно допустимым.
Следует отметить, что минимальное собственное значение й5, с одной стороны, должно быть отлично от нуля (требование невырожденности или независимости показателей), а с другой стороны, оно должно быть относительно мало (существенно
меньше 11гУх /5, где 11г - след матрицы). Последнее означает, что эллипсоиды рассеяния распределения N(0^ Ух) должны быть сжатыми в направлении вектора Р5, иначе модель Альтмана не имеет смысла.
Замечание 2. При оцененном распределении х ~ N(0^ Ух) можно рассматривать не плоскости, а эллиптические поверхности, задаваемые как
^={x:/(x,ex,Vx) = ca}
или
Жса={х:(х-0х)гУ;1(х-вх) = <?а},
где ga, (так же, как и са) зависит от выбора уровня доверия 1 - а, так что Р(Int Wa) = 1 - а (WR определяется аналогично, см. замечание 1).
При оценке отдельного предприятия функция Лагранжа примет вид
Цх, X) = (х - х)гУх"1(х - х) -
- м(х - 0х)гух_1(х - ех) - ga).
Замечание 3. Используя вектор c = P5, можно ввести безразмерные показатели [10] относительной вариабельности
VA = {crivxc(crc)-1} / trVx и относительной стабильности
Sa = 1 - {crVxc(crc)-1}/ ^1,
где — наибольшее собственное значение матрицы V x.
Показатель относительной вариабельности VA есть отношение дисперсии в направлении вектора c к общей дисперсии (т. е. VA определяет долю дисперсии в опасном направлении).
Показатель относительной стабильности SA приближается к единице, когда дисперсия в направлении вектора c мала, по сравнению с дисперсией первой главной компоненты (к направлению максимальной дисперсии), и близок к нулю в противоположном случае. Ситуация SA « 0 может иметь место, когда направление первой главной компоненты близко к направлению вектора c (существенные колебания в опасном направлении), или из-за того, что все собственные значения Vx мало различают-
ся между собой (хаотичные колебания).
Здесь мы рассмотрели случай непосредственной оценки параметров распределения. Перейдем к рассмотрению примеров оценки параметров по регрессионной схеме.
Оценка параметров производственной функции. Указанная функция имеет вид
У = аК а1Ьа2,
где К — капиталовложения (фонды); Ь — людские ресурсы (труд); У — выпуск, который осуществляется по данным наблюдений посредством перехода к уравнению линейной регрессии для логарифмов:
1п У. = 1п а + а,1п К. + а21п Ь + е.
' 1 ' 2 ' ' (22) (' = 1, 2, ..., п).
Экономисты имеют твердое убеждение, что истинные значения параметров а1 и а2 удовлетворяют соотношению
(23)
а1 + а2 = 1,
т. е. в плоскости с координатами (о^, а2) они лежат на прямой (23).
Это убеждение они, как правило, выражают записью производственной функции в виде
У = аКа Ь1-а.
Однако на практике нередко бывает так, что полученные МНК-оценки удовлетворяют неравенству ос1 + ос2 < 1. В этом случае в качестве окончательного результата в экономике принято брать значения [11]:
а,
а,,
которые на координатной плоскости (а1, а2) соответствуют точке пересечения прямой, проходящей через начало координат (0; 0) и точку (а1, а2), с прямой (23).
Полученная таким образом точка (вектор)
ае = (а^, а"2)г
является центральной проекцией из начала координат.
Если из точки (а а2) опускать перпендикуляр на прямую (23) (ортогональная проекция), то получается точка
а° = «, а°2)г
с координатами
о 1 + а1 - а2 o 1 + а2 -а1 - 2 ' а2= 2 '
В регрессионной модели (22) удобно перейти к центрированным значениям, когда член lna отсутствует, что позволяет непосредственно получить (2 х 2) -матрицу Vs вектора МНК-оценок б - (ар а2)т. В противном случае эта матрица представляла бы правый нижний блок аналогичной матрицы размера (3 х 3) для вектора
(а0' а1 а2)т, а0 - lnа.
Если элементы матрицы Va обозначить v.j (i = 1' 2; j = 1' 2), то для координат граничной точки максимального правдоподобия, лежащей на прямой (23), из решения (21) получаются следующие удобные формулы:
а^" - а1 + X(v11 + v12), а2 = а2 + X(v21 + v22), . = 1 - а1 - а2
В этой задаче мы столкнулись с ситуацией, когда при проверке гипотезы НО : а е О область О совпадает со своей границей О = дО, так как О — это прямая (23).
Конкретный пример. В табл. 1 приведены значения индексов выпуска, фондов и труда в СССР за период 1958 - 1990 гг.
В табл. 2 представлены результаты, полученные по данным табл. 1; графически они приведены на рис. 2.
Как видно из табл. 2, точки, полученные методами проектирования, не проходят статистическую проверку, т. е. отвергаются гипотезы Не:а = ае и Н0:а = а° при а = 0,05. Однако для точки максимального правдоподобия ни одно из неравенств (8), (9) и (10) не выполняется, а, следовательно, гипотеза Н(:а = а* принимается. Таким образом, условие (23) оказывается выполненным. При а = 0,01 все остается на своих местах.
Такой, несколько неожиданный результат объясняется тем, что матрица Уа близка к вырожденной (т. е. и распределение вектора а близко к вырожденному). На это указывают величины собственных значе-
Таблица 1
Индексы выпуска, фондов и труда в СССР за период 1958 - 1990 гг. [12]
Год Y K L
1958 43,20 30,83 61,97
1959 46,45 33,94 64,19
1960 50,17 38,10 68,74
1961 53,59 41,59 73,06
1962 56,63 44,97 75,72
1963 58,90 49,79 78,16
1964 64,38 54,31 81,26
1965 68,81 60,16 85,25
1966 74,39 68,11 88,36
1967 80,85 78,00 91,24
1968 87,55 86,68 94,35
1969 91,68 93,01 97,45
1970 100,00 100,00 100,00
1971 105,65 107,84 102,88
1972 109,81 116,64 105,54
1973 119,62 125,98 108,09
1974 125,98 135,32 110,64
1975 131,73 145,69 113,30
1976 139,48 156,78 115,52
1977 145,81 167,69 117,96
1978 153,32 179,45 120,40
1979 157,10 191,56 122,62
1980 164,82 203,74 124,72
1981 173,55 216,58 126,39
1982 186,64 230,20 127,72
1983 195,43 244,73 128,71
1984 203,11 259,80 129,49
1985 206,29 274,32 130,60
1986 211,03 288,73 131,37
1987 214,41 303,50 131,49
1988 223,85 318,14 129,93
1989 229,43 333,94 127,94
1990 220,26 349,49 125,17
Обозначения: Y — выпуск продукции,
K — капиталовложения, L — людские ресурсы. Данные 1970 г. приняты за 100 %.
Рис. 2. Значения параметров производственной функции по данным табл. 1: 1 — МНК-оценка; 2, 3 — центральная и ортогональная проекции; 4 — точка максимального правдоподобия
Таблица 2
Результаты обработки данных табл. 1
Параметр производственной функции Значение показателя
а1 а2 г 2 К! N
МНК-оценка (п = 33) 0,63 0,26 — — — —
Центральная проекция 0,71 0,29 252,86 126,43 0,08 15,9
Ортогональная проекция 0,69 0,31 169,83 84,91 0,39 13,03
Точка максимального правдоподобия 0,58 0,42 3,07 1,53 1,74 0,18
Для а = 0,05 х2(а) = 5,99, а) = 3,32, = 2,36
ний этой матрицы, которые отличаются на два порядка: = 8,62-10—3; = 2,7-10—5, а, следовательно, оси эллипсоида рассеяния (или надежности, см. раздел «Граничная точка.») отличаются на порядок. Поэтому направленный отрезок (а -> а*), име-
ющий координаты (—0,046; 0,155), почти коллинеарен первому собственному вектору матрицы У8 (направлению максимальной дисперсии, т. е. первому столбцу Q, (см. формулу (4)), который имеет координаты (—0,294; 0,956).
Задача космической безопасности. Одна из таких задач состоит в оценке вероятности схода с орбиты космического объекта, каковыми являются спутники связи, спутники навигации и прочие. Рассмотрим в первом приближении самую простую модель движения космического объекта. Будем предполагать, в соответствии с законами Кеплера, что орбита является эллиптической и лежит в плоскости, проходящей через центр массы Земли, с которым совпадает один из фокусов эллипса орбиты. В этом случае она может быть описана в стандартных полярных координатах (р, ф) уравнением вида [13]
1 / р = 90 + 01cos9 + 92sin(p.
Параметры орбиты образуют трехмерный вектор 0 = (е0,е1,е2)г. Орбита, которая не пересекает и даже не касается сферы определенного радиуса RG (RG > R0, R — радиус Земли), будет считаться безопасной.
Предположим, что по выборке инструментальных наблюдений {(р¡, ф¡), i = 1, 2, ..., n} и формулам (6) получена оценка вектора параметров орбиты 0 = (е0, е1, е2 )T и матрица взаимных ковариаций этой оценки Vg. В данном случае элементы регрессионной модели Y = Х0 + е таковы: вектор Y имеет размерность n, X — (n х 3)-матрица, а компоненты вычисляются по формулам
y. = 1/Pi, xa = 1, XQ = СО£ф., x.3 = sin9(. (i = 1, 2, ..., n),
соответственно.
Далее по формуле (21) находим граничную точку максимального правдоподобия 0„ для распределения N(0, Vg). В этом случае формулы, как и в приведенных выше примерах, имеют простой, но принципиально отличный, зависящий от ( вид:
0.(Ф) = 0 + ^У§С(Ф),
(24)
^ = (с<? - с(ф)г0)(с(ф)гУ§с(ф))-1,
так как граница dG задается условием с(ф)г0 = св,
где е(ф) = (1, cos ф, sin ф)т, Cg = R.
Имея значения 0„(ф), можно вычислять эллипсоид надежности (см. раздел «Гра-
ничная точка.») и таким образом оценивать безопасность объекта в вероятностном смысле, или проверять гипотезу катастрофической ситуации
Не : с(ф)г0 > св.
При этом (при верной гипотезе Ие) мы имеем полный набор статистик (4), (5) и (7):
^ ~ tn-з а = l, 2, зх г ~ x3, я ~
Зависимость точки 0„(ф) (24) от угловой координаты ф дает возможность определить момент наступления опасной ситуации. Наконец, напомним, что здесь показана лишь общая идея решения задачи, в то же самое время предполагается, что данное решение незначительно изменится, если усложнить модель учетом всех необходимых и существенных факторов.
Завершая краткий обзор задач, в которых может быть использован рассмотренный здесь метод проверки сложных многомерных статистических гипотез, отметим в самых общих чертах еще два достаточно важных направления.
Задача проектирования машин и механизмов. В указанной задаче при проведении серии испытаний экспериментального образца получаем выборку вектора замеренных параметров и соответствующие статистические оценки. Это позволяет оценить надежность соответветствия образца техническим требованиям, выражающимся в принадлежности вектора его параметров некоторой области. Когда параметры измеряются непосредственно, не по схеме линейной регрессии, а оценки даются осреднением, задача отличается от модели Альтмана лишь тем, что границы области требуемых значений параметров определяются самой задачей, для решения которой и предназначен проектируемый механизм.
Математическое моделирование реальных процессов. Как было отмечено во введении, применение дифференциальных уравнений сталкивается с проблемой оценки параметров по данным наблюдений за моделируемым процессом. При этом возникает вопрос о принадлежности истинных значений вектора параметров той или иной
области, определяющей поведение системы, например, о принадлежности области устойчивости решения. Примером здесь может служить не раз упомянутая выше работа [1], которая, кроме того, может служить примером случая, когда параметры модели оцениваются по системе регрессионных уравнений. При этом следует обратить внимание на уточнение относительно ^-статистик, сделанное в конце раздела «Проверка простой гипотезы относительно граничной точки максимального правдоподобия».
Заключение
Очевидно, что предложенный подход к проверке сложных статистических гипотез, относящихся к вектору параметров, позволяет решать достаточно широкий класс задач математического моделирования. Предлагаемый метод проиллюстрирован как в опубликованной ранее работе [1], так
и в данной статье на ряде примеров.
Благодарности
Автор выражает глубокую признательность доктору физико-математических наук, профессору Л.А. Петросяну, декану факультета прикладной математики — процессов управления Санкт-Петербургского государственного университета, обратившему внимание автора на особую роль принципа максимального правдоподобия, а также доктору физико-математических наук, профессору О.А. Малафееву, заведующему кафедрой моделирования социально-экономических систем, и кандидату физико-математических наук А.В. Кондрашкову, доценту кафедры прикладных информационных технологий Санкт-Петербургского государственного экономического университета, за ознакомление с проблематикой примеров, рассмотренных в статье.
список литературы
[1] Кондрашков А.В., Пичугин Ю.А. Идентификация и статистическая проверка устойчивости модели Вольтерры // Научно-технические ведомости СПбГПУ. Физико-математические науки. 2014. № 1(189). С. 124-135.
[2] Пичугин Ю.А., Кондрашков А.В. Геометрические аспекты проверки статистических гипотез в задачах математического моделирования // Некоторые актуальные проблемы современной математики и математического образования. Герценовские чтения — 2014: Материалы научной конференции, 14 — 18 апреля 2014. СПб.: РГПУ им. А.И. Герцена, 2014. С. 230—236.
[3] Себер Дж. Линейный регрессионный анализ. М.: Мир,1980. 456 с.
[4] Пичугин Ю.А. Вероятностные оценки риска и надежности в экономике // Научная сессия ГУАП. Сб. докл.: В 3-х ч. Ч. 1. Технические науки. СПб.: ГУАП, 2013. С. 195—196.
[5] Пичугин Ю.А., Малафеев О.А. Об оценке риска банкротства фирмы // VI Международная конференция «Динамические системы: устойчивость, управление, оптимизация (DSSCO'13)», посвященная 95-летию со дня рождения Е.А. Барба-шина, 1—5 октября 2013 г., г. Минск. С. 204—206.
[6] Магнус Я.Р., Нейдеккер Х. Матричное дифференциальное исчисление с приложениями к статистике и эконометрике. М.: Физмат-лит, 2002. 496 с.
[7] Вернер А.Л., Кантор Б.Е., Франгулов С.А.
Геометрия. Ч. 2. СПб.: Специальная литература, 1997. 322 с.
[8] Пичугин Ю.А. Проверка сложной статистической гипотезы в линейном регрессионном анализе // Научная сессия ГУАП. Сб. докл.: В 3-х ч. Ч 1. Технические науки. СПб.: ГУАП, 2014. С. 275-277.
[9] Altman E. Managing Credit Risk, 2-nd ed. John Wiley and Sons, 2008.
[10] Пичугин Ю.А., Кондрашков А.В. Многомерные критерии моделей математической экономики на основе альтмановского подхода // Развитие социально-культурной и экономической деятельности в России: региональный аспект. Материалы II Всерос. научно-практической конференции. СПб., 29-30 апреля 2014 г. СПб.: ГПА, 2014. С. 92-97.
[11] Колемаев В.А. Математическая экономика. Учебник для вузов. 3-е изд. М.: Юнити-Диана, 2005. 399 с.
[12] Бессонов В.А. Проблемы построения производственных функций в российской переходной экономике // В кн.: Бессонов В.А., Цухло С.В. Анализ динамики российской переходной экономики. М.: Институт экономики переходного периода, 2002. 589 с.
[13] Пичугин Ю.А., Кондрашков А.В. Вероятностная оценка для одной из задач космической
безопасности на основе кеплеровской модели Ч 1. Технические науки. СПб.: ГУАП, 2014. // Научная сессия ГУАП. Сб. докл.: В 3-х ч. С. 273—275.
сведения об авторе
ПИЧУГИН Юрий Александрович — доктор физико-математических наук, профессор кафедры геометрии Российского государственного педагогического университета им. А.И. Герцена. 191186, Российская Федерация, г. Санкт-Петербург, наб. р. Мойки, 48 [email protected]
Pichugin Yu.A. GEOMETRICAL ASPECTS OF TESTING THE COMPLEX STATISTICAL HYPOTHESES IN MATHEMATICAL SIMULATION.
It is well known that mathematical simulation parameters often are obtained by statistical estimating. Therefore the problem of testing the complex statistical hypotheses such as the one about an adjunct of a vector of model parameters to some domain is of current concern. This article deals with the problem in geometrical aspects. The basic theorem to solve this problem has been stated and proved. The theorem asserts that the solution can be done through testing some simple statistical hypothesis concerning a boundary point of maximum likelihood. The theorem proof is based on the use of generalized Euclidean metric and an affine transformation of parameter space. Typical examples of its use for different mathematical models are also considered. They are the following: (i) Altman's model of the economic stability and risk estimating; an estimation of specific enterprise is treated in terms of the statistical hypotheses testing; (ii) the method to refine statistical estimations of production function parameters; (iii) the statistical estimation of the space object dynamic stability is considered on the basis of Kepler's model, as well.
boundary point of maximum likelihood, lagrange task, ellipsoid of reliability, generalized euclidean metric.
references
[1] A.V. Kondrashkov, Yu.A. Pichugin, On
the identification and statistical testing stability of Volterra model, St. Petersburg State Polytechnical University Journal: Physics and Mathematics. 1 (189) 2014, 124-135.
[2] Yu.A. Pichugin, A.V. Kondrashkov, Geometrical aspects of the statistical hypothesis testing in mathematical models, Proceedings of Scientific Conference "Herzen reading — 2014", Herzen State Pedagogical University of Russia, St. Petersburg, 2014, 230—236.
[3] G.A.F. Seber, Linear regression analysis, Mir, Moscow, 1980.
[4] Yu.A. Pichugin, Veroyatnostnyye otsenki riska i nadezhnosti v ekonomike [Probabilistic risk and reliability assessment in economics], Nauchnaya sessiya GUAP: Sb. dokl.: Ch. 1. Tekhnicheskiye nauki. SPb.: GUAP, St. Petersburg, 2013, pp. 195—196.
[1] Yu.A. Pichugin, O.A. Malafeyev, Ob otsenke riska bankrotstva firmy [On the assessment of the bankruptcy risk of a company]. VI Mezhdunarodnaya konferentsiya "Dinamicheskiye sistemy: ustoychivost, upravleniye, optimizatsiya" (DSSCO'13), posvyashchennaya 95-letiyu so dnya rozhdeniya Ye.A. Barbashina, 1—5 oktyabrya 2013 goda, Minsk, pp. 204—206.
[6] Ya.R. Magnus, Kh. Neydekker, Matrichnoye
differentsialnoye ischisleniye s prilozheniyami k statistike i ekonometrike [Matrix differential calculation with applications in statistics and econometrics]. Fizmatlit, Moscow, 2002.
[7] A.L. Verner, B.Ye. Kantor, S.A. Frangulov, Geometriya, chast 2 [Geometry, part 2]. Spetsialnaya l-ra, Moscow, 1997.
[8] Yu.A. Pichugin, The testing of complex statistical hypothesis in linear regression analysis, Proceedings of Scientific Conference "Nauchhaya sessia GUAP" [Scientific session of SUAI], V. 1, Technical Sciences, St. Petersburg State University of Aerospace Instrumentation, 2014, pp. 275—277.
[9] E. Altman, Managing Credit Risk, 2nd Edition. John Wiley and Sons, 2008.
[10] Yu.A. Pichugin, A.V. Kondrashkov, Mnogomernyye kriterii modeley matematicheskoy ekonomiki na osnove altmanovskogo podkhoda [Multidimensional models of mathematical economics criteria based on the Altman approach], in: Razvitiye sotsialno-kulturnoy i ekonomicheskoy deyatelnosti v Rossii: regionalnyy aspekt. Materialy II Vseross. nauchno-prakticheskoy konferentsii. (S.-Peterburg. 29-30 aprelya 2014 g.). GPA, St. Petersburg, 2014, pp. 92-97.
[11] V.A. Kolemayev, Matematicheskaya ekonomika: Uchebnik dlya vuzov [Mathematical economics. Textbook for universities]. 3rd ed.
Yuniti-Diana, Moscow, 2005.
[12] V.A. Bessonov, Problemy postroyeniya proizvodstvennykh funktsiy v rossiyskoy perekhodnoy ekonomike [Problems of constructing production functions in Russian transition economy], in: Bessonov V.A., Tsukhlo S.V. Analiz dinamiki rossiyskoy perekhodnoy ekonomiki. Institut ekonomiki perekhodnogo perioda, Moscow, 2002.
[13] Yu.A. Pichugin, A.V. Kondrashkov, The
probabilistic estimate of the stability and hazard of the dynamics of a space object on the basis of Kepler's model, Proceedings of Scientific Conference "Nauchhaya sessia GUAP" [Scientific session of SUAI], V. 1, Technical Sciences, St. Petersburg State University of Aerospace Instrumentation, 2014, pp. 273-275.
the author
PICHUGIN Yury A.
Herzen State Pedagogical University of Russia
48, Moyka Emb., St.Petersburg, 191186, Russian Federation
© Санкт-Петербургский политехнический университет Петра Великого, 2015