Научная статья на тему 'Статистическое оценивание для сгруппированных данных'

Статистическое оценивание для сгруппированных данных Текст научной статьи по специальности «Математика»

CC BY
665
119
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКИЕ МЕТОДЫ / МАТЕМАТИЧЕСКАЯ СТАТИСТИКА / ПРИКЛАДНАЯ СТАТИСТИКА / МОДЕЛЬ ГРУППИРОВКИ ДАННЫХ / ОБОБЩЕНИЕ ФОРМУЛЫ ЭЙЛЕРА-МАКЛОРЕНА. ПОПРАВКИ НА ГРУППИРОВКУ / ТОЧНОСТЬ ПРИБЛИЖЕНИЯ / GENERALIZED EULER-MACLAURIN'S FORMULA / STATISTICAL METHODS / MATHEMATICAL STATISTICS / APPLIED STATISTICS / MODEL OF GROUPING DATA / CORRECTIONS ON GROUPING / ACCURACY OF APPROACH

Аннотация научной статьи по математике, автор научной работы — Орлов Александр Иванович

Описана вероятностная модель группировки данных, в том числе многомерных. Обобщена формулы Эйлера-Маклорена. С ее помощью получены поправки Шеппарда и поправки на группировку для коэффициента корреляции. Найдены и изучены асимптотические поправки на группировку в общем случае. Оценена точность приближения

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STATISTICAL ESTIMATION FOR THE GROUPED DATA

The probabilistic model of grouping data (including multidimensional data) is described. We have also generalized Euler-Maclaurin’s formulas. With its help Sheppard’s corrections and corrections on grouping for correlation coefficient are received. We have found and studied asymptotical corrections on grouping data generally. Accuracy of approach has been estimated

Текст научной работы на тему «Статистическое оценивание для сгруппированных данных»

УДК 519.2:303.732.4 UDC 519.2:303.732.4

СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ ДЛЯ STATISTICAL ESTIMATION FOR THE

СГРУППИРОВАННЫХ ДАННЫХ GROUPED DATA

Орлов Александр Иванович Orlov Alexander Ivanovich

д.э.н., д.т.н., к.ф.-м.н., профессор Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,

professor

Московский государственный технический Bauman Moscow State Technical University,

университет им. Н.Э. Баумана, Россия, 105005, Moscow, Russia

Москва, 2-я Бауманская ул., 5, prof-orlov@mail. ru

Описана вероятностная модель группировки данных, The probabilistic model of grouping data (including

в том числе многомерных. Обобщена формулы multidimensional data) is described. We have also

Эйлера-Маклорена. С ее помощью получены generalized Euler-Maclaurin’s formulas. With its

поправки Шеппарда и поправки на группировку для help Sheppard’s corrections and corrections on

коэффициента корреляции. Найдены и изучены grouping for correlation coefficient are received. We

асимптотические поправки на группировку в общем have found and studied asymptotical corrections on

случае. Оценена точность приближения grouping data generally. Accuracy of approach has

been estimated

Ключевые слова: СТАТИСТИЧЕСКИЕ МЕТОДЫ, Keywords: STATISTICAL METHODS,

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, MATHEMATICAL STATISTICS, APPLIED

ПРИКЛАДНАЯ СТАТИСТИКА, МОДЕЛЬ STATISTICS, MODEL OF GROUPING DATA,

ГРУППИРОВКИ ДАННЫХ, ОБОБЩЕНИЕ GENERALIZED EULER-MACLAURIN’ S

ФОРМУЛЫ ЭЙЛЕРА-МАКЛОРЕНА. ПОПРАВКИ FORMULA, CORRECTIONS ON GROUPING,

НА ГРУППИРОВКУ, ТОЧНОСТЬ ПРИБЛИЖЕНИЯ ACCURACY OF APPROACH

1. Введение

При вычислении различных статистических характеристик часто пользуются сгруппированными данными. Погрешность группировки -один из видов погрешностей наблюдений. До появления компьютеров группировку проводили для облегчения расчетов. К сожалению, устаревшие рекомендации по обязательному проведению группировки укоренились в курсах по «общей теории статистики». В отмененном из-за низкого научного уровня ГОСТ 11.006-74 (СТ СЭВ 1190-78) «Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим» группировку предписывалось проводить даже при проверке согласия по критериям Колмогорова и омега-квадрат, что приводило к ошибочным статистическим выводам.

В современных условиях нет необходимости сокращать число арифметических операций при анализе статистических данных. Вместо гистограмм для описания распределения в настоящее время рекомендуют

использовать непараметрические оценки плотности [1]. Однако с существующей традицией приходится считаться, следовательно, надо уметь оценивать влияние группировки данных на статистические характеристики.

Другая причина использования сгруппированных данных -неточность измерений, приводящих либо к автоматическому (с помощью средств измерения) округлению, либо к округлению, проводимому специалистом, осуществляющим измерение.

В настоящей статье рассмотрим статистические методы анализа сгруппированных данных. Начнем с одномерных данных.

2. Вероятностная модель группировки

Пусть выборка объема п взята из непрерывного распределения числовой случайной величины X с плотностью вероятности / (х). Пусть элементы выборки сгруппированы по интервалам длины к, центры которых находятся в точках аг = а0 + гк, где г = 0,±1,±2,...(Поскольку для непрерывной случайной величины вероятность попадания в точку соприкосновения интервалов равна 0, то нет необходимости указывать, к какому из интервалов относятся такие точки.) В таких случаях при вычислении моментов и других выборочных характеристик по сгруппированным данным обычно предполагается [2, с.393-394], что все выборочные значения, принадлежащие некоторому интервалу, совпадают с центром этого интервала. Тогда фактически рассматривается выборка из дискретного распределения, в соответствии с которым случайная величина

У принимает значения аг = а0 + гк с вероятностями

Рг = Р(У = аг ) = | /(Х№

а

к

а —

г 2

Пользуясь сгруппированными данными, оценивают те или иные выборочные характеристики, например, моменты

М (Г‘) = 2 акр,,

которые будем называть групповыми. Во многих случаях исследователя интересуют моменты исходной непрерывной случайной величины X:

^ -V

М(Хк ) - | хк/(х)с/х .

Поэтому важно изучить соотношения между этими двумя множествами моментов. При некоторых условиях регулярности приближенные значения моментов М (Хк) можно получить, введя поправки к групповым моментам М (Ук ).

Г рупповые моменты запишем в виде

к к

а, +— а +—

2 2

ак Г /(х)ёх - У g(a,), g(a) - ак

м(хк) - у ак Г/(х)^х = у^(а,), £(а)=а Г/(х)^.

-¥<,<+¥ к -¥<,<+¥ к

а — а—

, 2 2

Для решения поставленной задачи применим формулу Эйлера-Маклорена [2, с.394-398] и ее обобщение, полученное в [3].

3. Обобщение формулы Эйлера-Маклорена

В различных статистических методах анализа данных возникает необходимость вычисления сумм следующего вида:

£(g, а k, п)- У g(а + 0'- 1)к),

,-1

где g(x) - достаточно гладкая функция. Другими словами, требуется просуммировать значения функции g(х) в п точках, отстоящих друг от друга на расстояние к, начиная с точки а. Типичным примером является суммирование биномиальных вероятностей с целью вычисления попадания биномиально распределенной случайной величины в заданный интервал.

Классическая формула Эйлера-Маклорена такова [4, п.465]:

1 а+пк

£(g,а,к,п) - — Гg(х)ёх + А1^(а + пк) -g(а)} + А2к^'(а + пк) - g '(а)} + ..

а+пк

к

а

+ А,к"-1^|т-> + пк) - gl- "(а)} + Я,.

Здесь Я, - остаточный член порядка кт, выражение для которого

приведено в [4, с.540],

1 В

А - —, А2 р1 - 0, р > 1, А2 р - (-1)р-1 —^, р > 1,

1 2 2 р-1 р (2 р)!

где Вр есть р -е число Бернулли [4, п.449]. В частности,

А2 - —, А4 - ——, А6 - —1— .

2 12 4 720 6 30240

Очевидным недостатком классической формулы Эйлера-Маклорена

является ее несимметричность - левый конец отрезка [а,а + пк], по

которому проводится интегрирование, входит в число точек, значения

функции в которых суммируется, а правый - нет. Этот недостаток связан с

тем, что каждому слагаемому в рассматриваемой сумме ставится в

соответствие отрезок длины к, значение функции g(х) в левом конце

которого и есть рассматриваемое слагаемое. В результате нет

симметричности - формула меняется при изменении направления оси х -

ов.

Чтобы избавиться от несимметричности, достаточно слагаемому g(х0) (где х0 - а + (, - 1)к при некотором ') поставить в соответствие отрезок

кк х0-х0+2

Опишем подход к получению асимптотических

разложений, впервые предложенный в статье [3] в связи с изучением скорости сходимости распределения классической статистики омега-квадрат (Крамера-Мизеса-Смирнова) к предельному распределению. Будем исходить из формулы Тейлора с дополнительным членом в виде определенного интеграла [4, п.318]:

g (х) - g (х0) + ^"1х^( х - х„) + х - ^ + ...

рЛт)(х ) 1 х.

+ ё К 0) (х - х0)т +— Гр(т+1)(г)(х - г)тёг

и?! тп\ *

Проинтегрируем почленно обе части этого равенства по х по отрезку

отрезок

Получим, что

к к к х0 +— х0 +— х0 +-

Гр(х)ёх - р(х0)к + р ^ Г(х -х0)ёх + р~2х) Г(х -х0)2ёх +...

х0 2

1! •> 2!

к А* к к

0 - Л° 2

к

х0 +-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(т) 2 2 I х I 3

+Г(х - х«)тёх+т | I |р1т+1)(г)(х - г)т и - р(х„)к++

к 'к I х0

х0 "I х0 "I 1 0

к

х0 +-

+ + + ^(хр) ^ ^ Г 2 |Гр(т+1)(г)( х - )т\ёх

+ 4! 80 + ”. + т! 2 т (т + 1) + т! Г и р (г)( х г) ^

(при четном т ). Весьма важно, что обращаются в 0 все интегралы, соответствующие нечетным степеням.

Из только что полученного соотношения следует, что

х0 +-

р(х0)к- Ыхул-р^--...------------------------в-,

0 24 1920 т! 2т (т +1)

х0 - I

где Qm - остаточный член, указанный в предыдущей формуле.

Применим аналогичную процедуру ко второй производной -функции р"(х). Исходим из формулы Тейлора

р"( х) - р"( *0) + х)( х - х0) + х - х„)2 + ...

Интегрируя, получаем, что

к

х0 +-

V2 р(4)(х) к3

Гр"(х)ёх - р"(х0)к + Ц-0-— +...,

откуда

х^2

к 1 х0

-

02

к

02

2

8"( х0)к = 18"( х)Лх -

8(4)(хо) к3

2! 12

"•І ' ' Подставляя в формулу для 8 (х0)И, получаем, что

2

8( х0)к = 18( х)Лх'

24

8(4)( хо)

2! 12

8 (4)( 1920

+ 0(к7) =

= 18(х)Лх-2- |8"(х)Лх +

к

х0 +— 2 0 2

24

78(4)(х0)к + ™ 7-7

5760

к2

к

24 18 і х0 + 2 і- 8( х0- 2 Я +

к )1 , 78(4)(х0)к

5760

+ 0(к7).

Дальше можно провести аналогичные выкладки для четвертой производной, и т.д. С помощью продемонстрированного подхода можно получить, например, следующий результат:

где

к2 7к4 31к6

А( х ) = 8 ( х)-------8"( х) +-----8 (4)( х)-----------8 (б)( х) +

24 5760 967680

+

(х - /)' + (х - О5 к2 7(х -1) к“ + 31(х - і)к |

+ + ((лі.

5040

2880

34560

967680

Таким образом, справедливо следующее соотношение,

напоминающее классическую формулу Эйлера-Маклорена:

а +1 п— |к 2 і

п 1 4 ^/? I

£(8, a, К п) = У 8(а + (7 - 1)к) = - 18(х)лх - — 18

7 = 1 к и 24

к а— 2

+

7к3 5760

8

(3)

г

а +1 п -1 |к і2

Л

-8(3) I а -

к

24 31к5

к I / Г 1),

а +1 п — |к

I 2 і

■*(а - 2 }[+

8

(5)

Ґ

і

1

Л

а +1 п — |к і2

і

8(5) Г а - 2 'її + 0(к7).

2^ 967680

Сравнение с классической формулой Эйлера-Маклорена показывает, что в последней формуле отсутствует первый член асимптотического

к

х0 +-

к

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

к

х* +

0

0

к

хЛ -

хЛ -

0

0

2

2

к

к

х0 +-

х0+

2

2

к

к

к

х0 -

х0 -

х0 -

2

2

2

5

к

х

2

х

0

разложения, соответствующий А1{р(а + пк)-р(а)}, а коэффициенты при остальных членах меньше по абсолютной величине:

Полученная формула симметрична - не меняется при изменении направлении оси х -ов.

Из сказанного вытекает рекомендация: вместо классической

формулы Эйлера-Маклорена употреблять полученную в статье [3] формулу, в которой каждому входящему в сумму значению аргумента ставится в соответствие отрезок, для которого это значение является центром. Полученная формула позволила, в частности, построить компактные таблицы для специальных функций, используемых при оценивании параметров гамма-распределения, и вывести формулы для использования вне таблиц, при разработке государственного стандарта ГОСТ 11.011-83 [5]. Многомерный аналог полученной формулы, в котором каждой точке целочисленной решетки ставился в соответствие прямоугольный параллелепипед, для которого эта точка являлась центром, позволил разработать оригинальный метод оценивания скорости сходимости распределений непараметрических статистик типа Колмогорова, Смирнова и омега-квадрат [3].

4. Поправки Шеппарда

С помощью формулы Эйлера-Маклорена групповые моменты М(Ук) могут быть выражены линейными функциями от «истинных» моментов М(Хк) (в предположении, что остаточным членом можно пренебречь). Решая последовательно уравнения относительно «истинных» моментов М (Хк), получаем [2, с.395]:

720’ 967680 6 30240

1 31 1

—;--------------< А < —

М ( X ) = М (У ),

М ( X2) = М (У2) -1 к2,

М ( X3) = М (У3) -1М (У )к2,

1 7

М(X4) = М(У4)- — М(У2)к2 + — к4,...

2 240

Таким образом, получены поправки к результатам расчетов по сгруппированным данным, позволяющие более точно оценить моменты исходного распределения. Эти поправки были впервые выведены В.Ф. Шеппардом в 1898 г. [6] и поэтому называются в статистической

литературе «поправками Шеппарда». Общая формула имеет вид [7]:

к

М(Xk) = у С]к (21-; - 1)Б]М(Ук-; )к,

}=0

где Б} - числа Бернулли [4, п.449].

Хотя поправки Шеппарда получены еще в XIX веке, статистическая теория обработки сгруппированных данных продолжает развиваться. Ниже рассмотрена непараметрическая многомерная постановка, в которой границы группировки задаются статистиком. Параметрическую теорию развивал Г. Куллдорф [8]. Модель группировки со случайным сдвигом начала координат изучал Н.А. Бодин [9-11]. Вместо округления результаты измерений могут быть представлены в виде случайных интервалов, как это принято в статистике интервальных данных [1, гл. 12].

5. Многомерная группировка

Дадим описание группировки данных в случае т -мерного случайного вектора 2 = (2„ 22,..., 2т) с плотностью распределения р(х1,х2,...,хт). Пусть выборочные значения координаты 2І группируются по интервалам длины к со средними точками (центрами) а^ = ai + Щ,к = 0,±1,±2,... Вектор к = (к1,к2,...,кт) назовем шагом группировки.

При вычислении выборочных характеристик предполагается, что все выборочные значения вектора 1, координаты которого удовлетворяют неравенствам

И И

аг,к(г) - £ агМ(г) + у, 1 = 1,2,•••, m,

совпадают с центром (а1к(1),а2,к(2),...,ат,к(т)) данного т -мерного

прямоугольного параллелепипеда, т.е. фактически мы обрабатываем выборочные значения дискретного т -мерного вектора Ж = (Ж1,Ж2,...,Жт) с распределением

= (а1,к (1^ а2,к (2) — атк ( т)) = { Р( X1,X2,•••, Хт ,

А

где

Г ИИ]

А = и^ x2,•••, Хт ): аг,к(г) - у < Хг £ аг,к(г) + ^, г = 1,2,•••, т | •

Представляется естественным разложить разность между

характеристиками вектора Ж и характеристиками вектора 1 по степеням

координат шага группировки и оценить возникающий при этом остаточный член, т^ получить обобщение поправок Шеппарда для моментов • Будем рассматривать характеристики вида М/(1), где / -достаточно гладкая функция •

6. Поправки на группировку для коэффициента корреляции

В качестве примера рассмотрим линейный парный коэффициент корреляции Пирсона р( 11,12)^ Как известно, для удовлетворяющей некоторым условиям регулярности [2, п^27^9] плотности р( х1, х2)

справедливы соотношения

м(Ж1) = м(її), мЖ) = м(12), м(ЖЖ) = м(І112),

И 2 И 2

Б(Жї) = Б(1ї) +12, ДЖ2) = Я(12) + ^

при достаточно малых к1 и к2 с точностью до членов более высокого порядка по А1 и к2. Из приведенных соотношений и определения коэффициента корреляции р( 21, 2 2) с помощью элементарных преобразований получаем, что

рф№)-Г( 21,2 2) = г(21,2 2)

1

11 + —к2— 1 + —-----

1Ш{2,)\ 12 П(2 2)

с той же точностью. Поскольку при малых у

-/=- = 1 -1+0( у2),

V1 + У 2

то при достаточно малых к1 и к2 с точностью до членов более высокого порядка

№№)-г(2„ 2 2) = г(2„ 2 2)

Из последней формулы вытекает, что

к2

к

2

24Б(21) 24Б(2 2)

2> У

к2

к

2

Г(21,2 2) = г(^,Ж2)

1 2 1 2 24^(21) 24^(22) у

с той же точностью. Воспользовавшись приведенными выше соотношениями для вторых моментов координат двумерного вектора, получаем окончательную формулу

Г к2 к 2 ^

Г(21,2 2) = г(^,Ж2) 1 +-^--+-----2---

1 2 1 2\ 24В(Щ) 24В(Ж2)у

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

с точностью до членов более высокого порядка, в которой поправка на группировку определяется только по сгруппированным данным. Отметим, что группировка приводит к уменьшению коэффициента корреляции (по абсолютной величине):

Г (21,2 2) >^,^2)1 .

1

Поправка на группировку для коэффициента корреляции была получена в статье [12], возникшей в полемике со статьей [13], в которой без какого-либо основания утверждалось, что при группировке коэффициент корреляции увеличивается. Несмотря на элементарность выкладок, поправка на группировку для коэффициента корреляции не была ранее известна, что и отмечено в реферате статьи [12] в Mathematical Review.

7. Асимптотические поправки на группировку

Перейдем к общему случаю. Часть результатов была получена в статье [14], остальные публикуются впервые.

Будем использовать следующий многомерный аналог классической формулы Эйлера-Маклорена:

У 8(«і + vA,..., ат + уткт ) = | g(al + хД,..., ат + хтЬт )dxl...dxm +

veZm ят

ґ э ^

+ Z (-1)t Г Z ПP1(xi ) ^¥(al + X1h1,. . ., am + xmhm ^'.^п

t=1 Rm^eC(t,m) \

Эг

\ iem UXi j

где Zm - множество точек с целыми координатами т -мерного

пространства Ят, функция g: Ят ® Я1 абсолютно интегрируема, С (ї, т) -

совокупность всех подмножеств мощности ї множества {1,2,....,т} и

= у мСЗ!!.

7=1

Справедлив следующий многомерный аналог полученного нами ранее обобщения одномерной классической формулы Эйлера-Маклорена:

'"Ь2 г Э2/(х) "К г Э4/(х)

М/(Ж) = М/^) + £-г- ] р(х)^^2г^х + £ —] р(х) Э 4 +

і=1 24 Я" Эхг г=1 1920 „т Эх,

Rm

i, 7=13456Rm ЭxlЭx]

i* j

(в этой формуле х = (х1,х2,...,хт), соответственно, дх = дх1дх2...дхт ,

используются введенные ранее обозначения). Описан закон получения

членов разложения и указана оценка остаточного члена [14]. Однако в общем случае они весьма громоздки, поэтому ограничимся несколькими доведенными до числа примерами.

Пусть т = 2, вектор (71,г2) имеет нормальное распределение. Тогда

И ;2

М(7,) = М(Ж,) - Я(М(7,)), Б(Ж]) = 0(7,) +12 + К(В(2])), у = 1,2,

соу(Ж1 ,Ж,) = соу^ ,72) + Я .

На основе описанных выше общих результатов можно получить точные формулы и оценки остаточных членов в этих формулах. Оказывается, остаточные члены Я(М(7)) и Яф(гу)), у = 1,2, весьма малы даже при

достаточно большом шаге группировки. Так,

Я(М (. = £ Ц^ехр.

1 Л 1

■2

( ■ \2 < р. '

V И 3 J

>81П

2.Р

И,

и |Я(М (гу))| не превосходит 10 9 ау при И;. < ау и не превосходит 5 х10 3ау при И; < 2ау, где а2 = 0(7 у), а а, -начало отсчета по у-й координате,

У = 1,2.

Полученные оценки зависят от М (7 ) а . Так, при а -М (г,)=и/4 относительная погрешность определения истинной дисперсии по сгруппированной с использованием поправок Шеппарда, т.е.

и 2

) - В(Ж) +

12

)

Я( D(Z;))

)

не превосходит 6,8 х 10-2 при И. < 3&., меньше 0,25 х 10-2 при И. < 2&. и

6,8 х10-11 при И. <а1. Таким образом (это подтверждается равномерной

оценкой остаточного члена), при шаге группировки, равном

среднеквадратическому отклонению, формула

и 2

) = В(2з) + т2

становится практически точной.

Иным оказывается положение при расчете по сгруппированным данным коэффициента ковариации. При малых и средних значениях коэффициент корреляции р (при | р |< 0,8) относительная погрешность

Я

невелика даже при довольно большом шаге группировки (так,

рОїО2

< 10

-3

при И = ах и И2 =с2). При больших коэффициентах корреляции, если ставится цель добиться достаточно хорошего приближения, шаг группировки необходимо уменьшать, поскольку при | р |® 1 основной член в оценке относительной погрешности таков:

Я

р^2

4 ехр

- 2(1- I Р\)р

2

+

V Ы2 J

Часто оказывается необходимым использовать коэффициент корреляции р в случае произвольного распределения случайного вектора при естественном и обычно выполняющемся условии существования достаточного числа моментов и гладкости плотности вероятности. На основе описанного выше общего подхода получена следующая приближенная формула для выражения истинного коэффициента корреляции р(2) = р(21, 2 2) через «сгруппированный» коэффициент корреляции р(Ж) = р(Ж1,Ж2) и «сгруппированные» дисперсии В(Ж1) и

ЯТО:

р( 2„ 2 2) = р(Шх,Ш2)

1 + -

Ы2

К К

■■р№№).

24£(^) 24Б(Ж2) 288 В(Ж1)В(Ж2)у

Эта формула уточняет ранее приведенную формулу, полученную элементарными средствами. Оценена относительная погрешность определения коэффициента корреляции:

2

1

р(21,2 2)-р1(Ж1,Ж2)

P(21, 22 )

< ЯЭ +

120

И

2

П(К) ДЖ*).

+

Я

р(21 , 22 )^*1 ^2

где Яв - максимум относительных погрешностей в определении истинных дисперсий ^(21) и Б(22) через «сгруппированные» дисперсии В(Ж}) и ^(Ж,) с использованием поправок Шеппарда, Я - абсолютная погрешность при определении истинного коэффициента ковариации через «сгруппированный» (см. выше).

Подводя итоги статьи, следует отметить, что хотя теория статистического анализа сгруппированных данных в настоящее время всё ещё недостаточно развита и систематизирована, принципиальных трудностей на пути расчета поправок на группировку нет. Во многих случаях шаг группировки порядка среднего квадратического отклонения исходных случайных величин дает с учетом поправок вполне приемлемую точность [15]. По сравнению с другими видами погрешностей, в частности, рассматриваемыми в статистике интервальных данных ([1, гл. 12]), группировка сравнительно слабо влияет на свойства статистических процедур.

1

8. Оценки скорости сходимости распределения статистики Крамера - Мизеса - Смирнова

Как уже отмечалось, обобщение формулы Эйлера - Маклорена, в том числе на многомерный случай, было разработано с целью получения асимптотических разложений при изучении скорости сходимости распределения классической статистики омега-квадрат (Крамера-Мизеса-Смирнова) к предельному распределению. Расскажем об этом цикле работ подробнее.

Пусть Г„(х) - эмпирическая функция распределения, построенная по выборке объема п из непрерывной функции распределения ^(х). Для проверки гипотезы

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Но : F(х) = Fo(^,

где F0(x) - заданная (однозначно определенная) функция распределения, в работах Г. Крамера [16], Р. фон Мизеса [17] и Н.В. Смирнова [18, 19] была предложена статистика

w = n jVn (х) - F0( х))2 dF0( х),

которая теперь называется статистикой Крамера - Мизеса - Смирнова (ее свойства рассмотрены в статье [20]). Вслед за Н.В. Смирновым отметим вклад В.И. Гливенко, который предложил заменить интегрирование по dx, как было в первоначальном варианте, на интегрирование по dF0(x). Такое изменение вида статистики привело к инвариантности ее распределения относительно изменения функции распределения результатов измерений (наблюдений, испытаний, анализов, опытов), т.е. к тому, что при справедливости нулевой гипотезы Н0 распределение статистики wn2 не зависит от вида непрерывной функции F0(x).

В работах [18, 19] Н.В. Смирнов показал, что функция

распределения Sn(z) статистики W сходится при n ® ¥ к некоторой предельной функции распределения S0(z) (ее вид указан в статье [20]). Следующий этап - оценка скорости сходимости, т.е. скорости убывания максимального расхождения допредельной и предельной функции распределения

A n = SUP |Sn (z) - S0(z)\.

-¥<Z<¥

Первую оценку дан Н.П. Канделаки в 1965 г.:

A n < C(ln n)"х при всех n, где С - абсолютная константа [21].

Степенную оценку скорости сходимости An к 0 получил В.В. Сазонов. Он в 1968 г. показал [22], что для любого е> 0 существует константа c(e) такая, что при всех n

Ап < с(е)п~^0+е.

В 1969 г. ему удалось [23] заменить 1/10 на 1/6.

В том же 1969 г. В. А. Розенкранц доказал [24], что

Ап < С(1п п)^ п~1,

где С - некоторая абсолютная константа.

В начале 1971 г. автор настоящей статьи предложил метод оценки скорости сходимости на основе обобщения формулы Эйлера - Маклорена на многомерный случай [25], с помощью которого удалось доказать, что для любого е > 0 существует константа с(е) такая, что при всех п

Ап < с(е)п~К+е.

В середине 1971 г. автором настоящей статьи был разработан принципиально новый метод - «процесс итерации формул» (опубликован в [3, п.6]), с помощью которого удалось заменить /3 на %, т.е. доказать, что для любого е > 0 существует константа с(е) такая, что при всех п

Ап < с(е)п"К+е.

Эти результаты были опубликованы в 1972 - 1974 г. - краткие формулировки в работах [26 - 29] и подробное изложение в статье [3].

Надо отметить, что в 1972 г. вышли две работы с более слабыми результатами. Я.Ю. Никитин доказал [30], что

Ап < С(1п п)^2п,

а Дж. Кифер [31] - что

Ап < С(1п п)^п.

В этих двух работах 1972 г. показатель степени был >4, т.е. меньше /3 в работе [25] 1971 г.

Более подробно исследования по оценке скорости сходимости распределений классической статистики омега-квадрат (Крамера-Мизеса-Смирнова) и других статистик супремумного и интегрального типов к

предельным распределениям рассмотрены в разделе 2.3 «Оценки скорости сходимости в принципе инвариантности» монографии [32, с.45 - 53].

Таким образом, полученное автором настоящей статьи обобщение формулы Эйлера - Маклорена, в том числе на многомерный случай, оказалось полезным не только при анализе сгруппированных данных, но и при исследованиях, казалось бы, в совсем иной области - оценке скорости сходимости распределений непараметрических статистик.

9. Заключительные замечания

Рассмотренные выше методы анализа сгруппированных данных естественно сопоставить со статистикой интервальных данных [33]. В обоих случаях элементы выборки - интервалы. При анализе сгруппированных данных центры интервалов принадлежат арифметической прогрессии аг = а0 + Ш (см. начало статьи), а длина равна к. В статистике интервальных данных длина интервалов также фиксирована, однако центрами интервалов являются значения независимых одинаково распределенных случайных величин, т.е. любые действительные числа.

Области практического применения этих двух теорий несколько различаются. Анализ сгруппированных данных нацелен на учет округления исходных выборочных значений, а статистика интервальных данных - на учет погрешностей измерений.

Однако методологические подходы анализа сгруппированных данных и статистики интервальных данных весьма близки, что позволяет отнести их к новому направлению теоретической и вычислительной математики - системной нечеткой интервальной математике [34, 35]

Литература

1. Орлов А.И. Прикладная статистика. - М.: Экзамен, 2006. - 672 с.

2. Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.

3. Орлов А.И. Скорость сходимости распределения статистики Мизеса-Смирнова // Теория вероятностей и ее применения. 1974. Т.19. № 4. С.766-786.

4. Фихтенгольц Г.М. Курс дифференциального и интегрального исчисления. Т.2. - М.: Наука, 1966. - 800 с.

5. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения / Орлов А.И., Миронова

Н.Г., Невельсон М.Б. и др. - М.: Изд-во стандартов, 1984. - 53 с.

6. Sheppard W.F. On the calculation of the most probable values of frequency constants for data arranged according to equidistant divisions of a scale // Proc. London Math. Soc., 1898, v.29, p.353.

7. Wold H. Sulla correzione di Sheppard // Giorn. 1st. Italiano d. Attari, 1934, v.5,

p.304.

8. Куллдорф Г. Введение в теорию оценивания по группированным и частично группированным выборкам. - М.: Наука, 1966. - 196 с.

9. Бодин Н.А. Об ошибках округления при многомерных измерениях // Труды Математического института им. В.А. Стеклова: Том 79. - М.-Л. Наука, 1965. -С.76-105.

10. Бодин Н. А. Оценка параметров распределения по группированным

выборкам // Труды Математического института им. В.А. Стеклова: Том 111. - Л. Наука, 1970. - С. 110-154.

11. Бодин Н.А. Об ошибках округления при измерениях с помощью случайно сдвигающейся шкалы // Труды Математического института им. В.А. Стеклова: Том 111. - Л. Наука, 1970. - С.155-162.

12. Орлов А.И. Поправка на группировку для коэффициента корреляции // Экономика и математические методы. - 1980. - № 4. - С.800-801.

13. Свободин В.А., Сирожитдинов И.К. К вопросу о корреляционных

моделях по усредненным данным // Экономика и математические методы. - 1980. - №

4. - С.796-800.

14. Орлов А.И., Орловский И.В. О поправках на группировку // Прикладной многомерный статистический анализ. - М.: Наука, 1978. - С.339-342.

15. Орлов А. И. Оценивание для сгруппированных данных // Статистические

методы оценивания и проверки гипотез: межвуз. сб. науч. тр. / Перм. гос. нац. иссл. ун-

т. - Пермь, 2012. - Вып. 24. - С. 83-95.

16. Cramer H. On the composition of elementary errors // Skand. Aktuarientidskr.

1928. V.11. P. 17 - 34, 141 - 180.

17. Mises R. von. Wahrscheinlichkeitsrechnung und ihre Anwendung in der

Statistic und theoretischen Physik. Leipzig. Wien. Deutscke. 1931. S.316-335.

2

18. Smirnoff N.V. Sur la distribution de w (criterium de M.R. v. Mises) // Compt. Rend. Ser. Math. Paris. 1936. V.202. №6. P.449-452.

19. Смирнов Н. В. О распределении w - критерия Мизеса //

Математический сборник. 1937. Т.2 (44). №5. С.973-993.

20. Орлов А.И. Непараметрические критерии согласия Колмогорова,

Смирнова, Омега-квадрат и ошибки при их применении / А.И. Орлов //

Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №03(097). С. 647 - 675. - IDA [article ID]: 0971403047. - Режим доступа: http://ej.kubagro.ru/2014/03/pdf/47.pdf, 1,812 у.п.л.

21. Канделаки Н. П. Об одной предельной теореме в пространстве Гильберта // Труды ВЦ АН ГССР. 1965. Т.5. №1. С.46-55.

22. Sazonov V.V. On w - criterion // Sankhya. Ser.A. 1968. V.30. N 2. P. 205 -

209.

23. Сазонов В.В. Улучшение одной оценки скорости сходимости // Теория вероятностей и ее применения. 1969. Т.14. №4. С.667-678.

24. Rosenkrantz W.A. A rate of convergence for the von Mises statistic // Trans. Amer. Math. Soc. 1969. V.139. P.329 - 337.

25. Орлов А.И. Оценки скорости сходимости к пределу распределений некоторых статистик // Теория вероятностей и ее применения. 1971. Т.16. №3. С.583-584.

26. Орлов А. И. О проверке симметрии распределения // Теория вероятностей и ее применения. 1972. Т.17. No.2. С.372-377.

27. Орлов А.И. Предельные теоремы для статистик интегрального типа // Тезисы докладов Международной конференции по теории вероятностей и математической статистике (Вильнюс, 25-30 июня 1973 г.). Т.2. - Вильнюс: Изд-во Вильнюсского госуниверситета, 1973. С.137-140.

28. Орлов А.И. Переход от сумм к интегралам и его применения в изучении асимптотических распределений статистик // Теория вероятностей и ее применения. 1973. Т.18. №4. С. 881-883.

29. Орлов А. И. Применение критериев типа омега-квадрат для проверки принадлежности функции распределения выборки некоторому семейству // Многомерный статистический анализ в социально-экономических исследованиях. - М.: Наука, 1974. С.401-403.

30. Никитин Я.Ю. Оценки скорости сходимости в некоторых предельных теоремах и статистических критериях // Доклады АН СССР, 1972. Т.202. №4. С.758-760.

31. Kiefer J. Skorohod embedding of multivariate RV’s and the sample DF // Z. Wahrscheinlichkeitstheor. und verw. Geb. 1972. V.24. N 1. P.1-35.

32. Орлов А.И. Устойчивость в социально-экономических моделях. - М.: Наука, 1979. - 296 с.

33. Орлов А. И. Основные идеи статистики интервальных данных / А. И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №10(094). С. 867 - 892. - IDA [article ID]: 0941310060. - Режим доступа: http://ej.kubagro.ru/2013/10/pdf/60.pdf, 1,625 у.п.л.

34. Орлов А.И. Системная нечеткая интервальная математика (СНИМ) -перспективное направление теоретической и вычислительной математики / А.И. Орлов, Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №07(091). С. 255 - 308. - IDA [article ID]: 0911307015. - Режим доступа: http://ej.kubagro.ru/2013/07/pdf/15.pdf, 3,375 у.п.л.

35. Орлов А.И., Луценко Е.В. Системная нечеткая интервальная математика. Монография (научное издание). - Краснодар, КубГАУ. 2014. - 600 с.

References

1. Orlov A.I. Prikladnaja statistika. - M.: Jekzamen, 2006. - 672 s.

2. Kramer G. Matematicheskie metody statistiki. - M.: Mir, 1975. - 648 s.

3. Orlov A.I. Skorost' shodimosti raspredelenija statistiki Mizesa-Smirnova // Teorija verojatnostej i ee primenenija. 1974. T.19. № 4. S.766-786.

4. Fihtengol'c G.M. Kurs differencial'nogo i integral'nogo ischislenija. T.2. - M.: Nauka, 1966. - 800 s.

5. GOST 11.011-83. Prikladnaja statistika. Pravila opredelenija ocenok i doveritel'nyh granic dlja parametrov gamma-raspredelenija / Orlov A.I., Mironova N.G., Nevel'son M.B. i dr. - M.: Izd-vo standartov, 1984. - 53 s.

6. Sheppard W.F. On the calculation of the most probable values of frequency constants for data arranged according to equidistant divisions of a scale // Proc. London Math. Soc., 1898, v.29, p.353.

7. Wold H. Sulla correzione di Sheppard // Giorn. 1st. Italiano d. Attari, 1934, v.5,

p.304.

8. Kulldorf G. Vvedenie v teoriju ocenivanija po gruppirovannym i chastichno gruppirovannym vyborkam. - M.: Nauka, 1966. - 196 s.

9. Bodin N.A. Ob oshibkah okruglenija pri mnogomernyh izmerenijah // Trudy Matematicheskogo instituta im. V.A. Steklova: Tom 79. - M.-L. Nauka, 1965. - S.76-105.

10. Bodin N.A. Ocenka parametrov raspredelenija po gruppirovannym vyborkam // Trudy Matematicheskogo instituta im. V.A. Steklova: Tom 111. - L. Nauka, 1970. - S. 110-154.

11. Bodin N.A. Ob oshibkah okruglenija pri izmerenijah s pomoshh'ju sluchajno sdvigajushhejsja shkaly // Trudy Matematicheskogo instituta im. V.A. Steklova: Tom 111. - L. Nauka, 1970. - S.155-162.

12. Orlov A.I. Popravka na gruppirovku dlja kojefficienta korreljacii //

Jekonomika i matematicheskie metody. - 1980. - № 4. - S.800-801.

13. Svobodin V.A., Sirozhitdinov I.K. K voprosu o korreljacionnyh modeljah po usrednennym dannym // Jekonomika i matematicheskie metody. - 1980. - №

4. - S.796-800.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Orlov A.I., Orlovskij I.V. O popravkah na gruppirovku // Prikladnoj

mnogomernyj statisticheskij analiz. - M.: Nauka, 1978. - S.339-342.

15. Orlov A.I. Ocenivanie dlja sgruppirovannyh dannyh // Statisticheskie

metody ocenivanija i proverki gipotez: mezhvuz. sb. nauch. tr. / Perm. gos. nac. issl. un-t. - Perm', 2012. - Vyp. 24. - S. 83-95.

16. Cramer H. On the composition of elementary errors // Skand. Aktuarientidskr. 1928. V.11. P. 17 - 34, 141 - 180.

17. Mises R. von. Wahrscheinlichkeitsrechnung und ihre Anwendung in der Statistic und theoretischen Physik. Leipzig. Wien. Deutscke. 1931. S.316-335.

18. Smirnoff N.V. Sur la distribution de (criterium de M.R. v. Mises) // Compt. Rend. Ser. Math. Paris. 1936. V.202. №6. P.449-452.

19. Smirnov N.V. O raspredelenii - kriterija Mizesa // Matematicheskij sbornik. 1937. T.2 (44). №5. S.973-993.

20. Orlov A.I. Neparametricheskie kriterii soglasija Kolmogorova, Smirnova, Omega-kvadrat i oshibki pri ih primenenii / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. - №03(097). S. 647 - 675. - IDA [article ID]: 0971403047. - Rezhim dostupa: http://ej.kubagro.ru/2014/03/pdf/47.pdf, 1,812 u.p.l.

21. Kandelaki N.P. Ob odnoj predel'noj teoreme v prostranstve Gil'berta // Trudy VC AN GSSR. 1965. T.5. №1. S.46-55.

22. Sazonov V.V. On - criterion // Sankhya. Ser.A. 1968. V.30. N 2. P. 205 - 209.

23. Sazonov V.V. Uluchshenie odnoj ocenki skorosti shodimosti // Teorija verojatnostej i ee primenenija. 1969. T.14. №4. S.667-678.

24. Rosenkrantz W.A. A rate of convergence for the von Mises statistic // Trans. Amer. Math. Soc. 1969. V.139. P.329 - 337.

25. Orlov A.I. Ocenki skorosti shodimosti k predelu raspredelenij nekotoryh statistik // Teorija verojatnostej i ee primenenija. 1971. T.16. №3. S.583-584.

26. Orlov A.I. O proverke simmetrii raspredelenija // Teorija verojatnostej i ee primenenija. 1972. T.17. No.2. S.372-377.

27. Orlov A.I. Predel'nye teoremy dlja statistik integral'nogo tipa // Tezisy dokladov Mezhdunarodnoj konferencii po teorii verojatnostej i matematicheskoj statistike (Vil'njus, 25-30 ijunja 1973 g.). T.2. - Vil'njus: Izd-vo Vil'njusskogo gosuniversiteta, 1973. S.137-140.

28. Orlov A.I. Perehod ot summ k integralam i ego primenenija v izuchenii asimptoticheskih raspredelenij statistik // Teorija verojatnostej i ee primenenija. 1973. T.18. №4. S. 881-883.

29. Orlov A.I. Primenenie kriteriev tipa omega-kvadrat dlja proverki prinadlezhnosti funkcii raspredelenija vyborki nekotoromu semejstvu // Mnogomernyj statisticheskij analiz v social'no-jekonomicheskih issledovanijah. - M.: Nauka, 1974. S.401-403.

30. Nikitin Ja.Ju. Ocenki skorosti shodimosti v nekotoryh predel'nyh teoremah i statisticheskih kriterijah // Doklady AN SSSR, 1972. T.202. №4. S.758-760.

31. Kiefer J. Skorohod embedding of multivariate RV’s and the sample DF // Z. Wahrscheinlichkeitstheor. und verw. Geb. 1972. V.24. N 1. P.1-35.

32. Orlov A.I. Ustojchivost' v social'no-jekonomicheskih modeljah. - M.: Nauka, 1979. - 296 s.

33. Orlov A.I. Osnovnye idei statistiki interval'nyh dannyh / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2013. - №10(094). S. 867 - 892. - IDA [article ID]: 0941310060. - Rezhim dostupa: http://ej.kubagro.ru/2013/10/pdf/60.pdf, 1,625 u.p.l.

34. Orlov A.I. Sistemnaja nechetkaja interval'naja matematika (SNIM) -perspektivnoe napravlenie teoreticheskoj i vychislitel'noj matematiki / A.I. Orlov, E.V. Lucenko // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2013. - №07(091). S. 255 - 308. - IDA [article ID]: 0911307015. - Rezhim dostupa: http://ej.kubagro.ru/2013/07/pdf/15.pdf, 3,375 u.p.l.

35. Orlov A.I., Lucenko E.V. Sistemnaja nechetkaja interval'naja matematika. Monografija (nauchnoe izdanie). - Krasnodar, KubGAU. 2014. - 600 s.

i Надоели баннеры? Вы всегда можете отключить рекламу.