Научная статья на тему 'Критерии проверки статистических гипотез при анализе больших выборок: проблемы и их решение'

Критерии проверки статистических гипотез при анализе больших выборок: проблемы и их решение Текст научной статьи по специальности «Математика»

CC BY
313
74
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Big Data / оценивание параметров / проверка гипотез / критерии согласия / критерии однородности / статистическое моделирование

Аннотация научной статьи по математике, автор научной работы — Лемешко Борис Юрьевич, Лемешко Станислав Борисович, Веретельникова Ирина Викторовна, Блинов Павел Юрьевич

В работе рассмотрены методы построения оценок при анализе больших данных (Big Data). Демонстрируется влияние на результаты выводов по критерию 𝜒2 Пирсона выбора числа интервалов и способа группирования. Показывается, как влияет на распределения статистик непараметрических критериев согласия ограниченная точность представления данных в больших выборках. Даются рекомендации по применению критериев для анализа больших выборок. Показано, что на распределения статистик критериев однородности влияет неравноточность представления данных в сравниваемых выборках

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лемешко Борис Юрьевич, Лемешко Станислав Борисович, Веретельникова Ирина Викторовна, Блинов Павел Юрьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Критерии проверки статистических гипотез при анализе больших выборок: проблемы и их решение»

АПВПМ-2019

КРИТЕРИИ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ ПРИ АНАЛИЗЕ БОЛЬШИХ ВЫБОРОК: ПРОБЛЕМЫ И ИХ РЕШЕНИЕ

Б, Ю, Лемешко, С, Б, Лемешко, И, В, Веретельникова, П, Ю, Блинов1

1 Новосибирский государственный технический университет, 630073, Новосибирск

УДК 519.24

DOI: 10.24411/9999-016А-2019-10044

В работе рассмотрены методы построения оценок при анализе больших данных (Big Data). Демонстрируется влияние на результаты выводов по критерию х Пирсона выбора числа интервалов и способа группирования. Показывается, как влияет на распределения статистик непараметрических критериев согласия ограниченная точность представления данных в больших выборках. Даются рекомендации по применению критериев для анализа больших выборок. Показано, что на распределения статистик критериев однородности влияет нерав-ноточность представления данных в сравниваемых выборках.

Ключевые слова: Big Data, оценивание параметров, проверка гипотез, критерии согласия, критерии однородности, статистическое моделирование.

Введение

В связи с увеличением объёмов информации в последние годы резко возрос интерес к вопросам применения статистических методов для анализа больших массивов данных (Big Data). При попытках применения для анализа больших выборок классического аппарата прикладной математической статистики, как правило, сталкиваются со специфическими проблемами, ограничивающими возможности корректного применения этого аппарата.

В настоящей работе мы будем касаться только методов и критериев, связанных с анализом одномерных случайных величин, реальные проблемы которых нам наиболее знакомы. Можно рассмотреть, по крайней мере, три ситуации, где рост размерности выборок вызывает проблемы в применении методов или критериев.

Во-первых, вследствие "проклятия размерности" хорошо зарекомендовавшие себя методы и алгоритмы становятся неэффективными. При оценивании параметров моделей с ростом размерности анализируемых выборок кардинально растут вычислительные затраты, ухудшается сходимость итерационных алгоритмов, используемых при нахождении оценок. Естественным способом разрешения данной ситуации видится применение методов, предусматривающих группирование данных. В таком случае возникают вопросы, как использование оценок по группированным данным отразится на свойствах критериев проверки гипотез, в которых будут использоваться эти оценки [1]?

Во-вторых, многие критерии проверки статистических гипотез не приспособлены даже для анализа выборок порядка тысячи наблюдений, так как информация о распределениях статистик этих критериев при справедливости проверяемой гипотезы представлена лишь краткими таблицами критических значений. Возможность применения таких критериев при "разумных" величинах объёмов выборок п легко разрешается статистическим моделированием распределений статистик в интерактивном режиме в ходе статистического анализа [2].

В-третьих, замечено, что применение, например, непараметрических критериев согласия, для которых известны предельные (асимптотические) распределения статистик, с ростом объёмов выборок всегда приводит к отклонению даже справедливой проверяемой гипотезы. В [3] показано, что корни этой проблемы

Работа выполнена при поддержке Министерства образования и науки РФ в рамках государственной работы «Обеспечение проведения научных исследований» (№ 1.4574.2017/6.7) и проектной части государственного задания (№ 1.1009.2017/4.6).

ISBN 978-5-901548-42-4

связаны с ограниченной точностью представления анализируемых данных. В данном случае будет показано, что причина некорректности применения к большим выборкам критериев проверки гипотез об однородности кроется в неравноточности измерений в анализируемых выборках.

1 Оценивание параметров законов распределения

Оценки параметров законов могут находиться различными методами. Наилучшими асимптотическим свойствами обладают оценки максимального правдоподобия (ОМП), вычисляемые в результате максимизации функции правдоподобия

п

6 = arg max J^J f (Xj,6), (1)

в j=i

или её логарифма, где в — неизвестный вектор параметров, f (х, в) — функция плотности закона распределения, х1, Х2,... ,хп — выборка, по которой вычислявтся оценка в. ОМП вектора параметров в большинстве случаев находятся в результате использования некоторого итерационного метода.

При вычислении MD-оценок (оценок минимального расстояния) по в минимизируется некоторая мера близости (расстояние) p(F(х, в), Fn(x)) между теоретическим F(х, в) и эмпирическим Fn(x) распределениями. MD-оценки находятся в процессе решения задачи

§ = arg min p(F(х,в), Fn(x)), (2)

в

В качестве мер близости можно использовать, например, статистики непараметрических критериев согласия (Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга, Купера, Ватсона и других).

ОМП параметров законов распределения, как правило, не являются робастными. Наличие аномальных наблюдений или ошибочность предположения о виде закона приводят к построению моделей с функциями распределения, неприемлемо отклоняющимися от эмпирических распределений. MD-оценки обладают большей устойчивостью.

Очевидно, что при очень больших выборках вычисление оценок (1) и (2) связано с серьёзными вычислительными трудностями.

В случае группированной выборки имеющаяся в нашем распоряжении информация связана с множеством непересекающихся интервалов, которые делят область определения случайной величины на к непересекающихся интервалов граничными точками

Х(0) < х(1) < • • • < х(к-1) < х(к),

где Х(о) — нижняя грань области определения случайной величины X] Х(к) — верхняя грань области определения случайной величины X.

ОМП по группированной выборке вычисляется в результате максимизации функции правдоподобия

к

в = arg maxJJ РП (0), (3)

в =1

где Pi(d) = f f (x,0)dx — вероятность попадания наблюдения в г-й интервад значений, щ — количество

xii-1)

к

наблюдений, попавших в г-й интервал, ni = п-

=1

При наличии негруппированных данных к оценкам по группированным данным обращаются редко. Связано это с большей трудоёмкостью вычислительного процесса и необходимостью многократного использования численного интегрирования при вычислении Pi(0) и требует соответствующей программной поддержки. В случае больших объёмов выборок ситуация меняется. При фиксированном числе интервалов группирования с ростом объёмов выборок вычислительные затраты не меняются, а возрастают только с увеличением количества интервалов к. Это свидетельствует о целесообразности в условиях Big Data использовать ОМП по группированным выборкам. Это асимптотически эффективные и, к тому же, робастные оценки. При малом к качество оценок можно улучшать, используя асимптотически оптимальное группирование (АОГ) [4], при котором минимизируются потери в информации Фишера, связанные с группированием.

2 Применение критерия Пирсона к большим выборкам

Статистику критерия согласия х2 Пирсона вычисляют по формуле

* =»Е <4)

В случае проверки простой гипотезы при п ^ ж эта статистика подчипяется х2-распределению с г = к — 1 степенями свободы, если верна нулевая гипотеза.

При проверке сложной гипотезы и оценивании по выборке т параметров закона статистика (4) в случае справедливости До подчиняется \г-распределению с г = к — т — 1 степенями свободы, если оценки получаются минимизацией (4) этой статистики, или используются ОМ!I (3) (или другие асимптотически эффективные оценки по группированным данным).

При оценивании параметров по негруппированным данным распределение статистики (4) не подчиняется Хк-т-i-распределению. При использовании ОМП по негруппированным данным рекомендуется применять критерий Никулина-Рао-Робсона [5,6]. Хотя, опираясь на статистическое моделирование и интерактивный режим [2] моделирования распределений статистики, не исключается использование критерия х2 Пирсона

[7].

Принципиальные проблемы, препятствующие применению критерия х2 Пирсона для анализа Big Data, отсутствуют: возможны только вычислительные трудности.

Проиллюстрируем результаты применения критерия х2 Пирсона на примере достаточно большой выборки объёмом п = 107, смоделированной то стандартному нормальному закону N(0,1).

В таблице 1 представлены результаты применения критерия при проверке простой гипотезы о принадлежности выборки закону N(0,1) при различном числе интервалов в случае равночастотного группирования (РЧГ) и при к = 15 в случае (АОГ). При АОГ максимизируется мощность критерия х2 Пирсона относительно близких конкурирующих законов [8]. В таблице приведены значения Х^* статистики (4), вычисленные по выборке, и соответствующие значения достигнутого уровня значимости pvaiue = Р> |^o}- Как можно видеть, результаты зависят как от способа разбиения, так и от числа интервалов. От этого же зависит и мощность критерия [9].

Таблица 1: Результаты проверки простой гипотезы

АОГ РЧГ

к =15 к = 15 к = 50 к = 75 к = 100 к = 500 к = 1000 к = 2000

у'2* Лп 7.75162 9.18380 56.8942 79.4904 96.5701 493.995 1044.57 2099.91

Pvaiue 0.90186 0.81910 0.20475 0.31026 0.55038 0.55482 0.15403 0.05702

Таблица 2: Результаты проверки сложной гипотезы

АОГ РЧГ

к 15 15 50 75 100 500 1000 2000

Оо 0.000276 0.000301 0.0002440 0.000270 0.000268 0.000277 0.000273 0.000274

0i 1.007150 1.002629 1.001730 1.001338 1.001123 1.000399 1.000305 1.000236

XI* 927.9202 99.99627 101.7669 104.5111 112.1514 493.7161 1043.471 2098.605

Pvaiue 0.0 5.58е-16 6.50е-06 0.007396 0.139377 0.533166 0.149218 0.055723

В таблице 2 представлены результаты проверки сложных гипотез. Там приведены ОМП в0 параметра сдвига и в\ параметра масштаба нормального закона по группированным данным, полученные при соответствующем числе интервалов к, значения статистик Х^* и руа1ие-

ОМП параметров по полной негруппированной выборке 90 = 0.000274, в\ = 1.000177. В [7] построены модели распределений статистики (4) для случая проверки сложной гипотезы относительно нормального закона с использованием ОМП по негруппированным данным и применением АОГ. Вычисленное по выборке

значение статистики Х^* = 6.600521 щи к = 15, а полученная в соответствии с приведенной в [7] моделью предельного распределения оценка руа1ие = 0.886707, что свидетельствует о хорошем согласии полной выборки с нормальным законом N(0.000274,1.000177).

В случае анализа больших выборок [3] критерий \2 Пирсона демонстрирует как свои положительные качества [8], так и недостатки: зависимость результатов анализа (и мощности критерия) как от способа разбиения, так и от числа интервалов [9].

3 Непараметрические критерии согласия при больших выборках

Как правило, в Big Data объёмы выборок практически неограничены, но сами данные представлены с ограниченной точностью (округлены с некоторым А). По сути, "нарушается предположение" о том, что наблюдается непрерывная случайная величина. Именно этот факт, как подробно показано в [3], является основной причиной возможной некорректности выводов при анализе больших данных с использованием непараметрических критериев согласия.

А

согласия Крамера Мизеса Смирнова. Статистика критерия имеет вид

1

12п

(5)

i=1

и при проверке простой гипотезы в пределе подчиняется закону с функцией распределения а1(в) [10].

Покажем зависимость распределения статистики от Д для случая принадлежности выборок стандартному нормальному закону. При округлении с точностью до 1 в выборках, принадлежащих N(0,1), может

Д = 0. 1

значений, с точностью Д = 0.01 — порядка 956, с точностью до Д = 0.001 — порядка 9830.

На рис. 1 представлена зависимость распределений статистики (5) критерия Крамера Мизеса Смирнова от степени округления Д при объёмах выборок п = 1000 для случая проверки простой гипотезы о принадлежности выборки стандартному нормальному закону. На рисунке приведено предельное распределение а1(5), а также реальные распределения С^юоо^о) статистики при степени округления Д =0.01, 0.05, 0.1, 0.2, 0.3. Как можно видеть, при Д = 0.01 распределение С(й'10001Н0) практически те отличается от а1(5), но с ростом Д отклонение С(51000|Дс)) от а1(5) быстро увеличивается.

1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2

0,0

al(5)

д = о.о /С

у/ У /

/ Д = 0.1 /

/ I Д = 02 7 Д = 0.3

4 А = 0.057

0,0

0,2

0,4

0,6

0,8

1,0

1,2

1,4

Рис. 1: Распределения статистики G<Sn |ff0) критерия Крамера-Мизеса-Смирнова в зависимости от А при п = 1000

Таким же образом меняются распределения статистик непараметрических критериев согласия при проверке сложных гипотез вида Н0: Р(ж) € (х, в), в € ©где © — область определения параметра в. Следует напомнить, что при проверке сложных гипотез уже нельзя использовать классические результаты [11], так

как предельные распределения зависят от ряда факторов, связанных с оцениванием параметров [12]. И на всё это ещё накладывается влияние степени округления данных.

В работе [3] на основании результатов исследований сформулированы следующие рекомендации. Для того чтобы при анализе больших выборок с применением соответствующего непараметрического критерия согласия можно было использовать классические результаты, статистика должна вычисляться не по всему большому массиву, а по выборкам, извлекаемым по равномерному закону из той "генеральной совокупности", роль которой играет анализируемый большой массив данных. Объём извлекаемой выборки должен учитывать точность Д и те превышать некоторой величины птах, при которой (при данном Д) распределение статистики G(Srímax |Н0) критерия при справедливости Н0 ещё реально не отличается от предельного распределения G(S|Д0) статистики этого критерия.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Вышесказанное в полной мере относится к применению к большим выборкам любых непараметрических критериев согласия.

Распределения статистик 3-х критериев согласия Жанга [13], представляющих собой развитие критериев Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга, зависят от объёмов выборок п. В этом случае не может идти речи об использовании предельных распределениях статистик. Но распределения статистик G(SnlН0) этих критериев таким же образом зависят от от степени округления Д. Проблема может разрешаться статистическим моделированием (в том числе, в интерактивном режиме [2]) распределений статистик при заданных п и Д при справедливости проверяемой гипотезы Но- Именно так в подобной ситуации эта проблема разрешается в развиваемой программной системе ISW [17].

Отметим, что подобным же образом степень округления регистрируемых данных влияет на свойства множества других критериев, в частности, специальных критериев, ориентированных на проверку гипотезы о принадлежности выборок нормальному закону, о принадлежности выборок равномерному закону, показательному закону и др.

4 Критерии однородности при больших выборках

В критериях однородности, где сравнивается 2 и более выборок, на распределения статистик влияет нерав-ноточность данных, представленных в выборках.

Двухвыборочный критерий однородности Лемана-Розенблатта предложен в работе [15] и исследован в [16]. Статистика, построенная по двум выборкам х11, х12, ■ ■ ■, и х21, х22, ■ ■ ■, х2,П2, используется в форме

г i 4п п 1 -г-1—-V niY] (п - i)2 + n2V (Sj - j)2 - —^--, (6)

п1п2(п1 + П2) L = ^ J 6(ni + П2)

где — порядковый номер (ранг) хц] з^ — порядковый номер (ранг) Х2^ в объединенном вариационном ряде. Предельным распределением статистики (6) при справедливости проверяемой гипотезы Н0 является то же самое распределение а1 (в), которое является предельным для статистики критерия согласия Крамера-Мизеса-Смирнова.

Рис. 2 демонстрирует зависимость распределения статистики С(Бьн1Н0) критерия однородности Лемана-Розенблатта от степени округления Д2 наблюдений во второй выборке при округлении в первой выборке △ 1 = 0-01 при объёмах выборок щ = 1000. Уже при Д2 = 0Ю5 отклонение С^ь^Но) от а1 (Я) оказывается существенным. При фиксированном Д2 с ростом объёмов выборок отклонение С(Бьн1Н0) от а1 (Я) быстро

Д2

статистики С(Бьп1Н0) критерия однородности Лемана-Розенблатта зависят также от разности Д1 и Д2.

Аналогичным образом от различия в точности регистрируемых данных в выборках зависят распределения статистик других критериев однородности, рассмотренных в [17].

Заключение

При построении вероятностных моделей по большим выборкам целесообразно использование методов оценивания параметров, предусматривающих группирование данных. В отличие от оценок по негруппированным данным такие оценки робастны, а вычислительные затраты не зависят от объёмов выборок.

Критерий х2 Пирсона при анализе больших выборок сохраняет как свои положительные качества, так и свойственные ему недостатки.

\ V

У// / /\

Ft /ij=02/ =0.3

¡I i \ / / Д, =0,5 f

ft rAi=cW

N.. /

l! 1 / 7

1(1 =0.05 j j\

If J J

0.0 0.2 0.4 0.6 0.8 1.0 1.2

Рис. 2: Распределения статистики G(Slr\Hq) критерия однородности Лемана-Розенблатта при щ = 1000 в зависимости от Д^и Д1 =0.01

Корректность применения непараметрических критериев согласия для анализа больших выборок можно обеспечить ограничением объёмов выборок, извлекаемых из больших совокупностей. Можно также использовать методы статистического моделирования для нахождения реальных распределений статистик (при соответствующих Д).

Возможную некорректность выводов при использовании критериев однородности, связанную с нерав-ноточностыо измерений в выборках, можно также устранить применением статистического моделирования для нахождения реальных распределений статистик.

Подобная стратегия действий при анализе больших выборок реализуется в программной системе Ю"\¥ [14].

Список литературы

[1] Lemeshko В. Yu., Lemeshko S. В.. Postovalov S. N. Statistic Distribution Models for Some Non-parametric Goodness-of-Fit Tests in Testing Composite Hypotheses // Communications in Statistics Theory and Methods. 2010. Vol. 39, № 3. P. 460-471.

[2] Lemeshko B. Yu., Lemeshko S. В., Rogozhnikov A. P. Interactive investigation of statistical regularities in testing composite hypotheses of goodness of fit // Statistical Models and Methods for Reliability and Survival Analysis : monograph. Wiley-ISTE , 2013. Chap. 5. P. 61 76.

[3] Лемешко Б. Ю., Лемешко С. Б., Семёнова М. А. К вопросу статистического анализа больших данных // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2018. № 44. С. 40-49. DOI: 10.17223/19988605/44/5

[4] Лемешко Б. Ю. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход /Б. Ю. Лемешко, С. Б. Лемешко, С. Н. Постовалов, Е. В. Чимитова. Новосибирск : Изд-во НГТУ, 2011. 888 с.

[5] Никулин М. С. О критерии хи-квадрат для непрерывных распределений // Теория вероятностей и ее применение. 1973. Т. XVIII. № 3. С.75-676.

[6] Rao К. С., Robson D. S. A chi-sqnared statistic for goodness-of-fit tests within the exponential family // Commnn. Statist. 1974. Vol. 3. P.1139-1153.

[7] Лемешко Б. Ю. Критерии проверки отклонения распределения от нормального закона. Руководство по применению. М.: ИНФРА-М, 2015. 160 с. DOI: 10.12737/6086

[8] Денисов В. И., Лемешко Б. Ю. Оптимальное группирование при обработке экспериментальных данных // Измерительные информационные системы. Новосибирск, 1979. — С.5-14.

[9] Лемешко Б. Ю., Чимитова Е. В. О выборе числа интервалов в критериях согласия типа \2 II Заводская лаборатория. Диагностика материалов. 2003. Т. 69. № 1. С. 61-67.

[10] Большее Л. Н., Смирнов Н. В Таблицы математической статистики. — М. : Наука, 1983. — 416 с.

[11] Кас М., Kiefer J., Wolfowitz J. On tests of normality and other J. tests of goodness of fit based on distance methods // Ann. Math. Stat. 1955. Vol. 26. — P. 189-211.

[12] Лемешко Б. Ю. Непараметрические критерии согласия: Руководство по применению. М.: ИНФРА-М, 2014. - 163 с. DOI: 10.12737/11873

[13] Zhang J. Powerful goodness-of-fit tests based on the likelihood ratio // Journal of the Royal Statistical Society: Series B. 2002. V.64. № 2. - P.281-294.

[14] ISW-Программная система статистического анализа одномерных наблюдений. https://ami.nstu.ru/ headrd/ISW.htm. (дата обр. 30.04.2019)

[15] Lehmann Е. L. Consistency and unbiasedness of certain nonparametric tests // Ann. Math. Statist. — 1951. — Vol. 22, № 1. - P. 165-179.

[16] Rosenblatt M. Limit theorems associated with variants of the von Mises statistic // Ann. Math. Statist. — 1952. - Vol. 23. - P. 617-623.

[17] Лемешко Б. Ю. Критерии проверки гипотез об однородности. Руководство по применению. М.: ИНФРА-М, 2017. - 208 с. DOI: 10.12737/22368

Лемешко Борис Юрьевич — д.т.н., профессор, г.н.с. кафедры прикладной и теоретической информатики

Новосибирского государственного технического университета,

e-mail: Lemeshko@ami.nstu.ru;

Лемешко Станислав Борисович — с.н.с., к .т.н., кафедры прикладной и теоретической информатики

Новосибирского государственного технического университета,

e-mail: skyer@mail.ru;

Веретельникова Ирина Викторовна — м.н.с. кафедры прикладной и теоретической информатики

Новосибирского государственного технического университета,

e-mail: ira-veterok@mail.ru;

Блинов Павел Юрьевич — м.н.с. кафедры прикладной и теоретической информатики Новосибирского государственного технического университета,

e-mail: Blindizer@yandex.ru Дата поступления — 30 апреля 2019 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.