2020
ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
Управление, вычислительная техника и информатика
№ 53
ОБРАБОТКА ИНФОРМАЦИИ
УДК 519.24
DOI: 10.17223/19988605/53/5
Б.Ю. Лемешко, С.Б. Лемешко
О ВЛИЯНИИ ОШИБОК ОКРУГЛЕНИЯ НА РАСПРЕДЕЛЕНИЯ СТАТИСТИК КРИТЕРИЕВ СОГЛАСИЯ
Исследование выполнено при поддержке Министерства науки и высшего образования РФ в рамках государственной работы «Обеспечение проведения научных исследований» (№ 1.4574.2017/6.7) и проектной части государственного задания (№ 1.1009.2017/4.6).
Приводятся результаты численных исследований влияния ошибок округления на распределения статистик различных критериев согласия. Показано, что ошибки округления в анализируемых выборках могут приводить к существенным изменениям распределений статистик критериев. Даны рекомендации по применению критериев в таких ситуациях.
Ключевые слова: критерии согласия; критерии нормальности; критерии экспоненциальности; статистика; распределение статистики; ошибки округления.
Большинство существующих критериев предназначено для проверки статистических гипотез относительно непрерывных случайных величин. Это стандартное предположение, на которое редко обращают внимание, но которое обусловливает корректность применения соответствующих критериев.
В реальных ситуациях это предположение часто нарушается, так как любые измерения сопровождаются некоторой погрешностью округления и в выборках присутствуют повторяющиеся наблюдения, чего не должно быть в случае непрерывности случайной величины. Это типично для данных экономического характера, для измерений, сопровождающих исследования в медицине и биологии, нередко повторяющиеся результаты встречаются в выборках высокоточных измерений, связанных с техническими системами.
Очевидно, что наличие погрешностей округления как-то отражается на результатах применения статистических методов, а в некоторых ситуациях влияние ошибок округления может приводить и к неверным статистическим выводам.
Поясним, например, что происходит с критерием согласия Колмогорова при проверке простой
гипотезы H0 : Fn (x) = F(x) , статистика которого S = «JnDn , где Dn = sup\Fn (x) - F(x)|, учитывает отклонение эмпирического распределения F„(x) от теоретического F(x), если результаты измерений округляются с некоторым А.
Предельным распределением статистики S при справедливости проверяемой гипотезы H0 является распределение Колмогорова K(S). Если «нарушается» стандартное предположение о непрерывности наблюдаемой случайной величины и результаты измерений округляются (фиксируются) с некоторым А, то, начиная с некоторого n (зависящего от вида F(x), от области определения случайной величины и от А), величина Dn с ростом n перестает уменьшаться, а распределение статистики S (при справедливости H0) будет отклоняться от распределения Колмогорова K(S) (чем больше А, тем при меньшем n).
В работах [ 1, 2] поведение распределений статистик критериев, предназначенных для проверки различных статистических гипотез, исследовалось в зависимости от А в условиях больших выборок.
Было показано, что классическими результатами, касающимися распределений статистик, можно пользоваться лишь до определенных объемов выборок n < nmax . При n > nmax из-за естественного присутствия ошибок округления распределения статистик уже существенно отличаются от имеющих место в классической ситуации.
Как видим, в случае больших массивов данных (Big Data) из этой ситуации имеется простой выход: в интересах анализа из Big Data следует извлекать выборки, объемом не превышающие «max, тогда, применяя критерии, можно пользоваться классическими результатами.
Однако такие же проблемы возникают не только при анализе больших выборок. Например, о возможных проблемах с применением критериев нормальности, связанных с округлением, ранее говорилось в работе [3]. В [4, 5] на примере критериев проверки гипотез о равенстве математического ожидания и дисперсии номинальным значениям, а также критериев Стьюдента об однородности средних и Фишера об однородности дисперсий двух выборок было показано влияние ошибок округления на реальный уровень значимости. Там же было отмечено, что с увеличением А снижается мощность критериев. Но в упомянутых работах не говорится о том, как меняются распределения статистик критериев с ростом ошибок округления и что делать, если такие изменения имеют место.
Цель настоящей работы заключается в том, чтобы показать: как в ситуации ограниченных объемов выборок в зависимости от величины ошибки округления могут изменяться распределения статистик различных критериев проверки статистических гипотез; при каких условиях эти изменения нельзя игнорировать; как поступать, чтобы обеспечить в таких условиях корректность вывода по применяемому критерию.
Для обеспечения настоящих исследований в вычислительной системе [6], в которой представлен перечень критериев, несколько превышающий множество критериев, охваченных в [7-10], реализована возможность применения этого перечня критериев, а также моделирования распределений статистик соответствующих критериев в условиях нарушения стандартного предположения о непрерывности (при заданной погрешности округления А). Количество имитационных экспериментов при исследовании соответствующих распределений статистик и вычислении оценок достигнутого уровня значимости методами статистического моделирования, как правило, составляло величину не менее N = 106.
В руководствах [7-10] мы представили результаты исследований реальных свойств различных групп критериев без учета влияния на эти свойства ошибок округления. В данном случае на примере различных критериев с использованием методов статистического моделирования покажем, как погрешность округления может влиять на распределения статистик критериев проверки различных гипотез при относительно небольших объемах выборок, и что надо делать, чтобы, применяя критерии в этих условиях, обеспечить корректность статистических выводов. Как проблема ошибок округления отражается на свойствах критериев, будет продемонстрировано на группах критериев, используемых при проверке гипотез об отклонении эмпирического распределения от нормального закона и об отклонении от экспоненциального.
1. Влияние ошибок округления на распределения статистик критериев проверки нормальности
Во многих приложениях достаточно типична ситуация, когда из-за округления в анализируемых выборках оказывается относительно много повторяющихся значений. Это настораживающий факт, указывающий на то, что реальные распределения GA (Sn\H0) статистик критериев (при погрешности округления А и объемах выборок n) могут существенно отличаться от предельных распределений G(S|H0) или от G(Sn|H0), имеющих место в ситуации без округления измерений. Наличие некоторого числа повторяющихся наблюдений в выборке еще не свидетельствует об изменении распределения статистики. Но когда величина А оказывается соизмеримой со среднеквадратическим отклонением с закона распределения ошибки измерения, распределение статистики может и не «пытаться» сходиться к предельному закону, а с ростом n будет лишь удаляться от него.
В табл. 1 приведены выражения статистик критериев согласия, чаще всего используемых в приложениях. В этот перечень входят критерии: Колмогорова (K) [11] с поправкой Большева [12] (1), Купера (Ku) [13] (2), Крамера-Мизеса-Смирнова (CMS) [12] (3), Ватсона (W) [14, 15] (4), Андерсона-Дарлинга (AD) [16, 17] (5), Жанга [18] (со статистиками Zk, Za, Zc (6)-(8), распределения которых зависят от объемов выборок), критерий х2 Пирсона (хП) (9), критерий Никулина-Рао-Робсона (Yй2) [19, 20, 21] (10). Критерий Никулина-Рао-Робсона предполагает использование оценок максимального правдоподобия (ОМП) по негруппированным данным. В этом случае распределением G(Yf |H0)
его статистики является х2_i -распределение.
Таблица 1
Статистики рассматриваемых критериев согласия
Критерии Статистики критериев
K Зк = №>я , (1) где Вп = тах(Я, Я-), Я+п = тах{' -¥(х,, 9)1, Я- = тах{¥(х,-, 9) - —} 4 ' 1</<п [п ] 1<,'<п [ п )
Ku =^(Я+п Я-) п^ (2)
CMS 1 п Г 2г -112 З" = 12п +,5Ь"9) -2-} (3)
W °2 = 5 '' ¥(,,9)- 1)п ^ (4)
AD 1 п =-п - - 2 (25 - 1){1п¥(х,., 9) п 1п(1 - ¥(Хп_м, 9))} (5) п ,= 1
Zk = тах ((, 1 1 1п { '-12 1 п (п ' п 12) 1п \ " - ' П12 1] (6) к 1< < п ^ 2) [ п¥ (х,, 9) 1 у 1 ' | п{1 - ¥ (х,, 9)} ^^ ( )
Za п Za =-Х i=1 ln{¥(x,9)} | ln{1 -F(x,9)}! n - i +1/2 i -1/2 J ( )
Zc п Zc = 2 i=1 [ln I ^'9)]-1 -1 Ц2 (8) [ (n - 1/2)/(i - 34) - 1j
x2 V2 = * («,/« -Р(9))2 (9) Хп = м Р (9) , где р (9) - вероятность попадания в интервал
Yn Уя2(9) = XI п п^1 (9)Л(9)а(9), (10) где вычисление а(9) и Л(9) см.: [19, 20] или [22]
KL V = -12 1п{{[¥(х,+т, 9) - ¥(х,_т, 9)]) , (11) п '=1 [2т ) где т < п/ 2 ; х; = х1, если ' <1; х = хи , если ' > п
В табл. 1 приведена также статистика (11) относительно недавно предложенного критерия, опирающегося на оценку информации Кульбака-Лейблера [23, 24]. Этот критерий, а также ряд критериев проверки нормальности и равномерности, в статистиках которых используются различные оценки энтропии, как правило, демонстрируют высокую мощность. Однако анализ выборок с повторяющимися значениями с использованием подобных критериев оказывается проблематичным. Чтобы понять причину, достаточно взглянуть на вид статистики (11).
Ошибки округления влияют на распределения статистик критериев согласия при проверке и простых, и сложных гипотез. На примере критерия Андерсона-Дарлинга со статистикой (5) покажем, как меняется распределение |^0) ее статистики в зависимости от А при п = 50 в случае проверки сложной гипотезы о принадлежности выборок нормальному закону. Рисунок 1 иллюстрирует, как меняются распределения С(|^0) при изменении А от 0 до с наблюдаемого закона. Как можно видеть, уже при ошибке округления А = 0,1с отклонением распределения статистики от асимптотического (при А = 0) пренебрегать нельзя. В то же время при А = 0,01с и п = 50 распределение статистики не отличается от асимптотического. С увеличением объемов выборок картина, представленная на рис. 1, будет меняться: распределения при соответствующих А будут сдвигаться вправо от асимптотического.
1.0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0
\ .■ ■ .
Д = 0 У S
// / Ал = 0,3а у /
\(t / ! / ЧД = 0^5ст
/ /л = 0,2<j 7 Д = 0,7а
! /
Ш = 0,1а Г\
1 ! Д =ст
/
My У
0,0 0,2 0,4 0,6 0,Е
1.0 1,2 1,4 1.6 1,8 2,0
Рис. 1. Зависимость распределения статистики (5) критерия Андерсона-Дарлинга при проверке нормальности
при n = 50 в зависимости от А Fig. 1. Dependence of the distribution of statistics (5) of the Anderson-Darling test when checking the normality
at n = 50 depending on А
Подобным же образом в зависимости от А при проверке нормальности ведут себя распределения статистик других критериев согласия.
На модельном примере покажем, как меняются результаты проверки при учете погрешности округления. В этом примере демонстрируется также применение некоторых специальных критериев проверки нормальности, вид статистик которых представлен в табл. 2. В этот перечень входят критерии: Фросини (F) [25] (12), Эппса-Палли (EP) [26] (13), Хегази-Грина (HG) [27] (14)-(15), Дэвида-Хартли-Пирсона (DHP) [28] (16), Гири (G) [29] (17), Д'Агостино (D'A) [30] (18).
Таблица 2
Статистики критериев проверки нормальности
Критерии Статистики критериев
F 1 n Bn I "Jn 1=1 x. - x _ где zi = —-, x = \ i-05 ф(г1)- n n 2 1 -I xi , 5 = - 1 i=1 n , (12) I (xi - x )2 i=1
EP n 2 n k-1 I (x, - xk) Tep = 1 + n + 2 II IeXP I —LrxkL V3 n k =2 j=1 I 2s [ j (j) I ■. (13)
О влиянии ошибок округления на распределения статистик критериев согласия
Окончание табл. 2
Критерии Статистики критериев
1 n T1 =-! zt - "Л; , n i=1 (14)
HG T2 = 1 Z h -Л; }2 , n;=i где z = —■—— , s2 = —— Z ( — ~ — )2 , Л, = Ф-11 —i— |, - функция распределения стандартного s n -1 i=1 ^ n +1J нормального закона (15)
DHP U = R/s, где R = —max - xmn - размах выборки, s2 = Z (xi - x )2 n -1 ;=1 (16)
D 1 n , . d = — Z — - — ns i=1 (17)
--{( if -1+9a} c«1", (18)
D'A „ , 2 ^ (n-2)(n + 5)(n + 7)(n2 + 27n-70) где 5 = (n - 3)(n + 1)(n + 15n - 4), a = (-^--, x=(p2-1 -ft ) 2k , (n - 7)(n + 5)(n + 7)(n2 + 2n - 5) (n + 5)(n + 7)(n3 + 37n2 + 11n - 313) c =-, k =-, a = a + B, c 65 125
Пример 1. Проверка сложной гипотезы о принадлежности выборки нормальному закону. Анализируемая выборка
1,04 1,12 0,92 0,92 0,94 1,04 0,94 0,96 1,02 1,04
1,04 0,92 1,00 1,10 0,88 1,08 1,00 1,02 0,94 1,02
0,88 0,96 0,94 1,10 1,12 1,04 1,18 1,10 0,80 0,88
0,94 1,00 1,06 1,02 1,06 1,04 0,94 1,14 1,02 1,16
0,94 0,92 0,96 0,88 1,00 1,22 1,08 1,02 1,02 1,04
представляет собой результаты моделирования по нормальному закону с параметром сдвига ц = 1 и масштаба с = 0,1, зафиксированные с погрешностью округления А = 0,2с.
ОМП параметров, вычисленные по выборке, Д = 1,008 и с = 0,085884 . Результаты проверки сложной гипотезы по совокупности критериев согласия и критериев нормальности представлены в табл. 3, где приведены значения статистик, а также оценки достигнутых уровней значимости рш/ие,
вычисленные, соответственно, в предположении об отсутствии округлений при А = 0 (по асимптотическим распределениям статистик) и по реальным распределениям при наличии округления порядка А = 0,2с. В случае критериев Пирсона и Никулина-Рао-Робсона использовалось пять равновероятных интервалов.
Таблица 3
Результаты проверки сложной гипотезы о нормальности
№ п/п Критерий Статистика °ЦенКИ pvalue
По асимптотическому распределению статистики А = 0 По реальному распределению статистики А = 0,2а
Критерии согласия
1 K 0,77130 0,173 0,425
2 CMS 0,08362 0,186 0,306
3 AD 0,45581 0,270 0,423
4 Ku 1,47064 0,062 0,239
5 W 0,08229 0,157 0,274
6 x2 0,40000 0,825 0,817
7 Y2 6,16205 0,188 0,844
Окончание табл. 3
№ п/п Критерий Статистика Оцетки pvalue
По асимптотическому распределению статистики А = 0 По реальному распределению статистики А = 0,2а
8 Za 3,31084 0,663 0,761
9 Zc 3,60967 0,830 0,892
10 Zk 1,24283 0,223 0,407
Специальные критерии нормальности
11 F 0,22147 0,224 0,338
12 EP 0,01673 0,950 0,950
13 HG71 0,12241 0,278 0,413
14 ИОГ2 0,02294 0,434 0,571
15 DHP 4,84119 0,465 0,472
16 G 0,802947 0,995 0,961
17 D'A 0,34812 0,667 0,669
Все рассмотренные критерии согласия правосторонние. Из рассмотренных критериев нормальности двусторонними являются критерии Дэвида-Хартли-Пирсона, Гири и Д'Агостино, остальные также правосторонние. Как можно видеть, оценки руа/ме по реальным распределениям статистик, как правило, существенно отличаются от значений, полученных в предположении о непрерывности (по асимптотическим распределениям). В меньшей мере изменяются распределения двусторонних критериев. Исключение составляют критерии Эппса-Палли и Д'Агостино, распределения которых практически не изменяются с ростом А.
2. Влияние ошибок округления на распределения статистик критериев экспоненциальности
Наличие ошибок округления точно так же влияет и на распределения статистик множества критериев, используемых для проверки гипотезы о принадлежности анализируемой выборки экспоненциальному закону. Например, рис. 2 иллюстрирует изменение распределения статистики (3) критерия Крамера-Мизеса-Смирнова в зависимости от А при п = 50.
1.0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0,0
G(Sa \Н0)
Д = 0
~\~fri ..А /
■-■ Д = 0,3а / :
/ Л = 0,5а
7 А = 0,2а /
\\= 0,7а
чД = 0,1а /
II'] 1 А = ст
1 1 ! \
0,0 0,1 0,2 0,3 0,4 0,6 0,6 0,7 0,8 0,9 1,0
Рис. 2. Зависимость распределения статистики (3) критерия Крамера-Мизеса-Смирнова при проверке экспоненциальности
при n = 50 в зависимости от А Fig. 2. Dependence of the distribution of statistics (3) of the Cramer-Mises-Smirnov test when checking the exponentiality
at n = 50 depending on A
Подобным же образом в зависимости от А при проверке экспоненциальности ведут себя распределения статистик критериев Колмогорова, Купера, Ватсона, х2 Пирсона и Никулина-Рао-Робсона и многих специальных критериев проверки экспоненциальности.
Вместе с тем при проверке экспоненциальности проявляются особенности применения критериев, не встречающиеся при проверке нормальности. Вследствие округления в выборке могут присутствовать значения, совпадающие со значением параметра сдвига. При таких значениях функция распределения экспоненциального закона (при нулевом сдвиге) ¥(х, 1) = 1 — ехр(—х / 1) принимает значение 0. Для ряда критериев это является основанием для отклонения проверяемой гипотезы Но. В такой ситуации статистика (5) критерия Андерсона-Дарлинга, а также статистики (6)-(8) Хк, Ха, Хс критериев Жанга принимают значения +<х, а рга/„е = 0 . С этим же можно столкнуться при использовании некоторых специальных критериев экспоненциальности.
Так же, как ранее при проверке нормальности, на модельном примере покажем, как меняются результаты проверки с учетом погрешности округления при проверке экспоненциальности. В данном случае также кроме критериев согласия используем несколько специальных критериев проверки экс-поненциальности. Для этого из предварительно исследованных почти четырех десятков критериев экспоненциальности отобрали критерии, показавшие наибольшую мощность относительно рассматриваемых (в исследовании) конкурирующих гипотез. Вид статистик отобранных критериев представлен в табл. 4. В этот перечень вошли критерии: Барингхауса-Хензе (5И) [31] (19), Аткинсона (А^„) [32] (20), Фросини {¥) [33] (21), Хензе-Мейнтаниса (НМ) [34, 35] (22), Хензе (Не) [36, 35] (23), Клара (К) [37] (24), Хегази-Грина (НвТ!) [27] (25), Кимбера-Мичела (КМ) [38] (26), Дешпанде (Бе) [39] (27). Заметим, что свойства некоторых из этих критериев существенно зависят от имеющегося параметра. Такие критерии в данном случае рассматриваются при значениях параметров, при которых они проявили более высокую мощность.
Пример 2. Пусть проверяется гипотеза о принадлежности упорядоченной выборки объемом п = 50 экспоненциальному закону:
0,00 0,20 0,20 0,20 0,20 0,20 0,20 0,20 0,20 0,20
0,20 0,40 0,40 0,40 0,40 0,40 0,40 0,40 0,40 0,60
0,60 0,80 0,80 0,80 0,80 0,80 0,80 0,80 0,80 1,00
1,00 1,00 1,20 1,20 1,20 1,20 1,20 1,40 1,40 1,60
1,60 1,80 1,80 2,00 2,20 2,20 2,40 2,80 3,20 4,40
Эта выборка получена в результате моделирования по экспоненциальному закону с параметром масштаба 1 = 1 с нулевым параметром сдвига, т.е. с дисперсией с2 = 1. Моделируемые значения фиксировались с погрешностью округления А = 0,2с. Полученная по выборке оценка параметра масштаба 11 = 1,012.
Таблица 4
Статистики рассматриваемых критериев экспоненциальности
Критерии Статистики критериев
ВН ( а) 1 п ВН (а) = - 2 п ], к=1 где У1 = х (1—Ъ)(1—Ъ) , 2ЪА — Ъ — % 1 2г/к гу + Ъ + а Ъ + ¥к + а)2 (¥у + ¥к + а)3 _ ^ /X, х^ - элементы вариационного ряда , (19)
АЛп (р) (р) = 4П (1 мхУР х—(Г( где —1 < р < 1, с2 (р) = Г(1 + р)2/р V 1+р))"р Г(1 + 2 р р2г2 (1 + ^2(р) , (20) 0 — 1 — 11 р) Р2 >1
В = ЫМп ( V 1 х(ы) 1 — ехр —^ х v Ы — 0.5 п / (21)
Окончание табл. 4
Критерии Статистики критериев
HM (а) 1 n 1 + (Y, + Yk + а +1 f „ 1 + Y, + a n HM(a) =1 £ -jJi-_ 2 £ --yL__ +1, (22) "j,k=1 (Y, + Yk + a) J=1 (Y, + a) a где Yi = x^ jx , a > 0
He(a) He(a) = 1 % 1 £ exp(Yj + a)E (Y + a) + n(1 aexp(a)E (a)), (23) n j,k =1 Yj + Yk + a j=1 где Yi = x^)jx , a > 0, E1 (z ) = J" t_1exp (-t) dt
Kl(a) 2(3a + 2)n , n exp(-(1 + a)Y,) 2 / \ 2 Г / \ 1 / \ Kl(a) = ( 2+(a)(1+ja)2 " 2a3 £ (1+-a)2j " Й .£1 ) + » [a " Y^" 2] exP KJ (24)
HGT1 1 n T1 = - £ ni=1 Y' + К1 - Т+7 ] (25)
KM KM = 2 ■ 1 где si = — arcsin 1 - exp я v max,h - ^, (26) x(0] 2 . Ii -0.5 —— , /;■ =— arcsin. 1- x ] я \ n
De(b) Ое(Ъ) - 7 7 Е [7] , (27) ^ [7 ] / \ 2 „г, 1 пГг1 1 \л Ь 1 2 (1 - Ъ) 2Ъ 4 где Е [ /1--, О [7 ]--1 +-+-+ -—=---т , 1 J Ъ +1 1 J п ^ Ъ + 2 2Ъ +1 Ъ +1 Ъ2 + Ъ +1 (Ъ +1) J 1 Г1 если х1 > Ъxj; 7 - п(п-1)г5ф(х';Ъх), ф(х"ЪХ' )-{о если х, < ЪxJ
Результаты применения для анализа предложенной выборки рассматриваемых критериев согласия и специальных критериев экспоненциальности приведены в табл. 5. В таблице представлены оценки рш1ие для всех рассматриваемых критериев, полученные по смоделированным распределениям статистик при количестве экспериментов N = 106 в предположении об отсутствии округления (А = 0) и при наличии с погрешностью округления А = 0,2с.
Таблица 5
Результаты проверки сложной гипотезы об экспоненциальности
Оценки Р value
№ п/п Критерий Статистика По асимптотическому распределению статистики А = 0 По реальному распределению статистики А = 0,2а
Специальные критерии экспоненциальности
1 BH (0,1) 0,767622 0,166 0,794
2 BH (1) 0,135266 0,208 0,250
3 Atn (0,25) 1,06031 0,293 0,758
4 F 0,267318 0,272 0,630
5 HM (1,5) 0,078934 0,197 0,232
6 He(1) 0,026544 0,202 0,237
7 He(5) 0,000389 0,275 0,294
8 Kl (1) 0,037906 0,317 0,419
9 Kl (10) 0,241439 0,115 0,385
10 HGT 0,080471 0,862 0,989
Окончание табл. 5
№ п/п Критерий Статистика Одежи ртЬе
По асимптотическому распределению статистики А = 0 По реальному распределению статистики А = 0,2с
11 КМ 0,16755 0,001 0,735
12 Яе(0,1) 1,72338 0,083 0,062
13 £>е(0,3) 1,22981 0,242 0,309
Критерии согласия
14 0,110544 0,153 0,588
15 Ки 1,55209 0,093 0,711
16 смб 0,13948 0,173 0,465
17 К 1,15017 0,034 0,283
18 х2 3,31357 0,222 0,284
19 т2 5,93455 0,115 0,231
20 АБ 0,94396 0,139 0,272
21 Хл 3,43736 0,064 0,111
22 Хс 14,50745 0,125 0,190
23 Хк 5,42224 0,003 0,034
Как можно заметить, значения рш/ие, соответствующие реальным распределениям статистик при А = 0,2с, как правило, увеличиваются. Особенно чувствительны к ошибкам округления распределения статистик: (19) ВН (0,1) критерия Барингхауса-Хензе, (20) (0,25) критерия Аткинсона, (21) критерия Фросини, (26) критерия Кимбера-Мичела. В данном случае только критерий Дешпанде является двусторонним.
Аналогичным образом получены результаты применения к анализируемой выборке первых шести из представленных в табл. 5 критериев согласия. В случае критериев х2 Пирсона и Никулина-Рао-Робсона использовалось асимптотически оптимальное группирование [22] при числе интервалов к = 4.
Статистика (5) критерия Андерсона-Дарлинга и статистики (6)-(8) Хк, Хл, Хс критериев Жанга вследствие присутствия 0,00 в анализируемой выборке принимают значение +х, а рт1ие = 0. Среди критериев согласия эти критерии, как правило, характеризуются более высокой мощностью. Поэтому обеспечить возможность их корректного применения является желательным, что можно осуществить с использованием следующего алгоритма.
Такие аномальные элементы (0,00 в нашей выборке) появляются в результате округления значений, оказавшихся меньшими величины 0,5А. Пусть в анализируемой выборке оказалось к таких «аномальных» элементов.
1. Эти «аномальные» элементы х^),х(2),...,х^к) можно заменить восстановленными в соответствии с функцией распределения Г(х, )) = 1 - ехр(-х / )) следующим образом:
х(г) =-Л 1п(1 , г = 1, к ,
где - равномерные псевдослучайные величины на интервале [1, 1 -ехр|-0,5А/)}]. Иногда эту
процедуру называют преобразованием Смирнова. Эффективность ее применения при анализе цензу-рированных и группированных выборок, а также выборок дискретных случайных величин была показана в [40].
2. Теперь проблема с вычислением статистик критериев Андерсона-Дарлинга и Жанга отсутствует. Однако при моделировании распределений статистик для последующей оценки по ним значений рш/ие необходимо учитывать, что при генерации в соответствии с законом Г(х,)) = 1 — ехр(-х / )) псевдослучайных выборок х1,х2,...,хп значения хг < 0,5А не должны округляться.
Для критериев Андерсона-Дарлинга и Жанга в табл. 5 внесены результаты проверки, полученные с использованием именно этого алгоритма.
Рассмотренный выше подход можно расширить следующим образом. Выборку с повторяющимися в результате округления значениями можно рассматривать как поразрядно группированную,
_ к
в которой содержится к различных значений, и элемент х,, г = 1, к, повторяется п, раз, п = X пг . То
г=1
есть х, является центром интервала [хг — А /2, х^ + А /2], в который попало п, значений. В соответствии с функцией распределения Г(х,)) = 1 - ехр(-х / )) , используя преобразование Смирнова для каждого интервала I, г = 1, к , можно сгенерировать последовательность
ху =-) 1п(1 ] ) , ] = 1 пг ,
где % j - псевдослучайные величины, равномерно распределенные на интервале
[1 - ехр {-(х - А / 2) / )}, 1 - ехр {-(хг+А / 2) / )}].
По полученной в результате этих действий псевдослучайной выборке хп,х12,...,х1п ,
х21,х22,...,х2п, хк1,хк2,...,хЫк можно вычислить статистику критерия, используемого для проверки
гипотезы об отклонении эмпирического распределения этой выборки от функции распределения Г (х,)).
При справедливости проверяемой гипотезы Н распределение этой статистики сходится к распределению статистики критерия, имеющему место при проверке сложной гипотезы (в случае отсутствия округления). А оценка р (достигнутого уровня значимости) сходится к оценке, получаемой по распределению статистики в условиях округления.
На наш взгляд, в этом заключается наиболее рациональный подход, гарантирующий корректность статистических выводов при проверке гипотез по анализируемым выборкам с округленными данными. Он также открывает возможность применения в этой ситуации таких перспективных критериев, как критерий согласия со статистикой (11), опирающийся на оценки информации Кульбака-Лейблера, или различных критериев, использующих оценки энтропии.
Заключение
В различных приложениях достаточно часто приходится сталкиваться с ситуациями, когда в анализируемых выборках оказывается большое количество повторяющихся значений. Это может являться признаком того, что ошибки округления А при имеющихся объемах выборок и среднеквадратичном отклонении ошибок измерения с привели к изменению распределения статистики применяемого критерия.
В таких ситуациях реальные распределения СА (Бп\Н0) статистик критериев при имеющихся ограниченных объемах выборок могут существенно отличаться от Бп\Н0), имеющих место при
отсутствии ошибок округления.
Изменение свойств критерия под влиянием погрешностей округления не исключает возможности его корректного применения. Надо лишь знать распределение Бп |Н0) статистики критерия при
той же погрешности округления А и том же объеме выборки п, которые соответствуют анализируемой выборке. Для этого лучше всего воспользоваться методами статистического моделирования и в результате N экспериментов найти эмпирическое распределение статистики Ом (8п |Н0) критерия (при тех же А и п), по которому вычислить оценку р .
Для моделирования Ом (Sn\H 0) рассмотренных в [7-10] множеств критериев можно использовать программную систему КШ [6], с применением которой проведены настоящие исследования, в которую встроены соответствующие средства интерактивного моделирования.
Возможное влияние погрешностей округления на распределения статистик критериев необходимо учитывать при использовании конкретных критериев в приложениях, а также в автоматизированных системах обработки данных, где статистические методы могут использоваться для отслеживания неизменности закономерностей (или обнаружения их изменения).
ЛИТЕРАТУРА
1. Лемешко Б.Ю. Лемешко С.Б., Семёнова М.А. К вопросу статистического анализа больших данных // Вестник Томского
государственного университета. Управление, вычислительная техника и информатика. 2018. № 44. С. 40-49. DOI: 10.17223/19988605/44/5
2. Lemeshko B., Lemeshko S., Semenova M. Features of testing statistical hypotheses under big data analysis // Applied Methods of
Statistical Analysis. Statistical Computation and Simulation - AMSA'2019, Novosibirsk, Russia, 18-20 September, 2019 : proc. of the International Workshop. Novosibirsk : NSTU publisher, 2019. P. 122-137.
3. Pearson E.S., D'Agostino R.B., Bowman K.O. Tests for departure from normality: Comparison of powers // Biometrika. 1977.
V. 64. P. 231-246. DOI: 10.1093/biomet/64.2.427-a
4. Tricker A.R. The effect of rounding on the significance level of certain normal test statistics // Journal of Applied Statistics. 1990.
V. 17, No. 1. P. 31-38. DOI: 10.1080/757582644
5. Tricker A.R. The effect of rounding on the power level of certain normal test statistics // Journal of Applied Statistics. 1990. V. 17,
No. 2. P. 219-228. DOI: 10.1080/757582833
6. ISW - Программная система статистического анализа одномерных наблюдений. URL: https://ami.nstu.ru/~headrd/ISW.htm
(дата обращения: 11.02.2020).
7. Лемешко Б.Ю. Непараметрические критерии согласия : руководство по применению. М. : ИНФРА-М, 2014. 163 с. DOI:
10.12737/11873
8. Лемешко Б.Ю. Критерии проверки отклонения распределения от нормального закона : руководство по применению. М. :
ИНФРА-М, 2015. 160 с. DOI: 10.12737/6086
9. Лемешко Б.Ю., Блинов П.Ю. Критерии проверки отклонения распределения от равномерного закона : руководство по
применению. М. : ИНФРА-М, 2015. 183 с. DOI: 10.12737/11304
10. Лемешко Б.Ю. Критерии проверки гипотез об однородности : руководство по применению. М. : ИНФРА-М, 2017. 208 с. DOI: 10.12737/22368
11. Kolmogoroff A.N. Sulla determinazione empirica di una legge di distribuzione // Giornale del Istituto Italiano degli Attuari. 1933. V. 4, No. 1. P. 83-91.
12. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М. : Наука, 1983. 416 с.
13. Kuiper N.H. Tests concerning random points on a circle // Proceedings of the Koninklijke Nederlandse Akademie van Weten-schappen. Series A. 1960. V. 63. P. 38-47.
14. Watson G.S. Goodness-of-fit tests on a circle. I // Biometrika. 1961. V. 48, No. 1-2. P. 109-114.
15. Watson G.S. Goodness-of-fit tests on a circle. II // Biometrika. 1962. V. 49, No. 1-2. P. 57- 63.
16. Anderson T.W., Darling D.A. A test of goodness of fit // Journal of the American Statistical Association. 1954. V. 29. P. 765-769.
17. Anderson T.W., Darling D.A. Asymptotic theory of certain "Goodness of fit" criteria based on stochastic processes // The Annals of Mathematical Statistics. 1952. V. 23. P. 193-212.
18. Zhang J. Powerful goodness-of-fit and multi-sample tests : PhD Thesis / York University. Toronto. 2001. 113 p. URL: http://www.collectionscanada.gc.ca/obj/s4/f2/dsk3/ftp05/NQ66371.pdf (accessed: 03.12.2019).
19. Никулин М.С. Критерий хи-квадрат для непрерывных распределений с параметрами сдвига и масштаба // Теория вероятностей и ее применение. 1973. Т. XVIII, № 3. С. 583-591.
20. Никулин М.С. О критерии хи-квадрат для непрерывных распределений // Теория вероятностей и ее применение. 1973. Т. XVIII, № 3. С. 675-676.
21. Rao K.C., Robson D.S. A chi-squared statistic for goodness-of-fit tests within the exponential family // Communications in Statistics - Theory and Methods. 1974. V. 3. P. 1139-1153.
22. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход / Б.Ю. Лемешко, С.Б. Лемешко, С.Н. Постовалов, Е.В. Чимитова. Новосибирск : Изд-во НГТУ, 2011. 888 с.
23. Noughabi H.A, Arghami, N.R. General treatment of goodness of fit tests based on Kullback-Leibler information // Journal of Statistical Computation and Simulation. 2013. V. 83. P. 1556-1569.
24. Noughabi H.A. A new estimator of Kullback-Leibler information and its application in goodness of fit tests // Journal of Statistical Computation and Simulation. 2019. V. 89, No. 10. P. 1914-1934.
25. Frosini B.V. A survey of a class of goodness-of-fit statistics // Metron. 1978. V. 36, No. 1-2. P. 3-49.
26. Epps T.W., Pulley L.B. A test for normality based on the empirical characteristic function // Biometrika. 1983. V. 70. P. 723-726.
27. Hegazy Y.A.S., Green J.R. Some new goodness-of-fit tests using order statistics // Applied Statistics. 1975. V. 24, No. 3. P. 299308.
28. David H.A., Hartley H.O., Pearson E.S. The distribution of the ratio? In a single normal sample, of range to standard deviation // Biometrika. 1964. V. 512, No. 3-4. P. 484-487.
29. Geary R.C. Testing for Normality // Biometrika. 1937. V. 34. P. 209-242.
30. D'Agostino R.B. Transformation to normality of the null distribution of gi // Biometrika. 1970. V. 57. P. 679-681.
31. Baringhaus L., Henze N. A class of consistent tests for exponentiality based on the empirical Laplace transform // Annals of the Institute of Statistical Mathematics. 1991. V. 43, No. 3. P. 551-564.
32. Mimoto N., Zitikis R. The Atkinson index, the Moran statistic, and testing exponentiality // Journal of the Japan statistical society. 2008. V. 38, No. 2. P. 187-205.
33. Frosini B.V. On the distribution and power of a goodness-of-fit statistic with parametric and nonparametric application // Good-ness-of-fit / ed. by P. Reverz, K. Sarkadi, P.K. Sen // Amdstedam-Oxford-New York : North-Holland. Publ. Comp., 1987. P. 133-154.
34. Henze N., Meintanis S.G. Tests of fit for exponentiality based on the empirifcal Laplace transform // Statistics: a Journal of Theoretical and Applied Statistics. 2002. V. 36, No. 2. P. 147-161.
35. Henze N., Meintanis S.G. Recent and classical tests for exponentiality: a partial review with comparisons // Metrika. 2005. V. 61. P. 29-45.
36. Henze N. A new flexible class of omnibus tests for exponentiality // Communications in Statistics - Theory and Methods. 1993. V. 22, No. 1. P. 115-133.
37. Klar B. Goodness-of-fit tests for the exponential and the normal distribution based on the integrated distribution function // Annals of the Institute of Statistical Mathematics. 2001. V. 53, No. 2. P. 338-353.
38. Kimber A.C. Tests for exponential. Weibull and Gumbel distribution based on the stabilized probability plot // Biometrika. 1985. V. 72, No. 3. P. 661-663.
39. Deshpande J.V. A Class of tests for exponentiality against increasing failure rate average alternatives // Biometrika. 1983. V. 70, No. 2. P. 514-518.
40. Lemeshko B.Yu. Chimitova E.V., Kolesnikov S.S. Nonparametric goodness-of-fit tests for discrete, grouped or censored data // Xllth Applied Stochastic Models and Data Analysis (ASMDA 2007) International Conference. Book of Abstracts. May 29 -June 1, 2007. Chania, Crete, Greece / ed. C.H. Skiadas. P. 112. URL: https://ami.nstu.ru/~headrd/seminar/publik_ html/LEMESHK0_ASMDA2007_2 .pdf (accessed: 18.12.2019).
Поступила в редакцию 17 февраля 2020 г.
Lemeshko B.Yu., Lemeshko S.B. (2020) ABOUT THE INFLUENCE OF ROUNDING ERRORS ON DISTRIBUTIONS OF STATISTICS OF THE GOODNESS-OF-FIT TESTS. Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitelnaja tehnika i informatika [Tomsk State University Journal of Control and Computer Science]. 53. pp. 47-60
DOI: 10.17223/19988605/53/5
Most of the existing tests are designed to checking statistical hypotheses regarding continuous random variables. This is a standard assumption, which determines the correct application of the relevant tests.
In real situations, this assumption is often violated, since any measurements are accompanied by some rounding error. Therefore, repeated observations appear in the samples, which should not be in the case of continuity of a random variable.
The presence of rounding errors can affect the results of applying statistical hypothesis testing criteria, and in some situations lead to incorrect conclusions.
Changing the properties of tests due to the influence of rounding errors does not exclude the possibility of their correct application. This work has two goals. First, to show how, depending on the magnitude of the rounding error A and on the volume n of samples, the distributions of statistics of various criteria for testing statistical hypotheses can change. Secondly, to give recommendations on how to proceed in order to ensure the correctness of the conclusion according to the applicable tests, if such changes cannot be ignored.
To ensure the ongoing research in the developed software system, the possibility of simulating the distributions of statistics of the corresponding tests under the conditions of violation of the standard assumption of continuity (for given A and n) is implemented. The number of simulation experiments in the study of the corresponding distributions of statistics and the calculation of estimates of the achieved significance level pvafae by statistical simulating methods, as a rule, was not less than N = 106.
Using statistical simulating methods, an example of a set of 30 tests (goodness-of-fit tests, special tests for checking normality and checking exponentiality) demonstrates how significantly the distribution of the statistics of the tests can change depending on the rounding error and for limited sample sizes n.
To ensure the correctness of the conclusions on the applicable tests for non-standard conditions is proposed applications (and implemented) interactive study of the real distribution of the test statistic (for given A and n) statistical simulating methods.
Two samples of volume n = 50 containing the measurement results with a rounding error of A = 0,2 a show the results of applying the considered set of tests to checking hypotheses about the belonging of the samples to the normal and exponential laws, respectively. A significant difference is shown between the estimates of pvalue obtained from the asymptotic and real distributions of statistics.
Keywords: goodness-of-fit tests; normality tests; exponential tests; statistics; distribution of statistics; rounding errors.
LEMESHKO Boris Yurievich (Doctor of Technical Sciences, Professor, Novosibirsk State Technical University, Russian Federation). E-mail: [email protected]
LEMESHKO Stanislav Borisovich (Candidate of Technical Sciences, Novosibirsk State Technical University, Russian Federation). E-mail: [email protected]
REFERENCES
1. Lemeshko, B.Yu., Lemeshko, S.B. & Semenova, M.A. (2018) To question of the statistical analysis of big data. Vestnik Tomskogo
gosudarstvennogo universiteta. Upravlenie vychislitelnaja tehnika i informatika - Tomsk State University Journal of Control and Computer Science. 44. pp. 40-49. DOI: 10.17223/19988605/44/5
2. Lemeshko, B., Lemeshko, S. & Semenova, M. (2019) Features of testing statistical hypotheses under big data analysis. Applied
Methods of Statistical Analysis. Statistical Computation and Simulation - AMSA'2019. Proceedings of the International Workshop. Novosibirsk, Russia, 18-20 September, 2019. Novosibirsk: NSTU. pp. 122-137.
3. Pearson, E.S., D'Agostino, R.B. & Bowman, K.O. (1977) Tests for departure from normality: Comparison of powers. Biometrika.
64. pp. 231-246. DOI: 10.1093/biomet/64.2.427-a
4. Tricker, A.R. (1990) The effect of rounding on the significance level of certain normal test statistics. Journal of Applied Statistics.
17(1). pp. 31-38. DOI: 10.1080/757582644
5. Tricker, A.R. (1990) The effect of rounding on the power level of certain normal test statistics. Journal of Applied Statistics. 17(2).
pp. 219-228. DOI: 10.1080/757582833
6. ISW - Software system for statistical analysis of one-dimensional observations. [Online] Available from:
https://ami.nstu.ru/~headrd/ISW.htm. (Accessed: 11th February 2020)
7. Lemeshko, B.Yu. (2014) Neparametricheskie kriterii soglasiya: rukovodstvopoprimeneniyu [Nonparametric goodness-of-fit tests.
Guide on the application]. Moscow: INFRA-M. DOI: 10.12737/11873
8. Lemeshko, B.Yu. (2015) Kriterii proverki otkloneniya raspredeleniya ot normal'nogo zakona: rukovodstvo po primeneniyu [Tests
for checking the deviation from normal distribution law. Guide on the application]. Moscow: INFRA-M. DOI: 10.12737/6086
9. Lemeshko, B.Yu. & Blinov, P.Yu. (2015) Kriterii proverki otkloneniya raspredeleniya ot ravnomernogo zakona: rukovodstvo po
primeneniyu [Tests for checking the deviation from uniform distribution law. Guide on the application]. Moscow: INFRA-M. DOI: 10.12737/11304
10. Lemeshko, B.Yu. (2017) Kriterii proverki gipotez ob odnorodnosti: rukovodstvo po primeneniyu [Tests for homogeneity. Guide on the application]. Moscow: INFRA-M. DOI: 10.12737/22368
11. Kolmogoroff, A.N. (1933) Sulla determinazione empirica di una legge di distribuzione. Giornale del Istituto Italiano degli Attuari. 4(1). pp. 83-91.
12. Bolshev, L.N. & Smirnov, N.V. (1983) Tablitsy matematicheskoy statistiki [Tables for Mathematical Statistics]. Moscow: Nauka.
13. Kuiper, N.H. (1960) Tests concerning random points on a circle. Proceedings of the Koninklijke Nederlandse Akademie van Wetenschappen. Series A. 63. pp. 38-47.
14. Watson, G.S. (1961) Goodness-of-fit tests on a circle. I. Biometrika. 48(1-2). pp. 109-114.
15. Watson, G.S. (1962) Goodness-of-fit tests on a circle. II. Biometrika. 49(1-2). pp. 57- 63.
16. Anderson, T.W. & Darling, D.A. (1954) A test of goodness of fit. Journal of the American Statistical Association. 29. pp. 765-769.
17. Anderson, T.W. & Darling, D.A. (1952) Asymptotic theory of certain "Goodness of fit" criteria based on stochastic processes. The Annals of Mathematical Statistics. 23. pp. 193-212. DOI: 10.1214/aoms/1177729437
18. Zhang, J. (2001) Powerful goodness-of-fit and multi-sample tests. PhD Thesis. York University, Toronto. [Online] Available from: http://www.collectionscanada.gc.ca/obj/s4/f2/dsk3/ftp05/NQ66371.pdf (Accessed: 3rd December 2019).
19. Nikulin, M.S. (1973a) Kriteriy khi-kvadrat dlya nepreryvnykh raspredeleniy s parametrami sdviga i masshtaba [Chi-square test for continuous distributions with location and scale parameters]. Teoriya veroyatnostey i eeprimenenie. 18(3). pp. 583-591.
20. Nikulin, M.S. (1973b) O kriterii khi-kvadrat dlya nepreryvnykh raspredeleniy [About the Chi-square test for continuous distributions]. Teoriya veroyatnostey i ee primenenie. 18(3). pp. 675-676.
21. Rao, K.C. & Robson, D.S. (1974) A chi-squared statistic for goodness-of-fit tests within the exponential family. Communications in Statistics - Theory and Methods. 3. pp. 1139-1153. DOI: 10.1080/03610927408827216
22. Lemeshko, B.Yu., Lemeshko, S.B., Postovalov, S.N. & Chimitova, E.V. (2011) Statistical Data Analysis, Simulation and Study of Probability Regularities. Computer Approach. Novosibirsk: Novosibirsk State Technical University.
23. Noughabi, H.A & Arghami, N.R. (2013) General treatment of goodness of fit tests based on Kullback-Leibler information. Journal of Statistical Computation and Simulation. 83. pp. 1556-1569. DOI: 10.1080/00949655.2012.667100
24. Noughabi, H.A. (2019) A new estimator of Kullback-Leibler information and its application in goodness of fit tests. Journal of Statistical Computation and Simulation. 89(10). pp. 1914-1934. DOI: 10.1080/01621459.1981.10477750
25. Frosini, B.V. (1978) A survey of a class of goodness-of-fit statistics. Metron. 36(1-2). pp. 3-49.
26. Epps, T.W. & Pulley, L.B. (1983) A test for normality based on the empirical characteristic function. Biometrika. 70. pp. 723726. DOI: 10.1093/biomet/70.3.723
27. Hegazy, Y.A.S. & Green, J.R. (1975) Some new goodness-of-fit tests using order statistics. Journal of the Royal Statistical Society: Series C (Applied Statistics). 24(3). pp. 299-308.
EM. HeMewKO, C.E. HeMewKO
28. David, H.A., Hartley, H.O. & Pearson, E.S. (1964) The distribution of the ratio? In a single normal sample, of range to standard deviation. Biometrika. 512(3-4). pp. 484-487. DOI: 10.1093/biomet/41.3-4.482
29. Geary, R.C. (1937) Testing for Normality. Biometrika. 34. pp. 209-242. DOI: 10.1093/biomet/34.3-4.209
30. D'Agostino, R.B. (1970) Transformation to normality of the null distribution of g1. Biometrika. 57. pp. 679-681. DOI: 10.1093/biomet/57.3.679
31. Baringhaus, L. & Henze, N. (1991) A class of consistent tests for exponentiality based on the empirical Laplace transform. Annals of the Institute of Statistical Mathematics. 43(3). pp. 551-564. DOI: 10.1007/BF00053372
32. Mimoto, N. & Zitikis, R. (2008) The Atkinson index, the Moran statistic, and testing exponentiality. Journal of the Japan Statistical Society. 38(2). pp. 187-205. DOI: 10.14490/jjss.38.187
33. Frosini, B.V. (1987) On the distribution and power of a goodness-of-fit statistic with parametric and nonparametric application. In: Reverz, P., Sarkadi, K. & Sen, P.K. (eds) Goodness-of-fit. Amdstedam; Oxford; New York: North-Holland. pp. 133-154.
34. Henze, N. & Meintanis, S.G. (2002) Tests of fit for exponentiality based on the empirifcal Laplace transform. Statistics: A Journal of Theoretical and Applied Statistics. 36(2). pp. 147-161. DOI: 10.1080/02331880212042
35. Henze, N. & Meintanis, S.G. (2005) Recent and classical tests for exponentiality: a partial review with comparisons. Metrika. 61. pp. 29-45. DOI: 10.1007/s001840400322
36. Henze, N. (1993) A new flexible class of omnibus tests for exponentiality. Communications in Statistics - Theory and Methods. 22(1). pp. 115-133. DOI: 10.1080/03610929308831009
37. Klar, B. (2001) Goodness-of-fit tests for the exponential and the normal distribution based on the integrated distribution function. Annals of the Institute of Statistical Mathematics. 53(2). pp. 338-353. DOI: 10.1023/A:1012422823063
38. Kimber, A.C. (1985) Tests for exponential. Weibull and Gumbel distribution based on the stabilized probability plot. Biometrika. 72(3). pp. 661-663. DOI: 10.1093/biomet/72.3.661
39. Deshpande, J.V. (1983) A class of tests for exponentiality against increasing failure rate average alternatives. Biometrika. 70(2). pp. 514-518. DOI: 10.1080/03610929208830930
40. Lemeshko, B.Yu. Chimitova, E.V. & Kolesnikov, S.S. (2007) Nonparametric goodness-of-fit tests for discrete, grouped or censored data. In: Skiadas, Ch.H. (eds) XIIth Applied Stochastic Models and Data Analysis (ASMDA 2007) International Conference. Chania, Crete, Greece. pp. 112. [Online] Available from: https://ami.nstu.ru/~headrd/seminar/publik_html/LEMESHKO_ ASMDA2007_2.pdf (Accessed: 15th February 2020).