УДК 330.322.16:629.78
01.00.00 Физико-математические науки
СОВРЕМЕННОЕ СОСТОЯНИЕ НЕПАРАМЕТРИЧЕСКОЙ СТАТИСТИКИ
Орлов Александр Иванович д.э.н., д.т.н., к.ф.-м.н., профессор РИНЦ SPIN-код: 4342-4994
Московский государственный технический университет им. Н.Э. Баумана, Россия, 105005, Москва, 2-я Бауманская ул., 5, pгof-oгlov@mail.ги
Непараметрическая статистика - одна из пяти точек роста прикладной математической статистики. Несмотря на большое число публикаций по конкретным вопросам непараметрической статистики, внутренняя структура этого научного направления оставалась непроявленной. Цель настоящей статьи - на основе сложившегося в практике научной деятельности определения непараметрической статистики рассмотреть ее деление на области и систематизировать исследования по непараметрическим статистическим методам. Непараметрическая статистика, позволяет делать статистические выводы, в частности, оценивать характеристики распределения и проверять статистические гипотезы, без, как правило, слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. Например, широко распространена вера в то, что статистические данные часто подчиняются нормальному распределению. Между тем анализ конкретных результатов наблюдений, в частности, погрешностей измерений, приводит всегда к одному и тому же выводу - в подавляющем большинстве случаев реальные распределения существенно отличаются от нормальных. Некритическое использование гипотезы нормальности часто приводит к значительным ошибкам, например, при отбраковке резко выделяющихся результатов наблюдений (выбросов), при статистическом контроле качества и в других случаях. Поэтому целесообразно использовать непараметрические методы, в которых на функции распределения результатов наблюдений наложены лишь весьма слабые требования. Обычно предполагается лишь их непрерывность. На основе обобщения многочисленных исследований можно констатировать, что к настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами. Являются несостоятельными встречающиеся в литературе заявления о том, что непараметрические методы имеют меньшую мощность или требуют большего объема выборки, чем параметрические. При этом в
UDC 330.322.16:629.78
Physics and mathematical sciences
CURRENT STATUS OF NONPARAMETRIC STATISTICS
Orlov Alexander Ivanovich
Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,
professor
Bauman Moscow State Technical University, Moscow, Russia
Nonparametric statistics is one of the five points of growth of applied mathematical statistics. Despite the large number of publications on specific issues of nonparametric statistics, the internal structure of this research direction has remained undeveloped. The purpose of this article is to consider its division into regions based on the existing practice of scientific activity determination of nonparametric statistics and classify investigations on nonparametric statistical methods. Nonparametric statistics allows to make statistical inference, in particular, to estimate the characteristics of the distribution and testing statistical hypotheses without, as a rule, weakly proven assumptions about the distribution function of samples included in a particular parametric family. For example, the widespread belief that the statistical data are often have the normal distribution. Meanwhile, analysis of results of observations, in particular, measurement errors, always leads to the same conclusion - in most cases the actual distribution significantly different from normal. Uncritical use of the hypothesis of normality often leads to significant errors, in areas such as rejection of outlying observation results (emissions), the statistical quality control, and in other cases. Therefore, it is advisable to use nonparametric methods, in which the distribution functions of the results of observations are imposed only weak requirements. It is usually assumed only their continuity. On the basis of generalization of numerous studies it can be stated that to date, using nonparametric methods can solve almost the same number of tasks that previously used parametric methods. Certain statements in the literature are incorrect that nonparametric methods have less power, or require larger sample sizes than parametric methods. Note that in the nonparametric statistics, as in mathematical statistics in general, there remain a number of unresolved problems
непараметрической статистике, как и в математической статистике в целом, остается ряд нерешенных задач
Ключевые слова: МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, ПРИКЛАДНАЯ СТАТИСТИКА, СТАТИСТИЧЕСКИЕ МЕТОДЫ, НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА, ОЦЕНИВАНИЕ, ПРОВЕРКА ГИПОТЕЗ, РАНГОВЫЕ КРИТЕРИИ, СТАТИСТИКА НЕЧИСЛОВЫХ ДАННЫХ
Keywords: MATHEMATICAL STATISTICS, APPLIED STATISTICS, STATISTICAL METHODS, NONPARAMETRIC STATISTICS, ESTIMATION, HYPOTHESIS TESTING, RANK TESTS, STATISTICS OF NON-NUMERIC DATA
1. Введение
Непараметрическая статистика - одна из пяти точек роста прикладной математической статистики, выделенных в статьях [1, 2, 3]. Она занимает важное место среди математических методов исследования. Однако, несмотря на большое число публикаций по конкретным вопросам непараметрической статистики, внутренняя структура этого научного направления оставалась до сих пор непроявленной. Цель настоящей статьи - на основе сложившегося в практике научной деятельности определения непараметрической статистики рассмотреть ее деление на области и систематизировать публикации по непараметрическим статистическим методам.
Непараметрика, или непараметрическая статистика, позволяет делать статистические выводы, в частности, оценивать характеристики распределения и проверять статистические гипотезы, без, как правило, слабо обоснованных предположений о том, что функция распределения элементов выборки входит в то или иное параметрическое семейство. Например, широко распространена вера в то, что статистические данные часто подчиняются нормальному распределению. Как говорят, математики думают, что это - экспериментальный факт, установленный в прикладных исследованиях, в то время как прикладники уверены, что математики доказали нормальность результатов наблюдений. Между тем анализ конкретных результатов наблюдений, в частности, погрешностей измерений, приводит всегда к одному и тому же выводу - в подавляющем
большинстве случаев реальные распределения существенно отличаются от нормальных [4]. Некритическое использование гипотезы нормальности часто приводит к значительным ошибкам, например, при отбраковке резко выделяющихся результатов наблюдений (выбросов) [5], при статистическом контроле качества и в других случаях. Поэтому целесообразно использовать непараметрические методы, в которых на функции распределения результатов наблюдений наложены лишь весьма слабые требования. Обычно предполагается лишь их непрерывность. На основе обобщения многочисленных исследований можно констатировать, что к настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами. Являются несостоятельными встречающиеся в литературе заявления о том, что непараметрические методы имеют меньшую мощность или требуют большего объема выборки, чем параметрические. При этом в непараметрике, как и в математической статистике в целом, шире - во всей обширной области математических методов исследования, остается ряд нерешенных задач, некоторые из которых сформулированы в статье [6].
2. Параметрические и непараметрические гипотезы
Начнем обсуждение понятия «непараметрическая статистика» с постановок задач проверки статистических гипотез, следуя подходу, зафиксированному в справочнике [7]. Уточнение исходных понятий необходимо, поскольку в литературе распространены неполные или даже неверные формулировки.
Статистическая гипотеза - любое предположение, касающееся неизвестного распределения случайных величин (элементов). Приведем формулировки нескольких статистических гипотез:
1. Результаты наблюдений имеют нормальное распределение с нулевым математическим ожиданием.
2. Результаты наблюдений имеют функцию стандартного нормального распределения (обычно обозначается А(0,1)) c нулевым математическим ожиданием и единичной дисперсией.
3. Результаты наблюдений имеют нормальное распределение.
4. Результаты наблюдений в двух независимых выборках имеют одно и то же нормальное распределение.
5. Результаты наблюдений в двух независимых выборках имеют одно и то же распределение.
Различают нулевую и альтернативную гипотезы. Нулевая гипотеза -гипотеза, подлежащая проверке. Альтернативная гипотеза - каждая допустимая гипотеза, отличная от нулевой. Нулевую гипотезу обозначают Н0, альтернативную - Н1 (от Hypothesis - «гипотеза» (англ.)). Выбор тех или иных нулевых или альтернативных гипотез определяется стоящими перед менеджером, экономистом, инженером, исследователем прикладными задачами. Рассмотрим примеры.
Пример 1. Пусть нулевая гипотеза - гипотеза 2 из приведенного выше списка, а альтернативная - гипотеза 1. Сказанное означает, что реальная ситуация описывается вероятностной моделью, согласно которой результаты наблюдений рассматриваются как реализации независимых одинаково распределенных случайных величин с функцией распределения N(0,o), где параметр о (среднее квадратичное отклонение) неизвестен статистику. В рамках этой модели нулевую гипотезу записывают так:
Н0: о = 1,
а альтернативную так:
Н1: о ф 1.
Пример 2. Пусть нулевая гипотеза - по-прежнему гипотеза 2 из приведенного выше списка, а альтернативная - гипотеза 3 из того же
списка. Тогда в вероятностной модели управленческой, экономической или производственной ситуации предполагается, что результаты наблюдений образуют выборку из нормального распределения Ы(т, о) при некоторых значениях т и о. Гипотезы записываются так:
(т.е. либо т Ф 0, либо о Ф 1, либо и т Ф 0, и о Ф 1).
Пример 3. Пусть Н0 - гипотеза 1 из приведенного выше списка, а Н1 - гипотеза 3 из того же списка. Тогда вероятностная модель - та же, что в примере 2,
Пример 4. Пусть Н0 - гипотеза 2 из приведенного выше списка, а согласно Н\ результаты наблюдений имеют функцию распределения F(x), не совпадающую с функцией стандартного нормального распределения Ф(х). Тогда
Н0: Р(х) = Ф(х) при всех х (записывается как тождество Р(х) = Ф(х));
Н: Дх0) Ф Ф(х0) при некотором х0 (т.е. неверно, что Р(х) = Ф(х)).
Примечание. Здесь символ "=" - знак тождественного совпадения функций (т.е. совпадения при всех возможных значениях аргумента х).
Пример 5. Пусть Н0 - гипотеза 3 из приведенного выше списка, а согласно Н\ результаты наблюдений имеют функцию распределения F(x), не являющуюся нормальной. Тогда
Н0: m = 0, о = 1 (оба параметра принимают фиксированные значения);
Н1: m Ф 0 и/или о Ф 1
Н0: m = 0, о произвольно; Н1: m Ф 0, о произвольно.
при некоторых т, о; Н1: для любых т, о найдется х0 = х0(т, о) такое, что
F(x0)
Пример 6. Пусть Н0 - гипотеза 4 из приведенного выше списка, согласно вероятностной модели две выборки извлечены из совокупностей с функциями распределения Щх) и С(х), являющихся нормальными с параметрами т1, 01 и т2, о2 соответственно, а Н1 - отрицание Н0. Тогда
Пример 7. Пусть в условиях примера 6 дополнительно известно, что о1 = о2. Тогда
Пример 8. Пусть Н0 - гипотеза 5 из приведенного выше списка, согласно вероятностной модели две выборки извлечены из совокупностей с функциями распределения Щх) и 6(х) соответственно, а Н1 - отрицание Н0. Тогда
Н0: Щх) = С(х), где Щх) - произвольная функция распределения;
Н1: Щ(х) и С(х) - произвольные функции распределения, причем Щ(х) Ф С(х) при некоторых х.
Пример 9. Пусть в условиях примера 7 дополнительно предполагается, что функции распределения Щ(х) и С(х) отличаются только сдвигом, т.е. С(х) = Щх - а) при некотором а. Тогда
Н0: Щх) = С(х), где Щх) - произвольная функция распределения;
Н1: С(х) = Щх - а), а Ф 0, где Щх) - произвольная функция распределения.
Пример 10. Пусть в условиях примера 4 дополнительно известно, что согласно вероятностной модели ситуации Щ(х) - функция нормального распределения с единичной дисперсией, т.е. имеет вид Ы(т, 1). Тогда
Н0: m1 = m2, 01 = o2, причем m1 и oi произвольны; Hi! m1 Ф m2 и/или o1 Ф o2.
Н0: m1 = m2, o > 0, причем m1 и o произвольны; H1: m1 Ф m2, o > 0.
H0: m = 0 (т.е. Щх) = Ф(х) при всех х, Щх) = Ф(х)); Н1: m Ф 0 (т.е. неверно, что Щх) = Ф(х)).
Пример 11. При статистическом регулировании технологических, экономических, управленческих или иных процессов [8, 9] рассматривают выборку, извлеченную из совокупности с нормальным распределением и известной дисперсией, и гипотезы
Но: т = то, Н1: т = т1,
где значение параметра т = т0 соответствует налаженному ходу процесса, а переход к т = т1 свидетельствует о разладке.
Пример 12. При статистическом приемочном контроле [10 - 12] число дефектных единиц продукции в выборке подчиняется гипергеометрическому распределению, неизвестным параметром является p = D/N - уровень дефектности, где N - объем партии продукции, D -общее число дефектных единиц продукции в партии. Используемые в нормативно-технической и коммерческой документации (стандартах, договорах на поставку и др.) планы контроля часто нацелены на проверку гипотезы
Н0: p < AQL против альтернативной гипотезы
Н1: p > LQ,
где AQL - приемочный уровень дефектности, LQ - браковочный уровень дефектности (очевидно, что AQL < LQ).
Пример 13. В качестве показателей стабильности технологического, экономического, управленческого или иного процесса используют ряд характеристик распределений контролируемых показателей, в частности, коэффициент вариации v = o/M(X). Требуется проверить нулевую гипотезу
Н0: v < V0
при альтернативной гипотезе
Н1: v > v0,
где v0 - некоторое заранее заданное граничное значение. http://ej .kubagro.ru/2015/02/pdf/017.pdf
Пример 14. Пусть вероятностная модель двух выборок - та же, что в примере 8, математические ожидания результатов наблюдений в первой и второй выборках обозначим М(Х) и М(У) соответственно. В ряде ситуаций проверяют нулевую гипотезу
Н0: М(Х) = М(У) против альтернативной гипотезы
Н1: М(Х) фМ(У).
Пример 15. В статье [13] отмечалось большое значение в математической статистике функций распределения, симметричных относительно 0. При проверке симметричности
Н0: Р(-х) = 1 - Р(х) при всех х, в остальном ^ произвольна;
Н1: Р(-х0) Ф 1 - Р(х0) при некотором хз, в остальном ^ произвольна.
В вероятностно-статистических методах принятия решений используются и многие другие постановки задач проверки статистических гипотез.
Конкретная задача проверки статистической гипотезы полностью описана, если заданы нулевая и альтернативная гипотезы. Выбор метода проверки статистической гипотезы, свойства и характеристики методов определяются как нулевой, так и альтернативной гипотезами. Для проверки одной и той же нулевой гипотезы при различных альтернативных гипотезах следует использовать, вообще говоря, различные методы. Так, в примерах 4 и 10 нулевая гипотеза одна и та же, а альтернативные - различны. Поэтому в условиях примера 4 следует применять методы проверки согласия с фиксированным распределением (например, критерии Колмогорова или омега-квадрат), а в условиях примера 10 - критерий Стьюдента. Если в условиях примера 4 использовать критерий Стьюдента, то он не будет решать поставленных задач (не сможет обнаружить все варианты альтернативных гипотез). Если в условиях примера 10 использовать критерий согласия Колмогорова, то
он, напротив, будет решать поставленные задачи, хотя, возможно, и хуже, чем специально приспособленный для этого случая критерий Стьюдента.
При обработке реальных данных большое значение имеет правильный выбор гипотез Н0 и Н1. Принимаемые предположения, например, нормальность распределения, должны быть тщательно обоснованы, в частности, статистическими методами. Отметим, что в подавляющем большинстве конкретных прикладных постановок распределение результатов наблюдений отлично от нормального [4].
Часто возникает ситуация, когда вид нулевой гипотезы вытекает из постановки прикладной задачи, а вид альтернативной гипотезы не ясен. В таких случаях следует рассматривать альтернативную гипотезу наиболее общего вида и использовать методы, решающие поставленную задачу при всех возможных Н1. В частности, при проверке гипотезы 2 (из приведенного выше списка) как нулевой следует в качестве альтернативной гипотезы использовать Н1 из примера 4, а не из примера 10, если нет специальных обоснований нормальности распределения результатов наблюдений при альтернативной гипотезе.
Статистические гипотезы разделяют на два класса - параметрические и непараметрические. Дадим определения этим терминам. Предположение, которое касается неизвестного значения параметра распределения, входящего в некоторое параметрическое семейство распределений, называется параметрической гипотезой (отметим, что параметр может быть и многомерным). Предположение, при котором вид распределения неизвестен (т.е. не предполагается, что оно входит в некоторое априори заданное параметрическое семейство распределений), называется непараметрической гипотезой. Таким образом, если распределение Р(х) результатов наблюдений в выборке согласно принятой вероятностной модели входит в некоторое параметрическое семейство {Дх,0), 0е ©}, т.е.
Дх) = Дл;00) при некотором 00е ©, то рассматриваемая гипотеза -параметрическая, в противном случае - непараметрическая.
Если и Н0 и Н1 - параметрические гипотезы, то задача проверки статистической гипотезы - параметрическая. Если хотя бы одна из гипотез Н0 и Н1 - непараметрическая, то задача проверки статистической гипотезы - непараметрическая. Другими словами, если вероятностная модель ситуации - параметрическая, т.е. полностью описывается в терминах того или иного параметрического семейства распределений вероятностей, то и задача проверки статистической гипотезы -параметрическая. Если же вероятностная модель ситуации -непараметрическая, т.е. ее нельзя полностью описать в терминах какого-либо параметрического семейства распределений вероятностей, то и задача проверки статистической гипотезы - непараметрическая. В примерах 1 - 3, 6, 7, 10 - 12 даны постановки параметрических задач проверки гипотез, а в примерах 4, 5, 8, 9, 13 - 15 - непараметрических. Непараметрические задачи проверки гипотез делятся на два класса: в одном из них речь идет о проверке утверждений, касающихся функций распределения (примеры 4, 5, 8, 9, 15), во втором - о проверке утверждений, касающихся характеристик распределений (примеры 13, 14).
Статистическая гипотеза называется простой, если она однозначно задает распределение результатов наблюдений, вошедших в выборку. В противном случае статистическая гипотеза называется сложной. Гипотеза 2 из приведенного выше списка, нулевые гипотезы в примерах 1, 2, 4, 10, нулевая и альтернативная гипотезы в примере 11 - простые, все остальные упомянутые выше гипотезы - сложные.
Однозначно определенный способ проверки статистических гипотез называется статистическим критерием. Статистический критерий строится с помощью статистики и(х1, х2, .., хп) - функции от результатов наблюдений х1, х2, ..., х„. В пространстве значений статистики и выделяют
критическую область ¥, т.е. область со следующим свойством: если значения применяемой статистики принадлежат данной области, то отклоняют (иногда говорят - отвергают) нулевую гипотезу, в противном случае - не отвергают (т.е. принимают).
Статистику и, используемую при построении определенного статистического критерия, называют статистикой этого критерия. Например, в задаче проверки статистической гипотезы, приведенной в примере 4, применяют критерий Колмогорова, основанный на статистике
Вп =Гп вир! Щ (х) - Щ0( х)|
х
При этом Бп называют статистикой критерия Колмогорова.
Частным случаем статистики и является векторзначная функция результатов наблюдений и0(х1, х2, ..., хп) = (х1, х2, ..., хп), значения которой - набор результатов наблюдений. Если х{ - числа, то и0 - набор п чисел, т.е. точка п-мерного пространства. Ясно, что статистика критерия и является функцией от и0, т.е. и = Д(и0). Поэтому можно считать, что ¥ -область в том же п-мерном пространстве, нулевая гипотеза отвергается, если (х1, х2, ..., хп)е ¥, и принимается в противном случае.
В вероятностно-статистических методах обработки данных и принятия решений статистические критерии, как правило, основаны на статистиках и, принимающих числовые значения, и критические области имеют вид
¥ = (и(хь х2, ..., хп) > С}, (1)
где С - некоторые числа.
Статистические критерии делятся на параметрические и непараметрические: параметрические критерии используются в параметрических задачах проверки статистических гипотез, а непараметрические - в непараметрических задачах.
При проверке статистической гипотезы возможны ошибки. Есть два рода ошибок. Ошибка первого рода заключается в том, что отвергают нулевую гипотезу, в то время как в действительности эта гипотеза верна. Ошибка второго рода состоит в том, что принимают нулевую гипотезу, в то время как в действительности эта гипотеза неверна.
Вероятность ошибки первого рода называется уровнем значимости и обозначается а. Таким образом, а = P(Ue ¥ | H0}, т.е. уровень значимости а - это вероятность события (U^ ¥}, вычисленная в предположении, что верна нулевая гипотеза Н0.
Уровень значимости однозначно определен, если Н0 - простая гипотеза. Если же Н0 - сложная гипотеза, то уровень значимости, вообще говоря, зависит от функции распределения результатов наблюдений, удовлетворяющей Н0. Статистику критерия U обычно строят так, чтобы вероятность события (Uе ¥} не зависела от того, какое именно распределение (из удовлетворяющих нулевой гипотезе Н0) имеют результаты наблюдений. Для статистик критерия U общего вида под уровнем значимости понимают максимально возможную ошибку первого рода. Максимум (точнее, супремум) берется по всем возможным распределениям, удовлетворяющим нулевой гипотезе Н0, т.е. а = sup PU ¥ | H0}.
Если критическая область имеет вид, указанный в формуле (1), то
P(U > С | H0} = а. (2) Если С задано, то из последнего соотношения определяют а. Часто поступают по иному - задавая а (обычно а = 0,05, иногда а = 0,01 или а = 0,1, другие значения а используются гораздо реже), определяют С из уравнения (2), обозначая его Са, и используют критическую область ¥ = (U > Са} с заданным уровнем значимости а.
Вероятность ошибки второго рода есть P(U^ ¥ | H1}. Обычно используют не эту вероятность, а ее дополнение до 1, т.е. P(U^ ¥ | H1} = 1
- P{U£ ¥ | H1}. Эта величина носит название мощности критерия. Итак, мощность критерия - это вероятность того, что нулевая гипотеза будет отвергнута, когда альтернативная гипотеза верна.
Понятия уровня значимости и мощности критерия объединяются в понятии функции мощности критерия - функции, определяющей вероятность того, что нулевая гипотеза будет отвергнута. Функция мощности зависит от критической области ¥ и действительного распределения результатов наблюдений. В параметрической задаче проверки гипотез распределение результатов наблюдений задается параметром 0. В этом случае функция мощности обозначается М(¥, 0) и зависит от критической области ¥ и действительного значения исследуемого параметра 0. Если
Но'. 0 = 0о, Нь 0 = 01,
то
М(¥, 0о) = а, М(¥, 01) = 1 - в,
где а - вероятность ошибки первого рода, в - вероятность ошибки второго рода. В статистическом приемочном контроле а - риск изготовителя, в -риск потребителя. При статистическом регулировании технологического процесса а - риск излишней наладки, в - риск незамеченной разладки.
Функция мощности М(¥, 0) в случае одномерного параметра 0 обычно достигает минимума, равного а, при 0 = 0о, монотонно возрастает при удалении от 0о и приближается к 1 при |0 - 0о| —*
В ряде вероятностно-статистических методов принятия решений используется оперативная характеристика L(¥, 0) - вероятность принятия нулевой гипотезы в зависимости от критической области ¥ и действительного значения исследуемого параметра 0. Ясно, что
L(¥, 0) = 1 - М(¥, 0).
Основной характеристикой статистического критерия является функция мощности. Для многих задач проверки статистических гипотез разработан не один статистический критерий, а целый ряд. Чтобы выбрать из них определенный критерий для использования в конкретной практической ситуации, проводят сравнение критериев по различным показателям качества [10, приложение 3], прежде всего с помощью их функций мощности. В качестве примера рассмотрим лишь два показателя качества критерия проверки статистической гипотезы - состоятельность и несмещенность.
Пусть объем выборки n растет, а Un и ¥n - статистики критерия и критические области соответственно. Критерий называется
состоятельным, если
lim P{Un eYn | HJ = 1,
т.е. вероятность отвергнуть нулевую гипотезу стремится к 1, если верна альтернативная гипотеза.
Статистический критерий называется несмещенным, если для любого 00, удовлетворяющего Н0, и любого 01 , удовлетворяющего Н1, справедливо неравенство
PU¥ | 00} < P{U^¥ | 01}, т.е. при справедливости Н0 вероятность отвергнуть Н0 меньше, чем при справедливости Н1.
При наличии нескольких статистических критериев в одной и той же задаче проверки статистических гипотез следует использовать состоятельные и несмещенные критерии. Предлагаемый из каких-либо соображений критерий, предназначенный для определенной задачи проверки статистических гипотез, подлежит проверке - является ли он состоятельным и несмещенным. Можно поставить вопрос иначе: для какой задачи проверки статистических гипотез предназначен определенный критерий, т.е. для какой задачи он является состоятельным?
3. Место непараметрической статистики в истории прикладной статистики
Типовые примеры раннего этапа применения статистических методов описаны в Ветхом Завете (см., например, Книгу Чисел). Там, в частности, описана перепись военнообязанных - подсчет числа воинов в различных племенах. С математической точки зрения дело сводилось к подсчету числа попаданий значений наблюдаемых признаков в определенные градации [14].
В дальнейшем результаты обработки статистических данных стали представлять в виде таблиц и диаграмм, как это и сейчас делают органы государственной статистики. Надо признать, что по сравнению с Ветхим Заветом есть прогресс — в Библии не было таблиц и диаграмм. Однако нет продвижения по сравнению с работами российских статистиков конца XIX — начала XX вв.
Сразу после возникновения теории вероятностей (Паскаль, Ферма, XVII в.) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от вероятности рождения девочки (и от 0,5), анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и т.д. Имеется достаточно много публикаций по истории теории вероятностей с описанием раннего этапа развития статистических методов исследований; к лучшим из них относится очерк [15].
В 1794 г. К. Гаусс разработал метод наименьших квадратов, один из наиболее популярных ныне статистических методов, и применил его при расчете орбиты малой планеты (астероида) Церера — для борьбы с ошибками астрономических наблюдений [16]. В XIX веке заметный вклад в развитие практической статистики внес бельгиец А. Кетле, показавший
на основе анализа большого числа реальных данных устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей [17]. Интересно, что основные идеи статистического приемочного контроля и сертификации продукции обсуждались академиком Петербургской Академии наук М.В. Остроградским (18011862) и применялись в российской армии ещё в середине Х1Х в. [15]. Статистические методы управления качеством и сертификации продукции сейчас весьма актуальны [10].
Отсчет современного этапа развития статистических методов можно начать с 1900 г., когда англичанин К. Пирсон основал журнал «Biometгika». Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное (гауссово) распределение. Использовались экспоненциальные и логарифмически нормальные распределения, распределения Вейбулла - Гнеденко, гамма-распределения, биномиальное и гипергеометрическое распределения, распределение Пуассона и др. Для проверки гипотез применялись критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.
Разработанную в первой трети ХХ в. теорию статистического анализа данных называют параметрической статистикой, поскольку ее основной объект изучения — это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если
вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т.д. Однако подобных моделей нет в подавляющем большинстве реальных ситуаций, и приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств — чисто формальная операция. Именно из таких соображений критиковал параметрическую статистику академик АН СССР С.Н. Бернштейн в 1927 г. в своем докладе на Всероссийском съезде математиков [18].
В первой трети ХХ в., одновременно с параметрической статистикой, в работах Спирмена и Кендалла появились первые непараметрические методы, основанные на коэффициентах ранговой корреляции, носящих ныне имена этих статистиков. Но непараметрика, не делающая нереалистических предположений о том, что функции распределения результатов наблюдений принадлежат тем или иным параметрическим семействам распределений, стала заметной частью статистики лишь со второй трети ХХ века. В 30-е годы появились работы А.Н. Колмогорова и Н.В. Смирнова, предложивших и изучивших статистические критерии, носящие в настоящее время их имена. Эти критерии основаны на использовании так называемого эмпирического процесса. (Как известно, эмпирический процесс - это разность между эмпирической и теоретической функциями распределения, умноженная на квадратный корень из объема выборки.) В работе А.Н. Колмогорова 1933 г. изучено предельное распределение супремума модуля эмпирического процесса, называемого сейчас критерием Колмогорова. Затем Н.В. Смирнов исследовал супремум и инфимум эмпирического процесса, а также интеграл (по теоретической функции распределения) квадрата эмпирического процесса. Следует отметить, что встречающееся иногда в
литературе словосочетание «критерий Колмогорова-Смирнова» некорректно, поскольку эти два статистика никогда не печатались вместе и не изучали один и тот же критерий схожими методами. Корректно сочетание «критерий типа Колмогорова-Смирнова», применяемое для обозначения критериев, основанных на использовании супремума функций от эмпирических процессов [19 - 20].
После Второй мировой войны развитие непараметрической статистики пошло быстрыми темпами. Большую роль сыграли работы американского статистика Ф. Вилкоксона и его школы. Итог таков - к настоящему времени с помощью непараметрических методов можно решать практически тот же круг статистических задач, что и с помощью параметрических. В нашей стране непараметрические методы получили достаточно большую известность после выхода в 1965 г. первого издания сборника статистических таблиц Л.Н. Большева и Н.В. Смирнова [21], содержащего подробные таблицы для основных непараметрических критериев. Современному подходу к изучению предельного распределения непараметрических статистик посвящена работа [22].
Наше представление об основных этапах развития прикладной математической статистики представлено в табл.1. Названия этапов даны по впервые разработанным подходам. Вновь появляющиеся этапы не вытесняют полностью статистические методы, разработанные на предыдущих. В настоящее время активно используются методы всех четырех этапов.
Таблица 1. Основные этапы развития прикладной математической
статистики
№ Этапы Характерные черты Годы
1 Описательная статистика Тексты, таблицы, графики. Отдельные расчетные приемы (МНК) До 1900
2 Параметрическая статистика Модели параметрических семейств распределений - нормальных, гамма и др. Теория оценивания параметров и проверки гипотез 1900 -1933
3 Непараметрическая статистика Произвольные непрерывные распределения. Непараметрические методы оценивания и проверки гипотез 1933 -1979
4 Нечисловая статистика Выборка - из элементов произвольных пространств. Использование показателей различия и расстояний С 1979
В табл. 1 исходим из деления прикладной математической статистики на четыре области (табл.2). Статистику нечисловых данных (статистику объектов нечисловой природы, нечисловую статистику), ставшую знаменем современного четвертого этапа развития статистических методов (после непараметрической статистики), не рассматриваем в настоящей статье. Этой области прикладной математической статистики посвящено достаточно много публикаций, в том числе монографий [23, 24] и обзоров [25, 26].
Таблица 2. Области прикладной математической статистики
№ Вид статистических данных Область прикладной статистики
1 Числа Статистика (случайных) величин
2 Конечномерные вектора Многомерный статистический анализ
3 Функции Статистика случайных процессов и временных рядов
4 Объекты нечисловой природы Статистика нечисловых данных
4. Три основные области непараметрической статистики
Исходя из практики статистического анализа данных, опишем структуру непараметрической статистики, выделив основные ее области. Их, по нашему мнению, три:
- область на стыке параметрических и непараметрических методов;
- ранговые статистические методы;
- непараметрические оценки функций, прежде всего плотности распределения, регрессионной зависимости, а также статистик, используемых в теории классификации.
4.1. Сопоставление параметрических и непараметрических методов анализа данных. Рассмотрим эти области. Первая из них относится прежде всего к статистике величин (см. табл. 2), поскольку обсуждаются различные семейства распределений случайных величин, в то время как для случайных векторов широко известно лишь одно параметрическое семейство - многомерных нормальных распределений.
Многие алгоритмы анализа данных рассматривают как в параметрической, так и в непараметрической статистике. Например, выборочное среднее арифметическое и выборочная дисперсия являются оценками максимального правдоподобия (т.е. в определенном смысле
наилучшими) для математического ожидания и дисперсии соответственно, если результаты наблюдения - выборка из нормального распределения. В непараметрической постановке они являются состоятельными оценками математического ожидания и дисперсии. Однако не всегда наилучшими -для оценивания центра распределения в ряде ситуаций предпочтительнее медиана [27]. Непараметрические и параметрические оценки характеристик распределения сопоставлены в статье [28].
Метод моментов проверки согласия с параметрическим семейством распределений [29], например, с нормальным семейством с помощью критериев асимметрии и эксцесса, основан на асимптотической нормальности выборочных моментов для выборок из произвольных распределений. Разработано много критериев согласия [30]. Однако достаточно достоверно отличить нормальное распределение от распределения другого типа можно лишь по выборкам, объем которых -сотни [31] или даже тысячи [23]. Часто критерии согласия применяются с ошибками [7, 20, 32]. Констатируем, что в наиболее распространенном случае, когда объем выборки - не более нескольких десятков результатов измерений (наблюдений, испытаний, анализов, опытов), невозможно обосновать выбор определенного распределения из того или иного параметрического семейства.
Что происходит, если не выполнены предпосылки, при которых разработаны параметрические методы? Например, для проверки однородности двух независимых выборок в случае нормальности распределений и равенства дисперсий рекомендуют двухвыборочный критерий Стьюдента. Если же предпосылки нарушены, то для проверки равенства математических ожиданий следует использовать критерий Крамера-Уэлча [33]. Крайняя неустойчивость параметрических методов отбраковки резко выделяющихся наблюдений делает невозможным их практическое применение [5]. В то же время доверительные границы для
математического ожидания в непараметрическом случае отличаются от таковых в случае нормального распределения только использованием квантилей нормального распределения вместо квантилей распределения Стьюдента, т.е. при росте объемов выборки различие исчезает [28].
Довольно часто предполагают, что погрешности (отклонения, ошибки, невязки) в методе наименьших квадратов имеют нормальное распределение. Однако это предположение не является обязательным. Так, непараметрическому оцениванию точки пересечения регрессионных прямых посвящены работы [34, 35], непараметрический метод наименьших квадратов для восстановления линейной зависимости с периодической составляющей разработан в статьях [36, 37].
4.2. Ранговые статистические методы. В этих методах используют не сами результаты измерений, а их ранги, т.е. места в упорядоченных рядах. Примерами являются критерии Колмогорова, Смирнова, омега-квадрат, коэффициенты ранговой корреляции Спирмена и Кендалла [19 - 21]. Все ранговые статистики измерены в порядковой шкале [23 - 26], т.е. их значения не меняются при любом строго возрастающем преобразовании шкалы измерения.
Разработка и изучение ранговых статистик продолжается. Так. в [38] разобраны два мифа, связанные с критерием Вилкоксона (Манна - Уитни) -о том, что этот критерий является состоятельным для проверки тождественного совпадения двух функций распределения (т.н. абсолютной однородности) или хотя бы для проверки равенства их медиан. Несмотря на выявленные недостатки, этот непараметрический критерий полезен для построения карт контроля качества продукции [39]. Состоятельные критерии проверки абсолютной однородности независимых выборок описаны в [40]. Интересный (как теоретически, так и практически) факт существенного различия реальных и номинальных уровней значимости в
задачах проверки статистических гипотез с помощью непараметрических критериев выявлен в статье [41].
4.3. Непараметрические оценки функций. Базовыми являются непараметрические оценки плотности распределения в пространствах произвольной природы [42, 43]. На их основе методы непараметрического оценивания регрессионных зависимостей, классификации (распознавания образов, дискриминантного и кластерного анализов) [44, 45]. Эти методы, входящие в статистику нечисловых данных [23 - 26], имеют большое прикладное значение.
Непараметрический дискриминантный анализ (непараметрические методы распознавания образов) используется в задачах управления качеством [46], диагностики электрорадиоизделий [47]. Цикл работ [48 -51] посвящен непараметрическим методам классификации текстовых документов.
5. Заключительные замечания
Проведенный анализ показывает, что к настоящему времени с помощью непараметрических методов можно решать практически тот же круг задач, что ранее решался параметрическими методами. Все большую роль играют непараметрические оценки плотности, непараметрические методы регрессии и распознавания образов (дискриминантного анализа).
Непараметрические методы не используются априорных (и в большинстве практических ситуаций недоступных проверке) предположений о том, что распределения результатов измерений (наблюдений, испытаний, анализов, опытов) входят в то или иное параметрическое семейство, а потому являются более обоснованными, чем параметрические.
В непараметрике, как и в математической статистике в целом, остается ряд нерешенных задач. Для обеспечения широкого внедрения
непараметрических методов необходимо провести еще целый комплекс теоретических и пилотных (т.е. пробных) прикладных работ.
Методология современных статистических методов предполагает, что при решении конкретной прикладной задачи необходимо прежде всего построить (выбрать, описать) вероятностно-статистическую модель. А уже в рамках модели разрабатывается (подбирается, используется) соответствующий ей метод, согласно которому создаются алгоритмы и проводятся расчеты, делаются выводы и принимаются управленческие решения. Часто полезны иерархические системы моделей. Такая система на примере проверки однородности двух независимых выборок построена в статье [33], в которой, в частности, продемонстрирована польза несостоятельных критериев проверки статистических гипотез [29].
Непараметрическая статистика является лучше соответствует потребностям практики, представляет собой более передовой и более мощный (результативный, продуктивный) подход, чем параметрическая. Поэтому она должна применяться более широко, чем сейчас, вытеснять параметрическую из несвойственных последней областей использования. Преподавание математической статистики также должно быть приведено в соответствие с современными требованиями, место непараметрической статистики должно быть основным при рассмотрении задач статистики случайных величин, многомерного статистического анализа, статистики случайных процессов и временных рядов. Примером адекватного соотношения различных подходов, по нашему мнению, является учебник [23], соответствующий современному уровню развития прикладной математической статистики.
Литература
1. Орлов А.И. Современная прикладная статистика // Заводская лаборатория. Диагностика материалов. 1998. Т.64. №3. С. 52-60.
2. Горский В.Г., Орлов А.И. Математические методы исследования: итоги и перспективы // Заводская лаборатория. Диагностика материалов. 2002. Т.68. №1. С.108-112.
3. Орлов А.И. Точки роста статистических методов / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №09(103). С. 136 - 162. - IDA [article ID]: 1031409011. - Режим доступа: http://ej.kubagro.ru/2014/09/pdf/11.pdf
4. Орлов А.И. Часто ли распределение результатов наблюдений является нормальным? // Заводская лаборатория. Диагностика материалов. 1991. Т.57. №7. С.64-66.
5. Орлов А.И. Неустойчивость параметрических методов отбраковки резко выделяющихся наблюдений. // Заводская лаборатория. Диагностика материалов. 1992. Т.58. №7. С.40-42.
6. Орлов А.И. Некоторые нерешенные вопросы в области математических методов исследования // Заводская лаборатория. Диагностика материалов. 2002. Т.68. №3. С.52-56.
7. Орлов А.И. Вероятность и прикладная статистика: основные факты: справочник. - М.: КноРус, 2010. - 192 с.
8. Митрохин И.Н., Орлов А.И. Обнаружение разладки с помощью контрольных карт // Заводская лаборатория. Диагностика материалов. 2007. Т.73. №5. С.74-78.
9. Орлов А.И. Выявление отклонений в контроллинге (на примере мониторинга уровня безопасности полетов) / А.И. Орлов, В.Д. Шаров // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №01(095). С. 184 - 203. - IDA [article ID]: 0951401008. - Режим доступа: http://ej.kubagro.ru/2014/01/pdf/08.pdf
10. Орлов А.И. Эконометрика. Учебник. Изд. 3-е, переработанное и дополненное. - М.: Экзамен, 2004. - 576 с.
11. Орлов А.И. Всегда ли нужен контроль качества продукции у поставщика? / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №02(096). С. 969 - 982. - IDA [article ID]: 0961402070. - Режим доступа: http://ej.kubagro.ru/2014/02/pdf/70.pdf
12. Орлов А.И. Асимптотические методы статистического контроля / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №08(102). С. 1 - 31. - IDA [article ID]: 1021408001. - Режим доступа: http://ej.kubagro.ru/2014/08/pdf/01.pdf
13. Орлов А.И. Методы проверки однородности связанных выборок // Заводская лаборатория. Диагностика материалов. 2004. Т.70. №7. С.57-61.
14. Орлов А.И. Основные этапы становления статистических методов / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный
ресурс]. - Краснодар: КубГАУ, 2014. - №03(097). С. 1209 - 1233. - IDA [article ID]: 0971403086. - Режим доступа: http://ej.kubagro.ru/2014/03/pdf/86.pdf
15. Гнеденко Б.В. Очерк по истории теории вероятностей. - М.:УРСС, 2001. -
88 с.
16. Клейн Ф. Лекции о развитии математики в XIX столетии. Часть I. - М.-Л.: Объединенное научно-техническое издательство НКТП СССР, 1937. - 432 с.
17. Плошко Б.Г., Елисеева И.И. История статистики: Учеб. пособие. М.: Финансы и статистика. 1990. 295 с.
18. Бернштейн С.Н. Современное состояние теории вероятностей и ее приложений. В сб.: Труды Всероссийского съезда математиков в Москве 27 апреля - 4 мая 1927 г. М.-Л.: ГИЗ, 1928. С.50-63.
19. Орлов А.И. О критериях Колмогорова и Смирнова // Заводская лаборатория. Диагностика материалов. 1995. Т.61. №7. С.59-61.
20. Орлов А.И. Непараметрические критерии согласия Колмогорова, Смирнова, Омега-квадрат и ошибки при их применении / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №03(097). С. 647 - 675. - IDA [article ID]: 0971403047. - Режим доступа: http://ej.kubagro.ru/2014/03/pdf/47.pdf
21. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.). 474 с.
22. Орлов А.И. Предельная теория непараметрических статистик / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №06(100). С. 226 - 244. - IDA [article ID]: 1001406011. - Режим доступа: http://ej.kubagro.ru/2014/06/pdf/11.pdf
23. Орлов А.И. Прикладная статистика. — М.: Экзамен, 2006. — 671 с.
24. Орлов А.И. Организационно-экономическое моделирование : учебник : в 3 ч. Ч. 1. Нечисловая статистика. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2009. — 541 с.
25. Орлов А.И. Тридцать лет статистики объектов нечисловой природы (обзор) // Заводская лаборатория. Диагностика материалов. 2009. Т.75. №5. С.55-64.
26. Орлов А.И. О развитии статистики объектов нечисловой природы / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №09(093). С. 273 - 309. - IDA [article ID]: 0931309019. - Режим доступа: http://ej.kubagro.ru/2013/09/pdf/19.pdf
27. Цейтлин Н.А. Среднемедианный показатель положения выборки экспертных оценок // Заводская лаборатория. Диагностика материалов. 2010. Т.76. №7. С. 69-72.
28. Орлов А.И. Непараметрическое точечное и интервальное оценивание характеристик распределения // Заводская лаборатория. Диагностика материалов. 2004. Т.70. №5. С.65-70.
29. Орлов А.И. Метод моментов проверки согласия с параметрическим семейством распределений // Заводская лаборатория. Диагностика материалов. 1989. №10. С.90-93.
30. Орлов А.И. О критериях согласия с параметрическим семейством. // Заводская лаборатория. Диагностика материалов. 1997. Т.63. №5. С. 49-50.
31. Селезнев В.Д., Денисов К.С. Исследование свойств критериев согласия функции распределения данных с гауссовой методом Монте-Карло для малых выборок // Заводская лаборатория. Диагностика материалов. 2005. Т.71. С. 68 - 73.
32. Орлов А.И. Распространенная ошибка при использовании критериев Колмогорова и омега-квадрат // Заводская лаборатория. Диагностика материалов. 1985. Т.51. №1. С.60-62.
33. Орлов А.И. О проверке однородности двух независимых выборок // Заводская лаборатория. Диагностика материалов. 2003. Т.69. №1. С.55-60.
34. Муравьева В.С., Орлов А.И. Непараметрическое оценивание точки пересечения регрессионных прямых // Заводская лаборатория. Диагностика материалов. 2008. Т.74. №1. С. 63-68.
35. Муравьева В.С. Точка встречи: асимптотическое распределение уровня качества и временного лага // Заводская лаборатория. Диагностика материалов. 2008. Т.74. №3. С. 70-73.
36. Орлов А. И. Непараметрический метод наименьших квадратов с периодической составляющей // Заводская лаборатория. Диагностика материалов. 2014. Т.80. №1. С.65-75.
37. Орлов А.И. Восстановление зависимости методом наименьших квадратов на основе непараметрической модели с периодической составляющей / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2013. - №07(091). С. 189 - 218. - IDA [article ID]: 0911307013. - Режим доступа: http://ej.kubagro.ru/2013/07/pdf/13.pdf
38. Орлов А.И. Какие гипотезы можно проверять с помощью двухвыборочного критерия Вилкоксона? // Заводская лаборатория. Диагностика материалов. 1999. Т.65. №1. С.51-55.
39. Кузнецов Л.А., Журавлева М.Г. Построение карт контроля качества с помощью непараметрического критерия Вилкоксона - Манна - Уитни // Заводская лаборатория. Диагностика материалов. 2009. Т.75. №1.С. 70-75.
40. Орлов А.И. Состоятельные критерии проверки абсолютной однородности независимых выборок // Заводская лаборатория. Диагностика материалов. 2012. Т.78. №11. С.66-70.
41. Камень Ю.Э., Камень Я.Э., Орлов А.И. Реальные и номинальные уровни значимости в задачах проверки статистических гипотез // Заводская лаборатория. Диагностика материалов. 1986. Т.52. №12. С.55-57.
42. Орлов А.И. Математические методы исследования и диагностика материалов (Обобщающая статья) // Заводская лаборатория. Диагностика материалов. 2003. Т.69. №3. С.53-64.
43. Орлов А.И. Оценки плотности распределения вероятностей в пространствах произвольной природы / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. -№05(099). С. 33 - 49. - IDA [article ID]: 0991405003. - Режим доступа: http://ej.kubagro.ru/2014/05/pdf/03.pdf
44. Орлов А.И. О развитии математических методов теории классификации (обзор) // Заводская лаборатория. Диагностика материалов. 2009. Т.75. №7. С. 51-63.
45. Орлов А.И. Математические методы теории классификации / А.И. Орлов // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. - Краснодар: КубГАУ, 2014. - №01(095). С. 423 - 459. - IDA [article ID]: 0951401023. - Режим доступа: http://ej.kubagro.ru/2014/01/pdf/23.pdf
46. Штремель M.A., Кудря A^., Иващенко A^. Непараметрический дискриминантный анализ в задачах управления качеством // Заводская лаборатория. Диагностика материалов. 2006. Т.72. С. 53-62.
47. Котлярова Н.В., Орлов В.И., Сергеева НА., Федосов ВВ. О непараметрических моделях в задачах диагностики электрорадиоизделий // Заводская лаборатория. Диагностика материалов. 2014. Т.80. № 7. С.73 - 77.
48. Толчеев В.О. Модифицированный и обобщенный метод ближайшего соседа для классификации библиографических текстовых документов // Заводская лаборатория. Диагностика материалов. 2009. Т.75. №7. С. 63-70.
49. Орлов A.^, Толчеев В.О. Об использовании непараметрических статистических критериев для оценки точности методов классификации (обобщающая статья) // Заводская лаборатория. Диагностика материалов. 2011. Т.77. №3. С.58-66.
50. Бородкин A.A., Толчеев В.О. Комплексная процедура редукции для увеличения быстродействия непараметрических методов классификации текстовых документов // Заводская лаборатория. Диагностика материалов. 2011. Т.77. С. 64-69.
51. Бородкин A. A., Толчеев В. О. Разработка и исследование методов взвешивания ближайших соседей (на примере классификации библиографических текстовых документов) // Заводская лаборатория. Диагностика материалов. 2013. Т.75. №7. С. 70-74.
References
1. Orlov A.I. Sovremennaja prikladnaja statistika // Zavodskaja laboratorija. Diagnostika materialov. 1998. T.64. №3. S. 52-60.
2. Gorskij V.G., Orlov A.I. Matematicheskie metody issledovanija: itogi i perspektivy // Zavodskaja laboratorija. Diagnostika materialov. 2002. T.68. №1. S.108-112.
3. Orlov A.I. Tochki rosta statisticheskih metodov / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. - №09(103). S. 136 - 162. - IDA [article ID]: 1031409011. - Rezhim dostupa: http://ej .kubagro.ru/2014/09/pdf/11 .pdf
4. Orlov A.I. Chasto li raspredelenie rezul'tatov nabljudenij javljaetsja normal'nym? // Zavodskaja laboratorija. Diagnostika materialov. 1991. T.57. №7. S.64-66.
5. Orlov A.I. Neustojchivost' parametricheskih metodov otbrakovki rezko vydeljajushhihsja nabljudenij. // Zavodskaja laboratorija. Diagnostika materialov. 1992. T.58. №7. S.40-42.
6. Orlov A.I. Nekotorye nereshennye voprosy v oblasti matematicheskih metodov issledovanija // Zavodskaja laboratorija. Diagnostika materialov. 2002. T.68. №3. S.52-56.
7. Orlov A.I. Verojatnost' i prikladnaja statistika: osnovnye fakty: spravochnik. -M.: KnoRus, 2010. - 192 s.
8. Mitrohin I.N., Orlov A.I. Obnaruzhenie razladki s pomoshh'ju kontrol'nyh kart // Zavodskaja laboratorija. Diagnostika materialov. 2007. T.73. №5. S.74-78.
9. Orlov A.I. Vyjavlenie otklonenij v kontrollinge (na primere monitoringa urovnja bezopasnosti poletov) / A.I. Orlov, V.D. Sharov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. -№01(095). S. 184 - 203. - IDA [article ID]: 0951401008. - Rezhim dostupa: http://ej .kubagro.ru/2014/01/pdf/08.pdf
10. Orlov A.I. Jekonometrika. Uchebnik. Izd. 3-e, pererabotannoe i dopolnennoe. -M.: Jekzamen, 2004. - 576 s.
11. Orlov A.I. Vsegda li nuzhen kontrol' kachestva produkcii u postavshhika? / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. - №02(096). S. 969 - 982. - IDA [article ID]: 0961402070. -Rezhim dostupa: http://ej.kubagro.ru/2014/02/pdf/70.pdf
12. Orlov A.I. Asimptoticheskie metody statisticheskogo kontrolja / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. - №08(102). S. 1 - 31. - IDA [article ID]: 1021408001. - Rezhim dostupa: http://ej .kubagro.ru/2014/08/pdf/01.pdf
13. Orlov A.I. Metody proverki odnorodnosti svjazannyh vyborok // Zavodskaja laboratorija. Diagnostika materialov. 2004. T.70. №7. S.57-61.
14. Orlov A.I. Osnovnye jetapy stanovlenija statisticheskih metodov / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. - №03(097). S. 1209 - 1233. - IDA [article ID]: 0971403086. - Rezhim dostupa: http://ej .kubagro.ru/2014/03/pdf/86.pdf
15. Gnedenko B.V. Ocherk po istorii teorii verojatnostej. - M.:URSS, 2001. - 88 s.
16. Klejn F. Lekcii o razvitii matematiki v HIH stoletii. Chast' I. - M.-L.: Ob#edinennoe nauchno-tehnicheskoe izdatel'stvo NKTP SSSR, 1937. - 432 s.
17. Ploshko B.G., Eliseeva I.I. Istorija statistiki: Ucheb. posobie. M.: Finansy i statistika. 1990. 295 s.
18. Bernshtejn S.N. Sovremennoe sostojanie teorii verojatnostej i ee prilozhenij. V sb.: Trudy Vserossijskogo s#ezda matematikov v Moskve 27 aprelja - 4 maja 1927 g. M.-L.: GIZ, 1928. S.50-63.
19. Orlov A.I. O kriterijah Kolmogorova i Smirnova // Zavodskaja laboratorija. Diagnostika materialov. 1995. T.61. №7. S.59-61.
20. Orlov A.I. Neparametricheskie kriterii soglasija Kolmogorova, Smirnova, Omega-kvadrat i oshibki pri ih primenenii / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. -№03(097). S. 647 - 675. - IDA [article ID]: 0971403047. - Rezhim dostupa: http://ej.kubagro.ru/2014/03/pdf/47.pdf
21. Bol'shev L.N., Smirnov N.V. Tablicy matematicheskoj statistiki. M.: Nauka, 1965 (1-e izd.), 1968 (2-e izd.), 1983 (3-e izd.). 474 s.
22. Orlov A.I. Predel'naja teorija neparametricheskih statistik / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. - №06(100). S. 226 - 244. - IDA [article ID]: 1001406011. - Rezhim dostupa: http://ej .kubagro.ru/2014/06/pdf/11 .pdf
23. Orlov A.I. Prikladnaja statistika. — M.: Jekzamen, 2006. — 671 s.
24. Orlov A.I. Organizacionno-jekonomicheskoe modelirovanie : uchebnik : v 3 ch. Ch. 1. Nechislovaja statistika. - M.: Izd-vo MGTUim. N.Je. Baumana, 2009. — 541 s.
25. Orlov A.I. Tridcat' let statistiki ob#ektov nechislovoj prirody (obzor) // Zavodskaja laboratorija. Diagnostika materialov. 2009. T.75. №5. S.55-64.
26. Orlov A.I. O razvitii statistiki ob#ektov nechislovoj prirody / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2013. - №09(093). S. 273 - 309. - IDA [article ID]: 0931309019. - Rezhim dostupa: http://ej .kubagro.ru/2013/09/pdf/19.pdf
27. Cejtlin N.A. Srednemediannyj pokazatel' polozhenija vyborki jekspertnyh ocenok // Zavodskaja laboratorija. Diagnostika materialov. 2010. T.76. №7. S. 69-72.
28. Orlov A.I. Neparametricheskoe tochechnoe i interval'noe ocenivanie harakteristik raspredelenija // Zavodskaja laboratorija. Diagnostika materialov. 2004. T.70. №5. S.65-70.
29. Orlov A.I. Metod momentov proverki soglasija s parametricheskim semejstvom raspredelenij // Zavodskaja laboratorija. Diagnostika materialov. 1989. №10. S.90-93.
30. Orlov A.I. O kriterijah soglasija s parametricheskim semejstvom. // Zavodskaja laboratorija. Diagnostika materialov. 1997. T.63. №5. S. 49-50.
31. Seleznev V.D., Denisov K.S. Issledovanie svojstv kriteriev soglasija funkcii raspredelenija dannyh s gaussovoj metodom Monte-Karlo dlja malyh vyborok // Zavodskaja laboratorija. Diagnostika materialov. 2005. T.71. S. 68 - 73.
32. Orlov A.I. Rasprostranennaja oshibka pri ispol'zovanii kriteriev Kolmogorova i omega-kvadrat // Zavodskaja laboratorija. Diagnostika materialov. 1985. T.51. №1. S.60-62.
33. Orlov A.I. O proverke odnorodnosti dvuh nezavisimyh vyborok // Zavodskaja laboratorija. Diagnostika materialov. 2003. T.69. №1. S.55-60.
34. Murav'eva V.S., Orlov A.I. Neparametricheskoe ocenivanie tochki peresechenija regressionnyh prjamyh // Zavodskaja laboratorija. Diagnostika materialov. 2008. T.74. №1. S. 63-68.
35. Murav'eva V.S. Tochka vstrechi: asimptoticheskoe raspredelenie urovnja kachestva i vremennogo laga // Zavodskaja laboratorija. Diagnostika materialov. 2008. T.74. №3. S. 70-73.
36. Orlov A.I. Neparametricheskij metod naimen'shih kvadratov s periodicheskoj sostavljajushhej // Zavodskaja laboratorija. Diagnostika materialov. 2014. T.80. №1. S.65-75.
37. Orlov A.I. Vosstanovlenie zavisimosti metodom naimen'shih kvadratov na osnove neparametricheskoj modeli s periodicheskoj sostavljajushhej / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2013. - №07(091). S. 189 - 218. - IDA [article ID]: 0911307013. - Rezhim dostupa: http://ej.kubagro.ru/2013/07/pdf/13.pdf
38. Orlov A.I. Kakie gipotezy mozhno proverjat' s pomoshh'ju dvuhvyborochnogo kriterija Vilkoksona? // Zavodskaja laboratorija. Diagnostika materialov. 1999. T.65. №1. S.51-55.
39. Kuznecov L.A., Zhuravleva M.G. Postroenie kart kontrolja kachestva s pomoshh'ju neparametricheskogo kriterija Vilkoksona - Manna - Uitni // Zavodskaja laboratorija. Diagnostika materialov. 2009. T.75. №1.S. 70-75.
40. Orlov A.I. Sostojatel'nye kriterii proverki absoljutnoj odnorodnosti nezavisimyh vyborok // Zavodskaja laboratorija. Diagnostika materialov. 2012. T.78. №11. S.66-70.
41. Kamen' Ju.Je., Kamen' Ja.Je., Orlov A.I. Real'nye i nominal'nye urovni znachimosti v zadachah proverki statisticheskih gipotez // Zavodskaja laboratorija. Diagnostika materialov. 1986. T.52. №12. S.55-57.
42. Orlov A.I. Matematicheskie metody issledovanija i diagnostika materialov (Obobshhajushhaja stat'ja) // Zavodskaja laboratorija. Diagnostika materialov. 2003. T.69. №3. S.53-64.
43. Orlov A.I. Ocenki plotnosti raspredelenija verojatnostej v prostranstvah proizvol'noj prirody / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU)
[Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. - №05(099). S. 33 - 49. - IDA [article ID]: 0991405003. - Rezhim dostupa: http://ej.kubagro.ru/2014/05/pdf/03.pdf
44. Orlov A.I. O razvitii matematicheskih metodov teorii klassifikacii (obzor) // Zavodskaja laboratorija. Diagnostika materialov. 2009. T.75. №7. S. 51-63.
45. Orlov A.I. Matematicheskie metody teorii klassifikacii / A.I. Orlov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta (Nauchnyj zhurnal KubGAU) [Jelektronnyj resurs]. - Krasnodar: KubGAU, 2014. - №01(095). S. 423 - 459. - IDA [article ID]: 0951401023. - Rezhim dostupa: http://ej.kubagro.ru/2014/01/pdf/23.pdf
46. Shtremel' M.A., Kudrja A.V., Ivashhenko A.V. Neparametricheskij diskriminantnyj analiz v zadachah upravlenija kachestvom // Zavodskaja laboratorija. Diagnostika materialov. 2006. T.72. S. 53-62.
47. Kotljarova N.V., Orlov V.I., Sergeeva N.A., Fedosov V.V. O neparametricheskih modeljah v zadachah diagnostiki jelektroradioizdelij // Zavodskaja laboratorija. Diagnostika materialov. 2014. T.80. № 7. S.73 - 77.
48. Tolcheev V.O. Modificirovannyj i obobshhennyj metod blizhajshego soseda dlja klassifikacii bibliograficheskih tekstovyh dokumentov // Zavodskaja laboratorija. Diagnostika materialov. 2009. T.75. №7. S. 63-70.
49. Orlov A.I., Tolcheev V.O. Ob ispol'zovanii neparametricheskih statisticheskih kriteriev dlja ocenki tochnosti metodov klassifikacii (obobshhajushhaja stat'ja) // Zavodskaja laboratorija. Diagnostika materialov. 2011. T.77. №3. S.58-66.
50. Borodkin A.A., Tolcheev V.O. Kompleksnaja procedura redukcii dlja uvelichenija bystrodejstvija neparametricheskih metodov klassifikacii tekstovyh dokumentov // Zavodskaja laboratorija. Diagnostika materialov. 2011. T.77. S. 64-69.
51. Borodkin A.A., Tolcheev V.O. Razrabotka i issledovanie metodov vzveshivanija blizhajshih sosedej (na primere klassifikacii bibliograficheskih tekstovyh dokumentov) // Zavodskaja laboratorija. Diagnostika materialov. 2013. T.75. №7. S. 70-74.