Научная статья на тему 'Методы различения симметричных законов распределения (на примере нормального и логистического закона распределения)'

Методы различения симметричных законов распределения (на примере нормального и логистического закона распределения) Текст научной статьи по специальности «Математика»

CC BY
389
69
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛОГИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ / НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ / МЕТОДЫ РАЗЛИЧЕНИЯ / КОМБИНАЦИЯ МЕТОДОВ / LOGISTIC DISTRIBUTION / NORMAL DISTRIBUTION / METHODS OF DISTINCTION / A COMBINATION OF METHODS

Аннотация научной статьи по математике, автор научной работы — Шепель Вячеслав Николаевич, Акимов Сергей Сергеевич

Одна из основных задач математической статистики это всестороннее изучение и анализ данных. При этом широко известно, что исчерпывающей характеристикой любого массива данных является закон распределения, которому данный массив подчиняется. Существует достаточно большое количество различных методов определения закона распределения, опираясь исключительно на массив данных. Вместе с тем необходимо отметить, что все эти методы носят лишь приближенный характер. При этом стоит отметить, что некоторые законы распределения имеют достаточно сходные характеристики, что затрудняет процесс их идентификации. Одной из таких характеристик является симметрия. Основная цель исследования сравнение методов идентификации для симметричных законов распределения. В статье рассматриваются четыре известных метода идентификации закона распределения вероятности: критерий согласия Колмогорова, коэффициент эксцесса, оценка Хилла и метод отношений. В качестве законов распределения использовались логистическое и нормальное распределение, наиболее близкие симметричные законы. Исследования проведены в лаборатории кафедры управления и информатики в технических системах Оренбургского государственного университета. Для получения необходимых массивов данных использовался генератор случайных чисел программы Mathcad 15. Для проверки было сгенерировано 800 распределений (400 подчиняющихся логистическому закону и 400 нормальному; N = 100). Для достоверности оценки параметры распределений оставались неизменными. Было определено, что наиболее сильным методом является критерий Колмогорова. Кроме того изучались различные сочетания предлагаемых методов. При исследовании сочетаний выявлено, что наиболее результативным является применение пары критерий согласия Колмогорова метод отношений. Все остальные пары методов дают больший процент ошибок.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS OF DISTINCTION SYMMETRYCAL DISTRIBUTION LAWS (FOR EXAMPLE, THE NORMAL AND THE LOGISTIC DISTRIBUTION LAW)

One of the basic problems of mathematical statistics a comprehensive study and analysis of data. This is widely known that the exhaustive characteristic of any data set is the distribution law, which governs the array. There is a fairly large number of different methods for determining the distribution law, relying solely on the data array. At the same time it should be noted that all these methods are only approximate. Also It is worth be noted that some laws of distribution have a fairly similar characteristics, making it difficult to identify them. One of these characteristics is the symmetry. Main purpose of the research a comparison of methods of identification the symmetric distribution laws. The article considers the four methods of identification the law of probability distribution: criterion of consent by Kolmogorov, coefficient of Kurtosis, assessment Hill and the method relationships. As the laws of distribution was used logistic and normal distribution, most similar symmetrical laws. Researches performed in the laboratory of Chair of Management and Informatics in Technical Systems of Orenburg State University. For obtaining necessary data sets used by the random number generator of the program Mathcad 15. To check the was generated distributions 800 (400 obeying the logistics law and 400 normal; N = 100). For assessment of reliability the parameters of distributions remained unchanged. It was determined that the most powerful method is to criterion by Kolmogorov. Also have been studied various combinations of the proposed methods. In studying combinations shown that the most effective is the use of a pair of criterion by Kolmogorov a method of relations. All other pairs of methods give a greater percentage of errors.

Текст научной работы на тему «Методы различения симметричных законов распределения (на примере нормального и логистического закона распределения)»

УДК 330.4:519.224:004.457

Шепель В.Н., Акимов С.С.

Оренбургский государственный университет E-mail: [email protected]

МЕТОДЫ РАЗЛИЧЕНИЯ СИММЕТРИЧНЫХ ЗАКОНОВ РАСПРЕДЕЛЕНИЯ (НА ПРИМЕРЕ НОРМАЛЬНОГО И ЛОГИСТИЧЕСКОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ)

Одна из основных задач математической статистики - это всестороннее изучение и анализ данных. При этом широко известно, что исчерпывающей характеристикой любого массива данных является закон распределения, которому данный массив подчиняется. Существует достаточно большое количество различных методов определения закона распределения, опираясь исключительно на массив данных. Вместе с тем необходимо отметить, что все эти методы носят лишь приближенный характер. При этом стоит отметить, что некоторые законы распределения имеют достаточно сходные характеристики, что затрудняет процесс их идентификации. Одной из таких характеристик является симметрия.

Основная цель исследования - сравнение методов идентификации для симметричных законов распределения. В статье рассматриваются четыре известных метода идентификации закона распределения вероятности: критерий согласия Колмогорова, коэффициент эксцесса, оценка Хилла и метод отношений. В качестве законов распределения использовались логистическое и нормальное распределение, наиболее близкие симметричные законы. Исследования проведены в лаборатории кафедры управления и информатики в технических системах Оренбургского государственного университета. Для получения необходимых массивов данных использовался генератор случайных чисел программы Mathcad 15. Для проверки было сгенерировано 800 распределений (400 подчиняющихся логистическому закону и 40о - нормальному; N = 100). Для достоверности оценки параметры распределений оставались неизменными.

Было определено, что наиболее сильным методом является критерий Колмогорова. Кроме того изучались различные сочетания предлагаемых методов. При исследовании сочетаний выявлено, что наиболее результативным является применение пары критерий согласия Колмогорова - метод отношений. Все остальные пары методов дают больший процент ошибок.

Ключевые слова: логистическое распределение, нормальное распределение, методы различения, комбинация методов.

Одна из основных задач математической статистики - это всестороннее изучение и анализ данных. При этом широко известно, что исчерпывающей характеристикой любого массива данных является закон распределения, которому данный массив подчиняется.

Вопрос идентификации закона распределения по массиву данных изучается уже достаточно давно. При этом стоит отметить, что, несмотря на огромное количество методов, исследователям достаточно редко удается получить состоятельную оценку данных с точки зрения их принадлежности какому-либо конкретному закону распределения [1].

Отметим, что для восстановления неизвестной функции плотности распределения в рамках непараметрической статистики разработан ряд методов и алгоритмов [2]. Литературный анализ данной проблемы [3] показывает, что на практике достаточно хорошо разработана процедура различения симметричных и асимметричных законов распределения [4], [5], [6], [7].

При реализации большинства известных методов, основанных на асимметрии данных, в

случае доказательства принадлежности массива к симметричному закону распределения, делается вывод о нормальности данных, что ошибочно. Несостоятельность данного подхода отмечают и другие авторы [8], [9], [10].

Причина в том, что в природе существует целый ряд симметричных законов распределения, которым может подчиняться исследуемый массив. Поэтому проблема определения принадлежности массива данных к какому-либо из симметричных законов распределения была и остается весьма актуальной.

Считается, что наиболее схожими симметричными распределениями являются нормальное и логистическое [8]. Сама процедура их различения между собой весьма затруднена. При этом существует ряд методик, помогающих идентифицировать закон распределения. Потому актуальной становится задача определения наиболее подходящей методики для различения симметричных законов распределения.

Цель исследования: сравнить методы идентификации для симметричных законов распределения.

Задачи исследования:

- рассмотреть методы идентификации симметричных законов распределения;

- провести сравнение эффективности данных методов на нормально и логистически распределенных массивах данных;

- выполнить различные комбинации перечисленных методов, выбрать их наиболее оптимальное сочетание.

Материалы и методы

Исследования проведены в лаборатории кафедры управления и информатики в технических системах Оренбургского государственного университета. Для получения необходимых массивов данных использовался генератор случайных чисел программы МаШсаё 15. В качестве методов идентификации были использованы следующие критерии.

1) Критерий согласия Колмогорова для проверки нормальности, рассчитанный по формуле [11]

х =

6nDn +1 ejn '

(1)

2) Коэффициент эксцесса в модификации Е.И. Пустыльника, исчисляемый по формуле [12]

1 (x, - X )4

Ex3M = ----3 ,

nc

(2)

при этом критические значения коэффициента эксцесса подчиняются формуле:

Ex = Г 24n(n - 2)(n - 3) "р \ (n +1)2 (n + 3)(n + 5)

(3)

3) Оценка Хилла с модификацией А.Н. Гуда, определяемая по формуле [13], [14]

нм4 iin—>k<n

k i=l x( k-1)

(4)

4) Метод отношений, в основе которого используется формула [9]

R - Ex

к = . (5)

c v 7

Для проверки было сгенерировано 800 распределений (400 подчиняющихся логистическому закону и 400 - нормальному; N = 100). Для

достоверности оценки параметр распределений оставались неизменными.

Результаты и обсуждение

Сгенерированные массивы данных проверялись на соответствие нормальному закону распределения. В качестве параметра сравнения использовалось количество ошибок первого (в случае, если гипотеза о нормальности была отвергнута на нормально распределенном массиве данных) и второго рода (в случае, если гипотеза о нормальности была принята на логистически распределенном массиве данных), полученных при сравнении гипотез между собой. Полученный результат сведен в таблицу 1.

В результате проведенного сравнения различных методов идентификации можно сделать следующие выводы:

- наиболее точным среди перечисленных методов является критерий согласия Колмогорова;

- наихудшим методом среди перечисленных, является коэффициент эксцесса в модификации Е.И. Пустыльника;

- метод отношений, в среднем, дает меньше ошибок при проверке нормальных распределений, но больше при проверке логистических распределений.

Таким образом, наиболее информативным является критерий согласия Колмогорова.

Рассмотрим применение попарных комбинаций, для большей достоверности полученного результата. Для этого сопоставим пары из перечисленных методов. Все возможные комбинации составляют всего шесть пар:

- критерий согласия Колмогорова - коэффициент эксцесса;

- критерий согласия Колмогорова - оценка Хилла;

- критерий согласия Колмогорова - метод отношений;

- коэффициент эксцесса - оценка Хилла;

- коэффициент эксцесса - метод отношений;

- оценка Хилла - метод отношений.

Результат рассчитывался следующим образом: если хотя бы в одном случае основная гипотеза отвергалась, то, вне зависимости от результата второй проверки, альтернативная гипотеза была принята.

Все полученные результаты сведем в таблицу 2.

Таблица 2. Количество ошибочно принятых гипотез при попарном применении методов

Экономические науки_

Таблица 1. Количество ошибочно принятых гипотез различными методами

Метод Количество ошибок (%) Сумма

Нормальное распределение (ошибка первого рода) Логистическое распределение (ошибка второго рода)

Критерий согласия Колмогорова 0,25 21,25 21,50

Коэффициент эксцесса 11,00 39,75 50,75

Оценка Хилла 1,75 24,50 26,25

Метод отношений 0,75 28,75 29,50

Метод Количество ошибок (%) Сумма

Нормальное распределение (ошибка первого рода) Логистическое распределение (ошибка второго рода)

Критерий согласия Колмогорова -коэффициент эксцесса 0,25 21,25 21,50

Критерий согласия Колмогорова -оценка Хилла 0,25 19,25 19,50

Критерий согласия Колмогорова -метод отношений 0,25 16,75 17,00

Коэффициент эксцесса - оценка Хилла 1,75 24,50 26,25

Коэффициент эксцесса - метод отношений 0,75 28,75 29,50

Оценка Хилла - метод отношений 0,75 23,50 24,25

Таким образом, наиболее результативным является применение пары критерий согласия Колмогорова - метод отношений. Все остальные пары методов дают больший процент ошибок.

Отметим, что в рамках данного исследования проводились сопоставление различных вариаций трех и четырех методов. Однако ни одно из перечисленных сопоставлений не дало существенного снижения количества ошибок. Исходя из этого, можно сделать вывод о том, что применять большее количество методов с целью получения лучшего результата - нецелесообразно.

Заключение

В работе описаны некоторые методы различения симметричных законов распределения

(на примере логистического и нормального распределения). Выбраны четыре широко распространенных метода: критерий согласия Колмогорова, коэффициент эксцесса, оценка Хилла и метод отношений.

Проведенное сравнение установило, что наиболее результативным методом является критерий согласия Колмогорова.

При изучении попарных комбинаций методов выявлено, что наилучшей комбинацией является сочетание критерия согласия Колмогорова и метода отношений, в результате применения которой среднее количество ошибок при принятии гипотезы о принадлежности массива конкретному закону распределения составляет 17%.

08.06.2015

Список литературы:

1. Шепель В.Н., Акимов С.С. Определение плотности вероятности данных в прикладных исследованиях. - Современные информационные технологии в науке, образовании и практике. - Материалы XI Всероссийской научно-практической конференции. - Оренбургский государственный университет. - Оренбург. - 2014. С. 223-226.

2. Айвазян С. А., Мхитарян В. С. Прикладная статистика. Основы эконометрики (в 2 -х т.) Теория вероятностей и прикладная статистика - М.: Юнити-Дана, 2007, -656 с.

3. Акимов С.С. Оценка методов восстановления законов распределения вероятности и обоснование предпочтения на основании некоторых свойств эмпирического массива данных. - Актуальные вопросы современной науки. - 2014. -№31. С. 139-150.

4. Акимов С.С. Методы решения задачи восстановления плотности вероятности по выборке из генеральной совокупности. - Естественные и математические науки в современном мире: сб. ст. по материалам XIV междунар. науч.-практ. конф. №1 (13). Новосибирск: Изд. «СибАК», 2014. С. 29-35.

5. Айвазян С.А. Различение близких гипотез о виде плотности распределения в схеме обобщенного последовательного критерия. - Теория вероятностей и ее применения, 1965, т. X, № 4.

6. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. - М.: Наука, 1979.

7. D'Agostino R. B., Pearson E. S. A further development of test departure from normality. — Biometrika, 1973, 60, №3 — p. 613622.

8. Орлов А. И. Типовые ошибки при вхождении в прикладную статистику. - [Электронный ресурс]. - Режим доступа: URL: http://forum.orlovs.pp.ru/viewtopic.php?t=97 (заглавие с экрана).

9. Дубнер П.Н. Вычисление прямых и обратных функций распределения. // Статистика и стохастические системы, вып. 15, Изд-во МГУ, 1971.

10. Лемешко Б. Ю., Лемешко С. Б. Сравнительный анализ критериев проверки отклонения распределения от нормального закона // Метрология. 2005. № 2. С. 3-24.

11. Большев Л.Н. Смирнов Н.В. Таблицы математической статистики. М.: Наука.1983.

12. Пустыльник Е.И. Статистические методы анализа и обработки наблюдений [Текст] / Е.И. Пустыльник - «Наука», М, 1968. - 288 с.

13. Гуда А.Н. Модели оценки параметров телекоммуникационного трафика в автоматизированных информационно-управляющих системах / А.Н. Гуда, М.А. Бутакова, Н.А. Москат // Вопросы современной науки и практики. Ун-т им. В.И. Вернадского. - 2010. - №4-6(29). - С. 71-87.

14. Шепель В.Н. Использование оценки Хилла для различения законов распределения вероятности [Текст] / Шепель В. Н., Акимов С. С. // Вестник Оренбургского государственного университета. - 2014. - № 1, январь. - С. 75-78.

15. Акимов С.С. Проблема выбора метода восстановления закона распределения вероятности. - Международный научно-исследовательский журнал. - 2014. - № 1-3 (20). С. 5-8.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Сведения об авторах:

Шепель Вячеслав Николаевич, профессор кафедры управления и информатики в технических системах Оренбургского государственного университета, доктор экономических наук 460018, г. Оренбург, Шарлыкское шоссе, 5, e-mail: [email protected]

Акимов Сергей Сергеевич, аспирант кафедры управления и информатики в технических системах, факультета информационных технологий Оренбургского государственного университета 460018, г. Оренбург, Шарлыкское шоссе, 5 e-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.