Научная статья на тему 'Нахождение и сравнение доверительных интервалов для анализа числа преступлений'

Нахождение и сравнение доверительных интервалов для анализа числа преступлений Текст научной статьи по специальности «Математика»

CC BY
1214
89
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЛУЧАЙНАЯ ВЕЛИЧИНА / RANDOM VALUE / ОЦЕНКИ ХАРАКТЕРИСТИК СЛУЧАЙНОЙ ВЕЛИЧИНЫ / ESTIMATIONS OF RANDOM CHARACTERISTIC / ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ / CONFIDENCE INTERVAL / СТАТИСТИКА ПРЕСТУПЛЕНИЙ / STATISTICS OF CRIMES / DISPERSION

Аннотация научной статьи по математике, автор научной работы — Архангельская Екатерина Владиславовна

В статье представлены способы решения задач, связанных с нахождением оценок и построения доверительных интервалов для характеристик случайной величины. В целях проведения анализа рассматривается число преступлений за различные периоды.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Construction and Comparison of Confidence Intervals for Analyzing the Number of Crimes

The article is devoted to methods solution of problems associated with finding of estimations and confidence intervals for the characteristics of a random variable. To analyze this problem the number of crimes in different periods considered in this article.

Текст научной работы на тему «Нахождение и сравнение доверительных интервалов для анализа числа преступлений»

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Е.В. Архангельская

НАХОЖДЕНИЕ И СРАВНЕНИЕ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ ДЛЯ АНАЛИЗА ЧИСЛА ПРЕСТУПЛЕНИЙ

В статье представлены способы решения задач, связанных с нахождением оценок и построения доверительных интервалов для характеристик случайной величины. В целях проведения анализа рассматривается число преступлений за различные периоды.

Ключевые слова: случайная величина, оценки характеристик случайной величины, доверительный интервал, статистика преступлений.

E.V. Arkhangelskaya

CONSTRUCTION AND COMPARISON OF CONFIDENCE INTERVALS FOR ANALYZING THE NUMBER OF CRIMES

The article is devoted to methods solution of problems associated with finding of estimations and confidence intervals for the characteristics of a random variable. To analyze this problem the number of crimes in different periods considered in this article.

Keywords: random value, estimations of random characteristic, dispersion, confidence interval, statistics of crimes.

Для прогнозирования поведения случайных величин на основе наблюдаемых значений в статистическом анализе применяются оценки случайных величин и доверительные интервалы. Постоянный сбор данных с последующей их обработкой осуществляется для оценки состояния преступности. Эта информация обрабатывается компьютерными средствами1 и оформляется с помощью электронных документов2. Обрабатывать статистику числа преступлений можно с помощью доверительных интервалов, используя данные состояния преступности, полученные ранее. Например, зная число преступлений в январе м-це 2003-2011 гг., применяя методы математической статистики, можно предположить, каким оно будет в январе 2012 г.

Для решения поставленной задачи необходимо найти оценки и доверительные интервалы для таких характеристик случайной величины, как математическое ожидание и среднее квадратическое отклонение. Математическое ожидание является средним значением случайной величины, а среднее квадратическое отклонение - отклонением от среднего значения случайной величины. При проведении анализа удобнее воспользоваться редактором электронных таблиц Microsoft Excel. Excel предоставляет большой набор статистических функций, позволяющих найти оценки и построить доверительные интервалы для характеристик случайных величин. На разных компьютерах установлены различные версии табличного

© Архангельская Екатерина Владиславовна, 2014

Кандидат физико-математических наук, доцент, доцент кафедры информатики (Саратовская государ-152 ственная юридическая академия); e-mail: katysar@rambler.ru

редактора. Набор статистических функций в Excel версий 2003 и 2007 значительно отличается от набора статистических функций Excel 2010, причем как числом функций, так и их именами. Рассмотрим конкретные задачи, использующие данные о преступлениях, и их решение в различных версиях программы Excel.

В качестве исходных данных возьмем статистику по такому виду преступлений, как умышленное уничтожение или повреждение имущества, совершенное путем поджога за январь м-ц в период с 2003 по 2012 г. Данные представлены на сайте МВД РФ3 в отчетах о состоянии преступности. С отчетами можно ознакомиться в разделе «Статистика» в рубрике «Состояние преступности». Для проведения анализа все значения числа преступлений необходимо ввести в ячейки листа книги Excel (таблица). Введенные цифры будут являться значениями случайной величины.

Число случаев уничтожения или повреждения имущества, совершенных путем поджога, за указанный период

A B C D E F G H I J

1 Умышленное уничтожение или повреждение имущества, совершенное путем поджога, в январе месяце с 2003 по 2012 год

2 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012

3 797 858 873 1092 1276 944 1034 775 728 792

Так как мы не знаем всех значений случайной величины, в данном примере нет данных до 2003 г., нельзя говорить о точных значениях математического ожидания и среднего квадратического отклонения. По этой причине указанные ш

с

характеристики анализируют по их оценкам, которые получаются на основе Н

и

известных данных, представленных в таблице. а

Оценкой математического ожидания случайной величины является ее выбо- о

рочное среднее. Для его нахождения в любой версии редактора Excel необходимо к

воспользоваться статистической функцией СРЗНАЧ, аргументом которой являет- 0

ся диапазон ячеек, содержащих значения случайной величины, в нашем случае |

это диапазон ячеек A3:J3. В результате оценка математического ожидания равна В

е

916,9. Для построения доверительного интервала необходимо определить оценку 0 такой характеристики случайной величины, как дисперсия, которая является s

квадратом среднего квадратического отклонения. Определить оценку дисперсии по | выборке можно с помощью функции ДИСП в Excel 2003-2007 и функции ДИСП.В к

в Excel 2010. Аргументами функции также является диапазон ячеек A3:J3. В ре- а'

к

зультате получим оценку 29472,32. Оценкой среднего квадратического отклонения | будет квадратный корень из полученного значения, т.е. 171,68. Таким образом, 1 можно прогнозировать, что число преступлений, связанных с уничтожением или g повреждением имущества, совершенных путем поджога, в январе 2013 г. должно g было составить 916,9 ± 171,68, т.е. от 745 до 1088. Число указанных преступлений, ° согласно отчету МВД, составило 787 случаев, что входит в указанный диапазон. 4

Оценки характеристик случайных величин являются приближенными значениями и зависят от объема выборки данных, в нашем случае - от рассматриваемого периода с 2003 по 2012 г. Очевидно, что если взять данные за больший или меньший период, то изменятся и выборочное среднее, и оценка дисперсии рассматриваемой случайной величины. По этой причине определяют доверительный интервал, в который значение попадет с заданной доверительной вероятностью. 153

Доверительные интервалы строятся в зависимости от предположения о законе поведения случайной величины, т.н. законе распределения1. В первую очередь используется фундаментальный закон теории вероятностей - нормальный закон распределения, основная идея которого заключается в том, что среднее значение является наиболее вероятным значением случайной величины. При этом границы доверительного интервала определяются по формуле:

I в = (М - tpJoTn, М - t^yfoTn), где м - оценка математического ожидания, D - оценка дисперсии, n - число опытов или значений случайной величины (объем выборки). Нахождение оценок описано выше, число значений можно подсчитать, т.к. в нашем случае оно не велико (n = 10), также его можно найти с помощью функций СЧЕТ или функции СЧЕТЗ, подсчитывающих соответственно количество ячеек с числами или непустых ячеек в указанном диапазоне. Для определения верхней и нижней границ доверительного интервала осталось выяснить значение tp - аргумента функции Лапласа, которое зависит от заданной доверительной вероятности Р. Доверительную вероятность задают близкой к единице - Р = 0,8, Р = 0,9, Р = 0,95 и т.п. Чем больше доверительная вероятность, тем шире будет доверительный интервал. Значения tp затабулированы, но данный аргумент можно определить с помощью программы Excel, для чего необходимо использовать функцию НОРМСТОБР в Excel 2003-2007 и функцию НОРМ.СТ.ОБР в Excel 2010, аргументом данных функций является значение (1+Р)/2.

В нашем примере построим доверительный интервал для математического ожидания с доверительной вероятностью Р = 0,9, предполагая, что случайная величина распределена по нормальному закону. Аргумент функции Лапласа ^ равен 1,64. Искомый доверительный интервал равен 1Р = (827,60; 1006,19), полученный результат означает, что при увеличении числа значений случайной величины ее среднее значение с вероятностью 0,9 будет попадать в указанный интервал. Среднее значение в период с 2003 по 2013 г. равно 905,09, что соответствует сделанному утверждению.

Построить доверительный интервал для математического ожидания можно без определения аргумента функции Лапласа. В Excel 2003-2007 границы доверительного интервала в предположении о нормальном законе распределения случайной величины находятся с помощью функции ДОВЕРИТ. Аргументами функции являются следующие величины: а = 1- Р, характеризующая зависимость от доверительной вероятности, среднее квадратическое отклонение или его оценка 4Ъ и объем выборки n. Для нахождения нижней границы доверительного интервала в этом случае необходимо воспользоваться формулой М - ДОВЕРИТ(а ; КОРЕНЬ (D ); n), а для нахождения верхней границы - формулой М + ДОВЕРИТ(а ; КОРЕНЬ (D ); n), учитывая, что все используемые величины известны или подсчитаны в ячейках Excel. В задаче о числе преступлений значение функции ДОВЕРИТ(0,1; КОРЕНЬ(29472,32); 10) равно 89,29. Доверительный интервал соответственно равен 1р = (827,60; 1006,19), что полностью совпадает с результатом, полученным ранее при использовании функции НОРМСТОБР.

В Excel 2010 при построении доверительного интервала для математического ожидания существует статистическая функция ДОВЕРИТ.НОРМ, которая является аналогом функции ДОВЕРИТ версии Excel 2003. Границы находятся по тем же формулам.

Для дисперсии также строится доверительный интервал в предположении, что закон распределения случайной величины близок к нормальному. В этом случае границы интервала определяются следующим образом:

Ie= ( D - n -1), D - n -1) ) В нашем примере искать доверитель-

ный интервал для дисперсии по данным формулам не имеет смысла из-за малого объема выборки. Использовать нормальный закон распределения для нахождения доверительного интервала для математического ожидания и дисперсии целесообразно только при достаточно большом числе испытаний, в частности, когда это число больше 20, 30.

При нахождении более точных границ доверительных интервалов для математического ожидания случайной величины используется распределение Стьюдента, применяемое для проверки статистических гипотез при небольшом объеме выборки. Английским статистиком В.С. Госсетом (псевдоним Стьюдент) было доказано, что расхождение между средним малой выборки и средним значением случайной величины подчиняется особому закону распределения. Границы доверительного интервала для математического ожидания случайной величины в предположении, что ее поведение подчиняется закону распределения

Стьюдента, определяются по формуле Ip = (M - n, M - n). Нахождение оценок M~ , D~ было описано выше и здесь необходимо определить величину ts - аргумент функции распределения Стьюдента, значение которого зависит от заданной доверительной вероятности в и от т.н. числа степеней свободы n - 1, т.е. от объема выборки.

Аргумент функции распределения Стьюдента можно определить с помо- ш щью статистической функции СТЬЮДРАСПОБР в Excel 2003-2007 и функции Н СТЬЮДНТ.ОБР.2Х в Excel 2010. Данные функции зависят от двух аргументов: С

а

первый аргумент - это величина 1 - в, второй аргумент - число степеней свобо- т

о

ды n - 1. В нашем примере, если рассматривать число преступлений, связан- к

о

ных с уничтожением или повреждением имущества, совершенных путем под- 0' жога, число степеней свободы равно 10 - 1 = 9, аргумент функции распреде- а ления Стьюдента при доверительной вероятности в = 0,9 имеет значение 1,83. о Доверительный интервал, построенный с помощью распределения Стьюдента, 0

равен !„ = (817,38; 1016,42). Этот интервал шире, по сравнению с интервалом, ю

р р

построенным на основе нормального закона распределения. При увеличении | объема выборки функция плотности распределения Стьюдента стремится к к

функции плотности нормального закона распределения, поэтому при увеличе- а

к

нии значений случайной величины, в нашем случае периода исследования чис- е ла преступлений доверительные интервалы будут стремиться друг к другу. |

В Excel 2010 границы доверительного интервала для математического g ожидания по малой выборке можно найти с помощью функции ДОВЕРИТ. g СТЬЮДЕНТ по формулам M - ДОВЕРИТ.СТЬЮДЕНТ (а; КОРЕНЬ (D ); n) для нижней границы, M + ДОВЕРИТ(а; КОРЕНЬ (D ); n) для верхней границы. Построенный указанным способом интервал полностью совпадает с интервалом, найденным с использованием аргумента функции распределения Стьюдента Ip = (817,38; 1016,42).

Для построения более точного доверительного интервала дисперсии случайной величины используется закон распределения %2, описанный К. Пирсоном. Закон анализирует поведение выборочных данных относительно нормально 155

распределенных результатов наблюдений. При увеличении числа наблюдений этот закон также стремится к нормальному закону распределения.

Границы доверительного интервала, построенного с учетом распределения X2, определяются по формулам Iр= ( n -1)D /х2, (n - 1)D /), где xf - аргумент функции распределения х2, значение которой зависит от доверительной вероятности и равно (1+Р)/2, х\ - аргумент функции распределения х2 при ее значении равном (1-Р)/2. Аргументы функции распределения х2 можно определить с помощью статистических функций Excel.

Для нахождения аргументов функции х2 в Excel 2003-2007 используется функция ХИ2ОБР, которая имеет два аргумента, первый характеризует зависимость функции от доверительной вероятности, второй определяет степень свободы n-1 и характеризует зависимость от объема выборки. Для нахождения левой границы доверительного интервала первый аргумент равен а = (1+Р)/2, для нахождения правой границы в качестве а берется значение (1-Р)/2. В Excel 2010 аналогом данной функции является функция ХИ2.ОБР. В примере анализа числа умышленного уничтожения или повреждения имущества, совершенных путем поджога, при доверительной вероятности Р = 0,9 и количестве наблюдений n = 10 аргумент х1 является значением функции ХИ2ОБР(1,9/2; 9) и равен 3,32, аргумент X2 является значением функции ХИ20БР(0,1/2; 9) и равен 16,92. Доверительный интервал для дисперсии по распределению х2 определяется по соответствующим формулам, указанным выше, и равен Ip = (15677,71; 79772). По данному интервалу строится доверительный интервал для среднего квадратичного отклонения, которое является квадратным корнем из дисперсии, соответствующий интервал равен Ip = (125,21; 282,44). Полученный результат означает, что отклонение от среднего значения составляет от 125 до 282 случаев указанных преступлений. По таблице мы видим, что это соответствует действительности, т.к. за рассматриваемый период с 2003 по 2012 г. наблюдается большой разброс значений числа преступлений.

Таким образом, при анализе статистики преступлений, связанных с умышленным уничтожением или повреждением имущества, совершенными путем поджога, в январе м-це в период с 2003 по 2012 г., были найдены оценки характеристик случайной величины и построены доверительные интервалы с

заданной доверительной вероятностью Р для математического ожидания, дисперсии и среднего квадратичного отклонения с использованием нормального закона распределения, распределения Стьюдента, распределения х2 и функций Excel. Среднее значение числа указанных преступлений находится в диапазоне от 817,38 до 1016,42, а отклонение от среднего значения составляет от 125,21 до 282,44, т.е. можно утверждать, что среднее число рассматриваемых преступлений находится с заданной вероятностью в найденном интервале, но и гарантировать, что отклонение от среднего с заданной вероятностью не выйдет из указанных границ, что соответствует данным, приведенным в таблице, и распространяется на число преступлений, совершенных в январе 2013 г., которое, как указывалось, составляет 787 случаев.

1 См.: Ересько П.В. Создание и модификация шаблонов типовых юридических документов компьютерными программными средствами // Вестник Саратовской государственной академии права. 2008. № 6 (63). С. 135-139.

2 См.: ВарламоваЕ.В. (СенинаЕ.В.) Средства создания юридических электронных документов с помощью полей форм // Вестник Саратовской государственной юридической академии. 2008. № 6 (63). С. 139-143.

3 URL: http://mvd.ru/presscenter/statistics/reports (дата обращения: 25.11.2013).

4 См.: Вентцель Е.С. Теория вероятностей. М., 2010.

i Надоели баннеры? Вы всегда можете отключить рекламу.