Научная статья на тему 'Обработка статистической информации'

Обработка статистической информации Текст научной статьи по специальности «Математика»

CC BY
712
183
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИКА / ВЫБОРКА / НАДЕЖНОСТЬ / РИСК / STATISTICS / SELECTION / RELIABILITY / RISK

Аннотация научной статьи по математике, автор научной работы — Кузнецов Сергей Михайлович, Ткаченко Виктор Яковлевич, Холомеева Наталья Викторовна

В статье рассматриваются вопросы обработки статистической информации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Кузнецов Сергей Михайлович, Ткаченко Виктор Яковлевич, Холомеева Наталья Викторовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Processing of statistical information

In article questions of processing of statistical information are considered.

Текст научной работы на тему «Обработка статистической информации»

УДК 691.327

PROCESSING OF STATISTICAL INFORMATION

Kuznetsov Sergey Mikhaylovich, Candidate of Technical Sciences, senior scientific employee, associate professor of the Siberian state university of means of communication,

ksm56@yandex.ru

Tkachenko Victor Yakovlevich, Doctor of Economics, professor, professor, Siberian state university of means of communication, e-mail: toes@stu.ru

Holomeeva Natalya Viktorovna, Candidate of Economic Sciences, associate professor, associate professor of the Siberian state university of means of communication,

holomeeva62@yandex.ru

Abstract. In article questions of processing of statistical information are considered.

Keywords: statistics, selection, reliability, risk.

Кузнецов Сергей Михайлович, кандидат технических наук, старший научный сотрудник, доцент Сибирского государственного университета путей сообщения,

ksm56@yandex.ru

Ткаченко Виктор Яковлевич, доктор экономических наук, профессор, профессор, Сибирский государственный университет путей сообщения, e-mail: toes@stu.ru

Холомеева Наталья Викторовна, кандидат экономических наук, доцент, доцент Сибирского государственного университета путей сообщения, holomeeva62@yandex.ru

Аннотация. В статье рассматриваются вопросы обработки статистической информации.

Ключевые слова: статистика, выборка, надежность, риск.

Анализ структуры выборок.

Вид (т.е. закон) теоретического распределения подбирается исходя из вида гистограммы. Вначале весь интервал изменения данных [xmin, xmax] нужно разбить на участки одинаковой длины. Сколько участков взять? Есть несколько подходов к определению числа участков разбиения l. Один из них - это использование формулы Стэрджесса:

где Round - округление чисел с плавающей запятой до целого числа; n - количество наблюдений.

ОБРАБОТКА СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ

(1)

Другой подход состоит в следующем. С одной стороны, число участков разбиения должно быть как можно больше, а с другой стороны, в каждый из этих участков должно попадать как можно больше значений X. Компромисс между этими требованиями приводит к тому, что обычно выбирают число участков l для построения гистограммы как ближайшее целое к корню квадратному из п:

l = Round i^fn), (2)

Размах колебаний - это разница между наибольшим (Xmax) и наименьшим (Xmin) значениями признака рассчитывается по формуле:

R Xmax - Xmin. (3)

Величина интервала (d) или диапазон определяется по формуле:

d = R / l, (4)

где l - количество интервалов, по формуле Стэрджесса.

Частота (F) - количество объектов наблюдения, включенных в j - ую группу. Просматривая выборку, посчитать число данных, попавших в пределы 1-ой группы, 2-ой группы и аналогично по всем 5-ти группам. Проверка: сумма частот по всем группам равна объему выборки (п): XFi = п.

Частость (f) - доля объектов, включенных в j-ую группу от общей численности. Частость определяется по формуле f = Fi / п. Проверка: сумма частостей равна единице: Xfi = 1.

Накопленная частота (FlH) - характеризует количество объектов, которые имеют значение не больше данной величины. Накопленная частота для верхней границы данного интервала получается суммированием (накапливанием) частот всех предшествующих интервалов, включая данный: Fн = X Fi.

Накопленная частость f'*) - доля объектов, которые имеют значение не больше данной величины. Накопленная частость для верхней границы данного интервала получается суммированием (накапливанием) частостей всех предшествующих интервалов, включая данный: fi = X fi-

Плотность распределения (pi) - средняя частота или частость в группе. Плотность определяется по формулам: pi = Ft / d или pi = ft / d.

Показатели выборок.

Основные показатели выборок рассчитаны по методике, изложенной в [1-4].

Среднее линейное отклонение. Учитывает различия всех единиц изучаемой совокупности, определяется как средняя

арифметическая из отклонений индивидуальных значений от средней, без учета знака этих отклонений.

Среднее линейное отклонение представляет собой среднюю арифметическую из абсолютных значений отклонений отдельных вариантов от средней. (Знаки отклонений игнорируются, так как в противном случае сумма всех отклонений будет равна нулю.)

Если обозначить среднее линейное отклонение буквой й, то для несгруппированных данных и

_ V х - X

и , (5)

й =

п

для вариационного ряда.

— V X -х I й = ' , (6)

VI

Следует иметь в виду, что среднее линейное отклонение будет минимальным, если отклонения рассчитаны от медианы, т.е.

й VIх-Ме\-1 • (7)

й = VI = т1п, (7)

Этот показатель применяют в статистической практике редко, так как он не устанавливает степень рассеивания.

Меру вариации (изменчивости признака) более объективно отражает показатель дисперсии. Дисперсия-(? - средний квадрат отклонений.

Дисперсия показывает разброс выборки, ее однородность, но дисперсия несоизмерима со средней величиной, поэтому ввели стандартное отклонение или среднеквадратичное отклонение.

Среднее квадратическое отклонение для несгруппированных данных определяется по формуле

о=

" п

и для вариационного ряда по формуле

о =

V(х - 1, (9)

VI ’

т.е. среднее квадратическое отклонение представляет собой корень квадратный из арифметической квадратов отклонений от средней.

Среднее квадратическое отклонение является наиболее распространенным и общепринятым показателем для вариации.

Оно несколько больше среднего линейного отклонения. Для умеренно ассиметричных распределений установлено следующее соотношение между ними:

Средняя арифметическая из квадратов отклонений, т.е. выра-

сии. Дисперсия (о2) имеет самостоятельное значение в статистике и относится к числу важнейших показателей вариации.

Стандартное отклонение измеряется в единицах измерения самой случайной величины. Равно корню квадратному из дисперсии случайной величины.

Стандартное отклонение используют при расчёте стандартной ошибки среднего арифметического, при построении доверительных интервалов, при статистической проверке гипотез, при измерении линейной взаимосвязи между случайными величинами. Стандартное отклонение определяется по формуле:

где - стандарт, стандартное отклонение, несмещенная оценка среднеквадратического отклонения случайной величины X относительно её математического ожидания; о - среднеквадратическое отклонение;

- 1-й элемент выборки; х - среднее арифметическое выборки; п - объём выборки.

Средняя квадратическая ошибка определяется по формуле:

Коэффициент вариации используют для сравнения рассеивания двух и более признаков, имеющих различные единицы измерения. Коэффициент вариации представляет собой относительную меру рассеивания, выраженную в процентах и вычисляется по формуле

о = 1,25а.

(10)

жение под корнем

или

носит название диспер

п

(11)

2

о - дисперсия;

є = ±-

П(П 1)

(12)

V = ^-100%, (13)

х

где о - среднее квадратичное отклонение, х - средняя величина.

Если х больше 33 %, то это говорит о большой колеблемости признака.

Мода (Мо) - наиболее часто встречающаяся величина, определяется по гистограмме или полигону частот. В дискретном ряду мода - это варианта с наибольшей частотой (напр., наибольшим спросом обуви пользуется 37 размер, т.е это именно то число, которое в действительности встречается чаще всего.

В интервальном ряду модой приближенно считают центральный вариант модального интервала, т.е. того интервала, который имеет наибольшую частоту (существует формула - сложная).

Медиана (Ме) - величина, которая делит выборку пополам (до медианы и после количество объектов одинаково). Ряд сортируется в порядке возрастания (ранжируется) и тогда для нечетной выборки медианой является варианта, расположенная в центре ряда.

Если выборка симметрична, то Хср = Мо = Ме. Для интервального ряда медиана находится по данным о накопленных частотах: медиана делит выборку пополам, следовательно, она там, где накопленная частота составляет половину или больше половины всей суммы частот.

Ассиметрия характеризует степень симметричности выборки или показывает степень смещения выборки влево или вправо от средней:

А = М3 / О, (14)

V (* - x)

где М 3 =------------ это центральный момент третьего порядка.

п

Если А < 0, то выборка смещена влево, если А > 0, то - вправо, а если А = 0, то выборка симметрична.

Эксцесс определяет степень островершинности симметричного распределения:

Е =( М4 / о4) - 3, (15)

(х - х )4

где М 4-------------- центральный момент четвертого порядка.

п

Если Е>0, то выборка островершинная, Е<0, то выборка плосковершинная, Е = 0 - нормальное распределение.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Если увеличим число наблюдений, то увеличится число отрезков и в пределе ломаная кривая перейдет в плавную кривую. Кривая распределения, выражающая общую закономерность данного типа распределения, называется теоретической кривой распределения.

Аналитическая зависимость или формула, описывающая распределение плотностей в генеральной совокупности, называется законом распределения.

Основные законы распределения приведены ниже:

1. Равномерный 5. Биномиальный

2. Нормальный 6. Закон Вейбулла

3. Логарифмический нормальный 7. Закон Ерланга

4. Закон Пуассона 8. Экспотенциальный

Задача определения какому закону соответствует эмпирическое распределение, называется проверкой гипотезы согласия эмпирического распределения с теоретическим законом.

Критерии Согласия:

1. По величинам ассиметрии и эксцесса делают вывод о степени приближения выборки к нормальному закону распределения. Если : -1,051 £ А £ 1,051 и 0 < Е £ 4, то выборка согласуется с нормальным законом.

2. Если объем выборки более 50 членов, то применяется критерий Пирсона, который рассчитывается («хи»-квадрат):

х2=£ , (16)

г=1 Л

где к - число групп, на которые разбито эмпирическое распределение; /г - эмпирическая частота распределения в /-й группе; /. - частота распределения по теоретическому закону.

Для распределения %2 составлены таблицы, где указано критическое значение критерия согласия %2для выбранного уровня значимости а и степеней свободы V.

Уровень значимости а - вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза.

В статистике пользуются тремя уровнями: а= 0,10, тогда Р=0,90 (в 10 случаях их 100 может быть отвергнута правильная гипотеза); а = 0,05, тогда Р=0,95; а = 0,01, тогда Р=0,99.

Число степеней свободы V определяется как число групп в ряду распределения минус число связей: V = к - г.

Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи:

*эмп *^теор ; ^эмп ^теор ; эмп теор . (17)

Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как V = к - 3.

Для оценки существенности расчетное значение %2расч сравнив ается с табличным %2табл. При полном совпадении теоретического и эмпирического распределений %2 = 0, в противном случае %2 > 0. Если % расч > % табл, то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если % расч £ % табл, заключаем, что эмпирический ряд хорошо согласуется с гипотезой о предполагаемом распределении и с вероятностью Р = (1-а) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Критерий согласия Пирсона используется, если объем совокупности достаточно велик п > 50, при этом частота каждой группы должна быть не менее 5.

В выборках объемом менее 50 членов используют, например, критерий Колмогорова-Смирнова. Если Юрасч £ Ютабл, то закон согласуется с нормальным.

Предлагается значение фактора определять с минимальным риском по формуле [5]:

хг = I ± г, (18)

где г - риск отклонения от средней величины; I - средняя

величина.

Риск отклонения от средней величины определяется по формуле:

г = 4у , (19)

где V - вариация отклонения от среднего значения.

Вариация отклонения от среднего значения определяется по формуле:

г=п 1=п

£ £ V

V = , (20)

где Vj1 - ковариация при использовании i-го и у-го испытания.

Ковариация при использовании i-го и у-го испытания определяется по формуле:

К, =(',-•-'). (21)

Программа обработки выборок. Авторами разработана программа «Sample», которая позволяет:

- рассчитать показатели выборки (таблица);

- построить гистограмму распределения, кривую организационнотехнологической надежности и риска;

- рассчитать теоретическую вероятность в заданном диапазоне;

- сформировать выборку по заданным среднему значению и стандартному отклонению фактора;

- рассчитать надежность и риск при ограничении фактора справа;

- позволяет определить расчетное значение фактора при заданной надежности.

Таблица - Показатели выборки

Показатель Обозначение

Количество опытов, шт. n

Уровень значимости а

Количество степеней свободы, шт. v

Количество диапазонов, шт. l

Минимальное значение фактора xmin

Максимальное значение фактора xmax

Выборочное среднее значение фактора x

Среднее линейное отклонение фактора d

Среднее квадратическое отклонение фактора о

Стандартное отклонение фактора s

Средняя квадратическая ошибка фактора e

Ошибка в % от среднего значения фактора ex

Эмпирическая дисперсия выборки о2

Вариации отклонения от среднего значения V

Риск отклонения от среднего значения r

Коэффициент вариации V

Вычисленное значение критерия Пирсона X расч

Т абличное значение критерия Пирсона X табл

В рассматриваемом ниже примере производилась статистическая обработка результатов натурных испытаний коэффициента использования рабочего времени бульдозеров (рисунок 1 и 2) [6].

ВЫБОРКА Таблица - Обработка выборки

| Наименование показателя | ■ Величина | I

| ВХОДНЫЕ ДАННЫЕ | 1

| Количество опытов, шт. | 24 |

| Уровень значимости | 0.05 |

| Количество степеней свободы, ШТ. I 3 I

| Количество диапазонов, шт. | 6 I

| ВЫХОДНЫЕ ДАННЫЕ | 1

| Минимальное значение фактора | 0.6650000000 |

| Максимальное значение фактора | 0.8230000000 |

| Выборочное среднее значение фактора | 0.7362933333 |

| Среднее линейное отклонение фактора | 0.0253388889 |

| Среднее квадратическое отклонение фактора | 0.0342964014 |

| Стандартное отклонение фактора | 0.0350340428 |

| Средняя квадратическая ошибка фактора | 0.0071512940 |

| Ошибка в % от среднего значения фактора | 0.9712561167 |

| Эмпирическая дисперсия выборки | 0.0012273842 |

| Вариации отклонения от среднего значения | 0.0006420593 |

| Риск отклонения от среднего значения | 0.0253388889 |

| Коэффициент вариации | 0.0465798070 |

| Вычисленное значение критерия Пирсона | 1.9981743551 |

| Табличное значение критерия Пирсона | 7.8562849000 |

| Количество интервалов | 6 I

Таблица - Распределение

Граница | Вероятность | Вероятность | Плотность |

левая | правая | эмпирическая | теоретически | распределения |

| 0.665 | | | 1.436111 |

0.665 | 0.691 | 0.083333 | 0.078763 | 4.997997 |

0.691 | 0.718 | 0.166667 | 0.197787 | 9.886382 |

0.718 | 0.744 | 0.416667 | 0.289579 | 11.115068 |

0.744 | 0.770 | 0.166667 | 0.247326 | 7.102647 |

0.770 | 0.797 | 0.125000 | 0.123199 | 2.579656 |

0.797 | 0.823 | 0.041667 | 0.035756 | 0.532521 |

Рисунок 1 - Листинг работы программы «Sample»

90 80 70 60

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

I 50 5 40 30 20 10

0,66 0,67 0,68 0,69 0,7 0,71 0,72 0,73 0,74 0,75 0,76 0,77 0,78 0,79 0,8 0,81 0,82 0,83 0,84 Коэффициент использования по времени

Коэффициент использования по времени

Рисунок 2 - Графическое представление информации в программе «Sample»

Библиографический указатель:

1. Кузнецов С.М. Обработка результатов натурных испытаний при техническом и тарифном нормировании / С.М. Кузнецов, К.С. Кузнецова // Экономика железных дорог. - 2010. - № 7. - С. 88-99.

2. Кузнецов С.М. Совершенствование обработки результатов натурных испытаний при техническом и тарифном нормировании / С.М. Кузнецов // Экономика железных дорог. - 2013. - № 7. - С. 90-97.

3. Кузнецов С.М. Системотехника ресурсосберегающих технологических процессов строительства. Монография / С.М. Кузнецов, О. А. Легостаева. - Новосибирск: Изд-во СГУПС, 2004. - 233 с.

4. Дрейпер Н. Прикладной регрессионный анализ / Н. Дрейпер Г. Смит. - М., 1973. - 392 с.

5. Исаков А.Л. Оптимизация работы комплекса машин при строительстве объектов / А.Л. Исаков, К.С. Кузнецова, С.М. Кузнецов // Изв. вузов. Строительство. - 2012. - № 1. - С. 52-57.

6. Анферов В.Н. Оценка надежности работы бульдозеров / В.Н. Анферов, С.М. Кузнецов, С.И. Васильев // Системы. Методы. Технологии. - 2013. - № 3. - С. 16-21.

Статья поступила в редакцию 19.02.2014

i Надоели баннеры? Вы всегда можете отключить рекламу.