Научная статья на тему 'Сравнительный анализ формул по нахождению длины шага интервального вариационного ряда при статистической обработке результатов шахтных исследований технологических режимов ведения горных работ'

Сравнительный анализ формул по нахождению длины шага интервального вариационного ряда при статистической обработке результатов шахтных исследований технологических режимов ведения горных работ Текст научной статьи по специальности «Математика»

CC BY
307
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЛИНА ИНТЕРВАЛА / THE LENGTH OF THE INTERVAL / ANALYSIS OF RANDOM VALUE / DISTRIBUTION LAW / HISTOGRAM / STURGES / FREEDMAN / SCOTT / MINE RESEARCHES / MINING / АНАЛИЗ СЛУЧАЙНОЙ ВЕЛИЧИНЫ / ЗАКОН РАСПРЕДЕЛЕНИЯ / ГИСТОГРАММА / СТЁРДЖЕСС / ФРИДМАН / СКОТТ / ШАХТНЫЕ ИССЛЕДОВАНИЯ / ГОРНЫЕ РАБОТЫ

Аннотация научной статьи по математике, автор научной работы — А. В. Дягилева, А. В. Каплун

В настоящее время математическая статистика является неотъемлемой частью анализа различных сфер производственной деятельности. С её помощью формируются эмпирические гипотезы, которые в дальнейшем позволяют корректировать всевозможные процессы на предприятиях. Последствия ошибочного опровержения или подтверждения статистических гипотез могут различаться по уровню значимости, а в условиях повышенного риска могут нанести непоправимый ущерб здоровью и жизни сотрудников, а также привести к существенным нарушениям производственных процессов. Поэтому для соблюдения норм охраны труда на опасных производственных объектах необходимо тщательно анализировать различные наборы данных. По причине повышенной ответственности за результат анализа гипотез важен правильный выбор статистических критериев. Одним из вариантов определения точности критерия является работа с одними и теми же данными с использованием сравниваемых критериев. В данной статье содержится подобный анализ трех формул по нахождению длины шага интервального вариационного ряда, статистическое исследование экспериментальных данных, а также описаны основные критерии анализа, на основе результатов которых формировалась оценка точности той или иной формулы длины шага.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARATIVE ANALYSIS OF FORMULAS FOR FINDING THE LENGTH OF INTERVAL VARIATION SERIES' STEP IN THE STATISTICAL DATA PROCESSING OF THE RESULTS OF MINE RESEARCHES OF TECHNOLOGICAL OPERATION OF MINING MODES

Currently, mathematical statistics is an integral part of the analysis of various spheres of production activity. With its help, empirical hypotheses are formed, which in the future allow you to adjust all kinds of processes in enterprises. The consequences of erroneous refutation or confirmation of statistical hypotheses may vary in level of significance, and in conditions of increased risk can cause irreparable damage to the health and life of employees, as well as lead to significant disruption of production processes. For this reason, in order to comply with occupational safety standards at hazardous production facilities, it is necessary to carefully analyze different data sets. Due to the elevated responsibility for the result of hypothesis analysis, the correct choice of statistical criteria is important. One way to determine the accuracy of the criterion is to work with the same data using the compared criteria.The article contains a comparative analysis of three different formulas of finding the length of interval variation series' step, a statistical research of experimental data, and describes the main criteria for statistical analysis, on the basis of the results of which an evaluation of the accuracy of the formula of step length was formed.

Текст научной работы на тему «Сравнительный анализ формул по нахождению длины шага интервального вариационного ряда при статистической обработке результатов шахтных исследований технологических режимов ведения горных работ»

| А.В.Дягилева //A.V.Diagileva

канд.техн.наук, доцент, доцент ФГБОУ ВО «Кузбасский государственный технический университет имени Т.Ф.Горбачева» (КузГТУ), Россия, 650026, г.Кемерово, ул.Весенняя, 28 Candidate of technical sciences, associate professor of FGBOU VO "Kuzbass State Technical University named after T.F.Gorbachev (KuzSTU), 28, Vesenniaia St., Kemerovo, 650026, Russia"

I А.В.Каплун/A.V.Kaplun nastiakaplun@yandex.ru

студент ФГБОУ ВО «Кузбасский государственный технический университет имени Т.Ф.Горбачева» (КузГТУ), Россия, 650026, г.Кемерово, ул.Весенняя, 28c Student of FGBOU VO "Kuzbass State Technical University named after T.F.Gorbachev (KuzSTU), 28, Vesenniaia St., Kemerovo, 650026, Russia"

УДК 519.254

«СРАВНИТЕЛЬНЫЙ АНАЛИЗ ФОРМУЛ ПО НАХОЖДЕНИЮ ДЛИНЫ ШАГА ИНТЕРВАЛЬНОГО ВАРИАЦИОННОГО РЯДА ПРИ СТАТИСТИЧЕСКОЙ ОБРАБОТКЕ РЕЗУЛЬТАТОВ ШАХТНЫХ ИССЛЕДОВАНИЙ ТЕХНОЛОГИЧЕСКИХ РЕЖИМОВ ВЕДЕНИЯ ГОРНЫХ РАБОТ»

«COMPARATIVE ANALYSIS OF FORMULAS FOR FINDING THE LENGTH OF INTERVAL VARIATION SERIES' STEP IN THE STATISTICAL DATA PROCESSING OF THE RESULTS OF MINE RESEARCHES OF TECHNOLOGICAL OPERATION OF MINING MODES»

В настоящее время математическая статистика является неотъемлемой частью анализа различных сфер производственной деятельности. С её помощью формируются эмпирические гипотезы, которые в дальнейшем позволяют корректировать всевозможные процессы на предприятиях. Последствия ошибочного опровержения или подтверждения статистических гипотез могут различаться по уровню значимости, а в условиях повышенного риска могут нанести непоправимый ущерб здоровью и жизни сотрудников, а также привести к существенным нарушениям производственных процессов. Поэтому для соблюдения норм охраны труда на опасных производственных объектах необходимо тщательно анализировать различные наборы данных. По причине повышенной ответственности за результат анализа гипотез важен правильный выбор статистических критериев. Одним из вариантов определения точности критерия является работа с одними и теми же данными с использованием сравниваемых критериев. В данной статье содержится подобный анализ трех формул по нахождению длины шага интервального вариационного ряда, статистическое исследование экспериментальных данных, а также описаны основные критерии анализа, на основе результатов которых формировалась оценка точности той или иной формулы длины шага.

Currently, mathematical statistics is an integral part of the analysis of various spheres of production activity. With its help, empirical hypotheses are formed, which in the future allow you to adjust all kinds of processes in enterprises. The consequences of erroneous refutation or confirmation of statistical hypotheses may vary in level of significance, and in conditions of increased risk can cause irreparable damage to the health and life of employees, as well as lead to significant disruption of production processes. For this reason, in order to comply with occupational safety standards at hazardous production facilities, it is necessary to carefully analyze different data sets. Due to the elevated responsibility for the result of hypothesis analysis, the correct choice of statistical criteria is important. One way to determine the accuracy of the criterion is to work with the same data using the compared criteria.The article contains a comparative analysis of three different formulas of finding the length of interval variation series' step, a statistical research of experimental data, and describes the main criteria for statistical analysis, on the basis of the results of which an evaluation of the accuracy of the formula of step length was formed.

Ключевые слова: ДЛИНА ИНТЕРВАЛА, АНАЛИЗ СЛУЧАЙНОЙ ВЕЛИЧИНЫ, ЗАКОН РАСПРЕДЕЛЕНИЯ, ГИСТОГРАММА, СТЁРДЖЕСС, ФРИДМАН, СКОТТ, ШАХТНЫЕ ИССЛЕДОВАНИЯ, ГОРНЫЕ РАБОТЫ

Key words: THE LENGTH OF THE INTERVAL, ANALYSIS OF RANDOM VALUE, DISTRIBUTION LAW, HISTOGRAM, STURGES, FREEDMAN, SCOTT, MINE RESEARCHES, MINING.

Постановка задачи

Математическая статистика в горной промышленности служит важнейшим инструментом анализа и прогнозирования экспериментальных данных временного ряда в таких условиях риска, где особенно важны точность выбранных показателей и критериев статистического анализа. Например, существует множество способов для нахождения длины интервала вариационного ряда. Наиболее распространённым в настоящее время является эмпирическое правило Стёрджесса (1926 г.), определяющее количество интервалов, на которое необходимо разбить наблюдаемый диапазон случайной величины:

п = 1 + М] = 1 + [3,3221§ М] (1) где N - количество измерений случайной величины. Соответственно, величина равных интервалов определяется по следующей формуле:

г = (Хтах — Хттп)!п , (2)

где i - величин интервала, Хтах и Хтт - максимальное и минимальное значения в выборке, а п - число интервалов. Подобный метод не дает объективно точного результата и позволяет строить относительно достоверные гистограммы только при п < 200. В связи с этим следует обратиться к альтернативным способам нахождения длины интервала вариационного ряда. Рассмотрим пару из них: 1. Формула Скотта (1979 г.)

к = 3,51т-1/3 (3)

где к — длина интервала, 5 — стандартное отклонение значений ряда измерений, п - число интервалов;

(4)

где х - среднее арифметическое выборки.

2.

(1981 г.)

Формула Фридмана Диакониса

где к — длина интервала, п - число интервалов, (Щ) — разница между верхним и нижним квартилем - значением, делящим выборку на 4 приблизительно равные части.

Данные формулы достаточно просты в использовании и обоснованы статистической теорией, что дает им преимущество в сравнении с эмпирически выведенной формулой Стёрджесса.

Ниже проведем исследование на основе этих трех методов и выясним, какой является

наиболее предпочтительным.

Анализ случайной величины Х:

Имеются 76 различных профессий горной отрасли, в каждой из которых на производствах задействовано определённое количество работников (не больше 100 сотрудников в одной специальности). Анализируется набор данных, содержащий количественные составы каждой профессии (случайная величина X), с целью проведения статистического анализа одномерных данных.

Замечание: поскольку в статье приводится исследование точности формул по нахождению интервала вариационного ряда с одними и теми же данными, но разными начальными формулами, кратко опишем порядок вычислений в общем виде, а затем приведем сравнительную таблицу с полученными величинами.

Предположим, что изучается некоторая случайная величина X, закон распределения которой неизвестен. Требуется приближенно определить этот закон из опыта и проверить гипотезу о том, что случайная величина X подчинена этому закону.

Имеем следующие данные: 45, 33, 50, 39, 45, 50, 45, 65, 45, 33, 56, 45, 56, 62, 50, 60, 62, 39, 56, 50, 50, 45, 62, 56, 70, 88, 45, 27, 76, 62, 68, 56, 62, 56, 65 56, 74, 72, 70, 62, 76, 45, 56, 62, 65, 92, 72, 45, 84, 62, 78, 72, 72, 84, 56, 33, 52, 39, 56, 76, 56, 62, 62, 65, 50, 62, 70, 68, 68, 62, 72, 72, 73, 27, 56, 62.

Составим интервальный вариационный ряд, определив величину интервала (шага) по одной из указанных формул. Если к окажется дробным, то за величину интервала принимается ближайшее целое значение.

Запишем статистическое распределение признака (интервальный вариационный ряд) и построим гистограмму и полигон распределения. Гистограмма - график, состоящий из прямоугольников, основаниями которых являются интервалы значений признака (Ох), а высота равна частоте соответствующего интервала (Оу).

Для того чтобы вывести закон распределения, используют следующий алгоритм: выдвигается гипотеза о предполагаемом законе распределения (нулевая гипотеза) - Н0, на основе анализа гистограммы и числовых характеристик (выборочная средняя Хь , среднее квадратичное отклонение оь(х)). Затем проверяют адекватность модели по критерию Пирсона. По выборке вычисляют наблюдаемое значение критерия

Пирсона:

х,

найл

= Уг

(6)

7

где и; - теоретические частоты, полученные в результате расчетов по предполагаемому закону распределения, г - число интервалов вариационного ряда. Определяют число степеней свободы k = г - 8 - 1, где 8 - число параметров предполагаемого распределения. Далее по таблице «Критические точки распределения х2» определяют/'^ в соответствии с определённым уровнем значимости а и числу к. Если х^л < Ж^зьт, то гипотеза Н0 принимается, в противном случае - отвергается.

Рассчитаем выборочную среднюю:

= ~ (7)

и среднее квадратичное отклонение

аъ СО = ^Оь(.х) (8)

Затем найдем примерные значения числовых характеристик, соответствующих нормальному распределению:

(9)

б (10) Поскольку расчеты приведены ниже, для обоснования дальнейших действий заметим, что во всех трех случаях распределение получилось предположительно нормальным.Далее используем следующие критерии для подтверждения гипотезы о нормальности распределения: Пирсона, Колмогорова, Романовского, числа Вестергарда, меру центральной тенденции, а также найдем доверительный интервал, асимметрию и эксцесс.

Доверительный интервал, в котором с вероятностью р = 1 - а находится случайная величина , рассчитывается следующим образом:

Р-2«*^-*-^2"*^ (11)

где 2а - критическое значение стандартного нормального распределения для уровня значимости а = 1 - Р, которое можно найти в соответствующей таблице.

Для а = 0,05 это значение равно ± 1,96, следовательно, доверительный интервал определяется по формуле: ±

Асимметрия - показатель симметричности или скошенности кривой распределения - находится по следующей формуле: ^ _

п *и3 . (12)

При левосторонней асимметрии ее по-

Рисунок 1 - Гоафики функций плотности распределения Figure 1 - Graphs of distribution density functions

казатель является положительным и в распределении преобладают более низкие значения признака. При правосторонней - показатель отрицательный и преобладают более высокие значения. Коэффициент эксцесса — мера остроты пика распределения случайной величины. Если в распределении преобладают значения близкие к среднему арифметическому, то формируется островершинное распределение. В этом случае показатель эксцесса стремится к положительной величине. У нормального распределения эксцесс равен нулю. Если у распределения 2 вершины (бимодальное распределение), то эксцесс стремится к отрицательной величине. Показатель эксцесса определяется по формуле:

£ _ _ 2

п*о* . (13)

Итак, сведем полученные расчеты в таблицу и проанализируем их относительно друг друга (табл.1).

Анализ полученных результатов показывает, что во всех трех случаях распределение является действительно нормальным, однако нужно заметить, что разное количество интервалов дает немного отличные друг от друга результаты.

Меньшее количество интервалов на гистограмме «сглаживает» результаты исследования, тем самым нивелируя нежелательные измерения, которые могут «выбиваться» из общей выборки и мешать статистическому анализу. Это можно видеть как раз на приведенных выше гистограммах. В обоих случаях мы имеем нормальное распределение с правосторонней асимметрией, однако, опираясь только на первый график, можно было предположить, что распределение бимодальное, несмотря на то

Таблица 1. Итоговая сравнительная таблица Table 1. Final comparative table

Фридмана Диакониса

Формула

Стёрджесса

Скотта

Длина интервала,h

9,26=9

8,73=9

11,44=11

Интервалы

6

Гистограмма

30 20 10 о

- 12 19 24 12

5 4

32,5 43,5 54.5 65,5 76,5 87,5

Примерная

59,5

59,5

Примерное

10,83

10,83

Точная

59,68 13,57

60

"W

Точное

Лнэбл "" А'нэбл

5,5 < 6,0

0,92 < 3,8

Мо/Ме/х°

57,5/58,8/59,68 277Г9 40/38 59/57 _76/76_

63,2/61,157/60 26/19 34/38 60/57 _76/76_

Числа Вестергарда

опыт/теория

Критерий Колмогорова

Л, Р(Л)>0,05

0,68825; P(0,68825)= 0.7112 >0,05

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,229416; Р(0,229416)= 1>0,05

Кумулята

Критерий Романовского _<3_

0,053569<3

1,53<3

Асимметрия

-0,13039

-0,13039

Эксцесс

-0,10195

-0,10195

Доверительный интервал

3,050024

х*± 3,120469

8

65

что дальнейшие расчеты подтверждали его нормальность. Подобные неточности могут запутать и усложнить статистический анализ.

Однако, если сравнить полученные функции плотности распределения, видно, что погрешность вычислений между двумя способами незначительна (не более 10%).

В заключение можно сказать: представленное исследование показывает, что разница

в вычислениях длины интервала вариационного ряда по различным формулам незначительна при анализе выборки небольшого размера. Для более точной оценки данных формул необходимы выборки размером более двухсот измерений, а для совокупностей элементов малых размеров каждая из трех представленных формул является справедливой.

СПИСОК ЛИТЕРАТУРЫ

1. Гмурман, В.Е. Руководство к решению задач по теории вероятностей и математической статистике: учебное пособие для студентов вузов/ В.Е.Гмурман. - 9-е изд., стер. - М: Высш. шк., 2004. - 404 с.

2. Кобзарь, А.И. Прикладная математическая статистика. Для инженеров и научных работников. - М.: ФИЗМА-ЛИТ, 2006. - 816 с.

3. Freedman, D. and Diaconis, P. (1981) On this histogram as a density estimator: L2 theory. Zeit. Wahr. ver. Geb., 57, 453-476.

4. Scott, D.W. (1979) On optimal and data-based histograms. Biometrika, 66, 605-610.

5. Sturges, H. (1926) The choice of a class-interval. J. Amer. Statist. Assoc., 21, 65-66.

6. Hyndman, R.J.(1995) The problem with Sturges' rule for constructing histograms, Department of Econometrics and Business Statistics, , Monash University, Clayton VIC 3800, Australia.

REFERENCES

1. Gmurman, V. E. Guide to solving problems in probability theory and mathematical statistics: a textbook for University students/ V. E. Gmurman. - 9th ed., erased. - M: Yes. SHK., 2004. - 404 PP.

2. Kobzar, A. I. Applied mathematical statistics. For engineers and scientists. - - M.: FIZMATLIT, 2006. - 816 PP.

3. Freedman, D. and Diaconis, P. (1981) On this histogram as a density estimator: L2 theory. Zeit. Wahr. ver. Geb., 57, 453-476.

4. Scott, D.W. (1979) On optimal and data-based histograms. Biometrika, 66, 605-610.

5. Sturges, H. (1926) The choice of a class-interval. J. Amer. Statist. Assoc., 21, 65-66.

6. Hyndman, R.J.(1995) The problem with Sturges' rule for constructing histograms, Department of Econometrics and Business Statistics, , Monash University, Clayton VIC 3800, Australia.

66

i Надоели баннеры? Вы всегда можете отключить рекламу.