УПРАВЛЕНИЕ КА ЧЕСТВОМ, СТАНДАРТИЗАЦИЯ И СЕРТИФИКАЦИЯ
УДК 531.73
ПРОВЕРКА ОДНОРОДНОСТИ ВЫБОРОК РЕЗУЛЬТАТОВ УЧЕТА ПОТРЕБЛЕННОГО И ПОСТАВЛЕННОГО РЕСУРСА ПРИ НЕИЗВЕСТНЫХ РАСПРЕДЕЛЕНИЯХ ВЕРОЯТНОСТИ
Д.Б. Белов
Рассматривается возможность применения статистического критерия Уил-коксона для проверки однородности выборок результатов учета потребленного и поставленного ресурса при неизвестных распределениях вероятности.
Ключевые слова: ресурс, объемы потребления и поставки, результаты учета, однородность выборок, статистический критерий.
При коммерческом учете какого-либо ресурса (природного газа, электрической энергии воды и т.п.) практически всегда возникают ситуации, когда потребителями учтено (и соответственно оплачено) ресурса меньше или больше, чем фактически поставлено. Разницу между объемами потребленного и поставленного ресурса называют разбалансом:
Уразб = Употр — Упост, (1)
где Уразб — объем разбаланса ресурса; Употр — объем потребленного ресурса; Упост — объем поставленного ресурса.
Из формулы (1) следует, что если зарегистрированные значения объемов Употр и Упост различаются значительно (неслучайно), то значительной будет и величина разбаланса Уразб. К причинам возникновения
такой ситуации могут относиться: нелегальный отбор ресурса из сетей, его утечки, нарушения условий учета ресурса, значительные погрешности (неопределенности) учета как поставщиком, так и потребителями и т.п.
Следовательно, чрезвычайно важной задачей при анализе причин и значений возникающего разбаланса является проверка гипотезы об однородности связанных выборок результатов учета объемов потребленного и
347
поставленного ресурса, т.е. гипотезы о том, что в зарегистрированных значениях этих объемов нет значимых различий. В нашем случае ряды результатов наблюдений объемов Употр и Упост представляют собой именно связанные выборки, поскольку каждому отдельному значению одного объема соответствует значение другого объема (например, ежедневный или ежемесячный учет ресурса, когда каждому результату учета объема потребления соответствует значение объема поставки).
Оптимальным критерием для сравнения связанных выборок является парный критерий Стьюдента, который регламентирован [1]. Применение данного критерия для проверки гипотезы о совпадении результатов учета поставленного и потребленного газа изложено в [2]. Однако, его использование будет корректным, в случае, если распределение разностей (в нашем случае разбалансов) ^^ = Употр \ - Упост 1 соответствует нормальному закону.
Альтернативой парного критерия Стьюдента является знаково ранговый критерий Уилкоксона, который относится к непараметрическим критериям, т.е. к критериям, не зависящим от вида распределения. Методика применения данного критерия изложена, например, в [3, 4, 5].
Критерий Уилкоксона, как правило, используется для проверки гипотезы однородности (отсутствия различия) связанных выборок, которая сводится к проверке симметрии функции распределения разности 6 = X - У = Употр - Упост относительно нуля [5].
В общем случае нулевая гипотеза однородности результатов наблюдений объемов Употр и Упост описывается следующим образом. Если
¥(х) и С(х) — функции распределения вероятностей значений в исследуемых выборках, тогда нулевая гипотеза Но однородности (совпадения) записывается как: ¥(х) = С(х). Альтернативная ей гипотеза Н имеет вид: ¥(х) = С(х + а) (где а — сдвиг, определяемый разностью характеристик
положения распределений, а Ф 0). В случае альтернативной гипотезы распределение разности 6 отличается сдвигом от симметричного относительно нуля [5].
Покажем построение критерия знаковых рангов Уилкоксона для проверки нулевой гипотезы однородности связанных выборок результатов учета объемов потребленного и поставленного газа.
Сначала вычисляются абсолютные значения разностей (разбалансов) объемов потребленного и поставленного газа :
\61\ = Уразб 1 = Употр 1 — Упост 1 . (2)
Далее определяются ранги ^ величин |б/| в совместной ранжировке от меньшего к большему для последовательности 1, 1621,..., 16п |.
Определяются переменные-счетчики у, 1 = 1...п, при этом:
Г1, если > 0,
у = Ь И < 0 . (3)
[0, если а1 < 0
Вычисляются произведения Иу; и определяется статистика критерия знаковых рангов, равная:
п
Т+ = I Яу. (4)
1=1
То есть, для определения статистики Т + необходимо просуммировать ранги положительных разностей в вариационном ряду, построенном по абсолютным величинам всех разностей.
Для двустороннего критерия гипотеза Н0 отклоняется (при альтернативе Н (а Ф 0)), если:
Т + < Га/2 или Т + > 71_а/2, (5)
где Та/2, ?1_а/2 — критические значения статистики Уилкоксона, определяемые в зависимости от числа п пар значений объемов Упоп1р и Упост
и уровня значимости а, которые можно найти, например, в [4].
Или, иначе, гипотеза Н0 не отклоняется, если:
Та/2 < Т + < Т1-а/2. (6)
Принятие рассматриваемой нулевой гипотезы для нашего случая будет означать, что исследуемые выборки можно считать однородными, т.е. результаты учета объемов потребления и поставки в этих выборках отличаются случайно.
В работах [3, 5] отмечается, что для практического использования статистики знаковых рангов Уилкоксона можно не обращаться к специальным таблицам, а применять асимптотические соотношения. Для этого
*
необходимо определить статистику Т :
Т +_ п(п+1)
Т * = , ~ 4 . (7)
п(п+1)(2п +1)
V 24
При выполнении гипотезы Н0 данная статистика имеет асимптотическое (при п ) стандартное нормальное распределение вероятности (математическое ожидание равно 0, а дисперсия равна 1).
Далее проверяется условие:
*
Т
< 21+Р, (8)
2
где р — квантиль стандартного нормального распределения, опреде-
2
ляемая в зависимости от уровня доверия р (например, при р = 0,95 квантиль 975 = 1,96).
Выполнение условие (8) будет означать принятие нулевой гипотезы однородности исследуемых выборок объемов потребленного и поставленного ресурса по критерию знаковых рангов Уилкоксона.
*
В работе [3] отмечается, что статистику Т можно использовать уже при п > 25 .
Еще одно приближение изложено в работе [6]. Данное приближение использует линейную аппроксимацию квантилей нормального распределения и распределения Стьюдента.
Для этого необходимо определить статистику Т
**
*
** Т Т =—(1 + 2
Далее вычисляется величина:
П_1 ). (9)
* о
п-(Т )2
иа = 21-а + '1-а , (10)
где 21_а — квантиль нормального распределения;
1_а — квантиль распределения Стьюдента с f = п -1 степенями свободы; а — уровень значимости.
Если выполняется условие:
**
Т > иа, (11)
то гипотеза Н 0 отвергается, а в противном случае — принимается.
В случае, когда все разности (разбалансы) пар наблюдений объемов Употр \ и Упост \ имеют один и тот же знак, т.е. положительны или
отрицательны, то применение критерия Уилкоксона не имеет никакого смысла, поскольку здесь сразу очевидно нарушение симметрии функции распределения этих разностей относительно нуля.
Следует еще раз отметить, что знаково ранговый критерий Уилкок-сона является непараметрическим аналогом парного критерия Стьюдента. Кроме того, он почти так же строго проверяет нормально распределенные разности и его эффективность для больших и малых выборок составляет около 95% [3].
В качестве примера рассмотрим данные по результатам ежедневного учета объемов потребленного и поставленного природного газа в одном из районов РФ за месяц (таблица).
Таблица
Данные по результатам ежедневного учета объемов потребленного и поставленного газа (в м3) и промежуточные вычисления для расчета критерия Уилкоксона
№ п/п ^потр 1 Vпост 1 4 К-| У1
1 5026 5016 10 10 1 1 1
2 5016 5050 -34 34 18 0 0
3 4972 4948 24 24 12 1 12
4 5005 5019 -14 14 5 0 0
5 5005 5020 -15 15 6 0 0
6 5057 5016 41 41 21 1 21
7 5065 5040 25 25 13 1 13
8 5036 5076 -40 40 20 0 0
9 5026 5070 -44 44 23 0 0
10 4992 4943 49 49 26 1 26
11 5033 4991 42 42 22 1 22
12 4948 4964 -16 16 7 0 0
13 5044 5026 18 18 8 1 8
14 4967 4980 -13 13 4 0 0
15 4981 4970 11 11 2 1 2
16 4944 4992 -48 48 25 0 0
17 5080 5068 12 12 3 1 3
18 4986 5014 -28 28 14 0 0
19 4992 4969 23 23 11 1 11
20 4995 4965 30 30 15 1 15
21 4966 4999 -33 33 17 0 0
22 5026 5004 22 22 10 1 10
23 4980 4945 35 35 19 1 19
24 5005 5056 -51 51 28 0 0
25 5075 5030 45 45 24 1 24
26 5039 5060 -21 21 9 0 0
27 4959 5020 -61 61 30 0 0
28 4998 4966 32 32 16 1 16
29 4977 4917 60 60 29 1 29
30 4973 5023 -50 50 27 0 0
По формуле (4) вычислим статистику Т+ рангов положительных разностей С:
Т+ =232. 351
Далее определим критические значения статистики Уилкоксона Та/2, /2 в зависимости от числа пар значений п = 30 и выбранного уровня значимости а = 0,05 [4]:
Т0,025 = 137 ; Т0,975 = 328 •
Нулевая гипотеза об однородности исследуемых выборок значений объемов Употр и Упост принимается с уровнем значимости а = 0,05, поскольку выполняется условие (6):
Т0,025 = 137 < Т + = 232 < Т0,975 = 328.
Данное обстоятельство свидетельствует о том, что между характеристиками положения, определяющими центры группирования значений объемов Употр и Упост нет какого-либо существенного сдвига, т.е. результаты учета объемов потребления и поставки в этих выборках отличаются случайно.
Для большей убедительности используем ранее изложенное асимптотическое соотношение. Для этого по формуле (7) определим статистику
*
Т :
232 _ 30(30 +1)
* /1 Т = , 4 =-0,010.
30(30 +1)(2 • 30 +1) V 24
Задавшись уровнем доверия р = 0,95 (этому соответствует квантиль стандартного нормального распределения 2^1+ р = 20975 = 1,96) проверим
2
условие (8):
*
Т
= - 0,010 £ 20 975 = 1,96.
Выполнение данного условия подтверждает ранее сделанный вывод о принятии нулевой гипотезы об однородности исследуемых выборок значений объемов поставки и потребления природного газа.
Теперь рассмотрим приближение, использующее линейную аппроксимацию квантилей нормального распределения и распределения
*
Стьюдента. Для этого по формуле (9) определим статистику Т
**
Т ** = - 0,010 + 2 (
30 _ 1
1 ) = -0,0099
30 - (-0,010)2
Задавшись уровнем значимости а = 0,05 определим квантиль 2[-а
352
нормального распределения и квантиль t\_a распределения Стьюдента с f = n -1 = 29 степенями свободы (для этого воспользуемся статистическими функциями пакета Excel НОРМСТОБР(вероятность) и СТКЮДРАСПОБР(вероятность;степени_свободы)): zo 95 = 1,645;
¿0,95 = 2,045.
В этом случае величина ua будет равна (формула (10)):
1,645 + 2,045 10/1,
"0,05 = --if-= 1,845.
Сравниваем условие (11):
**
Т = -0,0099 < u005 = 1,845.
Это еще раз подтверждает ранее сделанный вывод о том, что исследуемые выборки являются однородными и результаты учета объемов потребления и поставки природного газа в этих выборках отличаются случайно.
В заключение следует отметить, что применение изложенной методики проверки однородности выборок результатов учета объемов потребления и поставки ресурса позволит оценить стабильность и устойчивость процесса снабжения любым ресурсом, что, несомненно, повысит эффективность анализа и контроля данного процесса.
Список литературы
1. ГОСТ Р 50779.23-2005 (ИСО 3301:1975). Статистические методы. Статистическое представление данных. Сравнение двух средних в парных наблюдениях. Введ. 2005-07-01. М.: ФГУП «Стандартинформ», 2005. 6 с.
2. Протасьев В.Б., Белов Д.Б., Игнатьев А.А. Проверка статистической гипотезы о совпадении результатов учета поставленного и потребленного газа // Известия ТулГУ. Технические науки. Вып. 6: в 2 ч. Тула: Изд-во ТулГУ. 2011. Ч 2. С. 413-419.
3. Закс Л. Статистическое оценивание / Пер. с нем. Науч. ред. Ю.П. Адлера и В.Г. Горского. М.: Статистика, 1976. 598 с.
4. Ликеш И., Ляга Й. Основные таблицы математической статистики. М.: Финансы и статистика, 1985. 356 с.
5. Орлов А.И. Прикладная статистика. Учебник. М.: Издательство «Экзамен», 2004. 656 с.
6. Iman R. L. Use of a t-statistic as an approximation to the exact distribution of the Wilcoxon signed rank test statistic // Commun. Statist. 1974. V. 3. P. 795-806.
Белов Дмитрий Борисович, канд. техн. наук, доц, [email protected], Россия, Тула, Тульский государственный университет
CHECK OF UNIFORMITY OF SELECTIONS OF RESULTS OF THE ACCOUNTING OF THE CONSUMED AND PUT RESOURCE AT UNKNOWN DISTRIBUTIONS OF
PROBABILITY
D.B. Belov
Possibility of application of statistical criterion of Wilcoxon for check of uniformity of selections of results of the accounting of the consumed and put resource at unknown distributions of probability is considered.
Key words: resource, consumption and delivery volumes, results of the account, uniformity of selections, statistical criterion.
Belov Dmitry Borisovich, candidate of tehnical science, docent, [email protected], Russia, Tula, Tula State University
УДК 531.73
ПРИМЕНЕНИЕ РЕГРЕССИОННОГО АНАЛИЗА ДЛЯ ИССЛЕДОВАНИЯ ПРОЦЕССА ПОСТАВКИ И ПОТРЕБЛЕНИЯ ЭНЕРГЕТИЧЕСКОГО РЕСУРСА
Д.Б. Белов, С.И. Соловьев
Рассмотрена возможность применения регрессионного анализа для исследования процесса поставки и потребления энергетического ресурса.
Ключевые слова: регрессионный анализ, энергетический ресурс, процесс поставки и потребления.
В процессе снабжения каким-либо энергетическим ресурсом (природным газом, электрической энергией, нефтепродуктами и др.) довольно часто наблюдаются ситуации, когда результаты учета объемов потребления Употр и поставки Упост не соответствуют друг другу [1, 2]. Такое несоответствие может быть вызвано различными причинами, начиная от несанкционированного отбора ресурса, заканчивая наличием погрешностей в результатах измерения объемов потребленного и поставленного ресурсов. Поэтому исследование причинно-следственных отношений между указанными объемами является важнейшей задачей при выявлении признаков, оказывающих влияние на вариацию рассматриваемых величин.
Подходящим способом решения обозначенной выше задачи может служить проведение регрессионного анализа, который представляет собой статистический метод исследования влияния одной величины (факторного