УДК 004.67+519.25+51.74+519.237.5
АНАЛИЗ МАЛОЙ ВЫБОРКИ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ ПРИ УПРАВЛЕНИИ ГАЗОСНАБЖЕНИЕМ РЕГИОНА
А.М. Кумаритов, А.Э. Дзгоев, Р.Б. Шарибов
Северо-Кавказский горно-металлургический институт (Государственный технологический университет), г. Владикавказ, Россия [email protected], [email protected]
Резюме: Проведен анализ малой выборки экспериментальных данных по газопотреблению населением, позволяющий принимать верные решения по прогнозированию газопотребления при управлении газоснабжением в регионе. Разработаны новые полезные адекватные регрессионные модели, которые используются для прогнозирования газопотребления.
Ключевые слова: малая выборка данных, анализ экспериментальных данных, прогнозирование газопотребления, математическая статистика, регрессионные модели.
DOI: 10.30724/1998-9903-2018-20- 1-2 -62-69
ANALYSIS OF A SMALL SAMPLE OF EXPERIMENTAL DATA IN THE MANAGEMENT OF GAS CONSUMPTION IN THE REGION
A.M. Kumaritov, A.E. Dzgoev, R.B. Sharibov
North-Caucasian Institute of Mining and Metallurgy (State Technological University), Vladikavkaz, Russia
Abstract. Analysis of a small sample of experimental data on gas consumption population, allowing to make the right decisions for forecasting of gas consumption in the management of gas supply to the region. Developed new helpful adequate regression models, which are used for forecasting gas consumption.
Keywords: small data sample, the analysis of experimental data, gas consumption forecasting, mathematical statistics, regression models.
Введение
В настоящее время у субъектов газовой отрасли возникает необходимость более глубокого понимания тех факторов, которые влияют на принятие единственного верного решения газораспределительными организациями [1].
При этом своевременный анализ малой выборки экспериментальных данных и прогнозирование газопотребления - одно из важнейших условий качественного управления газоснабжением региона.
Прогнозные оценки газопотребления составляют основную информацию для принятия решений о планировании газопотребления и газораспределения в регионе. Оперативное прогнозирование потребления газа является основой для формирования
энергосбытовой компанией заявки на необходимые объемы газа. Точность подаваемой заявки напрямую зависит от корректного прогнозирования газопотребления.
Методика исследования
Классический параметрический метод подбора вида зависимости между переменными основывается на методе наименьших квадратов, он обладает оптимальными свойствами при выполнении условий независимости и гомоскедастичности [2 —4].
Регрессионный анализ является одним из наиболее часто используемых видов математико-статистической обработки и анализа исследовательской информации. Многие исследователи останавливают свой выбор на традиционном виде, называемом классическим или каноническим регрессионным анализом [5].
Регрессионный анализ используется по двум причинам:
1. Описание зависимости между переменными помогает установить наличие возможной причинной связи.
2. С помощью сравнения регрессии можно предсказывать значения зависимой переменной по значениям независимых переменных, что позволяет определить предиктор для зависимой переменной.
Термин «множественная регрессия» объясняется тем, что анализу подвергается зависимость одного признака (результирующего) от набора независимых (факторных) признаков.
В научной публикации авторов Алкацев М.И., Дзгоев А.Э., Бетрозов М.С. «Исследование и разработка метода прогнозирования потребления электроэнергии в системе управления электроснабжением региона» подробно описан новый разработанный метод прогнозирования, названный «методом скользящей матрицы», который заключается в непрерывном обновлении коэффициентов регрессионной модели путём удаления строки с устаревшими данными и ввода новой строки с данными в прогнозируемой точке. Данный метод был использован в настоящей работе при анализе экспериментальных данных для прогнозирования газопотребления.
Для проведения анализа и прогнозирования использованы экспериментальные данные фактического потребления газа (тыс. м3) за два года, за определенный временной интервал - 1 месяц.
Расчеты проведены в программе Ыа^Саё 14.
Исходные данные для получения моделей часто характеризуются отсутствием необходимой информации: структуры многофакторной модели, статистически значимых факторов, закона распределения моделируемого критерия и др. Полученные данные представляют суммарное влияние групп управляемых, неуправляемых и неконтролируемых факторов. Решаемая задача получения моделей относится к классу обратных задач: по полученным данным восстановить влияние факторов в виде главных эффектов и взаимодействий эффектов [6].
Результаты исследования и их обсуждение
Устойчивая структура многофакторной статистической модели - структура, которая характеризуется неизменностью множества главных эффектов и взаимодействий многофакторной статистической модели полиномиального вида при изменении значений результатов экспериментов (откликов), порождаемых случайными ошибками (погрешностями) результатов наблюдений, измерений, вычислений и неопределенностью искомой структуры модели [7].
В качестве независимых переменных (Х) были выбраны время и температура окружающей среды (по данным метеослужбы), а зависимой - потребление газа (У).
Минимальное значение наблюдений (экспериментальных данных) для проверки наличия автокорреляции во временном ряду по методу Дарбина -Уотсона не должно быть менее 15-ти. Также в графике газопотребления (рис. 1) явно отслеживается цикличность
данных, с повышением потребления газа в зимние месяцы года, и понижением в летние. Во избежание ошибок прогноза было решено не прерывать цикл на 15 месяцах, а увеличить число статистических наблюдений до двадцати четырех месяцев (Ы = 24). С другой стороны, при N>24 возрастает число «устаревших» экспериментальных данных и их негативное влияние при формировании регрессионных моделей, которые будут использованы для прогнозирования газопотребления.
Для проведения аппроксимации экспериментальных данных использовались линейные и нелинейные регрессионные уравнения второй степени. Однако разработанные линейные регрессионные модели оказались неадекватными экспериментальным данным, появлялась автокорреляция во временном ряду, а также наблюдалось увеличение абсолютной ошибки прогноза.
Установлено, что ошибка прогноза будет меньше, если описывать экспериментальные данные полиномом второй степени, который представлен в виде регрессионной модели:
УР := В + Б2т + Б3Т2 + В4А+В5А2 + Б6т ■ А, (1)
где УР - прогнозное значение; В - коэффициенты регрессионной модели; т - время; А - температура окружающей среды.
Рассмотрим метод обработки информации на основе скользящей матрицы независимых и зависимых переменных:
а) формирование матрицы независимых переменных Х и вектора-столбца зависимой переменной У показано на рис. 1. Проведен экспериментальный расчет. Ы:= 24; к:= 6,
где N - число опытов; к - число коэффициентов регрессии в уравнении, включая свободный член; X - матрица независимых переменных; У - вектор-столбец зависимой переменной (потребление газа).
При оценке множественной регрессии для обеспечения статистической надежности требуется, чтобы число наблюдений, по крайней мере, в 3-4 раза превосходило число оцениваемых параметров.
1 1 273.15 74610.92 273.15 ' (120846.73"
1 2 4 275.73 76027.03 551.46 90902.60
1 3 9 279.13 77913.56 83739 84527.87
1 4 16 284.53 8095732 1138.12 52725.61
1 5 25 290.38 84320.54 14515 31391.18
1 б 36 292.2 85380.84 17532 26879.57
1 7 49 293 Л 86030.76 2053.17 26157.61
1 ! 64 293.17 85948.65 2345 36 30899.96
1 9 81 28734 82564.28 2586.06 4022439
1 10 100 282.81 79981.5 2828.1 73409.62
1 И 121 279.58 78164.98 3075.38 87376.92
1 12 144 270.56 73202.71 3246.72 136997.13
1 13 169 27123 73565.71 3525.99 127322.73
1 14 196 273.11 74589.07 3823.54 1180433
1 15 225 278.71 7767926 4180.65 97914.92
1 16 256 286.8 82254.24 4588.8 71330.16
1 17 289 291.4 84913.96 4953.8 44710.97
1 18 324 291.66 85065.56 5249.88 3052635
1 19 361 293.95 86406.6 5585.05 30668.00
1 20 400 29538 8724934 5907.6 32874.72
1 21 441 288.74 83370.79 6063.54 43718.14
1 22 484 280.44 78646.59 6169.68 82619.79
1 23 529 274.18 75174.67 6306.14 11470225
24 576 274.98 75614 6599.52, ,127143.04.
Рис. 1. Матрица независимых переменных Х и вектор-столбец зависимой переменной У
— расчет коэффициентов регрессионной модели производился по формуле
В := (ХТХ) 1ХТУ, где В - коэффициенты регрессионного уравнения.
В результате получено 6 коэффициентов регрессии:
Разработана новая полезная адекватная регрессионная модель, которая представлена в виде формулы
Г = 6,14-10б -2,182-103 • X!-12,272• X!2 -3,827-104 • Х2 +12,272• Х22 +11,291-X! • Х2. (3) б) удаление первой строки в матрице независимых переменных (Х) и в вектор-столбце зависимой переменной (У), а также добавление двадцать четвертой строки в матрицы (Л") и (У) показано на рис. 2.
X 0 X —1- 4 273.15 275-73 -Г/
I 2 746Ю.92 76027.03 273.15 551.46
1 3 9 279.13 77913.56 837.39
1 4 16 284.53 80957.32 1138.12
1 5 25 290.38 84320.54 1451.9
1 б 36 292 2 85380.84 1753.2
1 7 49 293.31 86030.76 2053.17
1 8 64 293.17 85948.65 2345.36
1 9 81 287.34 82564.28 2586.Об
1 Ю 100 282.81 79981.5 2828.1
1 11 121 279.58 78164.98 3075.38
1 12 144 270.56 73202.71 3246.72
1 13 169 271.23 73565.71 3525.99
I 14 196 273.11 74589.07 3823.54
1 15 225 278.71 77679.26 4180.65
1 16 256 286.8 82254.24 4588.8
1 17 289 291.4 84913.96 4953.8
1 18 324 291.66 85065.56 5249.88
1 19 361 293.95 864Об.6 5585.05
1 20 400 295.38 87249.34 5907.6
1 21 441 288.74 83370.79 6063.54
1 22 484 280.44 78646.59 6169.68
1 23 529 274.18 75174.67 6306.14
1 24 576 274.98 75614 6599.52
25 625 273.2 74638.24 6830
120846.73"
90902.60 84527.87
52725.61 31391.18 26879.57
26157.61 30899.96 40224.39
73409.62 87376.92 136997.13 127322.73
118043.3 97914.92 71330.16 447Ю.97 30526.35 30668.00 32874.72 43718.14 82619.79 114702.25 127143.04
126983
Рис. 2. Исключение первой строки матрицы (Х) и (У), а также добавление двадцать пятой строки
Добавленные в матрицы (Х) и (У) значения независимых переменных и потребление газа в прогнозной точке находятся в конце матрицы на 25 месяц.
Основополагающая задача, стоящая при выборе факторов, которые включаются в корреляционную модель, состоит в том, чтобы добавить в анализ все главные факторы, которые могут оказать влияние на уровень исследуемого явления. Ограничивающим критерием является то, что добавление в модель значительного числа факторов неоправданно, корректнее произвести выборку только из сравнительно небольшого числа базовых факторов. Базовые факторы находятся в корреляционной связи с обозначенным функциональным показателем [8]. Для решения данной задачи были выбраны следующие факторы:
X0 - фиктивная переменная, для формирования свободного члена коэффициента регрессии;
X1 - время (месяцы);
тл 2
X1 - время в квадрате;
X2 - температура окружающей среды (по данным метеослужбы), оС;
V 2
X2 - температура окружающей среды в квадрате;
X3 - произведение X¡ • Х2;
Y - потребление газа, тыс. м3.
Пять из шести факторов были взяты как реальные факторы, которые имеют физический смысл и исследуется в эксперименте. Но один фактор взят как фиктивный (формальный) и не имеющий физического смысла. Сочетание всех шести факторов позволяет функционально представить уровни коррелированных факторов [9].
С помощью критерия Фишера оценивают качество регрессионной модели в целом и по параметрам по формулам (4-8).
Для этого выполняется сравнение расчетного значения F-критерия Фишера (FR) с табличным значением (F). FR определяется из отношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы.
F табличный - это максимальное значение критерия под влиянием случайных факторов при текущих степенях свободы и уровне значимости а.
Уровень значимости а — вероятность не принять гипотезу при условии, что она верна. Как правило, а принимается равной 0,05 или 0,01.
Если F^j, > F,^, то признается статистическая незначимость модели, ненадежность уравнения регрессии [10].
Проведена проверка разработанной регрессионной модели на ее адекватность.
Адекватность регрессионных моделей экспериментальным данным по потреблению газа определена с помощью F-критерия Фишера при уровне значимости 0,05.
FR := DL, (4)
Dad
F := 9F(0.95,N-1,N - k), r := corr(Y,YR),
Y(Y - YSR)2
DY: = Y ) , (5)
N -1
Yy
YSR , (6)
N
Y(Y - YR)2
Dad : =Y--, (7)
N - k
YR : = X • B, (8)
F = 2,159, FR = 27,928,
где FR - расчётное значение F - статистики; F - табличное значение F-критерия Фишера; r - коэффициент корреляции между экспериментальным и расчётным значениями зависимой переменной; DY - дисперсия зависимой переменной; Dad - дисперсия адекватности.
Вывод: в связи с тем, что FR > F (27,928 > 2,159), регрессионная модель признана адекватной экспериментальным данным.
Для оценки статистической значимости модели по параметрам рассчитывают t-критерии Стьюдента.
Оценка значимости модели с помощью критерия Стьюдента проводится путем сравнения их значений с величиной случайной ошибки.
Сравнивая фактическое и табличное значения t-статистики и принимается или отвергается гипотеза о значимости модели по параметрам.
Как и в случае с оценкой значимости уравнения модели в целом, модель считается ненадежной, если 1габл > t,^.
Ошибка прогноза и доверительный интервал коридора ошибок рассчитаны по формулам (9) и (10):
— ошибка прогноза
DP := X(XTX)-1XT; (9)
— интервал коридора ошибок
S, = t- TDäd^T+Dp"); (10-
t — табличное значение критерия Стьюдента;
Ymin = YP-SN N, Ymax = YP + SN , — коридор ошибок в прогнозной точке; YP = 126383,555 тыс. м3 - прогнозное значение; S20,20 = 18291,508 тыс. м3 - интервал коридора ошибок; YMAX : = YP + S20 20;
Ymax = 144675,063 тыс. м3. - максимальное значение коридора ошибок в прогнозной
точке;
YMIN : = YP - S20,20i
Ymin = 108092,048 тыс. м3 - минимальное значение коридора ошибок в прогнозной
точке.
Результаты проведенного анализа малой выборки экспериментальных данных, а также расчеты прогнозных оценок газопотребления на 7 месяцев вперед (30% от 24 месяцев) представлены в таблице, где Y(tAKT - фактические значения потребление газа,
(тыс. м3); YnP0rH03- прогнозные значения потребление газа, тыс. м3; AY - абсолютная ошибка (тыс. м3), е,% - относительная ошибка прогнозной оценки (%); FR-R - знак « > » показывает, что расчетное значение критерия Фишера (FR) больше табличного значения F-статистики (F) - следовательно, разработанные новые полезные адекватные регрессионные модели адекватны; r - коэффициент корреляции между зависимой переменной (У) и расчетным значением зависимой переменной (YR).
Таблица
Результаты проведенного анализа экспериментальных данных__
Дата t°C УФАКТ. YnporH. АУ е,% FR-F r
01.2015 0,05 126983,6 126383,6 600,077 0,47 > 0.986
02.2015 -0,65 113590,1 130315,4 16725,33 14,72 > 0.988
03.2015 3,85 111606,6 100735 10871,6 9,74 > 0.986
04.2015 14,28 79154,75 53607,12 25547,63 32,28 > 0.986
05.2015 18,35 48124,41 62793,66 14669,25 30,48 > 0.984
06.2015 21,31 33680,01 45384,21 11704,2 34,75 > 0.982
07.2015 22,71 32540,90 34795,77 2254,876 6,93 > 0.981
Графики фактических данных (потребление газа, тыс. м3), прогнозных значений потребления газа, тыс. м3 и выбранный полиномиальный тренд второй степени (рабочие дни) показаны на рис. 3.
Графики фактических, прогнозных значений газопотребления
140000 120000 100000 8СООО 6СООО 40000 20000 о
Фактическое потребление Прогноз
Рис. 3. Графики фактических, прогнозных значений потребления газа
Аналогично производится прогнозирование потребления газа на 26-й месяц.
Выводы
В результате анализа малой выборки экспериментальных данных были разработаны новые полезные адекватные регрессионные модели, на основе которых рассчитаны прогнозные оценки газопотребления, необходимые газораспределительным компаниям для подачи заявки на оптовый рынок газа и мощности, а также для эффективного управления газоснабжением в регионе.
Литература
1. Никаноров В.В., Марченко С.Г., Бернер Л.И., Зельдин Ю.М. Подсистема прогнозирования газопотребления крупного промышленного кластера АСУТП магистрального транспорта газа // ИТНОУ: Информационные технологии в науке, образовании и управлении. 2017. № 3. С. 20-24.
2. Кривенко М.П. Сравнительный анализ процедур регрессионного анализа // Информатика и ее применения. 2014. Т. 8, вып. 3. С. 70-78.
3. Quinn J., Sugiyama M. A least-squares approach to anomaly detection in static and sequential data // Pattern Recognition Letters, 2014. Vol.40. Pp. 36-40.
4. Wimalawarne K., Tomioka R., Sugiyama M. Theoretical and experimental analyses of tensor-based regression and classification // Neural Computation. 2016. vol. 28, no. 4, pp.686-715.
5. Прилуков А.Н. Идеи толерантного регрессионного анализа и их реализация // Успехи современной науки и образования. 2017. Том 1, № 1. С. 134-136.
6. Радченко С.Г. Статус математических моделей, получаемых с использованием регрессионного анализа // Математические машины и системы. 2016. № 2. С. 138-147.
7. Радченко С.Г. Статистическая эффективность и устойчивость моделей в регрессионном анализе // Математические машины и системы. 2016. № 1. С. 139-147.
8. Сазонов А.А. Применение регрессионного анализа в прогнозировании // Научные исследования и разработки молодых ученых. 2015. № 7. С. 201-204.
9. Радченко С.Г. Использование эвристики в планировании эксперимента и регрессионном анализе // Математические машины и системы. 2015. №3. С. 87-92.
10. Мансурова А.С. Сравнительный анализ методов проверки гипотезы об отсутствии тренда во временном ряду. Актуальные проблемы экономики современной России // Марийский государственный университет, 2016. С. 516-522 с.
Авторы публикации
Кумаритов Алан Мелитонович - д-р техн. наук, профессор, заведующий кафедроай «Информационные системы в экономике» Северо-Кавказского горно-металлургического института (Государственного технического университета) (СКГМИ (ГТУ). E-mail: [email protected].
68
Дзгоев Алан Эдуардович — канд. техн. наук, доцент кафедры «Информационные системы в экономике» Северо-Кавказского горно-металлургического института (Государственного технического университета (СКГМИ (ГТУ). E-mail: [email protected].
Шарибов Ратмир Борисович — аспирант кафедры «Информационные системы в экономике», Северо-Кавказского горно-металлургического института (Государственного технического университета) (СКГМИ (ГТУ). СКГМИ (ГТУ). E-mail: [email protected].
References
1. Nikanorov V.V, Marchenko S.G, Berner L.I, Zeldin Yu.M. Gas Consumption Forecast Subsystem for Large Industrial Hub for Gas Pipelines APCS // ITNO: Information technologies in Science, education and management. No. 3, 2017. p. 20—24.
2. Krivenko M.P. Comparative analysis of regression analysis procedures // Informatics and its applications. Volume 8, issue 3, 2014. 70—78 p.
3. Quinn J., Sugiyama M. A least-squares approach to anomaly detection in static and sequential data // Pattern Recognition Letters, vol.40, pp.36—40, 2014.
4. Wimalawarne K., Tomioka R., Sugiyama M. Theoretical and experimental analyses of tensor-based regression and classification // Neural Computation, vol.28, no.4, P. 686—715, 2016.
5. Prilukov A.N. Ideas of tolerant regression analysis and their implementation // Advances in modern science and education. Volume 1, No. 1, 2017. P. 134—136.
6. Radchenko S.G. Status of Mathematical Models Obtained Using Regression Analysis // Mathematical Machines and Systems. No. 2, 2016. P.138—147.
7. Radchenko S.G. Statistical efficiency and stability of models in regression analysis // Mathematical machines and systems. No. 1, 2016. P. 139—147.
8. Sazonov A.A. Application of regression analysis in forecasting // Scientific research and development of young scientists. No. 7, 2015. P. 201—204.
9. Radchenko S.G. Use of heuristics in experiment planning and regression analysis. // Mathematical machines and systems. No. 3, 2015. P. 87—92.
10. Mansurova A.S. Comparative analysis of methods for testing the hypothesis of the absence of a trend in the time series. Actual problems of the economy of modern Russia // Mari State University, 2016. P. 516—522.
Authors of the publication
Alan Kumaritov — Dr. Sci. (Tech.), prof. The Chair of Information Systems in Economy. Federal State Budgetary Educational Institution of Higher Professional Education «North Caucasian Institute of Mining and Metallurgy (State Technological University),Vladikavkaz. Head of the Chair.
Alan Dzgoev — Cand. Sci. (Tech.). The Chair of Information Systems in Economy. Federal State Budgetary Educational Institution of Higher Professional Education «North Caucasian Institute of Mining and Metallurgy (State Technological University), Vladikavkaz. Associate Professor. Deputy Head of Chair.
Ratmir Sharibov — Post-graduate student (PG). The Chair of Information Systems in Economy. Federal State Budgetary Educational Institution of Higher Professional Education «North Caucasian Institute of Mining and Metallurgy (State Technological University), Vladikavkaz.
Поступила в редакцию 01 ноября 2017 г.