Корреляционно-регрессионный анализ
КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ
ОСНОВНЫХ ПОКАЗАТЕЛЕЙ НЕФТЕДОБЫВАЮЩЕЙ ПРОМЫШЛЕННОСТИ
л.с. хромцова,
старший преподаватель кафедры бухгалтерского учета, анализа и аудита Югорский государственный университет, г. Ханты-Мансийск
Стохастические связи между различными явлениями и их признаками в отличие от функциональных, жестко детерминированных характеризуются тем, что результативный признак (зависимая переменная) испытывает влияние не только рассматриваемых независимых факторов, но и подвергается влиянию ряда случайных (неконтролируемых) факторов. Причем полный перечень факторов неизвестен, так же как и точный механизм воздействия на результативный признак. В этих условиях значения зависимой переменной тоже не могут быть измерены точно. Их можно рассчитать с определенной вероятностью, поскольку они подвержены случайному разбросу и содержат неизбежные ошибки измерения переменных.
При изучении стохастических взаимосвязей аналитика должны интересовать не только наличие и количественная оценка соотношений, но форма и связи результативного и факторного признаков, ее аналитическое выражение. Решить эти проблемы помогает корреляционный и регрессионный анализ.
Корреляционный анализ ставит задачу измерить тесноту связи между варьирующими переменными и оценить факторы, оказывающие наибольшее влияние на результативный признак.
Регрессионный анализ предназначен для выбора формы связи, для определения расчетных значений зависимой переменной (результативного признака) [1].
Для проведения стохастического факторного анализа обозначенными ранее способами были использованы данные по нефтедобывающей отрасли, опубликованные в ежегодных статистических сбор-
никах Росстата [2-7], а также специализированных периодических изданиях [8] за десять лет.
Исследуем зависимость объема добытой нефти (Y) от следующих факторов, которые могут оказывать на него влияние: числа действующих организаций в отрасли (Х), среднегодовой численности промышленно-производственного персонала (Х), объема эксплуатационного бурения на нефть (Х), среднесуточного дебита одной скважины (Х), степени износа основных фондов отрасли (Х), количества введенных в действие производственных мощностей (нефтяных скважин, Х), коэффициента обновления основных фондов (Х7), уровня рентабельности предприятий отрасли (Х).
Исходные данные для анализа приведены в табл. 1.
Расчеты производились с использованием инструмента «Пакет анализа» надстройки «Анализ данных» ППП Microsoft Excel.
Результаты основных статистических характеристик для всех массивов данных представлены в сводной табл. 2.
Наиболее важными показателями данной табл. 2 являются среднеквадратическое отклонение и коэффициент вариации, поскольку именно они свидетельствуют об однородности исследуемой информации.
Среднеквадратическое отклонение показывает абсолютное отклонение индивидуальных значений от среднеарифметического, а коэффициент вариации относительную меру отклонения отдельных значений от среднеарифметического.
Основные показатели нефтедобывающей отрасли
Таблица 1
Год Добыча нефти (включая газовый конденсат), млн т Число действующих организаций в отрасли (на конец года) Среднегодовая численность промыш-ленно-производственно-го персонала, тыс. чел. Объем эксплуатационного бурения на нефть, млн м Среднесуточный дебит одной скважины, т Степень износа основных фондов, % Ввод в действие производственных мощностей (нефтяных скважин), ед. Коэффициент обновления основных фондов Уровень рентабельности, %
Г л; X, X, X X. х< л; X.
1995 306,83 214,00 213,00 10,20 7,50 46,90 4198,00 3,40 21,20
1996 301,23 273,00 246,00 6,90 7,40 48,30 2921,00 3,00 14,90
1997 305,64 275,00 264,00 7,40 7,30 49,80 2390,00 1,60 14,70
1998 303,28 385,00 289,00 5,00 7,70 52,10 2274,00 1,70 17,60
1999 305,17 431,00 261,00 5,30 7,70 51,20 2081,00 1,70 57,90
2000 323,52 439,00 267,00 9,30 7,50 53,30 2833,00 2,90 66,70
2001 348,13 421,00 347,00 8,80 7,70 51,00 3813,00 4,20 46,50
2002 379,56 436,00 331,00 8,60 8,30 53,90 3145,00 3,70 20,60
2003 421,34 465,00 321,00 9,10 9,40 53,70 3004,00 4,10 20,70
2004 459,21 637,00 293,00 8,30 10,10 53,10 3123,00 3,70 36,30
Таблица 2
Описательная статистика
Показатель ¥
Среднее 345,391 397,6 283,2 7,89 8,06 51,33 2978,2 3 31,71
Стандартная ошибка 17,883801 38,170728 13,059522 0,5433333 0,2989612 0,7535177 208,3122 0,3186778 6,0333785
Медиана 315,175 426 278 8,45 7,7 51,65 2962,5 3,2 20,95
Стандартное отклонение 56,553544 120,70644 41,297834 1,7181709 0,9453982 2,3828321 658,74102 1,0077478 19,079218
Дисперсия выборки 3198,3034 14570,044 1705,5111 2,9521111 0,8937778 5,6778889 433939,73 1,0155556 364,01656
Эксцесс 0,2899525 0,7141652 -0,5509256 -0,5498725 1,4847799 -0,4443731 -0,0336377 -1,4618167 -0,6118657
Асимметричность 1,2255416 0,3345469 0,0085939 -0,6713548 1,5930632 -0,7642005 0,5472065 -0,4519144 0,955632
Интервал 157,98 423 134 5,2 2,8 7 2117 2,6 52
Минимум 301,23 214 213 5 7,3 46,9 2081 1,6 14,7
Максимум 459,21 637 347 10,2 10,1 53,9 4198 4,2 66,7
Сумма 3453,91 3976 2832 78,9 80,6 513,3 29782 30 317,1
Счет 10 10 10 10 10 10 10 10 10
Наибольший (1) 459,21 637 347 10,2 10,1 53,9 4198 4,2 66,7
Наименьший (1) 301,23 214 213 5 7,3 46,9 2081 1,6 14,7
Уровень надежности (95,0 %) 40,455999 86,348251 29,542713 1,2291063 0,6762977 1,7045767 471,2353 0,7208999 13,648461
Коэффициент вариации 16,37 30,36 14,58 21,78 11,73 4,64 22,12 32,59 60,17
Чем больше коэффициент вариации, тем относительно больший разброс и меньшая вырав-ненность изучаемых показателей. Изменчивость вариационного ряда принято считать незначительной, если вариация не превышает 10 %, средней — если составляет 10-12 %, значительной — когда она больше 20 %, но не превышает 33 %. Если же вариация выше 33 %, то это говорит о неоднородности информации и о необходимости исключения нетипичных наблюдений [1, 9].
В соответствии с полученными коэффициентами вариации (табл. 2) по фактору Х5 наблюдается незначительная вариация; среднюю вариацию имеет также один фактор (Х); все остальные факторы (за исключением Х8) обладают значительной вариацией, но ее величина не превышает 33 %. Коэффициент вариации последнего фактора составляет 60,2 %, что свидетельствует о неоднородности представленных данных и необходимости его исключения.
В целом совокупность данных однородна, и для ее изучения могут использоваться метод наименьших квадратов и вероятностные методы оценки статистических гипотез.
Найденные значения коэффициентов асимметрии, недостаточно близкие к нулю (за исключением фактора Х2), указывают, что распределение данных около средних величин не симметрично. При этом отрицательная асимметрия (по факторам Х3, Х5, Х7) степени износа основных фондов (Х), количества введенных в действие нефтяных скважин (Х) коэффициента обновления основных фондов (X), уровня рентабельности предприятий отрасли (Х) (табл. 2) свидетельствует о том, что преобладают данные с большими значениями,
Отношение показател
а с меньшими значениями встречаются реже. Положительная асимметрия (факторы Хр Х4, Х6, Х) показывает, что чаще встречаются данные с небольшими значениями.
В нормальном распределении показатель эксцесса равен нулю. По факторам Хр Х4 эксцесс больше нуля, это указывает на то, что данные густо сгруппированы около средней, образуя островершинность. По оставшимся шести факторам величина эксцесса имеет отрицательное значение, что свидетельствует о плосковершинной кривой распределения.
Однако представленные в табл. 3 отношения показателей асимметрии и их ошибки, а также эксцесса и их ошибки меньше трех, что говорит о несущественности значений асимметрии и эксцесса, следовательно, изучаемая информация соответствует закону нормального распределения и ее можно использовать для корреляционного анализа.
Значения линейных коэффициентов парной корреляции определяют тесноту попарно связанных переменных, использованных в уравнении множественной регрессии. Если коэффициенты корреляции больше нуля, то корреляционная зависимость между переменными будет являться прямой. В случае отрицательных величин — обратной.
Анализ парных коэффициентов корреляции (табл. 4) показывает, что практически все факторные признаки имеют тесную связь с результативным.
Наибольшая сила связи у факторов Хр Х4 (парные коэффициенты корреляции 0,805 и 0,964 соответственно). При этом, однако, наблюдается и высокая мультиколлинеарность: большинство факторов имеет достоверную связь друг с другом. При наличии сильной коллинеарности факторов рекомендуется
Таблица 3
й асимметрии и их ошибки
Показатель Y Х1 Х2 Х3 Х4 Х5 Х6 Х7 Х8
Отношение асимметрии к его ошибке 1.58217 0,43190 0,01109 -0,86672 2,05664 -0,98658 0,70644 -0,58342 1,23372
Отношение эксцесса к его ошибке 0.18716 0,46099 -0,35562 -0,35494 0,95842 -0,28684 -0,02171 -0,94360 -0,39496
Таблица 4
Матрица коэффициентов парной корреляции
Y X. X, X, X. X6 X7
Y 1
X, 0,8053874 1
X.2 0,566621 0,5932298 1
X, 0,3824657 -0,002218 0,0684611 1
X4 0,9643069 0,8052649 0,4342232 0,2199847 1
X.5 0,6295573 0,819135 0,7195149 -0,0129454 0,5835894 1
X6 0,2213437 -0,1529791 0,0392279 0,8133753 0,0943772 -0,3235968 1
X7 0,6626071 0,3322144 0,4810976 0,7572187 0,5213128 0,2123855 0,7792986 1
исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи. Таким образом, из уравнения множественной регрессии необходимо исключить факторы Х2, Х5, Х, Х7 как малоинформативные, недостаточно статистически надежные.
После исключения указанных факторов матрица коэффициентов парной корреляции будет выглядеть следующим образом (табл. 5).
Таблица 5
Матрица коэффициентов парной корреляции
У X, X, X
Y 1
X, 0,8053874 1
Хз 0,3824657 -0,002218 1
Х4 0,9643069 0,8052649 0,2199847 1
долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 97,21 %. Это означает, что 97,2 % вариации результативного признака (У) объясняется вариацией факторных переменных (Х, Х3, Х) Следовательно, наблюдается весьма тесная связь факторов с результатом.
Скорректированный коэффициент множественной детерминации (множественный коэффициент корреляции) R=0,9859 определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов в модели и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 95 %) детерминированность результата У в модели факторами Х, Х, Х, полученное уравнение достаточно хорошо описывает изучаемую взаимосвязь между факторами.
Так как исходные данные являются выборочными, то необходимо оценить существенность или значимость величины коэффициента корреляции. Выдвигаем нулевую гипотезу: коэффициент корреляции генеральной совокупности равен 0, и изучаемый фактор не оказывает существенного влияния на результативный признак.
Для проверки нулевой гипотезы применим ¿-критерий Стьюдента.
Критическое значение (¿кр) находится по таблицам ¿-распределения Стьюдента [10,11,12] при уровне значимости а=0,05 и числе степеней свободы df=6 для двусторонней критической области, ¿кр=2,45. Сравниваем I с I По результатам табл. 8 значения
* расч. кр. *
¿рае, х3 (2,931 ¿рае, х4 (6Л5) > ^ (2,45), а ^ х0(-2,80) и ¿раеч х1(1'59) < Iкр Следовательно, коэффициенты регрессии Ь3 и Ь4 статистически значимы, на них можно опираться в анализе и прогнозе, а величина Ь, оценивающая агрегированное влияние прочих
Таблица 7
Показатели дисперсионного анализа (основное разложение)
Показатели корреляционно-регрессионного и дисперсионного анализа представлены в табл. 6-8.
Таблица 6 Показатели регрессионной статистики
Множественный И 0,9859391
R-квадрат 0,9720759
Нормированный R-квадрат 0,9581139
Стандартная ошибка 11,5743
Наблюдения 10
Задача дисперсионного анализа состоит в проверке нулевой гипотезы Н0 о статистической незначимости уравнения регрессии в целом и показателя тесноты связи.
Дисперсионный анализ (табл. 7) показывает, что уравнение является значимым при уровне значимости а = 4,71288Е-05. Значения скорректированного и нескорректированного линейных коэффициентов множественной детерминации приведены в табл. 6 в рамках регрессионной статистики.
Нескорректированный коэффициент множественной детерминации И2 = 0,9721 оценивает
Показатель Число степеней свободы, df Суммы квадратов, SS Средние квадраты, MS F расч. Значимость F
Регрессия 3 27980,944 9326,981313 69,622822 4,71288Е-05
Остаток 6 803,78655 133,9644252
Итого... 9 28784,73
Таблица 8
Показатели регрессионного анализа
Коэффициенты Ь Стандартная ошибка ¿-статистика Р-значение Нижние 95 %о Верхние 95 %о
У-пересечение -113,84791 40,610157 -2,803434507 0,0310233 -213,217461 -14,478368
X, 0,0899029 0,0567031 1,585503107 0,1639459 -0,048844612 0,2286504
X, 7,0820811 2,4212206 2,925004427 0,0264584 1,15756328 13,006599
Х4 45,609915 7,4215108 6,145637417 0,0008502 27,45011851 63,769711
(кроме учтенных в модели) факторов на результат У и величина Ь1 сформировались под воздействием случайных причин, поэтому их можно исключить как несущественно влияющие, неинформативные.
На это же указывает показатель вероятности случайных значений параметров регрессии: принятый уровень а равен 0,05 (что соответствует 5 %), в то время как аЬ1=16,4 %>5 %, что позволяет рассматривать фактор Х, силу влияния которого оценивает Ь1 как несущественно влияющий, неинформативный, и удалить его для улучшения регрессионного уравнения.
Также оценим значимость уравнения регрессии и коэффициента К2 с помощью критерия Р- Фишера. Наблюдаемое или фактическое его значение составило 69,62(табл. 7). При уровне значимости а=0,05 и числе степеней свободы df1=3, df2=6 по таблице значений критерия Р-Фишера [10,11,12] критическое значение составляет 4,76. Так как Р > Р то
' расч. кр,
нулевую гипотезу о незначимости величины К2 отклоним, т. е. уравнение множественной регрессии и К2 статистически значимы.
Итак, искомое уравнение регрессии имеет вид:
У = 7,08Х3 + 45,6Х4.
Причем доверительный интервал при уровне значимости 0,05 (5 %):
— для коэффициента при Х3: (1,16; 13,0);
— для коэффициента при Х4: (27,45; 63,77).
Коэффициенты уравнения регрессии показывают, насколько изменится Упри изменении одной из факторных переменных на единицу (при условии, что остальные переменные не изменяются). Таким образом, из полученного уравнения регрессии следует, что при увеличении объем эксплуатационного бурения на нефть на 1 млн м объем добытой нефти в среднем вырастет на 7 млн т, а увеличение среднесуточного дебита одной скважины на 1 т обеспечивает рост годового объема добычи нефти на 45,6 млн т.
Произведем расчет средних частных коэффициентов эластичности Э^. Они показывают,
на сколько процентов от значения своей средней У изменяется результат при изменении фактора X.. на 1 % от своей средней X.. и при фиксированном воздействии на У всех прочих факторов, включенных в уравнение регрессии. Для линейной зависимости средние коэффициенты эластичности рассчитываются по формуле:
Э - Ь ^
где bJ—коэффициент регрессии при X в уравнении множественной регрессии. Средние значения переменных Х3, Х4 и результативного фактора У(табл. 2) равны, соответственно, 7,89; 8,06; 345,39. Таким образом, 7,08 х 7,
Эту, =-
Эуу, =
345,39 45,6 х 8,06
= 0,1617%;
= 1,064%.
4 345,39
Значит, при увеличении объема эксплуатационного бурения на нефть на 1 % общий объем добычи нефти растет в среднем на 0,16 % при исключении влияния фактора Х4. Если увеличить среднесуточный дебит одной скважины на 1 %, то результативный показатель в среднем увеличится на 1,06 % при исключении влияния фактора Х,
По значениям частных коэффициентов эластичности можно сделать вывод о более сильном влиянии на результат У признака фактора Х4, чем признака факторов Х3.
Результаты многофакторного корреляционно-регрессионного анализа имеют важную научную и практическую ценность. Это проявляется в том, что значительно углубляется факторный анализ, устанавливается место и роль каждого фактора в формировании уровня исследуемого показателя, более достоверно обосновываются планы, прогнозы, управленческие решения, объективнее оцениваются итоги деятельности предприятий, отраслей, регионов.
2-е изд., доп. — М.: ЮНИТИ-
М., 2006.
ЛИТЕРАТУРА
1. Экономический анализ: учебник для вузов / Под ред. Л. Т. Гиляровской. ДАНА, 2003.
2. Промышленность России: Стат. сб. / Госкомстат России. — М., 1995.
3. Промышленность России. 2002: Стат. сб. / Росстат. — М., 2003.
4. Промышленность России. 2005: Стат. сб. / Росстат. — М., 2006.
5. Регионы России. Основные характеристики субъектов РФ. 2005: Стат. сб. / Росстат.
6. Российский статистический ежегодник. 2005.: Стат. сб. / Росстат. — М., 2006.
7. www. fgs. ru.
8. Основные показатели работы нефтяной и газовой отраслей ТЭК России за январь-декабрь 2005 г. // Нефтяное хозяйство. — 2006. — № 2.
9. Савицкая Г.В. Экономический анализ: Учебник. — 11-е изд., испр. и доп. — М.: Новое знание, 2005.
10. Горелова Г. В., Кацко И. А. Теория вероятностей и математическая статистика в примерах и задачах с применением Excel: Учеб. пособие для вузов. — Изд. 3-е, доп. и перераб. — Ростов н/Д: Феникс, 2005.
11. Практикум по эконометрике: Учеб. пособие / И. И. Елисеева, С. В. Курышева, Н. М. Гордеенко и др. Под ред. И. И. Елисеевой. — М.: Финансы и статистика, 2002.
12. Яковлев В. Б. Статистика. Расчеты в Microsoft Excel. — М.: КолосС, 2005.