Научная статья на тему 'КОРРЕЛЯЦИОННЫЕ И РЕГРЕССИОННЫЕ ИССЛЕДОВАНИЯ ЗАВИСИМОСТЕЙ, ПРОВЕРКА АДЕКВАТНОСТИ ЭТИХ СВЯЗЕЙ'

КОРРЕЛЯЦИОННЫЕ И РЕГРЕССИОННЫЕ ИССЛЕДОВАНИЯ ЗАВИСИМОСТЕЙ, ПРОВЕРКА АДЕКВАТНОСТИ ЭТИХ СВЯЗЕЙ Текст научной статьи по специальности «Математика»

CC BY
300
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
E-Scio
Область наук
Ключевые слова
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ / РЕГРЕССИОННЫЙ АНАЛИЗ / ПРОВЕРКА ГИПОТЕЗ / АДЕКВАТНОСТЬ СВЯЗЕЙ / ВЫБОРКА / ЛИНЕЙНАЯ РЕГРЕССИЯ

Аннотация научной статьи по математике, автор научной работы — Аршинов Иван Александрович, Черепанова Марина Андреевна

В статье рассматривается статистический анализ корреляционных и регрессионных связей, а также их проверка с помощью статистических гипотез. Все расчёты проведены с использованием программы MS Excel. В качестве примера изучены зависимости между коэффициентом нефтеотдачи и объёмом закачиваемого пара в скважину.The article discusses the statistical analysis of correlation and regression relationships, as well as their verification using statistical hypotheses. All calculations were carried out using the MS Excel program. As an example, the dependencies between the oil recovery coefficient and the volume of steam injected into the well were studied.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Аршинов Иван Александрович, Черепанова Марина Андреевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «КОРРЕЛЯЦИОННЫЕ И РЕГРЕССИОННЫЕ ИССЛЕДОВАНИЯ ЗАВИСИМОСТЕЙ, ПРОВЕРКА АДЕКВАТНОСТИ ЭТИХ СВЯЗЕЙ»

УДК 519.25

Пармузина Мария Семеновна, научный руководитель, доцент кафедры Высшей математики, кандидат педагогических наук, ФГБОУ « Ухтинский Государственный Технический университет»,

Россия, г. Ухта

Аршинов Иван Александрович, студент 3 курс, «Нефтегазовый факультет», ФГБОУ «Ухтинский Государственный Технический университет»,

Россия, г. Ухта

Черепанова Марина Андреевна, студент 3 курс, факультет «Нефтегазовый факультет», ФГБОУ «Ухтинский Государственный Технический университет», Россия, г. Ухта

КОРРЕЛЯЦИОННЫЕ И РЕГРЕССИОННЫЕ ИССЛЕДОВАНИЯ ЗАВИСИМОСТЕЙ, ПРОВЕРКА АДЕКВАТНОСТИ ЭТИХ СВЯЗЕЙ

Аннотация: В статье рассматривается статистический анализ корреляционных и регрессионных связей, а также их проверка с помощью статистических гипотез. Все расчёты проведены с использованием программы MS Excel. В качестве примера изучены зависимости между коэффициентом нефтеотдачи и объёмом закачиваемого пара в скважину.

Ключевые слова: корреляционный анализ, регрессионный анализ, проверка гипотез, адекватность связей, выборка, линейная регрессия.

Abstract: The article discusses the statistical analysis of correlation and regression relationships, as well as their verification using statistical hypotheses. All calculations were carried out using the MS Excel program. As an example, the dependencies between the oil recovery coefficient and the volume of steam injected into the well were studied.

Key words: correlation analysis, regression analysis, hypothesis testing,

correlation adequacy, sampling, linear regression.

Введение

Для любых задач с изменяющимися количественными признаками представляет интерес исследования степень влияния некоторых переменных на остальные или их имеющаяся взаимосвязь.

Рассмотрим некоторые типичные задачи. Известно, что одним из важнейших параметров, характеризующих технологические и экономические показатели разработки нефтяных месторождений, является коэффициент нефтеотдачи. На него влияет комплекс факторов таких как срок разработки, темп отбора жидкости, плотность размещения скважин, проницаемость коллекторов, структурно-механические свойства добываемой нефти, её плотность и т. д.

В связи с этим представляет интерес изучения взаимозависимости между коэффициентом нефтеотдачи, свойствами добываемой нефти, геолого-промысловыми условиями добычи. Выявленную связь можно использовать, например, для оценки коэффициента нефтеотдачи нового месторождения, если для него известны условия разработки и свойства нефти. Аналогичная задача возникает при рассмотрении газоотдачи газовых месторождений, с той лишь разницей, что в качестве факторов выступают начальная и конечная пластовые давления, конечный дебит скважин, проницаемость пластов и др.

Установленные связи между параметрами разработки нефтяных и газовых месторождений часто предопределяют эффективность принятых технологических схем разработки.

Теоретическая часть

В статистике выделяют два основных типа переменных: независимая переменная (или факторы, влияющие на что-то) и зависимые переменные (или переменные-отклики, которые зависят от независимых). Под независимыми переменными понимают такие переменные, для которых можно устанавливать желаемые значения (например, начальную температуру или скорость подачи

сырья в химическом реакторе), либо те, которые можно только наблюдать, но не управлять ими (например, пористость породы, её проницаемость, мощность пласта, плотность нефти и др.). В результате изменений, проведённых намеренно или происшедших с независимыми переменными случайно, появляется эффект, который передаётся на другие переменные-отклики. Четкое определение и границу этим переменным дать невозможно, но из практических соображений чаще всего исследователь понимает, какие переменные являются независимыми, а какие зависимыми [1].

Выделяют две основные схемы анализа зависимостей:

1) зависимость случайной переменной у от неслучайной переменной х (регрессионный анализ);

2) зависимостей между двумя случайными величинами у и х (корреляционный анализ).

Два типа зависимостей в практических исследованиях бывает сложно разделить друг от друга, так как они тесно связаны друг с другом.

Корреляционный анализ изучает на основании выборки стохастическую зависимость между случайными переменными. В корреляционном анализе обе величины - и х, и у - являются случайными по своей физической сущности. Все исследования корреляционных соотношений проводятся из предположения, что случайные величины имеют нормальное распределение (и это очень важно!!!). И объем выборки для исследования должен быть достаточно большой (больше 30).

Корреляционный анализ - это совокупность методов, позволяющих решать вопросы построения конкретной зависимости и нахождения оценок параметров распределения, оценивать точность этих зависимостей, степень тесноты связи между переменными. Корреляционный анализ часто применяют к наблюдениям, сделанным на промышленных предприятиях при нормальных условиях работы, если случайные изменения в свойствах сырья или в определенных факторах, имеющих отношение к производственному процессу, вызывают изменение в свойствах окончательной продукции.

Этот анализ надо проводить осторожно, так как изменения в выходном параметре могут вызывать другие, не учтенные при анализе факторы.

Регрессионный анализ устанавливает связи между двумя величинами, когда одна из них, а именно х, является не случайной величиной, значение которой задаются заранее, а другая у-величина случайная.

Природу случайности величины у можно объяснить двумя причинами. Во-первых, измерение зависимости переменной у неизбежно связано со случайными ошибками измерения, в то время как независимая переменная х измеряется без ошибок или величины этих ошибок пренебрежимо малы по сравнению с соответствующими ошибками измерения у. Во-вторых, значения у могут зависеть не только от соответствующих значений х, но и ещё от ряда неконтролируемых факторов.

Регрессионный анализ основывается на предположении о том, что величина у является случайной величиной, распределение которой зависит от величины х. В этом случае х является параметром распределения вероятностей для у. Предполагается, что измеряемая величина у может быть разложена на сумму двух слагаемых, первое из которых - неслучайная часть - определяется некоторой функцией от х, а второе - случайная часть - учитывает случайный характер у: у= /(х,а0,а1...) + 8, где ао, щ,... - некоторые числовые коэффициенты, а 8 - случайная величина. Вид функции f считается известным, неизвестны лишь параметры а0, а¡, ... . Цель регрессионного анализа - найти по результатам экспериментов оценки параметров и оценить степень точности построенной зависимости.

Можно выделить основные этапы анализа связей в практической деятельности исследователя: 1) исследование природы изучаемых явлений; 2) сбор и изучение экспериментальных данных; 3) определение типа связи переменных (в виде математических закономерностей) и построение уравнений связи (регрессии); 4) оценка точности этой связи (проверка гипотез на наличие и степень связи); 5) получение практических рекомендаций.

Каждая из задач является очень важной и сложной, требующая знаний

многих формул и навыка проведения расчетов. На практических занятиях мы убедились, что очень удобной для проведения статистических исследований является программа MS Excel, которая содержит в себе уже множество встроенных статистических методов. В свою очередь важной задачей остается корректное использование этой программы для проведения исследования. Так как любая компьютерная программа выполняет команды пользователя, но не контролирует правильность их введения.

В общем виде задача определения связей:

Имеются n пар наблюдений (xi, yi), ..., (xn, yn), случайного вектора (X, Y), которые необходимо изучить и сделать вывод об имеющейся связи.

Для определения корреляционной связи необходимы числовые характеристики, которые можно легко вычислить с помощью надстройки Анализ данных в MS Excel. Так же с помощью MS Excel можно получить регрессионные модели, построенные методом наименьших квадратов.

Далее возникает вопрос об оценке этих моделей и связей.

Важной задачей теории корреляции является определение численного параметра, который давал бы количественное выражение степени или силы (связи) между признаками [2; 4]. Связь между признаками считают тем более сильной, чем теснее точки корреляционного поля группируются около линии регрессии. Если у нас имеется много данных, и они сгруппированы, то можно вычислить параметр - корреляционное отношение. Корреляционным отношением Y по X называется rf^/х - отношение дисперсий средних значений j-сечений к дисперсии величины Y:

2 _ D{M(Y/x)} _ а2{ух-у} _ Y!j=1hi(^x=x.-^)2

Vyfr — D{Y} - СТ2{у-у} - •

Корреляция или связь считается сильнее, чем больше доля дисперсии D[M(Y/x)} в общей дисперсии, т. е. чем ближе это число к 1. Если связь отсутствует, то D[M(Y/x)} — 0 и Лу/Х — 0.

После этого производится проверка гипотез о корреляционных отношениях и о линейной регрессии. Рассмотрим необходимые критерии для

проверки линейности регрессии У по X.

О статистической зависимости говорят, если гипотеза «зависимости нет» отклоняется. Условное математическое ожидание У не зависит от значений, принимаемых величиной X. Геометрически это означает, что линия регрессии параллельна оси x. Так что, если «зависимости нет», то Щ/х = 0. Поэтому нуль-гипотезу Н0: ^у/х = 0 проверяют. Альтернативная же гипотеза будет состоять в том, что регрессия У на X может быть любой формы, отличной от прямой, параллельной оси х.

Гипотезу Н0: ^2/х = 0 проверяют по критерию Фишера:

Р^ъгт'т

_ Т12/х/(к-1)

факт (1-т£/ж )/(п-к)' Где Цу/Х - вычисленное корреляционное отношение, п - общее число точек в выборке, к - число интервалов группировки переменной х.

По таблице Фишера-Снедекора находится ^абл. при щ = к -1 и щ = п - к степенях свободы и уровне значимости а (обычно а=0,05). Fфaкт сравнивается с ^абл , если Fфaкт> ^абл, то гипотеза Л'у/х = 0 отклоняется, т.е. связь между переменными есть.

Теперь можно проверить гипотезу о том, что регрессия линейна (зависимость линейна). При линейной регрессии корреляционное отношение и коэффициент корреляции примерно равны друг другу. Чем больше отклонение средних значений ух=х1 от прямой, тем больше разность между ^¡У/х и г2. Поэтому эту разность можно использовать для проверки гипотезы линейности. Проверяемая нуль-гипотеза в этом случае состоит в том, что ^У/х = г2. Для

проверки гипотезы составляют ^отношение:

р = (Щ/х-г2)/(к-2) (1-'Т2у/х )/(п-к),

Где у\2/х - вычисленное корреляционное отношение, п - общее число точек в выборке, к - число интервалов группировки переменной х, г -вычисленный коэффициент корреляции.

По таблице Фишера-Снедекора находится F-абл. при щ = к - 2 и щ = n - к степенях свободы и уровне значимости а (обычно а=0,05).

^факт сравнивается с ^абл , если Fфакт< ^абл, то гипотеза Л'у/х — г2 принимается, т.е. связь между переменными есть и она линейна.

Проверка гипотезы о значимости коэффициента корреляции Если выборка представляет собой двумерную нормальную совокупность (имеет нормальное распределение), то коэффициент корреляции полностью характеризует взаимосвязь. Поэтому можно проверять гипотезу о значимости коэффициента корреляции. Наличие корреляции (отличие коэффициента корреляции от 0), проверяют, согласно критерию Р. А. Фишера, на основании статистики Стьюдента t с (n-2) степенями свободы. Эту гипотезу легко проверить в MS Excel.

Вычисляют по исходным данным значение наблюдаемого параметра:

t — где n - объем выборки, r - коэффициент корреляции.

V 1-г2

По таблице критерия Стьюдента: t = t(a, n - 2), где n - объем выборки, а - уровень значимости (обычно 0,05, т. е. с вероятностью 0,95 можно будет

утверждать, что связь есть). Если

> t , то связь значима, т. е. имеется

статистическая связь между величинами.

Используя метод наименьших квадратов по исходным данным, можно в MS Excel, можно получить уравнения различных регрессий: линейной, полиномиальной, логарифмической, степенной и т. д.

Для любой регрессионной модели можно вычислить характеристику R2 -величину достоверности аппроксимации - аналог коэффициента корреляции. Чем ближе коэффициент к 1, тем лучше связь.

Дополнительно для оценки модели необходимо проверить гипотезу об адекватности и точности модели. Построив уравнение регрессии, необходимо оценить его адекватность.

Оценка адекватности и точности регрессионных моделей

Это делается посредством критерия Фишера (Р). Фактический уровень (Рфакт) сравнивается с теоретическим (табличным) значением: Рфакт = , гДе

ост

,2 п _ п

5 = п-1 • = п -1

X У2 ( V ^ V С2 X(У - )2

^ I2 - дисперсия У, 5 = ^^

2

V П ^ ,

V У

п - к

остаточная дисперсия уравнения регрессии, к - число параметров функции, описывающей регрессию (для линейной к=2, для квадратической функции к=3 и т. д. ), п - объем выборки.

По таблице Фишера-Снедекора находится Ртабл. при щ = п -1 и т = п - к степенях свободы и уровне значимости а (обычно а=0,05).

Рфакт сравнивается с Ртабл, если Рфакт> Ртабл, то уравнение регрессии значимо, т.е. построенная модель адекватна фактической тенденции, т. е. адекватно отражает сложившуюся в исследуемом ряду динамики тенденцию.

Если линейная регрессия окажется адекватной, то необходимо дополнительно проверить коэффициенты уравнения и получить интервальные оценки параметров [3].

Пример. Определить связь между закачиваемым в пласт паром (0) и коэффициентом нефтеотдачи (коэффициента извлечения нефти, КИН) в зависимости от расстояния между скважинами (к) по имеющимся данным:

ь 3 4 5 6 12 13

30 0,08 0,09 0,09 0,09 0,1 0,1

40 0,14 0,13 0,13 0,14 0,15 0,15

50 0,18 0,19 0,19 0,19 0,2 0,2

60 0,24 0,25 0,25 0,25 0,25 0,25

70 0,31 0,31 0,31 0,31 0,31 0,3

80 0,38 0,38 0,39 0,38 0,37 0,37

90 0,46 0,46 0,46 0,46 0,45 0,44

100 0,52 0,53 0,53 0,53 0,51 0,5

110 0,53 0,54 0,54 0,54 0,53 0,52

120 0,53 0,54 0,55 0,55 0,57 0,57

130 0,54 0,55 0,56 0,56 0,63 0,64

140 0,54 0,55 0,56 0,64 0,46 0,57

150 0,6 0,59 0,59 0,58 0,54 0,53

160 0,49 0,55 0,55 0,58 0,5 0,49

170 0,47 0,51 0,51 0,51 0,48 0,47

180 0,45 0,49 0,49 0,48 0,46 0,45

190 0,44 0,48 0,48 0,48 0,45 0,44

200 0,45 0,48 0,48 0,47 0,46 0,45

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

210 0,45 0,49 0,48 0,48 0,46 0,45

220 0,45 0,49 0,49 0,49 0,46 0,45

230 0,45 0,49 0,49 0,49 0,46 0,45

240 0,44 0,47 0,48 0,47 0,46 0,44

250 0,44 0,49 0,49 0,49 0,45 0,44

Изучив имеющиеся закономерности, можем сделать выводы:

1) С увеличением расстояния между скважинами значения КИН меняется не значительно. Наибольший разброс значений наблюдается при объемах закачки 130 (разброс 0,54-0,65=0,11), 140 (разброс 0,46-0,64=0,18), 150 (разброс 0,53-0,6=0,07) и 160 (0,49-0,58=0,09) (рисунок 1). Изменения КИН при остальных объемах практиски не меняется или меняется на 0,01. Эти изменения можно связать с технологическими процессами, происходящими при закачке пара.

2) Изучив зависимость КИН от объема пара для разных расстояний, можем заключить, что для всех расстояний между скважинами зависимости линейная и квадратическая будет практически идентичными. Графики при различных расстояниях будут как на рисунке 2.

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

Рисунок 2 - Расстояние между скважинами 3

Проведя расчеты и изучив получившиеся зависимости можем сказать, что наилучшей регрессией для всех данных является квадратическая функция (об этом свидетельствует величина достоверности аппроксимации Я2).

Но проверка гипотезы о значимости уравнения регрессии показывает, что линейные зависимость не адекватно оценивает эти закономерности (при уровне значимости 0,05 и 0,1), хотя коэффициент корреляции в каждом случае получается значимым. Квадратические функции не для всех случаев является значимыми, например, для расстояний 3 и 12 является значимым, а для других нет.

Это говорит о том, что надо разбить выборку на части и изучать отдельные интервалы.

3) Разбив весь интервал на две части: от 30 до 130 и от 140 до 250.

Исследования первой части показывают, что уравнение регрессии линейное. Во всех случаях оно имеет вид, как на рисунке 3. Проверка гипотезы

Расстояние между скважинами 3

у = 0,0014х + 0,234 -R2 = 0,4613

у = -0,000024х2 + 0,008068х -0,126271 R2 = 0,904353

50

100

150

200

250

300

0

о значимости показывает, что линейная модель регрессии является значимой с уровнем значимости 0,05.

Рисунок 3 - Линейная регрессия

Исследовав коэффициенты этого уравнения регрессии, приходим к выводу, что оба коэффициента являются значимыми. Интервалы, в которых находятся коэффициенты корреляции с вероятностью 0,05: у = 0,0051.x -0,0533= к х + Ь, будут - 0,1289 < Ь < 0,02233, 0,0042< к < 0,00599. Т. е. значения КИН на данном интервале исходя из объема пара можно ожидать в промежутке: от = 0,00423-Q - 0,1289 до лтах = 0,00599- 0 + 0,0223.

Рисунок 4 - Минимальные и максимальные значения КИН

4) Вторая часть выборки от 140 до 250 оказывается не такая однозначная. Линейная регрессионная модель здесь является значимой только лишь при уровне значимости 0,25. Т. е. ошибка составляет больше 25%.

Квадратическая регрессионная модель здесь является не значимой.

Можно заключить, что после объема пара 140, зависимость КИН от объема пара уже менее значима, на КИН в этом случае явно действуют другие технологические факторы.

Библиографический список:

1. Гусейнзаде М. А., Калинина Э. В., Добкина М. Б. Методы математической статистики в нефтяной и газовой промышленности. М.: Недра, 1979, 340 с.

2. Математическая статистика. Учебник для техникумов. Под редакцией А. М. Долина. М.: «Высшая школа», 1975, 398 с.

3. Львовский Е. Н. Статистические методы построения эмпирических формул: учебное пособие для втузов. 2-е изд., перераб. и доп. М.: Высшая школа, 1988, 239 с.

4. Гмурман В. Е. Теория вероятностей и математическая статистика: учебник для прикладного бакалавриата / В. Е. Гмурман. 12-е изд. М.: Издательство Юрайт, 2018. 479 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.