Научная статья на тему 'Сопоставление дисперсионного и регрессионного подходов на примере анализа данных о движении городского транспорта'

Сопоставление дисперсионного и регрессионного подходов на примере анализа данных о движении городского транспорта Текст научной статьи по специальности «Экономика и бизнес»

CC BY
931
84
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
iPolytech Journal
ВАК
Область наук
Ключевые слова
РЕГРЕССИОННЫЙ АНАЛИЗ / ДИСПЕРСИОННЫЙ АНАЛИЗ / КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ / УРОВЕНЬ ЗАГРУЖЕННОСТИ ДОРОГ / REGRESSION ANALYSIS / VARIANCE ANALYSIS / LEVEL OF TRAFFIC JAMS / COEFFICIENT OF DETERMINATION

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Гефан Григорий Давыдович, Базилевский Михаил Павлович

Цель. Дисперсионный и регрессионный анализ это одни из важнейших методов математической и прикладной статистики. Целью является демонстрация обоих подходов, их определенной общности и существенного различия. Методы. Для достижения цели использованы математические и статистические методы. Результаты и их обсуждение. Демонстрация дисперсионного и регрессионного анализа осуществляется на примере решения задачи моделирования средней скорости движения транспорта по Глазковскому мосту в городе Иркутске в зависимости от времени суток. Для этого проведен однофакторный дисперсионный анализ и соответствующий ему регрессионный анализ с фиктивными переменными. С помощью введения еще одного фактора будний/выходной день проведен двухфакторный дисперсионный анализ и построена соответствующая регрессионная модель. С использованием фактора «общий уровень загруженности дорог города Иркутска» построена регрессионная модель, описывающая влияние как качественных, так и количественных факторов на среднюю скорость движения транспорта по Глазковскому мосту. Выводы. На конкретном примере проиллюстрирована определенная общность и различие дисперсионного и регрессионного подходов к анализу данных. Результаты, получаемые на основе дисперсионного анализа, могут быть воспроизведены и в рамках анализа модели регрессии, в которой влияние качественных факторов описывается с помощью фиктивных объясняющих переменных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPARISON OF VARIANCE AND REGRESSION APPROACHES ON EXAMPLE OF URBAN TRAFFIC DATA ANALYSIS

Purpose. Analysis of variance and regression analysis are ones of the most important methods of mathematical and applied statistics. The purpose of the article is to present both approaches specifying their similarities and significant differences. Methods. Mathematical and statistical methods have been used to achieve the set purpose. Results and their discussion. The analysis of variance and regression analysis are demonstrated on the example of solving the problem of time of day-dependent simulation of average traffic speed over the Glazkov Bridge in the city of Irkutsk. For this purpose a single factor analysis of variance and a corresponding regression analysis with dummy variables have been carried out. Introduction of a new qualitative explanatory variable -weekday/day off allowed to conduct a two-factor analysis of variance and built a corresponding regression model. The use of the factor “general level of traffic congestions on Irkutsk roads” allowed to construct a regression model describing the effect of both qualitative and quantitative factors on the average travelling speed of traffic over the Glazkov Bridge. Conclusions. The similarity and difference of the variance and regression approaches to the analysis of data have been shown on the specific example. The results obtained through the analysis of variance can be reproduced in the analysis of the regression model where the influence of qualitative factors is described using dummy explanatory variables.

Текст научной работы на тему «Сопоставление дисперсионного и регрессионного подходов на примере анализа данных о движении городского транспорта»

Оригинальная статья / Original article УДК 519.862.6

http://dx.doi.org/10.21285/1814-3520-2018-1 -58-68

СОПОСТАВЛЕНИЕ ДИСПЕРСИОННОГО И РЕГРЕССИОННОГО ПОДХОДОВ НА ПРИМЕРЕ АНАЛИЗА ДАННЫХ О ДВИЖЕНИИ ГОРОДСКОГО ТРАНСПОРТА

1 О

© Г.Д. Гефан1, М.П. Базилевский2

Иркутский государственный университет путей сообщения, Российская Федерация, 664074, г. Иркутск, ул. Чернышевского, 15.

РЕЗЮМЕ. ЦЕЛЬ. Дисперсионный и регрессионный анализ - это одни из важнейших методов математической и прикладной статистики. Целью является демонстрация обоих подходов, их определенной общности и существенного различия. МЕТОДЫ. Для достижения цели использованы математические и статистические методы. РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ. Демонстрация дисперсионного и регрессионного анализа осуществляется на примере решения задачи моделирования средней скорости движения транспорта по Глазковскому мосту в городе Иркутске в зависимости от времени суток. Для этого проведен однофакторный дисперсионный анализ и соответствующий ему регрессионный анализ с фиктивными переменными. С помощью введения еще одного фактора - будний/выходной день - проведен двухфакторный дисперсионный анализ и построена соответствующая регрессионная модель. С использованием фактора «общий уровень загруженности дорог города Иркутска» построена регрессионная модель, описывающая влияние как качественных, так и количественных факторов на среднюю скорость движения транспорта по Глазковскому мосту. ВЫВОДЫ. На конкретном примере проиллюстрирована определенная общность и различие дисперсионного и регрессионного подходов к анализу данных. Результаты, получаемые на основе дисперсионного анализа, могут быть воспроизведены и в рамках анализа модели регрессии, в которой влияние качественных факторов описывается с помощью фиктивных объясняющих переменных.

Ключевые слова: регрессионный анализ, дисперсионный анализ, коэффициент детерминации, уровень загруженности дорог.

Формат цитирования: Гефан Г.Д., Базилевский М.П. Сопоставление дисперсионного и регрессионного подходов на примере анализа данных о движении городского транспорта // Вестник Иркутского государственного технического университета. 2018. Т. 22. № 1. С. 58-68. DOI: 10.21285/1814-3520-2018-1-58-68

COMPARISON OF VARIANCE AND REGRESSION APPROACHES ON EXAMPLE OF URBAN TRAFFIC DATA ANALYSIS G.D. Gefan, M.P. Bazilevsky

Irkutsk State Transport University,

15 Chernyshevsky St., Irkutsk 664074, Russian Federation

ABSTRACT. PURPOSE. Analysis of variance and regression analysis are ones of the most important methods of mathematical and applied statistics. The purpose of the article is to present both approaches specifying their similarities and significant differences. METHODS. Mathematical and statistical methods have been used to achieve the set purpose. RESULTS AND THEIR DISCUSSION. The analysis of variance and regression analysis are demonstrated on the example of solving the problem of time of day-dependent simulation of average traffic speed over the Glazkov Bridge in the city of Irkutsk. For this purpose a single factor analysis of variance and a corresponding regression analysis with dummy variables have been carried out. Introduction of a new qualitative explanatory variable -weekday/day off allowed to conduct a two-factor analysis of variance and built a corresponding regression model. The use of the factor "general level of traffic congestions on Irkutsk roads" allowed to construct a regression model describing the effect of both qualitative and quantitative factors on the average travelling speed of traffic over the Glazkov Bridge. CONCLUSIONS. The similarity and difference of the variance and regression approaches to the analysis of data have been shown on the specific example. The results obtained through the analysis of variance can be reproduced in the analysis of the regression model where the influence of qualitative factors is described using dummy explanatory variables.

1

Гефан Григорий Давыдович, кандидат физико-математических наук, доцент кафедры математики, e-mail: [email protected]

Grigory D. Gefan, Candidate of Physical and Mathematical sciences, Associate Professor of the Department of Mathematics, e-mail: [email protected]

2Базилевский Михаил Павлович, кандидат технических наук, доцент кафедры математики, e-mail: [email protected]

Mikhail P. Bazilevsky, Candidate of technical sciences, Associate Professor of the Department of Mathematics, e-mail: [email protected]

Keywords: regression analysis, variance analysis, level of traffic jams, coefficient of determination

For citation: Gefan G.D., Bazilevsky M.P. Comparison of variance and regression approaches on example of urban traffic data analysis. Proceedings of Irkutsk State Technical University. 2018, vol. 22, no. 1, pp. 58-68. (In Russian) DOI: 10.21285/1814-3520-2018-1 -58-68

Введение

Дисперсионный и регрессионный анализ - одни из важнейших методов ма-

3 4

тематической и прикладной статистики34 [1-3]. Различаясь по своей исходной постановке, эти два метода, тем не менее, сближаются в некоторых случаях настолько, что оперируют идентичными показателями. Специалисты в различных областях техники, социально-экономических и естественных наук, нуждающиеся в статистическом

анализе данных, далеко не всегда уверены в выборе подходящих методов статистики. Авторы данной статьи ставили задачу: на конкретном примере проследить применение дисперсионного и регрессионного подходов к анализу данных. Целью статьи является демонстрация обоих подходов, их определенной общности и существенного различия.

Идея дисперсионного анализа и исходные данные для составления моделей

Пусть поставлена задача исследования влияния некоторого фактора A на среднее значение измеряемой величины х. В отличие от некоторых других подходов (сравнение средних значений с помощью 2- и г -критериев, использование рангового критерия Уилкоксона), дисперсионный анализ позволяет сравнивать средние значения трех и более групп. Иначе говоря, фактор может иметь произвольное число градаций (уровней). При большом числе уровней фактора попарное сравнение средних представляется довольно громоздким и трудоемким. Идея английского биолога и статистика Фишера заключалась в том, чтобы проверять гипотезу о влиянии некоторого фактора (или нескольких факторов), анализируя характеристики вариации (различные виды дисперсии). Такой подход и получил название дисперсионного анализа.

Демонстрация дисперсионного и регрессионного анализа осуществлена на примере моделирования загруженности Глазковского моста в городе Иркутске в зависимости от времени суток. Сбор стати-

стических данных осуществлялся с использованием сервиса Яндекс. Пробки [4], который позволяет в режиме реального времени видеть информацию о средней скорости движения транспорта на любом конкретном участке и оценивает общий уровень городских пробок по 10-балльной шкале. В качестве основного моделируемого показателя выступает средняя скорость движения транспорта. Фактор А - время суток - представлен шестью градациями (временными периодами): А1 - с 7.00 до 10.00 ч; А2 - с 10.00 до 12.00 ч; А3 - с 12.00 до 14.00 ч; А4 - с 14.00 до 17.00 ч; А5 - с 17.00 до 20.00 ч; А6 - с 20.00 до 7.00 ч.

В табл. 1 приведены данные о средней скорости движения транспорта по Глазковскому мосту в направлении Правобережного округа города Иркутска в зависимости от времени суток. Сбор данных осуществлялся в течение 11 суток - с 7.00 ч. 28 марта до 7.00 ч. 8 апреля 2017 г. (кроме понедельника 3 апреля), всего 66 наблюдений.

Айвазян С.А. Методы эконометрики; учебник. М.: Магистр: ИНФРА-М, 2010. 512 с. / Ayvazyan S.A. Methods of econometrics: textbook. M.: Magistr: INFRA-M, 2010, 512 p.

4Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: учебник; 6-е изд., перераб. и доп. М.: Дело, 2004. 576 с. / Magnus Ya.R., Katyshev PK, Peresetsky A.A. Econometrics. Basic course: textbook; 6th edition, revised and enlarged. Moscow: Delo, 2004, 576 p.

Таблица 1

Статистические данные о средней скорости движения, км/ч, в зависимости от времени суток

Table 1

Statistical data on the average speed of movement, km/h depending on the time of day

Дата наблюдения, день недели / Observation data, day of week Время суток (фактор А Time of day (factor A) о /

Ai A2 A3 A4 As Ae

28 марта, вторник/ 28 March, Tuesday 25 30 35 40 40 40

29 марта, среда / 29 March, Wednesday 25 35 45 40 40 40

30 марта, четверг/ 30 March, Thursday 25 35 40 40 45 45

31 марта, пятница / 31 March, Friday 30 40 35 35 40 45

01 апреля, суббота / 1 April, Saturday 40 35 45 45 45 45

02 апреля, воскресенье / 2 April, Sunday 40 35 45 45 45 45

04 апреля, вторник/ 4 April, Tuesday 30 20 35 35 40 45

05 апреля, среда / 5 April, Wednesday 25 30 45 45 45 45

06 апреля,четверг/ 6 April, Thursday 30 30 40 35 45 45

07 апреля, пятница / 7 April, Friday 30 40 35 40 40 45

08 апреля, суббота / 8 April, Saturday 45 40 40 45 45 45

На первом этапе работы с этими данными решались задачи однофакторного

дисперсионного и регрессионного анализа.

Однофакторный дисперсионный анализ

В однофакторном дисперсионном анализе фигурируют следующие величины: а) групповые средние:

_ 1 nk _

Xk = — У xki, k = 1, m,

nk i=1

(1)

где к - номер уровня фактора; щ - число измерений для уровня к; хы - результат измерения;

б) общая средняя:

X

J m nk y m _

=1У У xki=- У nkxk, n k=1 l=1 n k=1

m

где n = Уnk - общее число измерений;

k=1

в)полная вариация и полная дис-

персия:

m nk

SST = XK X,- X)2,

k=1 i=1

1

a (x) = 1 SST ; n

(2)

г) межгрупповая (иначе говоря, факторная) вариация и межгрупповая (факторная) дисперсия:

SSA = ]Г (xk - x)2

n

k

k=1

a2A =- SSA; n

1

(3)

д) остаточная вариация и остаточная дисперсия:

m nk _

SSR = YL ( xi- xk )2,

(4)

k=1 i=1

1

a2R = 1 SSR. n

анализа является равенство дисперсий в сравниваемых генеральных совокупностях, относящихся к разным уровням фактора. Строго говоря, для сравнения трех и более дисперсий применяется так называемый критерий Кохрена. Упрощенный подход может состоять в сравнении максимальной и минимальной дисперсий по критерию Фишера.

Правила проверки статистической гипотезы о значимости (вернее, незначимости) фактора строятся на соотношении факторной и остаточной дисперсий. При этом должен быть решен вопрос о числе степеней свободы вариации. Полная вариация имеет п -1 степень свободы, а средний квадрат отклонения в расчете на одну степень свободы равен

MST = SST ~2

n

n

1

= s (x) =-a (x).

n

1

Факторная вариация имеет m -1 степень свободы, и, соответственно,

Важнейшее в дисперсионном анализе утверждение состоит в том, что

а2 (х) = а\ +а2к или ЖГ = 88Л + .

Итак, полная вариация (и полная дисперсия) количественного признака может быть разложена на два слагаемых. Первое из них соответствует той части, которая вызвана влиянием выбранного фактора. Другое слагаемое есть характеристика вариации, обусловленной всеми остальными факторами, которые не уточняются и полагаются случайными. Величина

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

О <r =

2_ SSA^j

SST

(5)

MSA

SSA m -1

n

m -1

al-

Наконец, остаточная вариация имеет п - т степеней свободы, и, соответственно,

MSR =

SSR

n

n - m

= SR =

a

n - m

R '

Следует иметь в виду, что число степеней свободы вариации, как и сама вариация, подчиняется правилу разложения на так называемые факторную и остаточную части:

п -1 = т -1 + (п - т).

называется коэффициентом детерминации и показывает, какую долю вариации обеспечивает исследуемый фактор.

Не надо упускать из виду, что одним из исходных положений дисперсионного

Для проверки гипотезы о незначительности влияния некоторого фактора А в качестве статистического критерия рассматривается отношение факторной и остаточной вариаций, вычисленных с уче-

s

том числа степеней свободы:

F =

MSA MSR

Наблюдаемое значение дисперсионного отношения сравнивается с границей правосторонней критической области Fcr(a, m -1, n - m). При F < Fcr нет оснований отклонить нулевую гипотезу, а это означает, что влияние фактора A следует признать незначительным.

Напомним, что в нашем случае фактором А является время суток. Этот фактор имеет шесть временных периодов (см. табл. 1). Проведем дисперсионный анализ данных (рисунок) с помощью надстройки табличного процессора Excel «Анализ данных» (режим «Однофакторный дисперсионный анализ»).

В верхней части таблицы, приведенной на рисунке, в столбце B видим, что

все пк = 11 (к = 1, т, т = 6), полное количество наблюдений п = 66; в столбцах

D и E указаны групповые средние Хк и групповые дисперсии (видно, что соотношение наибольшей и наименьшей групповых дисперсий превышает 12, тогда как критическая точка

^(0.05, п -1, П -1) = 485.

Как отмечалось выше, это противоречит исходному положению дисперсионного анализа о равенстве групповых дисперсий. Однако здесь мы не будем принимать данный факт во внимание, поскольку целью работы является демонстрация самого подхода. В реальном анализе данных сильное различие групповых дисперсий нельзя игнорировать).

1 A В С D E F

Однофаеторный дисперсионный анализ / Single-factor analysis of variance

2

3 Итоги 1 Results

4 Гоуппы 1 Groups Счет / Calculating Сумма /Sum Среднее /Average Дисперсия / Variance

5 Столбец 1 / Column 1 И 345 31,3636364 50,45454545

6 Столбец 2 / Column 2 11 370 33,6363636 35,45454545

7 Столбец 3 / Column 3 11 440 40 20

8 Столбец 4 / Column 4 11 445 40,4545455 17,27272727

9 Столбец 5 / Column 5 11 470 42,7272727 6,818181818

10 11 12 Столбец 6 / Column 6 11 485 44,0909091 4,090909091 —

13 Дисперсионный анализ / Analysis of variance

14 Источник вариации /Source of variance SS df MS F F крит.

15 Между группами 1 between groups 1424,621212 5 284,924242 12,74915254 2,3682702

16 Внутри групп / within groups 1340,909091 60 22,3484848

17

18 Итого / Total 2765,530303 65

- _ 1

Однофакторный дисперсионный анализ Single-factor analysis of variance

Из нижней части таблицы следует, что межгрупповая (факторная) вариация SSЛ = 14А4.6А1 составляет от полной ЖГ = А765.53

вариации

долю

г1 = 0.515. Число степеней свободы составляет: для полной вариации -п -1 = 65, для межгрупповой вариации -п - т = 60, отношение факторной и оста-

точной вариации, вычисленных с учетом числа степеней свободы, дает величину F = MSA / MSR = 12.75, что значительно превышает критическое значение. Следовательно, влияние времени суток на среднюю скорость движения транспорта по исследуемому участку (Глазковскому мосту) является значимым.

Регрессионная модель с фиктивными переменными, отвечающими за учет качественного фактора

Учет качественного фактора в модели регрессии возможен с помощью так называемых фиктивных переменных5 [5, 6]. Если фактор имеет т уровней, то требуется т - 1 фиктивная переменная. Например, в нашем случае время суток имеет шесть градаций (т = 6), и следует ввести переменные

tj =

1 A = Aj ,

0, A Ф Aj,

j = 1, m -1 .(6)

Оценка модели регрессии будет иметь вид:

_ m-1

xk = ^ a*t. + d *, k = 1,2

j=1

m

,

по существу представляя собой набор тождеств, поскольку левые части этих уравнений совпадут с групповыми средними (1). Действительно, используя данные табл. 1 и обратившись к надстройке «Анализ дан-

ных» (режим «Регрессия»), получим:

Xk = -12.727tx - 10.455t2 -- 4.091t3 - 3.636t4 - 1,364t5 + + 44.091.

Легко убедиться, что предсказания по этой модели для всех временных интервалов совпадают с соответствующими групповыми средними, представленными в табл. 2. Разумеется, этот тривиальный результат мы приводим лишь как исходный пункт сопоставления двух подходов.

После получения выборочного уравнения регрессии всегда рассчитываются полная вариация, остаточная вариация и вариация, объясняемая регрессией. Существует полное смысловое и количественное соответствие между этими величинами и определенными выше SST, SSR и SSA (выражения (2)-(4)), а коэффициент детерминации (5) становится показателем качества регрессии.

Двухфакторный дисперсионный анализ

Вернемся к исходным данным (см. табл. 1). Помимо времени суток важным фактором, влияющим на интенсивность движения и, следовательно, на среднюю скорость транспорта, может быть следую-

щее обстоятельство: является день наблюдений будним или выходным. Этот фактор (назовем его фактор В) имеет два уровня: В1 - средняя скорость движения в будние дни, и В2 - средняя скорость дви-

Базилевский М.П., Гефан Г.Д. Эконометрика (продвинутый уровень): учеб. пособие. Иркутск: Изд-во ИрГУПС, 2016. 108 с. / Bazilevsky M.P., Gefan G.D. Econometrics (advanced level): Learning aids. Irkutsk: Publishing House of IrGUPS, 2016, 108 p.

<

жения в выходные дни. При однофактор-ном дисперсионном анализе нам на каждом уровне фактора А приходится проводить повторные наблюдения, чтобы найти групповые дисперсии. При двухфакторном дисперсионном анализе с повторениями (традиционный подход) каждой паре уровней факторов Л В (к = 1, А,..., т; , = 1, А,...,I) соответствует N измерений

х(1), х(А), ..., х), общее число измерений

равно п = mlN. Определяются следующие величины:

а) средняя для каждой пары уровней факторов:

1 *

Xki = 1Т XX

Np=1

kP) ; (7)

ж) вариация, отражающая взаимодействие факторов A и B:

т I _ _ _ _

SSЛB = N££(Хк - Хк - х, + х)2;

к=1 г=1

з) остаточная вариация:

N т I _

SSR = £ £ £ (хкР) - Хк, )А.

7=1 к=1 г=1

Выполняется правило разложения как для самих вариаций -

SSГ = SSЛ + SSB + SSЛB + SSR ,

б) групповые средние по столбцам и по строкам:

B:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

il Im

Xk — X Xki , Xi — X Xki ;

17=1 mt=1

в) общая средняя:

_ ^ т I _

х = £ , хкг ;

п к=1 г =1

г) полная вариация:

N т I _

SST=£ £ £ (х« - х)А;

р=1 к=1 ,=1

д) вариация, связанная с фактором

m

SSA = lNX (Xk - x)2 ;

k=1

е) вариация, связанная с фактором

SSB = mNX (x, - x)2 ;

i=1

так и для их числа степеней свободы -

Nml -1 = (m -1) + (l -1) + + (m - 1)(l -1) + ml(N -1).

Для проверки гипотез о значимости факторов рассчитываются вариации на одну степень свободы:

MSA = SSA; MSB = — SSB; m -1 l -1

MSAB =

1

(m - 1)(l -1)

-SSAB ;

MSR =

1

ml(N -1)

-SSR.

Для заданного уровня значимости а: фактор А признается значимым, если

MSA/MSR > Fcr (а, m -1, ml(N -1)) ;

фактор B признается значимым, если

MSB MSR > Fr (а, l -1, ml ( N -1)) ;

взаимодействие факторов признается зна-

чимым, если

М8ЛБ/М8Я >

> рсг (а, (т -1)(/ -1), т1 (N -1)).

Для обращения к надстройке «Анализ данных» (режим «Двухфакторный дисперсионный анализ с повторениями») данным, представленным в табл. 1, необходимо придать соответствующую структуру. Во-первых, данные, относящиеся к будним и выходным дням, необходимо расположить раздельно, в смежных диапазонах. Во-вторых, каждой паре уровней факторов должно соответствовать одинаковое число наблюдений. Поскольку в данных присутствуют только три выходных дня, необходимо оставить такое же количество будних дней (мы оставили среду, четверг и пятницу второй недели наблюдений). Таким образом, т = 6; I = 2; N = 3, общее число наблюдений п = 36. Итоговые результаты представлены в табл. 2.

Проанализируем результаты, представленные в табл. 2. Сначала следует проверить, существует ли взаимодействие между факторами А (время суток) и В (будний/выходной день). Чтобы определить

наличие эффекта взаимодействия при заданном уровне значимости (0,05), применяется следующий критерий: нулевая гипотеза об отсутствии эффекта взаимодействия отклоняется, если вычисленное значение ГАВ больше критического (см. строка 3 столбец 6 табл. 3). В данном случае это именно так, хотя значение ГАВ весьма

близко к критическому, что свидетельствует о наличии слабого взаимодействия между факторами (при другом уровне значимости гипотеза может оказаться принятой). Теперь необходимо проанализировать главные эффекты.

В табл. 3 фактору А соответствует строка 2, фактору В - строка 1. В обоих случаях требуемое условие значимости фактора выполняется с большим запасом. Следовательно, и время суток, и фактор выходного дня оказывают существенное влияние на среднюю скорость движения транспорта. Коэффициент детерминации составляет

2 SSA + SSB Г =-= 0.652.

SST

Двухфакторный 0 дисперсионный анализ с повторениями Two-factor analysis of variance with repetitions

Таблица 2 Table 2

Номер строки / Line no. Источник Вариации/ Source of variance SS df MS F FKpum.

1 2 S 4 б 6 7

1 Выборка / Sample 177,778 1 177,7778 17,0667 4,2б9677

2 Столбцы / Columns б97,222 б 119,4444 11,4667 2,6206б4

S Взаимодействие/ Interaction 163,889 б 32,77778 3,146667 2,6206б4

4 Внутри / Within 2б0 24 10,41667 - -

б Итого / Total 1188,89 3б - - -

Регрессионная модель с фиктивными переменными, отвечающими за учет двух качественных факторов

В дополнение к переменным (у = 1,5), отвечающим за время суток (6), введем переменную

v =

1, B = B,

1'

0, B = B,

2

где В = В - будний день, В = В2 - выходной день.

Оценка модели регрессии будет иметь вид

m -1

m

Xki = Xajtj + b*v + d*, k = 1,2,...,

j=l

i = 1,2,..., l.

Однако левые части этих уравнений уже не будут тождественно равны соответствующим групповым средним (7). Действительно, используя данные табл. 1, преобразованные так, как это описано в предыдущем пункте, и обратившись к

надстройке «Анализ данных» (режим «Регрессия»), получим:

Xki

-10t! - 10t2 - З.ЗЗ^ - 2.5t4 -

- 0.8Зг5 - 4.44v + 47.2.

(8)

Данное уравнение, в частности, показывает, что средняя скорость движения в будние дни в среднем на 4,44 км/ч меньше, чем в выходные (что точно соответствует исходным данным). Вариация, объясняемая регрессией, составляет 775 (это точно соответствует сумме факторных вариаций ЭЭА+ЭЭВ в модели двухфакторного дисперсионного анализа, рассмотренной в предыдущем пункте), а остаточная вариация 413,889 совпадает с суммой ¿Э^+ЭЭАВ. Коэффициент детерминации, конечно, имеет то же самое значение -Г = 0,652. Заметим, что с введением переменной V, несмотря на уменьшение числа наблюдений, используемых в модели, качество регрессии возросло почти вдвое (с 66 до 36).

Регрессионная модель, описывающая влияние качественных и количественных факторов

<

Рассмотрим еще один фактор, влияющий на среднюю скорость движения транспорта по Глазковскому мосту - общий уровень пробок в городе Иркутске, оцениваемый по 10-балльной шкале (1 балл -дороги свободны, 10 баллов - город «стоит»). Используем тот же набор данных, с которым мы работали, когда иллюстрировали двухфакторный дисперсионный анализ, дополнив этот набор данными по общему уровню пробок и .

В табл. 3 в ячейках, стоящих на пересечении уровней факторов А и В, в нижнем правом углу указана средняя скорость движения, а в левом верхнем углу приведены значения общего уровня пробок.

В отличие от факторов А и В (время суток и будний/выходной день) показатель общего уровня пробок и представляется целесообразным рассматривать как количественную переменную регрессионной модели. Действительно, если принять общий уровень пробок за качественный фактор, то модель дисперсионного анализа станет трехфакторной (причем третий фактор будет иметь 10 градаций), а в регрессионной модели появится 9 (!) дополнительных переменных. При введении же дополнительной количественной переменной в регрессионную модель последняя усложняется весьма незначительно. Оценка такой модели будет иметь вид:

Таблица 3

Двухфакторный дисперсионный анализ с повторениями

Table 3

Two-factor analysis of variance with repetitions

Фактор / Factor Ai A2 Аз A4 а5 Аб

Будние дни / Week days: B = в (v = 1) 3 25 4 30 2 45 4 45 3 45 1 45

2 30 4 30 5 40 B 35 3 45 1 45

2 30 3 40 5 35 5 40 5 40 1 45

Выходные дни / Days off: в = B (v = 0) 2 40 2 35 3 45 3 45 2 45 1 45

1 40 2 35 2 45 2 45 2 45 2 45

1 45 2 40 3 40 2 45 2 45 2 45

__т—1

а * + Ь V + с и + а ,

) ) '

]=1

(к = 1,2,..., т; I = 1,2,..., I),

С использованием данных табл. 3 результат оказывается следующим:

лИ = —8.89^ — 6.66^ +1.12^ + + 2.7^ + 2.51^ — 1.6Ъ — (9)

—2.23и + 48.8.

Введение дополнительной переменной и повысило качество регрессии: коэффициент детерминации г? достиг значения 0,751. Однако с точки зрения точности оценивания коэффициентов регрессии ситуация ухудшилась: коэффициент при переменной V значительно уменьшился (по

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Зак

На частном примере проиллюстрирована определенная общность и различия двух подходов к анализу данных: дисперсионного и регрессионного. Результаты, получаемые на основе дисперсионного анализа, могут быть воспроизведены в рамках анализа модели регрессии, в которой влияние качественных факторов описывается с помощью фиктивных объясняющих переменных. При этом качество ре-

модулю) и перестал соответствовать реальному различию средних скоростей в будние и выходные дни. Это является следствием того, что новая переменная и достаточно тесно коррелирует с переменной V (уровень пробок в будни выше, чем в выходные). Корреляция объясняющих переменных в модели регрессии является вредным явлением, она снижает точность их оценивания и возможность их содержательной интерпретации [7]. В нашем случае, как показывает ¿-тест, коэффициент при переменной V в уравнении (9) вообще оказывается незначимым. Тем не менее, по основному результату (точность предсказания значения объясняемой переменной) оценка (9) будет более предпочтительной, чем оценка (8).

грессии описывается коэффициентом детерминации, который (на языке дисперсионного анализа) представляет собой отношение факторной и полной вариаций (дисперсий). Одной из серьезных проблем регрессионного анализа является корреляция объясняемых переменных, которая снижает точность оценивания коэффициентов регрессии и возможности их содержательной интерпретации.

Библиографический список

1. Доугерти К. Введение в эконометрику; 3-е изд. М.: ИНФРА-М, 2009. 465 с.

2. Дрейпер Н., Смит Г. Прикладной регрессионный анализ; пер. с англ.; 3-е изд.; в 2 кн. М.: ИД «Вильяме», 2007. 912 с.

3. Себер Дж. Линейный регрессионный анализ; пер. с англ. М.: Мир, 1980. 456 с.

4. Как работают Яндекс. Пробки [Электронный ресурс]. URL:

https://yandex.ru/company/technologies/yaprobki/ (25.11.2017).

5. Вучков И., Бояджиева Л., Солаков Е. Прикладной

линейный регрессионный анализ; 2-е изд.; в 2 кн. М.: Финансы и статистика. Кн. 1 - 1986; кн. 2 - 1987. 239 с.

6. Мостеллер Ф., Тьюки Дж. Анализ данных и регрессия; пер. с англ.; в 2 вып. М.: Финансы и статистика, 1982. Вып. 1 - 349 с.; вып. 2 - 239 с.

7. Гефан Г.Д. Применение корреляционно-регрессионного анализа как направление исследовательской деятельности при обучении эконометрике // Современные технологии. Системный анализ. Моделирование. 2015. № 4 (48). С. 92-97.

References

1. Dougherty K. Vvedenie v ekonometriku [Introduction to Econometrics]. Moscow: INFRA-M Publ., 2009, 465 p. (in Russian)

2. Dreiper N., Smit G. Prikladnoi regressionnyi analiz [Applied regression analysis]. Moscow: Vil'yams Publ., 2007, 912 p.

3. Seber Dzh. Lineinyi regressionnyi analiz [Linear regression analysis]. Moscow: Mir Publ., 1980, 456 p.

4. Kak rabotayut Yandeks. Probki [How yandex.probki works]. Available at:

https://yandex.ru/company/technologies/yaprobki/ (accessed 25 November 2017).

5. Vuchkov I., Boyadzhieva L., Solakov E. Prikladnoi

Критерии авторства

Гефан Г.Д., Базилевский М.П. имеют на статью равные авторские права и несут равную ответственность за плагиат.

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов.

Статья поступила 04.12.2017 г.

lineinyi regressionnyi analiz [Applied linear regression analysis]. Moscow: Finansy i statistika Publ., 1986-1987. (in Russian)

6. Mosteller F., T'yuki Dzh. Analiz dannykh i regressiya; [Analysis of data and regression]. Moscow: Finansy i statistika Publ., 1982.

7. Gefan G.D. The use of correlation and regression analysis as research activities direction at teaching econometrics. Sovremennye tekhnologii. Sistemnyi analiz. Modelirovanie [Modern technologies. System analysis. Modeling]. 2015, no. 4 (48), pp. 92-97. (in Russian)

Authorship criteria

Gefan G.D., Bazilevsky M.P. have equal author's rights and bear equal responsibility for plagiarism.

Conflict of interests

The authors declare that there is no conflict of interests regarding the publication of this article.

The article was received 04 December 2017

i Надоели баннеры? Вы всегда можете отключить рекламу.