Научная статья на тему 'Некоторые предостережения по проверке качества модели регрессии с помощью коэффициента детерминации'

Некоторые предостережения по проверке качества модели регрессии с помощью коэффициента детерминации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
799
128
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКИЙ АНАЛИЗ / STATISTICAL ANALYSIS / РЕГРЕССИЯ / REGRESSION / МЕТОД НАИМЕНЬШИХ КВАДРАТОВ / LEAST-SQUARES METHOD / КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ R2 (R-КВАДРАТ) / THE DETERMINATION COEFFICIENT R2 (R-SQUARED)

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кинякин Виктор Николаевич, Милевская Юлия Сергеевна

Рассмотрены теоретические и практические аспекты оценки качества модели регрессии посредством коэффициента детерминации. Показано, что существует несколько его определений со специфическими свойствами, что затрудняет оценку качества полученной модели, интерпретацию ее статистической значимости. Теоретические выводы подтверждены результатами машинного моделирования. Материал содержит иллюстрации и обширный список литературы. Для студентов и специалистов, использующих в своей практической деятельности информационные технологии, моделирование и прогнозирование.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Some precautions for quality assessment of regression model by means of determination coefficient

Theoretical and practical aspects of assessing the quality of the regression model by means of determination coefficient are reviewed. It is shown that there are several definitions of this statistics with specific properties, which makes it difficult to assess the quality of the obtained model and the interpretation of its statistical significance. Theoretical conclusions are confirmed by the results of computer modeling. The material contains lots of illustrations and a long list of references. For students and professionals who are using information technologies, methods of modeling and forecasting in their practical.

Текст научной работы на тему «Некоторые предостережения по проверке качества модели регрессии с помощью коэффициента детерминации»

ЭКОНОМИЧЕСКИЕ НАУКИ ^¡К

НЕКОТОРЫЕ ПРЕДОСТЕРЕЖЕНИЯ ПО ПРОВЕРКЕ КАЧЕСТВА МОДЕЛИ РЕГРЕССИИ С ПОМОЩЬЮ КОЭФФИЦИЕНТА ДЕТЕРМИНАЦИИ

ВИКТОР НИКОЛАЕВИЧ КИНЯКИН,

доцент кафедры информатики и математики Московского университета МВД России

E-mail: vk.mathdep@mail.ru;

ЮЛИЯ СЕРГЕЕВНА МИЛЕВСКАЯ, преподаватель кафедры информатики и математики Московского университета МВД России

E-mail: milevskaya.julya@yandex.ru Научная специальность: 08.00.01 — экономическая теория

Аннотация. Рассмотрены теоретические и практические аспекты оценки качества модели регрессии посредством коэффициента детерминации. Показано, что существует несколько его определений со специфическими свойствами, что затрудняет оценку качества полученной модели, интерпретацию ее статистической значимости. Теоретические выводы подтверждены результатами машинного моделирования. Материал содержит иллюстрации и обширный список литературы.

Для студентов и специалистов, использующих в своей практической деятельности информационные технологии, моделирование и прогнозирование.

Ключевые слова: статистический анализ, регрессия, метод наименьших квадратов, коэффициент детерминации R2 (R-квадрат).

SOME PRECAUTIONS FOR QUALITY ASSESSMENT OF REGRESSION MODEL BY MEANS OF DETERMINATION COEFFICIENT

VIKTOR NIKOLAEVICHKINYAKIN,

assistant Professor of Department of Informatics and mathematics of Moscow University of the MIA of Russia;

JULIA SERGEEVNA MILEVSKAYA, the teacher of chair of Informatics and mathematics of Moscow University of the MIA of Russia

Annotation. Theoretical and practical aspects of assessing the quality of the regression model by means of determination coefficient are reviewed. It is shown that there are several definitions of this statistics with specific properties, which makes it difficult to assess the quality of the obtained model and the interpretation of its statistical significance. Theoretical conclusions are confirmed by the results of computer modeling. The material contains lots of illustrations and a long list of references.

For students and professionals who are using information technologies, methods of modeling and forecasting in their practical.

Keywords: statistical analysis, regression, the least-squares method, the determination coefficient R2 (R-squared).

Математика занимает особое место в науке, культуре и общественной жизни, являясь одной из важнейших составляющих мирового научно-технического прогресса.

Введение. Вынесенная в эпиграф цитата заимствована из Концепции развития математического образования в Российской Федерации (утв. распоряжением Правительства РФ от 24 декабря 2013 г. № 2506-р.). Концепция «представляет собой систему взглядов на базовые принципы, цели, задачи и основные направления развития математического образования в Российской Федерации». Утверждается, что «без высокого уровня математического образования невозможно

выполнение поставленной задачи по созданию инновационной экономики»», что необходимо «форсированное развитие математического образования и науки, обеспечивающее прорыв в таких емких стратегических направлениях, как...» информационные технологии, моделирование и прогнозирование». Отметим, что вышеперечисленные направления как раз и охватывает известный инструмент статистических исследований — регрессионный анализ, проводимый с

-ii.^'fe-

ЭКОНОМИЧЕСКИЕ НАУКИ

целью «помочь понять потенциальную причину вариаций в отклике и объяснить, насколько влияет на эту вариацию каждый фактор» [6].

Появление данной статьи обусловлено тем, что, по мнению авторов, начинающие исследователи часто переоценивают роль информационных технологий в статистическом моделировании, что может повлиять на качество подбора модели и достоверность результатов. Проблема далеко не новая, многие источники указывали на ограниченность используемых инструментов и на то, что «при моделировании процесса для понимания причин и следствий, выбора наиболее адекватной модели и использования средств диагностики для улучшения модели требуется существенный уровень квалификации.» [6]. Однако, как показывает многолетний опыт преподавания, проблему снять не только не удалось, но, наоборот, ее усложнили, может быть, потому что при развитии информационно-технологического оснащения в нетехнических вузах недостаточно внимания уделяется изучению теоретических аспектов математического моделирования. Моделирование, как известно, представляет собой решение комплекса задач. Например, построение модели и ее диагностика, — оно уже немыслимо без применения информационных технологий. Доступны прикладные пакеты программ, несколько манипуляций — и желаемый анализ эмпирических данных на экране. Правда, за кадром остались формулы вычисления, их область применения. Но какое это имеет значение, когда на экране уже получен результат: и сама модель, и значение статистики R-квадрат. А далее интерпретируем результат, руководствуясь распространенным утверждением, закрепленным сомнительными внешними тестами: если кратко, независимо от спецификации «та модель лучше соответствует статистическим данным, значение R-квадраткоторой больше, причем последний находится в пределах от 0 до 1». Но так ли просто все на самом деле, всегда ли это правило работает?

Цель статьи — обсуждение ограничений по проверке качества модели регрессии с помощью коэффициента детерминации.

Предполагаемая целевая аудитория — учащиеся, студенты, изучающие методы статистического моделирования в части программы учебной дисциплины «Эконометрика» для направления подготовки (специальности) 080101.65 Экономическая безопасность (квалификация (степень) «специалист»), а также адъюнкты, преподаватели и сотрудники ОВД, исполь-

зующие математические модели в своей профессиональной деятельности.

Теоретическая составляющая вопроса. Широкое распространение в статистике получил нестандарти-зованный термин — коэффициент детерминации. Согласно авторам [11, с. 47; 10, с. 75; 8, с. 62; 7, с. 66—68], коэффициентом детерминации, или долей объясненной дисперсии, называется:

R2= 1 -

ESS = RSS TSS TSS

(1)

где: TSS = £ (y- y)2; ESS = £ (y- y)2; RSS = £ (y- y)2. Доказано, что второе равенство в соотношении (1) справедливо лишь при разложении TSS = ESS + RSS, или при условии £ (y - y)(y - y) = 0, когда константа включена в уравнение регрессии.

Итак, подчеркнем, что R%[0;1] тогда и только тогда, когда модель имеет свободный член! Например, для простой линейной регрессии:

y = bo+ bix = е,

область изменения статистики:

(2)

R2 =

(0; 1), TSS = ESS + RSS,

(-да, +»), TSS ф ESS + RSS,

0, RSS = 0,

1, ESS = 0,

y= y + е

yi= y + е y = y

b0 ф 0, bi ф 0 b0 ф 0, bi ф 0 b0 ф 0, bi = 0 е= 0

Обращаем внимание, что в общем случае R2 = = (-да, +да).

Коэффициент детерминации (1) есть отношение дисперсий, т.е. он характеризует долю объясненной дисперсии s? величины у в общей, объясняемой, дисперсии ^ величины у. Нетрудно убедиться, что простой перестановкой п значений у может быть предложено п! моделей с тем же значением R-квадрат. В самом деле, если спецификации (2) соответствует мнк-оценка:

у = у + Ъ(х- х).

то уравнение линии у* = у + (- %)(х - х) есть зеркальное отображение найденной мнк-кривой регрессии у относительно линии, проведенной через х- па-

HflK ЭКОНОМИЧЕСКИЕ НАУКИ

раллельно оси ординат ( b — оценка коэффициента линейной регрессии bi; у и X — средние арифметические соответствующих переменных X, Y). Можно показать, что R2 (у,у) = R2 (у,у*), т.е. правильная у заведомо неправильная у* модели характеризуются одним и тем же показателем коэффициента детерминации, более того, это соотношение справедливо и для любой линии, параллельной мнк-кривой регрессии!

Итак, применение коэффициента детерминации для оценки качества модели и выбора наилучшей без дополнительных исследований, направленных на доказательство того, что модель подобрана правильно, необоснованно — это показатель характеризует только долю объясненной дисперсии. При несоблюдении условия (1) вообще нет смысла рассматривать статистику R-квадрат. В цитируемых работах многочисленные авторы предупреждают об особой осторожности ее применения. Дополнительные сведения по данному вопросу можно найти в книге Нормана Дрейпера «Прикладной регрессионный анализ».

Практическая составляющая вопроса. В учебных аудиториях для анализа данных часто используется табличный процессор MS Excel. Покажем некоторые проблемные элементы анализа. Все расчеты проведены в MS Excel 2007, 12.0.6683.5002 SP3 MSO (12.0.6683.5000).

Пример 1. Пусть в табл. 1 задана выборка. Во избежание недоразумений конкретизируем, что временной ряд взят исключительно для интерпретации ошибочного применения коэффициента детерминации. Вообще-то говоря, классический регрессионный анализ применим к совокупности панельных данных.

8

6 ♦

"V. 4 ♦

• 0 -X"

1 1 ♦ 1 -6 -4 -2 -2 1 1 1 2 4 6

-4

-у1 = 3,11 + 0,65х---у2 = 3,11 - 0,65х----у = 0,65х

Рис. 1. Диаграмма рассеяния Y по X по табл. 1 с линиями аппроксимации. Для всех линий R2 = 0,687

Проведем анализ тех же данных (табл. 1) с помощью инструментов MS Excel. На рис. 2 приведена диаграмма рассеяния Y по X с нанесенными линиями тренда со свободным членом (1) и без свободного члена (2).

Таблица 1. Выборка

X -4 -3 -2 -1 0 1 2 3 4

Y 2 0 3 1 2 4 5 4 7

у1 = 0,65 + 3,1111 у3 = 0,65х

R2 = 0,6872 Y R2= -1.674

_8_

6 ♦

4 ♦ * ^^ А

♦ ♦

♦ • 0

-6 -4 -2 -2 1 1 1 2 4 6

-4

Расчеты модели (2) показали, что XX = 0, у = 3,11, Ь о = 3,11, Ь1 = 0,65, Гху = 0,829, Я2 = 0,687, где Гху — коэффициент корреляции X и У. Легко убедиться, что (гху)2 = Я2. Таким образом, мнк-кривая регрессии:

у = 3,11 + 0,65х

На рис. 1 приведена диаграмма рассеяния У по X, показаны три кривые с одним и тем же значением Я-квадрат.

Рис. 2. Диаграмма с линиями тренда со свободным членом (1) и без свободного члена (3)

Из диаграммы следует, что Я2 (у1) Ф Я2 (у2), причем | Я2(у2) | > 1, что не соответствует требованию Я2 е[0;1]. Более того, это не соответствует и нашим расчетам, показанным выше.

Мнк-оценка (см. ниже)— редкий случай, когда коэффициенты регрессии моделей со свободным членом (1) и без свободного члена (2) совпадают:

ЭКОНОМИЧЕСКИЕ НАУКИ

ь =

z (х- Шу- У) z ХУ

Z (х- х)2

z х2

= 0,65

Коэффициенты детерминации для модели без свободного члена на графике (рис. 2) и в таблице регрессионного анализа (Data/Data Analysis/Regression) (см. прим.) рассчитаны по разным формулам:

а) на графике: R2g = 1 - Щ = - 1,67,

где ESS = Е (y - y3)2 = 98,65, TSS = Е (у - у)2 = 36,89.

RSS

б) в таблице: R2t = TSSS = 0,204,

где RSS = Е (y3)2 = 25,35, TSS = Е (у)2 = 124. Итак, два инструмента MS Excel используют различные формулы вычисления коэффициента детерминации, причем R2g Ф R2t!

Таблица регрессионного анализа (фрагмент листинга) (прим.)

SUMMARY OUTPUT

Regression Statistics

Multiple R 0,828975

R Square 0,687199

Adjusted R Square 0,642513

Standard Error 1,283905

Observations 9

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Пример 2. Задана выборка в табл. 2. Таблица 2. Выборка

X 2 3 4 5 6 7 8 9 10

Y

Рис. 3

По данным табл. 2 построена диаграмма (рис. 3) с линиями тренда со свободным членом и без него.

Какая модель лучше? Визуально выбрать наилучшую модель затруднительно. По данным таблицы регрессионного анализа (здесь не приводим) получены значения.

Модель R2g R2t

y = 0,65x - 0,7889 0,6872 0,6872

y = 0,5391x 0,6635 0,8999

Заключение. Анализ коэффициентов детерминации, полученных различными способами, может только ввести в заблуждение. Возможны ситуации, когда тот или иной параметр, незначимый по ^кри-терию Стьюдента, при общей значимости модели по F-критерию, как это имеет место во втором примере, модель 1. Выбор «наилучшей» модели 1 по коэффи-

2

0

3

2

4

5

4

7

«Моделирование — собирательный термин для процедур, в соответствии с которыми для решения какой-либо проблемы (теоретической или эмпирической) система представляется математически с помощью компьютерной программы» [6].

«Компьютерное моделирование эмпирических моделей ограничено тем, что модель может не быть адекватной, т.е. она может неудовлетворительно отражать исследуемую задачу» [6].

«При моделировании процесса для понимания причин и следствий, выбора наиболее адекватной модели и использования средств диагностики для улучшения модели требуется существенный уровень квалификации» [6].

Верификация проекта и разработки — проверить, что выходные данные проектирования и разработки удовлетворяют входным требованиям [6].

HflK ЭКОНОМИЧЕСКИЕ НАУКИ

циенту детерминации на графике, на том основании, что он больше, навряд ли можно считать разумным решением — адекватность модели не доказана! Необходимо дальнейшее исследование модели. Анализ качества модели — это слишком ответственная процедура, чтобы при верификации модели полагаться только на какую-либо формальную статистику, например Я-квадрат или на применение информационных технологий в ущерб теоретическому сопровождению процесса моделирования. Информационные технологии — это всего лишь инструмент в руках исследователя.

Литература

1. ГОСТ 21878-76. Случайные процессы и динамические системы. Термины и определения.

2. ГОСТ 24026-80. Исследовательские испытания. Планирование эксперимента. Термины и определения.

3. ГОСТ Р 50779.10-2000. Статистические методы. Вероятность и основы статистики. Термины и определения.

4. ГОСТ Р 50779.11-2000 (ИСО 3534.2-93) Статистические методы. Статистическое управление качеством. Термины и определения.

5. ГОСТ Р ИСО 2859-4-2006. Статистические методы. Процедуры выборочного контроля по альтернативному признаку. Ч. 4. Оценка соответствия заявленному уровню качества

6. ГОСТ Р ИСО/ТО 10017-2005. Статистические методы. Руководство по применению в соответствии с ГОСТ Р ИСО 9001.

7. Бабешко Л.О. Основы экономического моделирования: Учеб. пособие. М. , 2006.

8. Доугерти Кристофер. Введение в эконометрику: Учебник; 3-е изд./ Пер. с англ. М., 2010.

9. Дрейпер Норман. Прикладной регрессионный анализ / Пер. с англ. М., 2007.

Верификация оценки по выборке требует, чтобы объем выборки и результаты контроля учитывали неопределенность, связанную с оценкой [5].

Верификация — подтверждение на основе представления объективных свидетельств того, что установленные требования были выполнены (ГОСТ Р ИСО 9000-2001).

К одной из важнейших составляющих моделирования относят верификацию полученной модели: «когда решение может быть получено с применением компьютерных технологий. В экспериментальной области моделирование используют, если исследуемая система может быть адекватно описана с помощью компьютерной программы. Моделирование является также полезным инструментом в обучении работе со статистическими данными».

10. Кремер Н.Ш., Путко Б.А. Эконометрика: Учебник для студентов вузов; 2-е изд., стереотип. М., 2008.

11. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учебник; 8-е изд., испр. М., 2007.

12. Носко В.П. Эконометрика для начинающих. Основные понятия, элементарные методы, границы применимости, интерпретация результатов. М., 2000.

13. Рекомендации по стандартизации: Р 50.1.0402002. Статистические методы. Планирование экспериментов. Термины и определения.

14. Семенова Е.Г., Смирнова М.С. Основы эко-нометрического анализа: Учеб. пособие. СПб., 2006.

15. Скляров Ю.С. Эконометрика. Краткий курс: Учеб. пособие; 2-е изд., испр. СПб., 2007.

16. Шанченко Н.И. Эконометрика: Лабораторный практикум. Ульяновск, 2004.

Россия имеет значительный опыт в математическом образовании и науке, накопленный в 1950 — 1980 гг. Интересно, почему тогда регламентировано применение учебников не старше 5 лет?

Без высокого уровня математического образования невозможны выполнение поставленной задачи по созданию инновационной экономики, реализация долгосрочных целей и задач социально-экономического развития Российской Федерации, модернизация 25 млн высокопроизводительных рабочих мест к 2020 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.