Научная статья на тему 'Методика многокритериального выбора лямбда-параметра в модели парной линейной регрессии со стохастическими переменными'

Методика многокритериального выбора лямбда-параметра в модели парной линейной регрессии со стохастическими переменными Текст научной статьи по специальности «Математика»

CC BY
399
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
iPolytech Journal
ВАК
Область наук
Ключевые слова
МОДЕЛЬ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ / СТОХАСТИЧЕСКИЕ ПЕРЕМЕННЫЕ / ПОЛНЫЙ МЕТОД НАИМЕНЬШИХ КВАДРАТОВ / ЛЯМБДА-ПАРАМЕТР / РЕГРЕССИЯ ДЕМИНГА / МНОГОКРИТЕРИАЛЬНАЯ ЗАДАЧА / КРИТЕРИЙ ДЕТЕРМИНАЦИИ-АВТОКОРРЕЛЯЦИИ / MODEL OF A PAIRWISE LINEAR REGRESSION / STOCHASTIC VARIABLES / TOTAL LEAST SQUARES / LAMBDA-PARAMETER / DEMING REGRESSION / MULTI-CRITERIA PROBLEM / DETERMINATION-AUTOCORRELATION CRITERION

Аннотация научной статьи по математике, автор научной работы — Базилевский Михаил Павлович

ЦЕЛЬ. Разработка методики многокритериального выбора неизвестного соотношения дисперсий ошибок исследуемых признаков, так называемого лямбда-параметра, в модели регрессии со стохастическими переменными. МЕТОДЫ. Для достижения цели использованы математические и статистические методы. РЕЗУЛЬТАТЫ. Предложена общая методика многокритериального выбора лямбда-параметра. Рассмотрен частный случай этой методики, предполагающий выбор лямбда-параметра по следующим критериям адекватности: критерию детерминации, Фишера, Дарбина Уотсона, согласованности поведения, средней относительной ошибки аппроксимации, максимальной ошибки регрессии. Предложен критерий детерминации-автокорреляции, одновременно характеризующий точность модели и автокорреляцию в её остатках. Рассмотрен алгоритм выбора оптимального по критерию детерминации-автокорреляции значения лямбда-параметра. ЗАКЛЮЧЕНИЕ. Разработанная методика существенно расширяет полноту оценивания качества регрессии со стохастическими переменными.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODOLOGY OF LAMBDA-PARAMETER MULTI-CRITERIA SELECTION IN THE MODEL OF A PAIRWISE LINEAR REGRESSION WITH STOCHASTIC VARIABLES

The PURPOSE of the paper is to develop a methodology of multi-criteria selection of an unknown variance ratio of the investigated characteristics, a so-called lambda-parameter, in a regression model with stochastic variables. METHODS. Mathematical and statistical methods are used to achieve the purpose. RESULTS. A general methodology of lambda-parameter multi-criteria selection is proposed. The paper deals with the special case of this methodology involving lambda-parameter selection by the following adequacy criteria: the criterion of determination, Fischer, Durbin-Watson, consistency of conduct, mean relative error of approximation, maximum error of regression. The criterion of determination-autocorrelation is introduced that describes both the model accuracy and residual autocorrelation. A selection algorithm of the lambda-parameter value optimum by the criterion of determination-autocorrelation is considered. CONCLUSION. The developed methodology significantly expands the evaluation completeness of the quality of a regression with stochastic variables.

Текст научной работы на тему «Методика многокритериального выбора лямбда-параметра в модели парной линейной регрессии со стохастическими переменными»

Оригинальная статья / Original article УДК 519.862.6

DOI: 10.21285/1814-3520-2017-3-59-72

МЕТОДИКА МНОГОКРИТЕРИАЛЬНОГО ВЫБОРА ЛЯМБДА-ПАРАМЕТРА В МОДЕЛИ ПАРНОЙ ЛИНЕЙНОЙ РЕГРЕССИИ СО СТОХАСТИЧЕСКИМИ ПЕРЕМЕННЫМИ

л

© М.П. Базилевский1

Иркутский государственный университет путей сообщения, Российская Федерация, 664074, г. Иркутск, ул. Чернышевского, 15.

РЕЗЮМЕ. ЦЕЛЬ. Разработка методики многокритериального выбора неизвестного соотношения дисперсий ошибок исследуемых признаков, так называемого лямбда-параметра, в модели регрессии со стохастическими переменными. МЕТОДЫ. Для достижения цели использованы математические и статистические методы. РЕЗУЛЬТАТЫ. Предложена общая методика многокритериального выбора лямбда-параметра. Рассмотрен частный случай этой методики, предполагающий выбор лямбда-параметра по следующим критериям адекватности: критерию детерминации, Фишера, Дарбина - Уотсона, согласованности поведения, средней относительной ошибки аппроксимации, максимальной ошибки регрессии. Предложен критерий детерминации-автокорреляции, одновременно характеризующий точность модели и автокорреляцию в её остатках. Рассмотрен алгоритм выбора оптимального по критерию детерминации-автокорреляции значения лямбда-параметра. ЗАКЛЮЧЕНИЕ. Разработанная методика существенно расширяет полноту оценивания качества регрессии со стохастическими переменными.

Ключевые слова: модель парной линейной регрессии, стохастические переменные, полный метод наименьших квадратов, лямбда-параметр, регрессия Деминга, многокритериальная задача, критерий детерминации-автокорреляции.

Формат цитирования: Базилевский М.П. Методика многокритериального выбора лямбда-параметра в модели парной линейной регрессии со стохастическими переменными // Вестник Иркутского государственного технического университета. 2017. Т. 21. № 3. С. 59-72. DOI: 10.21285/1814-3520-2017-3-59-72

METHODOLOGY OF LAMBDA-PARAMETER MULTI-CRITERIA SELECTION IN THE MODEL OF A PAIRWISE LINEAR REGRESSION WITH STOCHASTIC VARIABLES M.P. Bazilevskiy

Irkutsk State Transport University,

15, Chernyshevsky St., Irkutsk, 664074, Russian Federation.

ABSTRACT. The PURPOSE of the paper is to develop a methodology of multi-criteria selection of an unknown variance ratio of the investigated characteristics, a so-called lambda-parameter, in a regression model with stochastic variables. METHODS. Mathematical and statistical methods are used to achieve the purpose. RESULTS. A general methodology of lambda-parameter multi-criteria selection is proposed. The paper deals with the special case of this methodology involving lambda-parameter selection by the following adequacy criteria: the criterion of determination, Fischer, Durbin-Watson, consistency of conduct, mean relative error of approximation, maximum error of regression. The criterion of determination-autocorrelation is introduced that describes both the model accuracy and residual autocorrelation. A selection algorithm of the lambda-parameter value optimum by the criterion of determination-autocorrelation is considered. CONCLUSION. The developed methodology significantly expands the evaluation completeness of the quality of a regression with stochastic variables.

Keywords: model of a pairwise linear regression, stochastic variables, total least squares, lambda-parameter, Deming regression, multi-criteria problem, determination-autocorrelation criterion

For citation: Bazilevskiy M.P. Methodology of lambda-parameter multi-criteria selection in the model of a pairwise linear regression with stochastic variables. Proceedings of Irkutsk State Technical University. 2017, vol. 21, no. 3, pp. 59-72. (In Russian) DOI: 10.21285/1814-3520-2017-3-59-72

Базилевский Михаил Павлович, кандидат технических наук, доцент кафедры математики, e-mail: mik2178@yandex.ru

Mikhail P. Bazilevskiy, Candidate of technical sciences, Associate Professor of the Department of Mathematics, e-mail: mik2178@yandex.ru

Введение

Регрессионный анализ является признанным инструментом построения математических моделей статистического типа. Чаще других при построении регрессионных моделей используется метод наименьших квадратов (МНК). В силу теоремы Гаусса - Маркова одной из предпосылок МНК является то, что значения объясняющих переменных должны быть детерминированы (неслучайны). Однако в практике статистических исследований и эконометриче-ского моделирования объясняющие переменные могут иметь и стохастическую (случайную) природу, что может быть вызвано, например, неточностями, допущенными при регистрации их значений. В этом случае теряются некоторые свойства МНК-оценок неизвестных параметров [1, 2].

Регрессионные модели со стохастическими объясняющими переменными (errors-in-variables models, EIV) впервые упоминаются в работах Р. Эдкока и К. Куммеля [3-5]. Оценивание этих моделей осуществляется с помощью полного метода наименьших квадратов [6]. Основная проблема при использовании этого метода заключается в том, что необходимо знать соотношение дисперсий ошибок исследуемых признаков, так называемый лямбда-параметр (Л -параметр), от которого зависят все оценки неизвестных параметров моделей со стохастическими переменными. Если лямбда-параметр известен, то имеем регрессию Деминга [7], для которой без труда можно найти оценки неизвестных параметров. Но на практике значение Л-параметра практически всегда неизвестно. Настоящая статья и посвящена решению проблемы выбора Л-параметра.

Сделаем одно очень важное замечание. По мнению известного специалиста по анализу данных С.А. Айвазяна, существует два подхода к интерпретации и анализу исходных статистических данных: вероятностно-статистический и логико-алгебраический [8]. В первом из них данные интерпретируются как выборка из некоторой генеральной совокупности. При этом одной из главных задач является выбор метода статистической обработки, который дает наиболее точные (несмещенные, состоятельные и эффективные) оценки неизвестных параметров генеральной совокупности. Второй подход предполагает, что либо нет никаких априорных сведений о вероятностной природе анализируемых данных, либо данные вообще не могут быть интерпретированы как выборка из генеральной совокупности. При этом исследователь уже не вправе судить о качественных свойствах оценок неизвестных параметров. Однако и в том и в другом подходе выбор наилучшего метода моделирования данных производится в соответствии с некоторым критерием адекватности.

Настоящая работа выполнена в рамках логико-алгебраического подхода к анализу данных.

Модель парной линейной регрессии со стохастическими переменными

Рассмотрим простейший случай модели со стохастическими переменными - модель парной линейной регрессии, в которой объясняемая переменная y зависит от объясняющей

переменной х. Пусть в результате n опытов или наблюдений получены пары чисел (х,y), i = 1, n, содержащие некоторого рода неконтролируемые ошибки. Это означает, что фактически вместо пар (х, y) фиксируются значения

X = х* + , i = 1, n; (1)

Уг = У* +£yt , i = 1, П , (2)

где (х*,y*) - расчетные значения переменных; ех и еу - ошибки регрессии.

Предположим, что истинная связь между переменными задается простейшей линейной зависимостью

у* = а + Ьх*, г = 1, п , (3)

где а и Ь - неизвестные параметры.

Используя соотношения (1), (2) и равенство (3), перейдем к регрессии со стохастическими переменными:

у = а + Ьх* + ,

' у (4)

IX = хг + ,

где х* - неизвестные расчетные значения объясняющей переменной.

Для оценивания неизвестных параметров модели (4) применяется полный метод наименьших квадратов, состоящий в минимизации функционала:

п 2 1 П 2

^ = Е(х*"X*) + ТУ "а-Ьх) ^ т1п - (5)

а л ц

где Яе( 0, да) - лямбда-параметр, от которого зависят оценки неизвестных параметров а, Ь , х*, г = 1,п. В зависимости от значения Л -параметра выделяют следующие частные случаи регрессии (4):

• обратная регрессия - если л ^ 0;

• прямая регрессия - если л ^ да;

• ортогональная регрессия - если Л = 1;

^

Ох

Для известного значения лямбда-параметра оценки неизвестных параметров модели (4) находятся по формулам:

Ь = (Д -Л)х ) + >/( Д Л )2 + 4ЛКу . (6)

К '

а = у - Ьх; (7)

х* = хг (У'-а-Ьх) - * = 1,п - (8)

Л + Ь у '

где д, Д - выборочные дисперсии переменных х и у, у их - выборочные средние,

• диагональная регрессия - если Л = —.

Kxy - ковариация.

Отметим, что оценка (6) получена из решения квадратного уравнения

КуЬ-(д-ЛД ) Ь-ЛКу = 0. (9)

Таким образом, варьирование значений Л,-параметра в функционале (5) приводит к изменению оценок, а, значит, и изменению качества регрессии со стохастическими переменными.

Перейдем к формальному описанию общей методики многокритериального выбора лямбда-параметра в модели регрессии со стохастическими переменными. Следует отметить, что в основе предложенной методики лежит технология организации «конкурса» регрессионных моделей, подробно описанная в работах [9, 10].

Как видно, регрессия (4) представляет собой систему двух уравнений, связанных между собой через неизвестные параметры х*, г = 1,п. Поэтому её качество следует оценивать

одновременно и по первому и по второму уравнению. Тогда пусть регрессия со стохастическими переменными характеризуется множеством из I критериев адекватности:

где К (Я) = ^ХЩ (Я) + (Я), г = 1,1 - это г -й объединенный (агрегированный) критерий адекватности, представляющий собой линейную свертку локальных критериев Щ (Я) и Ку (Я) с разными «весами» по первому (по переменной х) и по второму (по переменной у) уравнению регрессии (4). Если для г -го объединенного критерия Щ (Я) приоритеты по локальным критериям отсутствуют, то wХ = ^ = 1.

Все элементы множества К (Я) зависят от величины лямбда-параметра Яе( 0, да). На основе совокупности объединенных критериев регрессии (4) требуется найти наиболее приемлемое значение параметра Я. При этом если все объединенные критерии Щ(Я), г = 1,1 во

множестве (10) дифференцируемы по переменной Я на интервале (0,да), то значение лямбда-параметра можно получить аналитически. В противном случае, необходимо провести дискретизацию лямбда-параметра, затем для каждого Я определить значения критериев адекватности и воспользоваться одним из методов решения многокритериальных задач. Рассмотрим последний случай подробнее.

Для дискретизации лямбда-параметра на интервале Яе(0,да) возьмем г точек:

0 <\<Я<... <Яг<да. Дополним множество точками Я0 (обратная регрессия) и Яш (прямая регрессия). Точка Яг выбирается из соображения, что множество К (Яг) несколько хуже, чем множество К (Я).

Вычислив в каждой точке Я., у = 0,г +1 значения объединенных критериев К (Я), г = 1,1, перейдем к критериальной матрице К:

Матрица (11) приводится к однородному виду. Будем считать, что для всех у = 0,г +1 лучшим вариантом по г -му критерию является тот, который соответствует максимальному элементу г -й строки матрицы К. Если характер г -го критерия таков, что чем меньше его

Методика многокритериального выбора лямбда-параметра

к (я) = {к (я), к2 (я)к (я)},

(10)

(11)

значение, тем лучше модель, то, в силу свойства minKi (Я) = -max(-Ki (Я)), элементам

строк, соответствующим таким критериям, следует поставить знак «минус».

Таким образом, поставлена многокритериальная задача оптимизации - необходимо выбрать наилучшее значение лямбда-параметра из конечного множества альтернатив, руководствуясь векторным критерием (10). В теории принятия решений разработано большое количество эффективных алгоритмов решения многокритериальных задач [11, 12]. В нашем случае количество альтернатив может достигать сотни и даже тысячи, поэтому целесообразно использовать метод «идеальной» точки [9, 12].

Прежде всего, элементы матрицы К нормируются по правилу

, кШ-к; _ -

к№,) = к _к: ,i = V,j = 0,r + l,

i i

где K- = min Ki (Я ) , к; = max K, ) .

«Идеальная» точка K * представляет собой вектор, каждая компонента которого равна максимальному значению соответствующего критерия, т.е. для нормированной матрицы K * =(1,1,...,1). Для реальных задач многокритериального выбора обычно отсутствует альтернатива, доставляющая максимум всем критериям одновременно. Поэтому метод «идеальной» точки предполагает поиск альтернативы, образ которой в критериальном пространстве наиболее близок в некоторой метрике (например, евклидовой) к точке K *:

1 2 r = argmin£(l-K,{X)) .

i=i

В представленной выше общей методике многокритериального выбора лямбда -параметра модели регрессии со стохастическими переменными можно использовать любые критерии адекватности из классического регрессионного анализа. Однако для них необходимо предварительно получить аналитические зависимости от лямбда-параметра.

Рассмотрим один из возможных случаев реализации методики многокритериального выбора лямбда-параметра регрессии со стохастическими переменными. Для этого используем следующие критерии адекватности: критерий детерминации я2, Фишера ¥, Дарбина -Уотсона ВШ, согласованности поведения 8Р, среднюю относительную ошибку аппроксимации Е, максимальную ошибку регрессии МЕ. Аналитические зависимости от лямбда-параметра для этих критериев получены и подробно исследованы в работах [13-15]. Кратко рассмотрим каждый из этих критериев по отдельности.

Критерий детерминации показывает долю вариации зависимой переменной, объясняемую моделью регрессии. Возможные значения этого критерия принадлежат отрезку [0,1].

Чем ближе значение критерия детерминации к 1, тем выше качество модели. В работе [13] получены аналитические зависимости для критериев детерминации регрессии Деминга по переменным х и у :

К f Dy + ÄDx + Dy -ÄDx )2 + 4ÀK

Dx [ (Dy - ÄDx )2 + (Dy - ÄDx )J(Dy -ÄDx )2 + 4AK* + 4ÄK

(12)

(Ж; + D2y-ÄDxDy)fDy-ÄDx Dy -ÄDx f + 4ÄK^ ] + 2ÄK2yDy

R (Ä) =-т.-—--т==^=2-(13)

Dy ( ( Dy - ÄDx )2 + ( Dy - ÄDx Ц Dy-ÄDx )2 + 4ÄK^ + 4ÄK,

На интервале 1е(0,да) функция л; (Я) монотонно возрастает, а функция Я2 (Я) - убывает.

Объединенный критерий детерминации (с равными весами) имеет вид:

я2 (я) = л (я)+Л; (Я). (14)

В работе [13] показано, что решением задачи Я2 (Я) ^ тах является точка Я = —.

Ох

Критерий Фишера имеет статистический характер и служит для проверки значимости линейной регрессии в целом. При этом проверяется нулевая гипотеза об одновременном равенстве нулю всех коэффициентов при факторах модели. Если значение этого критерия выше заданного уровня значимости, то нулевая гипотеза отвергается и модель признается значимой. Согласно определению, критерий Фишера целесообразно вводить только для переменной у регрессии Деминга, поскольку во втором её уравнении для переменной х свободный член всегда равен 0, а угловой коэффициент 1. В работе [14] получена аналитическая зависимость критерия Фишера от лямбда-параметра по переменной у:

r K 1

b Ä ^ + b

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

D

V y -

f K 1

Ä 1 b xy

D

V y -

Fy (Ä, b )= I y - (n-2), (15)

где Ь находится по формуле (6).

На интервале Яе(0,да) функция Д(Я) является монотонно убывающей. При этом

если Я^0 (обратная регрессия), то Д(Я)^-да, а если Я^да (прямая регрессия), то

К2

Д (Я) ^ Д, где Д =--—- (п — 2) - критерий Фишера прямой регрессии.

О О — К

ух ху

Таким образом, критерий Фишера не вписывается в общую схему многокритериального выбора лямбда-параметра регрессии со стохастическими переменными. Однако с его помощью можно попытаться сжать множество возможных значений лямбда-параметра. Для этого следует применить схему проверки значимости, предложенную в работе [14].

При заданном уровне значимости а находится критическое значение критерия Фишера Д (а,1, п—2 ).

К

Находится критерий Фишера прямой регрессии Д =--—- (п -2 ).

О О — К

ух ху

Сравниваются Д и Д: если Д > Д, то регрессия является значимой для любого Я, следовательно, множество значений параметра Я сжать не удалось; если Д < Д, то относи-

тельно неизвестной X решается нелинейное уравнение

ру (X)-^ = 0 . (16)

Обозначим решение уравнения (16) X*. Тогда, если Х<Х*, то регрессия является значимой, а если Х>Х* - незначимой. Следовательно, удалось сжать множество значений лямбда-параметра до множества (0,Х*).

Критерий Дарбина - Уотсона предназначен для тестирования автокорреляции остатков регрессии первого порядка. Возможные значения этого критерия принадлежат отрезку [0,4]. Наилучшим значением критерия считается 2. В работе [14] показано, что аналитические зависимости ВЖ (X) и ВЖ (X) для критериев Дарбина - Уотсона по переменным х и у совпадают. Зависимость критерия Дарбина - Уотсона от лямбда-параметра имеет вид:

, ч X(A - 2ЬВ + Ь2С)

^^--мвАт^у (17)

где Ь находится по формуле (6).

Если 0 (обратная регрессия), то ВЖ(X)^ ВЖ, где ВЖ - критерий Дарбина-

Уотсона обратной регрессии, а если (прямая регрессия), то ВЖ(Я)^ВЖ, где

ВЖ - критерий Дарбина-Уотсона прямой регрессии. Функция ВЖ(X) имеет точку экстремума:

X* = Ву* - ^2 , (18)

Вх* - Кху

где * - любой из корней квадратного уравнения

(ВВх -СКху)22 +(СВу -АВх)2 + АКху -ВВу = 0 , (19)

п-1 п-1 п-1

где А = ^Ау2, В = ^Ау,Ах, , С = ^Ах2; Дуг = у - у-, Ах, = хг -х^ - первые разности пе-

г=1 г=1 г=1

ременных у и х .

Для определения области значений функции ВЖ(X) применяется следующий алгоритм.

• По формуле (18) находится критическая точка X*. Если эта точка принадлежит интервалу (0, да), то по формуле (17) находится значение функции в этой точке ВЖ (X*).

• Находится критерий Дарбина-Уотсона для обратной регрессии

К2 А - 2В К В + В2С В2А - 2В К В + К2 С ВЖ = —-/ у ^-ч2— и для прямой регрессии ВЖ =—--г—.

1 пВ (В В - К2) 2 пВ (В В - К2)

у\ у х ху) х\ у х ху)

• Определяется область значений критерия Дарбина-Уотсона ВЖ ^е^ВЖ-, ВЖ+],

где DW = min \öWx, DW2, DW (äÄ )} , DW+= max\öWx, DW2, DW(ä* )} .

Если значение 2 принадлежит области значений функции DW (ä) , то для нахождения соответствующего лямбда-параметра необходимо решать нелинейное уравнение DW (ä) = 2. Найдем его решение, перейдя для удобства от функции DW (ä) к функции DW (b). Из выражения (9) имеем:

b (Dv - Kb)

DJ- Ky V 7

Подставив выражение (20) в соотношение (17), получим

DW(b)= . A - 2bB + J2C . . (21)

() n(DJ - 2Kyb + D„) ( '

Приравнивая к двум выражение (21), получим квадратное уравнение относительно b :

(2nDx - C)b2 + 2(B - 2nK^ )b + 2иД, - A = 0. (22)

Корни уравнения (22) имеют вид:

_ - (B - 2nKxv )±>/(B - 2nKxv )2 - (2.nPx - C) (2nDy - A)

1,2 2nDx - C '

Затем проверяется, попадают ли корни (23) в область возможных значений параметра b . Если K^ > 0, то область значений параметра b eJ^,bo6p], а если K^ < 0, то

b e[bo6p,Ьпрям] , где Ьобр , Ьпрям - угловые коэффициенты обратной и прямой регрессий. Если

корень попадает в область значений параметра b, то подставив его в соотношение (20), находим значение лямбда-параметра.

Средняя относительная ошибка аппроксимации показывает среднее отклонение расчетных значений регрессии от фактических и находится по формуле

1 n

E =1Y «t!

J, - У*

Уг

•100%, (24)

где у, у*, / = 1,п - фактические и расчетные значения зависимой переменной; п - объем выборки.

Область значений этого критерия Е е [0, да). Чем ближе средняя ошибка аппроксимации к нулю, тем выше качество модели.

Присутствие в выражении (24) знака модуля не позволяет получить аналитические зависимости средних относительных ошибок аппроксимации Ех (Я) и Е (Я) от лямбда-

параметра регрессии со стохастическими переменными.

Объединенная средняя относительная ошибка аппроксимации имеет вид

Е(Л) = Ех (Л) + Еу (X) . (25)

Для решения задачи Е (X)^ шт необходимо на интервале (0, да) проводить дискретизацию лямбда-параметра, вычислять в каждой точке значение объединенного критерия Е (X) и выбирать оптимальный вариант.

Максимальная ошибка регрессии находится по формуле

МЕ = шах|у - у*|, (26)

где у, у - векторы фактических и расчетных значений.

Область значений этого критерия МЕ е [0, да). Чем ближе максимальная ошибка к нулю, тем выше качество модели.

Получить аналитические зависимости максимальных ошибок МЕх (X) и МЕу (X) от

лямбда-параметра также не представляется возможным.

Объединенная максимальная ошибка регрессии имеет вид

МЕ(Я) = МЕХ (Я) + МЕу (X) . (27)

Для решения задачи МЕ (X)^ шт на интервале (0, да) необходимо действовать так же, как и при решении задачи Е(X) ^ шт.

Критерий согласованности поведения (СП-критерий) оценивает количество совпадений знаков фактических и расчетных приращений зависимой переменной и находится по формуле:

п—1

БР = £ ввп (Ау) ввп (Ау*), (28)

1=1

где Ау = у+1 - у, Ду* = у*+1 - у* - первые разности переменных у и у*.

Максимальное значение, принимаемое СП-критерием, равно п-1, что указывает на полную согласованность знаков фактических и расчетных приращений. Объединенный критерий согласованности поведения имеет вид

БР(X) = БРХ+ БРуу, (29)

где БРх (X) и БРу (X) - аналитические зависимости критериев согласованности поведения по переменным х и у. В работе [15] экспериментально установлено, что разрывные ступенчатые функции ЗРх(X) и ЗРу (X) есть соответственно неубывающие и невозрастающие функции на интервале (0, да).

В работе [15] также доказано, что функция БР(X) не зависит от лямбда-параметра и есть величина постоянная. Для её вычисления в той же работе предложен специальный алгоритм. Однако здесь приводить его не будем, поскольку если функция БР(X) есть константа,

то решением задачи БР (X)^ шах будет любая точка из множества Xе( 0, да). Следователь-

но, на результат выбора лямбда-параметра регрессии со стохастическими переменными объединенный СП-критерий с равными весами (29) никакого влияния не оказывает. Но всё же, если у исследователя есть предпочтения по локальным критериям Sp (Я) и 8Гу (Я), то можно ввести и использовать объединенный СП-критерий с разными весами:

При этом, если w > wx, то решением задачи SP(Я)^ max будет некоторый интервал Яе(0,Я), а если w < wx, то решением будет интервал Яе(Я,, где Я Я находятся через дискретизацию лямбда-параметра.

Вернемся теперь к описанию одного случая реализации методики многокритериального выбора лямбда-параметра. Используя представленную выше информацию об аналитических зависимостях шести основных критериев адекватности, включим во множество (10), характеризующее регрессию со стохастическими переменными, следующие критерии:

где R2 (Я) = R2 (Я) + R2 (Я) - объединенный критерий детерминации; DW (Я) = DWX (Я) = DWy (Я) - объединенный критерий Дарбина - Уотсона; E(Я) = E (Я) + E (Я) - объединенная средняя относительная ошибка аппроксимации; ME (я) = MEx (Я)+ MEy (Я) - объединенная максимальная ошибка регрессии.

Из-за того, что функции E (Я) и ME (Я) не являются дифференцируемыми по переменной Я, необходимо провести дискретизацию лямбда-параметра. Это можно сделать следующими способами:

• На интервале Яе(0,да) произвольно выбрать r точек и дополнить их точками Я0 (обратная регрессия) и Я (прямая регрессия).

• Попытаться сжать множество Яе(0,да) по критерию Фишера до множества Яе( 0,Я*) через описанную выше процедуру. Если сжатие удалось, то выбрать на этом интервале r точек, например, с равным шагом, и дополнить их точкой Я (обратная регрессия).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• Выбрать какой-нибудь локальный критерий, например, локальный критерий детерминации Ry (Я) по переменной y . Найти область его возможных значений R2 (Я)е[х0,1]. Выбрать на этом отрезке r точек: x0 <x <x2 <... <xr < 1. Затем, используя уравнение (13), для

каждой такой точки найти соответствующее значение лямбда-параметра. Сложность этого способа состоит в том, что потребуется r разрешать нелинейное уравнение (13) относительно Я.

Понятно, что чем больше точек r задаст исследователь, тем точнее получится результат. На практике рекомендуется брать значение r не менее 100. Отсюда возникает необходимость в разработке специализированного программного комплекса, полностью автоматизирующего процесс многокритериального выбора лямбда-параметра регрессии со стохастическими переменными.

После дискретизации лямбда-параметра вычисляются значения объединенных критериев множества (31) и составляется критериальная матрица К (11). После чего эта матрица приводится к однородному виду. Для этого в силу свойства minKi (Я) = — max(~Kt (Я)) эле-

SP (Я) = wxSPx (Я) + wySPy (Я).

(30)

K (Я) = {r2 (Я), DW (Я), E (Я) ME (Я)},

(31)

ментам столбцов, соответствующих критериям E (я) и ME (Я) следует поставить знак «минус». Поскольку критерий DW(Я) принимает значение в интервале [0,4] и лучшим его значением является 2, следует преобразовать DW(Я) к такому виду:

DW(X\ = \DW(Я), 6СЛИ DW(Я)~ 2' () [4 - DW(Я), если DW(Я)> 2.

Затем, элементы матрицы К нормируются, составляется «идеальная» точка К* =(1,1,1,1) и находится такое значение лямбда-параметра, образ которого в критериальном

пространстве наиболее близок к точке K *.

Критерий детерминации-автокорреляции. Как было отмечено выше, если функция от переменной Я для i -го объединенного критерия Кг (Я) из множества (10) дифференцируема на интервале (0, да), то наилучшее значение лямбда-параметра для такого критерия

можно получить аналитически, решив соответствующую оптимизационную задачу. При этом из рассмотренных четырех критериев адекватности для частного случая методики многокритериального выбора только два дифференцируемы на интервале (0,да): объединенный критерий детерминации, для которого решена задача R2 (Я)^ max, и объединенный критерий Дарбина - Уотсона, для которого решена задача |2-DW(Я)|^- min. Для решения задачи

выбора наилучшего значения лямбда-параметра одновременно по критериям детерминации и Дарбина - Уотсона введем критерий детерминации-автокорреляции, представляющий собой линейную свертку такого вида:

CDA{X) = wR (Я) + W2R (Я) -1W312 - DW(Я)\, (32)

где R2 (Я), R2 (Я) - зависимости критериев детерминации по переменным x и y от лямбда-параметра; DW(Я) - зависимость критерия Дарбина - Уотсона от лямбда-параметра; щ > 0, w2 > 0, щ > 0 - весовые коэффициенты.

Если в выражении (32) щ = 0, то имеем объединенный критерий детерминации, а если щ = щ = 0, то имеем объединенный критерий Дарбина - Уотсона.

Таким образом, критерий (32) одновременно характеризует и точность модели (4) и автокорреляцию в её остатках. В худшем случае значения критериев детерминации R2x = R2 = 0,

значение критерия Дарбина - Уотсона DW = 0 или DW = 4, следовательно, значение критерия детерминации-автокорреляции CDA = -щ. В лучшем случае R2x = R2 = 1, DW = 2, значит, CDA = щ + щ. Отсюда область возможных значений критерия CDA е[-щ, щ + щ ]. Чем

больше значение этого критерия, тем выше качество модели. Поставим оптимизационную задачу:

CDA(X) = щХ(Я) + щR2(Я)-1 щ|2-DW(Я)|^>max , если Яе(0,да) (33)

Эта задача представляет собой стандартную задачу нахождения наибольшего значе-

ния на интервале. Раскрыв в функционале (33) знак модуля, получим:

CDA (Я)

wR (Я) + wR (Я) + 0.5w3DW (Я) — w3 ^ max, DW (Я)< 2,

wR2 (Я) + wR (Я) — 0.5w3DW (Я) + w3 ^ max, DW (Я)> 2.

(34)

В совокупности (34) найдем точки локальных экстремумов, решив задачи:

wR (Я) + wRy (Я) + 0.5w3D W(Я) - w ^ max

(35)

и

wR (Я) + wR (Я) — 0.5w3DW(Я) + w3 ^ max.

(36)

В задачах (35) и (36) удобнее перейти от переменной Я к переменной Ь, используя соотношение (20). Выполнив данный переход, определив первую производную полученной функции по переменной Ь и приравнивая ее к нулю, получим квадратное уравнение:

Если решения уравнения (37) существуют, то обозначим их Ц2 и J2 ■ Вычислив любое из этих решений, необходимо вновь перейти к переменной Ä , используя соотношение (20). Обозначим данную величину Ä®, которая и является решением задачи (35).

Решение задачи (36) находится аналогично. Для этого в уравнении (37), в коэффициентах а, ß и у необходимо заменить параметры: w3 на -w3. Затем определить значение

ЦЦ или b(2, по которому определить решение задачи (36) - ä^J .

Тогда алгоритм решения задачи (33) имеет следующие ступени:

1. Находятся значения критерия CDA(ä) при Ä^0 (обратная регрессия) и при

Ä^rc (прямая регрессия): CD\, CDA .

2. С использованием уравнения (37) определяются точки локальных экстремумов Ä1) и на интервале (0,rc). Находятся значения критерия CDA(Ä) в этих точках: CDA (1),

cda,2) .

Äloc

3. Используя соотношения (23), определяются корни уравнения DW(ä) = 2 на интер-

аЪ2 + ßb + у = 0,

(37)

где

а = 2w2nKxyDx (Kl — DxDy ) + w3DxDy (BDx — CKy ) , ß = InDxDy (wi — w) (DxDy — KXy ) + w^Dy (CDy — ADx ), у = w3DxDy (AKxy — BDy ) + 2w1xyDy (DxDy — K% ).

вале (0,да). Если они существуют, то обозначим их \ и . Находятся значения критерия CDA(A) в этих точках: CDAa , CDA^.

4. Из полученных значений CDA, CDAю, CD^m , CDAд(2), CDAЛ, CDA^ выбирается наибольшее.

Заключение

Предложена общая методика многокритериального выбора лямбда-параметра в модели парной линейной регрессии со стохастическими переменными. Описан частный случай методики многокритериального выбора лямбда-параметра. Этот случай подразумевает использование следующих критериев адекватности: критерий детерминации, Дарбина - Уотсона, Фишера, согласованности поведения, средняя относительная ошибка аппроксимации, максимальная ошибка регрессии. Предложен критерий детерминации-автокорреляции CDA, одновременно характеризующий точность модели и автокорреляцию в её остатках. Рассмотрен алгоритм выбора оптимального по этому критерию значения лямбда-параметра.

Библиографический список

1. Доугерти К. Введение в эконометрику. М.: ИНФРА-М, 2009. 465 с.

2. Демиденко Е.З. Линейная и нелинейная регрессия. М.: Финансы и статистика, 1981. 303 с.

3. Adcock R.J. Note on the method of least squares // The Analyst. 1877. Vol. 4. P. 183-184.

4. Adcock R.J. A problem in least squares / R.J. Adcock // The Analyst. 1878. Vol. 5. P. 53-54.

5. Kummel C.H. Reduction of observed equations which contain more than one observed quantity // The Analyst. 1879. Vol. 6. P. 97-105.

6. Golub G.H. An analysis of the total least squares problem // SIAM J. Numer. Anal. 1980. Vol. 17. P. 883-893.

7. Deming W.E. Statistical adjustment of data. New York: Dover Publications, 2011. 288 p.

8. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 1000 с.

9. Носков С.И. Технология объектов с нестабильным функционированием и неопределенностью в данных. Иркутск: РИЦ ГП Облинформпечать, 1996. 321 с.

10. Базилевский М.П., Носков С.И. Технология организации конкурса регрессионных моделей // Информационные технологии и проблемы математического моделирования сложных систем. 2009. № 7. С. 77-84.

11. Васильев С.Н., Селедкин А.П. Синтез функции эффективности в многокритериальных задачах принятия решений // Известия АН СССР. Техническая кибернетика. 1980. № 3. С. 186-190.

12. Макаров Н.М. Теория выбора и принятия решений. М.: Наука, 1982. 392 с.

13. Базилевский М.П. Аналитические зависимости между коэффициентами детерминации и соотношением дисперсий ошибок исследуемых признаков в модели регрессии Деминга // Математическое моделирование и численные методы. 2016. № 2 (10). С. 104-116.

14. Базилевский М.П. Аналитические зависимости для некоторых критериев адекватности модели регрессии Деминга // Вестник ИрГТУ. 2016. Т. 20. № 10. С. 81-89. DOI: 10.21285/1814-3520-2016-10-81-89

15. Базилевский, М.П. Использование критерия согласованности поведения для оценивания качества модели регрессии Деминга // Актуальные вопросы научных исследований: сб. науч. тр. по материалам VII Междунар. науч.-практ. конф. 2016. С. 14-17.

References

1. Dougherty K. Vvedenie vjekonometriku [Introduction to Econometrics] Moscow, INFRA-M Publ., 2009, 465 p.

2. Demidenko E.Z. Linejnaja i nelinejnaja regressija [Linear and nonlinear regression] Moscow, Finansy i statistika Publ., 1981, 303 p. (In Russian)

3. Adcock R.J. Note on the method of least squares // The Analyst. 1877, vol. 4, рр. 183-184.

4. Adcock R.J. A problem in least squares // The Analyst. 1878, vol. 5, рр. 53-54.

5. Kummel C.H. Reduction of observed equations which contain more than one observed quantity // The Analyst. 1879, vol. 6, рр. 97-105.

6. Golub G.H. An analysis of the total least squares problem // SIAM J. Numer. Anal. 1980, vol. 17, рр. 883-893.

7. Deming W.E. Statistical adjustment of data. New York: Dover Publications, 2011, 288 p.

8. Ajvazjan S.A., Mhitarjan V.S. Prikladnaja statistika i osnovy jekonometriki [Applied statistics and the foundations of econometrics]. Moscow, JuNITI Publ., 1998, 1000 р. (In Russian)

9. Noskov S.I. Tehnologija objektov s nestabil'nym funkcionirovaniem i neopredelennostju v dannyh [Technology of ob-

jects with unstable functioning and data uncertainty]. Irkutsk, RIC GP Oblinformpechat' Publ., 1996, 321 p. (In Russian)

10. Bazilevskij M.P., Noskov S.I. Tehnologija organizacii konkursa regressionnyh modelej [Technology of regression models competition organization] Informacionnye tehnologii i problemy matematicheskogo modelirovanija slozhnyh system [Information technologies and problems of complex system mathematical modeling]. 2009, no. 7, pp. 77-84. (In Russian)

11. Vasil'ev S.N., Seledkin A.P. Sintez funkcii jeffektivnosti v mnogokriterial'nyh zadachah prinjatija reshenij [Efficiency function synthesis in multi-criteria decision-making problems]. Izvestija AN SSSR. Tekhnicheskaya kibernetika [Proceedings of the USSR Academy of Sciences, Engineering Cybernetics]. 1980, no. 3, pp. 186-190. (In Russian)

12. Makarov N.M. Teorija vybora i prinjatija reshenij [The theory of choice and decision-making]. Moscow, Nauka Publ., 1982, 392 p. (In Russian)

13. Bazilevskij M.P. Analiticheskie zavisimosti mezhdu kojefficientami determinacii i sootnosheniem dispersij oshibok issleduemyh priznakov v modeli regressii Deminga [Analytical dependences between determination coefficients and the error variance ratio of the examined characteristics in the Deming regression model]. Matematicheskoe modelirovanie i chislennye metody [Mathematical modeling and numerical methods]. 2016, no. 2 (10), pp. 104-116. (In Russian)

14. Bazilevskij M.P. Analiticheskie zavisimosti dlja nekotoryh kriteriev adekvatnosti modeli regressii Deminga [Analytical dependences for some adequacy criteria of Deming regression model]. Vestnik IrGTU [Proceedings of Irkutsk State Technical University]. 2016, vol. 20, no. 10, pp. 81-89. DOI: 10.21285/1814-3520-2016-10-81-89(In Russian)

15. Bazilevskij, M.P. Ispol'zovanie kriterija soglasovannosti povedenija dlja ocenivanija kachestva modeli regressii Deminga [Use of the behavior consistency criterion for Deming regression model quality evaluation]. Materialy VII Mezhdunarodnoinauchno-prakticheskoi konferentsii "Aktual'nye voprosy nauchnyh issledovanij"[Materials of VII International scientific and practical conference "Actual problems of scientific researches"]. 2016, pp. 14-17. (In Russian)

Критерии авторства

Базилевский М.П. разработал методику многокритериального выбора лямбда-параметра в модели парной линейной регрессии со стохастическими переменными, рассмотрел частный случай этой методики, предложил критерий детерминации-автокорреляции, определил для него оптимальное значение лямбда-параметра и написал рукопись. Базилевский М.П. несет ответственность за плагиат.

Authorship criteria

Bazilevskiy M.P. has developed a methodology of lambda-parameter multi-criteria selection in the model of the pairwise linear regression with stochastic variables, considered a special case of this methodology, proposed a determination-autocorrelation criterion, determined the value of the lambda-parameter optimal for this criterion and wrote the manuscript. Bazilevskiy M.P. bears the responsibility for plagiarism.

Конфликт интересов

Автор заявляет об отсутствии конфликта интересов.

Conflict of interests

The author declares that there is no conflict of interests regarding the publication of this article.

Статья поступила 15.02.2017 г. The article was received 15 February 2017

i Надоели баннеры? Вы всегда можете отключить рекламу.