Научная статья на тему 'Алгоритм построения линейно-мультипликативной регрессии'

Алгоритм построения линейно-мультипликативной регрессии Текст научной статьи по специальности «Математика»

CC BY
158
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕГРЕССИОННЫЙ АНАЛИЗ / REGRESSION ANALYSIS / "КОНКУРС" МОДЕЛЕЙ / "COMPETITION" OF MODELS / МЕТОД "ИДЕАЛЬНОЙ" ТОЧКИ / "IDEAL" POINT METHOD / ЧИСЛО СТИРЛИНГА ВТОРОГО РОДА / STIRLING NUMBER OF THE SECOND KIND

Аннотация научной статьи по математике, автор научной работы — Базилевский Михаил Павлович, Носков Сергей Иванович

Рассмотрена технология организации «конкурса» линейно-мультипликативных регрессионных моделей. Для данного класса уравнений предложены три стратегии формирования множества их альтернативных вариантов. Рассмотренный алгоритм реализован в программном комплексе автоматизации процесса построения регрессионных моделей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Базилевский Михаил Павлович, Носков Сергей Иванович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE ALGORITHM FOR A LINEAR-MULTIPLICATIVE REGRESSION CONSTRUCTION

In this paper the technology of «competition» of linear-multiplicative regression models organization is considered. For this class of equations three strategies to formation the set of alternatives are proposed. This algorithm is implemented in the program complex for automation construction process of regression models.

Текст научной работы на тему «Алгоритм построения линейно-мультипликативной регрессии»

УДК 519.237.5 Базилевский Михаил Павлович,

аспирант кафедры «Информационные системы» ИрГУПС, ассистент кафедры «Высшая математика» ИрГУПС, e-mail: mik2178@yandex.ru

Носков Сергей Иванович, д. т. н., профессор, директор Института информационных технологий и моделирования ИрГУПС, e-mail: noskov_s@irgups.ru

АЛГОРИТМ ПОСТРОЕНИЯ ЛИНЕЙНОМУЛЬТИПЛИКАТИВНОЙ РЕГРЕССИИ

M.P. Bazilevskiy, S.I. Noskov

THE ALGORITHM FOR A LINEARMULTIPLICATIVE REGRESSION CONSTRUCTION

Аннотация. Рассмотрена технология организации «конкурса» линейномультипликативных регрессионных моделей. Для данного класса уравнений предложены три стратегии формирования множества их альтернативных вариантов. Рассмотренный алгоритм реализован в программном комплексе автоматизации процесса построения регрессионных моделей.

Ключевые слова: регрессионный анализ, «конкурс» моделей, метод «идеальной» точки, число Стирлинга второго рода.

Abstract. In this paper the technology of «competition» of linearmultiplicative regression models organization is considered. For this class of equations three strategies to formation the set of alternatives are proposed. This algorithm is implemented in the program complex for automation construction process of regression models.

Keywords: regression analysis, «competition» of models, «ideal» point method, Stirling number of the second kind.

Введение

При построении регрессионных моделей одной из основных проблем является выбор формы связи между переменными (факторами) в уравнении. В настоящее время в рамках анализа данных разработано значительное количество таких форм (см., например, обзор в [1]). В данной работе авторами рассмотрен класс линейно-мультипликативных регрессий (ЛМР). Для выбора наилучшей формы связи между переменными из этого класса целесообразно реализовывать «конкурс» моделей [1], который заключается в формировании множества альтернативных вариантов уравнения и, при наличии совокупности критериев

адекватности, последующем выборе лучшего из них в заданном смысле. В связи с тем, что реализация «конкурса» моделей вручную слишком трудоемка, возникает необходимость в автоматизации данного процесса, а это, в свою очередь, требует разработки соответствующего программного обеспечения.

Технология построения ЛМР К настоящему времени в регрессионном анализе не существует аналитических или итерационных методов, гарантирующих построение оптимальных по форме моделей. Известны лишь полуэвристические процедуры, реализация которых приводит к построению «хороших» моделей, например методы включения и исключения [2-4], а также пошаговая процедура при использовании метода наименьших квадратов (МНК) [2]. Также известно, что построение оптимальных моделей возможно только с использованием процедур переборного характера, поэтому, с целью получения более качественных регрессий, в данной работе авторами была применена технология проведения «конкурса» моделей.

Рассмотрим линейную регрессионную модель:

m _

Уk = ао + ^агхк, + £к, к =1 п , (!)

1=1

где п - число наблюдений (длина выборки); ук и хш , к = 1, п , г = 1, т - значения зависимой и независимых переменных соответственно; аг, г = 1,т - подлежащие оцениванию параметры; £к, к = 1, п - ошибки аппроксимации.

Информатика, вычислительная техника и управление. Приборостроение. Метрология. Информационно-измерительные приборы и системы

Это уравнение отражает влияние каждого из т независимых факторов в отдельности на выходной показатель у. Оставаясь в классе линейных по параметрам моделей, в качестве регрессо-ров условимся использовать различные комбинации произведений независимых переменных. Тогда из уравнения (1) можно получить (если т = 4), например, следующий вариант линейномульти-пликативной регрессии:

у — а0 ^х^х^ ос ^х^х^х^ ос^х^х^. (2) Отметим, что такие модели являются нелинейными по факторам, но линейными по параметрам и обладают определенным содержательным смыслом. Например, слагаемое аъххх2 в правой части уравнения (2) указывает на то, что факторы х и х оказывают совместное влияние на зависимую переменную у, и это влияние имеет кумулятивный характер. В литературе рекомендуется (см., например, [3,4]) соблюдение условия

п

Р <

4

(3)

а = <

где р - количество слагаемых в модели вида (2); [а] - целая часть числа а .

В общем случае все возможные ЛМР можно представить в виде:

р т ___

ук =ао п х^ +ек, 5 =1г , к = ¡, п, (4)

i=l ]=\

где Г - общее число ЛМР (варианты комбинаций булевых переменных); а ^ - булева переменная,

заданная по правилу:

1, если в s-й регрессии ]-я переменная х. входит в ¡-е слагаемое; 0, в противном случае.

Для того, чтобы построить все возможные варианты ЛМР, необходимо перебрать все элементы трехмерной матрицы О:

О = а ||, 5 = 1, г, ] = 1, т, г = 1, р .

Очевидно, что общее число ЛМР Г будет зависеть от заданного количества независимых переменных т и от количества слагаемых р .

Пусть было построено множество ЛМР из г вариантов:

М = {М1,М2,...,Мг}.

Для оценивания неизвестных параметров а для каждого такого варианта обычно используется метод наименьших квадратов (МНК) или модулей (МНМ). Затем из множества М нужно выбрать

наиболее приемлемую модель, используя множество наиболее часто применяемых критериев адекватности:

К = [Я, Я, £ Е, БЖ}, где Я - критерий множественной детерминации, Я - критерий Фишера, £ - величина остаточной дисперсии, Е - ошибка аппроксимации, БЖ -критерий Дарбина - Уотсона. Формальное определение этих критериев приводится в многочисленной литературе по анализу данных [1, 3, 4].

Пусть из множества К выделено I критериев адекватности. Тогда для выбора лучшей модели из множества вариантов М будем руководствоваться матрицей критериев К :

К = |к М] ), г = й ;=1Г.

В теории принятия решений разработано большое количество эффективных алгоритмов решения многокритериальных задач, многие из которых вполне применимы и при выборе лучшего варианта регрессионной зависимости. Одним из наиболее популярных из них является метод «идеальной» точки [1], идея которого состоит в следующем.

Прежде всего, элементы матрицы К мируются по правилу:

КМ;)-К;

нор-

К, М ) =

к- к

i = 1, l, j = 1, r,

где K -= min K (Ы), K= max К (Ы).

i ЫеМ i i MgM i

Затем задаётся «идеальная» точка, которая представляет собой вектор, каждый элемент которого равен максимальному значению соответствующего критерия матрицы Кг (Ыj). В нашем случае «идеальная» точка будет иметь вид

Г = (wo.

I

Для реальных задач многокритериального выбора лучшего варианта регрессионного уравнения обычно отсутствует альтернатива, доставляющая максимум всем критериям одновременно. Поэтому метод «идеальной» точки предполагает поиск альтернативы Ы *, образ которой в критериальном пространстве наиболее близок к точке К *:

Ы * = argmin £ (<- К,(ы ))2.

i=1

Авторами предложено три стратегии задания характера вхождения независимых переменных в модель (4):

1. Не требуется обязательного вхождения каждой независимой переменной в ЛМР.

2. Каждая независимая переменная входит в ЛМР только 1 раз.

3. Каждая независимая переменная входит в ЛМР хотя бы 1 раз.

Рассмотрим подробнее каждую из них.

1. Не требуется обязательного вхождения каждой независимой переменной в ЛМР.

Эта стратегия не накладывает никаких ограничений на вхождение независимых переменных в правую часть уравнения (4), то есть каждая переменная может входить в модель ровно 1 раз, либо более 1 раза, либо вообще не входить. Найдем общее число таких моделей г . Если в уравнение (4) входит т независимых переменных, то количество комбинаций булевых переменных w будет равно:

w = 2т-1. (5)

В формуле (5) учитывается что нельзя формировать комбинацию булевых переменных из всех нулей, поэтому необходимо от общего числа из 2т вариантов отнять единицу. Если задано р слагаемых, то варианты комбинаций булевых переменных (общее число моделей) будут отличаться друг от друга только составом элементов, то есть получим сочетания без повторений. Тогда общее количество моделей для этой стратегии:

г = СР, = СР

2т-1

(6)

Результаты вычислений, полученных по формуле (6) (для 1 < т < 6 и 1 < р < 10), приведены в табл. 1.

Таблица 1 Общее количество ЛМР, в которых не требуется обязательного вхождения каждой неза-

\ш р \ 1 2 3 4 5 6

1 1 3 7 15 31 63

2 0 3 21 105 465 1953

3 0 1 35 455 4495 39711

4 0 0 35 1365 31465 595665

5 0 0 21 3003 169911 7028847

6 0 0 7 5005 736281 67945521

7 0 0 1 6435 2629575 553270671

8 0 0 0 6435 7888725 3872894697

9 0 0 0 5005 20160075 23667689815

10 0 0 0 3003 44352165 127805525001

данном числе независимых переменных т необходимо указать число слагаемых р в виде интервала [р, р2 ], где р - минимальное число слагаемых, р2 - максимальное число слагаемых. Причём р, р2 е[1,10]. Тогда общее количество таких моделей можно вычислить по формуле

р2

I С2т -1

г=й

либо по табл. 1, суммировав в заданном интервале элементы одноименного столбца.

Результаты вычислений в табл. 1 показывают, что данная стратегия весьма трудоёмка и требует значительного времени при построении ЛМР. Поэтому с целью сокращения количества альтернатив были введены следующие более «жесткие» требования на вхождение независимых переменных в модель (4).

2. Каждая независимая переменная входит в ЛМР только 1 раз.

На формальном языке эта стратегия имеет

вид:

I

= I

5 = 1, г, у = 1, т.

(7)

Для расширения множества альтернативных вариантов моделей для данной стратегии при за-

Такое «жесткое» условие позволяет значительно снизить количество альтернативных вариантов моделей, при этом сохраняя учет всех независимых переменных. Для вычисления количества таких моделей воспользуемся числами Стирлинга второго рода (см., например, [5, 6]).

Число Стирлинга второго рода £(Н, к) равно количеству способов разбиения множества из к элементов на к непустых подмножеств. Например, £(4, 2) = 7, так как существует ровно 7 разбиений множества {1, 2, 3, 4} на два подмножества:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

{{1, 2, 3},{4}} {{1, 2, 4},{3}} {{1, 3, 4}, {2}} {{1, 2},{3, 4}}. {{1, 3},{2, 4}} {{1, 4}, {2, 3}} {{1},{2, 3, 4}}

В нашем случае необходимо разбить множество из т независимых переменных на р слагаемых. Количество таких разбиений и будут определять числа Стирлинга второго рода, которые удовлетворяют рекуррентному соотношению ¿(т, р) = ¿(т -1, р -1) + р8(т - 1, р), 0 < р < т,

1=\

Информатика, вычислительная техника и управление. Приборостроение. Метрология. Информационно-измерительные приборы и системы

причём £(т, т) = 1 для т > 0, а £(т,0) = 0 для т > 0.

Числа Стирлинга можно вычислять в виде суммы

1 р

£(т, р) = - Ё (-1)' Ср (р - г)т . (8)

р! 1~0

Пользуясь формулой (8), рассчитаем количество моделей, удовлетворяющих условию (7), в зависимости от числа независимых переменных т и числа слагаемых р. Результаты расчетов представлены в табл. 2.

Таблица 2

Общее количество ЛМР, в которые каждая независимая переменная входит только 1 раз

X 1 2 3 4 5 6

1 1 1 1 1 1 1

2 0 1 3 7 15 31

3 0 0 1 6 25 90

4 0 0 0 1 10 65

5 0 0 0 0 1 15

6 0 0 0 0 0 1

3. Каждая независимая переменная входит в ЛМР хотя бы 1 раз.

Или на формальном языке:

ЁО/г > 1 5 = 1 Г, / = 1 т.

(9)

г=1

л=1 \к

(10)

где г( /2,..., /к) - количество моделей, в которых отсутствуют / -я, /2 -я, ..., / -я независимые переменные; г - число ЛМР, не требующих вхождения каждой независимой переменной в правую часть уравнения (4), которое можно вычислить по формуле (6).

Найдем г(/,/2,...,/), т. е. количество таких моделей, для которых выполняется условие

V/ е(Л,...,/к), = 0, ^ = ТТГ . (11)

г=1

Пусть в 5 -м варианте комбинаций булевых переменных трехмерной матрицы О отсутствуют к независимых переменных: / -я, /2-я, ..., /-я. Это означает, что соответствующие элементы

матрицы равны 0. Заполним оставшиеся ненулевые элементы матрицы О вариантами комбинаций булевых переменных из 2т-к — 1 элементов по р слагаемым. Они отличаются друг от друга только составом элементов, поэтому являются сочетаниями без повторений С р . Тогда общее

количество ЛМР, удовлетворяющих условию (11), равно

Г0'l, j2,., ]к ) = С 2рт-к —1. (12)

Найдем Ёг(/1,/г,.,/к) . Для этого

1</1 <...</ <т

необходимо расставить все к независимых переменных, которые отсутствуют в модели, на т позиций. Эти комбинации отличаются друг от друга только составом, тогда, с учетом равенства (12), имеем:

-,т-к

(13)

ё Г(jl, ^ 2,. * ■, /к)=ст • с2

1</1 <...</ <т

Используя уравнение (13), заменим соответствующие суммы в равенстве (10). Тогда формула для вычисления числа моделей г0 , удовлетворяющих условию (9), примет вид

— Г"1 Ср а-С2 СР

Ст • Ст-1 , + Ст • С1

Г = Ср

Г0 С2т-1 ... + (-1)кСкт • С2рт-М + ... + (-1)

2т-2-1

т-1

Для вычисления количества г0 таких моделей воспользуемся комбинаторной формулой включения-исключения [5,7]:

или

т-1

= Ё (-1)' ^ Ст • С

Р

т ~ ^т-г

, (14)

(15)

г=0

Вычисленное по формуле (15) количество моделей, в которые каждая независимая переменная входит хотя бы 1 раз, отражает табл. 3.

Таблица 3

Общее количество ЛМР, в которые каждая независимая

Р \ 1 2 3 4 5 6

1 1 1 1 1 1 1

2 0 3 12 39 120 363

3 0 1 32 321 2560 18881

4 0 0 35 1225 24990 426650

5 0 0 21 2919 155106 2655786

6 0 0 7 4977 711326 63602770

7 0 0 1 6431 2597410 537589726

8 0 0 0 6435 7856550 3825658872

9 0 0 0 5005 20135050 23546804440

10 0 0 0 3003 44337150 127539457056

Заключение

Предложенный в данной работе алгоритм построения линейно-мультипликативной регрес-

Г

0

1

сии (ЛМР) был реализован в новой версии программного комплекса автоматизации процесса построения регрессионных моделей (ПК АППРМ) [8] и позволил существенно расширить его возможности. Включение алгоритма в данный комплекс предоставляет пользователям возможность построения ещё более точных математических моделей, по которым, в отличие от предыдущей версии, можно судить о характере и степени совместного влияния независимых факторов на выходную переменную.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Носков С. И. Технология моделирования объектов с нестабильным функционированием и неопределенностью в данных. Иркутск : Облинформпечать, 1996. 320 с.

2. Сенин А. Методы отбора переменных в регрессионные модели [Электронный ресурс] // Технологии анализа данных. URL :

http://www.basegroup.ru/library/analysis/regression/feat ure_selection/ (дата обращения 2.02.2011).

3. Дрейпер Н., Смит Г. Прикладной регрессионный анализ : в 2 кн. М. : Финансы и статистика, 1986. Кн.

1. 366 с.

4. Дрейпер Н., Смит Г. Прикладной регрессионный анализ : в 2 кн. М. : Финансы и статистика, 1987. Кн.

2. 351 с.

5. Липский В. Комбинаторика для программистов. М. : Мир, 1988. 200 с.

6. WolframMathWorld [Электронный ресурс]. URL : http://mathworld.wolfram.com/StirlingNumberoftheSec ondKind.html (дата обращения 17.01.2011).

7. WolframMathWorld [Электронный ресурс]. URL : http://mathworld.wolfram.com/Inclusion-ExclusionPrinciple.html (дата обращения 19.01.2011)

8. Базилевский М. П., Носков С. И. Технология организации конкурса регрессионных моделей // Информационные технологии и проблемы математического моделирования сложных систем. Иркутск : ИрГУПС, 2009. Вып. 7. С. 77-84.

УДК 62-233.2 Дороничев Александр Владимирович,

аспирант, кафедра «Станции, узлы, технология грузовой и коммерческой работы», Дальневосточный государственный университет путей сообщения, тел. 89141829202 (моб.), 407671 (раб.), force_reason@mail.ru Константинов Константин Витальевич, к. т. н., доцент, кафедра «Электроника, электромеханика и электропривод» Дальневосточный государственный университет путей сообщения 631709 (моб.), const@festu.khv.ru

ЭКСПЕРТНАЯ СИСТЕМА ВИБРОДИАГНОСТИКИ СОСТОЯНИЯ И ПЛАНИРОВАНИЯ РЕМОНТОВ ПОДШИПНИКОВ КАЧЕНИЯ ПО ТЕКУЩЕМУ ТЕХНИЧЕСКОМУ СОСТОЯНИЮ НА ОСНОВЕ ВНЕДРЕНИЯ ВЕЙВЛЕТ-ТЕХНОЛОГИИ В ОБЛАСТИ ОБЪЕКТОВ ЖЕЛЕЗНОДОРОЖНОГО ТРАНСПОРТА

A. V. Doronichev, K. V. Konstantin

EXPERT SYSTEM FOR VIBRODIAGNOSTING ROTATING BEARINGS STATUS AND REPAIR PLANNING IN CONNECTION WITH CURRENT TECHNICAL

CONDITIONS ON THE BASIS OF WAVELET-TECHNOLOGIES INTRODUCTION IN THE FIELD RAILWAY TRANSPORTATION OBJECTS

Аннотация. В статье рассмотрены пер- узлов колесно-редукторных блоков и электродви-спективы использования вейвлет-технологий для гателей локомотивов, обнаружения дефектов оценки технического состояния подшипниковых подшипников качения на самых ранних стадиях их

i Надоели баннеры? Вы всегда можете отключить рекламу.