Научная статья на тему 'Модификация алгоритма Брендона для построения нелинейных регрессионных моделей'

Модификация алгоритма Брендона для построения нелинейных регрессионных моделей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
96
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛИРОВАНИЕ / MODELING / РЕГРЕССИЯ / REGRESSION / НЕЛИНЕЙНОСТЬ / NONLINEARITY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Настенко Е.А., Носовец Е.К., Григорьевский Е.C.

В статье рассмотрено – возможность модификации алгоритма Брендона для построения нелинейных регрессионных моделей за счет повторного поиска нового множителя из сформированной выборки данной, вариации использования логарифмических функций для снижения влияния шума исходных данных и тригонометрических функций для описания циклических процессов. Данный метод реализовано в виде программного продукта. Его работоспособность проверена на тестовой выборке. Полученные результаты свидетельствуют о повышении точности моделирования по сравнению со стандартными методами нелинейного регрессионного анализа.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Настенко Е.А., Носовец Е.К., Григорьевский Е.C.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT AND IMPLEMENTATION OF THE METAL DETERGENT PRODUCTION PROJECT

The article considers introduction of the ability to modify Brandon algorithm for constructing non-linear regression models by re-find a new factor of the formed sample of this, variations in the use of logarithmic functions to reduce the impact of noise source data and the trigonometric functions for description of cyclic processes. This method is implemented as a program product. Its efficiency is tested on a test sample. The results show an increase in accuracy of modeling as compared with the standard methods of nonlinear regression analysis.

Текст научной работы на тему «Модификация алгоритма Брендона для построения нелинейных регрессионных моделей»

DOI: 10.18454/IRJ.2016.49.019 Настенко Е.А.1, Носовец Е.К.2, Григорьевский Е.С3

1ORCID: 0000-0002-1076-9337, Доктор биологических наук, старший научный сотрудник;

2ORCID: 0000-0003-1288-3528, Кандидат технических наук;

3ORCID: 0000-0001-5274-2944, Магистр, Национальный технический университет Украины «Киевский политехнический институт»

МОДИФИКАЦИЯ АЛГОРИТМА БРЕНДОНА ДЛЯ ПОСТРОЕНИЯ НЕЛИНЕЙНЫХ РЕГРЕССИОННЫХ

МОДЕЛЕЙ

Аннотация

В статье рассмотрено - возможность модификации алгоритма Брендона для построения нелинейных регрессионных моделей за счет повторного поиска нового множителя из сформированной выборки данной, вариации использования логарифмических функций для снижения влияния шума исходных данных и тригонометрических функций для описания циклических процессов. Данный метод реализовано в виде программного продукта. Его работоспособность проверена на тестовой выборке. Полученные результаты свидетельствуют о повышении точности моделирования по сравнению со стандартными методами нелинейного регрессионного анализа.

Ключевые слова: моделирование, регрессия, нелинейность.

Nastenko Ie.A.1, Nosovets O.K.2, Hryhorevskyi Ye.S.

1ORCID: 0000-0002-1076-9337, PhD in Biology, 2ORCID: 0000-0002-1825-0023, PhD in Engineering, 3ORCID: 0000-0001-5274-2944, Master degree student, National Technical University of Ukraine "KPI" DEVELOPMENT AND IMPLEMENTATION OF THE METAL DETERGENT PRODUCTION PROJECT

Abstract

The article considers introduction of the ability to modify Brandon algorithm for constructing non-linear regression models by re-find a new factor of the formed sample of this, variations in the use of logarithmic functions to reduce the impact of noise source data and the trigonometric functions for description of cyclic processes. This method is implemented as a program product. Its efficiency is tested on a test sample. The results show an increase in accuracy of modeling as compared with the standard methods of nonlinear regression analysis.

Keywords: modeling, regression, non-linearity.

В процессе познания окружающего мира важную роль играет создание моделей и их исследования. Изучение м одели дает представление о внутренней структуре исследуемой системы, о процессах, протекающих в ней, позволяет выделить наиболее значимые элементы системы, предусмотреть их поведение и, по возможности, влиять на развитие ситуации.

Развитие современных методов обработки данных позволяет на новом уровне решить проблемы моделирования объектов и систем в разных сферах человеческой деятельности. Количество алгоритмов направленных на решение подобных задач возрастает, однако не все они применимы при моделировании реальных систем различной сложности.

Большинство существующих алгоритмов, как правило, имеют высокую чувствительность к шуму и (или) корреляции входных параметров, требуя предварительного проведения факторного анализа для выделения основных входных параметров [1]. Или же накладывают ограничения на структуру получаемую модель (линейная, полиномиальная и т.д.) [2].

Алгоритмы, в которых данные недостатки частично устранены имеют неявный анализ, который может исследовать и выделять основные параметры модели, однако имеют сложную структуру и реализацию.

Целью данного исследования является модификация существующего алгоритма Брендона для построения нелинейных (периодических) регрессионных моделей, с низкой чувствительностью к шуму и возможной корреляцией входных статистических данных. Данные условия необходимы для построения математических моделей реальных объектов, процессов и систем.

Анализ возможности модификации существующих методов моделирования показал наибольшую перспективность алгоритма Брендона [3].

Данный алгоритм является достаточно простым, имеет неявное устранения корреляционных проблем входных данных и достаточно гибкий для разработки определенных модификаций.

Недостатками можно выделить избыточность результирующей модели за счет умножения всех включенных входных параметров, и проблемы присущие и другим существующим алгоритмам, а именно получение полиномов, которые достаточно плохо описывают периодические процессы.

Данные недостатки могут быть устранены с помощью модификации и получения нелинейных математический моделей различной сложности, представленных формулой (1):

m

F(XX,) = П((A *Ft (X,) + Bu)А ) (1)

i=0

где

- F(Xj,...,Xk) - искомая регрессионная модель исследуемого процесса;

- X. - входные параметры исследуемых данных, 1 < i < к ;

- ^ (Xi) - допустимо-возможная математическая функция для описания исследуемого процесса (в простейшем виде - линейная);

- I - вариативность допустимо-возможных математических функций в искомой математической модели, />1;

- Л, в ц - коэффициенты парной регрессии входного параметра Xг для допустимо-возможной функции ^

, которые вычисляются с помощью МНК;

- р^ - степень 1-го множителя полинома 1-ой допустимо-возможной функции, р е Z.

Предположим, что у нас имеется некий исследуемый процесс У, имеющий п наблюдений к факторов. Тогда входные данные можно представить в матричном виде (рис. 1):

XI Х3 XI-

...

Рис. 1 - Матрица входных данных исследуемого процесса

Необходимо определить допустимо-возможные функции ¥/, которые могут быть в искомой регрессионной модели. Допустимо-возможной функций может быть одна из линейных, логарифмических, степенных или тригонометрических функций.

Допустим, что входные данные являются линейной функцией вида ^ (X.) = X , тогда расширим выборку входных данных, рассчитав значения для выбранных возможно-допустимых функций (рис. 2).

л

Рис. 2 - Матрица входных данных с допустимо-возможными функциями ¥1

Подготовив входные данные, необходимо выполнить следующий алгоритм для получения результирующей модели (форм. 1):

1. Провести нормализацию данных.

2. Сформировать целевую последовательность данных Я, инициализируя ее целевыми входными значениями У.

3. Рассчитать коэффициент корреляции Г между всеми последовательностями ^ (X.) = X и Я.

4. Рассчитать соответствующие значения ^ /-критерия Стьюдента для значений коэффициентов регрессии.

5. Выбрать модуль максимального значения ^ = тах(|) рассчитанных .

6. Если > 7 т, где 7 и - критическое значения коэффициента Стьюдента для соответствующего значения доверительной вероятности и числа степеней свободы:

6.1 Рассчитать коэффициенты парной регрессии Лн, Вй с помощью МНК.

6.2 Включить данный множитель ^ (X.) в искомую модель.

6.3 Рассчитать новые значения Т для новой регрессионной модели.

о 7

6.4 Рассчитываем новые значения целевой последовательности данных К = 7^ .

7. Повтор с шага 3.

Данная модификация алгоритма Брендона позволяет получить нелинейную модель за счет повторного поиска нового множителя из сформированной выборки данной, вариации использования логарифмических функций для снижения влияния шума исходных данных и тригонометрических функций для описания циклических процессов. Это дает возможность построения более точных моделей для сложных нелинейных исследуемых процессов.

Стоит отметить, что данный алгоритм имеет более высокую устойчивость к корреляции между входными параметрами за счет пересчета целевой последовательности данных R после добавления каждого нового множителя.

Возможна модификация данного алгоритма за счет исключения существующих множителей при добавлении нового (как происходит в пошаговых алгоритмах включения-исключения переменных).

Данный алгоритм было реализовано в виде программного продукта в соответствии со стандартом ISO / IEC 12207: 2009, который описывает процессы жизненного цикла программного обеспечения (рис. 3).

File Calc Data Chart Help

1 si - m »i к®«» Зэ - il s ü Params : 24 Values: 714 Sill:

Discriminant analysis

Params

I- Include zero values I- Normalized I- E very X ¡ust once

IVO 2

SVRI

IVO 2

ID02

IVO 2

Ca02

Cv02

c02avg

Adsr.

ADS

ADD

CVPIUG... SV[U0.) HR. CI.

3|(УИ.) CVPIUB...

Hb. HI.

H WH I.

Вязкост...

ра02

pv02

oaC02

0VC02

I

Parameters correlations

Regression analysis

Origin

Yusd I 714 Vavg| 112.132 Ymin | 1.32824 Yma* | 473. G26 Framed ■—

Yusd I 714 Yavg| 112.132 Ymrn | 1.32824 Yman | 473628

Рис. 3 - Интерфейс программного продукта

№ X lYK тая rY/X A В [Y/Yn л

1 Cl. 0,841133 46,777164 7,572473 8,641136

2 pv02 -0,584411 ■8.815844 1,870314 8,748526

3 Hb. 0,133483 8,866336 8,165876 8,776743

4 pv02 -0,167277 ■8,807857 1,237712 8,835432

5 HI. 0.08478E 8.815828 8,482426 8,824762

G pv02 -0,081275 ■8,805351 1,252343 8,848388

Применимость разработанной модификации алгоритма Брендона проверялась на реальной тестовой выборке, которая содержала 715 наблюдений, полученных в отделении реанимации НИССХ им. Амосова. Данные представляли собой измерения основных показателей жизнедеятельности и тесно коррелировали между собой.

В качестве переменной моделирования выбран показатель IVO2, в качестве независимых переменных отобраны показатели, которые имели диагностическую ценность с точки зрения специалистов данного отделения.

В результате моделирования зависимой переменной IVO2 стандартными пошаговыми методами, представленными в статистическом пакете обработки данных IBM SPSS Statistics 21.0, получена следующая модель:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

y = CI ■ 41.853 - pvO2 ■ 1.948 + Hb ■ 6.030 + SI * 0.771 + pvCO2 ■ 0.555 + paO2 ■ 0.05 - 22.697

Суммарная точность оценивалась за показателем коэффициента детерминации, показавшим значение 0,641 для модели, рассчитанной пошаговым регрессионным алгоритмом.

Аналогичная процедура, проведенная с помощью разработанного программного продукта, реализующего модификацию алгоритма Брендона, позволила получить следующую модель:

y = (46.778 ■ Ci + 7.57) ■ (0.066 ■ Hb + 0.166) ■ (0.015 ■ Ht + 0.462) ■ (-0.016 ■ PVO2 +1.671) ■

■ (-0.007 ■ PVO2 +1.298) ■ (-0.006 ■ PVO2 +1.253)

Коэффициент детерминации, показывающий взаимосвязь между табличными и модельными значениями, рассчитанный для данной модели принял значение 0,819.

Данная модель, рассчитана без применения периодических функций и не чувствительна к корреляциям между входными показателями Точность модели по сравнению со стандартной пошаговой регрессионной процедурой выше на 22%, что показывает на возможность ее применения в условиях реальной практики.

Несмотря на полученные результаты, необходимо отметить, что данная модификация алгоритма требует доработки. В частности необходимым видится исследование параметров модели на избыточность. Однако, это является предметом дальнейших исследований и будет представлено в последующих публикациях.

Литература

1. Farlow. S. J. Self-Organizing Methods in Modelling: GMDH Type Algorithms / S. J. Farlow. - New-York: Marcel Decker Inc., 1984. - 350 p.

2. Sen A. Regression Analysis — Theory, Methods, and Applications / A. Sen, M. Srivastava. - Berlin: Springer-Verlag, 2011. - 348 p.

3. Brandon D. D. New approach to modelling / D. D. Brandon. // AGI Journal. - 1964. - №7. - С. 36-42.

i Надоели баннеры? Вы всегда можете отключить рекламу.