Научная статья на тему 'Метод полного перебора в задаче многофакторного регрессионного анализа'

Метод полного перебора в задаче многофакторного регрессионного анализа Текст научной статьи по специальности «Математика»

CC BY
425
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АЛГОРИТМ / ФАКТОРЫ / МОДЕЛЬ / ВЫБОРКА / ОПТИМАЛЬНАЯ / ALGORITHM / FACTORS / MODEL / SORTING OUT / OPTIMUM

Аннотация научной статьи по математике, автор научной работы — Митасов Игорь Михайлович, Завьялкин Андрей Николаевич

Рассматривается задача последовательного усложнения многофакторной регрессионной модели с полным перебором всех возможных сочетаний факторов при заданном их количестве. Предлагается программно реализуемый алгоритм полного перебора, для построения наилучшей модели при фиксированном количестве факторов, что позволяет выбрать по известным критериям значимости оптимальную модель из множества наилучших моделей для различного количества факторов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Method of full sorting out in the problem of regressive polifactor-analisis

The paper is considers the problem of the seguential complication of the regressive polyfactor-model with full sorting out of all the possible factors combinations at their given number. There is offered the program-realized algorithm of full sorting out for the construction of the best model with the fixed number of factors, that permits to select an optimal model from the set of the best models for the different number of factors according to the well-known criteria of significans.

Текст научной работы на тему «Метод полного перебора в задаче многофакторного регрессионного анализа»

Рассмотрим графики месячного распределения интенсивности нагрузок в Эрлангах (Эрл.), по up-link и downlink на примере двухдиапазонных трехсекторных базовых станций. Результаты за период с 1 июня по 30 июня 2008 г. представлены на рис. 1-12.

Базовая станция N° 2 находится в центральном районе города. В данном случае она обеспечивает покрытие в основном коммерческим предприятиям. Базовая станция № 1 расположена ближе к спальному району г. Красноярска, интенсивность нагрузки заметно слабее, чем на БС № 2. Интенсивность входящей и исходящей нагрузки в различные дни месяца неодинакова, причем кроме случайных колебаний имеют место и регулярные колебания. Из графиков видно, что максимальные значения нагрузки приходятся на рабочие дни недели, на пятницу - спад нагрузки, в субботу и воскресенье - минимальные значения. Вполне оправдан спад нагрузки в период с 12 по 15 июня, так как отмечались празднования Дня Независимости Российской Федерации. Стоит обратить внимание на то, что 12 июня, БС № 2 была загружена. Это обус-

ловлено миграцией населения с окраин в центр города на празднования.

Диапазон 900 МГ ц недогружен (рис. 1-6). Максимальное значение ЧНН для сектора 1 - 900 МГц на БС N° 1 -94,5 Эрл. (20 июня, пятница). Максимальное значение ЧНН для сектора 1 - 900 МГц на БС № 2 - 634,5 Эрл. (12 июня, четверг). Минимальное значение ЧНН для сектора 2 - 900 МГц на БС № 1 - 10,9 Эрл. (1 июня, воскресенье). Минимальное значение ЧНН для сектора 2 - 900 МГц на БС№ 2 - 41,2 Эрл.

Таким образом, можно сделать следующие выводы: анализ нагрузки на базовых станциях сотовой сети показал, что базовая станция вторая загружена в шесть раз больше, чем первая; при высокой загрузке базовой станции большие потери вызовов абонентов; анализ нагрузки необходим для корректировки места расположения базовых станций, с целью создания оптимальных режимов работы абонентов и снижения потерь вызовов.

M. N. Petrov, D. G. Mikhailov

ANALYSIS OF LOAD ON THE CELLULAR NETWORKS OF STANDARD GSM IN KRASNOYARSK

The systems of this kind came not long ago and some companies such as «ETK», «MTS», «Megafon», «Beeline» conduct service. The customer number has sizably exceeded the stationary number. Cellular systems have some features in contrast to stationary. That is why the teletraffic results can be used for analysis, design and calculation of cellular systems. It is necessary to carry out statistics analysis for showing up the regularities ofmodification capacity taking into account the peculiarities.

Keywords: the cellular, network, loading, losses, service.

УДК 519.876

И. М. Митасов, А. Н. Завьялкин

МЕТОД ПОЛНОГО ПЕРЕБОРА В ЗАДАЧЕ МНОГОФАКТОРНОГО РЕГРЕССИОННОГО АНАЛИЗА

Рассматривается задача последовательного усложнения многофакторной регрессионной модели с полным перебором всех возможных сочетаний факторов при заданном их количестве. Предлагается программно реализуемый алгоритм полного перебора, для построения наилучшей модели при фиксированном количестве факторов, что позволяет выбрать по известным критериям значимости оптимальную модель из множества наилучших моделей для различного количества факторов.

Ключевые слова: алгоритм, факторы, модель, выборка, оптимальная.

Важной проблемой многофакторного регрессионного анализа является выбор наиболее значимых факторов и построение модели, определяющей значения моделируемого показателя в зависимости от значений этих факторов.

Проблема состоит в выборе количества факторов и состава факторов при заданном количестве.

Обычно рассматривается полный перебор для двух

факторов, а затем дополнение полученных выборок факторов с помощью различных алгоритмов сокращенного перебора.

В работе предлагается метод решения указанной проблемы на основе программно реализуемого алгоритма полного перебора выборок факторов произвольной длины.

1. Постановка задачи. Линейная многофакторная модель регрессионного анализа имеет следующий вид:

у = {А,X) + с , (1)

где у - моделируемый скалярный показатель; А - вектор параметров модели; X- вектор факторов; с - скалярный параметр модели.

Построение модели (1) заключается в определении значений параметров А, с на основе выборки V следующего вида:

V = {у‘,Xі;і = їда], (2)

где т - количество наблюдений значений характеристику, X.

Пусть вектор X представляет собой совокупность п факторов - хр х2, ..., хп. Выбирая различные по составу выборки из п факторов по к (к < п) и формируя на основе (2) соответствующие выборки Vі, получаем методом наименьших квадратов (НК) к-факторные модели показателя у.

Пусть к* - заданное экспертами максимальное количество факторов, которое целесообразно включать в модель (1), к*< п. Если к* не задано, то к* = п.

Требуется рассмотреть значения к = 1, к * , для каждого фиксированного к построить все возможные модели и выбрать наилучшую модель (А^, с^) по критерию следующего вида:

я (Акпт, Сокпт) = ті пЯ (Ак, ск),

I = 1,сЩ

где (А, ск1) определяются методом НК на основе выборки V/ є V следующего вида:

^={у', хі;'=1т; і є (і)].

Таким образом, будут получены к* наилучших моделей. Оптимальная модель среди к* наилучших моделей определяется по некоторому критерию значимости увеличения количества факторов.

2. Построение А-факторной оптимальной модели. Количество различных моделей при фиксированном к определяется числом сочетаний Скп.

Если существует алгоритм последовательного выбора к факторов из п факторов, который приводит к полному перебору всех возможных выборок, то оптимальная к-факторная модель может быть найдена известной прок

цедурой поиска минимального элемента среди Сп чисел, представляющих собой значение критерия НК для соответствующей модели.

Очевидно, что алгоритм выбора факторов сводится к алгоритму выбора номеров этих факторов, т. е. построение к-факторной оптимальной модели сводится к построению программно-реализуемого алгоритма генерирования выборок длины к, различных по составу из совокупности чисел (1, 2, ..., п).

Рассмотрим следующий алгоритм генерирования выборок длины к, различных по составу из совокупности чисел (1, 2, ..., п):

1. В качестве исходной, для выборок из совокупности {1, 2, ..., п} по к чисел, рассматривается выборка {1, 2, ..., к}.

2. Последовательное увеличение на единицу к-го элемента исходной выборки позволяет получить исходную матрицу Б выборок

Б =

Ґ12 1 2

1 2

к 'ї к+1

V /

Матрица Б содержит (п - к + 1) строк-выборок. Все строки представляют собой выборки, различные по составу.

3. Выбирается первая строка матрицы Б и из нее формируется матрица Б1 по следующему алгоритму:

3.1. На первом шаге последовательно увеличиваются на единицу элементы (к - 1, к) первой строки матрицы Б пока на к-м месте не появится число п. Например, первой строкой матрицы Б1 будет выборка (1, 2, ..., к, к + 1).

3.2. На втором шаге последовательно увеличиваются на единицу элементы (к - 2, к - 1, к) первой строки матрицы Б и строк матрицы Б1, для которых эта операция не приводит к получению на к-м месте числа, большего п, пока на к-м месте не появится число п.

3.3. Процесс формирования различных по составу выборок из первой строки матрицы Б завершается на (к - 1)-м шаге последовательным увеличением на единицу элементов (1, 2, ., к) первой строки матрицы Б и строк матрицы Б1, для которых эта операция не приводит к получению на к-м месте числа большего п, пока на к-м месте не появится число п.

4. Выбирается вторая строка матрицы Б и из нее формируется матрица Б2 по алгоритму, аналогичному 3.1,

3.2, 3.3.

5. Процесс выбора строк матрицы Б и формирования из них выборок по алгоритму, аналогичному 3.1, 3.2,

3.3, продолжается до строки (п - к).

Для обоснования алгоритма необходимо доказать следующее.

Утверждение 1. Все выборки, получаемые в силу пп. 1-5 алгоритма различны по составу.

Утверждение 2. Алгоритм позволяет получить произвольную выборку (/' і і) из множества выборок,

различных по составу.

Доказательство. Получение новых выборок на основе первой строки матрицы Б согласно алгоритму сводится к сложению этой строки со следующими строками:

(0, 0, .1, 1); (0, 0, .2, 2); ...; (0, 0, ... п - к, п - к );

(0, 0, .1,1,1); ...; (0, 0, ...; п- к; п- к; п- к);

(0, 0, .1, 1, 1, 1); .(1, 1, ...1)...(п - к, п - к, ..., п - к).

Так как все вышеперечисленные строки различны, то их сложение с одной и той же строкой приведет к получению различных строк. Таким образом, матрица Б1 состоит из различных строк.

Формирование матриц Б2, Б3, ... Бп-к представляет собой добавление к исходным строкам этих матриц выше перечисленных строк, которые использовались для формирования строк матрицы Б1 путем их сложения с исходной строкой матрицы Б1. Так как исходные строки матриц Б2, Б3, ..., Бп - к отличаются только к-м элементом, то устранить это различие добавление к ним строк, изменяющих не менее двух элементов исходной выборки, невозможно.

Следовательно, строки матриц Б1,Б2,Б3, ... Б"-кпредставляют собой различные по составу выборки из п по к чисел.

Для доказательства утверждения 2 рассмотрим произвольную выборку (/ / ..., /к) из множества выборок, различных по составу.

Не ограничивая общности, можно предполагать, что у < /2 < ... < /к. Тогда

/ ^ І,-і +1 ‘ = 2 к,

следовательно

/1 +(к -1) < / < ". (3)

На первом шаге рассмотрим исходную выборку (1, 2, ., к) и прибавим ко всем ее элементам число (/\-1), тогда получим выборку / у + 1, ..., у + (к - 1)). Такое преобразование исходной выборки соответствует алгоритму и допустимо в силу (3).

На втором шаге прибавим ко всем элементам полученной выборки, начиная со второго, число ((/2 -Д) -1), тогда получим выборку //2,/2 + 1, ... /2 + (к - 2)). Такое преобразование исходной выборки соответствует алгоритму и допустимо, так как/2 + (к - 2) < /.

Продолжая этот процесс, на (к - 1)-м шаге имеем выборку у/2, .,]к_ 1,]к_ 1 + 1). Прибавим к последнему элементу этой выборки число (у - /к _ 1 - 1) и получим произвольную выборку путем преобразования исходной выборки по пп. 1-5 алгоритма.

Таким образом, доказано, что все выборки, получаемые по пп. 1-5 алгоритма различны по составу и что любая выборка из С" различных по составу выборок может быть получена на основе пп. 1-5 алгоритма.

Алгоритм последовательного формирования выборок номеров к факторов, включаемых в модель (1) позволяет найти к-факторную оптимальную модель следующим образом:

1. Рассматривается первая выборка номеров факторов и на основе исходной выборки V формируются статистические данные V*. На основе этих данных методом НК строится первая модель вида (1) и вычисляется ее качество: £ = £(а*, с*). Эта модель считается оптимальной и ее параметры запоминаются.

2. Рассматривается вторая выборка номеров факторов и на основе исходной выборки V формируются статистические данные V*. На основе этих данных методом НК строится вторая модель вида (1) и вычисляется ее качество: £2 = £ (а* , с\). Если £2 р £1, то вторая модель оптимальная, ее параметры запоминаются, а параметры

предыдущей модели стираются. Если £ < £2, то предыдущая модель остается оптимальной и рассматривается очередная модель.

3. Процесс рассмотрения новых выборок номеров факторов и сравнения качества новой модели и наилучшей на предыдущем шаге продолжается пока не будут рассмотрены все возможные выборки из п по к.

3. Выбор оптимальной модели из множества наилучших моделей с различным количеством факторов. Пусть на основе алгоритмов, изложенных в п. 2, получены к* наилучших моделей, содержащих 1,2, ..., к* факторов.

Пусть Бкот - значение £(Д^, скот) для оптимальной к-факторной модели.

Рассмотрим, например, следующий критерий значимости:

- модель, имеющая к параметров и значение критерия качества Бкои1 лучше моделей, имеющих г параметров (г < к), и значение критерия качества {^пг;г = 1, к -1}, если выполнена следующая система условий:

£окпт < £10' / к); г = й-1. (4)

Условия (4) являются достаточно жесткими, но их можно смягчить, рассматривая вместо (г/к) коэффициент (г + а)/к, 0 < а < 1.

4. Результаты программной реализации алгоритмов. Разработанные алгоритмы [1] реализованы в виде программы на ЯОН С++ВшИег 6.0.

Рассматривалась следующая модельная задача.

Пусть т = 4, к* = 2, п = 5. Необходимо построить все однофакторные и двухфакторные модели. Найти наилучшую однофакторную и двухфакторную модель. Затем, среди наилучших, найти оптимальную по критерию значимости (4).

Числовые данные

Г1 > Г 2'

3 7

X1 = , X2 =

5 4

,-2 0 V 5 0

Г 5 ^ Г 6 і Г 4 1

6 7 9

, X4 = , X5 =

8 2 5

V-3 0 V 3 0 V-1,

у1 = 4, у2 = 6, у3 = 7, у4 = 11. Результаты расчетов представлены в табл. 1-2.

Таблица 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Однофакторные модели

Номер модели Номера факторов Параметры модели Ошибка модели Наилучшая модель

1 5 с = 9,093 596 а5 = -0,492 610 13, 684 729

2 1 с = 7, 915 888 а1 = -0,523 364 18,672 897

3 2 с = 4,576 923 а2 = 0,538 462 22,230 769

4 3 с = 8,885 714 а3 = -0,471 429 10,442 857 3

5 4 с = 10,441 176 а4 = -0,471 429 16, 058 824

Сравнивая наилучшие модели по критерию (4), получаем, что оптимальной по составу и количеству факторов является следующая модель:

у = 1,947 781 • х1 - 1,612 272 • Х3 + 10, 040 470.

Таким образом, в работе получены следующие результаты: предложен и обоснован алгоритм полного перебора факторов в задаче выбора оптимального состава и количества факторов для многофакторной регрессионной модели; рассмотрены результаты применения программной реализации алгоритма на модельной задаче.

Библиографический список

1. Митасов, И. М. Автоматизированная система построения линейной многофакторной регрессионной модели оптимальной по количеству и составу факторов / И. М. Митасов, А. Н. Завьялкин. М. : ОФАП. Свидетельство №> 11399 от 12.09.2008.

Таблица 2

Двухфакторные модели

Номер модели Номера факторов Параметры модели Ошибка модели Наилучшая модель

1 1, 5 с = 9,088 919 а1 = -0,007 59б а5 = -0,488 ЗВ2 1З,б84 09З

2 1, 2 с = 5,2б2 ббЗ а1 = -0,557 1б4 а2 = 0,б02 750 1З,980 4бЗ

З 2, З с = б,858 491 а2 = 0,4ЗЗ 9б2 аЗ = -0,452 8З0 8,018 8б8

4 З, 4 с = 11,З25 592 аЗ = -0,411 919 а4 = -0,595 092 4,б70 4б5

5 4, 5 с = 10 З05 481 а4 = -0,З99 З71 а5 = -0,З54 897 11,9З5 759

б 1, З с = 10,040 470 а1 = 1,947 781 аЗ = -1,б12 272 0,0бЗ9 б87 б

7 2, 4 с = 7,б79 245 а2 = 0,745 28З а4 = -0,89б 22б 9,1 З2 075

В З, 5 с = 9,05З 191 аЗ = -0,З90 578 а5 = -0,115 502 10,22З 404

9 1, 4 с = 11,45З 795 а1 = -0,5З7 954 а4 = -0,780 528 8,З21 782

10 2, 5 с = 5,2З7 928 а2 = 1,040 825 а5 = -0,б87 445 1,528 095

I. M. Mitasov, A. N. Zavyalkin

METHOD OF FULL SORTING OUT IN THE PROBLEM OF REGRESSIVE POLIFACTOR-ANALISIS

The paper is considers the problem of the seguential complication of the regressive polyfactor-model with full sorting out of all the possible factors combinations at their given number. There is offered the program-realized algorithm offull sorting out for the construction of the best model with the fixed number of factors, that permits to select an optimal model from the set of the best models for the different number offactors according to the well-known criteria of significans.

Keywords: algorithm, factors, model, sorting out, optimum.

i Надоели баннеры? Вы всегда можете отключить рекламу.