Научная статья на тему 'Отбор информативных признаков по непараметрической модели с помощью генетического алгоритма'

Отбор информативных признаков по непараметрической модели с помощью генетического алгоритма Текст научной статьи по специальности «Математика»

CC BY
67
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук

Аннотация научной статьи по математике, автор научной работы — Волкова С.С.

Рассматривается алгоритм отбора информативных признаков для регрессионных моделей, основанных на непараметрической оценке. Работа метода заключается в решении задачи оптимизации с помощью генетического алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SELECTION OF INFORMATIVE ATTRIBUTES AT NONPARAMETRIC MODEL USING GENETIC ALGORITHM

An algorithm of informative attributes selection for the nonparametric regression models is observed. The method process is to solve the optimization problem using genetic algorithm.

Текст научной работы на тему «Отбор информативных признаков по непараметрической модели с помощью генетического алгоритма»

Математические методы моделирования, управления и анализа данных

УДК 519.87

С. С. Волкова

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск

ОТБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ ПО НЕПАРАМЕТРИЧЕСКОЙ МОДЕЛИ С ПОМОЩЬЮ ГЕНЕТИЧЕСКОГО АЛГОРИТМА

Рассматривается алгоритм отбора информативных признаков для регрессионных моделей, основанных на непараметрической оценке. Работа метода заключается в решении задачи оптимизации с помощью генетического алгоритма.

Зачастую исследователь, занимаясь моделированием реального объекта, сталкивается с тем, что рассматриваемый им процесс описывается большим числом признаков. В настоящее время предложено немало методов снижения размерности [1], но часто их применение связано с некоторыми ограничениями, поэтому проблема снижения размерности до сих пор актуальна. В данной работе рассматривается задача отбора информативных признаков для регрессионных моделей, основанных на непараметрической оценке [2]. Построение такой оценки сводится к задаче оптимизации функционала качества оценки регрессии по параметрам размытия. В такой задаче оптимизации отсутствует аналитический вид функционала качества и при этом задача имеет потенциально высокую размерность. Эти проблемы значительно затрудняют применение классических методов оптимизации, поэтому для решения поставленной задачи предлагается использовать генетический алгоритм [3]. Непараметрическая оценка отличается таким свойством: у малоинформативных признаков значение параметра размытия будет иметь тенденцию к увеличению [4].

Для исследования предлагаемого метода отбора информативных признаков была взята тестовая функция в виде линейной комбинации:

у( х) = 0,01 • х1 + 7 • х2 + 5 • х3 + +12 • х4 + 8 • х5 +15 • х6 + 3 • х7.

В тестовой функции есть переменная с малым весовым коэффициентом, она является малоинформативной.

Обучающая выборка объемом 100 для каждой задачи генерировалась случайным образом из интервала [0; 3] с равномерным законом распределения для

каждой переменной. Проводились исследования без наложения помехи и с наложением помехи в 10 % на значения обучающей выборки. Интервал варьирования для параметров размытия [0,001; 10]. Ресурс алгоритма - 50 индивидов на 50 поколений. Генетический алгоритм запускался по 20 раз для каждой комбинации настроек (3 типа селекции х 3 типа скрещивания х 7 типов мутации = 63 комбинации настроек) с усреднением значений параметров размытия для каждой переменной. В каждом запуске алгоритма определяется наименее значимый признак, затем вычисляется среднеквадратическая ошибка непараметрической модели, полученная удалением найденного малоинформативного признака. Для сравнения также указаны среднеквадратические ошибки, полученные изъятием каждого из признаков, а также при включении всех признаков в регрессионную модель. В таблице приведены результаты численных исследований с усредненными показателями для всех комбинаций настроек генетического алгоритма.

По результатам тестирования, приведенным в таблице, можно отметить, что алгоритм не только находит малоинформативный признак, но и позволяет сравнить степень влияния всех рассматриваемых признаков, т. е. если составить убывающую последовательность из значений параметров размытия, то получится, что признаки тестовой задачи расположены в порядке увеличения вклада, вносимого в значение функции. Стоит отметить, что для рассматриваемого метода не является существенным наличие помехи в обучающей выборке. Разработанный алгоритм также применялся и на других тестовых функциях, взятых в виде линейной комбинации разного числа признаков.

Усреднение результатов тестирования по всем настройкам ГА

Параметр размытия каждого признака

Номер признака 1 2 3 4 5 6 7

Без помехи 6,31 1,89 2,48 1,16 1,68 0,96 3,51

Помеха 10 % 6,16 1,84 2,51 1,15 1,69 1 3,49

Среднеквадратическая ошибка без каждого признака

Номер признака 1 2 3 4 5 6 7

Без помехи 49,11 76,82 60,24 152,67 87,32 219,49 51,21

Помеха 10 % 51,82 77,46 62,08 155,4 88,6 216,65 53,8

Среднеквадратическая ошибка со всеми признаками

Без помехи 49,41

Помеха 10 % 51,89

Решетневскце чтения

Зависимость надежности алгоритма от размерности задачи

Рисунок позволяет проследить зависимость надежности алгоритма от размерности, видно, что при удачном выборе настроек алгоритма задача эффективно решается и при высокой размерности.

Библиографические ссылки

1. Прикладная статистика. Классификация и снижение размерности / С. А. Айвазян и др. М. : Финансы и статистика, 1989.

2. Nadaraya E. A. 'On nonparametric estimates of density functions and regression curves' // Theory of Applied Probability. 1965. № 10. P. 186-190.

3. Goldberg D. E. Genetic algorithms in search, optimization and machine learning. Reading, MA : Addison-Wesley, 1989.

4. Hall P., Li Q., Racine J. S. Nonparametric Estimation of Regression Functions in the Presence of Irrelevant Regressors // Review of Economics and Statistics. 2007. № 89. P. 784-789.

S. S. Volkova

Siberian State Aerospace University named after academician M. F. Reshetnev, Russia, Krasnoyarsk

SELECTION OF INFORMATIVE ATTRIBUTES AT NONPARAMETRIC MODEL USING GENETIC

ALGORITHM

An algorithm of informative attributes selection for the nonparametric regression models is observed. The method process is to solve the optimization problem using genetic algorithm.

© Волкова С. С., 2012

УДК 519.1; 519.8

А. В. Громыко

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск

ИСПОЛЬЗОВАНИЕ ТРАНСПОРТНЫХ СЕТЕЙ ПРИ МОДЕЛИРОВАНИИ ИНТЕРНЕТ-РЕСУРСОВ

Рассматривается применение транспортной сети для моделирования связи между веб-ресурсами и пользователями Интернета, приводится структура этой сети и ее основные характеристики.

Основным местом взаимодействия ресурса в сети Интернет и пользователей Интернета является вебсайт. Сам веб-сайт представляет собой совокупность веб-страниц, которые ссылаются друг на друга, а также на другие ресурсы Интернета, используя гипертекстовые связи. Взаимодействие пользователей Интернета и веб-сайта удобно моделировать при помощи транспортной сети. Данное представление транспорт-

ной сети будет содержать в себе веб-страницы сайта, а также внешние веб-страницы и ресурсы Интернета, гипертекстовые ссылки на которые имеются на страницах веб-сайта.

Веб-страница является основной единицей интернет-ресурса. Она представляет собой совокупность пунктов сети, состоящую из собственно веб-страницы q е Q и информационных блоков, расположенных

i Надоели баннеры? Вы всегда можете отключить рекламу.