Научная статья на тему 'Программный комплекс восстановления пропущенных значений в многомерных данных на основе методов нечеткого моделирования'

Программный комплекс восстановления пропущенных значений в многомерных данных на основе методов нечеткого моделирования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
308
69
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕЧЕТКАЯ СИСТЕМА / СИНГЛТОН / БАЗА ПРАВИЛ / ФУНКЦИЯ ПРИНАДЛЕЖНОСТИ / ПАРАМЕТРИЧЕСКАЯ ИДЕНТИФИКАЦИЯ / ЭВОЛЮЦИОННАЯ СТРАТЕГИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Перемитин Т. О., Ященко И. Г., Лучкова С. В.

Описываются возможности нечетких систем для решения задач восстановления пропущенных значений в многомерных массивах данных. Рассмотрены нечеткая система типа синглтон и треугольная функция принадлежности лингвистического терма нечеткой системы. Приведен общий алгоритм метода эволюционной стратегии для идентификации нечеткой системы и рассмотрены два вида данного алгоритма с оценкой преимуществ и недостатков их применения. Описаны принцип параметрической идентификации нечеткой системы на основе метода эволюционной стратегии, а также требования к структуре входных данных. Приведен алгоритм восстановления пропущенных значений с применением нечеткой системы на основе метода эволюционной стратегии. Проведена экспериментальная оценка эффективности применения представленного алгоритма нечеткой системы на основе метода эволюционной стратегии для задачи восстановления пропущенных значений на сформированной тестовой выборке данных о свойствах нефти. Для тестовых данных подобраны оптимальные параметры нечеткой системы и метода эволюционной стратегии. Исследовано влияние основных параметров нечеткой системы и параметров метода эволюционной стратегии на процесс восстановления пропусков в многомерных данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Перемитин Т. О., Ященко И. Г., Лучкова С. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROGRAM SOFTWARE OF RECOVERING VALUES IN MULTIVARIATE DATA BASED ON FUZZY MODELING METHODS

The article describes the features of fuzzy systems to solve the problem of restoring missing values in multi-variate data. It considers the Singleton fuzzy system and triangular membership function of the fuzzy linguistic terms. Gen-eral algorithm of an evolutionary strategy method to identify fuzzy system is provided. The article considers two types of this algorithm to assess the advantages and disadvantages of using. Principle of fuzzy system parameter identification based on the evolutionary strategy is described. The article also describes the requirements for the input data and the algorithm of re-storing missing values using fuzzy system based on the evolutionary strategy. There is the experimental efficiency evaluation of the presented algorithm of fuzzy system on the basis of the evolutionary strategy for the problem of recovering missing values. It is tested on a test set of oil properties data. Optimal parameters of fuzzy system and a method of the evolutionary strategy were selected for test data. The article investigates influence of the main parameters of the fuzzy system and metho d parameters of the evolutionary strategy on the recovery of multivariate data.

Текст научной работы на тему «Программный комплекс восстановления пропущенных значений в многомерных данных на основе методов нечеткого моделирования»

УДК 004.94

ПРОГРАММНЫЙ КОМПЛЕКС ВОССТАНОВЛЕНИЯ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ В МНОГОМЕРНЫХ ДАННЫХ НА ОСНОВЕ МЕТОДОВ НЕЧЕТКОГО МОДЕЛИРОВАНИЯ

Т.О. Перемитина, к.т.н.., научный сотрудник; И.Г. Ященко, к.г.-м.н, старший научный сотрудник; С.В. Лучкова, аспирант

(Институт химии нефти СО РАН, Академический просп., 4, г. Томск, 634021, Россия, [email protected])

Описываются возможности нечетких систем для решения задач восстановления пропущенных значений в многомерных массивах данных. Рассмотрены нечеткая система типа синглтон и треугольная функция принадлежности лингвистического терма нечеткой системы. Приведен общий алгоритм метода эволюционной стратегии для идентификации нечеткой системы и рассмотрены два вида данного алгоритма с оценкой преимуществ и недостатков их применения. Описаны принцип параметрической идентификации нечеткой системы на основе метода эволюционной стратегии, а также требования к структуре входных данных. Приведен алгоритм восстановления пропущенных значений с применением нечеткой системы на основе метода эволюционной стратегии. Проведена экспериментальная оценка эффективности применения представленного алгоритма нечеткой системы на основе метода эволюционной стратегии для задачи восстановления пропущенных значений на сформированной тестовой выборке данных о свойствах нефти. Для тестовых данных подобраны оптимальные параметры нечеткой системы и метода эволюционной стратегии. Исследовано влияние основных параметров нечеткой системы и параметров метода эволюционной стратегии на процесс восстановления пропусков в многомерных данных.

Ключевые слова: нечеткая система, сингятон, база правил, функция принадлежности, параметрическая идентификация, эволюционная стратегия.

PROGRAM SOFTWARE OF RECOVERING VALUES IN MULTIVARIATE DATA BASED

ON FUZZY MODELING METHODS Peremitina T.O., Ph.D. Tech. Sc., Research Associate;

Yashchenko I.G., Ph.D. (Geology and Mineralogy), Senior Researcher; Luchkova S. V., Postgraduate Student (Institute of Petroleum Chemistry SB RAS, Akademicheskiy Av., 4, Tomsk, 634021, Russian Federation, [email protected]) Abstract. The article describes the features of fuzzy systems to solve the problem of restoring missing values in multivariate data. It considers the Singleton fuzzy system and triangular membership function of the fuzzy linguistic terms. General algorithm of an evolutionary strategy method to identify fuzzy system is provided. The article considers two types of this algorithm to assess the advantages and disadvantages of using. Principle of fuzzy system parameter identification based on the evolutionary strategy is described. The article also describes the requirements for the input data and the algorithm of restoring missing values using fuzzy system based on the evolutionary strategy. There is the experimental efficiency evaluation of the presented algorithm of fuzzy system on the basis of the evolutionary strategy for the problem of recovering missing values. It is tested on a test set of oil properties data. Optimal parameters of fuzzy system and a method of the evolutionary strategy were selected for test data. The article investigates influence of the main parameters of the fuzzy system and method parameters of the evolutionary strategy on the recovery of multivariate data.

Keywords: fuzzy system, singleton, rule base, membership function, parameter identification, evolutionary strategy.

Многие исследования связаны со сбором и обработкой данных, представленных в виде таблиц наблюдений. Данные из этих таблиц используются как в различных задачах анализа, так и в задачах построения моделей прогноза. Однако часто по различным причинам некоторые значения в этих таблицах пропущены. Большинство алгоритмов не могут обрабатывать неполные данные, так как получаются неадекватные модели либо модель вообще невозможно построить. Поэтому процедура импутирования (восстановления пропущенных значений) является очень важным моментом в процессе обработке данных.

Анализ преимуществ и недостатков известных алгоритмов для решения задачи восстановления пропусков в данных показал, что наиболее оптимальными являются методы, основанные на нечетких моделях. Основное преимущество таких моделей - снятие требований нормального распределения данных, их однородности и полноты. Эти требования к исходным данным должны выполняться для применения статистических методов восстановления пропущенных значений, что усложняет процесс предварительной подготовки выборки данных и замедляет анализ данных в целом.

В настоящее время технология нечеткого моделирования является одной из развивающихся областей обработки данных. Применение нечетких систем в задаче импутирования вызывает ряд вопросов относительно параметров системы: как правильно выбрать параметры построения базы правил, функции принадлежности, метода эволюционной стратегии, оптимизирующей параметры нечеткой системы, и другие. Эти вопросы очень важны и являются объектом рассмотрения в данной работе.

Задача параметрической идентификации нечеткой системы

Нечеткое моделирование осуществляется посредством системы нечеткого вывода, которая выполняет следующие действия [1, 2]:

- преобразование числовой информации в лингвистические переменные (формирование базы правил);

- обработка лингвистической информации при выполнении логических операций нечеткой конъюнкции, импликации и агрегации правил;

- формирование численных результатов.

В работе используется нечеткая система типа синглтон, включающая п входных переменных (антецеденты) и т нечетких правил, каждое из которых имеет следующий вид: ЕСЛИ х1=Л1/- И х2=А2_/ И ... И хп=Лп/- ТО г/, где Г/ - действительное число, Г/еЭТ; Лц - лингвистический терм, описываемый функцией принадлежности.

Нечеткая система осуществляет отображение Е: Заменяя оператор нечеткой конъюнк-

ции произведением, а оператор агрегации нечетких правил сложением, получаем выходное значение Е(х):

Xl П Aj ()

F (x) =

j=i

i=1

Aij ( Xi )

j=1 i=1

(1)

где х=[хь ..., хп]Ге№п - значение /-го входа; ^Л,/(х/) - функция принадлежности лингвистического терма А//; г/ - значение выходного значения (кон-секвента) в /-м правиле.

Существует свыше десятка типовых форм кривых для задания функций принадлежности. Наибольшее распространение получили треугольная, трапецеидальная и гауссова функции принадлежности [1]. В работе для идентификации используется треугольная функция, которая определяется тройкой чисел (а, Ь, с). Ее значение в точке х вычисляется согласно выражению

Ц Al(xj) =

, b - x

1--, a < x < b,

1 -

b - a x - b

C-b ''

b < x < c,

(2)

0 в остальных случаях. При (Ь—а)=(с—Ь) имеем случай симметричной треугольной функции принадлежности, которая

m n

может быть однозначно задана двумя параметрами из тройки (а, Ь, с) [1].

Нечеткая система может быть представлена как у=Дх, 0), где 0=||01, ..., 0^|| - вектор параметров; Ы=к (число параметров, описывающих одну функцию принадлежности) * t (число термов, описывающих одну входную лингвистическую переменную, является задаваемым параметром нечеткой системы); у - скалярный выход системы.

Например, если взять п входных переменных, определенных на t термах, и треугольную функцию принадлежности, то для модели типа сингл-тон вектор параметров будет следующим:

0п = [а11Ь11с11 . • -а1Ь1с1а21Ь21с21 . ■ -а2Ь2^. ■ -ап1Ьп1сп1

■ ■■апЬпСпА, где ар, ср, Ьр - параметры треугольной функции принадлежности формулы (2) 1-й лингвистической переменной ¡-го терма. Параметры, входящие в данный вектор, влияют на адекватность модели.

Параметрическая идентификация рассматривается как процесс оптимизации нечеткой модели, который сводится к нахождению таких параметров нечеткой системы, чтобы ошибка вывода была минимальной. При этом оценивается качество нечеткого вывода по значениям ошибки вывода, разницы между значениями выходной переменной из таблицы наблюдений Дх) и значениями F(x), полученными нечеткой системой. Ошибку вывода необходимо минимизировать [1], для этого используются

1) среднеквадратичная ошибка (СКО):

£ (/(X,.) - ^ (х,., 9))2

2) средняя абсолютная ошибка (САО): ¿|/(х,.) - F(х,., 9)|

Задача параметрической идентификации заключается в определении параметров нечетких правил путем оптимизации работы нечеткой системы. Методы идентификации делятся на два типа: методы, использующие производные от параметров нечеткой системы (градиентный метод, метод наименьших квадратов и другие числовые методы [1]), и метаэвристические методы (генетический алгоритм [3], эволюционные стратегии [3-5], алгоритм муравьиной колонии [6]). В данной работе используется один из метаэвристиче-ских методов, а именно метод эволюционной стратегии.

Эволюционная стратегия - это эвристический метод оптимизации в разделе эволюционных алгоритмов, основанный на адаптации и эволюции. Стратегия основана на механизмах естественного отбора и наследования. В ней используется принцип выживания наиболее приспособленных особей. Преимущества алгоритма перед другими

методами оптимизации заключаются в параллельной обработке множества альтернативных решений [4, 5].

Алгоритм работает с популяцией особей (хромосом), каждая из которых представляет собой упорядоченный набор параметров задачи, подлежащих оптимизации. Основной характеристикой каждой особи является мера ее приспособленности. Общий алгоритм для эволюционной стратегии можно представить следующим набором шагов.

Шаг 1. Генерируется начальная популяция Р(0), устанавливается /=0.

Шаг 2. Повторяется до тех пор, пока не выполнится условие остановки:

- рассчитывается приспособленность каждой хромосомы из популяции Р(г);

- применяются генетические операторы, такие как скрещивание, мутация к родительской популяции, и производятся потомки;

- отбираются хромосомы для следующего поколения Р(/+1) из полученных потомков и, возможно, родителей.

В настоящее время имеются разные варианты метода эволюционной стратегии [4, 5], чаще всего используют (ц+Х) - набор родителей и потомков и (ц, Х) - набор только потомков.

В эволюционной стратегии (ц+Х) ц родителей могут участвовать в воспроизводстве Х потомков. Тогда (ц+Х)-поколение будет уменьшено до ц потомков следующего поколения селекцией. Основным преимуществом данного подхода является использование произвольных адаптивных стратегических параметров. Однако есть и недостатки, а именно: поколение-родитель не даст поколения-потомка, лучшего, чем он сам. Для предотвращения этого недостатка был предложен метод (ц, Х)-стратегии, где селекция подчинена условию Х>ц. Предыдущие ц-родители будут полностью заменены и не будут использоваться в следующем поколении. Недостатком этого алгоритма является то, что лучшие из ц-родителей могут быть заменены худшими сгенерированными Х-потомками и будут потеряны, а это в итоге может дать не самый корректный результат. При выборе разновидностей метода эволюционной стратегии необходимо учитывать это свойство следующего поколения [7].

Алгоритм для настройки параметров нечеткой системы модели типа синглтон методом эволюционной стратегии выглядит следующим образом.

Вход: таблица наблюдений.

Шаг 1. Загружаем таблицу наблюдений.

Шаг 2. Задаем параметры нечеткой системы:

а) количество термов;

б) количество генерируемых хромосом для начальной популяции ц;

в) параметр функции приспособленности для построения базы правил.

Шаг 3. Строим нечеткую систему:

а) создаем базу правил для обучения на основе нечетких термов, равномерно распределенных по каждому входному параметру из таблицы наблюдения;

б) формируем начальную популяцию хромосом Qn,

в) находим консеквенты для каждого правила методом ближайшего из таблицы наблюдения для базы правил;

г) рассчитываем адекватность полученной нечеткой системы.

Шаг 4. Задаем параметры метода эволюционной стратегии:

а) критерий остановки для идентификации параметров нечеткой системы (количество итераций);

б) количество генерируемых хромосом (потомков) X из начальной популяции;

в) параметры оператора скрещивания (количество точек скрещивания, алгоритм скрещивания);

г) вероятность мутации;

д) алгоритм селекции;

е) свойства следующего поколения.

Шаг 5. Запускаем идентификацию методом эволюционной стратегии.

Шаг 6. Рассчитываем адекватность нечеткой системы. Если достигнуто условие выхода, переходим к шагу 7, иначе к шагу 5.

Шаг 7. Вывод решения - «наилучшей» хромосомы.

Выход: оптимизированная база правил; значение ошибки нечеткого вывода для «наилучшей» хромосомы.

Рассмотрим особенности структуры таблиц наблюдения для использования предложенного метода в задаче импутирования (табл. 1).

Таблица 1

Структура входной информации

Пусть Х=(ХЬ Х2, ..., Хп) - вектор входных параметров; т - количество записей в таблице 1;

А = (цу) =1 - матрица исходной информации.

Исходная информация имеет пропуски, обозначенные в таблице 1 звездочками. Допускается по одному пропуску на запись, так как пропущенное значение будет выходным значением для данной записи.

Таким образом, задача восстановления пропусков в данных заключается в определении выход-

ного значения для каждой записи с пропуском, причем в процессе восстановления участвуют только те записи, в которых нет пропущенных значений.

Алгоритм восстановления пропущенных значений в общем виде можно представить как последовательность выполнения следующих шагов.

Вход: таблица наблюдений с пропусками в записях.

Шаг 1. Загружаем входные данные (таблицу наблюдений).

Шаг 2. Задаем параметры нечеткой системы.

Шаг 3. Выбираем параметры метода эволюционной стратегии.

Шаг 4. Применяем эволюционную стратегию.

Шаг 5. Отбираем лучшую хромосому.

Шаг 6. Восстанавливаем пропуск на основе сформированной базы правил и лучшей хромосомы.

Шаг 7. Проверяем условие остановки. Если достигнуто условие выхода, переходим к шагу 8, иначе к шагу 4.

Шаг 8. Выводим решения.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Выход: таблица наблюдений с восстановленными значениями.

В качестве средства реализации программного комплекса были выбраны язык объектно-ориентированного программирования C# и среда разработки Microsoft Visual Studio 2010. В программном средстве 17 вычислительных модулей, данные из которых можно в различном виде увидеть на 6 графических формах, 3 из которых отвечают за главные функции программного средства:

- форма «Нечеткая система» отвечает за параметры нечеткой системы, за загрузку данных для идентификации нечеткой системы, построение нечеткой системы и нахождение оптимальных параметров, также из нее можно просмотреть результаты внутренних расчетов в разделе «просмотр»;

- форма «Имитация восстановления» позволяет загрузить файл без пропусков, в котором будут искусственно создаваться пропуски в каждой записи и производиться восстановление; данная форма позволяет увидеть точность восстановления пропусков, так как нам заранее известно восстанавливаемое значение;

- форма «Восстановление данных» работает с файлами, в которых есть пропуски; для каждой записи с пропуском осуществляется расчет пропущенного значения.

Вычислительные эксперименты

Для исследования влияния параметров нечеткой системы на точность восстановления пропущенных значений была подготовлена выборка многомерных данных из общей БД о свойствах нефтей Института химии нефти СО РАН, вклю-

Номер записи X1 X2 X3 Xn-1 Xn

1 ап а12 а13 * а1п

2 «21 а12 а23 а2п-1 а2п

3 аз1 * азз а3п-1 а3п

m ат1 ат2 ат3 атп-1 атп

чающей описание более 20 000 образцов [8]. Многомерный массив представлен 141 записью (строки) и 5 характеристиками (столбцы). В полном массиве были специально сделаны пропуски. Такой подход позволяет рассчитать точность восстановления, так как можно сравнить полученный результат с искусственно пропущенными данными.

Как описывалось выше, на процесс импутиро-вания данных в первую очередь влияет параметр нечеткой системы, то есть количество лингвистических термов, от которых зависит база правил для обучения системы. По ряду тестов были получены результаты, представленные в таблице 2. Как видим, наилучшее начальное решение приходится на 6 термов, а 7 термов уже не приводят к улучшению результата. Такое поведение нечеткой системы объясняется тем, что для каждого интервала данных существует разумное количество термов, на которое следует разбивать входные интервалы переменных функцией принадлежности.

Таблица 2

Исследование параметров нечеткой системы

Количество термов Ошибка вычисления

на параметр СКО САО

3 0,080946 0,550576

4 0,072553 0,620107

5 0,062454 0,468006

6 0,057758 0,415331

7 0,059252 0,489001

Для наглядности приведем пример: пусть есть интервал данных от 0 до 1, тогда при равномерном разбиении на 5 и 7 термов получим результаты, представленные на рисунке. При 7 термах (см. рис. справа) видно, что «частокол» из треугольной функции принадлежности очень плотный, что в данном случае неоптимально. Это приведет к увеличению времени расчетов, так как возрастет количество правил, например, при 2 переменных по 5 термам база правил состоит из 25 правил, а при 5 переменных по 5 термам - из 3125 правил и т.д.

} ц(х) ш ц ; (х) ■

0 1 0 1

Процесс разбиения на термы

На процесс импутирования влияют параметры метода эволюционной стратегии, так как именно этим методом происходит настройка нечеткой системы или ее обучение. У эволюционной стратегии необходимо выбрать

- алгоритм скрещивания (одноточечный, многоточечный или унифицированный);

- вероятность мутации;

- алгоритм селекции (турнирный отбор, случайный, рулеточный или элитарный);

- соотношение начального количества хромосом ц и генерируемых Х;

- свойство следующего поколения ((ц+Х) или (ц, Х)).

В данном эксперименте использовались следующие условия: 6 термов с возможностью выхода за начальные границы. Количество итераций для расчетов равно 1 000.

Как видно из таблицы 3, унифицированный алгоритм скрещивания дал лучший результат при случайном отборе, поэтому для рассмотрения остальных алгоритмов отбора использовался только унифицированный алгоритм. Наиболее точный результат в совокупности предоставил элитарный отбор, который рассмотрим более подробно. В таблице 4 представлены результаты влияния количества итераций на время вычисления.

Таблица 3

Исследование параметров эволюционной стратегии

Алгоритм Усредненная ошибка

скрещивания вычисления

СКО САО

Алгоритм селекции: случайный отбор, вероятность

мутации 0,07, свойство следующего поколения (ц+Х),

ц=20, Х=40

Одноточечный 2,55265 4,95727

Многоточечный

(4 точки) 2,46616 4,85605

Унифицированный 1,99767 4,37111

Алгоритм селекции: турнирный отбор, вероятность

мутации 0,07, свойство следующего поколения (ц+Х),

ц=20, Х=40

Унифицированный 2,14579 4,20841

Алгоритм селекции: рулеточный отбор, вероятность

мутации 0,07, свойство следующего поколения (ц+Х),

ц=20, Х=40

Унифицированный 2,1356 4,57524

Алгоритм селекции: элитарный отбор, вероятность

мутации 0,07, свойство следующего поколения (ц+Х),

ц= 20, Х= 40

Унифицированный 1,68311 3,3928

Таблица 4

Результаты влияния количества итераций на время вычисления

Количество Время Усредненная ошибка

итераций вычисления вычисления

(чч:мм:сс) СКО САО

0 - 2,52901 5,29846

50 00:04:43 2,30549 4,67326

100 00:09:27 2,26192 4,59192

500 00:47:51 2,21651 4,43482

1 000 01:34:38 2,10361 4,09103

1 500 02:23:46 2,09505 4,04241

2 000 03:11:59 2,06241 3,85821

Из таблицы 4 видно, что увеличение количества итераций работы алгоритма уменьшает ошибку,

но увеличивает время работы системы. На время работы системы также влияет количество термов: так, например, если при 6 термах время вычисления 500 итераций составляет около 48 минут, то при 7 термах уже около 90 минут.

Установлено, что вероятность мутации не влияет на время вычисления, но влияет на точность работы. В таблице 5 представлен выбор вероятности мутации, для рассматриваемого примера наилучший результат дает вероятность мутации 0,15.

Таблица 5

Результаты влияния вероятности мутации

В таблице 6 представлены данные анализа влияния соотношения начального количества хромосом ц к генерируемым X и влияние свойства следующего поколения (ц+Х или (ц, X)).

Таблица 6

Влияние количества хромосом и свойства следующего поколения

Согласно исследованию, наименьшие ошибки расчетов получаются при комбинации (20+50) -эволюционной стратегии или (10, 30). Это подтверждает плюсы и минусы алгоритмов стратегий, описанных выше, и дает нам итоговые комбинации настроек.

На следующем шаге проверяется влияние свойств функции принадлежности на точность восстановления пропущенного значения (табл. 7).

Из таблицы 7 видно, что влияние свойств функции принадлежности значительно. Возрастание ошибки расчетов и времени вычисления можно объяснить тем, что комбинаций треугольников на ограниченном интервале меньше, а проверок их построения больше. Причем проверки построения имеют условия: разбиение термов должно покрывать весь заданный интервал, термы не должны перекрываться полностью и прочее. Следовательно, необходимо использовать алгоритм с разрешением выхода за начальные интервалы.

Таблица 7

Влияние свойства функции принадлежности

Свойство функции принадлежности Усредненная ошибка вычисления

СКО 1 САО

Разрешено выходить за пределы начальных границ (время вычисления 1 000 итераций в среднем 95 минут)

(20+50) 2,06061 4,35609

(10, 30) 1,95399 3,99733

Запрещено выходить за пределы начальных границ (время вычисления 1 000 итераций в среднем 155 минут)

(20+50) 2,81386 4,14932

(10, 30) 3,27282 4,44925

Таким образом, установлено, что в алгоритме присутствует случайный компонент как в построении нечеткой системы, так и в ее настройке, поэтому имеем две итоговые комбинации, каждая из которых в конечном итоге может быть выигрышной (табл. 8).

Таблица 8 Итоговые комбинации параметров

Параметр Значение параметра

Количество лингвистических термов нечеткой системы 6

Количество итераций 1 000

Алгоритм скрещивания Унифицированный

Алгоритм селекции Элитарный

Вероятность мутации 0,15

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Свойство следующего поколения (20+50) и (10, 30)

Свойство функции принадлежности Разрешено выходить за начальные пределы

В заключение отметим, что в работе предложены алгоритм идентификации нечеткой системы на основе метода эволюционной стратегии для настройки параметров и алгоритм импутирования. На примере использования массива о свойствах вязких парафинистых нефтей были поставлены вычислительные эксперименты с искусственно пропущенными данными. Эксперименты показали, что для различных данных оптимальные параметры системы будут разными и в каждом случае их необходимо подбирать. Поэтому было показано, как следует выбирать параметры нечеткой системы и эволюционной стратегии. Дальнейшие исследования направлены на более детальный подход к обрабатываемым данным, например, возможность задавать количество термов для каждой переменной, что, возможно, сократит количество правил и снизит вычислительное время, следовательно, позволит обрабатывать одновременно выборки большего объема данных.

Литература

1. Ходашинский И.А., Гнездилова В.Ю., Дудин П.А., Ла-выгина А.В. Основанные на производных и метаэвристические методы идентификации параметров нечетких моделей // Идентификация систем и задачи управления-SICPRO'08: тр. VIII междунар. конф. М., 2009. С. 501-528.

Вероятность мутации Усредненная ошибка вычисления

СКО САО

0,03 2,21353 4,5846

0,07 2,12239 4,3686

0,09 2,15042 4,3765

0,10 2,14764 4,3898

0,15 2,05346 4,6121

0,20 2,20968 4,4008

Количество хромо- Усредненная ошибка

сом, свойства сле- вычисления

дующего поколения СКО САО

(10+20) 2,18887 4,61617

(10+30) 2,17641 4,42053

(20+40) 2,18851 4,76471

(20+50) 2,06061 4,35609

(10, 20) 2,44669 5,06788

(10, 30) 1,95399 3,99733

(20, 40) 2,43172 5,18523

(20, 50) 2,22017 4,54274

2. Hoche S., Wrobel S. A Comparative Evaluation of Feature Set Evolution Strategies for Multirelational Boosting. Proc. 13th Int. Conf. on ILP, Szeged, Hungary, 2003, pp. 180-196.

3. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. М.: Горячая линия, 2006. 383 с.

4. Schwefel H.P. Numerical Optimization of Computer Models. NY: John Wiley & Sons, 1981, 398 p.

5. Schwefel H.P. Evolution and Optimum Seeking. NY: John Wiley & Sons. 1995, 444 p.

6. Дудин П.А. Применение алгоритма муравьиной колонии для идентификации нечетких моделей // Студент и научно-технический прогресс. Информационные технологии: матер. XLV Междунар. науч. конф. Новосибирск: Изд-во НГУ, 2007. С. 188-189.

7. Лучкова С.О. Алгоритмы нечетких систем в задачах импутирования // Современные проблемы математики и механики: матер. III Всерос. молодеж. науч. конф. Томск, 2012. С. 329-334.

8. Козин Е.С., Полищук Ю.М., Ященко И.Г. База данных по физико-химическим свойствам нефтей // Нефть. Газ. Новации. 2011. № 3. С. 13-16.

References

1. Hodashinskiy I.A., Gnezdilova V.Yu., Dudin P.A., Lavygina A.V. Based on derivative and metaheuristic methods of identification of fuzzy models. Trudy 8 mezhdunar. konf. "Iden-

tifkatsiya sistem i zadachi upravleniya" SICPR008 [Proc. of 8th int. conf. "System Identification and Control Problems"]. Moscow, 2009, pp. 501-528 (in Russ.).

2. Hoche S., Wrobel S. A Comparative evaluation of feature set evolution strategies for multirelational boosting. Proc. 13th int. conf. on ILP. Szeged, Hungary, 2003, pp. 180-196.

3. Rutkovskaya D., Pilinskiy M., Rutkovskiy L. Neyronnye seti, geneticheskie algoritmy i nechetkie sistemy [Neural networks, genetic algorithms and fuzzy systems]. Moscow, Goryachaya liniya Publ., 2006, 383 p.

4. Schwefel H.P. Numerical optimization of computer models. NY, John Wiley & Sons Publ., 1981, 398 p.

5. Schwefel H.P. Evolution and optimum seeking. NY, John Wiley & Sons Publ., 1995, 444 p.

6. Dudin P.A. Application of an ant colony algorithm for identification of fuzzy models. Materialy 45 Mezhdunar. nauch. konf. "Student i nauchno-tehnicheskij progress. Informatsionnye tekhnologii" [Proc. of 45th int. science conf. "A student and technological advances. Information technologies"]. Novosibirsk, Novosibirsk State Univ. Publ., 2007, pp. 188-189 (in Russ.).

7. Luchkova S.O. Mater. III Vseross. molodezh. nauch. konf. «Sovremennye problemy matematiki i mekhaniki» [Modern problems of mathematics and mechanics. Proc. of III All-Russian Youth Sc. Conf.]. Tomsk, 2012, pp. 329-334 (in Russ.).

8. Kozin E.S., Polishchuk Yu.M., Yashchenko I.G. Database with physical-chemical properties of oil. Neft. Gaz. Novatsii [OIL. GAZ. Novation]. 2011, no. 3, pp. 13-16 (in Russ.).

i Надоели баннеры? Вы всегда можете отключить рекламу.