Модель прогнозирования с использованием нечеткого обучающего множества

Герман Ю.О.; Герман О.В.

Доклады БГУИР

2016 № 5 (99)

УДК 519.711.3

МОДЕЛЬ ПРОГНОЗИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ НЕЧЕТКОГО

ОБУЧАЮЩЕГО МНОЖЕСТВА

Ю.О. ГЕРМАН, О.В. ГЕРМАН

Белорусский государственный университет информатики и радиоэлектроники П. Бровки, 6, Минск, 220013, Беларусь

Поступила в редакцию 7 апреля 2016

Рассматривается задача построения численного прогноза с использованием обучающего нечеткого множества. Поставленная в статье общая проблема связана с доопределением значений нечеткого вектора и его оценкой. При этом решается две задачи: разработка метода для генерации нечеткого прогнозного значения с ожидаемым (в статистическом смысле) значением нечеткой меры и оценка качества прогноза. Представленный математический аппарат базируется на технике построения четкого многомерного классификатора и его использования для определения нечеткой меры принадлежности с последующей оценкой вероятностей нечетких векторов по Р. Ягеру.

Ключевые слова: нечеткое обучающее множество, мера принадлежности, классификация, прогноз.

Введение

Рассматривается задача построения численного прогноза с использованием обучающего нечеткого множества. Известны нечеткие классификаторы [1, 2]. Поставленная в статье задача расширяет рамки проблемы - нужно доопределить нечеткий вектор и дать его оценку (указать наиболее вероятное значение нечеткой меры принадлежности, т.е. математическое ожидание нечеткой меры). Известны подходы к прогнозированию нечетких временных рядов [3-5]. Они используют различный математический аппарат - генетические алгоритмы, функции распределения нечетких значений, нейронные сети и др. При этом качество прогнозирования в значительной степени увязывается с качеством используемой математической модели. Здесь имеются принципиальные моменты: оценка качества модели в общем случае, обеспечение статистически адекватного прогноза. Первый вопрос, вообще говоря, увязан со вторым. Если принципиально модель регулируема, то ее правильная коррекция позволит добиться требуемого качества прогноза. В противном случае модель следует заменить. Нечеткие данные описываются функцией меры принадлежности. Первая задача - эту функцию найти и статистически ее обосновать. По найденной функции легко найти меру прогнозного значения, а затем - само прогнозное значение. Можно обозначить две стороны этой проблемы. Во-первых, нужно определить метод для генерации нечеткого прогнозного значения с ожидаемым (в статистическом смысле) значением нечеткой меры. Эту задачу обозначим З1. Во-вторых, нужно оценить качество прогноза (задача З2). Цель последующего - изложить решение обеих задач.

Определение нечеткого прогнозного значения

Пусть дана следующая табл. 1 с нечеткими векторами, в которой представлены 8 векторов и значения меры их принадлежности к некоторому нечеткому множеству (скажем, А) и к его дополнению (~ А). Рассматриваем только непрерывные случайные величины в качестве разрядов нечетких векторов. Для каждой случайной величины (вообще говоря) закон

распределения a priori не известен. Диапазон изменения случайной величины может быть известным или нет.

Таблица 1. Обучающая таблица T

x x1 x2 x3 Ца ц~а

1 1 4 8 0,6 0,4

2 2 2 5 0,8 0,2

3 3 3 2 1 0

4 4 3 1 0,9 0,1

5 4 2 1 0,8 0,2

6 5 1 2 0,6 0,4

7 5 2 2 0,55 0,45

8 5 3 1 0,55 0,45

Столбец ц~а указывает меру принадлежности к дополнительному множеству ~Л. Пусть дан вектор хг = < 3, 5, ? >. Нужно доопределить (спрогнозировать) недостающее значение третьего разряда и указать меру принадлежности полученного вектора. При этом нужно указать такое значение для третьего разряда, при котором мера принадлежности к множеству А была бы максимальной из всех возможных вариантов.

Решение задачи З1

Для решения задачи З1 будем использовать модель нечеткого многомерного классификатора, предложенного в [6]. Эта модель, в свою очередь, базируется на формализме четкого многомерного классификатора [7]. Представляется необходимым для понимания смысла настоящей работы дать краткое введение по проблеме. Прежде всего от «нечеткой» таблицы Т перейдем к четкой ТТ (табл. 2).

Таблица 2. «Четкая» таблица ТТ

x x1 x2 x3 Ца Y

1 1 4 8 0,6 +

2 1 4 8 0,4 -

3 2 2 5 0,8 +

4 2 2 5 0,2 -

5 3 3 2 1 +

6 3 3 2 0 -

7 4 3 1 0,9 +

8 4 3 1 0,1 -

9 4 2 1 0,8 +

10 4 2 1 0,2 -

11 5 1 2 0,6 +

12 5 1 2 0,4 -

13 5 2 2 0,55 +

14 5 2 2 0,45 -

15 5 3 1 0,55 +

16 5 3 1 0,45 -

Новый столбец У указывает класс, к которому принадлежит многомерный объект. Здесь два класса (+ и - (равносильно А и ~А)). Значение нечеткой меры (ца) становится четвертым разрядом векторов х, причем если ца > 0,5, то объект относится к классу А. Четкий классификатор для ТТ представляет в общем случае дерево. Узлы дерева (для нашего примера) представляют линейные алгебраические неравенства вида

г=а + а ■ х + а ■ х + а ■ х + а 'М. (1)

Коэффициенты неравенств (а) (1) находятся с помощью процедуры устранения невязок [7] по обучающей таблице ТТ (и ее производным). Если коэффициенты ак(к = 0,4) известны, то, подставляя значения вместо переменных Хк, ц, получим значение г, причем, если г > 0, то «идем» по дереву по ветви влево, иначе - по ветви вправо. Если узел конечный, то при г > 0 объект относится к классу А, иначе к классу ~Л. Наш пример дает дерево с

единственной корневой вершиной и соответствующим алгебраическим неравенством (решение получено в EXCEL Solver).

z = 0,923-0,368-x -0,164-x2 -0,164-x3 + 3,273-ц>0. (2)

Подставляя, например, данные из первой и второй строк таблицы TT, получим

z = 0,923 - 0,368-1-0,164 - 4 - 0,164 - 8 + 3,273-0,6(0,4) = 0,54(-0,10).

Положительное число z = 0,54 соответствует классу А, отрицательное (-0,10) классу ~A. Итак, строим прогнозный ряд для вектора <3,5,?,?>. Для этого вектора не известна третья координата и мера принадлежности к множеству А. Из таблицы ТТ видим, что третья координата изменяется в диапазоне [1;8]. Мы далее предполагаем, что диапазон изменения переменной известен. В противном случае потребуется усложнить технику расчетов. Выберем в этом диапазоне n > 2 последовательно возрастающих равноудаленных значений (чем больше n, тем точнее ожидаемое прогнозное значение). Например, возьмем n =10:

1; 1,77; 2,45; 3,24; 4,02; 4,8; 5,58; 6,36; 7,13; 8. (3)

Возьмем теперь первый вектор <3, 5, 1> (х1 =3, х2 = 5, х3 = 1). Для этого вектора нужно найти меру принадлежности к множеству А. Опираясь на работы [6, 7], выполняем следующий эксперимент. Последовательно рассматриваем ряд значений меры принадлежности ца, начиная с цл = 0 и каждый раз увеличивая ца на 5, где 5 - достаточно малая величина, например, 5 = 0,1. Для всех векторов, получаемых в ходе эксперимента, определяем принадлежность к множеству А на базе оценки (2), полученной выше. Заносим данные в таблицу ТТТ(табл. 3).

Таблица 3. Экспериментальная таблица ТТТ для прогнозного вектора <3,5,1>

x х1 х2 х3 ца Y

1 3 5 1 0 -1,16363636

2 3 5 1 0,1 -0,83636364

3 3 5 1 0,2 -0,50909091

4 3 5 1 0,3 -0,18181818

5 3 5 1 0,4 0,145454545

6 3 5 1 0,5 0,472727273

7 3 5 1 0,6 0,8

8 3 5 1 0,7 1,127272727

9 3 5 1 0,8 1,454545455

10 3 5 1 0,9 1,781818182

11 3 5 1 1 2,109090909

Обнаруживаем точку «перехода» вектора <3,5,1> из класса ~А в класс А с пятой строки (значения в столбце У становятся положительными). По этим данным нетрудно получить общий результат: ^ < 3,5,1 >«0,65, < 3,5,1 >«0,35 (среднее между двумя разделяющими

значениями: 0,3 и 0,4). Теперь строим такую же экспериментальную таблицу для вектора <3, 5, 1,77> из ряда (3) и т.д. Итоговые оценки систематизированы авторами в таблице ТТТТ (табл. 4).

Таблица 4. Экспериментальная таблица ТТТТ для векторов <3,5,_>

x х1 х2 х3 ца

1 3 5 1 0,65

2 3 5 1,77 0,65

3 3 5 2,45 0,55

4 3 5 3,24 0,55

5 3 5 4,02 0,45

6 3 5 4,8 0,45

7 3 5 5,58 0,45

8 3 5 6,36 0,35

9 3 5 7,13 0,35

10 3 5 8 0,25

По сути, таблица ТТТТ задает определение нечеткой меры на заданном диапазоне. Однако эта таблица неполна, поскольку не представлены нечеткие значения, позволяющие «охватить» весь диапазон от 0 до 1. Здесь возможны варианты, о чем говорилось ранее. Если диапазон значений для х3 представляется исследователю полным (других значений нет), то первая задача З1 решена. В противном случае к экспериментальной таблице ТТТТ следует применить технику экстраполяции (например, [8]). Этим мы получаем решение первой задачи З1.

Решение задачи 32

Для решения задачи 32 мы прибегнем к методу Р. Ягера [9, 10], который устанавливает связь между вероятностью нечеткого объекта и его нечеткой мерой принадлежности и который мы несколько модифицируем. Получив вероятности, можно далее вычислить ожидаемое значение нечеткого вектора, что и будет являться прогнозным значением.

В алгоритме Ягера нужно разбить нечеткие объекты сначала на интервальные множества Щ:

Жа= {х | м(х) >а}. (4)

Имеем

^0,65 = {} ,

^0,55 = {1,2},

Ж0А5 = {1,2,3,4},

Щ35 = {1,2,3,4,5,6,7},

Щ25 = {1,2,3,4,5,6,7,8,9},

Щ = {1,2,3,4,5,6,7,8,9,10}.

Здесь в записи множеств уровня указаны в фигурных скобках номера векторов х из таблицы ТТТТ. С каждым множеством уровня, по Ягеру, связывается (полу)интервал, на котором это множество остается «неизменным». Так, например, множество Щ55 = {1,2}

сохраняет свой вид на (полу)интервале [0,55; 0,65). Далее, следуя Ягеру, определим вероятность выбора «наугад» произвольного множества уровня (4) как величину, пропорциональную длине (полу)интервала р—а, на котором это множество остается неизменным и при условии, что сумма вероятностей выборов интервалов равна 1.

р(Щ.)—а' ^, (5)

' ^(рк— ак)

к

где р - верхняя граница полуинтервала. Получаем

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Р(ЩЯ) = 0165-0155 = 0,154;

0,5 0,65 — 0

Р(Щ ) = 0,55 — 0,45 = 0,154; 045 0,65 — 0

Р(Щз5) = 0,154;

Р(Жо,25) = 0,154;

Р(Щ) = 0,385 .

Определим теперь вероятность выбора произвольного объекта х как Р(х) = £Р(Щ)Р(хЩ). (6)

3

Используя формулу (6) и полагая, что векторы внутри каждого множества уровня выбираются с равной вероятностью, сведем данные расчетов в следующую табл. 5. Из этой таблицы без труда находим математическое ожидание координаты х3 :

М[хз] = ХХи 'Р(Х3'), (7)

получая в ответе М[х3г ] = 3,37.

x x1 x2 x3 P(x)

1 3 5 1 0,193

2 3 5 1,77 0,193

3 3 5 2,45 0,116

4 3 5 3,24 0,116

5 3 5 4,02 0,077

6 3 5 4,8 0,077

7 3 5 5,58 0,077

8 3 5 6,36 0,056

9 3 5 7,13 0,056

10 3 5 8 0,039

Итак, прогнозным значением нечеткого вектора является <3, 5, 3,37>. Этому прогнозному значению можно указать меру нечеткости (вероятность), если построить зависимость между x3 и ^(x3) (P(x3)) . Воспользуемся Excel. Представлена экспоненциальная аппроксимация функции меры принадлежности ц (x3). Аппроксимирующая функция имеет следующий вид

y = 0,7439 • e~0'087x . (8)

Для найденного прогнозного значения M[x3 ] = 3,37 найдем (3,37) = 0,55 . Хороший прогноз может быть получен и на основании «плохой» модели и наоборот. Таким образом, требуется оценка самой модели прогнозирования. В нашем случае качество модели изначально определяется тем, насколько модель четкого классификатора адекватно описывает (разбивает) множество нечетких векторов. Именно с этой позиции обосновывается качество введенного здесь нечеткого предсказателя. Этот вопрос нашел решение в [6]. Рассмотрим два последних столбца таблицы ТТ (в столбце Y знак «+» заменен на 1, а «-» на 0) (табл. 6).

Таблица 6. Измененная таблица ТТ

Ца 0,6 0,4 0,8 0,2 1 0 0,9 0,1 0,8 0,2 0,6 0,4 0,55 0,45 0,55 0,45

Y 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0

Тогда все сводится к вопросу о статистической «близости» двух этих столбцов (например, в смысле критерия Фишера или хи-квадрат). Следовательно, если нет оснований считать эти ряды статистически не адекватными, то четкий распознаватель правильно кластеризует обучающее множество и модель дает обоснованные выводы. Предположим, что нет статистической адекватности двух рассматриваемых рядов чисел. Например, возьмем первую строку приведенной выше таблицы с наибольшим отклонением между ца и У. В таблице ТТ ей соответствует следующий вектор (табл. 7).

Таблица 7. Вектор расширенной таблицы наблюдений

x x1 x2 x3 Ца Y

1 1 4 8 0,6 +

Используя подход [6, 7], считаем, что в 6 из 10 случаев (ца = 0,6) данный вектор ассоциировался с классом А. Заменим данный вектор, например, 10 «похожими» на него случайными векторами, из которых 6 отнесем к классу А, а 4 - к классу ~А (табл. 8). Значения координат «группируются» вокруг «старых» разрядов как х ±Д со случайной «ошибкой» А

(А имеет нулевое математическое ожидание и среднеквадратичное отклонение, равное доверительному интервалу для среднего значения соответствующего разряда). Этим можно добиться уменьшения расчетного значения критерия хи-квадрат, используемого для проверки адекватности рядов ца и У. Описанный прием позволяет «подогнать» четкий классификатор под нечеткие объекты с требуемой доверительной точностью.

x x1 x2 x3 Да Y

1 1 4 8 1 +

1,04 1 4 7,97 1 +

0,95 0,95 4,02 8 1 +

1,05 1,03 4 8,05 1 +

0,98 0,96 3,88 8,02 1 +

1 1 4,05 8 1 +

1 1,05 3,96 7,92 0 -

0,96 0,96 3,98 8,02 0 -

0,94 1,02 4,03 7,94 0 -

1,06 0,92 4 7,96 0 -

Заключение

Описанный подход к прогнозированию нечетких многомерных объектов использует технику кластеризации, позволяющую достаточно просто обрабатывать весьма значительные по объему обучающие выборки (сотни и тысячи объектов). Не предполагается знания законов распределения разрядов случайных многомерных объектов, взаимосвязи (наличия выраженной парной и групповой корреляции) между разрядами. Прогнозирование можно выполнить при достаточно общих допущениях.

A FORECASTING MODEL ON THE BASIS OF A FUZZY LEARNING SET

Yu.O. GERMAN , O.V. GERMAN. Abstract

A problem of constructing a numeric forecasting evaluator on the basis of a fuzzy learning set is considered. The stated general problem is connected to the definition of the missing fuzzy vector co-ordinates and their evaluation. The general formulation is divided into two tasks: to build a method producing missing fuzzy forecasting values with expected value of a fuzzy measure and forecasting quality estimation. The given mathematical backgrounds are based on the model of a multidimensional crisp classifier and its usage for the fuzzy measure definition with the following evaluation on the basis of the fuzzy vectors probabilities by R. Yager.

Keywords: fuzzy learning set, membership measure function, classification, forecasting.

Список литературы

1. Вятченин Д.А. Нечеткие методы автоматической классификации. Минск, 2004.

2. Ishibuchi H., Nakashima T., Murata T. // IEEE Transactions on Systems, Man, and Cybernetics. 1999. Vol. 29. P. 601-618.

3. Тукаева Э.М., Мухаметзянов И.З. // УэкС. 2013. № 8. C. 65-69.

4. Chen S.M. // Fuzzy sets Systems. 1996. Vol. 81, № 3. P. 311-319.

5. Демидов Л.А., Скворцова Г.С. // Вестн. РГРТУ. 2010. № 1 (31). C. 28-35.

6. Боброва Н.Л., Герман О.В. // Матер. Междунар. НК «Информационные технологии и системы». Минск, октябрь 2013. С. 242-244.

7. Герман О.В., Боброва Н.Л. // Докл. БГУИР. 2013. № 6 (76). С. 67-71.

8. Фильчаков П. Ф. Численные и графические методы прикладной математики. Киев, 1970.

9. Нечеткие множества и теория возможностей / Под ред. Р. Ягера. М., 1986.

10. Герман О.В. Введение в теорию экспертных систем и обработку знаний. Минск, 1995.

Модель прогнозирования с использованием нечеткого обучающего множества Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Герман Ю. О., Герман О. В.

Похожие темы научных работ по математике , автор научной работы — Герман Ю. О., Герман О. В.

A FORECASTING MODEL ON THE BASIS OF A FUZZY LEARNING SET

Текст научной работы на тему «Модель прогнозирования с использованием нечеткого обучающего множества»