Доклады БГУИР
2016 № 5 (99)
УДК 519.711.3
МОДЕЛЬ ПРОГНОЗИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ НЕЧЕТКОГО
ОБУЧАЮЩЕГО МНОЖЕСТВА
Ю.О. ГЕРМАН, О.В. ГЕРМАН
Белорусский государственный университет информатики и радиоэлектроники П. Бровки, 6, Минск, 220013, Беларусь
Поступила в редакцию 7 апреля 2016
Рассматривается задача построения численного прогноза с использованием обучающего нечеткого множества. Поставленная в статье общая проблема связана с доопределением значений нечеткого вектора и его оценкой. При этом решается две задачи: разработка метода для генерации нечеткого прогнозного значения с ожидаемым (в статистическом смысле) значением нечеткой меры и оценка качества прогноза. Представленный математический аппарат базируется на технике построения четкого многомерного классификатора и его использования для определения нечеткой меры принадлежности с последующей оценкой вероятностей нечетких векторов по Р. Ягеру.
Ключевые слова: нечеткое обучающее множество, мера принадлежности, классификация, прогноз.
Введение
Рассматривается задача построения численного прогноза с использованием обучающего нечеткого множества. Известны нечеткие классификаторы [1, 2]. Поставленная в статье задача расширяет рамки проблемы - нужно доопределить нечеткий вектор и дать его оценку (указать наиболее вероятное значение нечеткой меры принадлежности, т.е. математическое ожидание нечеткой меры). Известны подходы к прогнозированию нечетких временных рядов [3-5]. Они используют различный математический аппарат - генетические алгоритмы, функции распределения нечетких значений, нейронные сети и др. При этом качество прогнозирования в значительной степени увязывается с качеством используемой математической модели. Здесь имеются принципиальные моменты: оценка качества модели в общем случае, обеспечение статистически адекватного прогноза. Первый вопрос, вообще говоря, увязан со вторым. Если принципиально модель регулируема, то ее правильная коррекция позволит добиться требуемого качества прогноза. В противном случае модель следует заменить. Нечеткие данные описываются функцией меры принадлежности. Первая задача - эту функцию найти и статистически ее обосновать. По найденной функции легко найти меру прогнозного значения, а затем - само прогнозное значение. Можно обозначить две стороны этой проблемы. Во-первых, нужно определить метод для генерации нечеткого прогнозного значения с ожидаемым (в статистическом смысле) значением нечеткой меры. Эту задачу обозначим З1. Во-вторых, нужно оценить качество прогноза (задача З2). Цель последующего - изложить решение обеих задач.
Определение нечеткого прогнозного значения
Пусть дана следующая табл. 1 с нечеткими векторами, в которой представлены 8 векторов и значения меры их принадлежности к некоторому нечеткому множеству (скажем, А) и к его дополнению (~ А). Рассматриваем только непрерывные случайные величины в качестве разрядов нечетких векторов. Для каждой случайной величины (вообще говоря) закон
распределения a priori не известен. Диапазон изменения случайной величины может быть известным или нет.
Таблица 1. Обучающая таблица T
x x1 x2 x3 Ца ц~а
1 1 4 8 0,6 0,4
2 2 2 5 0,8 0,2
3 3 3 2 1 0
4 4 3 1 0,9 0,1
5 4 2 1 0,8 0,2
6 5 1 2 0,6 0,4
7 5 2 2 0,55 0,45
8 5 3 1 0,55 0,45
Столбец ц~а указывает меру принадлежности к дополнительному множеству ~Л. Пусть дан вектор хг = < 3, 5, ? >. Нужно доопределить (спрогнозировать) недостающее значение третьего разряда и указать меру принадлежности полученного вектора. При этом нужно указать такое значение для третьего разряда, при котором мера принадлежности к множеству А была бы максимальной из всех возможных вариантов.
Решение задачи З1
Для решения задачи З1 будем использовать модель нечеткого многомерного классификатора, предложенного в [6]. Эта модель, в свою очередь, базируется на формализме четкого многомерного классификатора [7]. Представляется необходимым для понимания смысла настоящей работы дать краткое введение по проблеме. Прежде всего от «нечеткой» таблицы Т перейдем к четкой ТТ (табл. 2).
Таблица 2. «Четкая» таблица ТТ
x x1 x2 x3 Ца Y
1 1 4 8 0,6 +
2 1 4 8 0,4 -
3 2 2 5 0,8 +
4 2 2 5 0,2 -
5 3 3 2 1 +
6 3 3 2 0 -
7 4 3 1 0,9 +
8 4 3 1 0,1 -
9 4 2 1 0,8 +
10 4 2 1 0,2 -
11 5 1 2 0,6 +
12 5 1 2 0,4 -
13 5 2 2 0,55 +
14 5 2 2 0,45 -
15 5 3 1 0,55 +
16 5 3 1 0,45 -
Новый столбец У указывает класс, к которому принадлежит многомерный объект. Здесь два класса (+ и - (равносильно А и ~А)). Значение нечеткой меры (ца) становится четвертым разрядом векторов х, причем если ца > 0,5, то объект относится к классу А. Четкий классификатор для ТТ представляет в общем случае дерево. Узлы дерева (для нашего примера) представляют линейные алгебраические неравенства вида
г=а + а ■ х + а ■ х + а ■ х + а 'М. (1)
Коэффициенты неравенств (а) (1) находятся с помощью процедуры устранения невязок [7] по обучающей таблице ТТ (и ее производным). Если коэффициенты ак(к = 0,4) известны, то, подставляя значения вместо переменных Хк, ц, получим значение г, причем, если г > 0, то «идем» по дереву по ветви влево, иначе - по ветви вправо. Если узел конечный, то при г > 0 объект относится к классу А, иначе к классу ~Л. Наш пример дает дерево с
единственной корневой вершиной и соответствующим алгебраическим неравенством (решение получено в EXCEL Solver).
z = 0,923-0,368-x -0,164-x2 -0,164-x3 + 3,273-ц>0. (2)
Подставляя, например, данные из первой и второй строк таблицы TT, получим
z = 0,923 - 0,368-1-0,164 - 4 - 0,164 - 8 + 3,273-0,6(0,4) = 0,54(-0,10).
Положительное число z = 0,54 соответствует классу А, отрицательное (-0,10) классу ~A. Итак, строим прогнозный ряд для вектора <3,5,?,?>. Для этого вектора не известна третья координата и мера принадлежности к множеству А. Из таблицы ТТ видим, что третья координата изменяется в диапазоне [1;8]. Мы далее предполагаем, что диапазон изменения переменной известен. В противном случае потребуется усложнить технику расчетов. Выберем в этом диапазоне n > 2 последовательно возрастающих равноудаленных значений (чем больше n, тем точнее ожидаемое прогнозное значение). Например, возьмем n =10:
1; 1,77; 2,45; 3,24; 4,02; 4,8; 5,58; 6,36; 7,13; 8. (3)
Возьмем теперь первый вектор <3, 5, 1> (х1 =3, х2 = 5, х3 = 1). Для этого вектора нужно найти меру принадлежности к множеству А. Опираясь на работы [6, 7], выполняем следующий эксперимент. Последовательно рассматриваем ряд значений меры принадлежности ца, начиная с цл = 0 и каждый раз увеличивая ца на 5, где 5 - достаточно малая величина, например, 5 = 0,1. Для всех векторов, получаемых в ходе эксперимента, определяем принадлежность к множеству А на базе оценки (2), полученной выше. Заносим данные в таблицу ТТТ(табл. 3).
Таблица 3. Экспериментальная таблица ТТТ для прогнозного вектора <3,5,1>
x х1 х2 х3 ца Y
1 3 5 1 0 -1,16363636
2 3 5 1 0,1 -0,83636364
3 3 5 1 0,2 -0,50909091
4 3 5 1 0,3 -0,18181818
5 3 5 1 0,4 0,145454545
6 3 5 1 0,5 0,472727273
7 3 5 1 0,6 0,8
8 3 5 1 0,7 1,127272727
9 3 5 1 0,8 1,454545455
10 3 5 1 0,9 1,781818182
11 3 5 1 1 2,109090909
Обнаруживаем точку «перехода» вектора <3,5,1> из класса ~А в класс А с пятой строки (значения в столбце У становятся положительными). По этим данным нетрудно получить общий результат: ^ < 3,5,1 >«0,65, < 3,5,1 >«0,35 (среднее между двумя разделяющими
значениями: 0,3 и 0,4). Теперь строим такую же экспериментальную таблицу для вектора <3, 5, 1,77> из ряда (3) и т.д. Итоговые оценки систематизированы авторами в таблице ТТТТ (табл. 4).
Таблица 4. Экспериментальная таблица ТТТТ для векторов <3,5,_>
x х1 х2 х3 ца
1 3 5 1 0,65
2 3 5 1,77 0,65
3 3 5 2,45 0,55
4 3 5 3,24 0,55
5 3 5 4,02 0,45
6 3 5 4,8 0,45
7 3 5 5,58 0,45
8 3 5 6,36 0,35
9 3 5 7,13 0,35
10 3 5 8 0,25
По сути, таблица ТТТТ задает определение нечеткой меры на заданном диапазоне. Однако эта таблица неполна, поскольку не представлены нечеткие значения, позволяющие «охватить» весь диапазон от 0 до 1. Здесь возможны варианты, о чем говорилось ранее. Если диапазон значений для х3 представляется исследователю полным (других значений нет), то первая задача З1 решена. В противном случае к экспериментальной таблице ТТТТ следует применить технику экстраполяции (например, [8]). Этим мы получаем решение первой задачи З1.
Решение задачи 32
Для решения задачи 32 мы прибегнем к методу Р. Ягера [9, 10], который устанавливает связь между вероятностью нечеткого объекта и его нечеткой мерой принадлежности и который мы несколько модифицируем. Получив вероятности, можно далее вычислить ожидаемое значение нечеткого вектора, что и будет являться прогнозным значением.
В алгоритме Ягера нужно разбить нечеткие объекты сначала на интервальные множества Щ:
Жа= {х | м(х) >а}. (4)
Имеем
^0,65 = {} ,
^0,55 = {1,2},
Ж0А5 = {1,2,3,4},
Щ35 = {1,2,3,4,5,6,7},
Щ25 = {1,2,3,4,5,6,7,8,9},
Щ = {1,2,3,4,5,6,7,8,9,10}.
Здесь в записи множеств уровня указаны в фигурных скобках номера векторов х из таблицы ТТТТ. С каждым множеством уровня, по Ягеру, связывается (полу)интервал, на котором это множество остается «неизменным». Так, например, множество Щ55 = {1,2}
сохраняет свой вид на (полу)интервале [0,55; 0,65). Далее, следуя Ягеру, определим вероятность выбора «наугад» произвольного множества уровня (4) как величину, пропорциональную длине (полу)интервала р—а, на котором это множество остается неизменным и при условии, что сумма вероятностей выборов интервалов равна 1.
р(Щ.)—а' ^, (5)
' ^(рк— ак)
к
где р - верхняя граница полуинтервала. Получаем
Р(ЩЯ) = 0165-0155 = 0,154;
0,5 0,65 — 0
Р(Щ ) = 0,55 — 0,45 = 0,154; 045 0,65 — 0
Р(Щз5) = 0,154;
Р(Жо,25) = 0,154;
Р(Щ) = 0,385 .
Определим теперь вероятность выбора произвольного объекта х как Р(х) = £Р(Щ)Р(хЩ). (6)
3
Используя формулу (6) и полагая, что векторы внутри каждого множества уровня выбираются с равной вероятностью, сведем данные расчетов в следующую табл. 5. Из этой таблицы без труда находим математическое ожидание координаты х3 :
М[хз] = ХХи 'Р(Х3'), (7)
получая в ответе М[х3г ] = 3,37.
x x1 x2 x3 P(x)
1 3 5 1 0,193
2 3 5 1,77 0,193
3 3 5 2,45 0,116
4 3 5 3,24 0,116
5 3 5 4,02 0,077
6 3 5 4,8 0,077
7 3 5 5,58 0,077
8 3 5 6,36 0,056
9 3 5 7,13 0,056
10 3 5 8 0,039
Итак, прогнозным значением нечеткого вектора является <3, 5, 3,37>. Этому прогнозному значению можно указать меру нечеткости (вероятность), если построить зависимость между x3 и ^(x3) (P(x3)) . Воспользуемся Excel. Представлена экспоненциальная аппроксимация функции меры принадлежности ц (x3). Аппроксимирующая функция имеет следующий вид
y = 0,7439 • e~0'087x . (8)
Для найденного прогнозного значения M[x3 ] = 3,37 найдем (3,37) = 0,55 . Хороший прогноз может быть получен и на основании «плохой» модели и наоборот. Таким образом, требуется оценка самой модели прогнозирования. В нашем случае качество модели изначально определяется тем, насколько модель четкого классификатора адекватно описывает (разбивает) множество нечетких векторов. Именно с этой позиции обосновывается качество введенного здесь нечеткого предсказателя. Этот вопрос нашел решение в [6]. Рассмотрим два последних столбца таблицы ТТ (в столбце Y знак «+» заменен на 1, а «-» на 0) (табл. 6).
Таблица 6. Измененная таблица ТТ
Ца 0,6 0,4 0,8 0,2 1 0 0,9 0,1 0,8 0,2 0,6 0,4 0,55 0,45 0,55 0,45
Y 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0
Тогда все сводится к вопросу о статистической «близости» двух этих столбцов (например, в смысле критерия Фишера или хи-квадрат). Следовательно, если нет оснований считать эти ряды статистически не адекватными, то четкий распознаватель правильно кластеризует обучающее множество и модель дает обоснованные выводы. Предположим, что нет статистической адекватности двух рассматриваемых рядов чисел. Например, возьмем первую строку приведенной выше таблицы с наибольшим отклонением между ца и У. В таблице ТТ ей соответствует следующий вектор (табл. 7).
Таблица 7. Вектор расширенной таблицы наблюдений
x x1 x2 x3 Ца Y
1 1 4 8 0,6 +
Используя подход [6, 7], считаем, что в 6 из 10 случаев (ца = 0,6) данный вектор ассоциировался с классом А. Заменим данный вектор, например, 10 «похожими» на него случайными векторами, из которых 6 отнесем к классу А, а 4 - к классу ~А (табл. 8). Значения координат «группируются» вокруг «старых» разрядов как х ±Д со случайной «ошибкой» А
(А имеет нулевое математическое ожидание и среднеквадратичное отклонение, равное доверительному интервалу для среднего значения соответствующего разряда). Этим можно добиться уменьшения расчетного значения критерия хи-квадрат, используемого для проверки адекватности рядов ца и У. Описанный прием позволяет «подогнать» четкий классификатор под нечеткие объекты с требуемой доверительной точностью.
x x1 x2 x3 Да Y
1 1 4 8 1 +
1,04 1 4 7,97 1 +
0,95 0,95 4,02 8 1 +
1,05 1,03 4 8,05 1 +
0,98 0,96 3,88 8,02 1 +
1 1 4,05 8 1 +
1 1,05 3,96 7,92 0 -
0,96 0,96 3,98 8,02 0 -
0,94 1,02 4,03 7,94 0 -
1,06 0,92 4 7,96 0 -
Заключение
Описанный подход к прогнозированию нечетких многомерных объектов использует технику кластеризации, позволяющую достаточно просто обрабатывать весьма значительные по объему обучающие выборки (сотни и тысячи объектов). Не предполагается знания законов распределения разрядов случайных многомерных объектов, взаимосвязи (наличия выраженной парной и групповой корреляции) между разрядами. Прогнозирование можно выполнить при достаточно общих допущениях.
A FORECASTING MODEL ON THE BASIS OF A FUZZY LEARNING SET
Yu.O. GERMAN , O.V. GERMAN. Abstract
A problem of constructing a numeric forecasting evaluator on the basis of a fuzzy learning set is considered. The stated general problem is connected to the definition of the missing fuzzy vector co-ordinates and their evaluation. The general formulation is divided into two tasks: to build a method producing missing fuzzy forecasting values with expected value of a fuzzy measure and forecasting quality estimation. The given mathematical backgrounds are based on the model of a multidimensional crisp classifier and its usage for the fuzzy measure definition with the following evaluation on the basis of the fuzzy vectors probabilities by R. Yager.
Keywords: fuzzy learning set, membership measure function, classification, forecasting.
Список литературы
1. Вятченин Д.А. Нечеткие методы автоматической классификации. Минск, 2004.
2. Ishibuchi H., Nakashima T., Murata T. // IEEE Transactions on Systems, Man, and Cybernetics. 1999. Vol. 29. P. 601-618.
3. Тукаева Э.М., Мухаметзянов И.З. // УэкС. 2013. № 8. C. 65-69.
4. Chen S.M. // Fuzzy sets Systems. 1996. Vol. 81, № 3. P. 311-319.
5. Демидов Л.А., Скворцова Г.С. // Вестн. РГРТУ. 2010. № 1 (31). C. 28-35.
6. Боброва Н.Л., Герман О.В. // Матер. Междунар. НК «Информационные технологии и системы». Минск, октябрь 2013. С. 242-244.
7. Герман О.В., Боброва Н.Л. // Докл. БГУИР. 2013. № 6 (76). С. 67-71.
8. Фильчаков П. Ф. Численные и графические методы прикладной математики. Киев, 1970.
9. Нечеткие множества и теория возможностей / Под ред. Р. Ягера. М., 1986.
10. Герман О.В. Введение в теорию экспертных систем и обработку знаний. Минск, 1995.