Научная статья на тему 'Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора'

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора Текст научной статьи по специальности «Экономика и бизнес»

CC BY
303
96
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Cloud of science
ВАК
Область наук
Ключевые слова
ВРЕМЕННОЙ РЯД / МОДЕЛЬ ПРОГНОЗИРОВАНИЯ / СТРОГО БИНАРНОЕ ДЕРЕВО / МОДИФИЦИРОВАННЫЙ АЛГОРИТМ КЛОНАЛЬНОГО ОТБОРА / СРЕДНЯЯ ОТНОСИТЕЛЬНАЯ ОШИБКА ПРОГНОЗИРОВАНИЯ / ПОКАЗАТЕЛЬ НЕСОВПАДЕНИЯ ТЕНДЕНЦИЙ / АФФИНИТЕТ

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Демидова Л. А.

Предложен подход к оценке качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора. Показана целесообразность одновременного учета значений средней относительной ошибки прогнозирования и показателя несовпадения тенденций при оценке качества моделей прогнозирования, определяемых при реализации модифицированного алгоритма клонального отбора с использованием аналитических зависимостей, формируемых на основе строго бинарных деревьев.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по экономике и бизнесу , автор научной работы — Демидова Л. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Assessment of the Quality Prediction Models Based of the Strict on Binary Trees and the Modified Clonal Selection Algorithm

Approach to quality estimation of forecasting models on the base of strict binary trees with application of modified clonal selection algorithm is offered. The expediency of values' simultaneous accounting of average forecasting error rate and tendencies' discrepancy indicator during modified clonal selection algorithm realization for quality estimation of forecasting models, defined by means of analytical dependences, formed on the base of strict binary trees, is shown.

Текст научной работы на тему «Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора»

Электронный журнал Cloud of Science. 2014. T. 1. № 2

http://cloudofscience.ru

УДК 681.518

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

Л. А. Демидова Рязанский государственный радиотехнический университет 390005, Рязань, ул. Гагарина, 59/1, e-mail: [email protected]

Аннотация. Предложен подход к оценке качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора. Показана целесообразность одновременного учета значений средней относительной ошибки прогнозирования и показателя несовпадения тенденций при оценке качества моделей прогнозирования, определяемых при реализации модифицированного алгоритма клонального отбора с использованием аналитических зависимостей, формируемых на основе строго бинарных деревьев.

Ключевые слова: временной ряд, модель прогнозирования, строго бинарное дерево, модифицированный алгоритм клонального отбора, средняя относительная ошибка прогнозирования, показатель несовпадения тенденций, аффинитет.

1. Введение

Анализ временных рядов (ВР), описывающих процессы с короткой актуальной частью (порядка 20-30 значений), играет важную роль при решении многих практических задач, например, при решении задач, связанных с прогнозированием различных социально-экономических процессов. При этом все чаще при разработке моделей прогнозирования ВР с короткой актуальной частью (коротких ВР) используются различные технологии искусственного интеллекта, применение которых позволяет обеспечить получение адекватных оценок возможных изменений в поведении ВР на основе их известных значений и принятие соответствующих управленческих решений [1-9].

Одной из современных технологий, которая может быть использована при разработке моделей прогнозирования коротких ВР, является технология, реализующая применение искусственных иммунных систем (ИИС), основанных на принципах естественной иммунной системы и хорошо зарекомендовавших себя при решении широкого спектра прикладных задач [1, 10, 11]. Эффективность использования ап-

СИСТЕМНЫМ АНАЛИЗ И СИСТЕМЫ УПРАВЛЕНИЯ

парата ИИС, в частности, алгоритма клонального отбора и механизмов супрессии антител при решении задач интерполяции, экстраполяции и прогнозирования, доказанная в работах зарубежных исследователей [10], подтверждает перспективность применения ИИС для решения задачи прогнозирования коротких ВР.

Успешный опыт использования моделей прогнозирования ВР, определяемых с применением аналитических зависимостей, формируемых на основе строго бинарных деревьев (СБД), полученных при реализации модифицированного алгоритма клонального отбора (МАКО), для прогнозирования социально-экономических процессов свидетельствует о целесообразности проведения дальнейших разработок в данном направлении [5-8].

Обычно качество моделей прогнозирования коротких ВР оценивается с применением какого-либо одного показателя, например, с применением средней относительной ошибки прогнозирования, значение которой должно быть минимизировано [1-8, 12, 13]. В то же время для коротких ВР может быть выполнен расчет и других показателей качества моделей прогнозирования, таких как коэффициент детерминации, среднеквадратическая ошибка прогнозирования, минимальное и максимальное значения ошибки прогнозирования, коэффициент несовпадения тенденций и т. п. [14-16]. Задача одновременного учета значений таких показателей при оценке качества модели прогнозирования представляет собой задачу многокритериальной оптимизации, которая с той или иной долей успеха может быть решена только высококвалифицированным экспертом-аналитиком.

Однако одновременный учет даже каких-либо двух показателей качества моделей прогнозирования обеспечил бы существенное повышение точности прогнозирования коротких ВР. В частности, учет, наряду со значением средней относительной ошибки прогнозирования значения показателя несовпадения тенденций, позволил бы исключить из рассмотрения модели прогнозирования, имеющие малые значения средней относительной ошибки прогнозирования, но при этом характеризующиеся большими значениями показателя несовпадения тенденций.

Так как при реализации МАКО для оценки качества моделей прогнозирования на основе СБД с целью отбора «лучшей» модели применяется традиционный подход, основанный на минимизации значения средней относительной ошибки прогнозирования [5-8], то можно говорить об актуальности разработки нового подхода к оценке качества моделей прогнозирования на основе СБД, который позволил бы обеспечить одновременный учет значений средней относительной ошибки прогнозирования и показателя несовпадения тенденций.

2. Прогнозирование на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

Для решения задачи прогнозирования коротких ВР й (^) в [1, 5-8] предлагается использовать модели прогнозирования к -го порядка, получаемые при реализа-

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

ции МАКО, который позволяет при приемлемых временных затратах сформировать на основе СБД аналитическую зависимость, наилучшим образом описывающую известные значения ВР и обеспечивающую получение минимального значения аффинитета Aff (affinity) — средней относительной ошибки прогнозирования AFER (Average Forecasting Error Rate):

m

Z |(f (t) - d(t))/d(t)|

AFER = i^kH-------------------100%, (1)

m - k

где f (t) и d (t) — предсказанное и реальное значения ВР для t -го отсчета времени; m — количество значений ВР (количество отсчетов времени).

При этом возможные варианты аналитических зависимостей кодируются в виде антител Ab, которые должны осуществлять распознавание антигенов Ag — известных значений ВР. В качестве «лучшего» антитела выбирается антитело Ab, обеспечивающее минимальное значение аффинитета Aff [1, 5-8].

Антитело Ab представляет собой символьную строку, элементы которой выбираются из трех предварительно заданных символьных алфавитов [5-8]:

- алфавита арифметических операций Operation = {'+','-т. е. операций сложения, вычитания, умножения и деления;

- алфавита функционалов Functional = {'S', C", 'Q', L', E,'_'}, в котором символы S', 'C', Q', L', 'E' соответствуют математическим функциям «синус», «косинус», «квадратный корень», «натуральный логарифм», «экспонента», а символ '_' определяет отсутствие какой-либо математической функции;

- алфавита терминалов Terminal = {'a', b',..., 'z', '@'}, в котором символ '@' определяет некоторую константу, а символы 'a', b',..., 'z' соответствуют аргументам искомой аналитической функции.

Предполагается, что арифметические операции являются двухместными, а применение функционала должно предшествовать применению арифметической операции [5, 6].

Применение трех символьных алфавитов обеспечивает при реализации МАКО корректное преобразование в аналитические зависимости случайным образом формируемых антител, структура которых может быть описана с помощью СБД [5-8], примеры которых приведены на рис. 1, где рядом с узлами показаны значения их уровней. При использовании почти полных СБД (ППСБД) [6, 8] (см. рис. 16) удается сформировать более сложные аналитические зависимости, чем в случае применения просто СБД (см. рис. 1а) [5, 7], и, как следствие, обеспечить получение меньших значений средней относительной ошибки прогнозирования AFER [4].

СИСТЕМНЫМ АНАЛИЗ И СИСТЕМЫ УПРАВЛЕНИЯ

а) б)

Рисунок 1. Примеры бинарных деревьев: а) строгое бинарное дерево; б) почти полное строгое бинарное дерево

Количество терминальных позиций Term в антителе определяется максимально возможным порядком модели прогнозирования [5-8]. Если максимально возможный порядок равен K, то это означает, что при прогнозировании значения ВР d(t) на момент времени t могут использоваться K значений ВР: d(t-K), ..., d (t — 2), d (t — 1). При этом реальный и максимальный порядки модели прогнозирования k и K соответственно удовлетворяют условию: k < K (ввиду возможного кратного вхождения некоторых терминальных символов в запись аналитической зависимости и возможного наличия константы).

Для антител на основе СБД (см. рис. 1а) при формировании аналитических зависимостей произвольного максимально возможного порядка K может быть использована рекурсивная процедура интерпретирования антител [6], заключающаяся в рекурсивном преобразовании СБД в символьную строку посредством последовательной записи всех узлов, начиная слева направо и снизу вверх. Терминальные узлы (листья) СБД могут содержать только символы из алфавита терминалов Terminal, а остальные узлы формируются из символов алфавита арифметических операций Operation и алфавита функционалов Functional. При этом минимальный и максимальный номера позиций антитела, в которых стоят терминальные символы, равны 2 • Term и 4 • Term — 2 соответственно, а длина антитела определяется максимальным номером позиции, в которой стоит терминальный символ.

Пример формирования антитела на основе СБД для случая, когда K = 3 и алфавит терминалов имеет вид: Terminal = {'a','b','c', '@'}, приведен на рис. 2: в позициях 6, 8, 10 стоят символы из алфавита терминалов, в позициях 1, 3, 5, 7, 9 — из алфавита функционалов, а в позициях 2, 4 — из алфавита арифметических опера-

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

ций. Антитело Ab, сопоставляемое СБД, изображенному на рис. 2, и порожденная им аналитическая зависимость F(b, c) имеют соответственно вид:

Ab = ('L"*"C''—''_' '@''E''b''S''c');

F (b, c) = ln (cos (sin (c) — exp (b)) * const),

где const — константа, соответствующая символу '@' и определяемая случайным образом.

1

3

6

8

10

Рис. 2. Пример формирования антитела на основе СБД

Формирование антитела, соответствующего ППСБД (см. рис. 1б), должно осуществляться так, чтобы обеспечивать корректный результат интерпретирования антитела. В частности, для формирования антитела может использоваться [8]:

— способ, основанный на применении стандартного подхода к обходу вершин бинарного дерева и реализующий формирование упорядоченного списка символов, находящихся в вершинах ППСБД;

— способ, основанный на разбиении ППСБД на поддеревья и реализующий сначала с применением стандартного подхода к обходу вершин бинарного дерева для каждого поддерева формирование упорядоченных списков символов, находящихся в его вершинах, а затем — последовательное объединение этих списков.

В [8] показано, что применение при реализации МАКО способа формирования антител, основанного на разбиении ППСБД на поддеревья, обеспечивает минимизацию временных затрат на интерпретацию антител в аналитические зависимости. Для антител на основе ППСБД может быть использована рекурсивная процедура интерпретирования антител, но ее применение в этом случае имеет ряд особенностей [8]. Так как для антител на основе ППСБД максимально возможный поря-

'C'

'@'

'E'

'b'

'S'

■ Functional

■ Operation

■ Functional

■ Operation________

■ Functional

■ Terminal

■ Functional

■ Terminal ( 'S

■ Functional

■ Terminal

0 уровень

1 уровень

2 уровень

L

c

СИСТЕМНЫМ АНАЛИЗ И СИСТЕМЫ УПРАВЛЕНИЯ

док К всегда является нечетным числом, то само ППСБД может быть представлено в виде композиции одного «левого» поддерева максимально возможного порядка КЛ = 3 и некоторого количества п (п > 1) «правых» і-х (і = 1, п) поддеревьев максимально возможного порядка КП = 2 (КЛ + Ъгп=1КгП = К). Термин «правое» поддерево («левое» поддерево) используется для указания того, в какую ветвь (в правую или в левую) некоторого уровня ППСБД должно включаться новое поддерево.

0

1

2

3

Рисунок 3. Пример ППСБД, используемого для формирования антитела

Количество терминальных позиций в «левом» и «правых» поддеревьях равно соответственно TermR = 3 и TermП = 2 (i = І, n), а длина антитела равна

(4• TermJl -2) + 2П=і(4• Term'n -2) + 2• n, т. е. І0 + S • n [б, S]. Процедура формирования антитела на основе ППСБД может быть реализована циклически в виде рекурсивного формирования частей антитела на основе соответствующих поддеревьев с последующей их композицией (слева направо и снизу вверх).

На рис. 3 приведен пример ППСБД для случая, когда K = 5 и алфавит терминалов имеет вид: Termin al = {'a', 'b', 'c','d', 'e', '@'}. Длина антитела в этом случае

находится, как сумма длин «левого» поддерева (4 • Termn - 2 = І0), «правого» поддерева (4 • Termп - 2 = б) и количества символов композиции, равного 2, т. е. равна ^.

Обычно качество антител и соответствующих им моделей прогнозирования, получаемых при реализации МАКО, оценивается по значению аффинитета Aff, в

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

роли которого выступает средняя относительная ошибка прогнозирования AFER (1), которая должна быть минимизирована [5, 6, 8].

В то же время особое внимание при отборе «лучших» антител и соответствующих им моделей прогнозирования следует уделять анализу значений показателя несовпадения тенденций Tendency, который должен быть минимизирован:

h

Tendency =---------, (2)

m — к — 1

где h — количество отрицательных произведений (f (t — 1) — f (t)) • (d(t — 1) — d(t)), при t = к + 2, m; f (t) и d(t) — предсказанное и реальное значения ВР для t-го отсчета времени; m — количество значений ВР (количество отсчетов времени); к — порядок модели; (m — к — 1) — общее количество произведений (f (t — 1) — f (t)) x x(d (t — 1) — d (t)).

Для одновременного учета при оценке качества антител и соответствующих им моделей прогнозирования значения средней относительной ошибки прогнозирования AFER и значения показателя несовпадения тенденций Tendency предлагается вычислять аффинитет модели прогнозирования как

Aff = AFER • (1 + Tendency). (3)

Представление формулы для вычисления аффинитета Aff в виде (3) позволит обеспечить при реализации МАКО совместную одновременную минимизацию значений средней относительной ошибки прогнозирования AFER и показателя несовпадения тенденций Tendency.

Если для некоторой модели прогнозирования окажется, что AFER = 0, то этот факт будет свидетельствовать не только о том, значение средней относительной ошибки прогнозирования равно нулю, но и о полном совпадении тенденций ВР, при котором Tendency = 0. При этом значение аффинитета Aff, вычисленное по формуле (3), окажется минимально возможным. Если для некоторой модели прогнозирования окажется, что Tendency = 0, то этот факт будет свидетельствовать лишь о полном совпадении тенденций ВР. При этом значение средней относительной ошибки прогнозирования AFER может оказаться существенно далеким от нулевого. В связи с этим при вычислении аффинитета Aff антитела в формуле (3) учет значения показателя несовпадения тенденций Tendency реализован в виде множителя, представленного с помощью суммы (1 + Tendency), что позволит при реализации МАКО в случае, когда Tendency = 0, продолжить поиск лучших вариантов моделей прогнозирования, имеющих меньшие значения средней относительной ошибки прогнозирования A FER.

СИСТЕМНЫМ АНАЛИЗ И СИСТЕМЫ УПРАВЛЕНИЯ

Модифицированный показатель несовпадения тенденций может быть записан

как

TendencyM = 1 + Tendency. (4)

При реализации МАКО в ходе смены поколений предлагается считать, что ан-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

титело Ab1 лучше антитела Ab2 , если наряду с условием

Aff < A#2, (5)

выполняются условия:

AFER1 < AFER2 и Tendencyl < Tendency2. (6)

При использовании такого подхода при реализации МАКО в качестве «лучших» антител в новом поколении МАКО будут полагаться антитела, имеющие значение аффинитета Aff, не больше, чем у «лучшего» антитела предыдущего поколения МАКО, и, кроме того, характеризующиеся неувеличением значения показателя несовпадения тенденций Tendency при одновременном неувеличении значения средней относительной ошибки прогнозирования A FER.

Реализация МАКО для обоих описанных выше вариантов формирования антител (на основе просто СБД и ППСБД) осуществляется аналогичным образом. При реализации МАКО искомая аналитическая зависимость F кодируется в виде антитела Ab, которое должно обеспечивать распознание антигенов Ag, т. е. элементов

прогнозируемого ВР d (t) (t = 1, m) таким образом, чтобы осуществлялась минимизация аффинитета Aff (3) при соблюдении условий (5) и (6).

МАКО включает в себя подготовительную и итерационную части [5, 6].

Целью подготовительной части МАКО является получение популяции случайным образом сформированных антител, «непохожих» друг на друга. В общем случае понятие «похожие» антитела предполагает совпадение некоторого количества символов в кодах сравниваемых антител. Процедура сравнения кодов двух антител, с использованием которой следует определять и уничтожать антитела, «похожие» на уже сформированные ранее, подробно описана в [6].

Пусть при сравнении кодов двух антител Ab1 и Ab2 количество совпадений пар символов не меньше, чем Sd < S, где S — длина антитела; Sd — порог самоуничтожения антитела (порог «естественной смерти»), определяющий количество совпадений при попарном сравнении символов в одинаковых позициях кодов антител, при котором антитело Ab2 считается «похожим» на Ab1 и должно быть уничтожено.

Начальная популяция размером P, сформированная с применением процедуры сравнения кодов антител при Sd = S, будет состоять из «непохожих» между собой антител. Одновременно с популяцией антител Ab формируется массив констант антител Constant, содержащий «значащие» константы, соответствующие символу '@' в коде антитела, и некоторые одинаковые «тривиальные» константы,

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

соответствующие терминальным символам, отличным от символа '@', в коде антитела. При этом количество строк в массиве констант антител Constant равно размеру популяции P, а количество столбцов равно максимально возможному порядку модели K.

Для обеспечения максимальной эффективности при использовании для вычисления аффинитета антител формулы (3), применяемой для совместной одновременной минимизации средней относительной ошибки прогнозирования AFER и показателя несовпадения тенденций Tendency, предлагается при формировании начальной популяции антител, а также при генерации новых антител в ходе реализации МАКО рассмотреть еще одно условие, выполнение которого необходимо для признания случайным образом сгенерированного антитела «пригодным»: антитело считается «пригодным», если соответствующая ему модель прогнозирования обеспечивает совпадение менее половины тенденций ВР. В этом случае при реализации МАКО можно гарантировать, что в процессе смены поколений не увеличатся (и даже уменьшатся) как значение показателя несовпадения тенденций Tendency, так и значение средней относительной ошибки прогнозирования AFER. При этом удастся избежать скачков значений показателя несовпадения тенденций Tendency, как это было, когда при оценке аффинитета антител использовалась только средняя относительная ошибка прогнозирования AFER (1).

Далее более подробно рассмотрены шаги, выполняемые при реализации итерационной части МАКО [6].

Шаг 1. Вычисление аффинитета и упорядочение антител. Аффинитет Aff для каждого антитела вычисляется в соответствии с формулой (3), в которую подставляются данные имеющегося ВР d (t) и значения f (t), полученные с использованием аналитической зависимости F, определяемой этим антителом.

Так как некоторые математические функции не всегда могут быть применены к операндам, задаваемым в случайно сформированных антителах, то для исключения таких антител из популяции и поддержания ее «жизнеспособности» предлагается присваивать им максимально возможное значение аффинитета Aff, равное 200, которое будет соответствовать максимально возможному значению средней относительной ошибки прогнозирования AFER = 100% при полном несовпадении тенденций ВР: Tendency = 1.

При упорядочении антител по возрастанию аффинитета «лучшие» антитела Ab, имеющие меньшие значения аффинитета Aff, будут располагаться в начале списка упорядочения антител.

Вычисление аффинитета Aff для всех антител A b реализуется только в первом поколении МАКО, в других поколениях вычисление аффинитета Aff реализуется лишь для добавленных новых антител [6].

Шаг 2. Отбор и клонирование «лучших» антител. Пусть pq — доля антител в популяции, подлежащих клонированию. Тогда количество «лучших» антител,

СИСТЕМНЫМ АНАЛИЗ И СИСТЕМЫ УПРАВЛЕНИЯ

находящихся в начале списка и подлежащих клонированию, может быть вычислено по формуле [6]

Clone = round (pq • P), (7)

где round(•)— функция округления вещественного числа к ближайшему целому числу.

Количество клонов W(i) для каждого /-го антитела Abt (i = 1, Clone) является

уникальным и зависит от его аффинитета A ffi: чем меньше аффинитет, тем боль-

шее количество клонов генерируется:

W(i) = round (Q • P/i), (8)

где Q — коэффициент размножения клонов, представляющий собой некоторое целое число (обычно 1 < Q < 30).

Для антитела, содержащего в своих позициях хотя бы одну константу, предлагается производить дополнительную генерацию еще W(i) клонов, чтобы предусмотреть большее количество вариантов констант в записи искомой аналитической зависимости.

Вместе с популяцией клонов Cl создается массив констант клонов ClConstant, при этом производится дублирование соответствующих строк из массива констант антител Constant.

Пусть общее количество полученных клонов Cl антител равно ClP.

Шаг 3. Гипермутация клонов антител. При реализации МАКО производится гипермутация символов в некоторых позициях «лучших» антител, выбранных для клонирования. Вероятность изменения каждого символа антитела задается с помощью коэффициента мутации pm, значение которого вычисляется для каждой генерации на основе двух величин: коэффициента гипермутации pgm и скорости гипермутации pgmV (pgm < 1, pgmV < 1) [6].

Для первого поколения антител коэффициент мутации pm принимается равным pgm : pm = pgm. Далее в каждом следующем поколении значение коэффициента мутации pm уменьшается до некоторого порогового значения pmMin (например, pmMin = 0.1) со скоростью pgmV: pm = pm • pgmV. Если в некотором поколении оказывается, что pm < pmMin, то коэффициент мутации pm опять полагается равным pm = pgm.

Процедура гипермутации символов в клоне Cl антитела A b производится следующим образом. Для каждого j-го символа клона Cl генерируется случайное вещественное равномерно распределенное число rj из отрезка [0,1]. Если выполняется условие rj < pm, то реализуется мутация j-го символа клона Cl, при этом

новый символ выбирается случайным образом из алфавитов арифметических операций, функционалов и терминалов (в зависимости от того, какому алфавиту при-

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

надлежит у-й символ), в противном случае, если выполняется условие Г/ < рт, у-й символ не изменяется.

Если в процессе мутации символа в у-й позиции /-го клона (/ = 1, С1Р) производится замена «значащего» терминального символа на символ '@' (или замена символа '@' на символ '@'), то в массиве констант клонов ClConstant в /-й строке выполняется замена соответствующей «значащей» (или «тривиальной») константы на новое случайно сгенерированное вещественное число randConstant = Мт + г • Мах, где Мт и Мах — соответственно минимально и максимально возможные значения вещественной константы, задаваемые с учетом диапазона изменения значений ВР, г — случайное вещественное равномерно распределенное число из отрезка [0,1]. Если в процессе мутации символа в у-й позиции /-го клона (/ = 1, С1Р) производится замена символа '@' на «значащий» терминальный символ, то в массиве констант клонов ClConstant в /-й строке выполняется замена соответствующей «значащей» константы на «тривиальную» константу [6].

Шаг 4. Самоуничтожение клонов антител. В популяции клонов Cl размером ClP, полученной в результате клонирования антител и их гипермутации, с применением рассмотренной выше процедуры сравнения кодов двух антител производится поэтапное выявление и удаление «похожих» клонов [6].

Первый этап самоуничтожения клонов Cl выполняется над исходной популяцией клонов размером ОР, при этом выполняется сравнение кодов клонов Cl между собой при заданном пороге самоуничтожения Бл (процедура сравнения «клон-клон» Cl - Cl) и уничтожение «похожих» клонов. Пусть размер популяции клонов а, полученной в результате первого этапа самоуничтожения клонов, равен ClClP.

На втором этапе самоуничтожения клонов Cl производится сравнение клонов а, оставшихся после применения процедуры Cl - Cl, с антителами АЬ текущей популяции антител (процедура сравнения «клон-антитело» Cl - АЬ) и уничтожаются клоны а, коды которых «похожи» на коды антител АЬ. Пусть размер популяции клонов а, полученной в результате второго этапа самоуничтожения клонов, равен ClAЬP.

Одновременно с удалением «похожих» клонов выполняется и удаление соответствующих им строк в массиве констант клонов ClConstant.

Шаг 5. Вычисление аффинитета клонов антител. Для популяции клонов Cl, полученной в результате самоуничтожения «похожих» клонов, вычисляются значения аффинитета А// клонов [6].

Шаг 6. Формирование новой популяции антител. Текущая популяция антител размером Р объединяется с популяцией клонов Cl размером ClAЬP и создается расширенная популяция антител размером Р + ClAЬP, которая упорядочивается по

СИСТЕМНЫМ АНАЛИЗ И СИСТЕМЫ УПРАВЛЕНИЯ

возрастанию значений аффинитета А// антител. Затем из расширенной популяции антител размером Р + ClAЬP удаляются антитела с наибольшими значениями аффинитета А/ в количестве ClAЬP, что в итоге дает новую популяцию антител с тем же размером Р, что и исходная популяция антител [6].

Шаг 7. Супрессия популяции антител. Для антител популяции размером Р вычисляется среднее значение аффинитета А// и выполняется процедура супрессии, позволяющая удалить из популяции часть антител, у которых значение аффинитета ниже порогового значения 5 • А//, где 5^ — коэффициент супрессии антител (например, 5 = 0.98), и поддержать таким образом максимально возможное разнообразие антител в популяции при одновременном сохранении в ней «лучшего» антитела с минимальным значением аффинитета А//тШ [6].

Пусть размер популяции антител, полученной в результате выполнения процедуры супрессии, равен АЬР.

Шаг 8. Генерация новых антител и добавление их к текущей популяции антител. Если после выполнения процедуры супрессии выполняется условие АЬР < Р, то реализуется генерация новых случайным образом формируемых антител («непохожих» на уже имеющиеся антитела текущей популяции) в количестве Р - АЬР и их добавление к популяции антител размером АЬР. При формировании новых антител выполняется сравнение кодов антител между собой при заданном пороге самоуничтожения (процедура сравнения «антитело-антитело» АЬ - АЬ) и уни-

чтожение «похожих» антител [6].

Шаг 9. Проверка условия окончания МАКО. Проверка условия окончания МАКО осуществляется по количеству текущих поколений g. Если номер текущего поколения g равен заданному максимальному количеству поколений О, то работа МАКО завершается. В противном случае, если g < О, номер текущего поколения g увеличивается на единицу и осуществляется переход к шагу 1 итерационной части МАКО для реализации следующего поколения [6].

Экспериментальные исследования. Предлагаемый подход к оценке качества моделей прогнозирования на основе СБД, реализующий оценку аффинитета антител с помощью формулы (3) при соблюдении условий (5) и (6), был использован при реализации МАКО в ходе решения задач прогнозирования тенденций рынка труда в России, в частности, для прогнозирования ВР, описывающего «экономически активное население» (в тыс. чел.). Кроме того, было выполнено построение моделей прогнозирования на основе СБД и МАКО с применением традиционно используемой для оценки аффинитета антител средней относительной ошибки прогнозирования АЕЕЯ (1). Программная реализация моделей прогнозирования была осуществлена в среде МАТЬАБ И2012Ь.

При разработке моделей прогнозирования использовались 18 известных значений ВР d ^^ = 1,18) с февраля 1999 года по август 2003 года для отсчетов време-

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

ни по месяцам: февраль, май, август и ноябрь [2], а оценка качества прогнозирования выполнялась для трех значений ВР (ноябрь 2003 года, февраль 2004 года и май 2004 года), т. е. на три шага вперед.

На рис. 4 приведены результаты прогнозирования на основе модели 4-го порядка, полученной при использовании предлагаемого (по формуле (3)) подхода к оценке качества моделей прогнозирования в процессе смены 2000 поколений антител.

Рисунок 4. Результаты прогнозирования

Значения средних относительных ошибок прогнозирования АЕЕЯ и на три шага вперед составили соответственно 0.261 и 0.389, количество несовпадающих тенденций равно 0, как для 13 тенденций, используемых при построении модели прогнозирования, так и для тенденций при прогнозировании на три шага вперед, что свидетельствует о применимости разработанной модели для выполнения краткосрочного прогнозирования данного ВР.

При этом «лучшее» антитело имеет вид

_ + _* 5 - д * д / c - _ ед @ sfSdCgCfSc,

а аналитическая зависимость, определяющая модель прогнозирования 4-го порядка, записывается, соответственно, как

^^^ -1), d^ - 2), d^ - 3), d^ - 4)) = 8т(8д11(8д11;(со8(8т^^ - 4)) -- со8^ ^ - 2))) / со8^ ^ -1))) • ^ - 3))) - ^ - 2))) • 8д1!(1071900) + d ^ - 4).

СИСТЕМНЫМ АНАЛИЗ И СИСТЕМЫ УПРАВЛЕНИЯ

Аналогичные результаты прогнозирования для рассматриваемого примера могут быть получены и при использовании традиционного (по формуле (1)) подхода к оценке качества моделей прогнозирования, однако их получение может сопровождаться хаотичными изменениями значений показателя несовпадения тенденций Tendency (2), поскольку поиск будет вестись только в направлении убывания значений средней относительной ошибки прогнозирования AFER (1). Использование предлагаемого подхода в ходе смены поколений МАКО позволяет сузить область поиска искомого решения.

Поскольку использование МАКО не гарантирует нахождение оптимальной модели прогнозирования, то особое внимание должно уделяться вопросу признания модели прогнозирования в качестве «приемлемой» («субоптимальной»).

На рис. 5 и 6 приведены, соответственно, графические зависимости для средней относительной ошибки прогнозирования AFER (1) и модифицированного показателя несовпадения тенденций TendencyM (4), а также для количества ошибочных тенденций «лучшего» антитела, полученные при использовании предлагаемого (по формуле (3)) подхода к оценке качества моделей прогнозирования в процессе смены 1000 поколений одной реализации МАКО.

Рисунок 5. Графические зависимости для показателей оценивания качества моделей прогнозирования при использовании предлагаемого подхода

Рисунок 6. Графическая зависимость для количества ошибочно спрогнозированных тенденций при использовании предлагаемого подхода к оценке качества моделей прогнозирования

На рис. 7 и 8 приведены соответственно графические зависимости для средней относительной ошибки прогнозирования AFER (1) и модифицированного показателя несовпадения тенденций TendencyM (4), а также для количества ошибочных тенденций «лучшего» антитела, полученные при использовании традиционного (по

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

формуле (1)) подхода к оценке качества моделей прогнозирования в процессе смены 1000 поколений одной реализации МАКО.

В ходе реализации МАКО при использовании предлагаемого подхода к оценке качества моделей прогнозирования наблюдается, как видно из рис. 5 и 6, постепенное уменьшение значений показателя TendencyM и количества несовпадения тенденций «лучшего» антитела, в то время как при использовании традиционного подхода к оценке качества моделей прогнозирования возможно скачкообразное то уменьшение, то увеличение значений показателя Tendency M и количества несовпадения тенденций «лучшего» антитела (см. рис. 7 и 8). При этом в обоих случаях наблюдается постепенное уменьшение значений средней относительной ошибки прогнозирования AFER «лучшего» антитела.

Рисунок 7. Графические зависимости для показателей оценивания качества моделей прогнозирования при использовании предлагаемого подхода

Рисунок 8. Графическая зависимость для количества ошибочно спрогнозированных тенденций при использовании традиционного подхода к оценке качества моделей прогнозирования

На рис. 9 приведены дополнительные примеры, демонстрирующие графические зависимости для значений средней относительной ошибки прогнозирования

AFER (1) и модифицированного показателя несовпадения тенденций TendencyM

(4) при использовании традиционного (по формуле (1)) подхода к оценке качества моделей прогнозирования в процессе смены 1000 поколений для различных реализаций МАКО. При этом рисунки, пронумерованные как I-а и I-б, II-а и II-б, III-а и

III-б, IV-а и IV-б, соответствуют одной реализации МАКО.

СИСТЕМНЫМ АНАЛИЗ И СИСТЕМЫ УПРАВЛЕНИЯ

Рисунок 9. Графические зависимости для показателей оценивания

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

Следует отметить, что величина показателя несовпадений тенденций Tendency (см. рис. 5, 7 и 9 (I-а, II-а, III-а, IV-а)) определяется не только количеством ошибочно спрогнозированных тенденций (см. рис. 6, 8 и 9 (I-б, II-б, III-б, IV-б)), но и порядком модели прогнозирования к, что отражено в формуле (2). При этом в ходе смены поколений МАКО уменьшение величины показателя несовпадений тенденций Tendency (2) может происходить не только за счет уменьшения количества ошибочно спрогнозированных тенденций, но и за счет уменьшения порядка модели прогнозирования к. Данный факт хорошо продемонстрирован на рис. 9 (IV-а и

IV-б) на интервале от 0 до 200 поколений.

Как показывает анализ, при применении традиционного подхода к оценке качества моделей прогнозирования «приемлемой» моделью может быть признана та, которая обладает меньшим значением средней относительной ошибки прогнозирования AFER (1), но при этом «плохим» значением показателя несовпадения тенденций Tendency (2).

Использование предлагаемого подхода к оценке качества моделей прогнозирования позволит сбалансировать значения средней относительной ошибки прогнозирования AFER (1) и показателя несовпадения тенденций Tendency (2). При этом удастся в ходе смены поколений МАКО исключать из дальнейшего рассмотрения антитела (и соответствующие им модели прогнозирования) с худшими значениями показателя несовпадения тенденций Tendency (2), поскольку в процессе смены поколений МАКО для антител будет запрещено увеличение значения показателя несовпадения тенденций Tendency (2).

3. Заключение

Предлагаемый подход к оценке качества моделей прогнозирования на основе СБД с применением МАКО обеспечивает совместный одновременный учет «лучших» значений средней относительной ошибки прогнозирования AFER (1) и показателя несовпадения тенденций Tendency (2), позволяя при реализации МАКО исключить из рассмотрения модели прогнозирования, характеризующиеся большими значениями показателя несовпадения тенденций Tendency, и сузить область поиска искомого решения.

Модели прогнозирования на основе СБД и МАКО позволяют существенно сократить время подбора аналитической зависимости, наилучшим образом (с точки зрения одновременной минимизации средней относительной ошибки прогнозирования AFER и показателя несовпадения тенденций Tendency) описывающей известные значения коротких ВР, и могут быть рекомендованы для решения задач краткосрочного прогнозирования (на 1-3 шага вперед).

Подход к оценке качества моделей прогнозирования, реализующий совместный одновременный учет «лучших» значений средней относительной ошибки прогнозирования AFER (1) и показателя несовпадения тенденций Tendency (2), мо-

СИСТЕМНЫМ АНАЛИЗ И СИСТЕМЫ УПРАВЛЕНИЯ

жет быть использован при разработке моделей прогнозирования, предполагающих применение тех или иных эволюционных алгоритмов, например, при разработке нечетких моделей прогнозирования с использованием генетических алгоритмов [2-4, 12, 13].

Литература

[1] Бидюк П. И., Баклан И. В., Литвиненко В. И., Фефелов А. А. Алгоритм клонального отбора для прогнозирования нестационарных динамических систем // Штучний інтелект. 2004. № 4. С. 89-99.

[2] Демидова Л. А. Разработка однофакторных нечетких моделей для анализа тенденций временных рядов с использованием генетического алгоритма // Научнотехнические ведомости СПбГПУ. 2007. № 52(2). С. 156-164.

[3] Демидова Л. А. Прогнозирование тенденций временных рядов на основе однофакторной нечеткой модели с использованием дискретных нечетких множеств второго типа и генетического алгоритма // Бизнес-информатика. 2008. № 4 (6). С. 46-53.

[4] Демидова Л. А., Скворцова Т. С. Двухфакторная модель прогнозирования временных рядов с короткой длиной актуальной части с использованием генетического алгоритма // Системы управления и информационные технологии. 2010. № 31. С. 7-12.

[5] Демидова Л. А., Корячко А. В., Скворцова Т. С. Модифицированный алгоритм клонального отбора для анализа временных рядов с короткой длиной актуальной части // Системы управления и информационные технологии. 2010. Т. 42. № 4.1. С. 131-136.

[6] Демидова Л. А. Модели прогнозирования временных рядов с короткой актуальной частью на основе модифицированного алгоритма клонального отбора // Вестник РГРТУ. 2012. № 39-2. С. 64-71.

[7] Демидова Л. А., Пылькин А. Н., Скворцов С. В., Скворцова Т. С. Гибридные модели прогнозирования коротких временных рядов.— М. : Горячая линия-Телеком, 2012.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

[8] Астахова Н. Н., Демидова Л. А. Использование почти полных строго бинарных деревьев и модифицированного алгоритма клонального отбора при разработке моделей прогнозирования временных рядов с короткой актуальной частью // Вестник РГРТУ. 2013. № 4-2 (46). С. 89-96.

[9] Кравец О. Я. Перспективные подходы к исследованию технологий менеджмента в сложных системах управления // Экономика и менеджмент систем управления. 2014. Т. 1. № 1 (11). С. 093-100.

[10] Искусственные иммунные системы и их применение / под ред. Д. Дасгупты. — М. : ФИЗМАТЛИТ, 2006.

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

[11]Демидова Л. А., Титов С. Б. Исследование влияния основных параметров алгоритма функционирования искусственной иммунной сети на качество кластеризации объектов // Вестник РГРТУ. 2012. № 40. С. 54-60.

[12] Chen S. M. Forecasting enrollments based on high-order fuzzy time series // Cybernetic Systems. 2002. Vol. 33. № 1. P. 1-16. (doi: 10.1080/019697202753306479)

[13] Hwang J.-R., Chen S.-M., Lee C.-H. Handling forecasting problems using fuzzy time series // Fuzzy Sets and Systems. 1998. Vol. 100. No. 1-3. P. 217-228. (doi: 10.1016/S0165-0114(97)00121-8)

[14]Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики. — М. : Юнити, 1998.

[15] Белов В. В. Проблемы факторного прогнозирования социально-экономических показателей // Вестник МГУПИ. 2005. № 2. С. 116.

[16] Терехов А. А. Идентификация статистического материала и консолидация временных рядов // Вестник РГРТУ. 2009. № 27. С. 62-70.

Автор:

Демидова Лилия Анатольевна — доктор технических наук, профессор, профессор кафедры вычислительной и прикладной математики Рязанского государственного радиотехнического университета

СИСТЕМНЫМ АНАЛИЗ И СИСТЕМЫ УПРАВЛЕНИЯ

Assessment of the Quality Prediction Models Based of the Strict on Binary Trees and the Modified Clonal Selection Algorithm

Liliya A. Demidova

Ryazan state radio engineering university 390005, Gagarina Str, 59/1. Ryazan, Russia, e-mail: [email protected]

Abstract. Approach to quality estimation of forecasting models on the base of strict binary trees with application of modified clonal selection algorithm is offered. The expediency of values' simultaneous accounting of average forecasting error rate and tendencies' discrepancy indicator during modified clonal selection algorithm realization for quality estimation of forecasting models, defined by means of analytical dependences, formed on the base of strict binary trees, is shown.

Key words: time series; forecasting model; strictly binary tree; modified clonal selection algorithm; average forecasting error rate; tendencies' discrepancy indicator; affinity.

Reference

[1] Bidjuk P. I., Baklan I. V., Litvinenko V. I., Fefelov A. A. (2004) Algoritm klonalnogo otbora dlja prognozirovanija nestacionamyh dinamicheskih system. Shtuchnij mtel-ekt, 4, 89-99. (rus)

[2] Demidova L. A. (2007) Razrabotka odnofaktornyh nechetkih modelej dlja analiza tendencij vremennyh rjadov s ispol'zovaniem geneticheskogo algoritma. Nauchno-tehnicheskie vedomosti SPbGPU, 52(2), 156-164. (rus)

[3] Demidova L. A. (2008) Prognozirovanie tendencij vremennyh rjadov na osnove odnofaktornoj nechetkoj modeli s ispolzovaniem diskretnyh nechetkih mnozhestv vtorogo tipa i geneticheskogo algoritma. Biznes-informatika, 4, 46-53. (rus)

[4] Demidova L. A., Skvorcova T. S. (2010) Dvuhfaktornaja model prognozirovanija vremennyh rjadov s korotkoj dlinoj aktualnoj chasti s ispolzovaniem geneticheskogo algoritma. Sistemy upravlenija i informacionnye tehnologii, 31, 7-12. (rus)

[5] Demidova L. A., Korjachko A. V., Skvorcova T. S. (2010) Modificirovannyj algoritm klonalnogo otbora dlja analiza vremennyh rjadov s korotkoj dlinoj aktualnoj chasti.

Sistemy upravlenija i informacionnye tehnologii, 42-1, 131-136. (rus)

[6] Demidova L. A. (2012) Modeli prognozirovanija vremennyh rjadov s korotkoj ak-tualnoj chastju na osnove modificirovannogo algoritma klonalnogo otbora, Vestnik RGRTU, 39-2, 64-71. (rus)

[7] Demidova L. A., Pylkin A. N., Skvorcov S. V., Skvorcova T. S. (2012) Gibridnye modeli prognozirovanija korotkih vremennyh rjadov. Moscow, Gorjachaja linija-Telekom. (rus)

Оценка качества моделей прогнозирования на основе строго бинарных деревьев и модифицированного алгоритма клонального отбора

[S] Astahova N. N., Demidova L. A. (2G13) Ispolzovanie pochti polnyh strogo binarnyh derevev i modificirovannogo algoritma klonalnogo otbora pri razrabotke modelej prognozirovanija vremennyh rjadov s korotkoj aktualnoj chastju. Vestnik RGRTU, 4-2(4б), 89-9б. (rus)

[9] Kravec O. J. (2G14) Perspektivnye podhody k issledovaniju tehnologij

menedzhmenta v slozhnyh sistemah upravlenija. Jekonomika i menedzhment sistem upravlenija, 1(11), G93-1GG. (rus)

[1G] Dasgupty D. (Ed.) (2GG6) Iskusstvennye immunnye sistemy i ih primenenie. Moscow, FIZMATLIT. (rus)

[11] Demidova L. A., Titov S. B. (2G12) Issledovanie vlijanija osnovnyh parametrov algo-ritma funkcionirovanija iskusstvennoj immunnoj seti na kachestvo klasteri-zacii obektov. Vestnik RGRTU, 4G, 54-60. (rus)

[12] Chen S. M. (2GG2) Forecasting enrollments based on high-order fuzzy time series. Cyber-netic Systems, 33(1), 1-1б. (doi: 10.1080I019697202753306479)

[13] Hwang J.-R., Chen S.-M., Lee C.-H. (199S) Handling forecasting problems using fuzzy time series. Fuzzy Sets and Systems, 100(1-3), 217-22S. (doi: 10.1016^0^-0114(97)00121-8)

[14]Ajvazjan S. A., Mhitarjan V. S. (199S) Prikladnaja statistika i osnovy jekonometri-ki. Moscow, Juniti. (rus)

[1З] Belov V. V. (200З) Problemy faktornogo prognozirovanija social'no-jekonomicheskih pokazatelej. VestnikMGUPI, 2, 116.

[16] Terehov A. A. (2009) Identifikacija statisticheskogo materiala i konsolidacija vremennyh rjadov. Vestnik RGRTU, 27, 62-70.

i Надоели баннеры? Вы всегда можете отключить рекламу.