-►
Системный анализ и управление
УДК 519.8
А.С. Веремчук, В.Ф. Волков
ОПТИМИЗАЦИЯ УПРАВЛЕНИЯ КАТАСТРОФОУСГОЙЧИВОСТЬЮ ИНФОРМАЦИОННО-УПРАВЛЯЮЩИХ СИСТЕМ
Практика последних лет показывает, что информационно-управляющие системы (ИУС) многих организационно-технических систем оказались не готовы к случайному одновременному воздействию нескольких неблагоприятных факторов даже в мирное время. Известными примерами являются энергетические катастрофы в Северной Америке и Англии, сбои энергоснабжения в мае 2005-го в Москве и в январе 2009-го в Санкт-Петербурге. В связи с этим специалистами по ИУС стали прорабатываться вопросы обеспечения катастрофоустойчивости. Под катастро-фоустойчивостью ИУС понимается способность системы сохранять критически важные данные и продолжать выполнение своих функций после уничтожения ключевых компонентов в результате воздействия техногенных, природных, диверсионных факторов [1, 2, 4].
Подробный анализ показывает [2, 3], что функционирование ИУС можно представить как марковский процесс перехода с одного уровня катастрофоустойчивости (УКУ) на другой. Следует отметить, что термин «катастрофоустой-чивость» используется авторами для усиления значимости цепочки событий: «незначительный» отказ ^ сбой в функционировании ИУС ^ срыв информационного обеспечения целевого процесса (бизнес-процесса, функционирования потенциально опасной системы, производственного процесса и т. д.) ^ невыполнение основной организационно-технической системой плановой задачи.
Введём в рассмотрение пять уровней ката-строфоустойчивости (возможны и другие варианты). Первый уровень катастрофоустойчивости ИУС обладает следующими характеристиками:
разработан план восстановления после катастрофы; выполняется ежесуточное резервное копирование на отдельный носитель, который вручную доставляется во внешнее хранилище, находящееся вне зоны действия возможной катастрофы. Первый этап (переход на второй уровень УКУ) характеризуется наименьшими затратами, но уровень катастрофоустойчивости остаётся низким. Второй уровень: на резервном центре существует вычислительный комплекс, запас производительности, которого достаточен для обработки передаваемых данных; имеющиеся средства долговременного хранения информации обеспечивают принятую организацию периодического копирования данных в обычных условиях; на ВЦ организовано только хранение съёмных машинных носителей. Для второго этапа характерны затраты, необходимые для достижения третьего уровня катастрофоустойчивости. Третий уровень: определён резервный ВЦ, на котором будет восстанавливаться система; выполняется ежесуточное резервное копирование части критических и некритических данных на локально находящийся носитель; носитель с резервной копией хранится во внешнем хранилище, находящемся вне зоны действия возможной катастрофы; доставка носителя с резервной копией осуществляется «вручную». Третий этап является наиболее затратным, т. к. происходит максимальное укомплектование системы техническими и программными средствами, определяется и доукомплектовывается штатная структура. Четвёртый уровень: на запасном ВЦ, на который планируют осуществить передачу обработки данных, постоянно функционирует хранилище данных и организована работа с ними; регулярно осуществляется оперативная актуали-
зация данных временного хранения по изменениям баз данных (с использованием системных журналов СУБД) и файлов; обслуживающий персонал, осуществляющий первоначальный запуск системы и возобновление обработки данных, постоянно находится на ВЦ; как на основном, так и на резервном ВЦ имеются в наличии вычислительные комплексы с кластерной организацией, образующие территориально распределённую структуру. Четвёртый этап предполагает незначительные затраты для перехода на следующий уровень катастрофоустойчивости. Пятый уровень: система обладает максимальной степенью катастрофоустойчивости; обслуживающий персонал проводит незначительные корректировки в системе, которые обеспечивают общую устойчивость в случае возникновения внештатных ситуаций.
Традиционным показателем, используемым в теории живучести и надёжности, является коэффициент готовности КГ. Он рассчитывается путём составления и решения уравнений Колмогорова. Однако детальный анализ показал, что величина КГ в нашей задаче зависит от момента ?к наступления «катастрофы». Этот момент целесообразно рассматривать как случайный, подчинённый тому или иному закону распределения. Поэтому КГ, как функция случайного аргумента, также является случайной величиной КГ = Д^). В качестве показателя катастрофоустойчивости ИУС целесообразно принять величину Р = Р(КГ > К1?), т. е. гарантированную вероятность обеспечения непрерывности управления. Для получения значения этой вероятности можно использовать аналитическое или численное выражение зависимости величины КГ(?) от времени на интервале планирования выполнения целевой задачи (на сутки вперёд, на квартал вперёд, на год вперёд и т. д.). Первым шагом для получения этой зависимости является имитационное моделирование, вторым -сбор, систематизация и обработка фактической (экспериментальной) информации.
Из вышеизложенного следуют две постановки задачи управления катастрофоустойчивостью ИУС АСУ. В качестве первой целесообразно рассматривать вариационную задачу отыскания функции Ед({), оптимизирующей процесс приведения ИУС к заданному УКУ. Показателями оптимизации могут выступать либо время восстановления работоспособности при заданных затратах, либо затраты на восстановление работо-
способности при ограничении на срок восстановления. В качестве второй задачи целесообразно исследовать управление расходами на корректировку процесса приведения ИУС к заданному УКУ. Рассмотрим один из подходов к решению второй задачи. Так как исход каждого из этапов приведения ИУС к заданному УКУ определяется действием многих организационно-технических факторов, в т. ч. случайных, то цикл приведения представляет собой случайную последовательность, которая может быть реализована за заданное время 2™ только с некоторой вероятностью у ^ 1, а продолжительность I у каждого из этапов представляет собой непрерывную случайную величину (СВ). Параметры распределения Л<к > этой СВ жестко связаны с плановыми характеристиками этапов. Например, при экспоненциальном распределении продолжительности у-го этапа:
Ч = V1 = (С)-1. (1)
Пусть реализовано у - 1 этапов процесса приведения ИУС к заданному УКУ, т. е.:
^-о - * -1 = |С + ? + ... + ¡я . (2)
Индикатором возможности выполнения комплекса работ по приведению ИУС в заданное время ^пл является вероятность выполнения плана приведения ИУС, которая с учётом исхода (у - 1 ) этапов (т. е. с учётом наметившегося опоздания), вычисляется по формуле:
(V-!)
N
где './<(0 = ^]в"><Ц')ЛП ¡е^АхЛ^ .
При уу = у корректируется либо программа работ на всех оставшихся (у - г, (у + 1) - г, ..., N - г) этапах, либо программа работ только на у - г этапе. В данной статье будем говорить о корректировке только на у - г этапе (корректировка первого типа).
В этом случае:
(3)
(4)
Таким образом, возникает задача по определению таких значений У к > вектора корректировки на каждом этапе процесса, при которых дополнительные затраты, обеспечивающие выполнение всех работ в заданное время ^пл с вероятностью у, минимальны:
и выполняются ограничения:
УЖ^^Г у'2«Х2,?{К2/) = У;
при щ2 (?) = ср^ + ^); (6)
Улг-1^1 > ¿2.....*ЛГ-1>У(К11_1)') ~ У>
при ф^ (О = ф^ А^^ + 7{Ки_г) ].
Поясним постановку и решение задачи на примере и разработаем алгоритм оптимального управления катастрофоустойчивостью для случая четырёхэтапного процесса и экспоненциального распределения продолжительности t. Такая ситуация может возникнуть, например, при проведении операции по последовательному восстановлению работоспособности ИУС по схеме, указанной на рисунке.
,1 2 *2 3 *3 4 *4 5
4 этап
1 этап 2 этап 3 этап
Схема проведения операции
Функция распределения продолжительности этапа имеет вид: Р^{х) = 1-е~л"х [у= 1(1)4], т. е. г = ?1+?2+?э+?4. Будем исходить из того, что затраты на корректировку плана на первом этапе пропорциональны величине «опоздания»:
д^) ~ t; - ^ + ... + - [V = 2(1)Ж], (7) но ^ = 1/Л1; м.= 1/(Л2 + У1у,^= 1/Л2; ^
М. =1/(Л3 + >>2) ^3пд=1/А3.
•(8)
Применим к левой и правой частям (7) операцию математического ожидания и обозначим М [Л£|>)]=Д/1'), тогда ^+...+1/^+^)-^.
В качестве параметра состояния управляемого процесса выберем математическое ожидание М[X ] = x случайной величины X - «сдвига» («опоздания») времени проведения работ; в соответствии с (8) значения параметра состояния равны:
х^ -1/Л1 *з =*2-У2 /^(Лз + Уг))
(9)
(10)
Технико-экономический анализ показывает, что но М[1} = M'[fv] - М[(у] = 1/(Л+уя) - 1/Л =
= (- ул) / (Лv(Лv + у,)),
-[("V] = -'[("V] - = 1/(Л+У1) - 1/Лv =
= (- Уvl) / (Лv(Лv + улУ) ,
тогда:
Д.^ -
Д^ ~ /«((-У-ДЛ (Лv+у,)), Д^ ~ /«((-у-ДЛ (Лv+у,)). В конечном итоге функция затрат примет
вид:
Л2-
д2 ,л , \2
2
_Уу-1_
(11)
Пусть t1 = t*1. Вероятность выполнения работ по приведению к заданному УКУ цикла в заданный срок гпл с учётом исхода ^ первого этапа равна:
-^(¡Г-Г,') , Л3Л4__
71 =
Л3Л4
(Л2 -Л4)(Л2 - А3)
АА .-^(¿"-«Г).
(Л2 -Л3)(Л4 -Л3)
Л2Л3
(Л4-Л3)(Л2-Л4)
(Л2-Л4)(Л2-Л3) (^-ЛзХ^-Лз) (12)
ЛЛ
(Л4-Л3)(Л2-Л4)
=01(Л2,Л3,Л4,?1*,г1Ш). При у! < у (возникла угроза невыполнения задачи) проводим новую корректировку: Л'2 = Л2 +ур где у- значение параметра корректировки. Средние затраты на корректировку равны: Д® = Ду(2)(х у1), а параметр корректировки должен удовлетворять ограничение: 01(Л2 + у1, Л3, Л4, zпл , = у. Пусть t2 = С* = ^2(у1). Вероятность у*2* равна:
у*; = 02(Лз, Л4, С, zпл). (13)
При у" < у: Л'3 = Л3 + у2 - новая корректировка параметра распределения продолжительности 3-го этапа; Ду(3) = Ду(3)(х2, у2) - средние затраты на
корректировкуна3-мэтапе,гдех2=х1 - д * •
2 1 Л2(Л2 + У1)
П2,3(ХР Ур *2) = ^^р *1) + Д^С^ У2) - среднее значение суммарного показателя эффективности
корректировки; 02(Л3+ у2, Л4, * t*2*, zпл) - ограниче-
х
у-1
ние на параметр корректировки.
Пусть ?3 = С = ?*3(У2). Вероятность у*3* равна:
у** = 1 - е -л4 о1" - О = 0(Д4, * С*, Г* г™). (14)
При у*3* < у: Л'4 = Л4 + у3 - корректировка параметра распределения продолжительности 4-го этапа; Д^(4) = Д^(4)(х3, у4) - средние затраты на корректировку на 4-м этапе;
Тогда ^ ) = 1шп Д$(л,+1) (хч, у).
; Пу^Г Уг У2, У3) =
У*
где Х3 = х2 - ———■—-
4 3 2 л3(л3 + У*)
= ЕД^(у)(ху1, уу1) - математическое ожидание суммарного показателя эффективности; 03(Л4+ у3, ^ С, = у - ограничение на параметр коррек-
тировки.
Задача оптимизации для четырёхэтапного процесса формулируется следующим образом: требуется определить такие значения у у у 3, параметра корректировки У, при которых средний суммарный показатель эффективности корректировки - стоимость дополнительно используемых ресурсов - принимает наименьшее значение:
П*,3,4(хг ~ l, ~^ У3) = т«1 \3,4(хг Уl, У2, У3) = М,
и выполняются ограничения:
01(Л2 + );1,Лз,Л4,г1Ш,^) = у, 02(Л3 + З;2,Л4^Г,С) = У. (15)
где е3 = (л4 + з;3,7™, 4*)=у,
где ф.(?) = (Л*+ У1)е -(л+У>>; ф.(?) = (Л*+ у^е + У>>;
Д5(у) = Д5(у)( уу-1, ¥у_1( уу1)).
Таким образом, задача оптимизации становится задачей отыскания экстремума функции одной переменной без ограничений. Предварительные исследования показали, что все уравнения системы (10), кроме последнего, имеют несколько корней. В этом случае для решения задачи оптимизации корректировки программы испытаний целесообразна разработка методики, в основе которой лежат алгоритмы стохастического динамического программирования [5, 6].
Для составления рекуррентных соотношений Беллмана будем использовать величину цп(х) -минимума средних затрат на корректировку плана (п - 1 ) этапного цикла (первый этап не корректируется) п-шаговой операции, начинающейся в состоянии х.
Обозначим Уогр - множество, составленное из
у '
корней ограничения:
0у(л+1+ У^ ..., о = т.
(16)
Решение уравнений (16) может быть найдено одним из общеизвестных методов НЛП. При небольшом числе корней ограничение 0у(Лу1+ +уу, ..., Г*)=у можно просто их перебрать (как и соответствующие им значения функцииД^(у+;)( уу^)). Обозначим через у у22 вспомогательные переменные, используемые для определения условно-оптимальных значений параметра корректировки, и получим рекуррентные соотношения:
У22
(17)
И2(*2) = 1тп[Д5(3Ч*2,;у21)+М*з)]; (18)
Из (х) = гшп[Д$(3) (х, у3у)+ ц,2 (х2 )].
Уъу^Г
При этом: х* = х -
У
3у
Л*(Л2 + У 3у)
33 2у
(19)
(20)
3 2 Л3(Л3 + У 2у)
где у у у 3у - решения функциональных уравнений (17-20) называют ретроспективной развёрткой (обратным ходом).
Далее можно записать последовательность прямой развёртки (прямого хода) в следующем виде:
х := х1; (21)
Ц = ^3(х); (22)
~1=~3У (х1); (23)
У1
1 л^ + у 1)'
~ 2 = ~ 2У (х2);
~ 2
--;
2 л3(л3 + У 2)
(24)
(25)
(26) (27)
У 3 = У1У (х3).
Из вышеизложенной последовательности управления уровнем катастрофоустойчивости следует, что найденная оптимальная корректировка (21-27) является случайной (оперативной) и зависит от того, как развернётся случайный процесс приведения ИУС к заданному уровню катастрофо-устойчивости. Мы не определили жесткую «программу корректировки», но указали для каждой
фазы процесса обеспечения работоспособности АСУ то «управление», которым следует отвечать на любой случайный исход предыдущей фазы.
В современных работах по инфокоммуника-ционным технологиям основное внимание уделяется катастрофоустойчивым решениям ИУС -разработке конфигурации программных и аппаратных средств и организационным мерам по обе-
спечению сохранности жизненно важных данных [1, 2]. В данной статье рассмотрена другая, не менее актуальная проблема - оптимизации процесса приведения ИУС к требуемому уровню катастро-фоустойчивости в заданный срок. Предложенный алгоритм позволяет осуществлять гибкое (в зависимости от исхода очередного этапа) управление процессом поддержания работоспособности ИУС с минимальными затратами.
СПИСОК ЛИТЕРАТУРЫ
1. Анников А.В., Слободин М.Ю. Программно-аппаратное обеспечение отказа- и катастрофоустойчи-вых систем управления и обработки информации: Монография. М.: Макс-пресс, 2006. 153 с.
2. Беленков В.Г., Будзко В.И. Задачи катастро-фоустойчивости кластерных вычислительных систем // Новости искусственного интеллекта. 2002. № 3 (50). С. 22-30.
3. Веремчук А.С. Применение теории марковских процессов к задаче оценивания катастрофоустойчиво-
сти подсистем АСУВ // Сб. тр. ВКА им. А.Ф. Можайского, 2008. С. 55-58
4. Павельев С.В., Павельев С.С. Выбор варианта системы защиты центров обработки данных // Проблемы управления, 2008. № 5. С. 67-72.
5. Соложенцев Е.Д. Сценарное логико-вероятностное управление риском в бизнесе и технике. СПб.: Наука, 2004. 280 с.
6. Юсупов Р.М., Пальчун Б.П. Оценка надежности программного обеспечения. М.: Наука, 1993. 280 с.
УДК 004.415.538
А.И. Карпухин, Е.В. Осипов
О СИСТЕМНОМ ПОДХОДЕ К МОНИТОРИНГУ ИНФОРМАЦИОННЫХ КОМПЛЕКСОВ ФЕДЕРАЛЬНЫХ ОРГАНОВ ИСПОЛНИТЕЛЬНОЙ ВЛАСТИ
В последние годы существенно возросли требования к уровню информатизации государственного сектора в условиях снижения объёмов финансирования, обусловленном во многом глобальными изменениями в экономике России и всего мира.
В связи с этим особенно актуально выделить области информатизации в конкретных государственных организациях, требующие первоочередного финансирования, реализация проектов в которых принесёт наибольший эффект в производственном, технологическом, организационном и других аспектах.
Термин «информатизация» в статье используется в соответствии с ФЗ № 24 об информации, информатизации и защите информации, согласно которому «информатизация - организационный социально-экономический и научно-технический процесс создания оптимальных условий для удовлетворения информационных потребностей и
реализации прав граждан, органов государственной власти, органов местного самоуправления, организаций, общественных объединений на основе формирования и использования информационных ресурсов».
Выделение приоритетных областей возможно только на основе достоверной оценки сложившейся ситуации в сфере информатизации госсектора по комплексу показателей. Оценка общего уровня информатизации, качества внедрения информационных систем, эффективности расходования бюджетных средств на информационные технологии и других важнейших качественных и количественных характеристик весьма затруднена в силу целого ряда причин, в т. ч.:
информационно-телекоммуникационные комплексы (ИТК) федеральных органов исполнительной власти (ФОИВ) развиваются в непрерывно изменяющихся условиях внешней среды