Научная статья на тему 'Планирование системы резервирования и восстановления данных'

Планирование системы резервирования и восстановления данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
440
114
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мороз Д.В., Пупышева А.А.

На сегодняшний день тотальное крушение корпоративных IT сервисов недопустимо. Они стали неотделимой частью для большинства бизнес-процессов. Чтобы убедиться в устойчивости и сохранности IT сервисов, корпорации должны заранее подготавливать план восстановления последних. На удивление, сегодня существует достаточно ограниченное число исследовательских работ на данную тему. Это вызвано прежде всего тем, что важность процесса резервного копирования до сих пор не была полностью осмысленна. Данная работа может быть использована в качестве теоретического руководства, доказывающего жизненную необходимость использования резервирования данных в фирмах, получить представление о ключевых этапах планирования системы резервирования данных, а также статья призвана дать общие представления об основных современных способах резервирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Планирование системы резервирования и восстановления данных»

Планирование системы резервирования и восстановления данных

Мороз Д.В., Пупышева А.А., НИУ Высшая школа экономики, МИЭМ yadenis@list.ru, paa1706@mail.ru

Аннотация

На сегодняшний день тотальное крушение корпоративных 1Т сервисов недопустимо. Они стали неотделимой частью для большинства бизнес-процессов. Чтобы убедиться в устойчивости и сохранности 1Т сервисов, корпорации должны заранее подготавливать план восстановления последних. На удивление, сегодня существует достаточно ограниченное число исследовательских работ на данную тему. Это вызвано прежде всего тем, что важность процесса резервного копирования до сих пор не была полностью осмысленна. Данная работа может быть использована в качестве теоретического руководства, доказывающего жизненную необходимость использования резервирования данных в фирмах, получить представление о ключевых этапах планирования системы резервирования данных, а также статья призвана дать общие представления об основных современных способах резервирования.

1 Введение

Развитие бизнеса по всему миру с каждым днём становится всё более зависимым от 1Т систем, используемых в различных бизнес-процессах. Данные бизнес-процессы, однако, чаще всего опираются на высокую беспрерывную доступность к ним, а также на систему резервирования в случаях незапланированных обстоятельств,

способных повлиять катастрофически на всю организацию. Как следствие, процесс бизнес-планирования тесно связан с планированием процесса резервного копирования [1]. Непрерывность бизнес-деятельности

определяет процессы и процедуры, которые организация должна проводить, чтобы удостовериться, что её наиболее важные функции могут проводиться как во время возникновения непредвиденных проблем, так и после. Планирование устойчивого бизнеса ставит перед собой главной целью поиск способов недопущения выхода из строя ключевых сервисов путём быстрого

восстановления полной функциональности с минимальными потерями [2]. Управление аварийным восстановлением центра обработки данных может быть рассмотрено как постоянно происходящий процесс планирования, разработки, тестирования и реализации процедур восстановления данных при крушении сервисов, призванных обеспечить эффективное

возобновление важных бизнес-функций. Для поддержки беспроблемного роста бизнеса и уменьшения возникающих при этом сложностей, связанных с изменениями технологий, используемых в бизнес-процессах, необходимо наличие следующих ключевых элементов к осуществлению возможности комплексного аварийного восстановления - оценка приложения (Critical Application Assessment), процедуры резервного копирования (Back-Up Procedures), процедуры восстановления (Recovery Procedures), процедуры испытаний (Test Procedures), план обслуживания (Plan Maintenance) [3].

2 Основная часть

2.1 Риски и их определение

Важной частью подготовки к непредвиденным авариям на производстве является осознание рисков, которые могут предстать перед организацией. Возможные риски можно выявить и сгруппировать, исходя из факторов их обуславливающих, таких как предсказуемость, последствия и прочее (см. Рис. 1).

Рис. 1. Классификация рисков

В таблице 1 представлены основные типы возможных проблем, которые теоретически могут возникнуть у компании. Важно заметить, что все организации в мире

сталкивались (сталкиваются) с теми или иными проблемами, различными по своей природе [4].

Таблица 1. Классификация катастроф

Эффективно спланированная система восстановления и резервирования

обеспечивает быстрое восстановление данных, если они были утеряны. Потому очевидно, что необходимо разработать и протестировать корпоративную систему восстановления основательно, исходя из имеющихся ресурсов, подобрать наиболее подходящий способ резервного копирования. Такая система в идеале должна уметь эффективно противостоять всем типам обозначенных выше аварийных случаев.

2.2 Определение последствий аварий

После того, как были выявлены наиболее ожидаемые риски, грозящие корпорации, а также было принято решение противодействовать наиболее опасным из них, следующим шагом необходимо определить список самых вероятных последствий, грозящих после каждой

определённой аварии (катастрофы). Именно на уменьшение этих последствий необходимо делать акцент. Диаграммы, наподобие той, что представлена на рисунке 2, могут быть использованы как средство спецификации, определения и составления лучшего представления о последствиях после той или иной аварии.

Рис. 2. Спецификация рисков

Важно заметить, что несколько причин могут вызывать один и тот же деструктивный эффект, а в некоторых случаях сами деструктивные эффекты могут стать причиной других разрушений и потерь.

2.3 Список сущностей, страдающих при авариях

Под сущностью (субъектом) в данном контексте подразумеваются различные физические ресурсы (помещения,

компьютеры, персонал, информация и прочее). Основной целью данного шага является составление списков с пострадавшими или могущими пострадать от различных сбоев после аварии сущностями. Так, на рисунке 2 к таким сущностям относятся разрушенное здание офиса, сбои в электропитании, ошибки в сетевых и электронных сервисах, безотчетность персонала. В таблице 2 приведены примеры взаимосвязи причин, последствий и сущностей.

Таким образом, очевидно, что две или более аварий могут влиять на одни и те же сущности. При этом можно выявить, какая и сущностей чаще всего оказывается под воздействием аварий. Сущности с наибольшей встречаемостью в таблице имеют, как правило, более высокую тенденцию сбоя, неустойчивости.

Типы аварий

Группа A (СТ ошибки) Системные ошибки, повреждённые данные, перебои в работе техники, потерянные данные, сбои в работе сети, ошибки в дополнительном программном обеспечении

Группа B (Вредоносное поведение) Угроза взрыва, биологическая атака, химическая атака, гражданские волнения, компьютерные вирусы, ЭМП, шпионаж, взлом, человеческая ошибка, правовые вопросы, саботаж, воровство, терроризм, насилие на рабочем месте

Группа C (Связанные с инфраструктурой) Прорыв трубы, опасности окружающей среде, эпидемии, эвакуации, ОВК недостаточность, сбой провайдера/отказ глобальной сети, всплеск энергии, отказ энергосистемы, нарушения в транспортировке

Группа D (Природные катастрофы) Землетрясения, штормы, пожар, наводнение, ураганы, молнии, торнадо, цунами, вулкан, мощный ветер, зимние штормы

2.4 Потеря машинного времени (допустимое время простоя)

Как только список сущностей, теоретически подверженным различным авариям, подготовлен, следующий шаг - это определение допустимого времени простоя (потери машинного времени) при восстановлении той или иной сущности. Эта информация является жизненно важной для подготовки последовательности действий при планировании системы восстановления. Сущности, на которые система восстановления потратить меньше времени должны быть наделены высшим приоритетом на восстановление. Данный выбор связан главным образом с тем, что ключевой метрикой для оценки допустимого времени простоя является стоимость этого простоя.

Таблица 2. Риски-последствия

2.5 Стоимость простоя

Стоимость простоя - это главный ключ к подсчёту затрат, необходимых для подготовки плана аварийного восстановления систем бизнес-процессов. Стоимость простоя может быть разделена на материальную и нематериальную составляющие.

Материальный ценности в данном случае -это такие ценности, которые напрямую соотносятся с материальным и финансовым обеспечением корпорации. Так, простой, с материальной точки зрения, создает или увеличивает потери корпорации в доходе и (или) продуктивности. Нематериальные ценности - это ценности, включающие в себя потери тех или иных возможностей корпорации в следствие произошедших аварий, катастроф, когда клиенты данной корпорации начинают предпочитать её конкурентов. Сюда, в частности относится потеря репутации и другие похожие факторы.

2.6 Планирование и оценка механизма аварийного восстановления

Когда список сущностей составлен и уровень тенденции к аварийному сбою у каждой бизнес-сущности выявлен, можно приступать к продумыванию и оценке различных способов реализации и фактической реализации систем

восстановления. Необходимо основательно определить, какая система восстановления и какие методы являются наилучшими для каждой конкретной сущности. В данном шаге определяются необходимые для реализации ресурсы и сам процесс восстановления. Так, для каждой из сущностей - системные данные, энергоснабжение, сетевые данные, телефонные системы - существует один или более механизм лучшего способа восстановления на практике. В данной работе особое внимание уделим созданию системы восстановления данных. В случае с системными данными, механизм

восстановления обычно включает в себя обладание резервными хранилищами для жизненно необходимых данных где-нибудь в сети с целью использования новейших «бэкап-версий» для восстановления утерянной информации в случае какой-либо аварии. Для сохранения менее важных данных можно использовать отдельные серверные накопители, которые при необходимости могут напрямую

сконфигурированы с приложениями напрямую. В зависимости от системы и данных, хранящихся в ней, возможно автоматическое восстановление или ручное. Стоимость и время простоя для каждого фактора может варьироваться. Однако они напрямую зависят от того, каким видом резервирования данных пользуется

Риск Последствия Пострадавшие сущности

Землетрясение Уничтожен офис Офис

Безотчетность операторов Работники офиса

Перебои электропитан ия Электропитан ие

Системные данные уничтожены Системные данные

Уничтожены мониторы Мониторы

Проблемы со связью Телефоны и сеть

Обрублен кабель электроснабжен ия Перебои электропитан ия Электропитан ие

Нет доступа к данным Системные данные

Отключены мониторы Мониторы

Нет доступа к сети Сеть и сетевые устройства

Проблемы с телефонами Телефоны

корпорация, а также от количества данных, принадлежащих ей.

2.7 Виды резервирования

Прежде чем перейти к рассмотрению практического решения проблемы резервирования данных, имеет смысл рассмотреть основные существующие методы резервирования. Для этого введём два понятия - состояние данные и элементы репозитория. Данные понятия необходимы для возможности последующего писания и сравнения схем резервного копирования. Алгоритм сравнения следующий. Имеется некая система резервного копирования, создающая копии данных в последовательные запланированные моменты времени {tk, где k=0,1,2,...,T}. Dj - система данных для резервного копирования, где j - это период в момент времени tj Gtk. При описании алгоритмов будем учитывать, что начальное состояние данных D0 - пустое, а Di- не пустое. Каждая сделанная копия данных сохраняется в репозитории для хранения данных. Поэтому такие копии называются элементами репозитория. Элемент репозитория, который отличается состоянием данных с момента tl до момента tl+n, то есть от Dl до Dl+n обозначим как Rin, где l и n - целые и n>0, l>0. Начальное состояние данных пустое, R0nфактически означает полную резервную копию состояния данных в момент tn, то есть копию Dn.

В этой части проекта описаны типы резервирования, для описания которых введем несколько понятий: состояние данных (система данных) и элемент репозитория. Данные термины будут выступать в качестве базисных для алгоритма сравнения типов резервирования. В. Казаков и С.Федосин рассмотрели абстрактный тип

резервирования, который делает резервные копии последовательно в запланированный промежуток времени {tk, where k = 0, 1, 2, ..., T}. Dj это система данных в период времени j, при котором tj е tk. Хочется отметить D0 -пустой репозиторий данных, D1 -соответственно непустое. Каждая копия, которая сделана по алгоритму сохраняется в репозитории данных, таким образом эти элементы назовем элементами репозитория. Каждый элемент репозитория изменяет свое состояние с течением времени от tl до tl+„, соответственно из Dl в Dl+„, обозначим ft", где l and n - целочисленные переменные, и n>0,

/>0. - резервная копия на момент времени ^, в состоянии Dn.

Полное резервирование - создание бэкапа системных файлов. Этот тип включает состояние системы, базу, а также другую информацию необходимую для

восстановления данных и системы. Более того, это немаловажно заметить то, что в этом способе резервирования в репозиторий хранения входят все файлы постоянно, а не только один (измененный или добавленный). Действия при полном резервировании: создается набор элементов Кд, Кд, ■■■ , } в каждый момент времени tk, где к=0,1,2,...,Т; и в каждый момент времени все элементы резервируются и отправляются на хранение в репозиторий. На рисунке 3 представлена визуализация данного алгоритма.

Рис. 3. Алгоритм полного резервирования

Инкрементное копирование или добавочное включает в себя создание бэкапа архивных файлов, только измененных с момента последнего резервирования полного или инкреметного. Данный тип резервного копирования требует достаточно длительного времени, так как необходимо восстанавливать данных после полного копирования каждый раз и сравнивать с входными данными, затем выполнять инкрементное копирование. В первый момент времени ^ создается полный бэкап, затем создаются модифицированные бэкапы. Таким образом, получается такой набор в репозитории хранения: Я^,

■ ■■ , ^7-1}. На рисунке 4 показан алгоритм добавочного резервирования.

г0 '1 2

R гг

1—1 1м

h < Ь

D3 р щ

К

Рис. 4. Алгоритм добавочного копирования

Дифференциальное резервирование -создание резервной копии файлов, которые были изменены после последнего полного бэкапа. Для восстановления данных необходимо использовать в последний полный избыточный бэкап неповрежденного или неизмененного файла. Этот резервный метод хорошо подходит в случае заражения файла. Принцип действия алгоритма дифференциальное резервного копирования -следующий: создание инкрементных наборов элементов репозитария К^, ... , в каждый момент времени ^,где к=0, 1, 2, ..., Т. На рисунке 5 представлен алгоритм дифференциального копирования.

tn ^ j tj-

Рис. 5. Алгоритм дифференциального резервирования

Выборочное резервирование - создание бэкапа данных исключительно выбранных файлов. Все данные, скопированные с диска, перезаписаны из источника, затем проверены и по байтно сопоставлены с данными по ленте во время процесса проверки. Поскольку фрагментированные файлы на диске вызывают замедление процесса резервного копирования, из-за очень интенсивного поискового процесса операций, выполняемых в данный момент, необходимо регулярную производить дисковую дефрагментацию, чтобы избежать проблему. Когда блоки данных дефрагментируются, они

расположены в нужном порядке, один позади другого, таким образом эти блоки данных могут быть доступными в кэше чтения. На рисунке 6 представлена визуализация алгоритма выборочного копирования.

Рис. 6. Алгоритм выборочного копирования

Двухсторонняя синхронизация. В данном методе, после каждого добавления нового файла, происходит формирование нового "снимка" диска, который скопирован, чтобы записать на ленту в режиме реального времени. Процесс почти непрерывен и позволяет накопителю на магнитной ленте работать с максимальной

производительностью. Метод двухсторонней синхронизации гарантирует быстрое восстановление данных или всей системы.

3 Заключение

Данная работа содержит в себе описания, основанных на примерах, основных этапов (шагов) планирования системы

резервирования данных и их восстановления, выполнение которых является гарантом надёжности и эффективности такой системы. Однако всегда необходимо иметь в виду, что практическая планировка и реализация подобной многофункциональной системы может зависеть от ряда различных факторов -от таких, как специфика предприятия, так и от наиболее характерных для него рисков. Тем не менее, последовательно изложенные в данной работе пункты проектирования системы резервирования и восстановления, призваны сделать сам процесс планирования для корпорации более качественным и легким, что в свою очередь должно снизить общие затраты временных, денежных и людских ресурсов.

Список литературы

[1] Anderson, J. "New trends in backup: Is your disaster recovery plan keeping up?" The eSecurity Advisor, 8, 2, 2008, pp. 58

[2] Pregmon, M. "IT disaster recovery planning: Are you up and ready? Part 1: Risk analysis" Journal of the Quality Assurance Institute, Volume 27, Number 2, 2007, pp. 23-25

[3] Kweku-Muata, Harvey Millarb, Anito Josephc / Using formal MS/OR modeling to support disaster recovery planning, European Journal of Operational Research, Volume 141, Issue 3, 16 September 2002, Pages 675-690

[4] Bell, Judy. "Why Some Recovery Plans Won't Work." Disaster Recovery Journal. Spring 2003: 30-32

[5] Hossam Abdel Rahman Mohamed, "A Proposed model for IT Disaster Recovery Plan", I.J. Modern Education and Computer Science, 2014, 4, 57-67

i Надоели баннеры? Вы всегда можете отключить рекламу.