Научная статья на тему 'Анализ и перспективы современных систем хранения цифровых данных'

Анализ и перспективы современных систем хранения цифровых данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
4710
810
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИСТЕМЫ ХРАНЕНИЯ ЦИФРОВЫХ ДАННЫХ / НАДЕЖНОСТЬ И ДОЛГОВЕЧНОСТЬ / МИКРОФИЛЬМИРОВАНИЕ / СОМ СИСТЕМА / ШТРИХ КОД / SYSTEMS OF STORAGE OF FIGURES / RELIABILITY AND DURABILITY / MICROFILMING / SOM SYSTEM / BAR CODE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Проскуряков Н. Е., Ануфриева А. Ю.

Проведен анализ надежности и долговечности систем хранения цифровых данных. Обоснован метод хранения цифровых файлов в виде двухмерных графических штрих кодов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Проскуряков Н. Е., Ануфриева А. Ю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS AND PROSPECTS OF MODERN SYSTEMS OF STORAGE OF FIGURES

The analysis of reliability and durability of systems of storage of digital data is carried out. The method of storage of digital files in the form of two -dimensional graphic bar codes is reasonable.

Текст научной работы на тему «Анализ и перспективы современных систем хранения цифровых данных»

N.E. Proskuryakov, A.Y. Anufrieva

The analysis of COM-systems for an assessment of the importance of influence of their errors for the weekend quality parameters at a stage of microfilming is carried out and the main operated resultant information characteristics of quality of a received microfilm are formulated.

Key words: microfilming, COM-system, quality management, the statistical model, operated resultant information characteristics

Proskuryakov Nikolay Evgenyevich, doctor of technical scienses, professor, tppzi@,tsu.tula.ru. Russia, Tula, Tula State University,

Anufrieva Anna Yurevna, postgraduate, tppzi@,tsu.tula.ru. Russia, Tula, Tula State University

УДК 778.14

АНАЛИЗ И ПЕРСПЕКТИВЫ СОВРЕМЕННЫХ СИСТЕМ ХРАНЕНИЯ ЦИФРОВЫХ ДАННЫХ

Н.Е. Проскуряков, А.Ю. Ануфриева

Проведен анализ надежности и долговечности систем хранения цифровых данных. Обоснован метод хранения цифровых файлов в виде двухмерных графических штрих-кодов.

Ключевые слова: системы хранения цифровых данных, надежность и долговечность, микрофильмирование, СОМ-система, штрих-код.

На сегодняшний день информационное общество находится на стадии, характеризующейся наличием огромного массива информации в цифровом виде и одновременно с этим отсутствием надежных технологий ее долговременного хранения (более 30 лет). Ни одна из существующих систем хранения цифровых данных большого объема (более 64 Гб) (HDD (Hard Disk Drive), SSD (Solid State Drive)) (рис. 1) на данном этапе технологического развития не гарантирует продолжительности надежного хранения однажды записанных данных более 5 лет.

HDD SSD гибридный HDD/SSD

Рис. 1. Носители цифровой информации

Рассмотрим каждую из них с точки зрения «надежности» более подробно.

Накопитель на жестком диске (HDD) относится к наиболее совершенным и сложным устройствам современных систем хранения цифровой информации, характеризующийся значимым объемом хранимой информации при низкой себестоимости. Однако, исходя из исследований доктора Бианки Шредер и Google, в силу своих конструктивных особенностей и элементов (качество магнитного покрытия пластин, способы защиты считывающей головки, особенности механизмов позиционирования и элементной базы управляющей всем этим платы контроллера) количество отказов после 3-го года работы стабильно увеличивается (рис. 2).

При начальной разметке и тестировании современного винчестера на заводе почти всегда обнаруживаются дефектные сектора, которые заносятся в специальную таблицу переназначения. При обычной работе контроллер винчестера подменяет эти сектора резервными, которые специально оставляются для этой цели на каждой дорожке, группе дорожек или выделенной зоне диска. Благодаря этому новый винчестер создает видимость полного отсутствия дефектов поверхности, хотя на самом деле они есть почти всегда.

Y«ra of орогийсл Vмга ййормйвл

HPCl (compute nodes) НРС] <Filesystem nodes)

Рис. 2. Отказы HDD "потребительского " и Enterprise-класса

равного объёма

369

Результаты исследования, проведенного университетом Карнеги -Меллона, говорят о том, что показатели надежности жестких дисков, обозначенные в спецификациях производителей, существенно расходятся с действительностью. Утверждается, что основной показатель надежности -среднее время наработки на отказ (mean-time before failure, MTBF), завышается приблизительно в 15 раз [1].

Для получения статистики исследователями была изучена практика эксплуатации около 100 тыс. жестких дисков от разных производителей, задействованных в самых различных приложениях. Серьезное завышение MTBF демонстрируется на примере накопителей серии Seagate Cheetah X15, для которых этот показатель номинально равен 1,5 млн часов, или более чем 171 году эксплуатации. Статистика реального использования позволяет говорить о том, что на самом деле эти устройства имеют время наработки на отказ ближе к 9-11 годам.

Наиболее простой способ повышения надёжности данных - использование зеркалированного массива RAID 1. В этом случае два винчестера работают как один, дублируя содержимое друг друга. При установке двух дисков в RAID 1 следствием является потеря объёма и стоимости в два раза, но при отказе любого из них, система сохранит состояние рабтоспо-собности и имеется время для резервного копирования и замены жёстких дисков.

Исследование Шредера охватывает диски Enterprise-класса, задействованных в больших RAID-массивах одной из крупнейших лабораторий по высокопроизводительным вычислениям. Согласно отчёту Шредера распределение времени между заменами диска показывает снижение частоты отказов, означающее, что ожидаемый промежуток времени до очередной замены диска постепенно увеличивается с тех пор, как был заменён предыдущий диск. Таким образом, отказ одного накопителя в массиве повышает вероятность отказа другого накопителя. Чем больше времени прошло с последней замены диска, тем больше времени пройдёт до замены другого. Конечно, это имеет последствия с точки зрения реконструкции RAID-массива. После первого отказа в четыре раза возрастает вероятность наступления очередного выхода из строя того или иного диска в течение того же часа, однако в пределах 10 часов вероятность отказа диска увеличивается только в два раза.

К особенности SSD накопителей развитая схема чередования блоков (в SSD чипов флеш-памяти всегда несколько) и технология выравнивания износа ячеек. Флеш-память часто представлена чипами MLC (MultiLevel Cell), в которых каждая ячейка памяти может находиться не в одном из двух, а в одном из нескольких дискретных состояний. Работа флеш-памяти основана на явлении диффузии электронов в полупроводнике. Из этого следуют два вывода:

срок хранения зарядов на плавающих затворах недостаточно велик.

По законам термодинамики электроны стремятся со временем равномерно распределиться по всему объему кристалла. При достижении равновесия все содержимое памяти утрачивается;

каждый цикл записи понемногу "подтачивает" слой, отделяющий затвор от остальной массы кристалла. Кроме того, со временем неизбежно происходит деградация самого материала и р^-переходов. Из-за этого срок жизни ячейки ограничен некоторым числом циклов записи-перезаписи.

Продолжительность надежного хранения однажды записанных данных составляет не менее 5 лет. Для некоторых моделей Intel в ходе экспериментальных исследований был установлен срок 10 лет и более - при суммарном количество записанных терабайт (формула JEDEC) 228,5 TBW для 160 Гбайтового SSD при циклах программирования/ стирания - 5000 получено число лет до исчерпания возможности записи (10 Гбайт в день, WA = 1,75), которое составляет 62,6 года.

Число циклов перезаписи тоже иногда оговаривается. Например, ранние модели Kingston Compact Flash были рассчитаны на 300 000 циклов перезаписи, Transcend Compact Flash — на 1 000 000, а флеш-диски USB Transcend объемом 1 Gb образца 2006 года — всего на 100 000. Многие модели после 2010 года преодолели рубеж в 2 000 000 циклов.

Однако SSD дают преимущества, которые нельзя получить на обычных механических жёстких дисках, например, при использовании с ZFS и гибридными системами хранения накопители SSD дают существенный прирост производительности по сравнению с вращающимися пластинами. На 2011 год хостинг "No Support Linux" в вопросах преимущества при применении твердотельных дисков в серверах, придерживается следующего мнения: «В сочетании с ZFS и гибридными системами хранения, применение SSD-накопителей позволяет получить существенный прирост производительности, по сравнению с традиционными дисками на магнитных пластинах. Мы по-прежнему используем жёсткие диски в качестве основного хранилища, так что мы можем сохранить их преимущество в цене, одновременно извлекая преимущество от SSD по скорости. Рано или поздно, мы планируем полностью перевести наши сервера SAN на SSD-накопители. Но в течение 2011 году мы будем придерживаться гибридной системы хранения, используя ZFS».

ZFS (Zettabyte File System) — файловая система, изначально созданная в Sun Microsystems для операционной системы Solaris. Эта файловая система поддерживает большие объёмы данных, объединяет концепции файловой системы и менеджера логических дисков (томов) и физических носителей, новаторскую структуру данных на дисках, легковесные файловые системы (англ. lightweight filesystems), а также простое управление томами хранения данных. ZFS является проектом с открытым исходным кодом.

Одна из самых главных возможностей ZFS — это КЛ1В-7. Это массив, состоящий из блоков фиксированного размера, с которого может происходить чтение или запись. С тех пор, как ЯАГО обычно реализуется близко к блочному слою (часто на уровне аппаратного обеспечения, открыто к операционной системе), устройства ЯАГО также предоставляют этот интерфейс. В массиве ЯАГО-5 с тремя дисками, запись блока вызывает сохранение блока на диск 1, а результат ХОЯ-а блока, соответственно, один из дисков 2 или 3. Это вызывает две взаимосвязанных проблемы.

1. Невозможность получения простейших записей на группу дисков. Если что-то нарушится между записью первого блока и контрольной суммой, система будет содержать невозможный для этого блока индекс на всех дисках. Современные ЯАГО-контроллеры обходят эту проблему путем хранения записей в энергонезависимой ЯЛМ, до тех пор, пока они не получать подтверждение от диска о том, что данные были сохраненны.

2. Вышеупомянутый сценарий, записывание одного блока на диск 1 требует, чтобы вы затем считали блок с диска 2 и сохранили контрольную сумму на диск 3. Эта дополнительная операция чтения в середине каждой записи может быть дорогой.

Принципиальным отличием ЯАТР^ является ключевая составляющая — категория — переменной ширины. С существующими реализациями ЯЛТБ, она составляет либо 1 байт (например, каждый нечетный байт будет записан на диск 1, каждый четный — на диск 2, а каждый сравнимый по модулю — на диск 3), либо величину, равную длине блока. В ZFS этот размер категории определяется размером записи. То есть, каждый раз когда производится запись на диск, происходит полностью запись категории. Такое строение решает обе проблемы, указанных выше. С тех пор, как ZFS транзакционна, категория либо записывается корректно и метаданные обновляются, либо нет. Таким образом, поскольку категория содержит только данные, состоящие на записи, никогда не понадобится считывать что-то с диска для осуществления записи.

Не являясь частью ЯАТР^, ZFS включает в себя ещё одну возможность, которая помогает решить проблемы потери данных: так как каждый блок содержит хеш SHA256, поврежденный сектор на диске будет отображаться, как содержащий ошибки, даже если котроллер диска этого не замечает. Это является существенным превосходством над существующими реализациями ЯАТБ. Используя ЯАТБ-5, например, всегда можно восстановить раздел, но если одиночный сектор на диске поврежден, весь диск может сообщить о существующей ошибке. Раздел ЯАТР^ может сообщить, какой диск содержит ошибку (тот, чей блок не соответствует хешу) и восстановить данные с другого. Он также может сообщать заранее о том, какой диск может быть поврежден.

Применительно к системам хранения информации в аналоговом виде, можно утверждать, что единственной надежной среди всех сущест-

вующих сегодня технологий долговременного хранения является технология микрофильмирования (500 лет).

Микрофильмирование — процесс получения (копирования) фотографическим способом уменьшенного в десятки и сотни раз изображения с бумажных носителей информации (чертежи, рукописи, рисунки, архивные документы).

Проблематика долговременного хранения и одновременного обеспечения оперативного доступа к большим объемам цифровых данных приобретает наилучшее решение в свете применения гибридных технологий, таких как СОМ-технологии (Computer Output Microfilm), разработанных на основе микрофильмирования.

Гибридные системы совмещают в себе функции сканирования и микрофильмирования, позволяя переводить бумажную документацию одновременно в электронную для оперативного доступа (используя неформализованные данные с компьютерных систем) и микрографическую форму для обеспечения сохранности - т.е. создают два типа архивов - цифровой и микрографический, при экономном расходе времени и усилий, обеспечивая надежное долговременное хранение данных, практически исключая аспект устаревания оборудования и смену форматов носителей.

Однако некоторые оригиналы (картины, чертежи и др.), содержащие большое количество мелких, но значительных деталей (полутона, тех детали) при печати на микрофотоноситель, сканировании микрофильмов либо требуют дополнительных усилий операторов для отрисовки, либо содержат неточности в воспроизведенном образце.

Вариантом решения данной проблемы является воспроизведение непосредственно бинарных данных (двоичного кода) оригинала на микрофотоносителе [2] (рис. 3).

отображение продукта CAD-приложения в бинарном виде

гг

продукт CAD-приложений в бинарном виде на микропленке

Рис. 3. Воспроизведение бинарных данных (двоичного кода) оригинала

на микрофотоносителе

Целесообразно в целях автоматизации производства и уменьшения объемов занимаемой площади эту битовую информацию кодировать с помощью специального программного обеспечения (генераторы) и выводить на микрофотоноситель в виде двухмерного штрих-кода.

Все штрихкоды можно разделить на два типа: линейные и двухмерные.

Линейный штрихкод - это код, который читается в одном направлении, характеризуется простой эксплуатацией и низкой себестоимостью (рис. 4).

Рис. 4. Линейный штрихкод

Первый коммерческий формат штрихкода был разработан в 1972 году и получил название UPC - Universal Product Code, являлся частью системы, автоматически считывающей информацию о продукте. Главный недостаток линейных штрихкодов - малый объем кодируемой информации (до 20—30 символов, обычно цифр).

Потребность кодировать больше информации на меньшем пространстве привела к разработке, стандартизации и росту использования двумерных (2D) штриховых кодов. Двухмерными называются символики, разработанные для кодирования большого объёма информации. Расшифровка такого кода проводится в двух измерениях (по горизонтали и по вертикали). Таким образом, двухмерный код, содержащий в себе не только идентификатор, но и некий набор описывающих объект реквизитов является своего рода «портативной базой данных», что позволяет обходиться без внешней базы данных, значительно расширяя сферу применения технологии штрихового кодирования.

На сегодняшний день существуют более 300 стандартов штрихового кодирования.

В настоящее время наиболее распространён вид двухмерного штрихкода Aztec. В каждом символе можно выделить область мишени и область данных. Мишень представляет собой набор концентрических квадратов и служит для определения геометрического центра символа в процессе его декодирования. Существуют два основных формата символа Aztec Code: «Compact» - символ с мишенью из двух квадратов и «Full-Range» - символ с мишенью из трех квадратов (рис 5).

987654321098

Aztec Code «Compact» Aztec Code «Full-Range»

Рис. 5. Представление кодов Aztec

Aztec Code интересен для применений, требующих размещения кода на ограниченном пространстве (производство, коммерция, медицина, фармацевтика и в том числе микрофильмирование), поскольку код обеспечивает высокую плотность размещения информации и не требует свободного пространства вокруг кода.

Еще одним кодом, активно применяющимся в промышленности является DataMatrix (рис. 6). В частности, его активно используют такие крупные компании как «Intel», «AMD», «BMW», «Mercedes Benz», «Siemens», «Philips», «NASA», «Vodaphoone». Во многих странах он также используется для сортировки почтовых отправлений. Главное преимущество этой разновидности двухмерных кодов - его сверхмалый размер. С помощью DataMatrix можно поместить информацию в 50 символов на площадь размером в два квадратных миллиметра. При этом код может быть нанесен на поверхность огромным количеством способов: это и струйная печать, и гравировка, и лазер, и многое другое.

Рис. 6. Квадратный штрих-код DataMatrix

375

Код DataMatrix, приведенный на рис.6, к примеру, содержит 560 алфавитно-цифровых символов, и может быть точно считан после сканирования с разрешением 200 точек на дюйм. Матрица образца данных штрих-кода, содержащего 2046 символов примерно такой же плотности, займет около 3*3 дюйма, что достаточно для полного отображения любой информации размещенной изначально на листе формата А4.

Также одним из главных преимуществ кода перед другими двухмерными кодами является непривязанность к фиксированной квадратной форме отображения, т.е. код Data Matrix может отображаться в прямоугольной форме, быть размещенным вертикально и т.д., также без потери качества и с возможностью коррекции ошибок (рис. 7).

Рис. 7. Штрих-код Data Matrix, содержащий 65 алфавитно-цифровых символов, расположенных на 16 строках и 48 столбцах

В заключение следует отметить, что ни одна из эксплуатируемых систем хранения цифровых данных большого объема HDD, SSD на данном этапе технологического развития в силу своих конструктивных особенностей и элементов не гарантирует продолжительности надежного хранения однажды записанных данных более 5 лет. Однако с развитием гибридных технологий (СОМ-технологии), разработанных на основе микрофильмирования, появляется возможность долговременного (500 лет) и надежного хранения цифровых данных в аналоговом виде.

Рассмотренные в статье методы сохранения цифровых данных на микрофильме открывают новую эру в истории микрографии. Их значение заключается в том, что впервые появилась теоретически обоснованная и технологически реализуемая возможность долгосрочно сохранять на микрофильме любую цифровую информацию и документацию.

В предложенном методе хранения тип электронного документа не имеет значения, так как все цифровые файлы состоят из набора двоичных данных и могут быть представлены в виде двухмерных графических штрих-кодов.

Помимо сохранения цифровой цветной и черно-белой чертежнографической, текстовой и фотографической документации, применение данного метода открывает перспективы сохранения на микрофильмах цифровой аудиовизуальной документации, программных продуктов, трехмерной документации CAD-приложений и др., т.е. любого типа цифровых данных.

Таким образом, данный способ сохранения позволяет значительно приблизиться к решению проблемы долгосрочного страхового сохранения

цифровых данных при значительном снижении показателей трудоемкости.

Список литературы

1. Investigation: Is Your SSD More Reliable Than A Hard Drive? // [сайт]. [1999]. URL: http://www.tomshardware.com/reviews/ssd-reliability-failure-rate,2923.html (дата обращения: 19.03.2013).

2. Гаврилин А.П. Применение электронно-микрографических технологий для сохранения и оперативного доступа к документированной информации // Успехи современного естествознания. 2008. № 11. С. 62-64.

3. Гаврилин А.П., Завалишин П.Е. Основные направления современных зарубежных исследований по проблеме сохранения цифровой информации на микрофильмах // РАЕ. Фундаментальные исследования. 2012. № 3. С. 72-77.

4. Сафаров Т.А. Технология штрихового кодирования. Уфа: Башкортостан, 2006. 203 с.

5. Степанов Е.А., Корнеев И.Н. Информационная безопасность и защита информации: учеб. пособие. М.: Инфра-М, 2004. 304 с.

Проскуряков Николай Евгеньевич, д-р техн. наук, проф., tppzi@tsu.tula.ru, Россия, Тула, Тульский государственный университет,

Ануфриева Анна Юрьевна, аспирант, tppzi@tsu.tula.ru, Россия, Тула, Тульский государственный университет

ANALYSIS AND PROSPECTS OF MODERN SYSTEMS OF STORAGE OF FIGURES

N.E. Proskuryakov, A.Y. Anufrieva

The analysis of reliability and durability of systems of storage of digital data is carried out. The method of storage of digital files in the form of two-dimensional graphic bar codes is reasonable.

Key words: systems of storage of figures, reliability and durability, microfilming, SOM system, bar code.

Proskuryakov Nikolay Evgenyevich, doctor of technical sciences, professor, tppzi@,tsu.tula.ru, Russia, Tula, Tula State University,

Anufriev Anna Yurevna, postgraduate, tppzi@,tsu.tula.ru, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.