Научная статья на тему 'Доработка формулы вычисления необходимой емкости электронных носителей для хранения архивной документации (Н. Ширяева и Ф. Фатеева)'

Доработка формулы вычисления необходимой емкости электронных носителей для хранения архивной документации (Н. Ширяева и Ф. Фатеева) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
294
57
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СИСТЕМА ЭЛЕКТРОННОГО ДОКУМЕНТООБОРОТА / ELECTRONIC DOCUMENT MANAGEMENT SYSTEM / СИСТЕМА УПРАВЛЕНИЯ ДОКУМЕНТАМИ / DOCUMENT MANAGEMENT SYSTEM / ЭЛЕКТРОННЫЙ ДОКУМЕНТООБОРОТ / ELECTRONIC DOCUMENT MANAGEMENT / ВНЕДРЕНИЕ / IMPLEMENTATION / ДАННЫЕ / DATA / БАЗА ДАННЫХ / DATABASE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Белов С.П.

Рассмотрена ситуация, когда организация осуществила внедрение системы электронного документооборота (СЭД). После этого начинается следующий этап: наполнение базы данных (БД) СЭД целевыми данными (создание электронных документов с вложениями). В данной статье рассматривается и дорабатывается формула, позволяющая рассчитать необходимый объем для хранения цифровых данных организации до начала этапа наполнения БД СЭД контентом.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FINALIZATION OF THE FORMULA USED TO DETERMINE THE REQUIRED CAPACITY OF ELECTRONIC MEDIA FOR STORAGE OF ARCHIVED DOCUMENTATION (N. SHIRYAEV AND F. FATEEV)

Let the situation, when organization has realized introducing the system of the electronic document processing (EDP). Hereon begins the following stage: filling database (DB) EDP target given (creation electronic document with embedding). In given article is considered and finalizing the formula, allowing calculate the necessary volume for keeping of the numerical data to organizations after conclusion of the stage of the filling DB EDP data.

Текст научной работы на тему «Доработка формулы вычисления необходимой емкости электронных носителей для хранения архивной документации (Н. Ширяева и Ф. Фатеева)»

УДК 004.6

С.П. Белов

аспирант, кафедра «Информационные технологии», ФГБОУ ВПО «Московский государственный университет

приборостроения и информатики»

ДОРАБОТКА ФОРМУЛЫ ВЫЧИСЛЕНИЯ НЕОБХОДИМОЙ ЕМКОСТИ ЭЛЕКТРОННЫХ НОСИТЕЛЕЙ ДЛЯ ХРАНЕНИЯ АРХИВНОЙ ДОКУМЕНТАЦИИ

(Н. ШИРЯЕВА И Ф. ФАТЕЕВА)

Аннотация. Рассмотрена ситуация, когда организация осуществила внедрение системы электронного документооборота (СЭД). После этого начинается следующий этап: наполнение базы данных (БД) СЭД целевыми данными (создание электронных документов с вложениями). В данной статье рассматривается и дорабатывается формула, позволяющая рассчитать необходимый объем для хранения цифровых данных организации до начала этапа наполнения БД СЭД контентом.

Ключевые слова: система электронного документооборота, система управления документами, электронный документооборот, внедрение, данные, база данных.

S.P. Belov, Moscow State University of Instrument Engineering and Informatics

FINALIZATION OF THE FORMULA USED TO DETERMINE THE REQUIRED CAPACITY OF

ELECTRONIC MEDIA FOR STORAGE OF ARCHIVED DOCUMENTATION (N. SHIRYAEV AND

F. FATEEV)

Abstract. Let the situation, when organization has realized introducing the system of the electronic document processing (EDP). Hereon begins the following stage: filling database (DB) EDP target given (creation electronic document with embedding). In given article is considered and finalizing the formula, allowing calculate the necessary volume for keeping of the numerical data to organizations after conclusion of the stage of the filling DB EDP data.

Keywords: electronic document management system, document management system, electronic document management, implementation, data, database.

Уже в 1998 году европейский рынок систем электронного документооборота составлял 200 миллионов долларов [1]. В 2009 году компанией Cnews Analytics было проведено исследование рынка систем электронного документооборота (СЭД) для оценки спада рынка в кризисное время. Был сделан вывод, что рынок СЭД продолжает медленно развиваться, несмотря на сложившуюся кризисную ситуацию в государстве [2]. Факты свидетельствуют о востребованности СЭД в современном мире.

СЭД подразумевает оцифровку бумажных документов, независимо от типа СЭД или типа документов. Документы оцифровываются в большом количестве, часто представляют собой вложения графического типа. Для хранения электронных документов требуются носители информации, такие как накопители на жестких магнитных дисках (НЖМД) и твердотельные накопители (SSD).

Н. Ширяев и Ф. Фатеев [3] оценивают аппаратное средство функционирования СЭД: НЖМД системных блоков. Приводится формула, результат которой - вычисление необходимой емкости электронных носителей для хранения архивной документации:

- начальная необходимая емкость:

q = (Qi • Ni • Ki + Q2 • N2 • K2 + Q3 • N3 • K3) • M, (1)

где Q - средний размер документов, N - количество документов, К - среднее количество версий документа, индексы: 1 - тип документа (текстовый), 2 - тип документа (растровый), 3 - тип документа (векторный), М - коэффициент запаса, равный 1.3;

- среднее приращение объема в год:

dq = ^ • dN1 • К1 + Q2 • dN2 • К2 + Qз • dNз • Кз) • М, (2)

где dN1, dN2, dN3 - количество приращения текстовых, растровых и векторных соответственно документов в год;

- суммарный объем хранения за несколько лет:

Q = q + dq • п, (3)

где п - количество лет.

Данные формулы могут быть полезны при расчете необходимой емкости устройств хранения информации на файловом сервере организации (если цифровые версии документов будут храниться отдельно от СЭД) или сервере СЭД (если цифровые версии документов будут храниться непосредственно в базе данных СЭД).

Таблица 1 - Данные информационного обследования ОАО «ГосНИИП»

Тип документации НТД КД

Размер кластера НЖМД, байт 16384 16384

Суммарный объем данных (МБ) 2007 5212

Суммарное количество файлов (всего) 1366 43474

Суммарное количество системных файлов (шт. / МБ) 34 / 41 1168 / 42

Суммарное количество папок (шт. / МБ) 618/ 10 13586 / 176

Суммарный прирост данных за 2012 год (текстовых / растровых / векторных / системных / папок / всего / МБ) 21 / 124 / 0 / 6 / 85 / 236 / 309 166 / 15336 / 65 / 85 / 4113 / 19765 / 1487

Суммарный прирост данных за 2011 год (текстовых / растровых / векторных / системных / папок / всего / МБ) 159 / 227 / 0 / 16 / 52 / 454 / 418 331 / 9652 / 48 / 271 / 4731 / 15033 / 1343

Суммарный прирост данных за 2010 год (текстовых / растровых / векторных / системных / папок / всего / МБ) 9 / 50 / 0 / 2 / 32 / 93 / 101 304 / 12929 / 101 / 790 / 3568 / 17692 / 2288

Для практической оценки формул (1)-(3), предложенных Н. Ширяевым и Ф. Фатеевым, произведем практический анализ информации одного из отделов организации ОАО «ГосНИИП». Отдел специализируется на нормативно-технической документации (НТД) и конструкторской документации (КД) на изделия, которая хранится и в электронном виде на сервере организации, и в бумажном виде. Количество бумажных и электронных документов наибольшее среди отделов организации, а с внедрением СЭД их количество резко возрастет. Данные анализа с избыточными типами данных до

внедрения СЭД отражены в таблице 1:

- Суммарный объем данных - общий объем информации, с учетом технических особенностей ее хранения.

- В случае использования любого накопителя учитывается особенность кластеров его файловой системы, когда частично заполненный информацией кластер не позволяет заполниться полностью контроллером накопителя [4]. Например, файл размером 1 байт займет весь кластер диска размером 512-65536 байт. Размер кластера зависит от типа файловой системы и предпочтений системного администратора (чем больше кластер - тем выше скорость работы НЖМД, но и больше паразитные потери свободного пространства).

- Суммарное количество файлов - общее количество файлов на НЖМД. Найденные типы файлов описывались в справочниках расширений [5, 6].

- Суммарное количество системных файлов и папок - общее количество системных объектов, создаваемых на физическом носителе в процессе его эксплуатации.

- Суммарный прирост данных за год - оценка годового прироста всех информационных объектов.

- Текстовые данные - *.TXT, *.DOC, *.RTF, *.XLS, *.HTML (и сопутствующие файлы), исходный код ПО и бинарные файлы.

- Растровые данные - файлы *TIFF (Tagged Image File Format), *.PDF (Acrobat), любые архивы.

- Векторные данные - файлы *.DWG (AutoCAD), *.PCD (PCad), *.VSD (Visual Studio).

- Системные файлы - файлы Thumbs.DB (кэш графических изображений), файлы с названием вида «~*.*» (временные файлы, создаваемые программами вида MS Office во время работы с документами), *.TMP (прочие временные файлы), *.CNT + *.GID (системные файлы справки), *.EXE (программное обеспечение) и прочие файлы, не вошедшие в категории выше (в том числе и архивы *.ZIP, *.RAR).

- Папки - каждая папка занимает 1 кластер файловой системы и должна учитываться при расчетах.

Используем формулы (1)-(3) для получения результатов. Расчет ведется для определения необходимой емкости накопителя после внедрения СЭД в отдел организации. Предсказать увеличение потока электронных документов после внедрения СЭД затруднительно, однако в случае с отделом организации используются следующие правила:

- количество бумажных документов (без учета их версий) превышает количество электронных документов не более чем в 3 раза;

- старые версии документов уничтожаются и заменяются новыми, полное количество версий документа варьируется от 1 до 10;

- после внедрения СЭД документы до ее внедрения оцифровываться не будут.

Из этого можно сделать вывод, что если организация изменит изложенные правила и будет оцифровывать абсолютно все документы в данном отделе, то максимальное увеличение потока электронных документов составит 30 раз, если будет придерживаться правил - 3 раза.

В формуле (1) величина q - начальная необходимая емкость (объем). Для получе-

ния численного значения q используем текущий размер всех электронных документов, умножаем на коэффициент запаса (M = 1.3) и максимальный коэффициент увеличения потока документов; получаем величину 275 ГБ при оцифровке всех существующих на момент внедрения документов отдела и 27.5 ГБ при оцифровке по правилам.

В формуле (2) величина dq - среднее приращение объема в год. Для получения численного значения dq используем среднее арифметическое приращения объема за последние 3 года, умножаем на коэффициент запаса и максимальный коэффициент увеличения потока документов; получаем величину 76 ГБ в год при сохранении всех электронных документов и 7.6 ГБ при сохранении документов по вышеизложенным правилам.

В формуле (3) величина Q - суммарный объем хранения за n лет. Итого для рассматриваемого отдела организации необходимый объем Q = 1025 ГБ без соблюдения правил работы с электронными документами и Q = 102.5 ГБ при соблюдении правил; за 10 лет работы.

Аргументы в пользу модификации формул (1)-(3):

- системный администратор выбрал размер кластера размером 16384 байт, сделав предпочтение средних производительности НЖМД и паразитных потерь свободного пространства. В случае использования кластера размером 512 байт (минимальный размер кластера) максимальное сокращение паразитных потерь свободного пространства составило бы:

(16384 - 512) • (1366 + 618 + 43474 + 13586) / 220 = 894 МБ (разница текущего и минимального размеров кластера, помноженная на сумму количества всех файлов и папок, нормированная под мегабайты). Что составляет 12.4% от общего объема данных (отношение максимального сокращения паразитных потерь к общему объему данных отдела). В случае использования стандартного размера кластера размером 4096 байт сокращение паразитных потерь свободного пространства составило бы 692 МБ (9.6%).

Кластера размером менее 512 байт не существует. В этом случае максимальные потери с каждого файла или папки - 512 байт. Таким образом, максимальные паразитные потери составили бы 0.4% от занятого пространства, величина мала по сравнению с другими значениями.

В формулах (1)-(3) коэффициент запаса составляет 30% от реального объема данных. При стандартном кластере треть коэффициента запаса расходуется только на паразитные потери свободного пространства. В итоге практическая эффективность коэффициента запаса снижается до 20.4%;

- системные файлы и папки занимают 3.7% от общего объема данных, что снижает практическую эффективность коэффициента запаса до 16.7% (1.167);

- если сервер имеет один НЖМД, то на нем расположены установленная операционная система (ОС) и дополнительное программное обеспечение (ПО) сервера. К примеру, Windows 2003 Server имеет объем 4 ГБ, Windows 2000 Server - 4 ГБ, Windows 7 Ultimate - 9 ГБ; а ПО сервер может как не иметь вообще, так и иметь в объеме, сопоставимом с объемом ОС. Коэффициент запаса 1.167 перекрывает данные системные издержки только при условии что Q^-rei^bm/q ^ 0.1167. Но при этом не остается запаса под изменчивый прирост объема данных;

- если организация планирует намеренное увеличение прироста электронных документов в будущем, то требуется ввести дополнительную величину, влияющую на коэффициент запаса в большую сторону.

На основе указанных выводов в формулах (1)-(3) требуется модернизация коэффициента запаса М. Для начальной необходимой емкости:

Mq _ (М0 + (Qкластерный + Qсистемный ) / Qo) • М1, (4)

где М0 -коэффициент запаса под изменчивый прирост объема данных, равный 1.3;

^^кластерный - коэффициент запаса под паразитные потери свободного пространства на кластерах НЖМД;

Qсистемный - объем ОС и серверного ПО;

Q0 - объем полезных данных;

М1 - коэффициент намеренного увеличения количества электронных документов.

Для среднего приращения объема в год:

Mdq = (Мо + Qкластерный / Qo) • М1. (5)

В случае отсутствия намеренного увеличения прироста электронных документов, ПО и ОС на НЖМД, при стандартном размере кластера (4096 байт): Qкластерный / Q0 = 0.1, Qсистемный = 0, Mq = Mdq = 1.4.

Qкластерный вычисляется по формуле:

Qкластерный _ К • N, (6)

где К - размер кластера файловой системы НЖМД в байтах,

N - количество всех файлов и папок.

Начальные условия исследуемого отдела организации отличаются от начальных условий Н. Ширяева и Ф. Фатеева: уже имеется сервер с начальным объемом данных (7219 МБ в 59044 информационных объектах). Именно на такие условия и ориентирована формула (6). В случае отсутствия сервера с оцифрованными документами нужно выразить величину N через существующие бумажные документы:

N = N1 • К + N2 • К2 + N3 • Кз + F + S, (7)

где N1, N13 - количество текстовых, растровых и векторных документов соответственно;

К1, К2, К3 - количество версий текстовых, растровых и векторных документов соответственно;

F - предполагаемое количество папок на сервере (по расчетам таблицы 1 - от 32 до 4731);

S - предполагаемое количество системных файлов.

Количество типов файлов зависит от направления деятельности сегмента организации. В исследуемом отделе организации системные файлы и папки незначительно влияют на расчет необходимой емкости (составляют 3.7%). В отделе системных администраторов и программистов системные файлы были бы главной величиной при расчете необходимой емкости для хранения информации.

В итоге модернизированные формулы (4)-(7) возможно использовать при вычислении необходимого объема дискового пространства, с модернизированным коэффициентом запаса М:

Г q = (Q1 • N1 • К1 + Q2 • N2 • К2 + Qз • N3 • К3) • М,; dq= (Q1 • dN1 • К1 + Q2 • dN2 • К2 + Qз • dNз • К3) • Mdq;

Mq = (М0 + (Qкластерный + Qсистемный) / Qo • М1; (8)

Mdq = (М0 + Qкластерный / Qo) • М1; ()

Qкластерный = К • (N1 • К1 + N2 • К2 + N3 • К3 + F + S);

^ Q= q + dq • п.

где q - начальный объем данных (начальная необходимая емкость);

dq - среднее приращение объема в год;

Q1,2,3 - средний размер документов;

^,2,3 - количество документов;

К1,2,3 - среднее количество версий документа;

индексы 1 - тип документа (текстовый), 2 - тип документа (растровый), 3 - тип документа (векторный);

Мс, и М^ - коэффициенты запаса;

Qкластерный и Qсистемный - потерянные объемы на кластерах и необходимом ПО;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

К - размер кластера файловой системы НЖМД в байтах;

М0 - коэффициент запаса, равный 1.3;

М1 - коэффициент намеренного увеличения количества электронных документов;

п - количество лет;

Q - рассчитываемый суммарный объем хранения за несколько лет.

Проведем расчет конечной необходимой емкости для исследуемого отдела организации по модернизированной формуле (8) (с учетом известных начальной емкости С = 7219 МБ • Мс, среднего прироста документов в год dq = 1982 МБ • М^, отсутствия серверного ПО и планового увеличения прироста документов в год (Мс = М^ = 1.4), планового увеличения количества электронных документов (3 или 30)):

Qм1=з = (7219 • 1.4 + 1982 • 1.4 • 10) • 3 « 110.9 ГБ.

Q М1=з0 = (7219 • 1.4 + 1982 • 1.4 • 10) • 30 « 1.1 ТБ.

Стоит сделать поправку на М0 = 1.3. В БД СЭД есть две величины, влияющие на увеличение размера БД служебной информацией. Это индекс вида и поисковый индекс (в т.ч. полнотекстовый). В каждой СЭД процент размера БД, занимаемый этими двумя величинами, различен. Поэтому, на основе данных, полученных при исследовании СЭД и ее платформы, возможно увеличение данного коэффициента: М0 > 1.3.

Формула (8) успешно применена к ОАО «ГосНИИП». Количество отделов в ОАО «ГосНИИП» превышает 20. Поэтому суммарная максимальная емкость для хранения цифровых данных всей организации в течение 10 лет может быть равна 22.18 ТБ, если оцифровывать абсолютно все бумажные документы. В случае соблюдения правил отдела НТД и КД суммарная максимальная емкость для хранения цифровых данных всего предприятия не будет превышать 2.22 ТБ, что является более рациональным в плане временных потерь и более дешевым в плане приобретения необходимых носителей (один носитель емкостью 4 ТБ или два, объединенных по технологии RAID1).

Заключение:

- формула (8) применима для расчета необходимого пространства для размещения БД СЭД, приведен практический результат в ОАО «ГосНИИП»;

- коэффициент M0 формулы (8) может быть больше 1.3, он зависит от особенностей служебной информации БД конкретной СЭД.

Список литературы:

1. IDC. Europe Document Management market review and Forecast // IDC, 1998.

2. Попова М. Рынок СЭД в России надеется избежать спада // CNews Analytics,

2009.

3. Ширяев Н. Материализация электронных чертежей: реализация системы документооборота конструкторского бюро / Н. Ширяев, Ф. Фатеев // Журнал «Электронный офис». - 1999. - № 8.

4. Гук М.Ю. Аппаратные средства IBM PC. - Москва: Питер, 2006.

5. Справочник типов файлов 2012 [Электронный ресурс]. - URL: http://open-file.ru/search/

6. Красносельский К.К. Справочник Веб-дизайнера: MIME Types (типы файлов) [Электронный ресурс] // Документация по Веб-дизайну, 2011 г. - URL: http://webdesign.site3k.net/div/docs/mime_types.html

List of references:

1. IDC. Europe Document Management market review and Forecast // IDC, 1998.

2. Popova M. Market EDP in Russia hopes to avoid decline // CNews Analytics, 2009.

3. Shiryaev N. Materialization of electronic drawings: realization of the system of the document processing design office / N. Shiryaev, F. Fateev // Journal «Electronic office». - 1999. - № 8.

4. Guk M.Yu. Hardware of IBM PC. - Moscow: Peter, 2006.

5. Reference book of the types of the files, 2012 [Electronic resource]. - URL: http://open-file.ru/search/

6. Krasnoselskiy K.K. Reference book of the WEB-designer: MIME Types (file types) [Electronic resource] // Documentation on WEB-design, 2011. - URL: http://webdesign.site3k.net/div/docs/mime_types.html

i Надоели баннеры? Вы всегда можете отключить рекламу.