www.sjbac.info
СЕКЦИЯ
«ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ»
ОЦИФРОВКА АРХИВНЫХ ДОКУМЕНТОВ В ФОРМАТЕ PDF/A
Веретехина Светлана Валерьевна
канд. экон. наук, доц. кафедры автоматизированных систем управления Института комплексной безопасности и специального приборостроения Московского технологического университета,
РФ, г. Москва E-mail: [email protected]
DIGITIZATION OF ARCHIVE DOCUMENTS IN PDF/A FORMAT
Svetlana Veretekhina
candidate of economic Sciences, associate Professor of Department of Automated control systems Moscow State Institute of Radio Engineering, Electronics and Automation Moscow Technological University,
Russia, Moscow
АННОТАЦИЯ
В статье проведен обзор требований к организации хранения, комплектования и использования архивных документов. Описано основное требование новых Правил архивного хранения документов, передаваемых в архивный фонд РФ в формате PDF/A. Рассмотрен международный подход по организации и применению серии форматов PDF при оцифровке документов. В табличной форме представлен подбор отечественного и зарубежного программного обеспечения по оцифровке архивных документов. Выявлены технические преимущества хранения документов в новом формате PDF/A. Определено уникальное свойство формата PDF/A. Приведено технико-экономические обоснование необходимости использования
формата PDF/A организациями, органами государственной власти и местного самоуправления.
ABSTRACT
The paper presents an overview of the requirements to organization of storage, acquisition and use of archival documents. Described the main requirement of the new Rules of archival storage of documents, passed to archival Fund of the Russian Federation in the format of PDF/A. the international approach to organizing and application of a series of PDF formats during the digitization of documents. In tabular form the selection of domestic and foreign software for the digitization of archival documents. Identified the technical advantages of storing documents in the new format PDF/A. has a unique feature of PDF/A. the technical and economic justification for the use of PDF/A, organizations, state authorities and local self-government.
Ключевые слова: оцифровка документов, уникальное свойство формата PDF/A, стандартизация программного обеспечения.
Keywords: the digitization of documents, a unique feature of PDF/A format, standardization of software.
Организация хранения, комплектования, учета и использования архивных документов Архивного Фонда Российской Федерации требует внедрения современных подходов. Информатизация общества, наличие телекоммуникаций и различных каналов связи, возникновение новых форматов хранения архивных документов способствуют совершенствованию методов хранения архивных документов. Для органов государственной власти, органов местного самоуправления и организаций вопрос передачи на архивное хранение документов в Архивный Фонд РФ является ответственной задачей. Приказ № 526 от 31 марта 2015 г. Министерства культуры РФ вводит в силу новые «Правила организации хранения, комплектования, учета и использования документов Архивного Фонда РФ и других архивных документов в органах государственной власти, органах местного самоуправления и организациях». В главе II Правил в п. 2.31 определено: «Передача текстовых электронных документов для хранения в архив организации, являющейся источником комплектования государственного и муниципального архива, осуществляется в формате PDF/A».
По вопросу хранения архивных документов в формате PDF/A ведутся споры [1]. Но законы не обсуждаются - они исполняются. Если на уровне Министерства принимаются такие решения
www.sibac.info
(использование новых форматов), то, возможно, назрела крайняя необходимость. Попробуем разобраться в целесообразности принятия данного решения.
Международный стандарт ISO 19005-1 «Управление документацией. Формат файла электронного документа для долгосрочного хранения» разработан Техническим комитетом совместно с подкомитетами и Рабочей группой, а именно:
1. ISO/TC 171, Прикладные программы для управления документами, Подкомитет SC 2, Вопросы по прикладным программам;
2. ISO/TC 130, Графическая технология;
3. ISO/TC 42, Фотография;
4. ISO/TC 46, Информация и документация, подкомитет SC 11, Управление архивами и документами.
Все страны на протяжении последних десятилетий использовали формат PDF (цифровой формат переносимого документа) посредством оцифровки бумажных документов. Коммерческие и правительственные организации, библиотеки, архивы, другие учреждения и отдельные лица во всем мире используют формат PDF для представления важной информации [3]. Предполагалось, что PDF формат позволит сохранить документ в течение длительного срока, но сказать, что этот срок бесконечен, не представлялось возможным. Будущие поколения могут использовать оцифрованные документы, используя программное обеспечение Adobe Acrobat Reader фирмы "Adobe Systems Incorporated". Однако природа простого формата PDF не предназначена для долгосрочного хранения документов и имеет ряд ограничений долгосрочного хранения.
Формат PDF является универсальным форматом оцифрованных документов. История возникновения и преобразования формата многогранная. Формат PDF/X (буква Х в обозначении обозначает eXchange) был разработан для полиграфии и описывается международный стандартом ISO 15930 (рабочая группа ISO TC130). Требовался формат, пригодный для передачи печатных оригиналов в цифровом рабочем потоке. Усовершенствованным форматом впоследствии становится формат PDF/X-Цформат, предназначенный для обмена данными в полиграфии), анонсируемый международным стандартом IS015930-1, с этого момента обозначаемый как PDF/X-Ы (стандартный формат файлов, специально предназначенный для «слепого» обмена готовыми к печати документами в виде электронных данных). Совершенствование формата PDF/X продолжается. Переход формата PDF/X-1 в PDF/X-3 происходит в 2002 г. Достоинством формата PDF/X-3 является автоматическая адаптация и безошибочное
создание файлов без необходимости согласования установок, а также возможность преобразования и интерпретации цветовых профилей, что облегчает работу цветной полиграфии. Управление цветом стало возможно в рабочем потоке, что обеспечивало надежную передачу цветового массива. Далее последовали форматы PDF/X-4, PDF/X-5. Достоинством последующих форматов становится возможность использования сжатия изображений, поддержка различных цветовых систем (прозрачного, нейтрально серого и т. д.), встраиваемых профилей.
Совершенствование программного обеспечения в части качественной визуализации образов связано с потребностью представления информации в 3D-пространстве. Формат PDF/Е (визуализация трехмерных изображений и задание метаданных для свойств объектов) ратифицирован организацией ISO в 2007 г. в качестве открытого стандарта. Формат PDF/Е удобен для обмена документами между архитекторами, строителями, инженерами производственных групп. Документы инженерных процессов содержат чертежи, которые отображаются как в 2D-, так и в 3D-пространстве, а также дополняются сметами или спецификациями [6]. Возникновение формата PDF/A инициировано некоммерческой международной организацией AIIM, осваивающей передовые практики архивирования документации и оптимизации информационных ресурсов, рассматривающей вопросы управления информацией и изображениями. PDF/A -это подмножество формата PDF, содержащее ограниченный набор возможностей представления данных. Этот формат предназначен для долгосрочного хранения электронных документов. ISO 19005-1 п. 3.13 дает определение формат файла для долгосрочного хранения. Термин «долгосрочный период хранения» - это период времени, достаточный для отслеживания последствий воздействия изменяющихся технологий (включая поддержку новых средств информации и форматов данных, а также изменяющегося сообщества пользователей), касающихся информации, находящейся в хранилище, который может продлеваться на неопределенное время в будущем. Другими словами -это то время, в течение которого вне зависимости от изменения технологий, данные будут доступны к прочтению. Обеспечение длительного срока хранения достигается посредством внедрения в содержимое электронного документа в формате PDF/A всей информации, необходимой для его отображения. Первая редакция формата PDF/A-1 (PDF 1.4) предоставляет следующие возможности:
1) вставлять в текс документа гиперссылки;
2) шифровать документ (используя пароль, обеспечивая защиту от модификаций);
www.sibac.info
3) наносить поверх изображения текстовый слой (прием, когда пользователь может скопировать с картинки или изображения текс);
4) вставлять метаданные, осуществлять привязку конкретного знания к части документа.
Международный стандарт основными задачами использования формата файла электронного документа для долгосрочного хранения PDF/A-1 (PDF 1.4) определяет:
1) обеспечить долгосрочное хранение электронного документа;
2) применять к документам, содержащим наборы тактовых, растровых и векторных данных;
3) осуществлять электронное представление совокупности текста и графических данных в виде страниц и метаданных, используемых для идентификации, понимания и визуализации этих данных, которые могут быть воспроизведены на бумаге или оптической микроформе без существенной потери информационного содержания [2];
4) распознавать абстрактный графический символ, независимый от дизайна;
5) использовать цветовую идентификацию, соответствующую спецификации ICC и ее приложению (в управлении цветом ICC-профилем называют набор данных, характеризующий устройство цветного ввода или вывода, или цветовое пространство согласно Международным стандартам по цвету -ICC);
6) работать в интерактивном режиме с документами;
7) использовать пакет XMP-структурированная обертка, преобразованных в последовательную форму метаданных XMP (Extensible Metadata Platform), встроенная в широкое разнообразие форматов файла, т. е. при составлении базы данных использовать формат XMP (Extensible Metadata Platform) для приведения мультимедийных данных к единому формату [7].
Документ, сохраненный в формате PDF/A, имеет объем (вес) больше, чем документ, сохранённый в формате PDF. Документ, сохраненный в формате PDF, в силу отсутствия связей с гиперссылками и мультимедийным контентом, можно открыть в операционной системе с помощью приложения, подтверждающего соответствующий формат. Документ, сохраненный в формате PDF/A, позволяет осуществить сжатие в 100 раз, сохраняя качество первоначального изображения. Уникальное свойство формата PDF/A - это бесконечно малое место хранения на сервере и сверхвысокая скорость передачи данных по каналам связи.
Дополнительно стандарт ISO 19005-1 вводит следующие термины, которые рекомендуется употреблять для этой спецификации или ее частей, когда полное название стандарта ISO не используется:
• "PDF/A" - синоним для ряда стандартов ISO 19005;
• "PDF/A-1" - синоним для стандарта ISO 19005-1;
• "PDF/A-1a" - синоним для стандарта ISO 19005-1 Уровень А (п. 3.11 Соответствие Уровню А - уровень соответствия, включающий все требования этой части стандарта ISO 19005);
• "PDF/A-1b" - синоним для стандарта ISO 19005-1 Уровень B (п. 3.12 соответствие Уровню В - уровень соответствия, включающий требования этой части стандарта ISO 19005, касающийся форм визуального отображения электронных документов, но не их структурных или семантических свойств).
Обработка архивных документов предусматривает возможность конвертации документов. Конвертация - это перемещение с одного носителя на другой или из одного формата в другой. Требования к процессам конвертации описаны в ГОСТ 15489-1-2007 «Управление документацией. Общие требования». Поставщиками программного обеспечения для конвертации копии документов в формате PDF/A являются (таблица 1):
Таблица 1.
Программное обеспечение для конвертации копии документов в формат PDF/A
№ п/п Наименование программного продукта Компания производитель Стана изготовитель Область использования
1. LuraDocument PDF Compressor Luratech Ltd. Германия является признанным экспертом международного класса в области создания электронных архивов
2. PDF Compressor CVISION Technologies Inc. США предлагает полный спектр продуктов, направленных на автоматизацию потокового ввода и обработки документов
3. Cognitive PDF/A (SDK) Compressimo Cognitive Technologies Россия Дополнительно: распознавание фотографий и документов, сделанных на 1РЬэпе 4S
www.sibac.info
В основном ориентирована
на восточно-азиатскии
4. OpenOffice Sun Microsystems США рынок, имеет восточно-азиатские шрифты, дополнительные шаблоны, сортировку по азиатскому типу, обеспечивает миграцию документов, утилиты для управления конфигурациями
Из таблицы 1 видно, что рынок программного обеспечения конвертации документов в формат PDF/A четко структурирован. Компании производители программного обеспечения не конкурируют между собой, а соблюдают требования стран по электронному представлению архивных документов по восточно-азиатскому типу (OpenOffice), европейскому (LuraDocument PDF Compressor), американскому (PDF Compressor), российскому (Cognitive PDF/A (SDK) Compressimo). Отчет о научно-исследовательской работе РГГУ содержит сравнительный анализ форматов файлов постоянного (долговременного хранения). В отчете формат PDF/A описан так: «... Исходя из проведенных сравнений между форматами PDF и его производным PDF/A, можно утверждать, что первый больше пригоден для оперативного обмена и краткосрочного хранения электронных документов, в свою очередь, как PDF/A, имея статус международного стандарта, гарантирует, что даже через продолжительное время, вне зависимости от окружения и операционной системы, любой пользователь сможет открыть документ в данном формате, располагая ПО-просмотрщиком. В целом это соответствует концепции архива электронных документов» [8]. Делая выводы, можно провести оценку технико-экономической эффективности внедрения формата PDF/A-1 (PDF1.4).
Во-первых, формат PDF/A-1 (PDF 1.4) рекомендован к применению на территории РФ, введен в действие Приказом Минкультуры России от 31.03.2015 № 526, зарегистрирован в Минюсте России 07.09.2015 № 38830.
Во-вторых, формат PDF/A-1 (PDF 1.4) является современным форматом долгосрочного хранения, не зависит от программного окружения и операционной системы, сокращает затраты будущих поколений на хранение, т. к. изначально ориентирован на хранение начиная от 70 лет и далее, предназначен для хранения на новых носителях информации.
Хочется отметить, что современное российское программное обеспечение (ПО) не уступает зарубежным аналогам, соответствует большей части международных требований, покрывает требования к долгосрочному архивному хранению оцифрованных документов, и в условиях импортозамещения ПО рекомендовано к применению организациям, органам государственной власти, местного самоуправления РФ [5].
Список литературы:
1. Веретехина С.В. Проблемы внедрения системы электронного документооборота в ДОУ предприятий // Кадровик. - 2014. - № 11. С. 122-129.
2. Веретехина С.В. Электрон4ное документирование инновационных разработок // Сегодня и завтра Российской экономики. - 2010. - № 34. С. 29-32.
3. Веретехина С.В. Психометрические тесты и программные решения. // Материалы Афанасьевских чтений. - 2015. - Т. 1.; 13. С. 116-121.
4. Веретехина С.В., Рубцова Е.В. Автоматизированные системы контроля за исполнением документов. // Современная наука: актуальные проблемы теории и практики. Серия: Экономика и право. - 2015. - № 3-4. С. 12-16.
5. Веретехина С.В. Обзор требований европейской спецификации MOREG-2 и проблемы импортозамещения программного обеспечения СЭД/ЕСМ-решений на Российском рынке // Материалы Ивановских чтений. - 2015. -№ 5. С. 203-209.
6. Кудж С.А. Синергетика пространственной информации. // Перспективы науки и образования. 2014. № 5 (11). С. 14-20.
7. Морозова Т.Ю. Базовые технологии автоматизации производства. // Промышленные АСУ и контролеры. 2013. № 6. С. 3-8.
8. Отчет о научно-исследовательской работе (РГГУ) «Исследование современных процессов документационного обеспечения управления и развития электронного документооборота». http://archives.ru/sites/default/fïles/rekomendation-rggu-format-2013 .pdf (Дата обращения 28.02.2016).