Научная статья на тему 'МЕТОД АВТОМАТИЗИРОВАННОГО ФОРМИРОВАНИЯ СБОРНИКОВ АРХИВНЫХ ДОКУМЕНТОВ'

МЕТОД АВТОМАТИЗИРОВАННОГО ФОРМИРОВАНИЯ СБОРНИКОВ АРХИВНЫХ ДОКУМЕНТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
12
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЯЗЫК РАЗМЕТКИ / МЕТОД / ТЕГИ / СБОРНИК ДОКУМЕНТОВ / ОЦИФРОВКА

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Куртюкин С.В.

В этой статье разработан и описан метод формирования сборников архивных документов. Описаны задачи, которые должен выполнять данный метод. Выделены языки разметки, с помощью которых будет производиться работа с документами. Сформулированы главные особенности и преимущества данного метода.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE METHOD OF AUTOMATED FORMATION OF COLLECTIONS OF ARCHIVAL DOCUMENTS

This article has developed and described the method of creating collections of archival documents. The tasks that this method should perform are described. Markup languages are selected, which will help you to work with documents. The main features and advantages of this method are formulated.

Текст научной работы на тему «МЕТОД АВТОМАТИЗИРОВАННОГО ФОРМИРОВАНИЯ СБОРНИКОВ АРХИВНЫХ ДОКУМЕНТОВ»

УДК 004.912

Куртюкин С.В. студент магистрант 2 курса Космический факультет МФ МГТУ им. Н. Э. Баумана Россия, г. Мытищи МЕТОД АВТОМАТИЗИРОВАННОГО ФОРМИРОВАНИЯ СБОРНИКОВ АРХИВНЫХ ДОКУМЕНТОВ

Аннотация: В этой статье разработан и описан метод формирования сборников архивных документов. Описаны задачи, которые должен выполнять данный метод. Выделены языки разметки, с помощью которых будет производиться работа с документами. Сформулированы главные особенности и преимущества данного метода.

Ключевые слова: Язык разметки, метод, теги, сборник документов, оцифровка.

Kurtyukin S.V. graduate student 2 course Space Faculty MF MSTU them. NE Bauman Russia, Mytishchi THE METHOD OF AUTOMATED FORMATION OF COLLECTIONS OF ARCHIVAL DOCUMENTS.

Annotation: This article has developed and described the method of creating collections of archival documents. The tasks that this method should perform are described. Markup languages are selected, which will help you to work with documents. The main features and advantages of this method are formulated.

Key words: Markup language, method, tags, collection of documents, digitization.

Задача оцифровки исторических документов и организации доступа к их электронным копиям - одна из важнейших на современном этапе развития информационных технологий. Помимо сугубо научных целей -введения в научный оборот больших массивов источников в машиночитаемой форме, у этой задачи есть и общегуманитарная составляющая - сохранение для потомков культурного наследия, накопленного за долгое время в архивах, в библиотеках или даже в музейном деле. Библиотеки, музейное дело в последнее время стали основными организациями, осуществляющими сбор, хранение и распространение различных видов, в частности научно-технической информации. Вместе с тем, мощное развитие средств вычислительной техники и информационных технологий кардинальным образов изменили, коммуникативную среду, способы потребления и использования информации, средства ее хранения и

распространения.

Одной из областей, для которых характерно в настоящее время активное внедрение информационных технологий, является музейное дело.

Известно, что большое количество хранящихся в архивах документов никогда не было опубликовано. Публикация таких архивных документов в виде тематических сборников позволила бы решить задачу ввода их в научный оборот. Оцифровка архивных документов позволяет не только поместить их электронные копии в базу данных информационной системы, но и сильно упрощает процесс подготовки их к публикации — фактически предоставляет уже набранный материал, готовый для вёрстки.

Таким образом, для решения описанной задачи необходимо разработать метод формирования сборников архивных документов.

Настоящая статья посвящена разработке метода формирования сборников документов.

Автору представляется, что наиболее удобным к решению поставленной задачи является использование популярного языка разметки XML. Получить же из документа в формате XML документ в формате TEX возможно автоматическим способом методом XSLT-преобразования по однажды разработанной программе.

Метод документов

автоматизированного формирования сборников

Рис.1 - схема метода формирования сборников документов Метод автоматизированного формирования сборников документов можно разделить на несколько этапов, изображенных на Рис.1:

На начальном этапе на вход подаются размеченные документы в формате XML, в которых предварительно была произведена разметка наиболее важной информации с помощью тегов index. Самое главное в документах формата XML - тэги index. Этими тэгами выделяются части текста, ссылающиеся на важные с точки зрения историка объекты базы данных - например, конкретную историческую личность. Внедрение index^ в документ позволяет впоследствии быстро находить в базе данных

документы (с точностью до абзаца, фразы, и т.д), в которых упомянут некоторый исторический факт. Пример размеченного документа изображен на рис.2.

Информационном безопасность и человеческий фактор

ГСрщтжчам .Tí-'ii вафсризши авдлвост шшпс —~л ¿й-псяишл « [пюащпзлы арсдпитшт ид. прАшаэ =ряхлсык::.л ниексакш ьлргдшпл л

всяр?гы инфгрткгиии Tir-rfl жзжсл пспоитт сргикгазпн слогнсптп cpuclmi и г^мгапитм сзпшымггл i -rftnrra ИйфсРрОШвШЁйй бтескнсгтн ЙлйбЬЦкЫо crtBrmrtk. ттс аьсыгтря .".i ть, Т-С е пиши П-сапшнпигш 2~стегсяпю ай_з4'Е=гг,:кны —1 устгпттии меахотевых лцдад. лв.иьгт.--сов z риграатаявх при, доступа пашиванях^. яе ia~:i?TJ {срдопо* урувтт w город додовдвяМ, uMúfl*" мпмр*. ыад Ьдап хспп», Ц *Ц«ЧШДЙ фргтрр

Россиипфвагеастк1 ■ ií-«: с-гтнпи ятаган ер ист: л ист нв+сршшгаснгё Жпкирги гса-зр-г-икал струт? н гс^геюиш. юлпз еошзлсзжпаше фезвразны^ aziticL: z п:с:авмэнга1 Рсгупгюры б где к эй сфере. :д*а« m 'ií.Mca.:n.n¿JS слуайл 5е нал сжс с гл. Фезерлльшд: ст. лЛ* ес хошпеошиг z íircc-paiiii:'.- вепросю Федерат ны :.т.зс5л а о HÜWpV i i+wp! £№Н. НН^^рывллЧВЙ Т*и№10Г1Я tí 1№»М№ M--4U1 HNMUB0 ЫЙЛИЯЯ» WHHHfc íprfÉrtunHfi 3lí»i ílíJffllíKeílH

ILÍ10 IT/Lt_PJA ИСЗЗИЛ i-c 5EEEIÍ АГТГ

ÜGXfiailHtta,

ш t|E -ÍC-НЛЭТНОГО ft6bdLTi i ЗЦИЧСЛМ iCti-K^HQrO ОРЬ^ГТ» ÍHJPW mrr P»1fi

J реме IT <-i]rlJLl¿.:LicíU 111

2 ОЛ guiad ашЧ Федеральны айа ütaaiLäCHOtTid 22

3 . i grauHÍM Федеральны еяч OD ituwiEfuuiv i; шсаадпншу tamper 333

* juütis Aiüij,. 2!

Рис.2 - размеченный документ

На следующем этапе при помощи XSLT-преобразования формируется сам сборник документов, который состоит из документов, подданных на входе. Сборник документов также в формате XML. Принцип работы преобразования состоит в том, что:

- создается XML документ, в котором записываются названия нужных размеченных XML документов, из которых формируется сборник документов;

- разрабатывается программа для формирования сборников документов;

- в результате работы программы на выходе образуется сформированный сборник в формате XML, в котором помимо размеченного текста документов находится список всех возможных ссылочных объектов(указателей). На следующем этапе сформированный сборник в формате XML переводится в формат TEX/LATEX. Решается данная задача также при помощи XSLT-преобразования.

После сформированного сборника в формате XML требуется перевести его в формат TEX/LATEX. Данная задача также реализуется с помощью XSLT-преобразования. Принцип работы преобразования:

- есть сформированный сборник в формате XML, который требуется перевести в другой формат;

- разрабатывается программа, которая переводит сформированный сборник в новый формат TEX/LATEX;

- в результате работы программы на выходе образуется сформированный сборник документов в формате TEX/LATEX.

На заключительном этапе метода автоматизированного формирования сборников архивных документов в формате TEX/LATEX в сформированном сборнике документов, производится работа с указателями на ссылочные объекты базы данных с использованием специального программного окружения \index (\makeindex), которые входят в список программ языка TEX/LATEX. В дальнейшем эти ссылочные объекты позволят находить

информацию(исторический факт) в сформированном сборнике и также в базе данных. Наконец, в формате TEX сборник приводится к удобоваримому виду к печати, предварительно оформляется информация(разметка страницы, ее нумерация, отступы, абзацы и т.д). На вывод, на печать подается сформированный сборник - файл с расширением .dvi/.ps .

Предложенный метод автоматизированного формирования сборника архивных документов позволяет привлечь к таковому формированию обычных пользователей, которые не являются специалистами в сфере информационных технологий. Привлекаемым к данной работе пользователям не требуется наличие специальных знаний в сфере информационных технологий. Для пользователя программы достаточно будет ввести названия размеченных документов в формате XML в программу, чтобы сформировать сборник документов, остальное программа сделает автоматически, что является наиболее удобным вариантом для решения проблемы.

Использованные источники:

1. Вигурский К.В., Трифонов С.И.\ Представление печатных изданий в электронных библиотеках -Межотраслевая информационная служба. 2011. №2. С.17-29.

2. Филатов В. О./ Специализированный XML-редактор для создания полнотекстовых баз данных на основе изображений исторических источников // Информационный бюллетень Ассоциации История и компьютер. — 2006. — № 34. — С. 67-69.

3. Чернышов А. В., Евдокимова Е. Ю./ Метод преобразования текстового документа OpenDocument в заданный XML-формат - Молодой ученый. — 2016. — №7. — С. 26-29.

4. Мангано С. XSLT. Сборник рецептов. — М.: ДМК Пресс, 2008. — 864 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.