Научная статья на тему 'Технология подготовки электронной факсимильной копии словаря Академии Российской 1787-1794 годов'

Технология подготовки электронной факсимильной копии словаря Академии Российской 1787-1794 годов Текст научной статьи по специальности «Прочие технологии»

CC BY
45
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Технология подготовки электронной факсимильной копии словаря Академии Российской 1787-1794 годов»

Технология

подготовки

электронной

факсимильной

копии

Словаря Академии Российской 1787-1794 годов

А.Ю. Филиппович,

к.т.н., доцент кафедры МСиТ

Оцифровка исторических письменных источников

Существующая проблема сохранения исторических письменных источников сегодня находит решение в создании их цифровых копий. Практически все крупные библиотеки занимаются оцифровкой своих фондов. Процесс оцифровки обязательно включает получение копий страниц в виде графических изображений, осуществляемое путем сканирования или фотографирования с последующей обработкой и сохранением в одном из форматов графических файлов. В этом случае полностью сохраняется оригинальная верстка книги, и исключаются какие-либо ошибки. Фактически речь идет о создании электронных факсимильных изданий исторических документов и книг.

В настоящей статье представлена технология подготовки электронной факсимильной копии Словаря Академии Российской 17891794 гг. (САР). Данная компонента в числе других входит в состав электронного издания САР (локального и сетевого), подробнее см. [2, 3].

Ввод и обработка изображений страниц

Исходными данными для формирования электронной факсимильной копии страниц издания - ФК САР были ксерокопии страниц словаря. Данные страницы использовались для ввода и редактуры текста словаря, поэтому они содержали метки правки. Некоторые ксерок-

сы страниц очень плохого качества и требовали обработки. Для формирования требований к изображениям и создания технологии ввода и обработки страниц первоначально был проведен пробный эксперимент. Для этого произвольно были взяты несколько ксерокопий страниц разных томов словаря (I, II, IV). Далее страницы были отсканированы на сканере Epson Perfection 2400 Photo. Для сканирования использовались специальная утилита Epson Smart Panel и программа Epson Twain. Используя настройки программы, при многократном сканировании были выявлены оптимальные характеристики сканирования и сформированы требования к результирующим изображениям, а также технология их ввода и обработки.

Далее были отсканированы страницы I, II, III, IV томов САР. В результате полученные изображения содержали ряд недостатков. Главным недостатком изображений была слишком высокая контрастность. Изображения были сохранены в режиме Grayscale, однако выглядели как битовые (Bitmap). Изображения в режиме Bitmap представляются одним цветом, поэтому все пиксели окрашены либо в белый, либо в черный цвет. Изображения в режиме Grayscale называют 8 битовыми и пиксели могут иметь 256 оттенков серого. Это значительно ухудшало визуальные качества изображений: границы букв имели ступенчатую форму. Исходя из этого, необходимо было обработать изображения, чтобы исправить недостатки оригинала и погрешности сканирования. С этой целью была разработана технология обработки изображений страниц словаря.

Требования к результирующим изображениям

• Все страницы должны иметь одинаковый размер. Для 1, 2 и 3-го томов: 17x21 см, для 4 тома: 17x22 см.

• Каждая страница должна быть контрастна. Фон - белый, текст черный.

• Изображения страниц должны быть записаны в режиме Grayscale (градации серого).

• Разрешение изображений 300 dpi.

• Изображение каждой страницы записывается в формате *.JPG высокого качества (размер изображения 700-1300 Kb).

• Все страницы не должны иметь перекосов. Текстовые строки должны располагаться горизонтально, а столбцы вертикально. Допустимая погрешность 0,2°.

• Все страницы должны удовлетворять требованиям чисто ты .

Технология ввода изображений страниц

Рис. 1. Технология ввода изображений страниц САР

Необходимо было отсканировать страницы словаря, осуществить первичную обработку изображений и записать полученные изображения.

Этапы

1. Подготовка материалов для сканирования:

Проверка полноты полученных материалов (наличие всех страниц по нумерации).

Удаление меток правки, выполненных карандашом.

2. Запуск программы сканирования изображений.

3. Сканирование каждой страницы словаря.

Для этого необходимо было выполнить следующие действия:

- Поместить страницу под крышку сканера.

- Осуществить предварительное сканирование.

- Выделить область сканирования так, чтобы был захвачен

весь текст.

- Размер сканированной области: для 1, 2 и 3-го томов: 17 см (ширина) х 21 см (высота), для 4-го тома: 17 см (ширина) х 22 см (высота). Если весь текст не помещается в требуемый размер, необходимо осуществить масштабирование.

- Определить настройки сканирования: тип изображения: черно-белый документ; разрешение: 300 dpi; параметры изображения (экспозиции, гаммы, светлых тонов, темных тонов). Параметры изображения должны были установлены таким образом, чтобы полученное изображение было контрастным. Рекомендованные значения для светлых тонов в пределах 180-250, для темных тонов 40-60.

- Сохранить настройки сканирования.

- Осуществить сканирование.

4. Запись полученных изображений страниц.

Каждая страница словаря должна быть записана в формате *.jpg высокого качества в отдельный файл. Имя формируется следующем образом:

Для страниц словаря: YXXXX.jpg, где Y - номер тома; XXXX -номер первой колонки страницы словаря.

Пример: 60581.jpg - это страница 6-го тома словаря, колонка 581.

Для вступительной части (предисловие, изъяснение, краткое начертание, члены академии, показание): YpXXX.jpg, где Y - номер тома; XXX - номер страницы по порядку.

Пример: 6p005.jpg - это 5-я страница 6-го тома словаря.

Технология обработки изображений страниц

Необходимо было обработать отсканированные страницы Словаря Академии Российской, настроить контрастность, отретушировать. Обработка каждого изображения включает следующие этапы:

1. Запуск программы Adobe Photoshop.

2. Проверка полученного изображения страницы (страниц) словаря на перекосы.

Текстовые строки должны располагаться горизонтально, а столбцы вертикально. Для того чтобы проверить существует ли перекос, достаточно провести направляющие: вертикальные и горизонтальные.

Если полученное изображение перекошено, необходимо его исправить (повернуть). Для этого можно использовать команды Adobe Photoshop:

Image (Изображение) ^ Rotate Canvas (Повернуть холст) ^ Arbitrary (произвольно) или Edit (Редактирование) ^ Free Transform (Свободная трансформация).

Перекосы (искажения) изображений страницы связаны с тем, что при ксерокопировании она лежала неровно. Искажения могли иметь разную форму, но чаще всего трапеции. Некоторые искажения связаны с состоянием страниц оригинала словаря. На рис. 2 представлены примеры искажений страниц.

3. Проверка контрастности фона. Для этого необходимо использовать инструмент «пипетка», посмотреть цвет фона в произвольном месте. Цвет фона должен быть белым (RGB = 255, 255, 255). Если необходимо, увеличить контрастность.

4. Увеличение контрастности изображения: Brightness: 0-10; Contrast: 0-20.

5. Обработка изображения, используя фильтры размытия Gaussian Blue (Radius <= 0.3 pixel) так, чтобы края букв были размыты.

6. Ретушь изображения.

Для этого можно использовать фильтр Dust and Scratches «Пыль и царапины» (Radius = 1 pixel).

а)

колокольни подЪ голосЪ иодобран-мыхЪ, одинЪ дру гаго меньше, у emoti церкви «и« xopcwS звон!

3'°Н'цг- "В1' »■ Сл. КолокольчикЬ, побрякушка. Н ^

«««шли и зющъ, .„ндг„.т mS Оирах. xiv. 11.

г'""";1й «здающгй.

mpyifbi. В. Пешр. Ен. 7*"' «Ч>-Звучно. rpOMS0. •звонкость, спш. с ж ,

и с- яркость звучнаго

шъла. -

ЗЧншца, ци. с. ж сшарив Кол„од1

башня сЪ колоколами. •Звонок^, нка. с. и, -Зеон^тек5, чка, ум. ^ З.онеаЪ, ш»шн„1, побрякушка.

6)

Нлвлеклю, каеши , навлёкЪ , кохЪ , влечь, щи^Сл. вЪ общемЪ же употреблено!: Наволакиваю , лакипаешь , меолокЪ, наволочь, наволочишь, гл. л- 1) Множество чего натаскиваю! »»■™>у. =) ВЪ отношенш к-Ъ обп-Кайуношреблаешся безлично, „ т.

ваюшЬ се1,„Ъ. #„ нсЛ „„ ^

^fi тех наволокло, ^овлекшо * ...У

»««»-»г

* *« «« " ™ «Л,

^явлаШе, Hi, с "•« McnW Сд- ИсПолНен_

Рис. 2. Перекосы (искажения) страниц:

а) параллельные искажения; б) трапециевидные искажения

Рис. 3. Контрастность страниц: а) высокая; б) низкая

Чистка изображения, используя инструмент «ластик», удаление грязи, лишних черных точек.

Формирование исправленной версии изображения страницы.

Форматы факсимильных электронных изданий

Рис. 4. Плохое качество оригинала (грязное изображение)

Понятие факсимильного издания прежде всего относится к печатным. Факсимильнымизданием (от лат. facsimile - делай подобное) называется произведение печати, графически точно воспроизводящее ранее вышедшее оригинальное издание или рукопись фотографическим или печатным способом. Основная цель факсимильных изданий - сохранить во времени и сделать доступными широкому кругу читателей, прежде всего специалистов и библиофилов, наиболее редкие, уникальные и особо ценные в художественном и историческом отношении книги, рукописи, картины и прочее [1]. Внедрение компьютерных технологий в печатные процессы, распространение электронных книг и документов позволяет использовать термин «факсимильные» применительно к электронным из-

даниям, графически точно воспроизводящим оригинальные, т. е. полученные путем сканирования и фотографирования оригинала.

В отношении форматов, используемых для электронных изданий исторических письменных источников, получили распространение два типа: PDF и DjVu.

PDF (Portable Document Format) изначально использовался для полиграфии и различной электронной документации. Но теперь также активно используется и для создания электронных книг. Для чтения файлов формата PDF требуется специальная программа. Наиболее известная среди них - Adobe Reader, ее можно свободно скачать с сайта разработчика. Кроме того, в последнее время некоторые браузеры начали включать в себя поддержку файлов pdf, поэтому зачастую не требуется и отдельной программы. Недостаток данного формата - большой объем файлов, созданных на основе графических изображений.

DjVu - графический формат, оптимизированный для хранения отсканированных документов. Текст и контрастные рисунки сохраняются с разрешением 300 dpi, все остальное считается фоном и сохраняется с пониженным разрешением. Это позволяет хорошо сжать электронный документ без потери его читаемости. В DjVu размер файла отсканированной книги оказывается в пределах нескольких мегабайт, что сравнительно немного. Для чтения данного формата также требуются специальные программы, например, DjVuReader.

Электронная факсимильная копия страниц Словаря Академии Российской (1789-1794) доступна в формате PDF, для ее создания обработанные изображения страниц были собраны в единые файлы по томам. Далее созданные файлы были интегрированы с интерфейсом сетевого издания САР [4]. В локальном электронном издании используются графические файлы в формате jpg, динамически подгружаемые из файловой системы в зависимости от запроса пользователя.

Библиографический список

1. Тараканова О.Л. Антикварная книга : учебник для вузов / О.Л. Тараканова. - М. : Изд-во МГАП «Мир книги», 1996. - 264 с.

2. Филиппович А.Ю. Словарь Академии Российской (17891794): информационная технология переиздания. Вступительная статья М.И. Чернышевой / А.Ю. Филиппович. - М. : МГУП, 2008. - 304 с.

3. Филиппович А.Ю. Книжное и электронное переиздание «Словаря Академии Российской» 1789-1794 гг. / А.Ю. Филиппович, Г.А. Черкасова // Наука о книге: Традиции и инновации: К 50-летию сборника «Книга. Исследования и материалы» / Материалы XII международной научной конференции по проблемам книговедения (Москва, 28-30 апреля 2009 г.). - М. : Наука, 2009. - С. 361.

4. Электронное издание Словаря Академии Российской 17891794 гг. Режим доступа: http://it-claim.ru/Projects/ESAR/SAR.htm.

i Надоели баннеры? Вы всегда можете отключить рекламу.