Научная статья на тему 'Построение автоадаптивного фонта в документах электронных библиотек'

Построение автоадаптивного фонта в документах электронных библиотек Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
90
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Построение автоадаптивного фонта в документах электронных библиотек»

Изначально проект был разбит на два этапа. В ходе первого этапа были внедрены 14 сервисов в головном ЦОД, произведена оценка их эффективности. На первом этапе в региональных ЦОД было внедрено меньшее количество сервисов: дальнейшее полное развертывание системы во всех ЦОД проводилось на следующем этапе проекта. К моменту окончания второго этапа как головной, так и региональные ЦОД смогли обслуживать 5-10 тысяч корпоративных пользователей.

По плану на реализацию первого этапа проекта потребовалось 40 рабочих недель. Избежать одного из наиболее вероятных рисков при реализации масштабных внедрений - несоответствия предварительно оговоренным срокам - помог проектный подход, описанный Microsoft Systems Architecture - MSA 2.0, в соответствии со стандартами международного института IPI.

В процессе создания территориально-распре-деленного ЦОД «Укртелекома» построена сеть из шести мощных корпоративных ЦОД. Основные количественные параметры проекта: численность корпоративных пользователей - более 30 тыс., суммарная площадь помещений - 880 кв.м, количество технологических шкафов - 153, общий объем хранения транзакционных данных - 249 Тб, общее количество серверов - 361 (в том числе кластеры из двух, четырех и восьми узлов), мощность системы кондиционирования - 824 КВт. В общей сложности в 6 ЦОД введены в эксплуатацию 72 системы хранения EMC, работающие по принципу online. В настоящее время отказоустойчивость обеспечивается в рамках одного ЦОД. В каждом из них используется резервирование систем. Локальные сети ЦОД работают на скоростях 1 Гб/с и 10 Гб/с, а сети хранения Fibre Channel - на 2 Гб/с и 4 Гб/с.

Эти сети построены на базе активного оборудования Cisco. Локальные сети реализованы в виде двухуровневой структуры. Коммутаторы Catalyst 6509 с модулями межсетевых экранов, обнаружения вторжений, контент-менеджмента использованы в ядре сети. На уровне доступа установлены Catalyst 3750, подключенные по схеме сдвоенного резервного дублирования. Каждое устройство, например сервер или система хранения, соединяется с разными ветками коммутато-

ров 3750 в режиме балансировки нагрузки. Еще одна разновидность оборудования Cisco - коммутаторы MDS 9506 - использована при построении сети хранения SAN.

Системы хранения представлены решениями EMC CLARiiON CX300, C500, CX700 и обновленной линейки CX3 80. В системе используются ленточные библиотеки производства компании ADIC. В качестве серверной составляющей для развертывания MSA были выбраны системы производства HewlettPackard. В качестве серверов используются модели Itanium RX 4640 для работы с Oracle и Itanium RX 2620 для Microsoft SQL.

В общей сложности внедрено в центральном и региональном ЦОД 14 сервисов: служба активного каталога, системы хранения данных, резервирования и восстановления, корпоративная электронная почта, файловое хранилище, сервис портала и др.

В результате успешного решения комплекса задач, возникающих при реализации проекта такой сложности, за 10 месяцев была построена сеть из шести мощных корпоративных ЦОД.

Консолидация ресурсов в мощных ЦОД позволила компании «Укртелеком» повысить надежность предоставляемых сервисов, обеспечить их гарантированное качество, создать основу для дальнейшего масштабирования. Построение новой инфраструктуры предоставило возможность оптимизировать распределение бюджета на поддержку и развитие ИТ-служб.

В ходе реализации проекта построения распределенной сети ЦОД для «Укртелекома» накоплен уникальный опыт. Технологии и подходы к решению задач, примененные в этом проекте, в значительной мере универсализированы, что дает возможность предлагать портфельное решение построения ЦОД высокого уровня сложности.

Список литературы

1. Гриценко В.И., Урсатьев А. А. Распределенные информационные системы. Состояние. Проблемы развития //УСиМ.-2003 .-№4.-С.11-21.

2. Гоменюк А.Р., Сопенко С. И. Строим центр обработки данных //Корпоративные системы К.-2007.-№5.-С.6-11.

3. Уайдл Д. Оптимальное проектирование. / Пер. с англ. -М.: Мир, 1981.

4. Захаров И.Г. Теория компромиссных решений при проектировании. - Л.: Машиностроение, 1987.

ПОСТРОЕНИЕ АВТОАДАПТИВНОГО ФОНТА В ДОКУМЕНТАХ ЭЛЕКТРОННЫХ БИБЛИОТЕК

А.Н. Сотников, д.ф.м.н.; И.Н. Чередниченко (МСЦРАН, г. Москва)

С развитием Интернет-технологий и удешевлением стоимости хранения электронной информации, возрастает актуальность создания и разви-

тия электронных библиотек. Электронные библиотеки стали уже привычным явлением в нашей жизни и содержат широчайший спектр научно-

технической и гуманитарной информации. В цифровом виде сейчас хранится громадное количество различных публикаций и изданий: журналы, диссертации, технические отчеты, материалы конференций и многое другое. Растет и количество книг, которые теперь, кроме традиционной бумажной версии, имеют и электронный вариант. Распространена технология publish-on-demand, в которой пользователь имеет возможность на месте получить печатную копию книги.

Существует достаточно большое количество форматов электронных документов и программных средств, обеспечивающих широкие возможности по их взаимной конвертации, например PDF, PostScript, TeX, HTML.

Однако существует громадное количество архивных, исторических и прочих изданий, публикаций, документов, которые необходимо перевести в цифровой формат. Поправить эту ситуацию пытаются Интернет-проекты различных электронных библиотек. Главной проблемой здесь является сложность перевода бумажных документов в удобный цифровой формат. Несмотря на наличие большого количества программ для оптического распознавания текста (OCR), которые и предназначены для перевода бумажных документов в цифровой вид с максимально возможным сохранением форматирования исходного документа, актуальна и проблема сохранения в электронном формате первоначального вида различных исторических и редких документов. Тем более что многие исторические рукописные документы и редкие старинные издания нужно хранить в нераспознанном виде, так как необходимо сохранить не только текст, но и все оформление первоначальных изображений.

Получается, что для того, чтобы создать цифровую копию возможно более близкой по содержанию и оформлению бумажному оригиналу, приходится хранить отсканированную с высоким разрешением цифровую копию в одном из растровых форматов - gif, tiff или jpeg. Но ни один из подобных форматов не содержит всей совокупности качеств, требующихся для хранения документов в электронных библиотеках. Кроме того, возникает проблема контекстного поиска в таких документах и защита их от копирования и тиражирования.

В последнее время, помимо формата PDF, являющегося де-факто стандартом публикации в большинстве электронных библиотек, появляются и альтернативные подходы к хранению полноценной информации о документе, например, основанные на формате DjVu.

Формат DjVu (Digital View - цифровой вид, или цифровая фотография) - технология сжатия изображений с потерями, разработанная специально для хранения сканированных документов (книг, журналов, рукописей и пр.), где обилие

формул, схем, рисунков и рукописных символов делает чрезвычайно трудоемким их полноценное распознавание. Этот формат также является эффективным решением при передаче всех нюансов оформления, например, исторических документов, где важное значение имеет не только содержание, а цвет и фактура бумаги, дефекты пергамента (трещинки, следы от складывания, исправления, кляксы, отпечатки пальцев, следы, оставленные другими предметами).

Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать еще до завершения скачивания. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области - ссылки, реализуя удобную навигацию в DjVu-книгах.

Формат DjVu был разработан фирмой AT&T, которая в дальнейшем продала технологию компании LizardTech, но сама спецификация формата открыта для создания и просмотра документов DjVu; существует свободно распространяемое на условиях GPL программное обеспечение, доступное для различных платформ.

В основе формата DjVu лежит несколько технологий, разработанных в AT&T Labs: алгоритм отделения текста от фона на отсканированном изображении; вейвлетный алгоритм сжатия фона IW44; алгоритм сжатия черно-белых изображений JB2; универсальный алгоритм сжатия ZP; алгоритм распаковки по запросу и алгоритм маскировки изображений.

Формат DjVu предусматривает возможность наличия текстового слоя, который может содержать текст страницы.

Используя эти идеи, попробуем построить дальнейшее развитие технологий, заложенных в формате DjVu.

Если рассмотреть отдельно слой DjVu, отвечающий за отображения изображения букв, то можно обратить внимание на то, что этот слой представляет собой очищенный, бинаризирован-ный и подготовленный к распознаванию материал. Однако если не задаваться решением задачи полного текстового распознавания, а построить систему, строящую внутренний адаптивный фонт конкретного текущего документа, то можно получить несомненный выигрыш в размере и улучшении читаемости текстового слоя.

Вместе с тем остаются нерешенными существенные проблемы, возникающие при публикации этих документов на сайтах электронных библиотек: размеры публикуемых документов достаточно велики; отсутствие возможности динамически регулировать качество публикуемого документа; отсутствие элементов защиты от копирования; отсутствие контекстного поиска в теле документа.

Сущность метода, предлагаемого авторами для решения этих проблем, заключается в выделении всех букв (их графического представления) документа, в кластеризации полученных результатов и построении на этой основе внутреннего адаптивного шрифта документа.

На первом этапе буквы выделяем в отдельные элементы графики. Это достаточно простая процедура может быть сделана стандартными методами [1].

Следующий этап - выделение контуров в полученных буквах. Эту задачу можно решать, например, использованием метода маркированных квадратов [2].

Далее предполагаем, что все контуры начинаются с самой левой и верхней точки и обходятся по часовой стрелке. Тогда можно считать, что каждый контур есть параметрическая функция:

^(0=(х(1;),у(1;)), 1 = 1,2,...,т , (1)

где т - число точек в контуре.

Однако прямое использование такого представления не очень удобно. Полученные контуры могут быть представлены в виде кодов Фрима-на [3], являющихся, по сут и, пер вой производной по контуру, или нормалью к контуру: ^ (1;)=(х(1:)-х(1 -1),у(1)-у(1 -1)), 1=2,...,т . (2)

Таким образом решается проблема представления объектов инвариантно по отношению к сдвигу.

Далее строится вектор признаков для каждого контура. Как известно, компоненты вектора признаков должны быть ортогональны, поэтому используем Фурье-преобразование [4].

В качестве вектора признаков описания графического объекта W '(1) выберем коэффициенты разложения функций х'(1)=(х(1)-х(1))/тах(х) и у(1) в ряд Фурье. Поскольку анализ функции х(1) не отличается от анализа функции у'(1)= =(у(1)-у(1))/тах(у), все дальнейшие рассуждения проводим относительно непрерывной функции 1(1). Применив линейные преобразования сдвига и сжатия, можно считать, что функция 1(1) определена на отрезке [0,п], а ее значения ограничены отрезком [-'. В этом случае различные

графические образы одного и того же объекта характеризуются различными значениями числа т точек разбиения отрезка [0,п] и различными угловыми значениями = 1(1,) кусочно-линейной функции 1(1), где 1, = 18, 1=0,т , 8=п/т. Помимо сделанных предположений, будем считать, что 1(0)=0 и функция 1(1) продолжена нечетным образом на интервал [-п,0). Тогда в разложении 1(1) в ряд Фурье, имеющем вид:

1(1)=-0- + £ (авео8 в1+Ьв8тв1),

2 в=1

коэффициенты а1 = 0 , 1=0,1___, то есть

-л ™

1(1)= -°- + £ Ьв81ПВ1,

(3)

(4)

2

2 п

где Ьв =—|1(1)81пВ1 61. П 0

В качестве вектора признаков объекта W(1) рассмотрим конечный набор коэффициентов Ьв для функций х(1) и у(1). Поскольку 1(1) полагается

кусочно-линейной, то есть 1, =а11+Р1, 1=0,т-1, 1е[1,,1,+1], причем

1,(1М)=1,+1(1,), 1=0т-1, (5)

то

2п 2т-Ли

Ьв =—|1(1)81пВ1 =-£ | (а(1+р¡)81ПВ1 =

П 0 П 1=0 1

2т-1 =- £

П 1=0

а- Ь-

—1(11+1ео8 В1|+1 -11ео8 В1|)—¡-(еоэ Ц+1 -еоа В1|)+

в в

+в2<81пВ11+1 - 81ПВ11)

(а(1( +Р1)ео8В11 - (а,1,+1+Р1)ео8В11+1+

2 т-1 =— £

Вп 1=0 а,-

+в2<81пВ11+1 - этВ!,)

с учетом предыдущего и того, что 1(0)=0 , имеем

Ьв =

(-1)в21(п) 2т т-

Вп

+ТГГ £ а (^п В11+1 -эт В11). (6)

В2п2 Г0

Таким образом, коэффициенты Ьв вычисляются точно, и если использовать их в качестве компонент вектора признаков, то их количество определяется необходимой точностью поставленной задачи.

Все операции повторяют для каждого выделенного из объекта контура и используют количество контуров в объекте как дополнительный элемент вектора признаков.

Поскольку в объекте может быть несколько контуров, то можно сразу проводить первичную кластеризацию объектов по количеству контуров и не пытаться в дальнейшем сравнивать объекты с различным количеством контуров.

В качестве аппарата кластеризации используется адаптивная модель вычисления оценок [5].

Пусть есть конечное множество К классов ив графических объектов. Каждый класс ив целиком

описывается своим характеристическим вектором в / в в \

признаков и =(и1,...,ип), где п - размерность вектора признаков, одинаковая для всех классов ив (веК). Без нарушения общности предполагаем, что ив еО с К для всех ,|и в.

Алгоритм вычисления оценок сравнивает описание кластеризуемого объекта ю=(ю1,...,юп) с

ик, ке К и формирует расстояние между образцом и текущим классом объектов. Расстояние вычисляется на основе степени сходства кластеризуемого объекта ш с характеристическими векторами классов ик ,ке К .

Правило близости, позволяющее оценить похожесть объектов ш и ик,кеК, состоит в следующем. Пусть определены функции Г, (ш,ик) и

заданы пороги е, > 0, 8 = 1,....$ . Объекты ш и ик считаются похожими, если

Г,(ш,ик)-е, <0 . (7)

Величины е1,...,е8,8 входят как параметры в модель класса алгоритмов, а соотношение (7) суть решающее правило, на основании которого принимается решение о принадлежности ш к классу ик.

Принятие решения о кластеризации может быть формализовано различными способами. В частности, можно считать, что объект ше ик, если неравенство (7) выполняется для всех 8 = 1,...,8 . В этом случае считается, что имеет место отказ в кластеризации, если указанный критерий не выполняется ни для одного к из множества классов К. Отказов не будет, если в качестве критерия для отнесения объекта шеик выбирается минимальное число индексов 8, для которых нарушается неравенство (7). Очевидно, что при любом из указанных решающих правил возможна ситуация, когда объект ш оказывается принадлежащим сразу нескольким (или всем) классам ик.

После процедуры кластеризации внутри класса мы можем провести статистическую обработку объектов, например, простым усреднением по компонентам Ьк. Результат такого усреднения рассмотрим в качестве процедуры построения элемента внутреннего адаптивного шрифта электронного документа.

Следует отметить, что хотя все предложенное основано на технологиях оптического распознавания текста, сама задача распознавания напрямую не решается. Элементы приближенного распознавания используются только в системе контекстного поиска внутри графического документа.

После получения типичного представителя класса можно восстановить вид графического объекта путем обратного Фурье-преобразования. Причем точность восстановления объекта будет зависеть от количества компонент в обратном Фурье-преобразовании. Таким образом, используя лишь один параметр - количество компонент Фурье-разложения, можно регулировать качество восстанавливаемого графического объекта и раз-

мер данных, которые необходимы для восстановления вида документа.

Предположим, что нужно получить твердую копию документа, тогда следует использовать максимальное количество компонент разложения и наилучшее качество восстановления электронного документа. Однако если речь идет о выводе документа на экран монитора или выставление его в электронной библиотеке в экранном качестве, то можно уменьшить в 2 или 3 раза число элементов разложения Фурье: вид объекта будет сохранен, необходимый сетевой трафик резко уменьшен, а качество будет вполне приемлемым для экранного разрешения, что позволит на стороне клиента контролировать создание твердых копий.

Еще одной особенностью данной технологии может быть возможность построения системы контекстного поиска внутри графического документа. Для этого растеризуем введенные буквы, обрабатываем полученные изображения по приведенной технологии, получаем вектор8 признаков для объектов строки поиска и находим в базе объектов наиболее близкие компоненты. Ясно, что поиск будет приближенным, но это - поиск внутри графического файла без его полного распознавания и восстановления макета документа.

Итак, основными составляющими процесса дополнительной обработки графического документа и построения адаптивного внутреннего шрифта являются: выделение областей графики, содержащих отдельные буквы из страницы документа; выделение контуров графического объекта методом маркированных квадратов; преобразование контуров в вектор признаков на основе метода с использованием Фурье-разложения; кластеризация всех полученных графических объектов; построение для каждого элемента кластера наиболее типичного представителя класса - построение внутреннего адаптивного шрифта; восстановление документа с регулируемым качеством на основе внутреннего адаптивного шрифта документа; контекстный поиск в документе на основе внутреннего адаптивного шрифта документа.

Изложенный подход к дополнительной обработке графических документов лежит в основе реализации программного комплекса сайта электронной библиотеки «Научного наследия РАН».

Список литературы

1. Ziou, D. and Tabbone, S.: Edge Detection Techniques An Overview, International Journal of Pattern Recognition and Image Analysis, 8(4):537--559, 1998.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Эйнджел Э. Интерактивная компьютерная графика. Вводный курс на базе OpenGL. - С.498.

3. Прэтт У. Цифровая обработка изображений - М.: Мир, 1982. - 790 с.

4. Джексон Д. Ряды Фурье и ортогональные полиномы. -M.: Изд-во иностр. лит-ры, 1948. - С. 12-56.

5. Березнев В.А., Сотников А.Н., Чередниченко И.Н. Адаптивная статистическая модель распознавания образов. // Информационные технологии и вычислительные системы. -1996. - № 1. - С. 55-63.

i Надоели баннеры? Вы всегда можете отключить рекламу.