Решетневскце чтения
D. S. Lasarev
Siberian State Aerospace University named after academician M. F. Reshetnev, Russia, Krasnoyarsk
THE SOFTWARE STRUCTURE FOR HANDWRITTEN TEXT SEGMENTATION
IN ARCHIVE DOCUMENTS
There are recommendations to engineering software for handwritten text segmentation in archive documents.
© Лазарев Д. С., 2012
УДК 004.65
М. А. Лаптева, К. М. Болдырев
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Россия, Красноярск
ХРАНИЛИЩА ДАННЫХ: ОСНОВНЫЕ АРХИТЕКТУРЫ И ПРИНЦИПЫ ПОСТРОЕНИЯ
Рассмотрены основные архитектуры хранилищ данных и некоторые общие принципы их построения. Выделены преимущества и недостатки виртуальных хранилищ данных и двухуровневой архитектуры данных.
В начале 80-х гг. прошлого века возникло понимание ограниченности применения регистрирующих систем для анализа данных и построения на их основе систем поддержки и принятия решений. Регистрирующие системы создавались для автоматизации рутинных операций по ведению бизнеса: выписки счетов, оформления договоров, проверки состояния склада и т. д. Основными требованиями к таким системам были обеспечение транзакционности вносимых изменений и максимизация скорости их выполнения. Именно эти требования и определили выбор реляционных систем управления базами данных (СУБД) и модели представления данных «сущность-связь» в качестве основных технических решений при построении регистрирующих систем.
Информация в регистрирующей системе актуальна только на момент обращения к базе данных, однако в следующий момент по тому же запросу можно получить уже совершенно иной результат. Интерфейс регистрирующих систем рассчитан на проведение жестко определенных операций, а получение результатов на нерегламентированный запрос сильно ограничено. Возможность обработки больших массивов данных также мала из-за настройки СУБД на выполнение коротких транзакций и неизбежного замедления работы остальных пользователей.
Ответом на возникшую потребность стало появление новой технологии организации баз данных - технологии хранилищ данных, в основе которой лежат две основные идеи: интеграция разъединенных детализированных данных (детализированных в том смысле, что они описывают некоторые конкретные факты, свойства, события и т. д.) в едином хранилище и разделение наборов данных и приложений, используемых для оперативной обработки и применяемых для решения задач анализа.
Хранилище данных - это предметно-ориентированная, интегрированная, содержащая исторические данные, не разрушаемая совокупность данных, предназначенная для поддержки принятия управленческих решений. Виртуальное хранилище данных -это система, представляющая интерфейсы и методы доступа к регистрирующей системе, которые эмулируют работу с данными в этой системе как с хранилищем данных. Виртуальное хранилище данных можно организовать, создав ряд представлений (view) в базе данных (БД) или применив специальные средства доступа, например продукты класса Desktop OLAP [1].
Главными достоинствами такого подхода являются простота и малая стоимость реализации, единая платформа с источником информации, отсутствие сетевых соединений между источником информации и хранилища данных.
Однако у этого подхода существуют и определенные недостатки: при проектировании виртуального хранилища данных создается не хранилище как таковое, а иллюзия его существования; структура хранения данных и само хранение данных не претерпевают изменений и остаются проблемы производительности, трансформации данных, интеграции данных с другими источниками, отсутствия истории, чистоты данных, зависимости от структуры и доступности основной БД.
Двухуровневая архитектура хранилища данных подразумевает построение витрин данных (data mart) без создания центрального хранилища, при этом информация поступает из небольшого количества регистрирующих систем и ограничена конкретной предметной областью [2]. При построении витрин данных используются основные принципы построения хранилищ данных, поэтому их можно считать хранилищами
Информационные системы и технологии
данных в миниатюре. Преимуществами витрин данных являются:
- простота и малая стоимость реализации;
- высокая производительность за счет физического разделения регистрирующих и аналитических систем, выделения загрузки и трансформации данных в отдельный процесс, оптимизированной структурой хранения данных под анализ;
- поддержка истории;
- возможность добавления метаданных.
Построение полноценного корпоративного хранилища данных обычно выполняется в трехуровневой архитектуре [2].
На первом уровне расположены разнообразные источники данных: внутренние регистрирующие системы, справочные системы, внешние источники.
Второй уровень включает в себя центральное хранилище данных, куда поступает информация от всех источников с первого уровня, и, возможно, оперативный склад данных (ОСД). Этот склад не содержит исторических данных и выполняет две основные
функции: он является источником аналитической информации для оперативного управления и в нем подготавливаются данные для последующей загрузки в центральное хранилище. Под подготовкой данных понимают их преобразование и осуществление определенных проверок. Наличие ОСД особенно необходимо при различном регламенте поступления информации из источников.
Третий уровень представляет собой набор предметно-ориентированных витрин данных, источником информации для которых является центральное хранилище данных и с которыми работает большинство конечных пользователей.
Библиографические ссылки
1. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. М. : Вильямс, 2001.
2. Аналитические системы для бизнеса [Электронный ресурс]. URL: http://www.bipartner.ru/ (дата обращения: 18.09.2012).
М. A. Lapteva, K. M. Boldyrev Siberian State Aerospace University named after academician M. F. Reshetnev, Russia, Krasnoyarsk
THE VAULT DATA: THE MAIN ARCHITECTURES AND PRINCIPLES OF THE BUILDING
Main architectures of vault data and some general principles of their building are considered. Main advantages and defects of virtual vault data and two-level architecture of data are chosen.
© Лаптева М. А., Болдырев К. М., 2012
УДК 519.688
И. Б. Ларионов
Омский государственный университет имени Ф. М. Достоевского, Россия, Омск
АЛГОРИТМЫ ЗАПОЛНЕНИЯ ПРОПУСКОВ В ГРАФИЧЕСКИХ ОБЪЕКТАХ
Описываются алгоритмы заполнения пропусков в изображениях с использованием методов бикубических сплайнов, многомерных линейных многообразий и самоорганизующихся карт Кохонена.
Надежность современных накопителей достаточно высока. Но всегда есть вероятность того, что какие-либо файлы будут испорчены или произойдет изменение данных, которое не заметно для внутренних алгоритмов контроля целостности носителей или для алгоритмов хеширования. Подобные изменения иногда приводят к достаточно сильному изменению данных (например, мультимедийных) в связи с тем, что современные алгоритмы сжатия с потерями неустойчивы к повреждениям.
Для заполнения пропусков в графических объектах широкое применение нашли методы бикубических сплайнов, многомерных линейных многообразий и самоорганизующихся карт Кохонена.
Интерполяция бикубическими сплайнами хорошо зарекомендовала себя при заполнении получаемых
пропусков, возникающих при изменении размеров изображений [1]. Многомерные линейные многообразия [2] и самоорганизующиеся карты [3] используются при заполнении пропусков в табличных данных [2]. В данной работе указанные методы применялись для заполнения пропусков в графических объектах с последующим сравнением качества такого заполнения.
Эффективность работы рассмотренных методов оценивалась по результатам двух компьютерных экспериментов по распознаванию лиц и распознаванию текста. Каждый из этих методов приводит к повышению процента верно распознанных лиц. Однако наиболее эффективным с этой точки зрения является метод с использованием карт Кохонена, наименее эффективным - приближение с помощью линейных многообразий, а с учетом времени выполнения наи-