Научная статья на тему 'Задачи и пути создания автоматизированной архивной системы гидрометеорологических данных'

Задачи и пути создания автоматизированной архивной системы гидрометеорологических данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
88
44
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Доронина Ю. В.

Рассматриваются аспекты оптимизации процесса архивирования данных. Исследуются возможности разработки современного автоматизированного архива, в том числе для гидрометеорологической отрасли. Исследуются пути создания теоретической базы для разработки автоматизированного архива гидрометеорологических данных. Показано практическое приложение исследований на примере разработки соответствующего программного обеспечения

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Доронина Ю. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Задачи и пути создания автоматизированной архивной системы гидрометеорологических данных»

УДК 551.501+556.043

■а &

Рассматриваются аспекты оптимизации процесса архивирования данных. Исследуются возможности разработки современного автоматизированного архива, в том числе для гидрометеорологической отрасли. Исследуются пути создания теоретической базы для разработки автоматизированного архива гидрометеорологических данных. Показано практическое приложение исследований на примере разработки соответствующего программного обеспечения

■а о

ЗАДАЧИ И ПУТИ СОЗДАНИЯ АВТОМАТИЗИРОВАННОЙ АРХИВНОЙ СИСТЕМЫ ГИДРОМЕТЕОРОЛОГИЧЕСКИХ

ДАННЫХ

Ю.В. Доронина

Кандидат технических наук, доцент Кафедра информационных систем Севастопольский Национальный технический университет ул.Университетская, г.Севастополь, Украина, 99053 Контактный тел.: (0692) 235-364, (0692)235-100 e-mail:vivado@rambler.ru

1. Введение

Важнейшей частью современного архива на технических носителях, помимо самих данных, является некоторая программная оболочка, автоматизирующая процессы контроля хранимости данных. Эти функции можно возложить на так называемую автоматизированную архивную систему (ААС), представляющую собой совокупность взаимосвязанных технических и программных средств, скоординированных в заданной области. В целом, ААС - это комплекс программно - технических средств, включая информационное обеспечение, предназначенное для формирования, пополнения и поддержания в корректном состоянии архив на технических носителях (АТН).

2. Постановка задачи

Не следует понимать ААС только как базу данных (БД), поскольку ААС имеет более широкое понятие, в которое входит и четкая организация работ по приему, использованию, хранению информации, что обеспечивается теоретически обоснованной структурой ААС, а также ведение документации, включая синхронизацию и обеспечения целостности хранящейся информации.

Функции ААС выполняет автоматизированное рабочее место (АРМ) инженера АТН в комплексе с методическим обеспечением ААС. В больших автома-

тизированных архивных комплексах (ААК) к АРМ инженера АТН добавляется АРМ пользователя, которое представляет собой среду для оптимального выполнения запросов (транзакций) по архивной информации складского характера. Наиболее естественным решением для ААК является также наличие локальной сети между несколькими клиентскими автоматизированными рабочими местами.

Создание АТН представляет собой сложную, многоэтапную задачу, что обусловлено следующими факторами:

1. частой необходимостью бессрочного хранения данных;

2. централизованным хранением данных, при котором возникает отчужденность архивных структур от проектировщиков;

3. различиями форматов архивных данных;

4. большим объемом архивов.

Исходя из главных задач архива, необходимо предусмотреть:

1. экономичное, компактное и надежное накопление и долговременное безопасное сохранение документов на разных носителях информации;

2. контроль над сохранностью документов, которые временно сохраняются в организациях и подразделениях;

3. оперативное обеспечение потребностей организаций и учреждений различных отраслей экономики и форм собственности продукцией архива документов (работах, информационных услугах) для организации

эффективного производства и научных исследований, в том числе и на договорных началах.

Дополнительным и важным ограничением в современных условиях должен выступать минимальный уровень финансовых затрат.

3. Ограничения существующих методов архивирования

В практике архивации на персональных компьютерах принято структурировать размещение файлов данных на носителях в виде так называемого дерева каталогов, представляющего собой систематизированное объединение файлов в группы, затем эти группы в более крупные группы и так далее до главных корневых каталогов. Подобное структурирование архива существенно облегчает работу с ним на уровне пользователя (удобство и быстрота поиска нужного файла) и на уровне ЭВМ.

Складирование данных для гидрометеорологии является важным этапом технологического процесса контроля данных.

Организация гидрометеорологической (г/м) информации должна обладать следующим важным свойством: возможностью оперативного доступа (выборки данных) (ОД) при условии высокого качества контроля данных (качества данных) (КД). Учитывая при этом постоянную тенденцию информации к накоплению, возникает задача построения такой организации г/м данных на базе современных компьютерных технологий и технических средств, которая обладала бы этим свойством [1,3].

Очевидное на первый взгляд решение этой задачи - в непосредственной организации БД - является далеко не тем оптимальным шагом, который бы дал возможность совместить ОД и КД. Можно добавить еще множество необходимых условий для формирования такой структуры г/м данных: это и удобная среда пользователя (пользовательский интерфейс) для ввода г/м данных, и учет стандартов проверок введенных данных (не менее трех), совместимые форматы г/м данных для обмена [4].

Рисунок 1. Виды представления данных для архивирования

Задача, таким образом, сводится к организации оперативного доступа при всех указанных условиях. Решение этой задачи на местах неприемлемо. Оно свелось бы к накоплению локальных разрозненных БД, которые будут иметь, по всей вероятности, несовместимые структуры.

Имеется ряд факторов, которые делают проблему структурирования архива гидрометеорологических данных, в общем случае, очень сложной. Поэтому, как уже указывалось выше, должен применяться единый

подход на строго научной основе. Эта основа описана далее как теория организации структур для хранения информации.

Поставленная задача усложнена еще и тем, что обычно на предприятиях архив в той или иной форме уже существует; и входящий поток данных в него среднем постоянен. Создание и одномоментное внедрение в этих условиях принципиально нового подхода к организации архива данных на технических носителях практически невозможно. Поэтому, должен быть применен метод постепенного (поэтапного) перевода существующего архива в современный АТН. При этом необходимо постоянное согласование с существующими стандартами, форматами данных, применяемыми технологиями. Дополнительным и важным ограничением в современных условиях должен выступать минимальный уровень финансовых затрат.

Одна из наиболее важных проблем в деле архивации данных состоит в эффективном распределении архива на технических носителях. Разработка соответствующих методик и критериев также входит в круг задач, решаемых в данной работе. Предлагается ввести некоторые понятия. Принимается допущение, что в архивах на предприятиях автоматизированных производств в основном данные хранятся в виде электронных таблиц (это характерно и для рассматриваемой гидрометеорологической отрасли).

4. Формализация задачи построения архива

Пусть S - формы - это структуры данных, предназначенные для эффективного обмена и использования (в виде БД), преобразованные из библиотеки электронных таблиц (БЭТ) по определенному принципу. Иными словами, S -форма - это блок поименованных данных, образованный по смысловому признаку. Например: данные по отказам оборудования, организованные в директории по годам, далее в более крупные директории по типам таблиц и т.д. S -формы определяются, в основном, совокупностью классифицированных запросов. Таким образом, ставится задача классификации запросов и далее - классификации S -форм.

Минимальная S - форма строится при создании для каждого файла из БЭТ соответствующего файла формата .dbf (связь: один к одному).

S _JlFILE(.xls) _ S

Smin jlFILE(.dbf) S°

Примечание: обозначения форматов:

. xls - файл формата таблиц Excel (рабочий формат);

. dbf - файл формата dBase (формат локальных таблиц);

. gdb - файл базы данных InterBase -сервера (тип системы клиент - сервер).

Следует отметить, что форматы выбраны произвольно и в общем случае могут быть соответствующими новыми форматами разрабатываемой структуры.

Максимальная S - форма строится при создании для всех файлов из БЭТ одного файла формата .gdb iNFILE(.xls)

S„„„ =

[lFILE(.gdb)

Для характерно наличие единой программы обработки запросов, единого интерфейса.

Промежуточные S - структуры разработанные для гидрометеорологического архива определяются следующим образом:

SJ = 1Год(1Станция(№тЕ(ЛЬ0))

52 = mer(1Cra™^(1FILECdbf)))

53 = (блок)Лет(1Cтaнция(1FILE(.dbf )))

S4 = NСтанций (^er(TrM_j(1FILE(.dbf))))

S2 = (Спжок)Станций(Шег(ТТМ^(№тЕ(ЛЬО)))

S4 = N Станций ((блок )Лет (ТГМ_ j(1FILE(.dbf))))

S4 = (список)Станций ((блок )Л ет ( ТГМ_ j(1FILE(.dbf ))))

S5 = ^танций(Шет(№тЕ(ЛЬО))

Sj = (список)Станций(iЛет(1FILE(.dbf)))

53 = NCT^™(^OK)neT(1HLE(.dbf)))

54 = (список )Станций((блок) Лет(1FILE(.dbf )))

При формировании запросов Z - серий учитываются количественные показатели параметров структур. Например, при трех основных типах г/м таблиц (ТГМ 1, ТГМ 2, ТГМ 7) возможно использование их как в виде вложенных каталогов, так и корневых. Таким образом, последовательность компонент в S-формах может нарушаться в зависимости от построенного запроса.

Нумерация запросов соответствует нумерации S-форм. Например, S-форме типа ^ соответствует серия запроса Z3.

Z13 = ТГМ _ j(i Год^Станций))

Z13 = тахТвозд(1994 - 1996гг(SEV,HM, YAL))

Для начального формирования S-форм необходимо составить список параметров структур.

На рисунке 2 приведена структура архива на технических носителях морских прибрежных наблюдений Гидрометеорологической обсерватории Севастополя, построенная на базе S-форм.

5. Идеи специализированных архиваторов

В таблицах 1 и 2 приведены сводные данные по архивируемым гидрометеорологическим таблицам (ТГМ) различных типов с целью выбора типа физического носителя.

Таблица 1

Статические характеристики

Таблица Средний объем Стд.отклон. Результат

ТГМ2 40.3КБ 1.6КБ 40.3±4.8 КБ

ТГМ7 35.9КБ 0.4КБ 35.9±1.2 КБ

ТГМ1 124.0КБ 4.0КБ 124±12 КБ

Таблица 2

Параметры архивирования

Таблица Количество станций Объем таблиц за год Кол-во лет на Zip* Кол-во лет на CDD**

ТГМ2 24 - - -

ТГМ7 15 6. 3МБ 15. 9лет 95. 2лет

ТГМ1 31 45. 0МБ 2. 2лет 13. 3лет

Рисунок 2. Структура архива на технических носителях

*Zip^cKeTa 100Mb **CD-Disk 600-700Mb

С целью оптимизации архивирования данных был проведен анализ возможности сжатия этих данных. Степень сжатия зависит от нескольких причин:

- большое значение имеет тип сжимаемых данных. Лучше всего сжимаются графические, текстовые файлы.

Известно, что для них степень сжатия может быть от пяти до сорока процентов. Хуже сжимаются файлы исполняемых программ, загрузочных модулей, файлы мультимедиа.

- большое значение имеет метод сжатия.

- немаловажно и то, какой архиватор используется.

При выборе типа архиватора обычно руководствуются следующими соображениями: чтобы степень сжатия была как можно выше, а времени на упаковку и распаковку файлов уходило как можно меньше. В рассматриваемом случае - это архивы данных, связанные в том числе с прогнозированием гидрометеорологических параметров, что определяет необходимость оперативности сжатия и распаковки файлов.

Для изучения эффективности сжатия одного файла, содержащего г/м данные, было взято четыре архиватора - WinRar 3.50, 7-Zip 4-42, PowerArchiver 2006 v.9.61 и WinUHA 2.0. Был взят файл типа ТГМ-1(-таблица гидрометеорологическая №1) размером 158 Кб. Файл представляет собой электронные таблицы Excel.

Сравнение размеров показало, что эффективнее сжимает архиватор 7-Zip, в результате работы которого появляются архивы с расширением *.7z. При этом файл сжимается на 88,6%.

Единственным недостатком исследуемых архиваторов является то, что они не учитывают специфику архивируемого файла, то есть его структуру [2]. По-

этому, для увеличения эффективности сжатия файлов был разработан программный модуль, учитывающий описанные особенности. Усредненные значения полученных фалов - архивов для каждого типа файлов, содержащих гидрометеорологические данные, представлены в таблице 3.

Таким образом, файл типа ТГМ-1 сжимается на 98,7%.

Таблица 3

6. Области возможного внедрения полученных результатов

Как уже отмечалось, задача создания автоматизированного архива, или автоматизированной архивной системы, решалась для гидрометеорологической обсерватории города Севастополя, в которой успешно функционирует автоматизированная система сбора обработки анализа и контроля данных морских прибрежных наблюдений (АССОКА). Выходными данными этой системы являются гидрометеорологические таблицы, которые удалось сжимать при архивации выше, чем на 90%, что существенно сокращает объемы хранимых данных.

Полученные результаты возможно применить и в других смежных организациях, работающих с аналогичными форматами данных. Это, по сути - вся морская прибрежная сеть гидрометеорологических наблюдений Украины.

Кроме того, идеи, заложенные в работе, могут быть использованы в других областях, связанных с хранением больших объемов данных.

7. Заключение, выводы

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рассмотренные в статье принципы формализации и структурирования объектов архивации на базе S-форм позволили создать более эффективную с точки зрения параметров сжатия структуру данных и, непосредственно, специализированный программный архиватор. Отмечено, что указанные исследования и разработки осуществлялись на базе гидрометеорологической обсерватории г. Севастополя (отдел обработки информации).

Таким образом, рассмотренные возможности оптимизации архивной деятельности для гидрометеорологии ведут к оперативности работы, избавляют от рутинных работ, эффективны при научной обработке и статистическом анализе данных, и просто при хранении крупных объемов данных.

Эти исследования, как было показано, могут быть применимы не только для гидрометеорологической отрасли, но для складского хозяйства как автоматизированного производства, так и смежных архивных предприятий.

Литература

1. Доронина Ю.В. Автоматизация цикла гидрометеороло-

гических данных / Ю. В. Доронина // Сб. научн. тр. УкрНИГМИ.- К., 1999.- Вып.247.-С.250-254.

2. Иванова А. Аналитическая обработка данных / А. Ива-

нова // Электронный номер журнала "BYTE/Россия". - 2006. - № 2

3. Глинских А. Архитектуры систем хранения данных NAS и

SAN. Современное состояние и перспективы развития / А. Глинских, Николаев А.// Электронный номер газеты "Компьютер-Информ". - 2000. №9

4. Доронина Ю.В. Автоматизация процесса контроля ги-

дрометеорологических данных / Ю. В. Доронина // Оптимизация производственных процессов: Сб.науч. тр.Вып.5./Севастоп. нац. техн. ун-т; Редкол.:В.Я.Копп (отв.ред.) и др.- Севастополь: Изд-во СевНТУ, 2002.-228 с.: ил, С-219-221.

Усредненные значения файлов - архивов

Тип файла ТГМ-1 ТГМ-2 ТГМ-7 КГМ-1 КГМ-9а КГМ-9т КГМ-9э

Размер

архива, 2 2 1 2,8 1 1 1

Кб

i Надоели баннеры? Вы всегда можете отключить рекламу.