УДК 004.67: 004.91: 004.89
МЕТОДЫ, ТЕХНОЛОГИИ И РЕАЛИЗАЦИЯ ХРАНИЛИЩА ДАННЫХ И ЗНАНИЙ ДЛЯ ИССЛЕДОВАНИЙ ЭНЕРГЕТИКИ
А.Н. Копайгородский, Л.В. Массель
METHODS, TECHNIQUES AND REALIZATION OF WAREHOUSE OF DATA AND KNOWLEDGE FOR POWER SYSTEM RESEARCHES
A.N. Kopaygorodsky, L.V. Massel
В статье рассмотрены вопросы организации исследований энергетики. Для поддержки исследований предлагается разработка и применение информационного обеспечения в виде хранилища данных и знаний, в качестве последних рассматриваются декларативные явные знания. Рассмотрены методы и технологии создания, описывается архитектура хранилища данных и знаний. Реализация хранилища данных и знаний выполнена с использованием современных информационных технологий.
Ключевые слова: хранилище данных; хранилище знаний; поддержка научных исследований.
The questions of power system researches organization are considered in this paper. For the supplement of power system researches a building warehouse of data and knowledge is suggested as the last ones the declarative obvious knowledge is under consideration.The methods and technologies of creation are considered, the architecture of warehouse of data and knowledge is developed. The realization of warehouse is implemented with using up-to-date information technologies.
Keywords: a datawarehouse; a knowledgewarehouse; a supplement of
scientific researches.
Введение
В Институте систем энергетики им. Л.А. Мелентьева СО РАН выполняются исследования систем энергетики (электроэнергетики, тепло-, газо-, угле-, нефте-, нефтепродуктоснаб-жения), исследования энергетической безопасности России, региональных проблем энергетики, взаимосвязей энергетики и экономики, работы выполняются для стран СНГ, России и ее регионов. В рамках основных научных направлений выполняются исследования развития и функционирования как отраслевых систем энергетики, так и топливно-энергетического комплекса в целом. Результаты исследований отраслевых систем энергетики зачастую являются исходными данными для исследований ТЭК, а результаты исследований направлений развития ТЭК должны учитываться при исследованиях развития отраслевых систем энергетики [1].
В информационном обеспечении исследований энергетики можно выделить две взаимосвязанные, но в то же время различные проблемы:
1. Проблема информационной обеспеченности, т.е. обеспеченности данными, связанная с необходимостью получения данных из разных источников, их верификации (оценка достоверности как источников, так и самих данных, устранение ошибок и разночтений и Т.д.).
2. Проблема разработки инструментальных средств информационного обеспечения.
Первая проблема связана с затрудненностью получения необходимых данных и является в ряде случаев серьезным препятствием для научных исследований. Инструментальные средства информационного обеспечения исследований энергетики эволюционировали параллельно с программным обеспечением, так же в институте ведутся работы по созданию качественно новых инструментальных средств.
В настоящее время, когда технические проблемы решены, на первый план вышла проблема информационной обеспеченности, так как практически невозможно получение данных с одинаковой степенью детальности по всем отраслевым системам энергетики. С учетом появления современных технологий хранения данных, ориентированных на корпоративное использование [2], реализуется общая информационная база в виде корпоративного хранилища данных - Репозитария ИТ-инфраструктуры [3, 4, 5], на качественно иной основе интегрирующего операционные (использующиеся для расчетов) базы данных, имеющиеся в ИСЭМ СО РАН.
Однако до сих пор остается не решенной проблема поддержки исследований отдельных отраслевых систем ТЭК: выполняя анализ существующих проблем и занимаясь прогнозированием развития систем энергетики, исследователю приходится обрабатывать огромный массив данных с помощью типовых либо специализированных программных средств. Исходные данные для выполнения работ исследователи получают из различных источников, данные могут представляться в различных форматах.
1. Предлагаемый подход
Для поддержки исследований отдельных систем энергетики авторами предлагается использовать специализированные хранилища данных и хранилища знаний для каждой системы энергетики. Под хранилищем данных понимается предметно-ориентированный, интегрированный неизменяемый набор данных с поддержкой хронологии записи данных, необходимый для принятия решений [2]. Для систематизации и накопления знаний о предметной области, представленных в виде документов (статей, отчетов и др.), используется хранилище знаний. Под знаниями о предметной области в первую очередь понимаются декларативные явные знания [6], но в системе также предусмотрена возможность хранения процедурных знаний (описания программ и алгоритмов). Метаданные позволяют описывать знания, выполнять их классификацию и каталогизацию, и используются для быстрого и удобного поиска. При применении «типовых решений» поддержки исследований отдельных систем задача построения единого корпоративного хранилища для решения комплексных проблем энергетики значительно упрощается.
В ИСЭМ СО РАН на протяжении ряда лет ведутся работы по созданию ИТ-инфраструктуры исследований энергетики [3, 4], которая призвана облегчить разработку и использование различных информационных и вычислительных ресурсов. ИТ-инфраструктура состоит из четырех основных составляющих: интеллектуальной, информационной, вычислительной и телекоммуникационной инфраструктуры.
Информационная инфраструктура [5] объединяет информацию обо всех разрозненных базах данных, программных комплексах, моделях данных, моделях программ, представленных в виде UML, ERD, XML и др. Программные компоненты информационной инфраструк-
туры создаются на основе концепции сервис-ориентированной архитектуры (ЭОА): с одной стороны, компоненты обеспечивают выполнение достаточно простых функций, с другой, применение компонентов в определенной последовательности позволяет решать достаточно сложные задачи. Применение готовых компонентов позволяет ускорить реализацию хранилища данных и знаний для поддержки исследований систем энергетики.
2. Архитектура хранилища данных и знаний
Процесс исследования любой энергетической системы начинается со сбора массива исходных данных, который может быть получен из различных статей, отчетов, статистических сборников, также в качестве исходных данных могут выступать результаты предыдущих исследований. Внесение информации выполняется с привязкой к словарю предметной области: исследователь должен выполнить сопоставление определенных отчетных или статистических данных с регионом, категорией ресурса, его целевым назначением, должен указать и другие классификационные характеристики. В хранилище данных и хранилище знаний отдельной отрасли энергетики словарь предметной области является общим (одним) и содержит свойственные ей классификаторы (рис. 1). Метаданные также являются общими и описывают как структуру данных, так и документы, помещаемые в хранилище. Таким образом, хранилище данных и знаний состоит из четырех основных логических частей: словаря предметной области, метаданных, непосредственно данных хранилища, которые физически расположены в базе данных, и декларативных знаний, представленных в виде документов, которые находятся в файловом хранилище. Стоит отметить, что ограничения накладываются только на структуру метаданных, которые описывают документы, находящиеся в хранилище, модели словаря предметной области и хранилища данных.
Источники данных, результаты, инструменты анализа
Система управления базами У Файловое
данных і хранилище
Знания, помещаемые и извлекаемые из Хранилища
Рис. 1. Архитектура хранилища данных и знаний исследований энергетики
Репозитарий является одним из основных компонентов ИТ-инфраструктуры исследований энергетики и содержит информацию обо всех других компонентах, их местоположении и о способах доступа к ним [5]. В нем описываются хранилища данных и знаний отдельных систем энергетики, указывается их расположение (адреса серверов) и интерфейсы взаимодействия (описания \УеЬ-сервисов). В Репозитарии также описаны оперативные базы дан-
ных, используемые в исследованиях, программные комплексы, научные труды сотрудников института и др.
3. Хранилище данных
В процессе исследований функционирования и развития энергетических систем приходится оперировать достаточно большими объемами данных, получаемых из различных источников. Большой объем данных обусловлен их временным характером и множеством показателей исследуемых объектов энергетики. Информация размещается в хранилище данных в соответствии с созданной моделью для выбранной системы энергетики. После внесения данных исследователь имеет возможность выполнить их анализ, выгрузку в различные форматы, использовать полученные данные в качестве исходной информации для специализированных программ моделирования. Таким образом, основная сложность реализации хранилища данных для поддержки исследований систем энергетики заключается в создании достаточно универсальных механизмов импорта и экспорта данных, а также в описании модели предметной области внутри хранилища. Архитектура хранилища данных представлена на рис. 2.
Средства администрирования Хранилища данных
Уровень
хранилища
Внутренний уровень выгрузки
Внешний уровень
Рис. 2. Архитектура хранилища данных для поддержки исследований систем энергетики
Проектирование и реализация хранилища данных выполняется, основываясь на следующих технологических решениях:
1. Использование единой структуры метаданных. Метаданные хранилища описывают лежащую в его основе модель данных для исследуемой системы энергетики, структуру словаря предметной области, содержат регламентированные запросы, а также другую дополнительную информацию, используемую для автоматизации работы. Использование метаданных позволяет абстрагироваться от конкретной системы энергетики, становится возможным построение универсальных программных компонентов.
2. Применение единственного промежуточного формата для манипулирования данными позволяет легко адаптировать новые источники информации для загрузки данных в хранилище, а также создавать фильтры преобразования результатов для анализа и обработки данных в новых системах.
3. Средства администрирования хранилища данных проектируются, основываясь на стабильности структуры метаданных, программная реализация выполняется с использованием объектно-ориентированного языка Java.
Задачи импорта и экспорта данных в хранилище выполняются в два этапа с применением промежуточного формата хранения подготовленных данных (Structured Data File - SDF). При загрузке данных на первом шаге они преобразуются в SDF-формат, а затем выполняется загрузка SDF-файлов в хранилище. При экспорте - данные извлекаются в промежуточном формате SDF, а затем, с помощью специализированных средств конвертирования, могут быть преобразованы в различные документы: RTF, TXT, DBF, HTML, Microsoft Word, Microsoft Excel и др. При этом не накладывается жестких ограничений ни на форматы исходных данных, загружаемых в хранилище, - они могут быть представлены в различных СУБД или документах; ни на форматы выходных документов. Если необходима поддержка нового формата - потребуется лишь реализовать конвертор, который преобразует данные из SDF-формата в требуемый формат документов.
Для конфигурирования хранилища данных и описания модели исследуемой системы энергетики была разработана программа администрирования (рис. 3), реализация которой выполнена на объектно-ориентированном языке Java (Java Standard Edition) в среде NetBeans [7, 8].
Файл Правка База данных ?
Ли IXBK1-U ПОД* IliOMnuw к 6.1 >е д>*нимм
С jdbc'flrebirdsql'local.DB 1 GDB Ik HOutibW (мраипры тлЬллцы
■ Название Предприятия С г т. аьив
! Таблица содежит основные данные по угледобывающим I предприятиям России
Категория Справочники
Г тклЬцы
-шадиш
■ ; 7YPEENTERPRISE"’.
1MANAGCOMPANY . COALENTERPRISE " CGALMARK • ; SUBJECTFE0ERAT10N j GROUPS i CQALEXTRACTION ; COALPROCESSING . • SUPPL.Y_.USE :.IYPEGROUP,„ ....
JL
X
I
' л>м-
, column Name j Column Type ; Col • в/ 1..1П г. <1'“-'
ш INTEGER 11 РК РК
1 ! NAME VARCHAR 100 название
J г PREV_NAME VARCHAR 100 Предыдущее название
, PROD_CAPACITY INTEGER 11 Производственная мощность
| i8TART_YR INTEGER 11 : Год сдачи и эксплуатацию
j ■ SUPPLV VARCHAR 10 Промышленные запасы угля
Field Text Field
Field
Integer Field Запасы угля
Integer Field Запасы угля
Field Запасы угля
i Сйжранить is Ранить j
Серия «Математическое моделирование и программирование», вып. 7
51
■I.. n Jti-i L'.IJ I-J
г Ш Данные £§ Добыча
1§ Переработка ...
Классификаторы }, '
8{ Способ добычи |
3 Тип предприятия! Марка угля | 0 Назначения испс
| 0 ПоставкаЛютреб.
| <1 Тип утя
| 0 Запасы угля
Справочники
Ш,
I
Назеаиие
в
ifj МвСТОрОЖД8Н|‘(-
(3 Страны Мира
| Субъекты федер*! ] Угольные бассс-й ! Уголь
■нов общество «Промыш Предыдащее название !енной ответственностыс " . ' -
'енной ответственностыс Тип предприятия > иг оСч.Шб 10'ирчт
!внной ответственностыс Управляющей компания 1
(-ное общество «Разрез «
+юе общество ^Шахта <1 субьвкт РФ ■нов общество «Шакга ^
•ное общество «-Шахта ■‘I- Злиси у« пя ^ ^
«Об ОбЩвСТеО <Юб01 ■.
;ное общество «Междуре Пиулгмд. -реич.« ип^ость !ное общество <Разрез *,;
Новое предприятие
. /ГЛРДО'ЗиВЗЯЩее
ояо «P.vroa t |"Ь/
• nl!n[i пий'Г'.’
Управляющие ко!- «ое общество «Угольна: | г од сдачи в эксплуатацию
енной ответственность*
:ное общество «чернигш | Промышленные запасы утя ;Ное общество «Угольна; Г
,|ное общество «Междуре ■ вынимаамая мощность пласта
152000 1974 "ii ■
'п>6|Ч-а г/аграбитм 4'3?
НатоддоСкми
Зчгрь>*.лг
Рис. 4. Интерфейс программы для работы с хранилищем данных
Просмотр, корректировка и извлечения данных из хранилища выполняется с помощью клиентской программы (рис. 4), которая в своей работе активно использует метаданные, расположенные в хранилище. Реализация этой программы так же выполнялась на языке Java. В настоящее время в качестве базовой СУБД используется Firebird. Стоит отметить, что при выбранном подходе к созданию инструментальных средств и использованию метаданных возможен достаточно легкий переход практически на любую другую СУБД.
4. Хранилище знаний
Первоначальная постановка задачи разработки хранилища документов для исследований угольной промышленности была сформулирована JT.H. Такайшвили [9]. Хранилище знаний предназначено для накопления и структурирования декларативных явных знаний предметной области. Архитектура хранилища знаний представлена на рис. 5.
Проектирование и реализация хранилища знаний выполняется, основываясь на следующих технологических решениях:
1. Основным понятием, которым оперирует хранилище знаний, является «Документ», который имеет аннотацию, структуру (содержание, список таблиц, рисунков и др.), содержит информацию об авторах, дате и месте публикации, связан с классификаторами словаря предметной области. На основе метаданных документы могут быть включены в несколько «Витрин документов».
2. Предусмотрена возможность использования симметричного шифрования для обеспечения безопасного хранения. Алгоритмы шифрования могут быть применены только
Знания, помещаемые в Хранилище
uftdfnta Toots Knowledge Warehouse*
Средства администрирования Хранилища знаний
Метаданные Документы
Хранилище знаний
Знания, извлекаемые из Хранилища
Рис. 5. Архитектура хранилища знаний для поддержки исследований систем энергетики
к полным текстам документов, расположенным в хранилище. Использование именно симметричного шифрования обусловлено тем, что шифрование и дешифровка данных выполняется на стороне клиента (на одном и том же компьютере), поэтому применение асимметричных алгоритмов не является целесообразным. Основными задачами файлового хранилища являются размещение, передача файлов пользователю и их удаление, поэтому содержание файлов всегда находится в зашифрованном виде. Для обеспечения многопользовательского доступа к шифрованным данным может использоваться криптошлюз, что позволяет отказаться от размещения ключей на компьютерах пользователей.
3. Реализация средств для работы с хранилищем знаний выполняется на объектно-ориентированном языке Java. Интерфейс программы для работы с хранилищем знаний приведен на рис. 6.
5. Заключение
В статье описана разработка хранилища данных и знаний для исследования отраслевых систем ТЭК. Для поддержки этих исследований авторами предлагается использовать: специализированное хранилище данных и знаний; метаданные, которые описывают исследуемую систему энергетики; структуру данных и документы, помещаемые в хранилище. Применение метаданных позволяет строить универсальные программные компоненты, взаимодействующие с хранилищем. Реализация инструментальных средств выполняется на объектно-ориентированном языке Java, в качестве базовой СУБД используется Firebird.
Созданное хранилище данных и знаний интегрировано в ИТ-инфраструктуру исследований энергетики. Универсальные компоненты информационной инфраструктуры могут быть применены для решения различных задач: построения отчетов, преобразования данных для аналитических систем, извлечения и передачи данных в различные СУБД и загрузки данных из XML-файлов. Для этого используются генератор отчетов, программа извлечения данных и компонент загрузки структурированных данных. Генератор отчетов работает
niWKiill, ИЦ1Ш «ЛНСЧ»*» JjfV'c IV t:..i
Г* §§ бззоьые Витоимы Д Справочники
Рз отчеты 1
* Ц$ Статистическая атвдтност| •ЙТвЛшмМ |
В.И'ТЭР 1^1 6ТП С%4Т0П
ЕЬ ап™»
* СЗоршки ‘
► ЙУП Роешя01редлрй| £3 Экспорт утя ^
ИЗ Рынок утя 1;
_2) Качестве утя ;
^ ПрОЧИв сборники ‘ [*1 Другая патетика !
' Материалы из Интернет 1 Р) прочее базовые витрины ■ 8§ Рабочие витрины в
© Ключевые слова © Классификаторы 1
| (архитектура хршадищАдамнюдая гкдаршиюавдоалдаи систем энергетики
11 ИСПОЛЬЗОВАНИЕ МЕТАДАННЫХ ПРИ ПРОЕКТИРОВАНИЙ ХРАНИЛИЩА ДАННЫХ ДЛЯ ПОВДЕРЖК...
и кя^сшшздшт^ш^овдаяФОРМ^зсшлнного'даисдаляпРШРЕтной области*.,.
$ КОНЦЕПЦИЯ ХРАНИЛИЩА ДОКУМЕНТ 08 ДЛЯ ПОДДЕРЖИ НАУЧНЫХ ИССЛЕДОВАНИЙ ПРИ ПРО...
ttiA *»i/ ,it I i;\. *>■!}. .1
i *arop Такайшвипи Л.Н., Осама Епь СайвяАшедНе*анвд Шата j
! Ключевые cnosa: I
| Аннотация. В статье показан возможный подход * создание Хранилища Документов. Предложены ]
j инфопогнчеосая и концептуальная модели Хранилища Документе» и ывхвт интерфейса пользователя | [ Год 2009 {
1 Овь4м: 8 ]
i Формат: doc
I версия: j
I Квиентармй; j
; Период др>гое
им111
Дополнительные нарлмпрм
i<\.
4 Таблицы:
;] Р(к*н*и:
4 Рис 1. Обобщенная схема проектирования Хранилища Доцентов.,....2
;| Рис. 2. Мифологическая модель данных Хранилище Документов...3
5} Рис. 3. АрхитеидаХранилище Допущения ....,-.4
Й Рис А. Модель даннш Хранилище Документов.....9
Я Рис. 5. Рабочее окно ЗД-0итрина документов «Статьи*...8
| Рис. 6. Рабочее окно Щ - манипулирование ключевыми словами....Т
% Содержание:
Рис. 6. Интерфейс программы для работы с хранилищем знаний
абсолютно прозрачно для других программ и никоим образом не влияет на структуру базы данных или на хранящиеся в ней данные. Программа извлечения данных поддерживает как регламентированные запросы, созданные администратором хранилища, так и произвольные пользовательские запросы, результаты их выполнения могут быть представлены в виде таблиц или OLАР-кубов.
Исследования, описанные в статье, выполнены при частичной финансовой поддержке грантов РФФИ J№ 08-07-00172-а, Ns 10-07-00264-а и гранта Программы Президиума РАН № 2.29.
Статья рекомендована к печати программным комитетом Международной суперком-пъютерной конференции <Научный сервис в сети Интернет: суперкомпъютерные центры и задачи>.
Литература
1. Системные исследования проблем энергетики / JI.C. Беляев, Б.Г. Санеев, С.П. Филиппов и др.; под ред. Н.И. Воропая. - Новосибирск: Наука, 2000.
2. Inmon, W.H. Building the Data Warehouse, Fourth Edition / W.H. Inmon. - Indianapolis, Indiana: Wiley Published Publishing, Inc., 2005.
3. Воропай, Н.И. ИТ-инфраструктура системных исследований в энергетике и предоставление ИТ-услуг / Н.И. Воропай, JI.B. Массель // Известия АН. - Энергетика. - 2006. -№ 3. - С. 86 - 93.
4. Массель, J1.B. Технологии и система хранения данных и знаний для исследований в энергетике / JT.B. Массель, А.Н. Копайгородский // Материалы Всероссийской конференции «Современные информационные технологии для научных исследований». -Магадан, 2008. - С. 64 - 66.
5. Копайгородский, А.Н. Разработка и интеграция основных компонентов информационной инфраструктуры научных исследований / А.Н. Копайгородский, JI.B. Массель // Вестник ИрГТУ. - 2006. - № 2 (26). - С. 20 - 24.
6. Тузовский, А.Ф. Системы управления знаниями (методы и технологии) / А.Ф. Тузов-ский, С.В. Чириков; под ред. В.З. Ямпольского. - Томск: Изд-во HTJI, 2005.
7. Эккель, Б. Философия Java (Thinking in Java) / Б. Эккель. - 3-е изд. - СПб.: Питер, 2003.
8. Монахов, В.В. Язык программирования Java и среда NetBeans / В.В. Монахов. - 2-е изд. - СПб.: БХВ-Петербург, 2009.
9. Такайшвили, JI.H. Проектирование хранилища документов для исследований развития угольной промышленности / JI.H. Такайшвили, Осама Ель Сайед Шета // Труды XIV Байкальской Всероссийской конференции «Информационные и математические технологии в науке и управлении». - Иркутск: ИСЭМ СО РАН, 2009. - С. 208 - 214.
Алексей Николаевич Копайгородский, кандидат технических наук, Лаборатория № 34 «Информационные технологии в энергетике», Институт систем энергетики им. JI.A. Ме-лентьева СО РАН , digger@istu.edu.
Людмила Васильевна Массель, доктор технических наук, профессор, Лаборатория № 34 «Информационные технологии в энергетике», Институт систем энергетики им. Л.А. Мелен-тьева СО РАН , massel@isem.sei.irk.ru.
Поступила в редакцию 27 ноября 2010 г.