Научная статья на тему 'Разработка хранилища данных и знаний для поддержки исследований энергетики'

Разработка хранилища данных и знаний для поддержки исследований энергетики Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
317
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ХРАНИЛИЩЕ ДАННЫХ / ХРАНИЛИЩЕ ЗНАНИЙ / ПОДДЕРЖКА НАУЧНЫХ ИССЛЕДОВАНИЙ / DATA STORAGE / KNOWLEDGE STORAGE / SUPPORT FOR SCIENTIFIC RESEARCHES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Массель Людмила Васильевна, Осама Ель Сайед Шета, Копайгородский Алексей Николаевич

Рассмотрены вопросы организации исследований энергетики. Для поддержки исследований предлагается организация информационного обеспечения в виде хранилища данных и знаний, в качестве последних рассматриваются декларативные явные знания. Разработана архитектура хранилища данных и знаний. Реализация выполнена с использованием современных информационных технологий.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF STORAGE OF DATA AND KNOWLEDGE TO SUPPORT THE RESEARCHES IN POWER ENGINEERING

The authors discuss the issues of organization of power engineering researches. To support the researches the authors propose the organization of information support in the form of data and knowledge (declarative explicit knowledge) storage. The authors worked out the architecture for the storage of data and knowledge. Realization is performed with the use of modern information technologies.

Текст научной работы на тему «Разработка хранилища данных и знаний для поддержки исследований энергетики»

УДК 004.67: 004.91: 004.89

РАЗРАБОТКА ХРАНИЛИЩА ДАННЫХ И ЗНАНИЙ ДЛЯ ПОДДЕРЖКИ ИССЛЕДОВАНИЙ ЭНЕРГЕТИКИ

Л.В.Массель1, Осама Ель Сайед Шета2, А.Н.Копайгородский3

1,3Институт систем энергетики им. Л.А. Мелентьева СО РАН, 664033, г. Иркутск, ул. Лермонтова, 130.

Национальный исследовательский Иркутский государственный технический университет, 664074, г. Иркутск, ул. Лермонтова, 83.

Рассмотрены вопросы организации исследований энергетики. Для поддержки исследований предлагается организация информационного обеспечения в виде хранилища данных и знаний, в качестве последних рассматриваются декларативные явные знания. Разработана архитектура хранилища данных и знаний. Реализация выполнена с использованием современных информационных технологий. Ил. 5. Библиогр. 9 назв.

Ключевые слова: хранилище данных; хранилище знаний; поддержка научных исследований.

DEVELOPMENT OF STORAGE OF DATA AND KNOWLEDGE TO SUPPORT THE RESEARCHES IN POWER ENGINEERING

L.V. Massel, Osama El Sayed Sheta, A.N. Kopaygorodsky

Institute of Power Systems named after L.A. Melentiev SB RAS, 130 Lermontov St., Irkutsk, 664033. National Research Irkutsk State Technical University, 83 Lermontov St., Irkutsk, 664074.

The authors discuss the issues of organization of power engineering researches. To support the researches the authors propose the organization of information support in the form of data and knowledge (declarative explicit knowledge) storage. The authors worked out the architecture for the storage of data and knowledge. Realization is performed with the use of modern information technologies. 5 figures. 9 sources.

Key words: data storage; knowledge storage; support for scientific researches.

Введение. В Институте систем энергетики им. Л.А. Мелентьева СО РАН выполняются исследования систем энергетики (электроэнергетики, тепло-, газо-, угле-, нефте-, нефтепродуктоснабжения), энергетической безопасности России, региональных проблем энергетики, взаимосвязей энергетики и экономики. Работы выполняются для стран СНГ, России и ее регионов. В рамках основных научных направлений выполняются исследования развития и функционирования как отраслевых систем энергетики, так и топливно-энергетического комплекса в целом. Результаты исследований отраслевых систем энергетики зачастую являются исходными данными для исследований ТЭК, а результаты исследований направлений развития ТЭК должны учитываться при исследованиях развития отраслевых систем энергетики [1].

В информационном обеспечении исследований энергетики можно выделить две взаимосвязанные, но в то же время различные проблемы:

1) проблема информационной обеспеченности,

т.е. обеспеченности данными, связанная с необходимостью получения данных из разных источников, их верификации (оценка достоверности как источников, так и самих данных, устранение ошибок и разночтений и т.д.);

2) проблема разработки инструментальных средств информационного обеспечения.

Первая проблема связана с затрудненностью получения необходимых данных и является в ряде случаев серьезным препятствием для научных исследований. Инструментальные средства информационного обеспечения исследований энергетики эволюционировали параллельно с программным обеспечением, и в институте ведутся работы по созданию качественно новых инструментальных средств.

В настоящее время, когда технические проблемы решены, на первый план вышла проблема информационной обеспеченности, так как практически невозможно получение данных с одинаковой степенью детальности по всем отраслевым системам энергетики.

1Массель Людмила Васильевна, доктор технических наук, профессор, главный научный сотрудник, тел.: (3952) 429619, email: massel@isem.sei.irk.ru

Massel Lyudmila Vasilievna, Doctor of technical sciences, professor, chief research worker, tel.: (3952) 429619, e-mail: mas-sel@isem.sei.irk.ru

2Осама Ель Сайед Шета, аспирант, тел.: 9246011081, e-mail: osama_sheta75@hotmail.com Osama El Sayed Sheta, postgraduate student, tel.: 9246011081, e-mail: osama_sheta75@hotmail.com

3Копайгородский Алексей Николаевич, кандидат технических наук, младший научный сотрудник, тел.: (3952) 428864, e-mail: digger@istu.edu

Kopaygorodsky Alexey Nikolaevich, Candidate of technical sciences, junior research worker, tel.: (3952) 428864, e-mail: dig-ger@istu.edu

С учетом появления современных технологий хранения данных, ориентированных на корпоративное использование [2], реализуется общая информационная база в виде корпоративного хранилища данных - Ре-позитария ИТ-инфраструктуры [3-5], на качественно иной основе интегрирующего операционные (использующиеся для расчетов) базы данных, имеющиеся в ИСЭМ СО РАН.

Однако до сих пор остается нерешенной проблема поддержки исследований отдельных отраслевых систем ТЭК: выполняя анализ существующих проблем и занимаясь прогнозированием развития систем энергетики, исследователь вынужден обрабатывать огромный массив данных с помощью типовых либо специализированных программных средств. Исходные данные для выполнения работ исследователи получают из различных источников, данные могут представляться в различных форматах.

Предлагаемый подход. Для поддержки исследований отдельных систем энергетики авторами предлагается использовать специализированные хранилища данных и хранилища знаний для каждой системы энергетики. Под хранилищем данных понимается предметно-ориентированный, интегрированный неизменяемый набор данных с поддержкой хронологии записи данных, необходимый для принятия решений [2]. Для систематизации и накопления знаний о предметной области, представленных в виде документов (статей, отчетов и др.), используется хранилище знаний. Под знаниями о предметной области в первую очередь понимаются декларативные явные знания [6], но в системе также предусмотрена возможность хранения процедурных знаний (описания программ и алгоритмов). Метаданные позволяют описывать знания, выполнять их классификацию и каталогизацию, и используются для быстрого и удобного поиска. При применении «типовых решений» поддержки исследова-

ний отдельных систем задача построения единого корпоративного хранилища для решения комплексных проблем энергетики значительно упрощается.

В ИСЭМ СО РАН на протяжении ряда лет ведутся работы по созданию ИТ-инфраструктуры исследований энергетики [3,4], которая призвана облегчить разработку и использование различных информационных и вычислительных ресурсов. ИТ-инфраструктура состоит из четырех основных составляющих: интеллектуальной, информационной, вычислительной и телекоммуникационной инфраструктур.

Информационная инфраструктура [5] объединяет информацию обо всех разрозненных базах данных, программных комплексах, моделях данных, моделях программ, представленных в виде UML, ERD, XML и др. Программные компоненты информационной инфраструктуры создаются на основе концепции сервис-ориентированной архитектуры (SOA): с одной стороны, компоненты обеспечивают выполнение достаточно простых функций, с другой, применение компонентов в определенной последовательности позволяет решать достаточно сложные задачи. Применение готовых компонентов позволяет ускорить реализацию хранилища данных и знаний для поддержки исследований систем энергетики.

Архитектура хранилища данных и знаний. Процесс исследования любой энергетической системы начинается со сбора массива исходных данных, который может быть получен из различных статей, отчетов, статистических сборников. В качестве исходных данных могут выступать также результаты предыдущих исследований. Внесение информации выполняется с привязкой к словарю предметной области: исследователь должен выполнить сопоставление определенных отчетных или статистических данных с регионом, категорией ресурса, его целевым назначением, а также указать другие классификационные ха-

Репозитарий ИТ-инфраструктуры

Хранилище данных

Метаданные

Словарь предметной области

Хранилище знаний

Источники данных, результаты, инструменты анализа

Ж

Система управления базами данных

Файловое хранилище

Знания, помещаемые и извлекаемые из Хранилища

Рис. 1. Архитектура хранилища данных и знаний исследований энергетики

рактеристики. В хранилище данных и хранилище знаний отдельной отрасли энергетики словарь предметной области является общим (одним) и содержит свойственные ей классификаторы (рис. 1). Метаданные также являются общими и описывают как структуру данных, так и документы, помещаемые в хранилище. Таким образом, хранилище данных и знаний состоит из четырех основных логических частей: словаря предметной области, метаданных, непосредственно данных хранилища, которые физически расположены в базе данных, и декларативных знаний, представленных в виде документов, которые находятся в файловом хранилище. Стоит отметить, что ограниче-

хранилище данных в соответствии с созданной моделью для выбранной системы энергетики. После внесения данных исследователь имеет возможность выполнить их анализ, выгрузку в различные форматы, использовать полученные данные в качестве исходной информации для специализированных программ моделирования. Таким образом, основная сложность реализации хранилища данных для поддержки исследований систем энергетики заключается в создании достаточно универсальных механизмов импорта и экспорта данных, а также в описании модели предметной области внутри хранилища. Архитектура хранилища данных представлена на рис. 2.

Admin Tools

Средства администрирования Хранилища данных

Внешние и внутренние

Загрузка SDF

Внутренний уровень загрузки

Данные в Хранилище

I

О

Словарь

предметной области Уровень хранилища

Выгрузка SDF Преобразование результата 2

Отчеты

Внутренний уровень выгрузки

Внешний уровень

Рис. 2. Архитектура хранилища данных для поддержки исследований систем энергетики

ния накладываются только на структуру метаданных, которые описывают документы, находящиеся в хранилище, модели словаря предметной области и хранилища данных.

Репозитарий является одним из основных компонентов ИТ-инфраструктуры исследований энергетики и содержит информацию обо всех других компонентах, их местоположении и способах доступа к ним [5]. В нем описываются хранилища данных и знаний отдельных систем энергетики, указывается их расположение (адреса серверов) и интерфейсы взаимодействия (описания Web-сервисов). В Репозитарии также описаны оперативные базы данных, используемые в исследованиях, программные комплексы, научные труды сотрудников института и др.

Хранилище данных. В процессе исследований функционирования и развития энергетических систем приходится оперировать достаточно большими объемами данных, получаемых из различных источников. Большой объем данных обусловлен их временным характером и множеством показателей исследуемых объектов энергетики. Информация размещается в

Задачи импорта и экспорта данных в хранилище выполняются в два этапа с применением промежуточного формата хранения подготовленных данных (Structured Data File - SDF). При загрузке на первом шаге данные преобразуются в SDF-формат, а затем выполняется загрузка SDF-файлов в хранилище. При экспорте - данные извлекаются в промежуточном формате SDF, а затем с помощью специализированных средств конвертирования могут быть преобразованы в различные документы: RTF, TXT, DBF, HTML, Microsoft Word, Microsoft Excel и др. При этом не накладывается жестких ограничений ни на форматы исходных данных, загружаемых в хранилище, - они могут быть представлены в различных СУБД или документах, ни на форматы выходных документов. Если необходима поддержка нового формата - потребуется лишь реализовать конвертор, который преобразует данные из SDF-формата в требуемый формат документов.

Одним из основных принципов построения хранилища данных для поддержки исследований систем энергетики является использование единой структуры

метаданных (части схемы базы данных). Метаданные хранилища описывают лежащую в его основе модель данных для исследуемой системы энергетики, структуру словаря предметной области, содержат регламентированные запросы, а также другую дополнительную информацию, используемую для автоматизации работы. Таким образом, становится возможным построение универсальных программных компонентов, взаимодействующих с хранилищем, не зависящих от исследуемой системы энергетики.

Для конфигурирования хранилища данных и описания модели исследуемой системы энергетики была разработана программа администрирования (рис. 3), реализация которой выполнена на объектно-ориентированном языке Java (Java Standard Edition) в среде NetBeans [7,8].

дований угольной промышленности была сформулирована Л.Н. Такайшвили [9]. Хранилище знаний предназначено для накопления и структурирования декларативных явных знаний предметной области. Архитектура хранилища знаний представлена на рис. 5. Основным понятием, которым оперирует хранилище, является «Документ». Документ имеет аннотацию, некоторую структуру (содержание, список таблиц, рисунков), содержит информацию об авторах, дате и месте публикации (в том числе организацию издателя и URL электронного документа), связан с ключевыми словами и классификаторами из словаря предметной области. Кроме метаданных (описаний) документов в хранилище знаний могут содержаться и их полные тексты. Для более удобного представления документов и работы с ними в хранилище предусмотрена воз-

! AdminTools

Файл Правка База данных ?

^jnjxj

Активное подключение к базе данный

jdbc:firebirdsql:local:DB1.GDB Основные параметры таблицы

Выбрать таблицу

Таблица COALENTERPRISE

Название Предприятия Описание

Таблица содежит основные данные по угледобывающим предприятиям России

Категория Справочники

Столбцы

TYPEENTERPRISE

MANAGCOMPANY

COALENTERPRISE

COALMARK

SUBJECTFEDERATION GROUPS

COALEXTRACTION COALPROCESSING SUPPLYJJSE TYPEGROUP

4

Закрыть

Column Name Column Type Col... Key Column Label Edit Control T... Group Or...

ID INTEGER 11 PK PK Field Text 1 1 А

NAME VARCHAR 100 Название Field 2 1 Ts

PREV NAME VARCHAR 100 Предыдущее название Field 3 1 J

PROD CAPACITY INTEGER 11 Производственная мощность Integer Field Запасы угля 4 1

START YR INTEGER 11 Год сдачи в эксплуатацию Integer Field Запасы угля 5 1 В.

SUPPLY VARCHAR 10 Промышленные запасы угля Field Запасы угля 6 1 ¥

Сохранить Отменить

Рис. 3. Интерфейс программы администрирования хранилища данных

Просмотр, корректировка и извлечения данных из хранилища выполняются с помощью клиентской программы (рис. 4), которая в своей работе активно использует метаданные, расположенные в хранилище. Реализация этой программы также выполнялась на языке Java. В настоящее время в качестве базовой СУБД используется Firebird. Стоит отметить, что при выбранном подходе к созданию инструментальных средств и использованию метаданных возможен достаточно легкий переход почти на любую другую СУБД.

Хранилище знаний. Первоначальная постановка задачи разработки хранилища документов для иссле-

можность создания логических группировок на основе метаданных - витрин документов. Под витриной документов понимается виртуальная совокупность документов хранилища, выделенная по какому-либо признаку или для определенной цели [9]. Например, в хранилище можно создать такие витрины документов, как «статьи», «книги», «статистические сборники», «издания 2009 года по СФО», «подготовка отчета по НИР». Витрины документов формируются на основе поисковых запросов и могут содержать как шаблоны запросов, которые будут всякий раз выполняться при

Кибернетика. Управление в сложных системах

¡Хранилище данный «следований Угольной промышленности

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Файл Правка Вид Сервис Окно ?

т [ш Данные _ Добыча _ Переработка т СЗ Классификаторы _ Способ добычи _ Тип предприятия _ Марка угля _ Назначения испс _ ПоставкаУпотреб) _ Тип угля _ Запасы угля т (ш Справочники

К Предприятия

_ Месторождение _ Страны Мира _ Управляющие ко _ Субъекты федер _ Угольные бассей _ Уголь

Л

: у

ное общество «Промыш енной ответственностью енной ответственностью ное общество Открытая енной ответственностью ное общество «Разрез <= ное общество «Шаэта «Г ное общество «Ша*та < ное общество «Ша*та <} ное общество «Обогатит ное общество «Междуре ное общество «Разрез <= ное общество «Угольна: енной ответственностью ное общество «Черниго! ное общество «Угольна: ное общество «Междуре

ипр пйшагтвп дРзтпрт (

Предприятия

] Предприятия - Добавить

Название

Предыдущее название Тип предприятия Управляющая компания Субьект РФ Запасы угля

□ш

Новое предприятие

Угледобывающее

ОАО «Воркутауголь»

Сибирский ФО

ШРПЙ|||РГТЙП < _£

Производственная мощность Год сдачи в эксплуатацию Промышленные запасы угля Вынимаемая мощность пласта

152000

1974

542

87,5

Максимальная глубина разработки 462

Метод добычи

Закрытый

Сохранить | [ Отмена

Рис. 4. Интерфейс программы для работы с хранилищем данных

Хранилище знаний

Рис. 5. Архитектура хранилища знаний

выборе той или иной витрины, так и результаты запроса, которые являются статичными.

Для обеспечения безопасности знаний в хранилище предусмотрено использование симметричного шифрования. Алгоритмы шифрования могут быть применены только к полным текстам документов, расположенным в хранилище. Использование именно симметричного шифрования обусловлено тем, что

шифрование и дешифровка данных выполняются на стороне клиента (на одном и том же компьютере), поэтому применение асимметричных алгоритмов не является целесообразным. Основными задачами файлового хранилища являются размещение, передача файлов пользователю и их удаление, поэтому содержание файлов всегда находится в зашифрованном виде.

Для обеспечения многопользовательского доступа к шифрованным данным без размещения ключей на всех компьютерах может использоваться криптошлюз. Ключи шифрования размещаются на этом защищенном узле, с указанием пользователей и документов, к которым они могут быть применены. При запросе данных через криптошлюз последний выполняет эквивалентный запрос к хранилищу данных, дешифрование и передает результат пользователю.

Для работы с хранилищем знаний была разработана программа на языке Java, которая позволяет вносить, описывать, находить и извлекать декларативные знания, представленные в виде документов.

Заключение. В статье описана разработка хранилища данных и знаний для исследования отраслевых систем ТЭК. Для поддержки этих исследований авторами предлагается использовать: специализированное хранилище данных и знаний; метаданные, которые описывают исследуемую систему энергетики;

структуру данных и документы, помещаемые в хранилище. Применение метаданных позволяет строить универсальные программные компоненты, взаимодействующие с хранилищем. Реализация инструментальных средств выполняется на объектно-ориентированном языке Java, в качестве базовой СУБД используется Firebird. Созданное хранилище данных и знаний интегрировано в ИТ-инфраструктуру исследований энергетики. Универсальные компоненты информационной инфраструктуры могут быть применены для решения различных задач: построения отчетов, преобразования данных для аналитических систем, извлечения и передачи данных в различные СУБД и загрузки данных из XML-файлов. Исследования, описанные в статье, выполнены при частичной финансовой поддержке грантов РФФИ №08-07-00172, №10-07-00264 и гранта Программы Президиума РАН №2.29.

Библиографический список

1. Беляев Л.С., Санеев Б.Г., Филиппов С.П. и др. Системные исследования проблем энергетики / под ред. Н.И. Воро-пая. Новосибирск: Наука, 2000. 558 с.

2. W. H. Inmon Building the Data Warehouse, Fourth Edition, 2005 Published by Wiley Published Publishing, Inc., Indianapolis, Indiana.

3. Воропай Н.И., Массель Л.В. ИТ-инфраструктура системных исследований в энергетике и предоставление ИТ-услуг // Известия АН. Энергетика. 2006. №3. С. 86-93.

4. Массель Л.В., Копайгородский А.Н. Технологии и система хранения данных и знаний для исследований в энергетике // Материалы Всероссийской конференции "Современные информационные технологии для научных исследований". Магадан: СВНЦ ДВО РАН, 2008. С. 64-66.

5. Копайгородский А.Н., Массель Л.В. Разработка и интеграция основных компонентов информационной инфра-

структуры научных исследований // Вестник ИрГТУ. 2006. № 2 (26). С. 20-24.

6. Тузовский А.Ф., Чириков С.В., Ямпольский В.З. Системы управления знаниями (методы и технологии) / под ред. В.З. Ямпольского. Томск: Изд-во НТЛ, 2005. 260 с.

7. Брюс Эккель. Философия Java (Thinking in Java). 3-е изд. СПб.: Питер, 2003. 976 с.

8. Монахов В.В. Язык программирования Java и среда NetBeans. 2-е изд. СПб.: БХВ-Петербург, 2009. 720 с.

9. Такайшвили Л.Н., Осама Ель Сайед Шета. Проектирование хранилища документов для исследований развития угольной промышленности // Труды Х1У Байкальской Всероссийской конференции "Информационные и математические технологии в науке и управлении". Иркутск: ИСЭМ СО РАН, 2009. С. 208-214.

УДК 519.21

ЭКОНОМИЧЕСКАЯ МОДЕЛЬ ТЕХНОЛОГИЧЕСКИХ ПРОЦЕССОВ ОБОГАЩЕНИЯ ПОЛЕЗНЫХ ИСКОПАЕМЫХ

Нгуен Ван Чи1, А.В.Петров2

Национальный исследовательский Иркутский государственный технический университет, 664074, г. Иркутск, ул. Лермонтова, 83.

Разработана экономическая модель технологических процессов обогащения полезных ископаемых на основе технических решений горно-обогатительных предприятий. В модели проведены характерные расчеты, связанные с изменениями объема производства извлечения металла, качества исходного сырья, поступающего в переработку, комплексности использования сырья и отходов производства, расходных коэффициентов и цен на материалы, энергию, производительности труда. Ил. 5. Библиогр. 5 назв.

Ключевые слова: обогащение полезных ископаемых; экономическая модель; объём производства; извлечение металла; качество исходного сырья; расходные коэффициенты; капитальное вложение; производительность труда; индексный метод; транспортные издержки.

ECONOMIC MODEL OF THE TECHNOLOGICAL PROCESSES OF MINERAL CONCENTRATION

1 Нгуен Ван Чи, аспирант, тел.: 89148934052, e-mail: chiqt1183@yahoo.com.

Nguyen Van Chi, postgraduate student, tel.: 89148934052, e-mail: chiqt1183@yahoo.com.

2Петров Александр Васильевич, доктор технических наук, профессор, декан кибернетического факультета.

Petrov Alexander Vasilyevich, Doctor of technical sciences, professor, Dean of the Faculty of Computer Engineering.

i Надоели баннеры? Вы всегда можете отключить рекламу.