Научная статья на тему 'Процесс добычи, обработки и прогнозирования морской технологической информации с использованием инструментария SQL Server'

Процесс добычи, обработки и прогнозирования морской технологической информации с использованием инструментария SQL Server Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
124
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОРСКАЯ ТЕХНОЛОГИЧЕСКАЯ ИНФОРМАЦИЯ / MARINE TECHNOLOGY INFORMATION / ХРАНИЛИЩЕ ДАННЫХ / DATA WAREHOUSE / ПРОГНОЗИРОВАНИЕ / FORECASTING / ПРОГРАММНЫЕ СРЕДСТВА / SOFTWARE / МОРСКИЕ НЕДРА / MARINE SUBSOIL

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Доровской Владимир Алексеевич, Черный Сергей Григорьевич

В работе рассмотрены вопросы добычи, обработки и прогнозирования морской технологической информации с использованием инструментов MS SQL SERVER. Проведенные исследования показали необходимость включения в разрабатываемую информационную систему хранилищ для морской технологической информации и программных средств по их извлечению, преобразованию, загрузке и очистке данных. Математически описаны аспекты формирования меры близости для базовых таблиц и рассмотрены элементы обращения к информационному компоненту в среде хранилища данных. Предложено формирование компоненты по оценке меры близости фактора решения задачи в структуре основного блока хранилища. Предложено использовать правило для обращения к структуре таблицы не используя хэш функций или прецедентные структуры в прослойках кода. Математически описана задача семантического фактора образа решения задачи в Data Mining.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Доровской Владимир Алексеевич, Черный Сергей Григорьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PROCESS FOR PRODUCTION, PROCESSING AND FORECASTING of Marine Technological information with SQL SERVER

The article discusses marine technological information production, processing and predicting with SQL SERVER. The studies give reason for including the storage of marine technology information and software on their extract, transform, and loading data cleaning into the developing information system. Aspects of forming closeness measure for base tables are mathematically described and elements of adress to the information component in the data warehouse environment are discussed. Components for the problem solving factor proximity in the structure of the storage main unit measure evaluation is proposed. It is also proposed to use a rule to address to the table structure without using hash functions or precedent in the interlayer structure of the code. The problem of problem solving way semantic factor in Data Mining is mathematically described.

Текст научной работы на тему «Процесс добычи, обработки и прогнозирования морской технологической информации с использованием инструментария SQL Server»

УДК 004.9 Доровской Владимир Алексеевич,

д. т. н., профессор кафедры электрооборудования судов и автоматизации производства, Керченский государственный морской технологический университет, e-mail: [email protected]

Черный Сергей Григорьевич, к. т. н., доцент кафедры электрооборудования судов и автоматизации производства, Керченский государственный морской технологический университет, тел. +380505907708. e-mail: [email protected]

ПРОЦЕСС ДОБЫЧИ, ОБРАБОТКИ И ПРОГНОЗИРОВАНИЯ

МОРСКОЙ ТЕХНОЛОГИЧЕСКОЙ ИНФОРМАЦИИ С ИСПОЛЬЗОВАНИЕМ ИНСТРУМЕНТАРИЯ SQL SERVER

В. A. Dorovskoy, S. G. Cherny

PROCESS FOR PRODUCTION, PROCESSING AND FORECASTING OF MARINE TECHNOLOGICAL INFORMATION WITH SQL SERVER

Аннотация. В работе рассмотрены вопросы добычи, обработки и прогнозирования морской технологической информации с использованием инструментов MS SQL SERVER. Проведенные исследования показали необходимость включения в разрабатываемую информационную систему хранилищ для морской технологической информации и программных средств по их извлечению, преобразованию, загрузке и очистке данных. Математически описаны аспекты формирования меры близости для базовых таблиц и рассмотрены элементы обращения к информационному компоненту в среде хранилища данных. Предложено формирование компоненты по оценке меры близости фактора решения задачи в структуре основного блока хранилища. Предложено использовать правило для обращения к структуре таблицы не используя хэш функций или прецедентные структуры в прослойках кода. Математически описана задача семантического фактора образа решения задачи в Data Mining.

Ключевые слова: морская технологическая информация, хранилище данных, прогнозирование, программные средства, морские недра.

Abstract. The article discusses marine technological information production, processing and predicting with SQL SERVER. The studies give reason for including the storage of marine technology information and software on their extract, transform, and loading data cleaning into the developing information system. Aspects of forming closeness measure for base tables are mathematically described and elements of adress to the information component in the data warehouse environment are discussed. Components for the problem solving factor proximity in the structure of the storage main unit measure evaluation is proposed. It is also proposed to use a rule to address to the table structure without using hash functions or precedent in the interlayer structure of the code. The problem of problem solving way semantic factor in Data Mining is mathematically described.

Keywords: marine technology information; data warehouse; forecasting; software; marine subsoil.

Введение

Эксплуатация океана и его ресурсов на протяжении существенного периода времени ограничивалась рыболовством и прибрежной деятельностью. Технологические ограничения не позволяли в более глубоких водах организовывать рентабельные предприятия. Интерес к глубокой морской добывающей промышленности впервые появился в 1960-е годы, но оценка решений и их поддержка при помощи информационных технологий в тот момент не производилась. С 2000-х годов единственным ресурсом, добываемым со дна океана, были бриллианты и определенный вид конкреций (всего в нескольких сотнях метров ниже поверхности). И в первые десятилетия XXI века существуют причины, которые препятствуют разработкам. Отметим, что геологоразведка и подводное строительство осуществляется с помощью флотов автоматизированных и дистанционно управляемых аппаратов. Быстрый рост спроса на редкоземельные элементы, используемые в широком спектре электроники и других высокотехнологичных приложений, создавал все более острый дефицит сырья, что превратило их в ресурсы стратегического значения и подняло на один уровень

с добычей нефти и природного газа в предыдущие десятилетия. Это стало особенно очевидным в Азии. Такие страны, как Индия, Япония, Южная Корея и Индонезия наращивают усилия. Широко, хотя и с большим риском опасности, добывается гидрат метана.

Возникает существенная необходимость в информационной поддержке принятия решений процессов глубоководной добычи.

Анализ исследований

Процесс получения любой информации базируется на информационной теории измерения, которая рассматривает данный процесс как совокупность ряда последовательных измерительных и других преобразований. При этом величина выходного сигнала (конечного результата) зависит от свойств и параметров его составных элементов, т. е. сигналы от источников сообщения регистрируются в условиях наложения помех [1]. Процесс получения морской технологической информации можно представить в виде информационной модели, включающей параметры морского геологического или иного объекта с учетом результатов измерений (например: результаты интерпретации). Отметим, что эффективность измерений связана

ш

с числом одновременно регистрируемых показателей (факторов), количеством и характером возникающих помех. Для процесса качественной оценки эффективности измерений и визуализации данных вводят меры оптимальности решений: меры точности, меры надежности, показатели сравнительной эффективности измерений технологических параметров морской информации. Одним из важнейших показателей при измерении и интерпретации является чувствительность результата измерения или интерпретации к вариации параметра кортежа информационной модели морского горного предприятия; отсюда и информативность экспериментального метода познания. Информацию, которая была получена по результатам процесса измерений и контроля, и содержащуюся в литературных источниках, отчетах предыдущих работ и в архивах, относят к накопленной, а информацию, полученную непосредственно при проведении опытных работ, - к оперативной [1]. Разнообразие информационных факторов и показателей обусловливает различные системы ее сбора и регистрации. При условии разового оперативного контроля морской технологической информации регистрация показателей прибора ведется посредством записи в журнал или на другие носители, тогда для непрерывных длительных измерений важную роль играет «специализированная» запись аналоговым способом (на бумажные и магнитные носители - перфоленты, магнитные ленты, диски; в зависимости от типа оборудования).

Процесс компьютеризации измерений привел к цифровому способу записи информации, и для многих методов изучения морских горных пород и массивов (моргеомеханических процессов) широко применяют цифровую регистрацию с аналого-цифровым преобразованием сигнала. При этом используют современный путь преобразования сигналов путем квантования по уровню (кодирование амплитудных значений) и квантования по времени (дискретизация).

Постановка задачи

Сбор информации о свойствах и состоянии морских недр представляет собой систему последовательного накопления данных с применением широкого набора методов получения информации: моргеофизических, моргеологических съемок, морского бурения, каротажа, документации и анализов кернов, скважинной, межскважинной и подземной моргеофизики, разведочных и эксплуатационных морских горных выработок.

Перечисленные методы представляют собой группу по сбору, хранению и обработке информации, а также имеют свою систему понятий и терминологию, что ведет к возникновению огромных

информационных массивов, с которыми может справляться лишь информационно-вычислительный комплекс (ИВК). На стадии проектирования морских угольных предприятий в состав исходных моргеоданных входят более 25 показателей о породах, угольном пласте и углевмещающем массиве.

Изложение основного материала

Процесс обработки информации включает четыре последовательные стадии: начальная, цель которой - создание в машинной памяти цифровых моделей наблюденных морских полей с учетом их привязки; вторая - содержательная обработка морской информации с качественным и количественным анализом; третья - интерпретация морских данных (по методу и в комплексе); четвертая - формирование архива с целью многократного использования морских данных для переработки, возможной новой интерпретации и обобщения (табл. 1).

Т а б л и ц а 1

Жизненный цикл данных

Генерация данных OLTP-системы, БД, файлы разных форматов, CRM-системы и др.

ETL-процессы (Extraction Transformation, Load) 6080 % времени. Извлечение и очистка данных Трансформация данных Загрузка данных в хранилище Data Warehouse

Преобразование данных на сервере в унифицированный формат для эффективного доступа и анализа UDM-модель, OLAP-системы

Анализ данных для принятия управленческих решений Клиентские системы: Excel, ProClarity, системы отчетности

Организация и оптимизация любых морских горных работ с большим объемом многофакторной информации, используемой в различные периоды времени различными пользователями, требуют наличия хранилищ данных.

Рис. 1. Планирование и разработка хранилищ данных и киосков данных

ИВК характеризуется возможностями создания хранилищ данных и базы знаний, т. к. этому способствует развитие информационно-вычислительных сетей (ИВС), которые обслуживают индивидуальных и коллективных пользователей информации. Наличие хранилищ данных и баз знаний, а также ИВС обеспечивает возможность постоянного их функционирования с определенной степенью доступности, процесса непрерывного сбора и хранения, широкого обмена информацией на различных масштабных уровнях. Хранилища данных (ХД) разрабатываются в интересах конечных пользователей, поэтому в основу проектирования закладываются концептуальные требования (базис) конечных пользователей. На основе компонентов хранилищ данных создают цифровые объемные модели исследуемых объектов. Модели являются исходной информацией для моргеологоэкономической оценки подсчета запасов, моргеотехнологического картирования, проектирования систем отработки месторождений и т. п. Каждая итерация использования данных порождает свою, более детальную объемную модель (часто называют «куб»). Анализ модели, полученной на заданной стадии проведения работ, обеспечивает основу проектирования и планирования работ последующей стадии. Содержимое банка знаний не исчерпывается описательными моделями объектов и явлений, хотя они составляют его важнейший компонент. Для каждого объекта банк хранит характерные разрезы (планы) и другие материалы в виде традиционных для морских геологов и горняков изображений, что позволяет преодолеть терминологические и понятийные различия в толковании одних и тех же факторов. Часто данные модельные компоненты интегрируются в специализированные геоинформационные программные комплексы. Основные принципы организации банка знаний следующие: персонификация моделей и факторов; непрерывность его обновления за счет изучения новых объектов и явлений; расширение описательных моделей графическими образами и содержательными выводами, включая создание для эксперта видеографических средств «рисования» графических образов объектов. Информационно-вычислительные сети предназначены для предоставления пользователям возможности обмена сообщениями и передачи файлов. Во втором режиме пользователь осуществляет передачу файлов информации в ХД, передачу пакета запросов в информационную базу и прием пакета ответов из информационной базы. В режиме обмена сообщениями пользователь оперативно удовлетворяет информационную потребность из ХД с целью принятия обоснованных ре-

шений. Модели запросов по извлечению данных или поиску релевантной информации разнообразны и зачастую используют прецедентные структуры, кластерную типизацию или меры близости аналогий. Наиболее массовым элементом ИВС является полностью автономная система обработки данных на персональном компьютере. Нижний уровень в иерархии сетей представлен локальной сетью, которая способна функционировать полностью автономно и поддерживать эффективную связь между элементами сети, как правило с использованием каналов связи и программной поддержки. Другими словами, в локальной сети сочетаются преимущества автономного распределения обработки информации с возможностями индивидуального доступа к общим информационным ресурсам морского горного предприятия и морского горно-промышленного региона.

Коллективное (групповое) использование информационных ресурсов позволяет сохранить время и эргономично использовать ресурсы средств вычислительной техники. Многообразие представленных задач, которые требуют решения при освоении морских недр, является причиной значительных трудностей, возникающих при создании морских автоматизированных и экспертных систем, обслуживающих одновременно несколько предметных областей и имеющих различные масштабные уровни. Данные ограничения направлены на специализацию комплексов, как это делают в моргеологии: по объектам или по стадиям и задачам, соответствующим профессиональным интересам (картирование, поиск, подсчет запасов и т. д.). Для моргеофизиков обычно характерна специализация по методам и задачам прогноза, для морских горняков - по роду деятельности и технологическим процессам.

Специалитет МГП формируется структурный объем знаний, который при наличии МАРМ (морского автоматизированного рабочего место) позволяет расширить потенциальные возможности пользователя при подготовке альтернативных решений (аналогий). Совершенствуя формализацию при решении сложных задач, МАРМ позволяет повысить эффективность деятельности морских автоматизированных и экспертных систем. МАРМ в зависимости от вида входящих в них программных комплексов подразделяют на проблемно-ориентированные и объектно-ориентированные, те и другие могут работать как независимо (стационарно или с установкой на передвижных средствах), так и с любыми другими более мощными вычислительными комплексами.

Модели МАРМ комплектуются ЭВМ и содержат специальные накопители, включая «обла-

ш

ка», устройство печати, дисплеи и т. д. Мониторинг за состоянием и параметрами морского горного объекта может осуществляться на различных масштабных уровнях: от региона до эксплуатационного забоя. Это определяет использование ИИС и ИВК различной вычислительной мощности и комплектации.

В качестве технических средств передачи технологических данных используют аппаратуру передачи данных (АПД) — модемы в телефонной сети, устройства преобразования сигналов (УПС) в телеграфной сети и сети передачи данных, а также устройства сопряжения аппаратуры передачи данных с ЭВМ (адаптеры, мультиплексоры передачи данных). Эти средства обеспечивают соединение пользователей с удаленными хранилищами данных, обмен информацией между базами данных и между собой.

Важнейшим элементом являются программные средства, которые представляют собой совокупность методов, алгоритмов (математических, эвристических, экспериментальных) и программ решения на ЭВМ задач обработки, анализа и интерпретации данных с целью выработки оптимальных решений по управлению процессами, морским производством и освоением морских недр в целом. Качество используемых алгоритмов проверяется результатами моделирования и анализа, практическим путем. Любая морская автоматизированная система обработки данных (МАСОД) включает пакеты прикладных программ, которые, в свою очередь, представляют собой комплексы программ, ориентированные на решение конкретного класса задач. Математически опишем аспекты данных блоков.

Модель системы S может получена в результате идентификации системы в виде:

S = {G, Q, Ф, U, F, D, П, N, Y, ST, Sf, 9, y},

где G - множество целей (функция, картеж, макрофункция). Количественное выражение цели G представляет макрофункция Ф:

G ^ {Ф} i = 1, m ;

Р - множество проблем P = {Pi}, i = 1, N. Подмножество проблем {Pr}, которому соответствует настоятельность решения, вычисляется по формуле вида

{Pr} = min{ P } i = 1N;

t '

Ф - макрофункция системы - количественное выражение цели функционирования системы (макрофункция позволяет в рамках существующей структуры выделить подмножество системообра-

зующих связей (Бу, Б1к) = Я, принимающих непосредственное участие в выполнении цели). Идентификация в функциональной структуре системообразующей компоненты

^ = <{ £},(£,£ 1) I * ] > или £ = <{ £ }, Я, > позволяет проводить процесс анализа, ориентированного на систему позиционного назначения. Функций в системе идентифицируются путем «вложения» функциональной многослойной

иерархии Ф = {Fi} в многослойную структуру £ , а получение необходимых решений обеспечивается решением системы задач);

^ - система функций. Важным методологическим моментом является тезис о том, что система функций определяет структуру, а не наоборот: ^ ^ = <{Бу}, (Бу, Б1к)>;

В - множество задач. Уточнение сущности и состава задач возможно после соответствующей классификации задач (глобальной задачи - В, задач координации - В у, задач управления - Вм, технологические задачи - Вр), как в иерархической системе управления: В ^ £ , В у ^ Б2, Вм

^ £3, Вр ^ ТА.

Сущность задач определяется выражением: D = <Y, f, г, х, О, з>, где f - алгоритм выбора решения; 2 - критерий выбора; з - алгоритм сокращения неопределенности. Выражение для В может быть записано в виде В: Уор1 = ех& /(.X, з(О)),Уор( е У; X - множество параметров системы (входных управляющих воздействий), связанных с функционированием системы; ^ - множество неопределенностей (возмущающих воздействий), вызванных влиянием случайных факторов, действующих в условиях развивающихся положительных и отрицательных тенденций Сокращение множества неопределенностей, связанного с решением задачи, обеспечивается учетом внешних и внутренних факторов, определяющих изменение переходной функции состояния системы:

ф: Тх Тх Тх О х и ^ и, которая может быть записана: и(1) = ф(1, т, х(? -Т ), О(? -т ), и(т ), ? > т ;

У - множество выходов; и - множество состояний системы; О - функциональная структура системы, образованная множеством элементов и связей между ними, которая может быть представлена в виде

О = < {Б}, р, (Б, Б), рг/>, i = 1,т; = 1,т; i * ], где {Б} - множество функциональных подсистем или элементов системы, ориентированных на выполнение ^й функции, структура которых счита-

ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ

ется определенной и не подлежит дальнейшему разбиению средствами данного метода декомпозиции в границах данного исследования;

рг - количественные характеристики г-й подсистемы (мощность, емкость, производительность, интенсивность и др.);

(Бг, - связи между г-й иу-й (г Фу) подсистемами, позиционируемые для реализации г-й функции; ру - количественные характеристики связей; ф - переходная функция состояний; у -функция выхода.

Исследование механизма саморегулирования [2, 3, 4] при реализации оптимальных стратегий для предприятий горной морской отрасли с изменяющимися условиями реализации стратегических планов, позволяют определить существующую схему настройки традиционной технологии оптимального стратегического планирования, которая является технологией пассивной адаптации:

{р*,Э> г]Ьр,эр}Щ 1 г]... ^рд эр , г] ... , г]}'^ (1) ^рД э?}

Содержание схемы традиционной технологии системы оптимального стратегического планирования (1) описывают величины:

Р* - оптимальный стратегический план на период [0, Т] (периодом может быть год, два, три, пять и

т. д.);

*

Э^ - интегрированный показатель эффективности

плана Р* (интегрированным показателем эффективности плана можно взять показатель рассчитанного дохода);

7-1* <->*

р , Э* - соответственно план и интегрированный показатель плана на период [', Т]; ' = 1, Т - индекс стратегического планирования; Щ - множество возмущений, влияние которых на ПЭС приводит к синтезу новой стратегии р, р; В - блок формирования механизма компенсации возмущений Ог;

2], 2] - затраты на стабилизацию предприятия от влияния возмущений О;

*

ti - период реализации стратегии Рг .

Оптимальная область маневрирования определяется решением следующей задачи стохастического программирования:

R * = Arg mm \ F(R) = M© £ fs (R, ©JR > R [,

S=1

где R* = ¡К* } £ = 1, £ - кортеж оптимальной области маневрирования с учетом непрямого резерва; ¥ (я) - недифференцируемая функция, при-

чем

fs(R,0) = Smaxfa(Rs ~©s),P{©s ~Rs)},

s=1

0 = {©^ }, s = 1, s - случайный кортеж использования s -го ресурса;

as - удельные затраты из-за излишка s -го ресурса; ps - удельные затраты из-за дефицита s -го ресурса;

M0 - знак математического ожидания;

R = R } s = 1, s - кортеж объема ресурсов, необходимый для выполнения обязательной части стратегии ПП;

Rs =Z as]XJs,

s = 1, s, - обязательная часть

j=i

стратегии по производству продукции.

Широкое распространение технологий автоматизированной обработки морской технологической информации и накопление в компьютерных системах больших объемов данных, сделали актуальной задачу поиска неявных (не прямых) взаимосвязей (сущностей), которые заложены в структуру набора данных. Для нахождения подобных зависимостей используются методы математической статистики, теории баз данных, методы прецедентов, теории искусственного интеллекта и ряда других областей, которые составляют комплекс технологии интеллектуального анализа данных (англ. Data Mining).

Таблица исходных паттернов

Рис. 2. Технология интеллектуального анализа данных (Data Mining)

Как показано на рис. 2, данные аспекты можно соотнести с тремя основными компонентами: сервер хранилища данных (Data Warehouse, DW), инструментарий оперативной аналитической обработки и добычи данных и инструменты для пополнения ХД содержат информацию, собран-

ную из нескольких операционных баз данных (БД). Объем данных в ХД зачастую на порядок выше объёма операционных БД и может достигать сотен гигабайт или нескольких терабайт. ХД поддерживается независимо от оперативных баз данных предприятия, т. к. требования к функциональности и производительности аналитических приложений отличаются от требований к транзакци-онным системам. ХД создаются ориентированными для приложений поддержки принятия решений и предоставляют накопленные за определенное время сводные и консолидированные данные, которые более приемлемы для анализа, чем детальные индивидуальные записи Рабочая нагрузка ХД состоит из нестандартных, сложных запросов к миллионам записей При выполнении запросов осуществляется огромное количество операций сканирования, соединения и агрегирования, что влечет время отклика для ХД и существенно важнее, чем пропускная способность. Один из вариантов поиска информационного потока или блока можно представить математическим описанием как многокритериальную задачу.

Пусть решается многокритериальная задача

поиска точки решения X* из области О. X - совокупность векторов предпочтений данных критериев , г = 1, т; т - метрическое пространство

( т \

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Хел / = 1, X ^ 0

V

ющим

образом:

Обозначим Я следу-причем

Я с Я+, г е Я

: г. — г — Г

Хс Я_,_ , г = 1, т .

где , г -

соответственно минимально и максимально допустимые значения компонентов вектора предпочтений, причем может выполняться условие

I Г- > 1.

(2)

г=1

(у = 1,2,..., N. Здесь

Оу характеризует связь г-го и у-го элементов. Множество Z0 следует разбить на непересекающиеся подмножества ^1,Z2,...,так, чтобы связь элементов внутри каждой группы была максимальной и данные ячейки можно было пред-

ш

Знак « = » в (2) означал бы наличие одного вектора X со значением компонент равных 1 / т. В общем случае точки X с л отдалены в среднем

на одинаковое расстояние, как от точки Г, так и от точки г .

Пусть Ъ0 = ^, ^,..., ^ } - множество из N элементов. Будем считать, что на основе экспертных оценок установлена мера связи между элементами, описываемая матрицей коэффициентов

взаимосвязи А = а ¡ЛNxNI,

ставлять кортежем слотов или информационным блоком компоненты.

При решении поставленной задачи в процессе организации ХД следует учесть итерационную структуру и семантику обращений запросов. Упорядочим элементы матрицы А - а^ с номерами у > г, i =1,2, в порядке убывания и запишем

их в одномерный кортеж В, который состоит из N ^ -1)/ 2 элементов. Можно считать, что этим установлено взаимно однозначное соответствие

между элементами 6 вектора В и элементами а, с номерами г = 1,2,..., N.

У

При формировании начального построения групп будем руководствоваться правилом. Возьмем элемент 6 , пусть ему соответствует коэффициент связи а;. . Элементы ^ и г2 объединяются в группу.

Теперь рассмотрим к-й шаг процесса. Пусть до этого момента уже сформировано Р групп

(Р — ш)тах. Выбираем Ък - элемент вектора В,

пусть ему соответствует аг- . . Рассмотрим четыре

возможных варианта:

1. Элементы ц и у еще не включены ни в одну группу. Тогда если Р — т , создаем из них группу, в противном случае перейдем к рассмотрению следующего 6 .

2. Один элемент, например г , уже присоединен к одной из групп, а другой еще нет. Тогда второй элемент у - присоединяем к этой же группе, иначе - переходим к рассмотрению следующего Ък+1.

3. Оба элемента Ц и ]к уже присоединены к одной группе. Тогда элемент Ьк присоединяем к этой же группе, иначе - переходим к рассмотрению следующего 6 .

4. Элементы ¡к и ]к включены в разные группы. Переходим к рассмотрению следующего Ъ

к+1

Процесс

просмотра

к = 1,2,..., N N -1)/ 2, заканчивается в том случае, если все элементы распределены по группам. Остановимся на случае, когда просмотр продолжается до последнего элемента кортежа В . В этом случае только один элемент не включается ни в одну из групп, при этом общее число сформированных групп будет меньше, чем т. Если такой элемент не включен, то на последнем шаге алго-

г =1

/

Ъ

к

ИРКУТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ

ритма начального формирования групп из него создается самостоятельная группа.

Проектирование и конструкция ХД представляет собой сложный процесс, который может занять несколько лет, некоторые МГП вместо этого строят витрины данных (Data mart) (рис. 1), содержащие информацию для конкретных отделов или направлений. Инструментарий оперативной аналитической обработки и добычи данных МГП позволяет осуществлять развернутый анализ информации. Базовые инструменты, включая средства извлечения, преобразования и загрузки, служат для пополнения хранилища из внешних источников данных (рис. 3).

Понимание бизнеса

Изучение данных

Развертывание

Моделирование j

^ Валидация модели

ъ )

Рис. 3. Процесс разработки Data Mining

Информационные системы, ориентированные на транзакционную обработку данных, называют термином On-Line Transaction Processing, OLTP, что в переводе означает «оперативная тран-закционная обработка данных». В соответствии с современными требованиями к OLTP, в SQL Server 2008 уделяется основное внимание следующим аспектам [1]: безопасность хранения данных МГП, обеспечиваемая шифрованием важных данных, аудитом модификации данных и метаданных, применением внешних криптографических ключей; управляемость данных, позволяющая снизить затраты времени и средств на управление инфраструктурой обработки и хранения данных за счет применения инновационных технологий администрирования. Рассмотрим оперативный анализ данных МГП. Для решения данной проблемы и была разработана концепция ХД МГП.

В соответствии с данной концепцией хранилище содержит данные, поступающие от различных ресурсов, и интегрированные, получаемые в результате обработки первичных данных. Для процесса поддержки концепции ХД необходимы

специальные средства управления процессами хранения и обработки данных. Концепция OLAP (On-line analytical processing) разработана на основе требований, изложенных в [5], и сформулирован тест FASMI (Fast Analysis of Shared Multidimensional Information) - «быстрый анализ разделяемой многомерной информации

Тест FASMI включает следующие требования к приложениям для многомерного анализа [5]: предоставление пользователю результатов анализа за приемлемое время (не более 5 с) при допустимом уровне детализации анализа; возможность осуществления любого логического и статистического анализа, поддерживаемого используемым приложением, и сохранения результатов в доступном для пользователя виде; многопользовательский доступ к ресурсам (данным) с функцией поддержки соответствующих механизмов блокировки и средств автоматизированного доступа; многомерное концептуальное представление данных, включая поддержку для иерархий и множественных иерархий измерений (ключевое требование OLAP); возможность обращения к полной информации независимо от её объёма и места хранения. В основе концепции OLAP лежит принцип многомерного представления данных.

Выводы

Проведенные исследования дают основание сделать вывод о необходимости включения в разрабатываемую информационную систему хранилищ данных МГП и программных средств по извлечению, преобразованию, загрузке и очистке данных.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Макленнен, Джеми,. Чжаохуэй Танг, Богдан Криват Microsoft SQL Server 2008: Data mining -интеллектуальный анализ данных : пер. с англ. СПб.

: БХВ-Петербург, 2009. 720 с.

2. Авраменко В.П. Управление производством в условиях неопределенности. К. : НВК ВО, 1992. 48 с.

3. Воронин А.Н. О приближенном решении многокритериальных вариационных задач управления // Известия АН СССР. Техническая кибернетика. 1989. №1, С. 46-50.

4. Ивахненко А.Г. Системы эвристической самоорганизации в технической кибернетике. К. : Техника, 1971. 372 с.

5. Службы SQL Server Analysis Services -интеллектуальный анализ данных [Электронный ресурс] // URL: http://msdn.microsoft.com/ruru/ library/bb510517.aspx. (Дата обращения: 10.05.2014).

i Надоели баннеры? Вы всегда можете отключить рекламу.