УДК 004.45
МЕТОДЫ ОБРАБОТКИ СЛАБОСТРУКТУРИРОВАННЫХ ДАННЫХ В АВТОМАТИЗИРОВАННЫХ СИСТЕМАХ НА ЖЕЛЕЗНОДОРОЖНОМ ТРАНСПОРТЕ
© 2013 г. Е.В. Климанская *, А.В. Чернов **, В.И. Янц **
*Ростовский государственный университет путей *Rostov State Transport сообщения University
**Ростовский государственный строительный **Rostov State Building университет University
Рассматриваются современные автоматизированные системы на железнодорожном транспорте и дается их классификация. В результате информационного взаимодействия таких систем возникает ряд задач, связанных с обработкой слабоструктурированных данных. В статье ставится задача осветить основные аспекты создания нечеткой модели слабоструктурированных данных. Приводятся отличительные особенности неструктурированных, структурированных и слабоструктурированных данных и их сравнительный анализ, что является начальным моментом исследования. Важное место в работе занимает рассмотрение наиболее значимых проблем, возникающих при разработке исследуемой модели. Применение нечеткой логики определено как целесообразный метод организации модели слабоструктурированных данных. В заключении приводится нечеткий граф в качестве примера реализации данного подхода.
Ключевые слова: слабоструктурированные данные; модель данных; xml-модели; нечеткий граф; нечеткая логика.
In article the modern automated systems on railway transport are considered, and their classification is given. As a result of information exchange of such systems there is a row of the tasks connected to processing of semi-structured data. Aim of the article is to highlight key aspects of creation the fuzzy model of semi-structured data. Distinctive features of unstructured, structured and semi-structured data and comparative analysis of them are showed and this is the starting point of study. Consideration of main issues, which arise during development of the under study model takes an important place in this article. Using of fuzzy logic is defined as expedient method to organize the model of semi-structured data. Conclusion includes the fuzzy graph, which is an example for realization of this approach.
Keywords: semi-structured data; data model; xml based models; fuzzy graph; fuzzy logic.
Железнодорожный транспорт является основным звеном транспортного комплекса России. Доля железнодорожного транспорта в общем грузообороте России составляет 43,3 % (с учетом трубопроводного транспорта), а в пассажирообороте более 31 %.
По оперативным данным перевозчика, погрузка за 2011 г. составила 1,24 млрд т, что на 3 % больше, чем за 2010, годом ранее рост показателей погрузки составлял 9 %. Для достижения таких результатов необходима оперативная и точная информация всех показателей деятельности ОАО «РЖД».
Корпоративная информационно-управляющая система справедливо считается основным средством эффективного управления ресурсами и направлениями производственно-технологической и административно-хозяйственной деятельности промышленного объекта. При этом эффективность функционирования системы, её облик, оперативность управления и достоверность представляемой информации в значительной мере зависят от степени её соответствия требованиям рассматриваемого объекта.
В связи с появлением на рынке новых продуктов современных телекоммуникационных технологий, с одной стороны, и возрастание требований к эффек-
тивности внедрения технологий - с другой, актуальным и своевременным представляется возросший интерес к изысканию методов оценки эффективности современных технологий и их практическому применению. При этом, учитывая многообразие и разнородность задач, решаемых современным промышленным объектом, к формированию показателей качества необходимо подходить на основе многокритериального анализа с максимальным учётом специфики рассматриваемого производства.
Сейчас в отрасли внедряется множество информационных систем, таких как: ЦОММ, АСУИ, и др. системы. Соответственно растёт число пользователей информационных систем и степень автоматизации. Информационные технологии в сфере железнодорожного транспорта предназначены для автоматизации процессов управления:
- грузовыми перевозками;
- пассажирскими перевозками;
- перевозочным процессом;
- финансами и ресурсами (материальными, кадровыми);
- инфраструктурой;
- защитой информации.
На рис. 1 представлена информация о классификации АСУ подсистем железнодорожного транспорта. Для обеспечения работы всех этих подсистем информационно-вычислительный центр Северо-Кавказской железной дороги (СКЖД ИВЦ) задействовал более 100 серверов, реализованных на основе технологии виртуализации VMware. Система виртуализации VMware объединяет несколько десятков серверов в группы, которые используются для обеспечения эффективного использования процессорного времени. На данное время имеется 3 территориально распределенных группы, объединённых в один информационно-вычислительный центр для обеспечения гибкой конфигурацией нагрузки и возможности функционирования в условиях чрезвычайных ситуаций.
Рассмотрим один из крупнейших информационных комплексов России на примере автоматизированной системы управления железнодорожным транспортом (АСУЖТ) компании ОАО «РЖД». Этот комплекс состоит из множества информационных систем, об-
служивающих различные направления и виды деятельности компании. Общее количество подсистем превышает 6000, поэтому ограничимся верхним уровнем, охватывающим наиболее крупные из них.
Грузовые перевозки (АСУ ГП). Комплекс насчитывает несколько десятков крупных взаимодействующих автоматизированных систем и является сложнейшим информационным комплексом. В качестве ядра комплекса выступает система АСОУП-2 (Автоматизированная система оперативного управления перевозками верхнего уровня), которая разрабатывалась с 1980 г. Так же АСУ ГП осуществляет взаимодействие по целевому ориентированию для решения таких задач, как:
- взаимодействие с грузоотправителями в условиях электронного документооборота - АКС ФТО (Автоматизированная комплексная система фирменного транспортного обслуживания), ЭТРАН (Электронная транспортная накладная), ЕК ИОДВ (Единый комплекс интегрированной обработки дорожных ведомостей);
Информационная система
Предметная область
Управление перевозками Управление инфраструктурой Финансовый учет Кадровый учет Другие
Степень автоматизации
Ручные Автоматизированные Автоматические
Степень охвата задач управления
Автоматизированная обработка данных
Автоматизация функций управления Поддержка принятия решений Электронный офис Экспертная поддержка
Реализуемые технологические процессы
Работа с графическими объектами Работа с различными процессами Работа с СУБД Гипертекстовые системы Мультимедийные системы Работа с текстовыми редакторами
Пользовательский интерфейс
Диалоговые Сетевые Пакетные
Степень централизации
Комбинированные Децентрализованные Централизованные
Способ построения
Локальные Иерархические Распределенные
Степень централизации
Комбинированные Децентрализованные Централизованные
Рис. 1. Классификация АСУЖТ
- управление и контроль выполнения грузовых перевозок - АСОУП (Автоматизированная система оперативного управления перевозками нижнего уровня), ДИСПАРК (Автоматизированная система поно-мерного учета, контроля дислокации, анализа работы и регулирования вагонного парка), ДИСКОН (Автоматизированная система управления контейнерными перевозками), ДИСЛОК (Автоматизированная система управления тяговыми ресурсами), ЕМПП (Единой модели перевозочного процесса);
- хранение и анализ информации о выполненных перевозках - КИХ (Корпоративное информационное хранилище);
- моделирование оптимального управления ваго-нопотоками на различных уровнях иерархии ЦУП РЖД (Центра управления перевозками РЖД), РЦУП (Региональный центр управления перевозками), ЕДЦУ (Единый диспетчерский центр управления железнодорожными перевозками) - АСУ вагонопотоками.
Пассажирские перевозки. Одной из приоритетных задач, решаемых на базе АСУ «Экспресс-3», является автоматизация бизнес-процессов в части пригородных и дальних пассажирских перевозок с использованием сети Интернет, с учетом их лояльности и доходности. В этой связи переход на электронный билет открыл широкие возможности как в сокращении эксплуатационных расходов, так и в улучшении обслуживания пассажиров. АСУ «Экспресс-3» взаимодействует с такими подсистемами, как: Сбыт и учет электронных билетов с использованием сети Интернет, ДУТИСС (система динамического управления тарифами), технологические процессы обслуживания пассажиров, АБД (Аналитическая база данных АСУ «Экспресс»), АСУПВ «Анализ надежности и качества выполненных ремонтов».
Управление перевозочным процессом базируется на подсистемах ЦУП, ДЦУП (Дорожный центр управления перевозками) и ЦУМР (диспетчерский центр управления местной работой), в совокупности представляющих собой главный орган оперативного диспетчерского управления движением поездов, который обеспечивает бесперебойные перевозки пассажиров и грузов на железнодорожном транспорте общего пользования. Так же решаются задачи оптимизации использования пропускной способности инфраструктуры железных дорог, тяговых и погрузочных ресурсов, организации движения поездов в соответствии с графиком движения и планом формирования поездов при безусловном обеспечении безопасности движения поездов. В рамках программы развития железнодорожной отрасли до 2014 г. определено новое направление развития «интеллектуальное управление движением поездов», включающее грузовые и пассажирские высокоскоростные поезда.
Управление финансами и ресурсами - группа подсистем, состоящая из ЕК АСУФР (Единая корпоративная автоматизированная система управления финансами и ресурсами»), ЕКАСУТР (Единая корпоративная автоматизированная система управления трудовыми ресурсами), АС МПСС (Автоматизированная
система мониторинга показателей социальной сферы). Системы построены на платформе SAP.
Каждая из этих информационно-управляющих систем взаимодействует с внешними по отношению к РЖД системами, а именно: ЕК АСУФР - с платежной системой, ЕЭТП - с АСУ экспедиторов, транспортных компаний, грузовладельцев, поставщиков товаров и услуг и т.п.; АСУПП - с технологическими производственными системами и системами автоматики и телемеханики РЖД. Исходные данные, формируемые в системах ЕЭТП, АСУПП, формирующие финансово-экономические результаты деятельности РЖД, доходную и расходную части бюджета, передаются в ЕК АСУФР один раз в сутки. В обратном направлении передается информация о планово-экономических показателях, нормативах, лимитах и пр.
Управление персоналом ОАО «РЖД» (более 1,3 млн. человек) осуществляется в системе ЕК АСУТР, которая обеспечивает функции нормирования труда, учета рабочего времени, расчета заработной платы.
Информационно-управляющая система в сфере финансово-хозяйственной деятельности АСУ ФР состоит из подсистемы анализа доходов от грузовых перевозок; подсистемы анализа договоров, заключаемых от имени ОАО «РЖД» с внешними контрагентами; подсистемы анализа наличности ОАО «РЖД».
Комплекс управления финансами и ресурсами обеспечивает реализацию единой маркетинговой, финансовой и ресурсной политики отрасли в целом.
Управление инфраструктурой - Для решения задач управления инфраструктурой внедряется новейший комплекс ЕК АСУ И (Единая корпоративная автоматизированная система управления инфраструктурой). К реализуемым задачам относятся создание единой базы объектов инфраструктуры и на основе оперативных данных эффективное планирование и текущая деятельность. АСУИ один из основных инструментов в работе созданных на дорогах центров управления содержанием инфраструктуры (ЦУСИ). В дальнейшем в его составе появится Центр диагностики и мониторинга хозяйства автоматики и телемеханики с использованием табло коллективного пользования. Основные задачи ЦУСИ - обеспечение содержания инфраструктуры в соответствии с нормативными требованиями, повышение эффективности и качества деятельности.
Управление защитой информации - представляет собой сложную организационно-техническую систему обеспечения информационной безопасности (СОИБ), основными целями функционирования которой являются обеспечение защиты информации, не относящейся к категории «государственная тайна», внедрение и эксплуатация технических подсистем, комплексов и средств обеспечения информационной безопасности, обеспечение доступности соответствующих категорий информации для пользователей ОАО «РЖД», других организаций и частных лиц, управление информационной инфраструктурой, а также аудит уровня ИБ ОАО «РЖД». СОИБ функционирует на основе подсистем: САЗ (Система антивирусной защиты), АС
ЭТД (Автоматизированная система «Технологический электронный документооборот с применением электронной цифровой подписи»), АСУ «Реестр АС и АМ» (Реестр автоматизированных систем и архитектурных моделей ОАО «Российские железные дороги»).
Одним из важнейших принципов является функциональная интеграция специализированных программно-технических комплексов защиты с программно-техническими комплексами передачи и обработки информации, имеющими собственные встроенные средства защиты с мощной функциональностью (ОС рабочих станций и серверов, активное сетевое оборудование). Функциональная интеграция позволяет достигать высокого уровня защищенности. Осуществляется технологии контроля доступа к ресурсам сети передачи данных, информационным ресурсам системы ЭТРАН, к АСУ «Экспресс-3», ЕК АСУ ФР, к ряду АСУ дорожными центрами управления и станциями, к системе электронной коммерции. Активное совместное использование специализированных и встроенных средств защиты в совокупности с подсистемой антивирусной защиты позволяет эффективно предотвращать угрозы распространения шпионских программ и разрушающих программных средств (вирусов).
Информационные технологии на железнодорожном транспорте представляют собой сбалансированную систему проектов, связанных со стратегической политикой развития компании. Первый этап, к которому относятся задачи ускоренного внедрения автоматизированных систем управления перевозочным процессом, финансами и ресурсами, а также построение единой модели управления финансово-экономической деятельностью предприятия завершен. Реализуется второй этап автоматизации инфраструктурой железнодорожного транспорта. Необходимо отметить уникальность проекта, реализуемого ОАО «РЖД», были использованы архитектуры ERP-системы, при реализации которых отсутствуют самостоятельные системы на линейном уровне. АРМы оснащены удаленными рабочими местами, подключенными к центральному серверу, что позволило создать двухуровневую вертикальную интеграцию.
В современной теории баз данных и информационных систем одной из наиболее актуальных задач является разработка новых подходов к интеграции разнородных информационных систем и источников данных [1]. Примером такой задачи может служить проблема организации взаимодействия большого числа информационных систем на железнодорожном транспорте. Для её решения применяют различные подходы: создание специализированных программных интерфейсов, разработка модулей контекстного поиска, построение различных виртуальных реляционных баз.
Применение методов анализа
неструктурированных данных
В качестве одного из подходов возможно применение методов работы со слабоструктурированными
данными. Модель данных представляет информацию в виде ориентированного графа с помеченными ребрами. Такое представление обладает высокой степенью наглядности и относительной простотой приведения любого формата данных к нему, но в этом случае поиск и выборка данных будут алгоритмически сложными операциями. Поэтому методы поиска в графах неоднократно являлись объектами научных исследований.
Далее рассматривается модель данных как таковая, и ее функциональные элементы; а также особенности модели структурированных, неструктурированных и слабоструктурированных данных; их сравнительная характеристика. Затем рассматриваются основные проблемы моделей слабоструктурированных данных. И, наконец, предлагаемый подход к организации нечеткой модели данных рассмотрен в последнем разделе статьи.
Модель данных - это совокупность средств описания структур данных для приложения или класса приложений. Модель данных включает в себя типы и структуры данных, систему операций, средства описания ограничений [2].
Модель структурированных данных обладает следующими особенностями. Во-первых, на данные накладываются заранее определенные ограничения по типу и длине каждого атрибута, что делает затрудненной, а зачастую даже невозможной, модификацию модели под изменившиеся с течением времени требования. Во-вторых, структура данных известна и определена при помощи схемы данных, её автоматическое изменение в процессе работы модели затруднено. Интерпретировать данные без знания схемы не представляется возможным. При этом в процессе разработки схемы необходимо провести формализацию обрабатываемых данных, что делает невозможным автоматизацию корректировки схемы в процессе использования модели. Однако, вследствие имеющихся ограничений, модель структурированных данных обладает обширным набором возможных операций. Примером модели структурированных данных может выступать любая реляционная СУБД.
Разработка модели для неструктурированных данных является крайне сложной задачей по следующим причинам. Во-первых, данные, как правило, представлены на естественном языке, что затрудняет работу с ними. Во-вторых, полное отсутствие предопределенной структуры накладывает серьезные ограничения на возможные операции с данными. Автоматическое выделение структуры в таких данных, как правило, не может быть выполнено однозначным образом.
Слабоструктурированными данными являются любые промежуточные данные между структурированными и неструктурированными. Такие данные обладают следующими особенностями. Во-первых, структура данных может быть неполной, недоопреде-лённой, а также допускать исключения. Во-вторых, значения скалярных данных представлены в виде текстовой информации. В-третьих, возникает проблема определения принадлежности данных, так как не все-
гда можно однозначно судить о корректности обрабатываемого документа. Модель слабоструктурированных данных должна учитывать обозначенные особенности. Попытаемся выделить основные проблемы, возникающие при разработке модели слабоструктурированных данных.
Во-первых, при работе с данными заранее неизвестна степень их корректности, а как следствие, в модели необходим инструментарий для оценки «правильности» данных. Учитывая, что в слабоструктурированных данных все атрибуты представлены в виде текстовой информации, необходим довольно гибкий механизм проверки принадлежности данных к конкретному атрибуту.
Во-вторых, схема данных может либо вовсе не существовать, либо не в полной мере соответствовать обрабатываемым данным. Так как работать с документом, не имея никаких представлений об его структуре, не представляется возможным, возникает задача выделения схемы из обрабатываемых данных, а также её корректировка в процессе эксплуатации модели и получения новой информации.
В-третьих, некоторые атрибуты данных могут либо вообще отсутствовать, либо не в полной мере удовлетворять условиям корректности, определенным для этих атрибутов. Выходит, в модели должен существовать инструмент обработки исключений, позволяющий принимать какое-либо решение о дальнейшей работе с этими данными, основываясь на определенных заранее критериях.
Существующие модели данных не полностью решают обозначенные выше проблемы и поэтому довольно часто служат объектом исследований. Чаще всего эти модели основаны на XML (extensible Markup Language), расширяемом языке разметки. Сам по себе язык не является моделью данных, поскольку предоставляет только возможности хранения информации, и не обладает ни инструментами манипуляции данными, ни инструментами описания ограничения, ни способом описания схемы.
Для того чтобы использовать XML как полноценную модель, были разработаны следующие решения. Во-первых, язык описания структуры XSD (XML Schema Definition), позволяющий описывать схемы данных XML-документа. Во-вторых, искусственный язык DTD (Document Type Definition), предоставляющий возможность создания ограничений и требований к XML-документу и его атрибутам. И наконец, языки запросов, такие как xPath и xQuery, позволяющие оперировать данными.
Как видно, основанные на XML модели не решают полностью обозначенных проблем, так как не обладают необходимым инструментарием восстановления структуры документа и средств обработки возникающих несоответствий обрабатываемых данных ожидаемой структуре.
Исходя из вышеприведенного существование и корректность атрибута в слабоструктурированном документе носит вероятностный характер. Теория нечетких множеств, сформулированная Л. Заде [3], по-
зволяет описывать нечеткие данные, оперировать этими знаниями и делать нечеткие выводы, что оказывается особенно полезным, когда рассматриваемые данные не могут быть однозначно интерпретированы. При этом согласно теореме FAT (Fuzzy Approximation Theorem) [4], доказанной Б. Коско, любая математическая система может быть аппроксимирована системой, основанной на нечеткой логике. Следовательно, формализация неопределенности данных и документа в виде нечеткости является подходящим методов организации модели слабоструктурированных данных.
Таким образом, данные могут быть представлены в виде какой-либо нечёткой структуры.
Слабоструктурированным документом будем называть ориентированный нечеткий граф G = (X, F, X0), где X = {xi};i е I = {1,2,...,n} - множество вершин
графа; F = {( Ц f(xI , xj) /{xi, xj) )},(xi, xj)е X 2 - нечеткое множество направленных ребер графа, вершина xi является началом, xj - концом ребра (xi, x^ ;
цF(xi,x- значение функции принадлежности цF для ребра(xi,xj^j; X0 сX- корневые вершины графа [5].
Вершины являются инцидентными в том, и только в том случае, когда цF (xi, x^ > 0 .
Корневые вершины отражают дробление документа на отдельные части. Это позволяет не делать различия между отдельным документом и коллекцией таких документов. Функция принадлежности |F позволяет нам определить степень соответствия конкретного атрибута документа ожидаемому типу данных, а также всего документа в целом. Данная функция должна быть корректируема и являться многокритериальной.
Пример. Зададим нечеткий граф GG = (X,U,X0), у которого X = {x1,x2,x3,x4,x5}, U = {l/(x1,x^), (0.7/(xx, x2)),(0.9/(xj, x,^^0.3/(x2, *4^,(0.5/(x2, *5))>, а X0 = {^хХрис. 2).
Рис. 2. Пример нечеткого графа
Данный пример соответствует отображению типичного html документа, где xx корневой атрибут «html», x2 атрибут заголовка «head», x3 атрибут тела
документа «body», x4 атрибут метаописания «description» и x5 атрибут заголовка «title».
Для полноты модели данных нам необходим инструмент манипуляция данными, т. е. язык запросов. Языки запросов к базам слабоструктурированных данных должны разрабатываться, учитывая тот факт, что данные не имеют строго определенной схемы. Семантически одинаковые участки графа могут иметь различную структуру данных. Поэтому такой язык должен уметь гарантировать получение результата даже при несоответствии структуры отдельных участков базы данных.
Наиболее распространенными являются языки запросов, основанные на поиске данных по шаблону [6, 7]. Данные языки используют в качестве базового механизма регулярные выражения, которые по сути являются регулярными языками.
Удачным примером реализации такого языка служит PCRE (Perl Compatible Regular Expressions). Данный язык был разработан Филипом Хейзелом в виде библиотеки для языка C++, на данный момент он широко используется.
Pattern regex = Pattern.compile("<title>(.*?)</title>", Pattern.DOTALL);
Matcher matcher = regex.matcher(subjectString);
Pattern regex2 = Pattern.compile ("<([Л<>]+)> ([ло]+)<Л\1>" );
if (matcher.find()) {
String DataElements = matcher.group(l);
Matcher matcher2 = regex2.matcher(DataElements);
while (matcher2.find()) {
Поступила в редакцию
list.add(new DataElement(matcher2. group(1),
matcher2. group (2))); }
}
Работа выполнена при финансовой поддержке
РФФИ (проекты 11-07-13110-офи-м-2011-РЖД, 12-
07-13120-офимРЖД 12-08-00798-а).
Литература
1. Alon Halevy, Anand Rajaraman, Joann Ordille. Data integration: the teenage years. In VLDB '06: Proceedings of the 32nd international conference on Very large data bases, VLDB Endowment, 2006. P. 9 - 16.
2. Matthew West and Julian Fowler. Developing High Quality Data Models // In thhe European Process Industries STEP Technical Liaison Executive (EPISTLE), 1999.
3. Заде Л. Понятие лингвистической переменной и его применение к принятию приближенных решений: пер. с англ. М., 1976. 165 с.
4. Круглое В.В., Борисов В.В. Гибридные нейронные сети. Смоленск, 2001. 224 с.
5. Мелихое А.Н., Берштейн Л.С., Коровин С.Я. Ситуационные советующие системы с нечеткой логикой. М., 1990. 272 с.
6. Serge Abiteboul and Victor Vianu. Regular path queries with constraints // Proc. of the sixteenth ACM SIGACT SIGMOD SIGART Sym. on Principles of Database Systems (PODS 97), 1997. P. 122 - 133.
7. Quass D., Rajaraman A., Sagiv Y., Ullman J., Widom J. Querying semistructured heterogeneous information // Deductive and Object-Oriented Databases (DOOD '95), Springer, 1995. № 1013. LNCS, Р. 319 - 344.
12 декабря 2012 г.
Климанская Елена Владимировна - ведущий программист, Управление информатизации, Ростовский государственный университет путей сообщения. E-mail: [email protected]
Чернов Андрей Владимирович - д-р техн. наук, заведующий кафедрой «Прикладная математика и вычислительная техника», Ростовский государственный строительный университет. E-mail: [email protected]
Янц Владимир Игоревич - студент, кафедра «Прикладная математика и вычислительная техника», Ростовский государственный строительный университет. E-mail: [email protected]
Klimanskaja Elena Vladimirovna - leading programmer, Informatization department, Rostov State Transport University. E-mail: [email protected]
Chernov Andrey Vladimirovich - Doctor of Technical Sciences, head of department «Applied mathematics and computer science», Rostov State Building University. E-mail: [email protected]
Yants Vladimir Igorevich - student department «Applied mathematics and computer science», Rostov State Building University. E-mail: [email protected]