УДК 338.2
ИСПОЛЬЗОВАНИЕ МЕТОДИК ИНТЕЛЛЕКТУАЛЬНОЙ ОБРАБОТКИ БОЛЬШИХ
ОБЪЕМОВ ДАННЫХ ДЛЯ ПОВЫШЕНИЯ ЭФФЕКТИВНОСТИ ПОДДЕРЖКИ ПРИНЯТИЯ УПРАВЛЕНЧЕСКИХ РЕШЕНИЙ В ТРАНСПОРТНОЙ КОМПАНИИ
Бритвин М.А., аспирант, кафедра «Экономическая информатика», ФГОБУ ВО «Московский государственный университет путей
сообщения Императора Николая II» (МГУПС (МИИТ)
Басанский М.В., аспирант, кафедра «Экономическая информатика», ФГОБУ ВО «Московский государственный университет путей сообщения Императора Николая II» (МГУПС (МИИТ), ведущий специалист Департамента управленческого учета и отчетности ОАО «РЖД» Чугумбаев Р.Р., к.э.н., доцент, кафедра «Экономическая информатика», ФГОБУ ВО «Московский государственный университет путей
сообщения Императора Николая II» (МГУПС (МИИТ)
В связи с непрерывным развитием систем учета в последнее время объемы данных, накапливаемых крупными производственными компаниями стремительно растут. Данные такого объема предъявляют новые требования к существующим корпоративным информационным системам, функционирующим в отрасли. Таким образом, появляется необходимость в применении методик обработки больших данных с целью своевременного анализа, накапливаемой информации и формирования управленческой отчетности в оперативной перспективе. В связи с этим возникает потребность в формировании единого информационного пространства предприятия. Одним из ключевых факторов успешной реализации мероприятий по обеспечению единой актуальной версии данных является построение соответствующей корпоративной информационной системы отчетности на базе функционирующих корпоративных информационных хранилищ КИХ, которая позволит осуществлять централизованный сбор, обработку, хранение и предоставление данных, необходимых для формирования управленческой и статистической отчетности, с интегрированными инструментами контроля.
Ключевые слова: большие данные, корпоративное информационное хранилище, учет, статистическая отчетность, транспорт.
USING INTELLIGENT PROCESSING TECHNIQUES OF LARGE QUANTITIES OF DATA TO BETTER SUPPORT MANAGEMENT DECISION-MAKING IN THE
TRANSPORT COMPANY
Britvin M., the post-graduate student, Economic informatics chair, FSEI HE «Moscow State University of Railway Engineering under the name
of Emperor Nikolay II» (MGUPS (MITT) Basansky M., the post-graduate student, Economic informatics chair, FSEI HE «Moscow State University of Railway Engineering under the name of
Emperor Nikolay II» (MGUPS (MIIT), leading specialist of the Department of Management Accounting and Reporting, Russian Railways, JSC Chugumbaev R., Ph.D., assistant professor, Economic informatics chair, FSEI HE «Moscow State University of Railway Engineering under the
name of Emperor Nikolay II» (MGUPS (MIIT)
Due to the continuous development of accounting systems in recent years the amount of data accumulated by major manufacturing companies soaring. Data of this volume are placing new demands on the existing corporate information systems, operating in the industry. Thus, there is the need for a large data processing techniques to provide timely analysis of accumulated information and management reporting in the operational perspective. In this connection there is need for the formation of a common information space of the enterprise. One of the key factors in the successful implementation of measures to ensure a uniform date version of the data is the construction of an appropriate corporate information reporting system on the basis of operating corporate data warehouses FIR, which will allow for centralized collection, processing, storage and provision of data necessary for the formation of the administrative and statistical reporting, with integrated monitoring tools.
Keywords: big data, enterprise data warehouse, accounting, statistical reporting, and transport.
За последние десятилетия объемы данных, накопленные в различных сферах (здравоохранение, финансы, энергетика, транспорт, медицина и других отраслях) увеличиваются в геометрической прогрессии. Согласно отчету IntemationalDataCorporation (IDC) общемировой объем данных, накопленный к 2011 году возрос в 9 раз по отношению к 2006 году и составил 1.8 Збайт информации. [1] Этот показатель неуклонно продолжает расти и удваивается каждые два года. Такой рост связан с повышением технологического уровня и постоянным внедрением инноваций, что приводит к увеличению количества различных сенсоров и датчиков, которые позволяют получать первичную информацию. Кроме того, регистрируемая информация изменяется на качественном уровне. Известно, что в сфере железнодорожного транспорта регистрируется огромное количество данных датчиками GPS, Глонасс, видеорегистраторами и другими средствами учета. В настоящее время пристальное внимание уделяется внедрению и применению учета разного рода показателей эффективности работы транспортной отрасли, таких как производственные, финансово-экономические, кадровые, а так же в сфере безопасности работы железнодорожного транспорта. Следовательно, возникает потребность в хранении, передаче, обработке и анализе многомерных массивов больших данных. В ряде случаев, существующие средства анализа данных не позволяют предоставить результаты их обработки в адекватные сроки для поддержки принятия решений в оперативной перспективе.
На сегодняшний день, на крупных предприятиях существует потребность в разработке и имплементации новых алгоритмов анализа данных такого объема. Массивы данных этого типа можно охаракте-
ризовать следующими свойствами: большой объем, динамичность, разнородность, значимость, достоверность. Получаемые данные могут быть структурированы или не структурированы, а также структурированы частично по отдельным свойствам. Своевременный анализ информации таких данных с технической, экономической и исследовательской точек зренияпозволяет осуществить поддержку принятия решений на новом уровне.
Согласно классификации Ягордиш Х.В. и соавторов, существуют следующие общепринятые этапы обработки больших данных: сбор данных, извлечение информации, интеграция и агрегация данных, анализ и моделирование, интерпретация [2]. Вследствие того, что объем первичной информации, получаемой в отрасли, в некоторых случаях может достигать размеров, которые ставят под вопрос саму возможность хранения массива данных такого объема, возникает проблема очистки, фильтрации и сжатия данных. Большая часть получаемых данных может быть подвержена компрессии и фильтрации без риска потери ключевой информации.Так,например, данные некоторых датчиков могут коррелировать между собой на одном участке. Таким образом, возникает задача селекции таких фильтров данных, которые позволяют осуществить компрессию данных без потери полезной информации, которая также является ценной с точки зрения информатизации поддержки конкретного решения. Кроме того,некоторые данные могут содержать ошибки и быть неполными, что возможно, имеет право на существование из-за неисправности работы некоторых датчиков, «человеческого» фактора, устаревания данных и наличия ряда других причин. Следующей наиболее частой проблемой, которую стоит отметить,
является избыточное дублирование и ручной ввод. В отдельных случаяхданные собираются в непригодном для анализа формате (видео, фото, аудио, изображения), и, таким образом, возникает потребность в разработке алгоритмов извлечения информации из данных, описанного типа.
В настоящее время существует множество алгоритмов нормализации данных, анализа достоверности и исключения некорректных данных.Такие алгоритмы должны отличаться в соответствии с той информацией, которую требуется получить в результате анализа. Исходя из вышеизложенного следует, что для повышения эффективности реализации процесса поддержки принятия управленческих решений в отрасли необходима классификация задач, для решения которых требуется информационная и аналитическая поддержка, осуществляемая описанными алгоритмами. Для эффективного анализа необходим срез данных, собранных разнородными средствами учета. Таким образом,возникает потребность в разработке инструментальных средств для преодоления гетерогенности структуры и семантики данных.
По мнению Томсона П. (2014) существует многочисленный ряд возможностей для повышения показателей производительности, надежности, скорости и безопасности работы железнодорожного транспорта [3]. Проведение обработки неструктурированных данных открывает большие перспективы для оптимизации производства, увеличения рентабельности бизнеса и качества предоставляемых услуг. Следовательно, в настоящее время появляются новые средства для определения максимальных нагрузок, «узких мест», прогнозирования и предупреждения внештатных ситуаций, оперативной поддержки принятия решений.
Общеизвестно, что на крупных предприятиях существует ряд проблем, с которыми приходится сталкиваться при обработке больших данных, такие как: разнородность, непоследовательность и неполнота данных. Например, при консолидации данных, собранных на географически разных участках железных дорог возникает проблема агрегации данных разных форматов из разных баз данных, которые могут быть неполными и непоследовательными. Большая часть от общего объема данных, регистрируемых на железной дороге, является разнородной. В следствие чего возникает потребность в применении алгоритма агрегации различных баз данных для дальнейшего анализа. Кроме того, анализ операционных данных в ряде случаев имеет ограничения по времени. Следовательно, обеспечение функционирования процессов обработки, анализа и визуализации данных в режиме реального времени может существенно повысить эффективность принимаемых решений.
Таким образом, в целях предотвращения фактов приписок и фальсификации в оперативном и статистическом учете, для обеспечения достоверности отчетности, а также унификации форм отчетности и алгоритмов их формирования, представляется целесообразным осуществлять мероприятия, направленные, на разработку и внедрение корпоративных стандартов управленческой и статистической отчетности, совершенствование систем хранения и обработки данных для обеспечения единой версии данных.
На сегодняшний день в ОАО «РЖД» функционирует более 30 информационных хранилищ, в том числе такие, как Информационное хранилище «Грузовые перевозки», Информационное хранилище «Локомотивные парки», Информационное хранилище «Вагонные парки», Информационное хранилище «Контейнерные парки», Корпоративное информационное хранилище ОАО «РЖД», Хранилище данных управленческого учета и другие.Все они агрегируют и обрабатывают разнородные данные.
Учитывая актуальность поиска новых возможностей для обработки данных, является целесообразным создание единого Корпоративного Информационного Хранилища (КИХ), агрегирующего данные из всех хранилищ 1Тландшафта компании и разработка интеграционных шин обеспечивающих сбор данных из большинства информационных систем. На сегодняшний день в ОАО «РЖД» насчитывается более 1000 различных информационных систем.
Проект «Информационное хранилище МПС» стартовал еще в МПС в 1998 году. Толчком к началу этих работ послужили сложности работы с разнородными базами данных главного вычислительного центра ГВЦ, которые используют различные прикладные отраслевые системы, оперирующие своим набором средств с основными объектами. Для получения полной и объективной картины состояния дел в компании при имеющемся разнообразии программного обеспечения и источников данных, требовалась консолидация информации из различных систем, что подразумевает необходимость работы с
различными визуальными интерфейсами и формами представления однотипных данных.
Аналогичная ситуация является типичной для корпоративных информационных систем во всем мире, и, поэтому вполне логичным решением является создание единого информационного хранилища, в котором хранятся тщательно выверенные и унифицированные данные из различных систем, причем обязательно наличие метаданных, объединяющих разнообразную информацию в единое целое.
В последние десятилетия КИХ ОАО "РЖД" стало отраслевым стандартом по бизнес-аналитике и основным источником отчетов для руководства холдинга. Закономерным этапом его развития стал переход от уровня хранилища данных к единой отраслевой интегрированной аналитической платформе. В основу такой платформы легло решение SAS EnterpriseIntelligencePlatform (EIP)[4].
При использовании программного обеспечения, которое позволяет извлекать, трансформировать и загружать информацию (ETL-приложение), данные из систем-источников попадают в базу данных информационного хранилища. База данных корпоративного хранилища не является абстрактной по своей структуре (набор таблиц, поля в них и взаимосвязи между таблицами), онасоздана на основе модели данных.Подход к построениюхранилища данных для интеграции неоднородных источников данных принципиально отличается от подхода динамической интеграции разнородных БД.
Следует отметить, что на сегодняшний день, обеспечение эффективного функционирования КИХ крупной компании не представляется возможным без применения технологий обработки больших данных.Большие данные — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса BusinessIntelligence. В данную серию включают средства массово-параллельной обработки неопределённо структурированных данных, прежде всего, решениями категории NoSQL, алгоритмами MapReduce, программными каркасами и библиотеками проекта Hadoop.
В качестве определяющих характеристик для больших данных отмечают «три V»: объём (англ. volume, в смысле величины физического объёма), скорость (англ. velocity в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (англ. variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных).
Термин «большие данные» был введен в обиход Клиффордом Линчем, редактором журнала^Шге. В этом номере журнала были собраны научно-исследовательские материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда».
Несмотря на то, что термин большие данные впервые появился в академической среде, афокус внимания был направлен на решение проблемы роста и многообразия научных данных, начиная с 2009 года термин широко распространился в деловой прессе. В 2010 году на рынок выходят первые программные продукты и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 году большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие большие данные, в том числе IBM, Oracle, Microsoft, Hewlett-Packard, EMC, а основные аналитики рынка информационных технологий посвящают описанной концепции отдельные исследования.
С точки зрения вышеизложенного, является логичным, тот факт, что корпоративное информационное хранилище должно соответствовать следующим критериям:выполнять задачи накопления, агрегации, обработки и предоставления данных о деятельности компании из различных внутренних источников, являясь единой базой данных для всех информационных систем компании, либо, если это не представляется возможным, полностью реплицируемой в реальном времени СУБД для других информационных систем. Единое корпоративное информационное хранилище позволяет консолидировать всю необходимую информацию в единой базе данных
и получать широкий спектр различных отчетов, информационно-аналитических материалов, а также визуализировать информацию максимально удобным для восприятия образом, что может значительно повысить эффективность информационной поддержки принятия управленческих решений.
В программном обеспечении должен быть реализован механизм контроля наличия данных и автоматический анализ их достоверности на основе алгоритма сравнения со значениями данных показателей прошлых периодов. Кроме того, комплексный рост и развитие уровня функционирования компаний при этом является прямым последствием реализации предлагаемого мероприятия, а не косвенным последствием перечисленных выше операционных выгод.
В ценности разработки более совершенной системы информационно-аналитического обеспечения персонала априори сомнений не должно быть. Особенно, это по прежнему является актуальным для крупных, полифункциональных компаний, к разряду которых относятся компании железнодорожного транспорта. Следовательно, практически все современные компании в большей или в меньшей степени уделяют внимание вопросам привлечения и вложения финансовых ресурсы для реализации проектов, связанных с совершенствованием системы поддержки принятия решения, как важного и основополагающего элемента управления компанией. Является известным тот факт, что с точки зрения успешного менеджмента, экономические показатели крупных субъектов бизнеса и их рейтинг зависят от совершенства системы управления. Следует отметить, что для выполнения поставленной задачи дальновидные руководители непрерывно модернизируют системы управления, проводят ее реорганизацию, анализируют и находят лучшие варианты качественного роста на рынке.
Согласно анализу литературных данных, в результате внедрения проекта по созданию единого Корпоративного Информационного Хранилища, транспортная компания получает следующие выгоды:
• Оперативность обеспечения информацией, следовательно создание условий для своевременного и стратегически обоснованного принятия решений менеджментом организации[5];
• Повышение необходимой в современных условия транспо-рентности хозяйственной деятельности организации, что является важным для ее ключевых стейкхолдеров[6];
• Информационная обеспеченность способствует росту уровня мотивации сотрудников по выполнению необходимых процессов;
• Увеличение числа аналитических возможностей, и как следствие, выполнение поставленных стратегических задачидостижение наиболее оптимальным способом [7];
Несмотря на различия в часовых поясах и территориальную удаленность, создание единого информационного пространства позволяет полноценно и эффективно управлять деятельностью всей компании, а также способствует повышению доверия к внутренним отчетам и статистической информации, и качественной доставке актуальной информации о реальных значениях экономических показателей. При рассмотрении аспектов экономических показателей, немаловажным фактом является наличие необходимости интеграции всех финансовых, бухгалтерских информационных систем в единый информационный периметр.
В ряде случаев многие компании начинают внедрять информационные системы «частями», покрывая небольшой объем задач. Построение архитектуры ИТ ландшафта является чрезвычайно важной задачей при последующей интеграции частей информационной системы в единую среду.
В связи с вышесказанным, стоит учесть, что единая среда, единые подходы к агрегации и максимально возможная детализация позволяют значительно упростить сбор, хранение и обработку необходимой информации. Однако, по причине наличия чрезвычайно большого объема анализируемых данных, возникает необходимость рассмотрения вопросов разграничения доступа.Следующим важным моментом, является проведение мероприятий, направленных на разработку и внедрение корпоративных стандартов отчетности, совершенствование систем хранения и обработки данных для обеспечения единой версии данных, с целью предотвращения фактов приписок и фальсификации в учете, обеспечения достоверности отчетности, а также унификации форм отчетности и алгоритмов их формирования.
Одним из ключевых факторов успешной реализации мероприятий по обеспечению единой актуальной версии данных является построение соответствующей корпоративной информационной системы отчетности на базе КИХ, которая позволит осуществлять цен-
трализованный сбор, обработку, хранение и предоставление данных, необходимых для формирования управленческой и статистической отчетности, с интегрированными инструментами контроля.Все вышеперечисленные факторы позволяют добиться максимизации прибыльности, снижения убытков, повышения безопасности движения и транспортной инфраструктуры, что положительно сказывается не только на выполнении ключевых показателей эффективности деятельности, но и способствует комплексному росту и развитию транспортных компаний[8].
Следует отметить, что при внедрении такой системы некоторые выгоды явно трансформируются в экономические эффекты, однако, осознание других может потребовать более внимательного понимания экономических последствий предлагаемого проекта.В этом случае, для оценки эффективности внедрения такого рода инноваций мы предлагаем применять инструментарий, разработанный на базе основ эталонного подхода управления компанией[9]. Данный подход основывается на том, что для достижения конечных стратегических целей, следует проводить оценку повышения уровня внутреннего потенциала компании и ее стоимости. Таким образом, создание единого Корпоративного Информационного Хранилища принесет компаниям железнодорожного транспорта не только операционные выгоды, но также положительно повлияют на качество их инвестиционной привлекательности.
Литература:
1. Gantz J., Reinsel D. Extracting value from chaos/ IDC iView. -Июнь 2011 С. 1-12
2. Jagadish, H. V. et al. Big Data and Its Technical Challenges / Communications of the ACM. - 2014.№ 7, С. 86-94.
3. Thomas, P. The Role of Big Data in Railroading / Railway Age. - Август 2014. С.44.
4. Бритвин М.А., Григорьев О.А. Необходимость и возможности проведения интеллектуальной обработки данных на основе систем и технологий фирмы SAS / Современные проблемы управления экономикой транспортного комплекса России: конкурентоспособность, инновации и экономический суверенитет. - Май 2015. С. III-8
5. Сорокина А.В. Формирование системы стратегического управления как фактор эффективности развития компании// Транспортное дело России. - 2015. № 6. С. 123-125.
6. Рожнова О. В. Актуальные проблемы финансовой отчетности //Международный бухгалтерский учет. - 2013. - №. 15. - С. 261.
7. Сорокина А.В. Система взаимоотношений уровней управления при формировании и реализации стратегии компании// Экономика. Управление. Право. - 2013. № 4 (30). С. 25-29.
8. Басанский М.В. Корпоративное информационное хранилище, анализ и визуализация экономических данных, Неделя науки - 2014 «Наука МИИТа - Транспорту», Москва - 2014 С. I-6.
9. Чугумбаев Р.Р.Основы эталонного анализа хозяйственной деятельности предприятия. Монография/Волгоград: Издательство ВолгГТУ, - 2013. - 226 с.