Интернет-журнал «Науковедение» ISSN 2223-5167 http ://naukovedenie. ru/
Том 9, №3 (2017) http://naukovedenie.ru/vol9-3.php
URL статьи: http://naukovedenie.ru/PDF/60TVN317.pdf
Статья опубликована 10.06.2017
Ссылка для цитирования этой статьи:
Пивоварова Н.В., Порошина В.И. Интеллектуальный анализ данных для пригородных пассажирских перевозчиков // Интернет-журнал «НАУКОВЕДЕНИЕ» Том 9, №3 (2017) http://naukovedenie.ru/PDF/60TVN317.pdf (доступ свободный). Загл. с экрана. Яз. рус., англ.
УДК 004.623
Пивоварова Наталья Владимировна
ФГБОУ ВО «Московский государственный технический университет им. Н.Э. Баумана (национальный исследовательский университет)», Россия, Москва1 Доцент кафедры «Системы автоматизированного проектирования»
Кандидат технических наук E-mail: [email protected]
Порошина Валерия Игоревна2
ФГБОУ ВО «Московский государственный технический университет им. Н.Э. Баумана (национальный исследовательский университет)», Россия, Москва Магистр кафедры «Системы автоматизированного проектирования»
E-mail: [email protected]
Интеллектуальный анализ данных для пригородных пассажирских перевозчиков
Аннотация. Пассажирский транспорт играет большую роль в муниципальном хозяйстве городов. Крупные транспортные компании ежедневного перевозят более миллиона пассажиров, имеют развитую инфраструктуру и физически распределены. Например, на данный момент действующая пригородная пассажирская компания в Москве охватывает более 1,5 тысячи остановочных пунктов по 10 направлениям в 6 региональных центрах и имеет в своем распоряжении более 500 поездов. В компаниях такого масштаба довольно сложно поддерживать высокое качество обслуживания и технико-экономические показатели работы системы.
В статье рассматриваются методы интеллектуального анализа данных для повышения эффективности работы компании, занимающейся пригородными пассажирскими перевозками. Исследованы методы, позволяющие решать задачи прогнозирования отказоустойчивости билетопечатающих автоматов, описаны принципы реализации метода. В качестве эксперимента было рассмотрено два подхода к реализации прогнозирующих моделей для одной и той же задачи. Были построены две разные модели на основе классификационных деревьев решений. В первом случае степень влияния на все показатели назначали эксперты. Вторая модель была построена на основе машинного обучения (machine learning) - система самостоятельно распознавала взаимосвязи параметров, а также степень их влияния на
1 105005, Москва, ул. 2-ая Бауманская, д. 5
2 125480, Москва, ул. Героев Панфиловцев, д. 16, к. 1, кв. 86
показатель. Приведены результаты прогнозирования двух моделей, представлена оценка их эффективности.
Ключевые слова: интеллектуальный анализ; аналитическая система; классификационные деревья решений; прогнозирование; машинное обучение; экспертная оценка; транспорт; отказоустойчивость оборудования; бизнес
Введение
Система пригородного пассажирского транспорта занимает особое положение в муниципальном хозяйстве городов и является достаточно сложной, особенно в крупных городах. Например, на данный момент действующая пригородная пассажирская компания в Москве охватывает более 1,5 тысячи остановочных пунктов по 10 направлениям в 6 региональных центрах и имеет в своем распоряжении более 500 поездов. В компаниях такого масштаба довольно сложно поддерживать высокое качество обслуживания и технико -экономические показатели работы системы. Действующие автоматизированные системы управления предприятием (АСУП) должны отвечать заявленным требованиям в условиях постоянного усложнения решаемой задачи: постоянный рост интенсивности пассажирских и транспортных потоков, развитие маршрутной сети, увеличение средней дальности передвижений на пассажирском транспорте, возрастание неравномерности пассажиропотоков по времени и направлениям следования.
В подсистеме оперативного мониторинга и управления инцидентами (ОМиУ) регистрируются инциденты - происшествия, связанные с поломками оборудования, отменами и опозданиями поездов, случаями травматизма или нарушения безопасности и другие. Инциденты регистрируются оперативно с устройств сотрудников компании или по каналам связи теми же сотрудниками или гражданами. Инциденты обрабатывает диспетчерская служба компании. Некоторые категории инцидентов требуют оперативного разрешения, например, всевозможные поломки подвижного состава, устройств контроля входа/выхода пассажиров, билетопечатающих автоматов. Для повышения эффективности работы компании, отказоустойчивость ряда пассажирских обустройств может быть спрогнозирована.
Основным ожидаемым бизнес-эффектом от применения инструментов прогнозирования является снижение финансовых потерь за счет повышения технической готовности оборудования. Данная цель должна быть достигнута посредством предоставления средств прогнозирования отказоустойчивости оборудования на основе исследованных методов прогнозирования.
В настоящее время знания в области интеллектуального анализа данных представлены достаточно широко. Существует много публикаций на эту тему. Однако, в подавляющем большинстве случаев, все они относятся к сфере банковского дела, торговли, страхового бизнеса.
Среди них стоит упомянуть два учебных пособия выдающихся ученых в области прогнозирования экономических процессов и моделирования экономических систем и процессов Тихонова Эдуарда Евгеньевича «Методы прогнозирования в условиях рынка» [1] и Громовой Нэлы Михайловны «Основы экономического прогнозирования» [2]. В первом пособии рассмотрены вопросы практического применения методов прогнозирования для рынка ценных бумаг, производственного менеджмента, во втором - описание принципов экономического прогнозирования, в частности для отрасли народного хозяйства.
Разработка и практическое применение модели экстраполяции по выборке максимального подобия для прогнозирования показателей энергорынка РФ представлены в
диссертационной работе Чучуевой Ирины Александровны [3]. Результатом работы модели являлся прогноз изменения цен энергорынка.
Применение методов прогнозирования в других отраслях для задач, не затрагивающих финансовые показатели, но, несомненно, на них влияющие, например, прогнозирование отказоустойчивости оборудования, изменения пассажиропотока и т.д., в общем числе публикаций не описано совсем, либо описано поверхностно.
Данная статья затрагивает вопросы использования интеллектуального анализа данных в такой отрасли, как транспорт. В статье рассмотрены принципы построения прогнозирующей модели для предотвращения появления проблем, связанных с выходом из строя оборудования. Данная задача также актуальна для производственной отрасли. Также в статье затронута проблема эффективности интеллектуальных ресурсов человека и искусственного интеллекта.
Несмотря на то, что компьютерные технологии развиваются быстрыми темпами, основные их потребители зачастую не готовы к использованию новых возможностей. Часто это связано с тем, что обновление аппаратного и программного обеспечения требует значительных финансовых затрат. Также это связано с недоверием к эффективности решений: около 70% опрошенных аналитиков, руководителей направлений в различных сферах деятельности, начиная от коммерческих и производственных предприятий до госструктур, могли бы доверить машине вычислительные процессы различной сложности, но определение зависимостей в данных, взаимосвязей параметров и показателей готовы поручить только квалифицированному специалисту.
В связи с этим возникла идея проведения исследования - экспериментальным путем выяснить, насколько эффективным может быть применение методов прогнозирования для принятия управленческих решений. Также в ходе эксперимента возник вопрос: что если производить анализ связей в данных будет не машина, а человек? Чьи вычислительные и интеллектуальные ресурсы будут эффективнее и насколько?
Подобные сравнения уже осуществлялись и приводились, например, в статье Джона Клейнберга Human Decisions and Machine Predictions [4], но опять же в области финансовой экономики. В статье Мэттиаса Сейферта 3 Humans + 1 Computer = Best Prediction [5] после проведенных исследований высказана идея о совмещении интеллектуальных способностей человека и машины.
На сегодняшний день существует более двухсот различных методов прогнозирования, но на практике наиболее распространенными являются около двадцати. Число методов и моделей постоянно растет, добавляются новые, наиболее эффективные для определенных предметных областей или определенных задач.
Несмотря на такое многообразие методов, среди них нет универсального метода, который был бы применим ко всем задачам. Это связано с тем, что для каждой модели прогнозирования есть требования к входным данным, и, попросту, не все данные могут соответствовать этим требованиям. Игнорирование требований может привести к грубым ошибкам в результатах прогнозирования. Также необходимо понимать, как работает модель, каким образом она обрабатывает входные данные, потому что, какой бы эффективной модель ни была для одной задачи, для другой она может быть не применима, даже если данные соответствуют требованиям.
Например, использовать модель на основе временных рядов для определения кредитоспособности клиента - плохая идея, так как модель основана на предыдущем опыте взаимодействия с клиентом. Если клиент возвращал все свои кредиты, то информационно-аналитическая система (ИАС) с высокой долей вероятности порекомендует выдать клиенту новый кредит, несмотря на то, что, например, он может уже не работать. Или при анализе может
быть обнаружена такая закономерность: клиент обычно не возвращает кредит зимой. Приняв к сведению, что сейчас весна, ИАС порекомендует выдать кредит данному клиенту.
Целесообразно для данной задачи использовать классификационные модели, которые опираются только на входящие параметры. Такие информационно-аналитические системы как раз и обрабатывают анкеты клиентов в банках [6].
Классифицировать методы прогнозирования принято в общем виде на основе наиболее важных признаков. Так как данная область разрастается и расширяется довольно быстро, то нет возможности охватить все аспекты различных методов и составить более детальную классификацию. Наиболее важными признаком классификации является степень формализации (рисунок 1) [7].
Рисунок 1. Классификация методов и моделей прогнозирования (составлено авторами)
Интуитивные методы используются в тех случаях, когда невозможно учесть влияние многих факторов из-за значительной сложности объекта прогнозирования. В этом случае используются оценки экспертов как индивидуальные, так и коллективные.
Формализованные методы - методы прогнозирования, в результате применения которых строят модели прогнозирования, то есть определяют такую математическую зависимость, которая позволяет вычислить будущее значение процесса, то есть сделать прогноз.
Модели, описываемые формализованными методами, можно разделить на следующие группы.
• Модели предметной области - математические модели прогнозирования, для построения которых используются зависимости, свойственные конкретной предметной области. Такого рода моделям свойственен индивидуальный подход в разработке.
• Модели временных рядов - математические модели прогнозирования, которые стремятся найти зависимость будущего значения от прошлого в рамках самого процесса и на основе этой зависимости построить прогноз. Эти модели универсальны для различных предметных областей, то есть их общий вид не меняется в зависимости от природы временного ряда.
• Статистические модели - зависимость будущего значения от прошлого задается в виде некоторого уравнения. К ним относятся:
о регрессионные модели (линейная регрессия, нелинейная регрессия); о авторегрессионные модели (ARIMAX, GARCH, ARDLM); о модель экспоненциального сглаживания; о модель по выборке максимального подобия; о и т.д.
• Структурные модели - зависимость будущего значения от прошлого задается в виде некоторой структуры и правил перехода по ней. К ним относятся:
о нейросетевые модели;
о модели на базе цепей Маркова;
о модели на базе классификационно-регрессионных деревьев решений; о и т.д.
Для исследования интеллектуальных возможностей человека и машины была выбрана модель классификационных деревьев решений. Эта модель позволяет работать с суждениями и представляет их в удобном для восприятия виде. Также при разработке модели есть возможность использовать машинное обучение.
1. Постановка задачи
Требуется выбрать метод прогнозирования и реализовать модели для прогнозирования поломок билетопечатающих автоматов (БПА) с точностью не менее 95%. Для исследования корректности определения связей в данных машиной и человеком должны быть построены две прогнозирующие модели: одна из моделей должна быть реализована на основе экспертной оценки, вторая - на основе машинного обучения. Необходимо сравнить полученные результаты прогнозирования двух моделей.
Показатель, значение которого должно быть спрогнозировано - коэффициент технической готовности БПА (КТГ БПА), который определяется двумя состояниями -«поломка» и «рабочее состояние».
Ниже приведены параметры, которые влияют на изменение показателей. Были отобраны такие параметры, которые по мнению специалистов оказывают наибольшее влияние на изменения показателя:
• информация об изменениях пассажиропотока по времени суток и дням недели;
• информация о пройденном плановом обслуживании;
• информация о выходе из строя по инцидентам, учитывая число, частоту и критичность поломок;
• приближение срока эксплуатации БПА к границам ожидаемого срока службы.
Разрабатываемая система, как и любая информационно-аналитическая система, состоит из источников данных, модулей извлечения, преобразования и загрузки данных, хранилища данных и подсистемы отчетности или инструментов создания отчетов. Общая архитектура ИАС представлена на рисунке 2.
Рисунок 2. Общая архитектура ИАС: ЦХД - центральное хранилище данных;
КИАП - комплексная информационно-аналитическая система; ОМиУ - подсистема оперативного мониторинга и управления; НСИ - подсистема нормативно-справочной
информации КИАП (составлено авторами)
Данные, необходимые для реализации методов прогнозирования, складируются в хранилище данных уже очищенными и подготовленными к анализу, т.е. предварительной подготовки данных перед применением методов не требуется. Вся очистка и унификация данных производится с помощью инструмента ETL (Extract Transfrom Load) - инструмент для извлечения, преобразования и загрузки данных в хранилище.
2. Предлагаемые математические модели и метод прогнозирования
В качестве эксперимента было рассмотрено два подхода к реализации прогнозирующих моделей для одной и той же задачи. Были построены две разные модели на основе классификационных деревьев решений. В первом случае степень влияния на все показатели назначали эксперты. Вторая модель была построена на основе машинного обучения (machine learning) - система самостоятельно распознавала взаимосвязи параметров, а также степень их влияния на показатель.
Перед построением модели был произведен анализ и подготовка данных, определены взаимосвязи данных, частота их обновления (изменения), после чего были выполнены следующие подготовительные действия.
1. Определение временных параметров прогнозирования:
• период прогнозирования - основная единица времени, на которую делается прогноз;
• горизонт прогнозирования - число периодов в будущем, которые покрывает прогноз;
• интервал прогнозирования - частота, с которой делается новый прогноз.
Приняты следующие значения указанных параметров: горизонт прогнозирования -месяц; период прогнозирования - неделя; интервал прогнозирования - час.
2. Выбор критерия, определяющего точность построения прогноза.
В настоящее время широко используется такой критерий для определения точности построения прогноза как сумма квадратов ошибок:
ББЕ= 2?=1е?, (1)
где: е - разность между реальным значением и прогнозируемым; п - число значений.
Данный критерий наиболее часто используется при выборе оптимальной модели прогнозирования. В критерии каждое значение ошибки прогноза возводится в квадрат, что подчеркивает большие ошибки прогноза. Данная особенность очень важна, так как модель прогнозирования, постоянно дающая средние по величине ошибки, в некоторых случаях может быть предпочтительнее другой модели, имеющей малые ошибки, но периодически дающей неприемлемые по абсолютной величине выбросы.
Критерий (1) хорошо подходит для моделей, которые возвращают результаты в виде вероятности наступления события. Но в данном конкретном случае были использованы модели, возвращающие дискретные значения (п. 2.1, 2.2). В связи с этим был выбран критерий определения точности модели, учитывающий число верных «попаданий»:
А = (2)
а+Ъ+с+й 4 '
где: а - сумма верно предсказанных событий первого типа («поломка»); Ь - сумма неверно предсказанных событий первого типа («поломка»); с - сумма неверно предсказанных событий второго типа («рабочее состояние»); ё - сумма верно предсказанных событий второго типа («рабочее состояние»).
3. Подготовка выборки данных.
Выборка данных для построения модели прогнозирования была получена на основе данных за два года работы компании и разделена на две части: обучающая выборка (данные за первый год) - используется для отладки модели; выборка для тестирования (данные за второй год) - используется для проверки работы прогнозирующей модели.
2.1. Модель на основе экспертной оценки
Суть модели на основе экспертной оценки заключалась в том, что каждому из параметров назначались веса X по следующим правилам.
• Информация об изменениях пассажиропотока:
о если время от 8:00 до 11:00 и от 18:00 до 21:00, то Х1 = 1,05;
о если день недели - пятница, суббота и воскресение, то Х2 = 1,1.
• Информация о пройденном плановом обслуживании:
о если БПА не проходил плановое обслуживание в течение полугода, то Хз = 1,2;
о если БПА не проходил плановое обслуживание в течение года, то Хз = 1,5.
• Информация о выходе из строя по инцидентам:
Интернет-журнал «НАУКОВЕДЕНИЕ» Том 9, №3 (май - июнь 2017)
http: //naukovedenie.ru [email protected]
o для каждой новой поломки БПА вес увеличивается: Х4 = 1,1b, где b - число поломок;
o если времени между двумя последними поломками прошло меньше 3 месяцев, то Х5 = 1,5;
o если поломка критичная, то ta = 1,1с, где c - число критичных поломок.
• Приближение срока эксплуатации БПА к границам ожидаемого срока службы: o если срок эксплуатации больше 3 лет и меньше 4, то Х7 = 1,05; o если срок эксплуатации больше 4 лет и меньше 5, то Х7 = 1,15; o если срок эксплуатации больше 5 лет, то Х7 = 1,25.
Если условия пересекаются, то веса умножаются.
2.2. Модель на основе машинного обучения
Суть модели на основе машинного обучения (machine learning) заключалась в том, что в предоставленной выборке связи между параметрами и веса определяются автоматически.
Набор параметров в данном случае был представлен несколько шире, например, в выборке ИАС оценивала такой параметр как «Номер станции». Экспертная оценка не учитывала данный параметр, так как экспертная группа не смогла назначить веса для этого параметра: на крупных станциях, возможно, и должны БПА ломаться чаще, но там гарантировано все БПА проходят плановый осмотр.
Самым важным моментом в машинном обучении является подготовка данных. Под этим подразумевается очистка данных, унификация, добавление значений, полей и т.д. В данном случае основная подготовка данных была осуществлена с помощью инструментов ETL, но дополнительно было произведено уравнивание данных.
2.2.1. Уравнивание данных
Объем данных по рабочему состоянию БПА значительно превосходил объем данных по поломкам: на сто записей о рабочем состоянии приходится одна по поломке (данные не являются реальными: в соответствии с критериями экспертов на основе реальных данных была подготовлена тестовая выборка). Так как система воспринимает оба состояния как равнозначные, то при таком объеме данных для системы ошибиться по поводу события «рабочее состояние» в сто раз хуже, чем ошибиться с прогнозом события «поломка». При тестировании такой модели выяснилось, что система не возвращала результатов прогноза со значением «поломка». Результат неудовлетворителен, но вполне ожидаем.
Чтобы уравнять данные, можно воспользоваться несколькими способами:
• назначить веса на значение показателя, чтобы снизить или повысить его значимость;
• уравнять число записей каждого события.
В первом случае пользователь на состояние «поломка» назначает вес, который определяет значимость данного события по отношению к остальным. Это значение может быть как абсолютным (если указан вес равный четырем, то по отношению к другим значениям, данное значение будет в 4 раза значимее), так и относительным (если указан вес для одного события «0,6», то у другого автоматически будет «0,4»).
При уравнивании числа записей происходит следующее: записи, которых меньше, дублируют в выборку столько раз, сколько необходимо для выравнивания числа записей по отношению к другому событию. Либо, наоборот, из записей одного события, которых больше, берут только часть, равную числу записей другого события. В этом случае нужно быть готовыми к тому, что часть важных данных использоваться не будет.
В ходе исследования эффективности каждого из подходов, наилучший результат был получен при комбинированном подходе.
Подход, который был использован для построения модели, заключается в следующем: событию «поломка» был назначен вес 4, затем было осуществлено уравнивание числа записей. Число вхождений записей со значением «поломка» в выборку не превышает 4, т.е. в данной выборке одинаковые записи не повторяются больше 4 раз. Объем общего числа записей в выборке был сохранен. При этом остались неиспользованными три тысячи полезных данных, а число записей «рабочего состояния» по-прежнему превышало объем записей события «поломка» в 6 раз. Чтобы избежать этого, был настроен общий объем выборки таким образом, чтобы весь объем данных о рабочем состоянии можно было поделить на одинаковые, непересекающиеся подмножества. Таким образом, мы получили возможность обучать модель и корректировать на разных наборах данных, касающихся рабочего состояния, используя при этом весь объем предоставленных данных.
Здесь необходимо пояснить, почему для выборки, где доля записей одного события превышает долю записей другого более чем в сто раз, лучше всего использовать комбинированный метод. Если же использовать только веса, то не стоит забывать, что значимость каждого значения параметра возрастет в более чем 100 раз, т.е. при попадании случайного значения (а они обязательно случаются) система начинает выдавать неадекватный результат. То же самое происходит при дублировании записей более чем 100 раз.
Но при умеренном использовании весов и дублирования записей мы по-прежнему сталкиваемся с тем, что данные еще не сравнялись, а оставшийся подход - исключение «лишних» записей, приводит нас к потере важных данных. Чтобы ничего не терять было использовано 6 наборов данных по рабочему состоянию и один по поломкам. Система прогоняла модель 6 раз и, получая новые результаты, корректировала модель.
2.2.2. Оптимизация
Анализ данных с помощью прогнозирующей модели производился не в промышленных масштабах, на кластерах, как это обычно происходит, а на обычном компьютере (Intel (R) Core (TM) i7-4510U, 2.6 GHz, ОЗУ 12 Гб). Поэтому остро стоял вопрос об увеличении производительности, так как объем обрабатываемых данных был очень большим (порядка 100 Гб).
1. В целях увеличения производительности при обработке входных данных, особенно при больших объемах, целесообразно все данные хранить в одном источнике, по возможности, не злоупотреблять объединением большого числа таблиц, а также условиями и подзапросами. В данном случае было использовано хранимое представление в базе данных (view), так как запрос с объединением нескольких таблиц и использованием ограничений требовал много времени и вычислительных ресурсов на обработку.
2. Все расчётные поля следует хранить в таблице уже подготовленными, а не вычислять «на лету». Например, число поломок и промежуток по времени между последними поломками были рассчитаны предварительно. Не нужно перекладывать расчёт и обработку сложных формул на инструмента для интеллектуального анализа данных (Data Mining).
3. Программная реализация
Модели были реализованы с помощью инструмента RapidMiner 5.3, который является решением с открытым исходным кодом и при этом обладает мощным функционалом для разработки. Интерфейс среды разработки представлен на рисунке 3.
Рисунок 3. Интерфейс среды разработки RapidMiner (составлено авторами)
Достоинства инструмента:
• удобный графический пользовательский интерфейс - разработка с помощью визуальной системы программирования - Blueprint;
• наличие инструментов подготовки данных - в RapidMiner имеются готовые инструменты ETL;
• наличие сервера - в RapidMiner Studio создаются процессы, а на сервере их можно публиковать. Работа сервера осуществляется по принципу планировщика задач;
• возможность построения отчетов - есть возможность визуально представить результаты исследования, но набор инструментов для построения отчетов минимальный.
3.1. Создание модели в RapidMiner
Для модели на основе машинного обучения было создано два процесса: реализующий модель и применяющий модель.
В процессе, реализующем модель, производилось создание и настройка модели по принципам, описанным в предыдущем разделе, обучение модели осуществлялось на обучающей выборке данных (рисунок 4, 5).
Рисунок 4. Реализующий модель процесс (составлено авторами)
Рисунок 5. Оператор Validation реализующего процесса (составлено авторами)
Во втором процессе к выборке данных для тестирования применялась полученная прогнозирующая модель (рисунок 6).
Рисунок 6. Применяющий модель процесс (составлено авторами)
Для модели на основе экспертной оценки использовался только один процесс - создание модели и ее применение на выборке для тестирования. Обучение на данных не требовалось, так как модель построена на преднастроенных экспертами взаимосвязях, и переопределять их не требовалось. Процесс для модели на основе экспертной оценки представлен на рисунке 7.
Рисунок 7. Процесс для модели на основе экспертной оценки (составлено авторами)
4. Вычислительный эксперимент
4.1. Модель на основе экспертной оценки
Модель на основе экспертной оценки, представленная в п. 2.1, была легко интерпретируема, но давала совершенно неприемлемые результаты (рисунок 8).
accuracy: 95,76ii
true 0 true 1
pred. О 111398 4778
pred. 1 159 165
class recall 99.86% 3.3.4%
Рисунок 8. Результаты работы прогнозирующей модели на основе экспертной оценки
(составлено авторами)
Строки таблицы (рисунок 8) - предсказанные значения каждого из событий, столбцы таблицы - реальные значения каждого из событий. На пересечении строк и столбцов - число верных или неверных предсказанных событий. Судя по таблице, процент верно предсказанных событий «поломка» составляет чуть больше трех процентов. В таблице в верхней строке указана общая точность модели, которая рассчитывается по формуле (2).
После вариации значений весов, удаления или добавления новых факторов, сокращения выборки, сегментирования выборки (рассматривались отдельно сезон, месяц, только один день недели) результаты оставались неудовлетворительными (рисунок 9, 10).
accuracy: 95.76%
true 0 true 1
pred. О 111187 4573
pre! 1 370 370
class recall 99.67% 7.49%
Рисунок 9. Результаты работы прогнозирующей модели на основе экспертной оценки после
первой корректировки (составлено авторами)
accuracy: 96.01 &
true 0 true 1
pred. О 109292 3552
pred. 1 2265 1391
class recall 97.97% 28.14%
Рисунок 10. Результаты работы прогнозирующей модели на основе экспертной оценки после
очередной корректировки (составлено авторами)
В целом, точности прогноза выше, чем ~28% верно предсказанных значений, получить не удалось.
4.2. Модель на основе машинного обучения
Результат прогноза модели на основе машинного обучения получился более точным, чем при использовании модели на основе экспертной оценки (рисунок 11).
accuracy: 93.62*
true 0 true 1
pred. О 106942 2322
pred. 1 4615 2121
class recall 95.36% 42.91%
Рисунок 11. Результаты работы прогнозирующей модели на основе машинного обучения
(составлено авторами)
Модель получилась абсолютно неинтерпретируемой, сложной. Глубина дерева достигает 20 (рисунок 12).
Рисунок 12. Модель дерева решений. Радиальное представление (составлено авторами)
Страница 14 из 17
http://naukovedenie.ru
60^Ш17
Стоит отметить, что в ходе анализа полученных результатов обнаружено следующее: в силу того, что прогнозируемые значения дискретны, то за успешный результат принималось строгое соответствие («день в день») значению тестирующей выборки. За ошибку нередко принималась ситуация, когда прогнозируемое значение не совпадало с реальным, а было очень близко: прогнозируемая поломка была на день раньше или позже реального события.
Были отобраны значения, которые отстояли от реального значения на ±3 дня, с помощью специально разработанного скрипта. Из 4943 реальных событий «поломка» число прогнозируемых значений, которые отстояли от реального значения более чем на 3 дня, составляет 763. Соответственно, процент верно предсказанных событий «поломка» составляет ~84%. Общая оценка точности равна ~95%.
Чтобы избежать подобной потери точности на дискретных значениях, стоит обратить внимание на методы, возвращающие вероятностные значения.
Заключение
Эффективность функционирования пригородной пассажирской компании существенным образом зависит от оперативности, точности и достоверности управленческих решений, принимаемых её подразделениями. В свою очередь, оперативность зависит от степени автоматизации процесса принятия решений, а точность и достоверность от качества соответствующего специального математического и программного обеспечения.
Проведенное исследование показало, что использование методов интеллектуального анализа данных для прогнозирования отказоустойчивости БПА позволяет повысить коэффициент технической готовности оборудования до ~95 - 99%. Это позволит сэкономить компании значительные средства, которые идут на ремонт, замену сломанного оборудования, т.к. профилактический осмотр обходится в разы дешевле. Также компания не потеряет прибыль в связи с простоем автоматов из-за затрат времени на обнаружение и исправление поломки. С повышением КТГ сократится число «зайцев», так как появится возможность быстро и удобно приобретать билеты, даже если поезд отправляется через пару минут.
По результатам сравнения аналитических способностей экспертной группы и искусственного интеллекта (п. 4) очевидно, что преимущество осталось за моделью на основе машинного обучения. И дело не в том, что экспертная группа неэффективна - для данной задачи с большим объемом данных, со сложной взаимосвязью параметров, экспертам невозможно проанализировать данные. Большую роль при прогнозировании сыграли как раз скрытые зависимости (иначе модель была бы более простой и интерпретируемой).
Тем не менее, ИАС не может принимать решения - эта прерогатива остается за экспертами, которые получая результаты из различных отчетов, принимают оптимальное решение. Данный эксперимент показал, что для помощи в принятии решений, особенно на крупных, физически распределенных, компаниях, стоит прибегнуть к использованию искусственного интеллекта при анализе данных.
Том 9, №3 (май - июнь 2017)
ЛИТЕРАТУРА
1. 2.
3.
4.
5.
6.
7.
8.
9.
10. 11. 12.
Тихонов Э.Е. Методы прогнозирования в условиях рынка. Учебное пособие. -Невинномысск, 2006. - 221 с.
Громова Н.М., Громова Н.И. Основы экономического прогнозирования. Учебное пособие. - М.: Академия Естествознания, 2006. - 80 с.
Чучуева И.А. Модель прогнозирования временных рядов по выборке максимального подобия. - Москва, 2012. - 155 с.
Jon Kleinberg Human Decision and Machine Predictions. National Bureau of economic Research. Cambridge, 2017. - 76 p.
Matthias Seifert, Allegre L. Hadida 3 Humans + 1 Computer = Best Prediction. -Harvard Bussiness Review, 2013. - 2 p.
Markus Hofmann, Ralf Klinkenberg RapidMiner: Data Mining Use Cases and Business Analytics Applications. - Chapman & Hall / CRC Data Mining and Knowledge Discovery Series, 2013. - 525 p.
Dr. Matthew North Data Mining for the Masses. - Global Text Project, 2012. - 264 p.
Басергян А.А. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. - 2-е изд. - СПб: БХВ-Петербург, 2007. - 375 с.
Ian H. Witten, Eibe Frank, Mark A. Hall Data Mining. Practical Machine Learning. Tools and Techniques. - 3rd ed. - Elsevier, 2011. - 629 p.
Ian Goodfellow, Yoshua Bengio, Aaron Courville Deep Learning. - MIT Press, 2016. -760 p.
Peter Flach Machine Learning. The Art and Science of Algorithms that Make Sense of Data. - Cambridge University Press, 2012. - 400 p.
Колмогоров А.Н. Основные понятия теории вероятностей. - 2-е изд. М.: Наука,
1974. - 118 с.
Pivovarova Natalya Vladimirovna
Bauman Moscow state technical university, Russia, Moscow E-mail: [email protected]
Poroshina Valeriya Igorevna
Bauman Moscow state technical university, Russia, Moscow
E-mail: [email protected]
Data mining for suburban passenger railway company
Abstract. Passenger transport plays a big role in the municipal economy of cities. Large transport companies daily transport more than a million passengers, have developed infrastructure and are physically distributed. For example, at the moment the operating suburban passenger company in Moscow covers more than 1,5 thousand stopping points in 10 directions in 6 regional centers and has at its disposal more than 500 trains. In companies of this scale it is difficult to maintain high quality of service and technical and economic performance of the system.
The article describes the methods of data mining to improve the performance of the company, engaged in commuter passenger transportation. There were researched the methods that allow us to solve the problem of forecasting resiliency of machines for printing tickets. Principles of the development of predictive models in a given subject area were described. As an experiment, two approaches to implementing predictive models for the same problem were considered. Two different models were constructed on the basis of classification decision trees. In the first case, the degree of influence on all indicators was assigned by experts. The second model was built on the basis of machine learning. The results of forecasting of two models are given, the estimation of their efficiency is presented.
Keywords: data mining; analytical system; decision trees; prediction; machine learning; expert review; transport; fault tolerance of equipment; business