Научная статья на тему 'Прогнозирование показателей производственной безопасности'

Прогнозирование показателей производственной безопасности Текст научной статьи по специальности «Экономика и бизнес»

CC BY
317
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
StudNet
Область наук
Ключевые слова
производственная безопасность / прогнозирование / модель / Random Forest / временной ряд. / industrial safety / forecasting / model / Random Forest / time series.

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Атаманова Милана Валентиновна

Статья посвящена разработке и выбору наилучшей модели для прогнозирования показателей производственной безопасности на нефтедобывающих, нефтеперерабатывающих и сбытовых предприятиях. Исходные данные содержат информацию о происшествиях различного характера, о пробегах транспортных средств, об отработанных человеко-часах более чем на ста предприятиях. Тестировались методы линейной регрессии, экспоненциального сглаживания, Random Forest и ARIMA. Сравнение моделей проводилось по 3-м метрикам: MSE, MAE и MAPE. Наилучшей моделью оказался Random Forest, так как он показал наибольшую точность, что является приоритетом

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FORECASTING OF INDUSTRIAL SAFETY PERFORMANCE

The article is devoted to the development and selection of the best model for predicting production safety indicators at oil producing, oil refining, and marketing enterprises. The source data contains information about incidents of various kinds, about vehicle mileage, and about man-hours worked at more than a hundred enterprises. The methods of linear regression, exponential smoothing, Random Forest and ARIMA were tested. Comparison of models was carried out according to 3 metrics: MSE, MAE and MAPE. Random Forest turned out to be the best model, as it showed the greatest accuracy, which is a priority.

Текст научной работы на тему «Прогнозирование показателей производственной безопасности»

ПРОГНОЗИРОВАНИЕ ПОКАЗАТЕЛЕЙ ПРОИЗВОДСТВЕННОЙ

БЕЗОПАСНОСТИ

FORECASTING OF INDUSTRIAL SAFETY PERFORMANCE

УДК 51-7

Атаманова Милана Валентиновна, студент, Санкт-Петербургский государственный экономический университет, г. Санкт-Петербург

Atamanova M.V. milana-atamanova@mail.ru

Аннотация

Статья посвящена разработке и выбору наилучшей модели для прогнозирования показателей производственной безопасности на нефтедобывающих, нефтеперерабатывающих и сбытовых предприятиях. Исходные данные содержат информацию о происшествиях различного характера, о пробегах транспортных средств, об отработанных человеко-часах более чем на ста предприятиях. Тестировались методы линейной регрессии, экспоненциального сглаживания, Random Forest и ARIMA. Сравнение моделей проводилось по 3-м метрикам: MSE, MAE и MAPE. Наилучшей моделью оказался Random Forest, так как он показал наибольшую точность, что является приоритетом.

Summary

The article is devoted to the development and selection of the best model for predicting production safety indicators at oil producing, oil refining, and marketing enterprises. The source data contains information about incidents of various kinds, about vehicle mileage, and about man-hours worked at more than a hundred enterprises. The methods of linear regression, exponential smoothing, Random Forest and ARIMA were tested. Comparison of models was carried out according to 3 metrics: MSE, MAE and MAPE. Random Forest turned out to be the best model, as it showed the greatest accuracy, which is a priority.

Ключевые слова: производственная безопасность, прогнозирование, модель, Random Forest, временной ряд.

Keywords: industrial safety, forecasting, model, Random Forest, time series.

Компании, которая занимается разведкой, разработкой месторождений, нефтепереработкой, производством и сбытом нефтепродуктов важно организовать работу так, чтобы максимально предотвратить или уменьшить вероятность травмирующих факторов на производстве, так как при возникновении аварий, несчастных случаев и т.п. компания терпит большие убытки, как финансовые, так и репутационные.

В связи с данной проблемой была поставлена цель разработки метода, который бы повысил достоверность результатов прогнозирования показателей производственной безопасности с помощью эффективных математических методов и обработки статистических данных.

В данной работе будут рассмотрены данные для 3-х основных показателей:

1) Ltif - коэффициент травматизма (отношение числа несчастных случаев/пострадавших к отработанным человеко-часам);

2) Ka - удельный показатель аварийности (отношение числа аварий к отработанным человеко-часам);

3) AAR - коэффициент ДТП (отношение числа ДТП к пробегам транспортных средств).

На данный момент используются системы прогнозирования, которые не позволяют реализовать максимально точные вычисления количества отработанных человеко-часов и пробегов транспортных средств.

Основной целью предприятия является сокращение числа несчастных случаев, аварий и т.п. В ходе построения моделей использовались данные из четырех источников о 102-х предприятиях за последние 5 лет. Используются данные о количестве происшествий, количестве пострадавших, пробегах транспортных средств, количестве транспортных средств, количестве дней нетрудоспособности, об отработанных человеко-часах, численности работников и т.д. Текущим методом прогнозирования является метод скользящей средней. Необходимый горизонт прогноза составляет полгода. Пример исходных данных представлен на рисунке 1.

Иф_4аипс«_кл>

Рис. 1. Исходные данные пробега одного автомобиля

Исходные данные поступают с бортовых компьютеров автомобилей и не всегда качественно декодируются. Подобные просадки в нулевые значения не должны происходить, поэтому было приято решение убрать аномальные значения из выборки.

Построение моделей и вычисления производились на языке программирования R, в качестве среды разработки использовался RStudio.

Для прогнозирования были использованы следующие методы:

- линейная регрессия;

- экспоненциальное сглаживание;

- Random Forest;

- ARIMA.

Такие модели, как экспоненциальное сглаживание и ARIMA, не нуждаются в генерации признаков, так как для построения прогноза им достаточно знать предыдущие значения временного ряда.

При построении ARIMA использовалась autoARIMA, которая достаточно популярна в R в силу простоты использования. Но, как показывает практика, данный метод в полностью автоматическом режиме работает не очень хорошо.

При использовании методов для прогнозирования многие из них зачастую требуют больших затрат или сложны в настройке, что, очевидно, не очень выгодно для предприятия. Так как бизнес всегда хочет получить результат быстро, с высокой точностью и с наименьшими затратами. По этим причинам намного проще выделить несколько признаков из временного ряда или добавить внешние признаки и на них построить модели линейной регрессии и Random Forest.

Самый простой вариант генерации «фичей» (признаков) по временному ряду - это создание временных лагов. Так как необходим прогноз на 6 месяцев, то есть ограничения по генерации подобных признаков, а именно: наименьший лаг не может быть меньше 6 месяцев. Поэтому для модели генерировались лаги 6-10 месяцев. Также в подобных задачах хорошо себя проявляют признаки средних значений. Например, для прогноза 1 января года в качестве признака берется среднее всех значений, сделанных 1 января за известный период.

Для прогнозирования подобного рода очень полезны признаки дней недели, праздничных/нерабочих дней, геолокации, периодичности смен рабочих.

Также большим плюсом является возможность использования признаков за пределами исходного временного ряда. То есть при прогнозировании пробега одного автомобиля можно использовать данные по другим подобным автомобилям, так как нельзя отрицать их сильную взаимосвязь.

В качестве сравнения моделей были использованы метрики: средняя квадратичная ошибка (MSE), средняя абсолютная ошибка (MAE) и средняя абсолютная процентная ошибка (MAPE). Данный набор метрик обусловлен тем, что использование абсолютных метрик (MSE, MAE) позволяет оценить среднюю ошибку моделей в реальных цифрах в то время, как MAPE дает понять, как подобное отклонение в реальных цифрах влияет на качество модели. Так как приоритетом для предприятия является наибольшая точность прогноза, лучшей моделью является Random Forest.

Результаты показаны в таблице 1.

Таблица 1. Ошибки моделей

Ошибка Регрессия Экспоненциальное сглаживание ARIMA Random Forest

MSE 262386 556229 2271243 239934

MAE 2144 3483 12968 1739

MAPE 11,8 13,4 25,6 6,22

В данной работе было протестировано несколько моделей для прогнозирования показателей производственной безопасности. Тестировались как модели по временному ряду, так и модели, построенные на «фичах» (признаках). На предложенных данных лучший результат показали модели, которые строятся на матрице признаков, а не по временному ряду.

Литература

1. Барсуков А.Н., Бочков А.В., Лесных В.В. Ситуационные центры. Мониторинг, прогнозирование и управление кризисными явлениями в газовой отрасли. Часть 1. Мониторинг и прогнозирование. М.: НИИгазэкономика, ООО «САМ Полиграфист», 2015. 596 с.

2. Лесных В.В., Пономаренко Д.В. Концептуальные аспекты разработки стратегии развития системы управления производственной безопасностью // Газовая промышленность. 2016. № 7-8. С. 74-77.

3. Светуньков И. С. Методы и модели социально-экономического прогнозирования: учебник и практикум для академического бакалавриата. В 2-х т. Т. 1. Теория и методология прогнозирования / И. С. Светуньков, С. Г. Светуньков. - М.: Издательство Юрайт, 2014. - 351 с. - Серия: Бакалавр. Академический курс.

Literature

1. Barsukov A.N., Bochkov A.V., Lesnykh V.V. Situational centers. Monitoring, forecasting and crisis management in the gas industry. Part 1. Monitoring and forecasting. M. : NIIgazekonomika, LLC SAM Polygraphist, 2015.596 p.

2. Lesnykh V.V., Ponomarenko D.V. Conceptual aspects of developing a development strategy for a safety management system // Gas industry. 2016. No. 7-8. P. 74-77.

3. Svetunkov I. S. Methods and models of socio-economic forecasting: a textbook and workshop for academic undergraduate. In 2 volumes T. 1. The theory and methodology of forecasting / I. S. Svetunkov, S. G. Svetunkov. -M.: Publishing house Yurayt, 2014. - 351 p. - Series: Bachelor. Academic course.

i Надоели баннеры? Вы всегда можете отключить рекламу.