Научная статья на тему 'АНАЛИЗ ВРЕМЕННЫХ РЯДОВ ДОРОЖНО-ТРАНСПОРТНЫХ ПРОИСШЕСТВИЙ Г. КРАСНОЯРСК'

АНАЛИЗ ВРЕМЕННЫХ РЯДОВ ДОРОЖНО-ТРАНСПОРТНЫХ ПРОИСШЕСТВИЙ Г. КРАСНОЯРСК Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
23
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
дорожно-транспортные происшествия / численно-вероятностный анализ / гистограммные временные ряды / анализ временных рядов / метод ближайшего соседа / traffic accidents / numerical probabilistic analysis / histogram time series / time series analysis / nearest neighbor method

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Голубчикова Е.Е.

В статье приведен обзор, анализ и визуализация данных дорожно-транспортных происшествий для города Красноярск. Цель состоит в том, чтобы, извлечь из статистических данных временные ряды, проанализировать и визуализировать их с целью извлечения необходимых знаний. Анализ данных дорожно-транспортных происшествий позволит сделать выводы, которые помогут спрогнозировать количество аварий.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Голубчикова Е.Е.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF TEMPORARY SERIES OF ROAD-TRANSPORT ACCIDENTS OF KRASNOYARSK

The article provides an overview, analysis and visualization of traffic accident data for the city of Krasnoyarsk. The goal is to extract time series from statistical data, analyze and visualize them in order to extract the necessary knowledge. Analysis of the data of road accidents will allow to draw conclusions that will help to predict the number of accidents.

Текст научной работы на тему «АНАЛИЗ ВРЕМЕННЫХ РЯДОВ ДОРОЖНО-ТРАНСПОРТНЫХ ПРОИСШЕСТВИЙ Г. КРАСНОЯРСК»

УДК 517.972.9

Голубчикова Е.Е. студент магистратуры Сибирский федеральный университет, Россия, Красноярск Научный руководитель: О.А. Попова, кандидат технических наук

доцент кафедры СИИ Сибирский федеральный университет, Россия, Красноярск

E.E. Golubchikova Graduate student Siberian Federal University, Russia, Krasnoyarsk Scientific adviser: O.A. Popova, Candidate of Technical Sciences

Associate Professor of the Department of SAI Siberian Federal University, Russia, Krasnoyarsk АНАЛИЗ ВРЕМЕННЫХ РЯДОВ ДОРОЖНО-ТРАНСПОРТНЫХ

ПРОИСШЕСТВИЙ Г. КРАСНОЯРСК Аннотация: в статье приведен обзор, анализ и визуализация данных дорожно-транспортных происшествий для города Красноярск. Цель состоит в том, чтобы, извлечь из статистических данных временные ряды, проанализировать и визуализировать их с целью извлечения необходимых знаний. Анализ данных дорожно-транспортных происшествий позволит сделать выводы, которые помогут спрогнозировать количество аварий.

Ключевые слова: дорожно-транспортные происшествия, численно-вероятностный анализ, гистограммные временные ряды, анализ временных рядов, метод ближайшего соседа.

ANALYSIS OF TEMPORARY SERIES OF ROAD-TRANSPORT ACCIDENTS OF KRASNOYARSK Abstract: The article provides an overview, analysis and visualization of traffic accident data for the city of Krasnoyarsk. The goal is to extract time series from statistical data, analyze and visualize them in order to extract the necessary knowledge. Analysis of the data of road accidents will allow to draw conclusions that will help to predict the number of accidents.

Keywords: traffic accidents, numerical probabilistic analysis, histogram time series, time series analysis, nearest neighbor method.

Транспорт - это жизненно важный сектор, без которого в современном мире сложно представить существование. Есть много проблем, связанных с транспортом и дорожным движением, но автомобильные аварии являются одной из основных. Дорожно-транспортные происшествия происходят, в том числе и случайным образом во времени и месте и часто оказываются проблемой общественного здравоохранения и развития. Красноярск, как многие города с населением более 1 млн человек, имеет высокий уровень несчастных случаев и смертей в связи с большим количеством транспортных средств на дороге. Полные данные дорожно-транспортных происшествий за 2015 - 2018 годы были получены с сайта ГИБДД по Красноярскому краю. Около 80% автомобильной аварии происходит по вине водителя. Другими

факторами происшествий являются: плохое состояние дороги, плохое состояние автомобиля, отсутствие знаний о системе дорожного движения, погодные условия и форма дороги.

Все эти факторы могут играть роль в происшествии по отдельности или совместно. Изменения в поведении водителя в зависимости от транспортного средства и дороги рядом с ним в значительной степени зависят от физиологического состояния водителя, возраста, пола, образования и других факторов. Поэтому без дополнительно анализа сложно предсказать, где и когда произойдет дорожно-транспортное происшествие (ДТП). Но на основе исторических данных о дорожно-транспортных происшествиях можно проанализировать данные о ДТП, чтобы найти взаимосвязь между факторами, временем и количеством аварий. С другой стороны, визуализация данных ДТП дает подробные сведения о том, как они меняются с течением времени. Анализ и визуализация данных помогают наблюдать за статистикой ДТП и принимать соответствующие меры для повышения безопасности дорожного движения.

Временные ряды — это особый способ представления данных, характеризующих изменение некоторого показателя (показателей) во времени. Временные ряды бывают двух типов: моментные и интервальные. Реальные данные показателей состояния безопасности дорожного движения являются интервальными рядами, так как они связаны с накоплением (суммой) величины за равные промежутки времени. Особенностью измерения элементов временных рядов xi является присутствие случайных помех, случайных ошибок и т.д. Для устранения помех и случайных ошибок необходимо осуществить процедуры сглаживания. Полиномиальный тренд часто применяется для описания значений временных рядов, попеременно возрастающих и убывающих [1-3]. Полином отлично подходит для анализа большого набора данных нестабильной величины. Но, если временной ряд недостаточно описывается полиномом низкой степени, приходится использовать полином более высокой степени, при таком выборе полинома происходит смещение при оценивании тренда, а недостатком выбора слишком высокой степени-большая вариабельность при оценивании тренда. Но получить прогнозные данные можно не только с помощью полиномиального тренда, но и с помощью численно-вероятностного анализ ЧВА, используя для этого модели гистограммных временных рядов (ГВР). ЧВА позволяет агрегировать данные временных рядов, используя разные модели представления данных [1]. Например, модели временных рядов в виде гистограмм описывают ситуации, когда распределение значений доступно для каждого момента времени. Эти ситуации обычно возникают, когда требуется одновременная или временная агрегация [4]. В этих случаях гистограммы предоставляют сводку данных, которая является более информативной, чем те, которые представлены другими агрегатами, такими как среднее значение. Использование гистограмм обусловлено следующими преимуществами: их можно использовать для любой исходной плотности

вероятности; они могут описывать данные с достаточной степенью точности; простая и гибкая структура упрощает их использование. Рассмотрим следующую задачу.

Спрогнозируем данные об авариях, используя ЧВА [1]. Рассмотрим апробацию метода прогноза с использованием гистограммных временных рядов (ГВР) на основе подхода, основанного на методе ^ NN. Следуя методам прогноза для апреля 2018 года, основанными на методе k-NN, найдем ближайшую гистограмму к марту 2018 года, используя гистограммы временных рядов, построенных на данных для каждого месяца с 2016 года. Таким оказался июль 2016 г.. Август 2016г. можно считать месяцем аналогом 2018 г. Для иллюстрации приведем сравнение количества ДТП этих месяцев (Рис. 1).

Июль 2016г. Март 2018г.

30

20

о ю

Ц 0

30

|||||||

Дни недели

Дни недели

Август 2016г.

50 5 40

30 20

10

Апрель 2018г.

30

||||||В п

Дни недели

Дни недели

Рис. 1. Гистограммно-временные ряды месяцев аналогов По рисунку 2 можно сделать вывод, что аварий стало в 2 раза меньше, но при этом явно видно, что пропорциональность количества аварий соблюдается. Следовательно, с помощью этого метода можно делать довольно точные прогнозы.

45 40

35

^ 30 fli л

" 25 О m

£ 20 у

? 15 О

■-C

10 5 0

1 2 3 4 5 6 7

Дни недели

Рис. 2. Графики сравнения аварий в августе 2016 и апреле 2018 для восстановления данных

Приведенные исследования на основе ГВР показали перспективность развития данного направления. Гистограммные временные ряды можно использовать там, где обычные временные ряды недостаточно полно описывают происходящие процессы. Полученные результаты позволяют спрогнозировать количество аварий по неполным данным на ближайший месяц. Так по рисунку 2 видно, что в апреле 2018 года была большая вероятность количества аварий по вторникам и пятницам, и, следовательно, в эти дни требуется повышенный контроль дорог. Исследование может быть расширено путем рассмотрения оптимизационных моделей с использованием дополнительных параметров, влияющих на аварии, таких как погодные условия в дни аварий, время в которое произошло ДТП и анализом качества построенных моделей на реальных данных [3].

Использованные источники:

1. Добронец Б.С., Попова О.А. Численный вероятностный анализ неопределенных данных. Красноярск. СФУ. 2014. 169 с.

2. Попова О.А. Информационный подход к апостериорным оценкам погрешности численного моделирования // Информатизация и связь. 2016. №

2. С. 40-43.

3. Dobronets B., Popova O. Numerical probabilistic approach for optimization problems // Lecture Notes in Computer Science. 2016. Т. 9553. С. 43-53.

4. Dobronets B.S., Popova O.A Improving reliability of aggregation, numerical simulation and analysis of complex systems by empirical data // IOP Conf. Series: Materials Science and Engineering vol. 354, 2018. doi:10.1088/1757-899X/354/1/01200

i Надоели баннеры? Вы всегда можете отключить рекламу.