ОПТИМИЗАЦИЯ ЦИКЛОВ СВЕТОФОРНОГО РЕГУЛИРОВАНИЯ МЕТОДОМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ

Саленек Иван Андреевич; Селиверстов Ярослав Александрович; Селиверстов Святослав Александрович; Носкова Надежда Игоревна

УДК 330.1

doi:10.18720/SPBPU/2/id23-70

Саленек Иван Андреевич 1,

студент магистратуры факультет машинного обучения и анализа данных Селиверстов Ярослав Александрович 2, старший научный сотрудник лаборатории интеллектуальных транспортных систем, кандидат технических наук, Селиверстов Святослав Александрович 3, старший научный сотрудник лаборатории интеллектуальных транспортных систем, кандидат технических наук

Носкова Надежда Игоревна 4, главный специалист 1-й категории

ОПТИМИЗАЦИЯ ЦИКЛОВ СВЕТОФОРНОГО РЕГУЛИРОВАНИЯ МЕТОДОМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ

1 Россия, Санкт-Петербург, Национальный исследовательский университет «Высшая школа экономики», iasalenek@edu.hse.ru;

2 3

' ФГБУ науки «Институт проблем транспорта им. Н.С. Соломенко

Российской Академии Наук»,

2 3

seliverstov-yr@mail.ru; seliverstov_s_a@mail.ru; 4 Россия, Москва, Центр организации дорожного движения Правительства Москвы

Аннотация. Сегодня на многих перекрестках г. Москвы и других городов России установлены детекторы транспорта, которые в онлайн-режиме предоставляют данные о количестве и скорости проходящих мимо автомобилей. Сейчас эти данные используют преимущественно для статистики, или переключения между фиксированными фазами светофоров. В данной работе мы исследуем возможности применения обучения с подкреплением (RL) для разработки эффективной политики динамического управления светофорным объектом на основе данных, поступающих с он-лайн-детекторов.

Ключевые слова: обучение с подкреплением, светофорное управление, муль-тиагентные системы, интеллектуальные транспортные системы, искусственный интеллект.

Ivan A. Salenek 1,

Master's student, Faculty of Machine Learning and Data Analysis;

Yaroslav A. Seliverstov 2, Senior Researcher, Laboratory of Intelligent Transport Systems,

Candidate of Technical Sciences; Svyatoslav A. Seliverstov 3, Senior Researcher, Laboratory of Intelligent Transport Systems,

Candidate of Technical Sciences; Nadezhda I. Noscova 4, 1st category Chief specialist

OPTIMIZATION OF TRAFFIC LIGHT REGULATION CYCLES BY REINFORCEMENT LEARNING METHOD

1 National Research University "Higher School of Economics", St. Petersburg, Russia, iasalenek@edu.hse.ru;

2 3 Solomenko Institute of Transport Problems of the Russian Academy of Sciences, St. Petersburg, Russia,

2 3

seliverstov-yr@mail.ru, seliverstov_s_a@mail.ru;

4 Moscow Government Traffic Management Center, Moscow, Russia

Abstract. Today, at many intersections in Moscow and other Russian cities, traffic detectors are installed that provide online data on the number and speed of cars passing by. Now this data is mainly used for statistics, or switching between fixed phases of traffic lights. In this paper, we explore the possibility of using reinforcement learning (RL) to develop an effective policy for dynamic control of a traffic light object based on data from online detectors.

Keywords: reinforcement learning, traffic light control, multi-agent system, intelligent transportation system, artificial intelligence.

Введение

Оптимизация работы светофорных объектов на перекрестках является актуальной задачей. Их эффективное регулирование позволяет не только увеличить пропускную способность перекрестка, но и снизить выбросы CO2 в атмосферу, а также улучшить другие метрики, связанные со временем ожидания автомобилей на перекрестке.

Анализ методов интеллектуального управления дорожным движением, с учетом структурных особенностей улично-дорожной сети b параметров дорожного трафика рассматривается в [1]. Архитектуры интеллектуальных систем управления дорожным движением, на основе микросервисно-ориентированных подходов предложены в [2].

Алгоритмы работы светофоров на перекрестках при минимизации общего времени ожидания трафика и пешеходов рассматривались в [3].

В [4] на примере работы адаптивных контроллеров для светофоров, показана эффективность подхода обучения с подкреплением для регулирования трафика.

Одними из первых применимость RL для оптимизации сложных мультиагентных перекрестков изучили Bakker и др. [5]. До этого было лишь несколько попыток применить model-free алгоритмы Sarsa и Q-learning на небольших перекрестках с гомогенными агентами-светофорами, каждый из которых получал данные со всей транспортной сети. В упомянутой работе авторы показали различные улучшения существующих реализаций, включая использование POMDP, а также координирование агентов при помощи координационного графа и алгоритма max-plus. Последние результаты в данной области связаны преимущественно с V2I (Vehicle-to-Infrastructure) и V2X (Vehicle-to-everything) технологиями. В статье [6] авторы моделируют перекресток без светофо-

ра, где в качестве агентов выступают сами автомобили, которые обмениваются информацией о взаимном расположении. Авторами использовался алгоритм TRPO с различным процентом взаимосвязи между отдельными агентами-автомобилями, и исследовалось его влияние на целевую метрику — уровень CO2.

Целью данной работы было исследовать возможность оптимизации циклов светофорного регулирования на реальном участке транспортной сети города Москвы.

1. Постановка задачи

В ходе обучения с подкреплением (англ. Reinforcement Learning — RL) испытуемая система (агент) обучается, взаимодействуя с некоторой средой. Наблюдая состояние среды, агент совершает действия из некоторого пространства действий. На основании того, как эти действия влияют на среду, вычисляется награда, которую агент учится оптимизировать. В процессе обучения формируется политика агента — ответные действия на наблюдаемые состояния среды.

В задаче оптимизации светофорного регулирования агентом выступает множество светофоров, регулирующих одно пересечение проезжих частей — светофорный объект. Использование отдельных светофоров в качестве агентов не имеет смысла, так как нескоординированная работа светофоров на пересечении проезжих частей приведет к пересечению траекторий движения транспортных средств на пересечении, которое может быть недопустимо на реальном перекрестке. Таким образом, светофорный объект является наименьшей неделимой единицей светофорного регулирования перекрестка. Сигнализация на светофорном объекте представлена набором фаз регулирования. На большинстве реальных светофоров переключение фаз происходит согласно циклу регулирования, при этом продолжительность фаз фиксирована и прописана в паспорте перекрестка. В модели агент обладает дискретным набором действий-фаз, соответствующих фазам реального светофорного объекта (объединениям основных фаз и следующих за ними промежуточных).

Средой, с которой взаимодействует агент, является симуляция перекрестка. На перекрестке может быть несколько различных светофорных объектов, тогда среда будет мультиагентной.

Пространством наблюдений каждого агента выступает дискретное или континуальное описание состояния перекрестка в текущий момент, или в прошлом. На основе получаемых наблюдений в каждый момент времени агент совершает выбор следующей фазы из своего пространства действий.

Наградой за совершаемое агентом действия является некая численная характеристика изменения состояния перекрестка в ответ на это действие. Мы используем снижение суммарного времени ожидания автомобилей на данном светофорном объекте.

Для обучения модели могут использоваться разные RL алгоритмы. Мы применили базовый алгоритм обучения с подкреплением — Q-learning. Предпосылкой к его использованию стало то, что для описания состояния перекрестка вовсе не обязательно использовать большое пространство наблюдений. Достаточно различать несколько уровней характеристики транспортного потока, чтобы построить эффективную программу управления светофорным объектом. Это позволяет не использовать нейронные сети для обработки состояний, а обойтись простой Q-таблицей.

Q-таблица представляет собой двумерный массив, одно измерений которого соответствует наблюдаемым агентом состояниям, закодированным в виде вектора конечной длины с ограниченным дискретным набором значений — наблюдений. Второе измерение соответствует набору действий агента. На пересечении наблюдения и действия стоят текущие значения Q-функции, т. ч.:

Q ( st > a ) = r + y*Q ( S+i> am ) • (!)

Во время обучения агент действует согласно epsilon-greedy политике, то есть выбирает действие, соответствующее максимальному значению Q -функции в текущем состоянии. Но также с вероятностью epsilon совершает случайные действия, чтобы лучше исследовать среду (обученный агент случайных действий не совершает). Совершив действие согласно epsilon-greedy и получив следующее состояние, агент обновляет значение Q-функции для предыдущего состояния следующим образом:

Q ( st, at ) = Q ( st, at ) + a* ( r + ^*max (Q ( st+i, at+x ))-Q ( st, at )) (2)

2. Моделирование системы

Для моделирования и последующего обучения светофорных объектов был выбран перекресток у м. Кузьминки (г. Москва). На карте (рис. 1) можно видеть, что на данном перекрестке всего 6 светофорных объектов. В качестве пакета для симуляции трафика был взят открытый дистрибутив SUMO. Он активно развивается уже на протяжении многих лет, и используется в большинстве подобных исследований. Сперва в SUMO был импортирован необходимый участок дороги из Open Street Map, и вручную отредактированы несоответствия. Далее из паспорта перекрестка были перенесены все светофорные программы (всего 8 программ, в зависимости от времени суток и дня недели).

После того, как сеть была импортирована, на ней были построены маршруты транспортных средств. На рисунке 1 показаны 9 детекторов, которые частично покрывают въезды и выезды с перекрестка. С них раз в пять минут поступают агрегированные данные о количестве и скорости проезжающих мимо автомобилей. Нам были доступны за март 2022 года. Для построения маршрутов по данным с детекторов был использован встроенный инструмент SUMO-flowrouter. Он принимает на вход данные

с детекторов, после чего решает задачу о максимальном потоке для данной сети. В результате должны получатся маршруты, которые бы соответствовали входным данным с детекторов. На практике же такое решение может быть не единственным, из-за чего маршруты не всегда генерируются корректно.

Рис. 1. Детекторы на перекрестке у м. Кузьминки (г. Москва)

В нашей модели каждый агент обучался независимо от остальных, то есть имел собственный вектор наблюдений и получал награду независимо от других агентов. Тем не менее, взаимодействие агентов происходило опосредованно, через среду, так как переключение фазы одного светофорного агента приводит изменению транспортного потока на перекрестке, что влияет на наблюдение другого агента. Для обучения светофорных объектов внутри симуляции SUMO был использован пакет sumo-rl.

Результаты

Обучение было запущено отдельно для каждой из 8 светофорных программ перекрестка. Ниже представлены метрики для уже обученных моделей относительно фиксированных программ, работающих в данный момент на перекрестке.

В таблице 1 показано, на сколько снизилось среднее время ожидания отдельного автомобиля на перекрестке при использовании динамической программы. В среднем снижение составляет порядка 11-12 секунд у всех программ кроме 1-й, которая работает в период с 00.00 до 5.30. Это связано с тем, что так как программа ночная, то поток автомобилей и время ожидания в это время меньше даже при фиксированной программе. Схожие результаты можно наблюдать и для снижения среднего числа остановок отдельных автомобилей на перекрестке. В среднем при использовании динамической программы оно упало на 0.2 - 0.22, а для 1-й программы — на 0.164.

Таблица 1

Снижение среднего времени ожидания и среднего числа остановок автомобиля _в зависимости от номера программы_

Номер программы 1 2 3 4 5 6 7 8

с 9.161 12.142 11.918 11.884 12.082 13.539 12.999 11.729

Ди, остановок 0.164 0.211 0.196 0.216 0.204 0.219 0.217 0.211

Ниже (рис. 2) представлен график зависимости суммарного времени ожидания автомобилей на перекрестке для всех программ (первые 100.000) секунд симуляции. Синяя линия показывает период обучения динамической программы (с учетом epsilon-greedy политики). В этот период суммарное время ожидания высокое, так как светофорные агенты еще не нашли оптимальную политику и продолжают совершать случайные действия для исследования среды. Зеленым цветом показано суммарное время ожидания при фиксированных программах, которые в данный момент работают на данных светофорных объектах. Красным цветом показано суммарное время ожидания при обученной динамической светофорной программе (с выключенной epsilon-greedy политикой).

По графику видно, что уже на этапе обучения динамическая программа довольно быстро начинает превосходить фиксированную. Обученная динамическая модель превосходит фиксированную на протяжении всего времени симуляции.

Время симуляции (сек)

Рис. 2. Зависимость суммарного времени ожидания от времени симуляции во время обучения модели (синий), обученной модели (красный) и текущей программы

(зеленый)

Заключение

При отсутствии каких-либо ограничений на политику динамическая программа оказывается значительно лучше фиксированной. Это ожидаемо и соотносится с другими похожими исследованиями. Тем не менее, у такой политики есть ряд недостатков, которые в текущем виде делают затруднительным ее использование на реальном перекрестке.

Во-первых, она является динамической, из-за чего в режимах работы светофора нет циклической зависимости. Из-за этого, например, невозможно предугадать, когда будет смена сигнала светофора. В качестве решения мы в данный момент планируем поменять подход, чтобы агент переключал не отдельные фазы, а целые фиксированные программы светофоров, тем самым повысив его предсказуемость.

Во-вторых, полученная политика сильно зависит от среды, в которой она обучалась. Поэтому важной задачей также является увеличение точности симуляции транспортных потоков внутри перекрестка. Мы планируем попробовать другие методы построения маршрутов по данным с детекторов, отличные от решения задачи о максимальном потоке, как это реализовано в SUMO (например, также делегировать эту задачу RL алгоритмам).

Список литературы

1. Seliverstov S.A., Sazanov A.M., Lukomskaya O.Y., Nikitin K.V., Shatalova N.V., Benderskaya E.N. Analysis of modern approaches to optimizing traffic control systems // Proceedings of 2021 24th International Conference on Soft Computing and Measurements. - 2021. - Pp. 106-108. - DOI:10.1109/SCM52931.2021.9507147.

2. Seliverstov S.A., Sazanov A.M., Benderskaya E.N., Nikitin K.V., Seliverstov Y.A. Development of the Intelligent Traffic Management System Architecture // Proceedings of 2021 24th International Conference on Soft Computing and Measurements, SCM 2021. -2021. - Vol. 24. - Pp. 200-203. - DOI: 10.1109/SCM52931.2021.9507125.

3. Alexiou D. Generating the family of all traffic signal light cycles coordinated with pedestrian crosswalks // Optimization Letters. - 2015. - Vol. 10(3). - Pp. 473-484. -DOI:10.1007/s11590-015-0871-x.

4. Genders W., Razavi S. Evaluating reinforcement learning state representations for adaptive traffic signal control. // Procedia Computer Science. - 2018. - Vol. 130. - Pp. 2633. - DOI:10.1016/j.procs.2018.04.008.

5. Bakker B., Whiteson S., Kester L., Groen F. Traffic Light Control by Multiagent Reinforcement Learning Systems. 2010.

6. Jayawardana V., Wu C. Learning Eco-Driving Strategies at Signalized Intersections. 2022 - DOI:10.23919/ECC55457.2022.9838000.

ОПТИМИЗАЦИЯ ЦИКЛОВ СВЕТОФОРНОГО РЕГУЛИРОВАНИЯ МЕТОДОМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ Текст научной статьи по специальности «Компьютерные и информационные науки»

OPTIMIZATION OF TRAFFIC LIGHT REGULATION CYCLES BY REINFORCEMENT LEARNING METHOD

Текст научной работы на тему «ОПТИМИЗАЦИЯ ЦИКЛОВ СВЕТОФОРНОГО РЕГУЛИРОВАНИЯ МЕТОДОМ ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ»