АДАПТАЦИЯ АЛГОРИТМА RESQ ПОД ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ РЕСУРСАМИ ОРГАНИЗАЦИОННЫХ СИСТЕМ ЭКСТРЕННЫХ СЛУЖБ

Буйневич Михаил Викторович; Вострых Алексей Владимирович

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

И УПРАВЛЕНИЕ

М. В. Буйневич, доктор технических наук, профессор А. В. Вострых, адъюнкт

АДАПТАЦИЯ АЛГОРИТМА REsQ ПОД ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ РЕСУРСАМИ ОРГАНИЗАЦИОННЫХ СИСТЕМ ЭКСТРЕННЫХ СЛУЖБ

ADAPTING THE REsQ ALGORITHM FOR OPTIMAL MANAGEMENT TASKS OF ORGANIZATIONAL EMERGENCY SERVICE SYSTEMS

RESOURCES

В статье представлена расширенная авторами версия известного алгоритма машинного обучения ResQ, адаптированного под задачи оптимального управления ресурсами организационных систем экстренных служб при возникновении крупномасштабных чрезвычайных ситуаций. Основной целью алгоритма является сбалансированное распределение ресурсов подразделений в соответствии с их специализацией и требуемой помощью для пострадавших. Адаптация алгоритма призвана сократить время спасения и избежать переизбытка сил и средств на одном месте вызова.

The authors present an extended version of the well-known machine learning algorithm ResQ, adapted for optimal resource management tasks of organizational systems of emergency services in large-scale emergencies. The main goal of the algorithm is to balance the distribution of resources of units in accordance with their specialization and the required assistance for the victims. Adaptation of the algorithm is designed to reduce rescue time and avoid an overabundance of forces and resources at a single call site.

Введение. Сегодня, как и за всю историю человечества, стихийные бедствия представляют серьезную угрозу для людей, принося с собой значительный материальны ущерб и приводя к человеческим жертвам. Исследования в данных областях демонстрируют ежегодное повышение интенсивности возникновения чрезвычайных ситуаций (далее — ЧС) и возрастание их масштабов, а также сложности ликвидации последствий [1].

С целью сокращения возможных человеческих жертв и минимизации ущерба создается и функционирует в том или ином виде система экстренных служб (подразделений МЧС, скорой помощи, полиции, гражданской обороны и т. д.), которая в момент крупномасштабной ЧС может рассматриваться как виртуальная организационная система. Когда ЧС носят массовый характер и охватывают обширные территории с множеством точек концентрации пострадавших (например, при наводнении, урагане и т. п.), системе становится проблематично оптимально распределять объединенные ресурсы экстренных служб, взаимодействовать со смежными ведомствами, а также привлекать сторонние организации, например волонтеров, что приводит к малоэффективной трате ограниченных ресурсов. Также требуется многофакторное сопоставление возможностей спасательных служб (численный состав, оборудование, навыки) с потребностями пострадавших (характер бедствия, количество потерпевших, состояние их здоровья, требуемый тип помощи). Решение подобных задач ввиду большой размерности может потребовать привлечения технологий искусственного интеллекта.

С учетом вышеизложенного актуальной видится задача оптимального управление ресурсами организационных систем (как виртуальных, так и реальных) экстренных служб при возникновении крупномасштабных ЧС в части своевременной доставки сил и средств (далее — СиС) к месту происшествия и оптимального их распределения по всем необходимым точкам концентрации нуждающихся, с учетом специализации подразделений и исключая дублирование (переизбыток СиС в одной точке вызова), так как изначально ресурсы систем ограничены.

Методы исследования. Для решения задач оптимальной координации ресурсов организационных систем в настоящее время исследователи всё больше решений находят в современных информационных технологиях, а именно в машинном обучении. Например, разработан ряд сред интеллектуального анализа данных, основанных на таких подходах, как: обучение с учителем, регрессионные модели, адаптивные методы оптимизации и т. д. [1, 2]. Несмотря на многочисленные достоинства данных подходов, для решения рассмотренных задач они не подходят, так как требуют большого набора статистических данных для качественного обучения моделей.

Моделирование ЧС обладает высокой сложностью, которая обусловлена уникальностью каждого происшествия, где невозможно заранее спрогнозировать требуемое количество ресурсов и их распределение для успешной ликвидации — реалистичный набор данных может быть получен только после возникновения происшествия.

Существующие адаптивные системы управления ресурсами имеют серьёзные недостатки, связанные со скоростью расчётов и медленной сходимостью [3, 4], что в условиях динамично меняющейся ЧС неприемлемо. Также сопутствующими проблемами при возникновении ЧС в аспектах оптимальной координации ресурсами организационных систем являются:

- недостаточно большой размер выборки, особенно на ранних стадиях происшествий, когда система поддержки принятия решений должна быстро предоставлять результат расчетов;

- среда взаимодействия организационных систем и пострадавших, которая представляет собой сложную систему с множеством неопределенностей. Например, местонахождение спасателей, добровольцев и потерпевших динамически меняется, а время спасения зависит от многих факторов, таких как: движение транспорта, состояние дорог, погодные условия, технические возможности оборудования и т. д. , — которые также постоянно претерпевают изменения;

- отсутствие целевой функции для моделирования очередности предоставления помощи пострадавшим в зависимости от неотложности и необходимости участия нескольких служб одновременно.

Для решения рассмотренных задач предлагается применять методы машинного обучения с подкреплением, которые в настоящее время успешно применяются в схожих по сложности расчётов и дефицита входных данных областях, например: оптимизация глубоких нейронных сетей с асинхронным градиентным спуском для контроллеров, компьютерные игры, управление обучением в различных средах с минимальными предварительными знаниями и т. д. [5—8].

Одним из основных преимуществ данных методов является возможность построения точных моделей, несмотря на высокую сложность расчётов. Также машинное обучение с подкреплением не требует предварительных знаний о поведении системы для составления оптимальных стратегий, что позволяет проводить моделирование в условиях неопределённости.

В настоящей статье для решения поставленных задач предлагается применить расширенный алгоритм ResQ, адаптированный авторами под оптимизацию ресурсов сложных организационных систем экстренных служб. В своём классическом представлении алгоритм [1] достаточно успешно применяется для привлечения волонтеров к спасательным работам. Модернизация возможностей данного алгоритма гипотетически позволит применять его в более сложных по структуре организационных системах, где помимо волонтеров работает целый спектр экстренных служб, и состоит в следующем: расширенный алгоритм проводит анализ поступающих вызовов, анализирует и сравнивает их с информацией из социальных сетей, выявляя пострадавших и сопоставляя их потребности с возможностями спасательных подразделений; на основе полученных данных производит оптимальное распределение СиС подразделений в динамично меняющейся ситуации, для чего строит кратчайшие пути до пострадавших, рассчитывая количество потерпевших, к которым уже направлена помощь, и ожидающих её, формирует очереди спасения по приоритетам.

Данный алгоритм позволит продолжить работу спасателей, когда традиционные линии экстренной помощи будут перегружены, тем самым повышая оперативные показатели экстренных служб, а также позволяя пострадавшим получать обратную связь.

Формализованная постановка задачи. Перейдём к формальному описанию предложенной расширенной версии алгоритма ResQ.

Весь спектр экстренных служб (МЧС, МВД, скорая помощь и т. д.) принимающих участие в ликвидации происшествий и последствий ЧС, можно представить множеством организационных систем = {5 1 ,52, ■ ■ -,5п}. Каждая такая система имеет список свойств 5п = ( ((рг, (рр , г , Е чг, Ерр , Ерг , Рр, Н„), где г — количество личного состава задействованного на происшествии; — количество личного состава, не задействованного на ЧС; (р г — количество личного состава в резерве, Ечг, Ер р, Ерг — оборудование системы, количество задействованного (оборудования), не задействованного, в резерве; — специализация организационной системы (задачи, которые она может выполнить); Ну = {Ну 1, Н^Ну3 , ■..,Нуп) — в случае привлечения добровольцев анализируется их персональный список свойств, таких как специализация, имеющееся оборудование, рейтинг, удаленность от места вызова и т. д.

Одиночных потерпевших или их группы обозначим следующим множеством Ур = { р±,р2, ■.,,рп}, которое также имеют список свойств Ур = {а, 1у,Ру), где — количество потерпевших в одной точке вызова, — количество мест вызовов, — наличие травм у потерпевших, полученных в результате происшествия, и их характер, — особенности физиологии потерпевших (инвалидность, физиологические ограничения, психологические заболевания и т. д.).

Каждый поступающий вызов назовем оперативной задачей, которая представляется временем, необходимым на поиск, оказание помощи пострадавшим и доставку их в пункты временного размещения. Множество оперативных задач представим следующим образом: Ch.fr = { с, с/2, ■.., сИ.п}. Общее время спасения вычисляется по формуле

Т = Т^г + Тп + Та, (1)

где — время следования до места вызова; — время спасения пострадавших (оказания помощи); Та — время доставки пострадавших в пункты временного размещения.

Имея количество мест вызовов ( а и их территориальное расположение Iоку = { I о к 1,1 о к2 ,■. .,1 о кп} , а также количество СиС всех служб, привлекаемых к ликвида-

ции задача спасения сводится к тому, чтобы найти набор последовательных назначений всех подразделений (в соответствии с их специализацией) для спасения пострадавших с минимальным затраченным временем на оказание помощи. Функция стоимости примет следующий вид:

С: Х, - [ 0, оо] , (2)

где Х, £ С/ц — оперативная задача для конкретного подразделения.

В эквиваленте временных затрат (2) можно представить в следующем виде:

С,: <?Р2Х [ 0, оо] . (3)

Назначение подразделений на определенные вызовы Х, £ С/ц может быть представлено в виде матрицы , где в строках будут записаны вызовы, а в столбцах имеющиеся подразделения:

[ 1 — п о др а з д ел е н и е / з ад е й ств о в ан о н а в ы з о в е ] | Рр £ /,, Рр £ Р^

Ху = I п ' (4)

I 0 — п о д раз д ел е н и е I н е з ад е й ств о в а н о н а в Ы1 з о в е ], 4 '

где .

В этом случае определенное подразделение компетентной организационной системы направится на спасение соответствующих потерпевших. Математическая модель задачи оптимального распределения имеет следующий вид:

Т <2с1 (2с1 5/1

С*т Ы = XXX а; X - 1 '] = 1.....X - 1 = 1.....°^ £ { 0 , 1 } , (5)

£ = 1 ¿ = 1 ] = 1 1 = 1 ] = 1

где — расстояние от подразделения до потерпевшего.

Для решения данной задачи целесообразно использовать многоагентное обучение с подкреплением [9]. Агенты — это подразделения экстренных служб, которые направляются для спасения пострадавших. Потерпевшие представляют собой награды, а окружающая среда — место, где произошла ЧС. Окружающую среду представим в виде карты на координатной плоскости, поверх которой нанесена сетка, состоящая из идентичных по размерам квадратов (рис. 1, а).

а)

б)

Условные обозначения: ф - скорая помощь; ф - МЧС; (В - МЧС; ф - аварийная служба;

ф - прочие службы; ф - прочие службы; —► - назначение на вызов

Рис. 1. Окружающая среда происшествия (а) и назначение подразделений на вызов (б)

20

Агенты (выделены кружками различного цвета) перемещаются по этой сетке, следуя к месту вызова. Это, по сути, является марковской игрой G для N агентов, что обозначается кортежем:

G = <N,S,A,P,R,Y> , (6)

где N — количество агентов; S — наборы состояний; A — пространство совместных действий; P — функция вероятности перехода; R — функция вознаграждения; y — коэффициент дисконтирования.

Составляющие кортежа определяются следующим образом.

Количество агентов N (количество подразделений, направленных к месту вызова) постоянно меняется с течением времени Nt.

Набор состояний s t Е S представляется как комбинация местоположения спасательных подразделений на координатной плоскости в момент времени t, их занятости (проводят спасательные работы, возвращаются с вызова, следуют к месту вызова) и статуса пострадавших (оказана помощь, ожидают помощи, место в очереди).

Пространство совместных действий at Е A = A1 X .. . X ANt: at = {al}^ характеризует распределения всех доступных СиС спасательных подразделений. В координатном пространстве каждое подразделение имеет четыре дискретных действия, обозначенных к %=1 (переход вверх, вниз, вправо, влево). С течением времени статус агента s £ и его активность меняются как и его местоположение.

Функция перехода P • S X A — [0,1 ] демонстрирует вероятности перехода между состояниями с течением времени при совместном дей-

ствии at Е Ai в текущем состоянии s t Е S.

Функция вознаграждения определяется как обратная связь от

среды, когда подразделение активно. Каждый агент связан с функцией Ri и постоянно стремится максимизировать вознаграждение:

R t = E(ri + Yrt+i + ■ ■ = Y4+ i ) = E(ri + yr t+1) ■ (7)

\k=0 /

Коэффициент дисконтирования находится в диапазоне и используется

для количественной оценки разницы в важности между немедленными и будущими вознаграждениями.

Основная задача при спасении пострадавших в ЧС заключается в поиске оптимальной стратегии доставки СиС к месту вызова , которая ведет к максимальной экономии временных и людских ресурсов. Функция значения состояния V п(s) сводится к оценке эффективности различных стратегий, характеризуя ожидаемое общее вознаграждение, зависящее от статуса подразделения и выбранной стратегии п:

Vn(s) = Еп(Rt\ S = St) = Еп(П + YVn(s')) = П + ^ Pn(s'\s)V* (s') . (8)

s'es

После применения уравнения оптимальности Беллмана [10] к выражению (8) получим:

V* (s) = maxаеА r (s, a)+ ^ yP* (s' \s)V*(s') . (9)

s'es

Поскольку спасательные подразделения, выполняя оперативную задачу, исследуют окружающую среду для поиска пострадавших, представим это процесс как частично наблюдаемый Марковский процесс принятия решений — POMDP Partially Observable Markov Decision Process) [11], который обладает более широкими возможностями, чем классический способ. POMDP характеризуется набором состояний S, определяющих среду для всех агентов, набором действий А1,. . . ,Ап и наблюдений О 1(. . . ,Оп для каждого агента. Функция перехода состояния Р :5хА 1 X . . . X А п — S проектирует последующие состояния агентов, действующих в соответствии со стратегиями А j — [ 0 ,1 ]. Каждый агент i получает стратегию, коррелированную с состоянием о ¿:S — О ¿, а также вознаграждение ц : S X А j — R. Целью агентов i является максимизация ожидаемого вознаграждения R j = 1 0 у trf.

Для целей настоящего исследования было проанализировано несколько RL-алгоритмов (Reinforcement Learning — обучение с подкреплением) [12] для получения наиболее подходящего решения: Q-обучение, SARSA и обучение без учителя. В отличие от остальных, первый алгоритм отличается своей простотой и точностью результата, и для расчета общего вознаграждения использует следующую функцию:

Q : S X А — R . (10)

Также он итеративно оценивает имеющиеся стратегии:

Q (s, а) = Q + а[г + ут аха 'Q (s' ,а ') - Q(s,a) ] , (11)

где a G [0,1) — скорость обучения;

[ ] — ошибка временной разности.

Алгоритм Q-обучения требует определённого количества испытаний, чтобы обучиться, что ведет к возрастанию времени разработки стратегий. Для решения данных проблем алгоритм был усовершенствован авторами статьи [1] и получил название ResQ. Местонахождение спасательных подразделений и потерпевших оценивается посредством данных из службы-112 и геолокации соцсетей. Далее эта информация используется при обучении. При выборе стратегии действий для подразделений, помимо выбора оптимального значения Q, также производится выбор наикратчайшего пути следования до потерпевших. Эвристическая функция имеет следующий вид:

Я : S X А — R , (12)

где S — текущее состояние подразделения; A — действие, которое должно быть выполнено; R — расстояние от подразделения до пострадавших.

Если после выполнения действия А агент находится в строке ц и в колонке са, а пострадавшие расположены в ряде ц и колонке cv, то расстояние h рассчитывается по следующей формуле:

Л = | Ц-Ц 1 + 1 ca-cv | . (13)

Опишем (пошагово) расширенную авторами версию алгоритма ResQ.

Шаг 1. Инициализируется состояние спасательных подразделений s0.

Шаг 2. Анализируется состояния среды St.

Шаг 3. Формируется список действий подразделения a j in At.

Шаг 4. Формируется список расстояний от подразделений до мест вызова

R j. ■ ■ R t.

(14)

Если получен требуемый результат, то осуществляется переход на шаг 6, в противном случае — возврат на шаг 2.

Шаг 6. Вводится состояния среды St.

Шаг 7. Выбираются наиболее эффективные действий A подразделений на основе стратегий п(5t) и минимального расстояния до потерпевших Q. Если расстояние до потерпевшего является минимальным, осуществляется переход на шаг 8, в противном случае — возврат на шаг 6.

Шаг 8. Расстояния от агентов до потерпевших сортируются по возрастанию.

Шаг 9. Составляются пары «агент (агенты) — вознаграждение» в соответствии с минимальным расстоянием и функциональным назначением подразделения по характеру требуемой помощи. Оставшиеся без задания подразделения остаются в резерве.

Шаг 10. Выводятся результаты.

После проведения расчетов и составления пар «агент — вознаграждение» каждое подразделение получает оперативную задачу и приступает к её выполнению (рис. 1, б).

Результаты исследования и их обсуждение. В реальных операциях по оказанию помощи при стихийных бедствиях весь район, подверженный ЧС, является пространством деятельности для спасательных подразделений, которые могут двигаться в любом направлении, комбинация действий которых практически бесконечна. По статистике, 95% обращений за помощью во время ЧС поступают из фиксированного центра бедствия [1]. Для упрощения расчётов модель среды представим в виде квазиквадратной области (фактическая карта преобразуется в виртуальную сетку). Координаты (номер ячейки) пострадавших и спасательных подразделений извлекаются каждые полчаса, что позволяет обладать актуальной информацией о количестве доступных СиС, которые могут быть направлены на меняющиеся по приоритетам (неотложности) вызовы.

С целью оптимального назначения СиС подразделений были проанализированы следующие методы поиска:

- «случайное блуждание» (Random walk). Метод основан на случайном поиске агентами пострадавших без каких-либо знаний об окружающей среде.

- «лучший — первый» (Best-first search). Агенты сначала спасают ближайших потерпевших, последовательно переходя к следующим по удаленности вызовам.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- поиск по правилам (Rule-based search). Метод был выбран для целей настоящего исследования, так как результаты вычислений с его помощью прогнозируются как более точные. Для выбора последующих действий используется вероятность совершения действия в каждой ячейке сетки. Вероятность вычисляется по средним вознаграждениям, полученным в ячейках во время тренировки нейронной сети. В частности, если V(t, j) — это усредненное значение вознаграждения за время t ячейки сетки g и подразделение принимает меры at, чтобы перейти к ячейке сетки gj+i, то вероятность совершения действия at в ячейке сетки gj вычисляется по следующей формуле:

Р( a t = +1 ])

V(t + 1 ,j)

(15)

V(t + 1 J) + V(t + 1J + 1) "

Ключевыми показателями для измерения эффективности спасательных работ выбраны средние значения: время спасения; награда за выполнение задачи; ставка вознаграждения, средняя стоимость спасения.

Среднее время спасения представляет собой общее среднее время шагов, требуемых для спасения всех потерпевших. Каждый временной шаг эквивалентен одному пошаговому действию из некой ячейки в соседнюю, выполненному всеми доступными спасательными подразделениями.

Средняя награда за выполнение задачи является средним выигрышем всех спасательных подразделений за определённый временной интервал.

Средняя ставка вознаграждения — это отношение средней награды за выполнение задачи и среднего времени спасения всеми подразделениями за один временной шаг, вычисляется по формуле

yN о

= ■ (16) Ы=i1 i

где N — количество эпизодов; R — награда.

Средняя стоимость спасения представляет собой общий временной шаг стоимости получения одной единицы вознаграждения (является обратной величиной вознаграждения).

Для обучения многоагентной модели использовалась OpenAI Gym — библиотека Python, которая предоставляет API для разработки и сравнения RL-алгоритмов с широким спектром виртуальных сред и общим интерфейсом [13]. В отличие от стандартных методов настройки обучения с подкреплением, использовались реальные географические положения спасательных подразделений. Основная цель состоит в том, чтобы свести к минимуму количество времени, необходимое для спасения всех пострадавших в целевой среде. Подразделениям назначается награда/наказание в зависимости от того, достигнут они пострадавших или выйдут за границы окружающей среды (или временной предел спасения).

Подводя итоги, можно сделать вывод, что расширенная авторами версия алгоритма ResQ, представленная в настоящей статье, может применяться для оптимального распределения ресурсов организационных систем экстренных служб при крупномасштабных происшествиях.

Заключение. В статье представлена расширенная версия алгоритма ResQ, адаптированная под оптимальное управление ресурсами организационных систем экстренных служб при возникновении крупномасштабных ЧС. Гипотетически данный алгоритм позволит сократить время спасения пострадавших.

Алгоритм основан на многоагентном обучении с подкреплением, которое использует данные о спасательных подразделениях, добровольцах и пострадавших, получаемые из системы-112 и соцсетей. Также метод позволяет создавать классификаторы, которые автоматически извлекают информацию о потерпевших и спасательных подразделениях, преобразуя и используя её для обучения.

Алгоритм позволяет оптимизировать ресурсы организационных систем экстренных служб для своевременной доставки СиС к месту происшествия и оптимального их распределения по всем необходимым точкам концентрации нуждающихся с учетом специализации подразделений и исключая дублирование.

В дальнейшем на основе расширенной версии алгоритма ResQ планируется создание программного продукта в виде информационной системы, позволяющей автоматизировать процесс расчётов и в удобной для анализа форме визуализировать результаты вычислений.

ЛИТЕРАТУРА

1. Coordinating Disaster Emergency Response with Heuristic Reinforcement Learning / Z. Yang [et al.] // Proceedings of the International Conference on Advances in Social Networks Analysis and Mining (ASONAM). IEEE, 2020. — P. 565—572. — DOI:10.1109/ASONAM49781.2020.9381416.

2. Gong Z., Gu X., Wilkes J. Press: Predictive elastic resource scaling for cloud systems» // Proceedings of the International Conference on Network and Service Management. IEEE, 2010. — P. 9—16. — D0I:10.1109/CNSM.2010.5691343.

3. Song W., Xiao Z., Chen Q., Luo H. Adaptive resource provisioning for the cloud using online bin packing // IEEE Transactions on Computers. — 2014. — Vol. 63. — Iss. 11.

— P. 19—27. — D0I:10.1109/TC.2013.148.

4. Adaptive resource provisioning for read intensive multi-tier applications in the cloud / W. Iqbal, M. N. Dailey, D. Carrera, P. Janecek // Future Generation Computer Systems. — 2011. — Vol. 27. — Iss. 6. — P. 32—46. — DOI: 10.1016/j.future.2010.10.016.

5. Playing Atari with Deep Reinforcement Learning / V. Mnih [et al.] // arXiv:1312.5602. — 2013. — P. 58—67. — DOI:10.48550/arXiv.1312.5602.

6. Mastering the game of Go with deep neural networks and tree search / D. Silver [et al.] // Nature. — 2016. — Vol. 529. — P. 484—503. — DOI:10.1038/nature16961.

7. Сегаран Т. Программирование коллективного разума : пер. с англ. — СПб. : Символ-Плюс, 2008. — 368 с.

8. Conway D., White D. M. Machine Learning for Hackers: Case Studies and Algorithms to Get You Started Programming. — Sebastopol : O'Reilly Media, 2012. — 437 p.

9. Littman M. L. Markov games as a framework for multi-agent reinforcement learning in Machine Learning Proceedings // Proceedings of the 11th International Conference on Machine Learning Proceedings. — New Brunswick : Rutgers University, 1994. — P. 157— 163. — DOI:10.1016/B978-1-55860-335-6.50027-1.

10. Bellman R. Dynamic Programming. — Princeton : Princeton University Press, 1957. — 663 p.

11. Puterman M. L. Markov Decision Processes: Discrete Stochastic Dynamic Programming. — New York : John Wiley & Sons, Inc., 1994. — 543 p.

12. Sutton R. S., Barto A. G. Reinforcement learning: An introduction. — Cambridge : MIT press Cambridge, 1998. — Vol. 1. — Iss. 1. — P. 157—163.

13. Brockman G., Cheung V., Pettersson L., Schneider J., Schulman J., Tang J., Za-remba W. Openai gym // arXiv:1606.01540. — 2016. — DOI:10.48550/arXiv.1606.01540.

REFERENCES

1. Coordinating Disaster Emergency Response with Heuristic Reinforcement Learning / Z. Yang [et al.] // Proceedings of the International Conference on Advances in Social Networks Analysis and Mining (ASONAM). IEEE, 2020. — P. 565—572. — DOI:10.1109/ASONAM49781.2020.9381416.

2. Gong Z., Gu X., Wilkes J. Press: Predictive elastic resource scaling for cloud systems» // Proceedings of the International Conference on Network and Service Management. IEEE, 2010. — P. 9—16. — DOI:10.1109/CNSM.2010.5691343.

3. Song W., Xiao Z., Chen Q., Luo H. Adaptive resource provisioning for the cloud using online bin packing // IEEE Transactions on Computers. — 2014. — Vol. 63. — Iss. 11.

— P. 19—27. — DOI:10.1109/TC.2013.148.

4. Adaptive resource provisioning for read intensive multi-tier applications in the cloud / W. Iqbal, M. N. Dailey, D. Carrera, P. Janecek // Future Generation Computer Systems. — 2011. — Vol. 27. — Iss. 6. — P. 32—46. — DOI: 10.1016/j.future.2010.10.016.

5. Playing Atari with Deep Reinforcement Learning / V. Mnih [et al.] // arXiv:1312.5602. — 2013. — P. 58—67. — D0I:10.48550/arXiv.1312.5602.

6. Mastering the game of Go with deep neural networks and tree search / D. Silver [et al.] // Nature. — 2016. — Vol. 529. — P. 484—503. — D0I:10.1038/nature16961.

7. Segaran T. Programmirovanie kollektivnogo razuma : per. s angl. — SPb. : Simvol-Plyus, 2008. — 368 s.

8. Conway D., White D. M. Machine Learning for Hackers: Case Studies and Algorithms to Get You Started Programming. — Sebastopol : O'Reilly Media, 2012. — 437 p.

9. Littman M. L. Markov games as a framework for multi-agent reinforcement learning in Machine Learning Proceedings // Proceedings of the 11th International Conference on Machine Learning Proceedings. — New Brunswick : Rutgers University, 1994. — P. 157— 163. — D0I:10.1016/B978-1-55860-335-6.50027-1.

10. Bellman R. Dynamic Programming. — Princeton : Princeton University Press, 1957. — 663 p.

11. Puterman M. L. Markov Decision Processes: Discrete Stochastic Dynamic Programming. — New York : John Wiley & Sons, Inc., 1994. — 543 p.

12. Sutton R. S., Barto A. G. Reinforcement learning: An introduction. — Cambridge : MIT press Cambridge, 1998. — Vol. 1. — Iss. 1. — P. 157—163.

13. Brockman G., Cheung V., Pettersson L., Schneider J., Schulman J., Tang J., Za-remba W. Openai gym // arXiv:1606.01540. — 2016. — D0I:10.48550/arXiv.1606.01540.

СВЕДЕНИЯ ОБ АВТОРАХ

Буйневич Михаил Викторович. Профессор кафедры прикладной математики и информационных технологий. Доктор технических наук, профессор.

Санкт-Петербургский университет ГПС МЧС России.

E-mail: bmv1958@yandex.ru

Россия, 196105, Санкт-Петербург, Московский проспект, 149. Тел. (812) 388-86-39.

Вострых Алексей Владимирович. Адъюнкт.

Санкт-Петербургский университет ГПС МЧС России.

E-mail: a.vostrykh@list.ru

Россия, 196105, Санкт-Петербург, Московский проспект, 149. Тел. (812) 388-86-39.

Buinevich Mikhail Viktorovich. Professor of the chair of Applied Mathematics and Information Technologies. Doctor of Technical Sciences, Professor.

Saint-Petersburg University of State fire service of EMERCOM of Russia.

E-mail: bmv1958@yandex.ru

Work address: Russia, 196105, Saint-Petersburg, Moskovsky Prospect, 149. Tel. (812) 388-86-39.

Vostrykh Aleksey Vladimirovich. Adjunct.

Saint-Petersburg University of State fire service of EMERCOM of Russia.

E-mail: a.vostrykh@list.ru

Work address: Russia, 196105, Saint-Petersburg, Moskovsky Prospect, 149. Tel. (812) 388-86-39.

Ключевые слова: организационные системы; машинное обучение; спасательные подразделения; чрезвычайная ситуация.

Key words: organizational systems; machine learning; rescue units; emergency situation.

УДК 004.896

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Буйневич Михаил Викторович, Вострых Алексей Владимирович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Буйневич Михаил Викторович, Вострых Алексей Владимирович

ADAPTING THE RESQ ALGORITHM FOR OPTIMAL MANAGEMENT TASKS OF ORGANIZATIONAL EMERGENCY SERVICE SYSTEMS RESOURCES

Текст научной работы на тему «АДАПТАЦИЯ АЛГОРИТМА RESQ ПОД ЗАДАЧИ ОПТИМАЛЬНОГО УПРАВЛЕНИЯ РЕСУРСАМИ ОРГАНИЗАЦИОННЫХ СИСТЕМ ЭКСТРЕННЫХ СЛУЖБ»