Научная статья на тему 'Применение динамического программирования для маршрутизации облёта мобильных объектов в контролируемом регионе'

Применение динамического программирования для маршрутизации облёта мобильных объектов в контролируемом регионе Текст научной статьи по специальности «Математика»

CC BY
276
75
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БЕСПИЛОТНЫЙ ЛЕТАТЕЛЬНЫЙ АППАРАТ / МАРШРУТИЗАЦИЯ ПОЛЁТА / ФУНКЦИЯ БЕЛЛМАНА / ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ / UNMANNED AIRCRAFT / ROUTING / BELLMAN FUNCTION / DYNAMIC PROGRAMMING

Аннотация научной статьи по математике, автор научной работы — Лебедев Георгий Николаевич, Ефимов Алексей Витальевич

Рассматривается задача облёта беспилотным летательным аппаратом группы мобильных точечных наземных объектов. Предложен алгоритм маршрутизации полёта с помощью динамического программирования, что позволило определить область притяжения в виде «скрученного» эллиптического цилиндра с учётом направлений полёта и наземного движения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лебедев Георгий Николаевич, Ефимов Алексей Витальевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF DYNAMIC PROGRAMMING FOR PATH PLANNING FOR OBSERVATION OF MOBILE GROUND TARGETS IN THE CONTROLLED AREA

In this article we consider a path planning problem for a UAV performing reconnaissance of mobile ground targets. We suggest an algorithm which uses dynamic programming for solving a path planning problem and allows us to determine the domain of attraction in the form of a "twisted" elliptic cylinder.

Текст научной работы на тему «Применение динамического программирования для маршрутизации облёта мобильных объектов в контролируемом регионе»

УДК 004.946

ПРИМЕНЕНИЕ ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ ДЛЯ МАРШРУТИЗАЦИИ ОБЛЁТА МОБИЛЬНЫХ ОБЪЕКТОВ В КОНТРОЛИРУЕМОМ РЕГИОНЕ

© 2011 Г. Н. Лебедев, А. В. Ефимов

Московский авиационный институт (государственный технический университет)

Рассматривается задача облёта беспилотным летательным аппаратом группы мобильных точечных наземных объектов. Предложен алгоритм маршрутизации полёта с помощью динамического программирования, что позволило определить область притяжения в виде «скрученного» эллиптического цилиндра с учётом направлений полёта и наземного движения.

Беспилотный летательный аппарат, маршрутизация полёта, функция Беллмана, динамическое программирование.

Введение

Существующие подходы к решению задачи маршрутизации, такие, как метод ветвей и границ [1], алгоритм «ближайшего соседа», алгоритм Дейкстры [2], имеют области притяжения (границы которых имеют одинаковый штраф) в виде круга или неподвижного эллипса [3] независимо от направления движения летательного аппарата (ЛА). Дополнительную сложность приобретает эта задача при движении самих объектов, т.к. необходимо планировать полёт в прогнозируемую упреждающую точку встречи.

В данной работе ставится задача маршрутизации полёта с учётом динамики движения наземных объектов и полёта самого ЛА, чтобы параметры области притяжения менялись в зависимости от этого в текущий момент времени.

Постановка задачи

Рассмотрим решение задачи планирования маршрута полёта при следующих допущениях:

1. Задано множество контролируемых точечных подвижных наземных объектов и их координаты X, 2. в текущий момент времени. Заданы скорости V. и направления а. движения этих объектов, что затрудняет или исключает попадание их части в план. Это отличает данную постановку от классической задачи коммивояжёра при попадании в каждый объект.

2. Рассматривается движение ЛА толь-

ко в горизонтальной плоскости, когда текущее состояние полёта характеризуется линейными координатами пути х, г, модулем скорости V и углом а направления скорости. Скорость V считается заданной и неизменной, при этом К . =----< 1.

] V

3. Динамика бокового движения ЛА при перелёте к объекту . может быть приближённо описана дифференциальными уравнениями, если пренебречь разницей в длине пути по прямой и по дуге окружности при перелёте в упрежденную точку:

х. - х х. - х X = -1------ъ-1---------V,

Ч- г-

г . - г г . - г

& = ---ъ^---V,

Ч Г

(1)

г. - г г. - г

-------а------------а

г. г. а.-а

а = — -------------ъ —.--------------V = ^-V.

Ч- г. гі

4. При боковом манёвре боковая перегрузка ЛА ограничена, что определяет заданный минимальный радиус Я окружности, по которой доступен разворот ЛА.

5. Для достижения очередного объекта, не лежащего на линии прямолинейного

полёта, осуществляется наведение методом пропорциональной навигации. Процесс пересчёта нового угла подробно не рассматривается.

6. В качестве критерия оптимальности маршрута принято условие максимума числа контролируемых объектов за заданное время Т, чему соответствует условие минимума среднего времени перелёта от одного объекта к другому и критерий

м

м

I = Т~. ъТ-±-V £ VDt

йі

VDt

йі ® тіп. (2)

объекта, а принятие решения на каждом шаге кроме текущего штрафа в виде потерянного времени ещё имеет последствия для будущих шагов, наиболее подходящим методом оптимизации является динамическое программирование [4]. Тогда, учитывая дискретный характер альтернативных решений при выборе «куда лететь», уравнение Беллмана в частных производных можно записать в виде

де ■ \ г де . де де . ]

^—= тіп +— х і +— г і +— а і \ =

ді

Предложенное подынтегральное выра-

Г.

жение /о = функционала (2) указывает,

что в первом приближении при постоянной скорости V без учёта динамики ЛА лучше выбрать ближайший очередной объект на минимальном расстоянии г..

При перечисленных допущениях требуется сформировать такой алгоритм маршрутизации, который с учётом ограничений при боковом манёвре ЛА обеспечил бы наибольшее число контролируемых объектов, преимущественно расположенных по меняющемуся направлению полета.

Предложенный подход к решению задачи с помощью динамического программирования

Так как выбираемый маршрут есть результат многошагового выбора очередного

= тіп і

і

де х - х

/о і + —----------------------------V +

да

дх г.

+ ■

дє - г

дг г.

+ ■

да г.

V

> = Р. (х, г,а),

(3)

где е - функция Беллмана, ¥. - функция текущего риска с учётом последствий в будущем, І - номер выбираемого объекта в текущий момент времени. Например, это может быть либо группа подвижных объектов впереди по направлению полёта (' = 1.1, 1.2, 1.3, 1.4), сзади (і = 2.1, 2.2, 2.3, 2.4), слева (. = 3.1, 3.2, 3.3, 3.4) или справа (. = 4.1, 4.2, 4.3, 4.4), как показано на рис. 1.

Принципиальным отличием решаемой задачи от принятого в методе аналитическо-

г

Рис. 1. Расположение 16 подвижных объектов в окрестности ЛА, имеющих примерно одинаковую длину достигаемого пути

го конструирования оптимальных регуляторов допущения о непрерывности управления является то, что управление является альтернативным (в частности, согласно рис. 1, . = 1.1,1.2,...,4.4). Поэтому для приближённого синтеза закона управления воспользуемся подходом [5], основанным на вычислении функции минимального риска ¥. для различных альтернатив в ситуациях, близких к границам переключения при отклонениях «влево и вправо» от рабочей точки, в которой нельзя отдать предпочтения ни одной альтернативе. Согласно этому подходу вычисление этих функций риска, называемых ординатами риска С, осуществляется вначале путём представления функции Беллмана степенным рядом

N = N = N7= М+-.

(5)

е(х„,т) = а(т) +2 р,(^)х, +

(4)

гхк■

,=1

і=1 к=і+1

Вычисление ординат минимального риска в различных полётных ситуациях

Предварительные исследования показали, что применительно к данной задаче представление функции Беллмана е в квадратичной форме недостаточно для получения адекватного описания. Поэтому была взята следующая аппроксимация:

е = а + Р1 х + 0,5у1 х2 + Р2 г + 0,5у2 г2 + + Р3а + 0,5у3а2 + у12 хг +

+ у13 ха + у23 га + 1хга,

(6)

Затем, независимо от значений исходных данных решаемой задачи, функции риска ^(хп,т) представляются степенными полиномами того же порядка, что и функция Беллмана е(Хп ,т), а ординаты риска

с; = тіп{}(хР - Ах,)}

і

с+ = тіп{}(хр + Ах,)}

і

сй+ = тіп{?і(хр + Ах, + Ахі)} і

и коэффициенты Р у уік вычисляются в предположении очевидного предпочтения одной альтернативы перед другими в отдельных точках пространства состояния, например, в середине интервала в рабочей точке хр, а также на левой и правой границах интервала возможных значений переменных х Это позволяет определить установившееся значение этих коэффициентов при асимптотическом поведении оптимальной системы и довести решение задачи до конца, если приравнять ординаты риска друг другу:

где Д, у, Щк, 1 - искомые коэффициенты, а последнее слагаемое 1хга содержит произведение трёх переменных. Тогда, найдя зна-

дг дг дг

чения —, — , —— из (6) и подставив их в (3),

дх дг да

получим в общем виде формулу для вычисления функций риска ^.(х,г,а):

г. х. - х

Р] =^Г + (Р1 +У1х + У12г +У13а+1га)-------------V +

VАt г.

г. - г

+ (Р2 +у2 г+у12 х+у23а + 1ха)----------V+

г.

а. -а

+ (Р3 +у3а+у13х+у23г + 1хг)-----------V =

г.

г. Ах.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

= — + (р1 +У1х+У12г+У13а + 1га)------------V+

VАt г.

Аг.

+ (Р2 +У2 г+У12х+у23а + 1ха)-----------V+

Аа.

+ (Р3 +у3а+у13х+у23г + 1хг)----V,

(7)

где Ах. = х - х, Аг. = г. - г, Аа. = а. - а -

і і і і і і

приращения координат вектора текущего состояния динамической системы.

Теперь можно приступить к вычислению ординат риска, задав в качестве рабо-

г

г

чей точки положение ЛА, представленное на рис. 1, когда расстояние до движущихся объектов выбрано таким образом, что время их достижения примерно одинаково, и нельзя отдать предпочтение ни одной из альтернатив. При этих допущениях координаты рабочей точки равны х = х0; г = г0; а = 0, а расстояния г. между ЛА и объектами взяты кратными минимальному радиусу Я и равными г1 = 8Я, г2 = Я, г3 = г4 = 4Я. Это позволяет вычислить первую ординату С0 как среднее значение из 16 функций риска, возникающих при перелёте ЛА в различных направлениях:

том с помощью метода пропорциональной навигации.

Теперь рассмотрим полётные ситуации при отклонениях от рабочей точки.

При х = х0 + Ах = х0 + Я минимальный штраф будет при полёте ЛА к объекту 1.1, а при х = х0 - Ах2 = х0 - 9Я лучше лететь к объекту 2.4. Поэтому

С+

-у = А + (Х0 + Я)Гі + 2 оУ 12 +

7(1 + К )Я V2 М ''

С Г „ , 8(1 + 0,75К)Я

V = А + (Х0 - 9К)Уі + 2оУі2 +■

С0

V = (0,2+0,125К)(А1 + Хо7і + гоУі2) +

(9)

+ °Д8(А3 + уізХо +У2320хо +^^ого) + тг2 4

V М

Различные по модулю отклонения Ах1 5,4Я(1+К) и Ах2 были взяты для того, чтобы направле-

(8)

Нужно подчеркнуть, что при определении ординаты С0, как и последующих ординат, вычисление пути в упреждённую точку встречи с выбранным подвижным объектом проводилось при гипотезе управления полё-

ние полёта ЛА было одинаково - вперёд. Иллюстрация полётных ситуаций представлена на рис. 2.

Зададимся теперь отклонениями Аг по второй координате 2. При г = г0 + Аг минимальный путь ЛА будет при полёте к объекту 3.2, а при г = г0 - Аг - при полёте к объекту 4.2. Поэтому при Аг = Я получим

Рис. 2. Иллюстрация полётных ситуаций при поочерёдных отклонениях по х и ъ от рабочей точки

С + К

V = 1 + 3К А + 7іХ0 +Уі2(г0 + Я)] +

2(і + 5К) А ( Я)

+ ^Л ЧЇ^\А2 + У 2 (г0 + Я) + У12Х0 ] +

3(і + 3К)

+ ~ [А + Уі3Х0 +у23(г0 + Я) + Х0(г0 + Я)і] +

+

4Я 3(і + 3К)Я V 2М

С - К

= Т~^ЛА + УіХ0 +Уі2(г0 - Я)] +

V і + 3К

+

2(і + 5К)

+

3(і + 3К) р

4Я 3(і + 3К)Я

[А2 + Ї2(г0 - Я) + Уі2 Х0 ] +

- ^ [А3 + Уі3Х0 +У23(г0 - Я) + Х0(г0 - Я)Я] +

V 2А

(іо)

Иллюстрация для оценок ординат С+

и С- представлена на рис. 3.

Рассуждая аналогичным образом, можно вычислить остальные ординаты С3, Сі2, Сі3, С23, Сі23, которые после приравнивания

друг другу позволяют вычислить коэффициенты функции Беллмана:

_ 0,1(1 - К) 1,4 - 4,6К

71 V2Аг 7 _ V2Аг ’

(2,7 - 4К )Я 2

7з _--------^2---------

Уі3 =

у23 =

Аі =-

V 2Аі

г0(і,3 - 5,6К) - Я(0,35 + 4К) ;

V 2Аї ’

0,9Я(і + К) + (і,3 - 6К)Х0

V 2Аі ’ і,65Я(і + К) + 0,і(і - К)Х0 ;

V 2Аї ’

(іі)

д _ 4,6К -1,4 -1,3 + 6,4К

а2 = ; 1 =--------------------------:

V 2 Аі

V2 Аі

А =

Х0Я(0,35+4К) - 0,9г0Я(1+К) - Х0г0(13 - 5,6К)

V2Аі '

Нужно подчеркнуть, что во все эти формулы входят параметры V и Я, характеризующие свойства ЛА, и характеризующие внешнюю среду параметры: х0 - среднее значение координат х. (/ = 1,...,М) подвижных

Рис. 3. Геометрическая интерпретация области притяжения в виде «скрученного» эллиптического цилиндра

объектов, г0 - среднее значение координат г. (. = 1,.. ,,М) этих объектов, Аг - среднее время перелёта из одного объекта в другой как фактор насыщенности контролируемого реК ^ й гиона, К. _^^~- параметры относительной

скорости движения объектов.

Наконец, если подставить найденные коэффициенты в выражение (7) функции риска ¥. и приравнять эту функцию некоторой константе, то можно получить границу области притяжения, на которой значение риска одинаково. Полученная геометрическая интерпретация, представленная на рис. 3, указывает на то, что найденная фигура весьма похожа на «скрученный» эллиптический цилиндр, сечение которого есть эллипс, повёрнутый на угол, равный а+АаК, где а характеризует полёт ЛА, Аа. - движение объекта. Поэтому при выборе очередного объекта явное предпочтение отдаётся тем объектам, которые находятся по пути направления полёта и, во вторую очередь, объектам, движение которых соответствует сближению с ЛА. Объекты слева и справа менее предпочтительны, а последней по приоритету является часть региона в задней полусфе-

ре, что полностью соответствует физическому смыслу решаемой задачи. Поэтому в общем случае область притяжения - это «скрученный» эллиптический цилиндр, показанный на рис. 3.

Аппроксимация функции Беллмана и пример работы полученного алгоритма маршрутизации

Полученный аналитический результат предполагается использовать на каждом шаге выбора очередного наземного объекта, назначая включённым в маршрут тот, у которого значение F. минимально. Пример работы полученного алгоритма приведён на рис. 4.

Таким образом, вычисление функций риска происходит многократно. Поэтому эту процедуру целесообразно упростить. С этой целью воспользуемся тригонометрической формулой для описания границы одинакового значения риска в виде эллипса:

* |(aX^

F. _

1 | +M(Dzj - b) cos р+(Dx. - a) sin j]2 -1,

где a и b - координаты центра, M - коэффициент «сжатия» его главных осей, р - угол

приращения, Ах., Аг. - приращения координат местоположения ЛА при перелёте в

*

объект]. Если функцию Fj упростить, то при

её разложении в ряд Тейлора можно получить следующую аппроксимацию

F* = rj +------j [- a + (M - 1)bj] +

+ Az^[-Mb + (M - 1)aj]-r,

abj(M -1)

(12)

Формула (12) удобна для сопоставления с выражением (7), в результате чего параметры «повёрнутого» эллипса оказываются равными

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

a = 1,65^(1 + K) + 0,1x0 (1 - K); b = z0; j = a + KAa,; M » 1,4 - 4,6K.

(13)

Зависимость параметров эллипса а, Ь, р, М от х г0 также соответствует характеру предпочтения в принятии решений. В формулах (13) угол поворота эллипса скорректирован на значение КАа,, нацеливающее в упреждённую точку встречи с подвижным объектом.

Выводы

1. Показано, что область притяжения в выборе альтернативы маршрутного полёта есть «скрученный» эллиптический цилиндр, главная ось которого повёрнута в основном в направлении полёта ЛА с коррекцией на

упреждённую точку встречи, а центр сдвинут вперёд. При выборе очередного объекта предпочтение отдаётся тем, которые лежат по пути движения ЛА.

2. Среди объектов, находящихся в стороне от линии пути ЛА и имеющих значительный пеленг, более предпочтительны те, которые движутся на сближение, тем самым имея минимальную поперечную скорость по отношению к линии визирования между контролируемым объектом и ЛА.

Работа выполнена при финансовой поддержке Минобрнауки по проекту НК-528П/58ФЦП, контракт П-787.

Библиографический список

1. Лебедев, Г. Н. Теория оптимальных систем [Текст] / Г.Н. Лебедев. - М.: МАИ, 1999.

2. Кормен, Т. Алгоритмы: построение и анализ [Текст] / Т. Кормен, Ч. Лейзерсон, Р. Ривест, К. Штайн. - М.: «Вильямс», 2006.

3. Галютин, В. Б. Планирование маршрута на основе самообучения [Текст] / В. Б. Галютин // Авиакосмическое приборостроение. - М.: Научтехлитиздат. - 2002. -№ 2. - С. 16-18.

4. Беллман, Р. Динамическое программирование [Текст] / Р. Беллман. - М.: ИИЛ, 1961.

5. Боголюбов, А. А. Проблема управления полетом с помощью искусственного интеллекта [Текст] / А. А. Боголюбов, В. Б. Галютин, Г. Н. Лебедев // Авиакосмическое приборостроение. - М.: Научтехлитиздат. -2002. - №1. - С. 21-22.

r

APPLICATION OF DYNAMIC PROGRAMMING FOR PATH PLANNING FOR OBSERVATION OF MOBILE GROUND TARGETS IN THE CONTROLLED AREA

© 2011 G. N. Lebedev, A. V. Efimov

Moscow Aviation Institute (State Technical University)

In this article we consider a path planning problem for a UAV performing reconnaissance of mobile ground targets. We suggest an algorithm which uses dynamic programming for solving a path planning problem and allows us to determine the domain of attraction in the form of a "twisted" elliptic cylinder.

Unmanned aircraft, routing, Bellman function, dynamic programming.

Информация об авторах

Лебедев Георгий Николаевич, доктор технических наук, профессор, Московский авиационный институт (государственный технический университет). E-mail: kaf301@mai.ru. Область научных интересов: проблемы автоматизации и управления; идентификация, диагностика и оптимизация динамических систем; прикладной функциональный анализ и теория случайных процессов.

Ефимов Алексей Витальевич, инженер, аспирант, Московский авиационный институт (государственный технический университет). E-mail: astrowave@gmail.com. Область научных интересов: оптимизация динамических систем, прикладной функциональный анализ.

Lebedev Georgy Nikolayevitch, doctor of technical sciences, professor, deputy of chairholder, Moscow Aviation Institute (State Technical University). E-mail: kaf301@mai.ru. Area of research: modern problems of automatics and control for technical systems, identification, diagnostics and optimization of dynamic systems, applied functional analysis and the theory of casual processes.

Efimov Alexey Vitalyevitch, post-graduate student, engineer, Moscow Aviation Institute (State Technical University). E-mail: astrowave@gmail.com. Area of research: optimization of dynamic systems, applied functional analysis.

i Надоели баннеры? Вы всегда можете отключить рекламу.