Создание метода динамической коррекции движения манипулятора на основе нейронных сетей

Большаков А.А.; Глазков В.П.; Егоров И.В.; Лавров А.В.

УДК 004.8

А. А. Большаков, В.П. Глазков, И.В. Егоров, А.В. Лавров

СОЗДАНИЕ МЕТОДА ДИНАМИЧЕСКОЙ КОРРЕКЦИИ ДВИЖЕНИЯ МАНИПУЛЯТОРА НА ОСНОВЕ НЕЙРОННЫХ СЕТЕЙ

Описан метод динамической коррекции траектории манипулятора при высоких требованиях к точности и быстродействию системы на основе нейронной сети прямого распространения.

Нейронная сеть, манипулятор, планирование траекторий,

многомерная оптимизация

A.A. Bolshakov, V.P. Glazkov, I.V. Egorov, A.V. Lavrov

CREATION MANIPULATOR MOVEMENT DYNAMIC CORRECTION METHOD

ASED ON NEURAL NETWORKS

The article describes manipulator trajectory dynamics correction method for high accuracy and performance demand, based on neural network of direct distribution.

Neural networks, manipulator, trajectory planning, multidimensional optimization

Проведенный анализ показывает, что, несмотря на относительно большое количество существующих методов, задача непрерывного динамического управления манипулятором остается весьма актуальной и сложной. Для ее решения предлагается использовать новый подход, позволяющий эффективно учитывать динамические свойства манипулятора и, следовательно, управлять им при высоких скоростях движения рабочего органа. Для этого предлагается при планировании траектории использовать искусственные нейронные сети (НС) прямого распространения. При этом появляется возможность учесть динамические свойства манипулятора, планировать траектории, близкие к оптимальным по ряду выбранных критериев: энергетические затраты, объем движения в кинематических парах, т. е. без лишних блуждающих движений, с предельно допустимыми скоростями и ускорениями и т. д.

Целью планирования траектории является определение непрерывных функций обобщенных координат (ОК) от времени, соответствующих траектории, которую манипулятор может отработать с ошибкой, не более допустимой. Исходными данными для построения программной траектории (ПТ) являются декартовы координаты, ориентация и скорость захватного устройства в узловых точках, число которых зависит от способа планирования траектории.

Различия в способах планирования условны, т.к. оно сводится к построению функций обобщенных координат по времени. Способы планирования отличаются подробностью задания пространственной траектории, т.е. числом узловых точек на ней. В случаях, когда существенным является начальное и конечное положение рабочего инструмента (РИ)

114

манипулятора, а также отсутствие столкновения с препятствиями, а других ограничений на траекторию не накладывается, применяется планирование в обобщенных координатах. Название способа планирования отражает, что за исключением нескольких узловых точек, число которых может быть от двух до шести, декартовы координаты РИ в процессе движения не контролируются.

Уменьшения динамической ошибки в этом случае не требуется, т.к. скорость движения в начале траектории и при приближении к конечной точке малы, следовательно, мала и динамическая составляющая ошибки движения, на среднем участке траектории понятие динамической ошибки теряет смысл, т.к. траектория может быть произвольной. Поэтому динамическая коррекция требуется в тех случаях, когда требования к точности

отработки траектории высоки и количество узловых точек измеряется десятками. Такой

способ планирования принято называть планированием в декартовых координатах. В каждом узле траектории требуется обеспечить заданное положение и скорость РИ, а в промежутках между ними движение может быть произвольным при условии неразрывности производных по ОК и допустимом отклонения РИ от прямой, соединяющей узловые точки, т.е., закон управления соответствует выражению

я. (О = f (V, V-, —, V) ■ (1)

где (г) - программный закон изменения . -й обобщенной координаты на --м отрезке траектории, заданном --й и -+1 - й узловыми точками; ^, ] = 1,к - векторы параметров узловых точек, размерностью 6x1, содержащие значения желаемых декартовых координат и ориентации РИ в узловых точках траектории; V, - векторы желаемых скоростей РИ в

узловых точках; г - время; f - некоторая функция, определение которой составляет задачу планирования ПТ.

Так как декартовы координаты РИ соответствуют ОК, то узловые точки целесообразно задать в обобщенных координатах (ОК), решением обратной задачи кинематики (ОЗК). Тогда выражение (1) запишется в виде

я(г) = f ^ ^ Яц+и Яи ,г). (2)

С учетом динамики манипулятора, взаимовлияния звеньев и отставания действительных значений ОК от их программных величин в процессе отработки траектории выражение (2) следует переписать в виде

и ПЗ.(г) = / (Ч ^ >1 , г)- (3)

где иш (г) - закон управляющего воздействия по .-й ОК, соответствующий траектории, проходящей через заданные узловые точки на--м отрезке; ч^ Ч^ = Гд - векторы значений

желаемых обобщенных координат и скоростей по обобщенным координатам в узловых точках соответственно. Векторные аргументы в выражении (3) введены из-за зависимости динамических свойств манипулятора от его конфигурации и текущих значений скоростей по ОК, а следовательно, необходимости учитывать одновременно все ОК и скорости при вычислении управляющего воздействия для отдельной ОК.

При планировании ПТ закон изменения ОК наиболее часто аппроксимируется полиномами (сплайнами) третьего-пятого порядков, т.к. при этом обеспечиваются условия неразрывности производных ОК. Порядок полинома определяется количеством условий, накладываемых на траекторию в узловых точках. К ним относятся значения ОК и скоростей в начальной и конечной точках отрезка траектории. Таким образом, законы управления приводами манипулятора целесообразно искать в виде последовательности полиномов третьего порядка, коэффициенты которых вычисляются по значениям ОК и их производных в смежных узловых точках:

иПЗ1 (г) = с3— + с2— + си/ + с0Ц • (4)

где

иПЗ - программный закон управления приводом г-й ОК на у-м участке траектории; п = 0, 3 - коэффициенты полинома; t - нормированное время, изменяющееся от 0 до 1

на каждом отрезке траектории.

Процедура формирования управляющего воздействия при планировании ПТ в декартовых координатах формулируется следующим образом:

1. Пусть задан набор узловых точек в базовой системе координат, через которые должен пройти РИ манипулятора.

2. Решением ОЗК для каждой узловой точки формируется соответствующий вектор

ОК.

3. Для каждой пары полученной последовательности узловых точек в пространстве ОК формируется набор граничных условий, описывающих отрезок траектории и текущее состояние манипулятора, т.е. я р 4;, я ^, 4 ^.

4. Вычисляются коэффициенты ет] полиномов третьего порядка, задающих управляющие воздействия по ОК иш между у-м и у+1-м узлами траектории. При этом отсутствует необходимость условия, чтобы действительный закон изменения ОК дду 0) при отработке управляющего воздействия и ПЗг 0), всегда соответствовал полиномиальному закону. Такое возможно лишь в частных случаях, например, при малых скоростях движения. В общем случае, движение между узловыми точками будет осуществляться с отклонением от ПТ. Полученные управляющие воздействия должны обеспечивать выполнение заданных граничных условий. Кроме того, максимальное отклонение от прямой, соединяющей узловые точки в пространстве декартовых координат, не должно превышать допустимого значения.

Для вычисления коэффициентов в выражении (4) предлагается использовать многослойную НС прямого распространения. Структурная схема подсистемы динамической коррекции на основе НС изображена на рис. 1.

В состав подсистемы входят нейронная сеть, формирователь управляющих воздействий и датчики угловой скорости и углов поворота звеньев. На основе значений ОК и угловых скоростей в начальной и конечной точках текущего отрезка траектории НС формирует набор коэффициентов полиномов, аппроксимирующих законы изменения ОК в каждом сочленении.

Формирователь управляющих воздействий преобразует полученные с НС

коэффициенты полиномов в непрерывные сигналы управления приводами звеньев.

с

Рис. 1. Структурная схема подсистемы динамической коррекции

По завершении отработки текущего отрезка траектории действительные значения ОК и угловых скоростей в конечной точке отрезка принимаются в качестве желаемых значений в начальной точке последующего отрезка траектории. Вычисляются новые значения коэффициентов аппроксимирующих полиномов, и процесс повторяется, пока все узловые точки траектории не будут пройдены.

На рис. 1 обозначены: и1п - управляющее воздействие на входе /-го звена; цду,&ду -

действительное значение ОК и скорости в начальной точке у-го участка траектории для Iго звена, соответственно; я жу, 4 ж, я ж+1,4 жу+1 - векторы желаемых значений ОК и скоростей

в начальной и конечной точках у-го участка траектории, соответственно.

Структура НС изображена на рис. 2, в квадратные скобки заключены параметры, которые могут быть опущены, если не накладываются условия на скорость в конечной точке отрезка траектории.

На вход НС подается вектор, состоящий из значений я ^ <4 ^ я і+1, <4 ^. С выхода НС снимаются значения коэффициентов полинома, определяющего управляющее воздействие

1ПЗі

на входе привода 1-го сочленения манипулятора.

При управлении манипулятором определение требуемых значений скоростей по ОК 4у, 4у+1 в узловых точках траектории, необходимое для вычисления коэффициентов

полиномов может вызывать затруднения, во-первых, из-за многозначности решения ОЗК для кинематически избыточного манипулятора. Во-вторых, скорость РИ в пространстве декартовых координат может быть задана не во всех точках траектории, а только в начальной и конечной точках, где она равна или близка к нулю. В других узлах траектории требования к соблюдению заданной скорости движения могут отсутствовать. Поэтому представляется целесообразным при предварительном планировании траекторий, если не заданы скорости по ОК, в качестве граничного условия вместо скорости по ОК в конечной точке участка траектории использовать среднее арифметическое ОК в узловых точках. Скорость в начальной точке следующего участка траектории равна скорости в конечной точке предыдущего участка. Таким образом, в зависимости от требований к траектории могут потребоваться различные НС, обученные на разных обучающих множествах.

Рис. 2. Структура НС для вычисления коэффициентов полиномов, определяющих управляющее воздействие по ьй ОК для ]-го участка траектории

Рассмотрим предлагаемый принцип корректировки динамической ошибки при помощи НС. Пусть имеется некоторая непрерывная скалярная или векторная функция векторного аргумента, описывающая реакцию некоторой системы на входное воздействие:

где ус - выходной вектор системы; X - вектор входных значений. Для простоты, предположим, что размерности ус и X одинаковы. В качестве аксиомы примем возможность обученной НС достаточной сложности воспроизводить функцию (5) с некоторой точностью:

где УНС - выходной вектор НС. Подавая некоторое значение входного вектора X на вход НС, на выходе получим выходное значение, близкое к тому, которое способна выдать система (5), т.е. УНС » У,. Способность воспроизводить функцию (5) приобретается НС в процессе обучения, для которого используется дискретное множество пар входных и выходных векторов, соответствующих друг другу: {х «Ус}. Благодаря способности НС к обобщению, подача на вход НС значений, не принадлежащих обучающему множеству, не приводит к значительному увеличению ошибки при условии, что входные значения находятся в допустимом диапазоне. Замена при обучении НС входных значений выходными приведет к тому, что НС будет вычислять функцию, обратную (5), т.е X = к(\с). Таким образом, применяя НС, можно находить значение неизвестной непрерывной функции, обратной известной, заданной дискретным множеством значений.

В процессе генерации обучающего множества на приводы манипулятора или модели, его заменяющей, подается набор управляющих воздействий, вида (4), соответствующих фрагментам траекторий, которые распределены по всему рабочему диапазону. Приводы манипулятора отрабатывают управляющие воздействия с некоторой динамической ошибкой, обусловленной отставанием действительной траектории от ПТ и совместным влиянием звеньев друг на друга. Каждому набору коэффициентов полинома соответствует некоторый действительный закон изменения і-й ОК во времени. Значения ОК, а также скорость по ней в начальный и конечный момент времени фиксируются и формируется обучающее множество:

В процессе генерации обучающего множества отсутствует необходимость решать ОЗД. Необходимые данные получаются на реальном манипуляторе или на модели, предназначенной для решения прямой задачи динамики, которая имеет однозначное решение, в том числе и для манипулятора с кинематической избыточностью.

После обучения НС будет способна находить коэффициенты полиномов, обеспечивающие при движении манипулятора выполнение граничных условий 4^4^4^,4^, у-го участка траектории, с учетом нелинейностей привода, динамики и взаимовлияния звеньев, т.е. корректировка динамической ошибки заключается не в ее исправлении в процессе функционирования системы, а в формировании такого управляющего воздействия, при котором максимальная ошибка не превышает допустимого значения.

Вопрос об оптимальной структуре НС для динамической корректировки ПТ в общем случае остается открытым. На основе экспериментальных данных можно сформулировать следующие рекомендации:

1. Для упрощения структуры нейронной сети для каждой обобщенной координаты и каждого коэффициента полинома следует использовать отдельную НС с одним 118

Ус =р(х)

У НС =У(Х) ,

выходным значением, что позволит значительно уменьшить количество связей в каждой из них и, следовательно, ускорить обучение и повысить точность. Количество НС, работающих параллельно, определяется как число сочленений в манипуляторе, умноженное на 4 (число коэффициентов полинома).

2. Размерность входного вектора НС равна 28 или 21 в зависимости от предъявления жестких требований к скоростям движения в узловых точках.

3. Наибольшее число нейронов в одном из скрытых слоев целесообразно выбрать в 5 -10 раз большим числа входов НС. Число нейронов в других скрытых слоях может быть

меньшим.

4. Количество скрытых слоев целесообразно принять равным от 3 до 6.

5. Количество выходных переменных равно 1, т. е. каждая НС предназначена для вычисления значения одного коэффициента.

6. Для достижения требуемой точности количество тренировочных примеров должно быть не менее чем в 7 - 10 раз больше числа связей в НС.

Заметим, что чем больше нейронов в НС, тем точнее сеть аппроксимирует требуемую зависимость, и тем больше требуется обучающих примеров и, соответственно, увеличивается время обучения. Поэтому выбор структуры сети является результатом компромисса между точностью решения и возможностями обучения НС.

Набор тренировочных и тестовых данных для обучения НС создается в процессе выполнения следующего алгоритма:

1. Задается набор координат узловых точек и ориентаций РИ в них, соответствующих различным траекториям в диапазоне их возможного изменения. Для начальных и конечных точек траектории принимаются нулевые скорости движения. При размещении узловых точек вдоль траектории, принимается во внимание, что время движения от одного узла к другому должно быть одинаковым.

2. Решается ОЗК, набор декартовых координат узловых точек и ориентаций РИ в них преобразовывается в набор ОК.

3. Полученные наборы ОК проверяются на корректность с точки зрения кинематических и динамических ограничений.

4. Предварительно планируются траектории на основе аппроксимации полиномами третьего порядка, проходящие через точки, полученные на этапах 2, 3, создается набор коэффициентов полиномов для вычисления управляющих воздействий по каждой из ОК, для каждого участка траектории.

5. Управляющие воздействия, определяемые полиномами, найденными на этапе 4, подаются на приводы манипулятора (модели) и по действительным значениям ОК и скоростей по ним, в моменты, соответствующие прохождению узловых точек траектории, формируется набор граничных условий 4 4 4 4

6. формируются °бутающие множества [ези,^,си],с0!) }и «{4у,4.,4у+1,4у+1 }и, где {сзу, с2у, с1у, с0у} - множество коэффициентов полиномов, определяющих п-ю траекторию, для всех ОК и участков траектории; {4..,,4у+1,(}у+1} - множество граничных условий для и-й траектории.

Полученные обучающие множества применяются для обучения НС.

Таким образом, для обучения НС прямого распространения используются методы многомерной оптимизации, например, модификации метода градиентного спуска или квазиньютоновские алгоритмы. Выбор того или иного метода определяется сложностью НС, объемом обучающей выборки, аппаратным обеспечением. Так, для сравнительно несложных НС с количеством связей в пределах 1000-5000 хорошие результаты показывает метод Левенберга - Маркара [1]. Этот быстрый метод, тем не менее, весьма требователен к объему оперативной памяти компьютера. Несколько худшей сходимостью обладает метод сопряженных направлений, однако требования к объему оперативной памяти у него значительно ниже. Генетические алгоритмы целесообразно использовать

для обучения сложных нейронных сетей с большим количеством скрытых слоев и значительным объемом обучающей выборки. Скорость обучения сложной НС при помощи генетического алгоритма может оказаться значительно выше, чем при использовании других методов [2].

ЛИТЕРАТУРА

1. Ющенко А.С. // Экстремальная робототехника : материалы IX науч.-техн. конф. / ЦНИИ РТК. СПб.: Изд-во СПбГТУ, 1998. С.54-59.

2. Вороновский, Г. К. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности / Г. К. Вороновский. Харьков: Основа, 1997. 110 с.

Большаков Александр Афанасьевич -доктор технических наук, профессор, заведующий кафедрой «Системотехника» Саратовского государственного технического университета

Глазков Виктор Петрович -доктор технических наук, профессор, заведующий кафедрой «Системы искусственного интеллекта» Саратовского государственного технического университета

Егоров Игорь Владимирович -кандидат технических наук, доцент кафедры «Системы искусственного интеллекта» Саратовского государственного технического университета

Лавров Александр Владимирович -аспирант кафедры «Системы искусственного интеллекта» Саратовского государственного технического университета

Статья поступила в редакцию 01.11.10, принята к опубликованию 15.11.10

CREATION MANIPULATOR MOVEMENT DYNAMIC CORRECTION METHOD ASED ON NEURAL NETWORKS

Текст научной работы на тему «Создание метода динамической коррекции движения манипулятора на основе нейронных сетей»