Научная статья на тему 'Обзор работ научной школы В.А. Якубовича по искусственному интеллекту и робототехнике'

Обзор работ научной школы В.А. Якубовича по искусственному интеллекту и робототехнике Текст научной статьи по специальности «Математика»

CC BY
4
2
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
искусственный интеллект / машинное обучение / адаптивные системы / робототехника / кафедра теоретической кибернетики СПбГУ / история науки / artificial intelligence / machine learning / adaptive systems / robotics / Department of Theoretical Cybernetics / St.Petersburg State University / history of science

Аннотация научной статьи по математике, автор научной работы — Матвеев Алексей Серафимович, Фрадков Александр Львович, Шепелявый Александр Иванович

В статье представлен обзор работ научной школы В.А. Якубовича в области искусственного интеллекта, машинного обучения, адаптивных систем и робототехники. Подробно рассмотрен метод рекуррентных целевых неравенств. Раскрыто значение представленных результатов для развития кибернетики и искусственного интеллекта. Особое внимание уделено основополагающим работам В.А. Якубовича в области распознавания образов и развитию концепции конечно-сходящихся алгоритмов решения рекуррентных целевых неравенств; в качестве конкретной иллюстрации подробно обсуждаются типичные результаты о сходимости таких алгоритмов. Освещается вклад школы в становление и дальнейшую разработку современной теории адаптивных систем управления и математической робототехники, в частности теории адаптивных роботов. Отдельный раздел посвящен вопросам адаптивного субоптимального управления.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

An overview of works of the scientific school created by V.A. Yakubovich on the issues of artificial intelligence and robotics

The article presents an overview of the works of the scientific school of V.A. Yakubovich in the field of artificial intelligence, machine learning, adaptive systems and robotics. The method of recurrent objective inequalities is considered in detail. The significance of the presented results for the further development of cybernetics and artificial intelligence is discussed. Special attention is given to seminal works of V.A. Yakubovich on machine learning and to the development of the concept of finitely converging algorithms for solving recurrent objective inequalities; some typical results on their convergence are discussed in detail for the sake of illustration. The paper distinctly highlights the contribution of the school to the formation and development of the modern theories of adaptive control and mathematical robotics, particularly, the theory of adaptive robots. A special section is concerned with adaptive sub-optimal control.

Текст научной работы на тему «Обзор работ научной школы В.А. Якубовича по искусственному интеллекту и робототехнике»

2023 ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА Т. 10 (68). Вып. 4

МАТЕМАТИКА. МЕХАНИКА. АСТРОНОМИЯ

К 300-ЛЕТИЮ СПбГУ

УДК 62.50

МЯО 37ОТ5, 68Т05, 68Т40, 93С85, 93-03

Обзор работ научной школы В. А. Якубовича по искусственному интеллекту и робототехнике

А. С. Матвеев, А. Л. Фрадков, А. И. Шепелявый

Санкт-Петербургский государственный университет,

Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7—9

Для цитирования: Матвеев А. С., Фрадков А. Л., Шепелявый А. И. Обзор работ научной школы В. А. Якубовича по искусственному интеллекту и робототехнике // Вестник Санкт-Петербургского университета. Математика. Механика. Астрономия. 2023. Т. 10 (68). Вып. 4. С. 665-685. https://doi.org/10.21638/spbu01.2023.406

В статье представлен обзор работ научной школы В. А. Якубовича в области искусственного интеллекта, машинного обучения, адаптивных систем и робототехники. Подробно рассмотрен метод рекуррентных целевых неравенств. Раскрыто значение представленных результатов для развития кибернетики и искусственного интеллекта. Особое внимание уделено основополагающим работам В. А. Якубовича в области распознавания образов и развитию концепции конечно-сходящихся алгоритмов решения рекуррентных целевых неравенств; в качестве конкретной иллюстрации подробно обсуждаются типичные результаты о сходимости таких алгоритмов. Освещается вклад школы в становление и дальнейшую разработку современной теории адаптивных систем управления и математической робототехники, в частности теории адаптивных роботов. Отдельный раздел посвящен вопросам адаптивного субоптимального управления.

Ключевые слова: искусственный интеллект, машинное обучение, адаптивные системы, робототехника, кафедра теоретической кибернетики СПбГУ, история науки.

1. Введение. Кибернетика и искусственный интеллект в 1960-е годы.

В 1960-х годах развитие исследований в области распознавания образов, обучения и кибернетики в целом было очень активным.

Исследовательская деятельность в СССР частично стимулировалась информацией о зарубежных разработках. Были переведены на русский язык и изданы книги и сборники статей ведущих западных ученых. Исследования в СССР соотносились с

© Санкт-Петербургский государственный университет, 2023

мировыми, отечественные ученые ссылались на работы Ф. Розенблатта, Г. Себастьяна, Б. Уидроу по распознаванию образов, адаптивной фильтрации и др. Нечеткие системы (Л. Заде, 1965), виртуальные собеседники, например ЭЛИЗА (Д. Вейценбаум, 1966), были введены в оборот исследований. Появились отечественные оригинальные работы и достижения мирового уровня в распознавании образов, в том числе алгоритм «Кора» (М. М. Бонгард, 1961), метод потенциальных функций (М. А. Ай-зерман, Э. М. Браверман, Л. И. Розоноэр, 1963-1964), метод обобщенного портрета (А. Я. Лернер, В. Н. Вапник, А. Я. Червоненкис, 1963-1964).

Также проводились исследования по искусственному интеллекту, которыми активно занимались, например, Д.А.Поспелов (1966, 1972, 1976 и позже), Г.С.Поспелов, М. Л. Цетлин, В. Н. Захаров, В. Ф. Хорошевский, Э. В. Попов. Активная деятельность в области кибернетики и искусственного интеллекта не обошла стороной и Ленинград. В качестве примера укажем исследования по машинному переводу текстов (Г. С.Цейтин, 1959) и автоматическому доказательству теорем (обратный метод Маслова, С. Ю. Маслов, 1964).

В ноябре 1956 г. была основана секция кибернетики Дома ученых, первым председателем которой стал будущий нобелевский лауреат Л. В. Канторович. Секция стала первой общественной научной организацией в области кибернетики в СССР. В 1959 г. В.А.Якубович создал лабораторию теоретической кибернетики в Ленинградском государственном университете (ЛГУ), где разрабатывались алгоритмы распознавания образов, адаптации, машинного обучения и др. Впоследствии (в 1970 г.) на базе лаборатории была создана кафедра теоретической кибернетики. Ниже представлен краткий обзор результатов, полученных в лаборатории и на кафедре теоретической кибернетики в области искусственного интеллекта, машинного обучения, адаптивных систем и робототехники. Обзор основан на материале статей [1-6] и тяготеет к ранним работам.

2. Первые работы В. А. Якубовича по машинному обучению и распознаванию образов. Подробно остановимся на творчестве Владимира Андреевича Якубовича. Его наиболее известные и получившие широкое мировое признание публикации в основном связаны с теорией управления, теорией устойчивости, оптимальным управлением и теорией нелинейных динамических систем. В этих локациях расположены его самые известные достижения. А достижения в области адаптивных систем и теории обучающихся систем менее известны. Вместе с тем в области математической кибернетики его работа была фундаментальной, имела продолжение и была плодотворно развита другими учеными.

Обсудим первые статьи В.А.Якубовича по указанной тематике [7-12], появившиеся в университетских изданиях и в докладах Академии наук СССР.

Статья 1963 г. [7] оказалась одной из первых, где активно использовались термины «машинное обучение» и «обучающиеся машины». Недавно журнал «Вестник Санкт-Петербургского университета» опубликовал эту статью [8], и она была переведена на английский язык, что, несомненно, будет способствовать распространению идей и методов В. А. Якубовича в этой области. За 15 лет, с 1963 по 1978 г., В. А. Якубович опубликовал 45 статей в области искусственного интеллекта, адаптивных и обучаемых систем и распознавания образов. В общей сложности за этот период он опубликовал 105 статей. Это означает, что почти половина из них была посвящена вопросам машинного обучения и искусственного интеллекта, адаптивным системам, алгоритмам обучения и распознавания. Таким образом, в те годы искусственный

интеллект и адаптация занимали существенное место в творчестве В. А. Якубовича. Следует отметить, что в последние десятилетия распознавание образов и машинное обучение переместились на центральное место в области искусственного интеллекта. Некоторое время назад это было не так, и многие работы такой направленности считались относящимися к кибернетике как более широкой области. Основные ранние работы В. А. Якубовича по машинному обучению, распознаванию, адаптивным системам и роботам приведены в [7-19].

Рис. 1. Титул и первая страница статьи В.А.Якубовича [7].

Характер результатов В. А. Якубовича прокомментируем на примере его статьи «Машины, обучающиеся распознаванию образов» [7]. Эта статья была по сути первой научной работой по машинному обучению в СССР. Даже в мире эта статья была одной из первых. Аналогичная статья В. Н. Вапника с идентичным названием была опубликована 10 лет спустя [20]. Приведенный на рис. 1 скан первой страницы статьи [7] дает возможность погрузиться в атмосферу 1960-х гг. не только по части стандартов полиграфии, но в плане дружественного переплетения научных направлений математико-механического факультета СПбГУ: статья в молодой, только встающей на крыло области, опубликована под эгидой зрелой и авторитетной дисциплины «Методы вычислений».

Удобно рассмотреть проблему распознавания образов на популярном примере задачи о распознавании лиц. Необходимо более точно, научить компьютер отличать

>1 /Л

Ск ШЖ

Рис. 2. Слева — мужские лица, справа — женские. Вестник СПбГУ. Математика. Механика. Астрономия. 2023. Т. 10(68). Вып. 4

женские лица от мужских: он должен решить, мужское лицо или женское предъявлено ему на новом, ранее не демонстрировавшемся фото (рис.2).

Решение задачи начинается с оцифровки изображений, в результате которой каждое изображение «превращается» в набор числовых признаков

Х={Х1

1 Х2 1 • • •, Х7П

}, т.е. в точку т-мерного пространства Кт. Требуется построить функцию классификации у(-), которая задана на пространстве наборов х признаков и в точках, отвечающих фотографиям с мужскими лицами, принимает значение — 1, а женским лицам сопоставляет +1. В случае обучения с учителем для построения у(-) предварительно предъявляют набор фотографий женских и мужских лиц, сообщая, кто есть кто на фото.

Простейший подход — это попытаться разделить множества точек й и й, связанных с мужскими и женскими лицами соответственно гиперплоскостью (рис. 3) и определить у(-) как функцию, принимающую значения ±1 по разные стороны от гиперплоскости.

Рис. 3. Разделяющая гиперплоскость.

Гиперплоскость (ю, х) + й = = ю2,..., ют} называют разделяющей два конечных множества, если все точки одного множества находятся по одну сторону от гиперплоскости, а все точки другого множества — по другую. Найти алгоритмы корректировки коэффициентов уравнения гиперплоскости и построить разделяющую гиперплоскость — это задача, которую необходимо решить. Сложность ее заключается в том, что не всегда два множества могут быть разделены гиперплоскостью. В случае же, когда существует разделяющая гиперплоскость, часто желательно найти разделяющую плоскость, оптимальную в некотором смысле. На этапе обучения изображения, каждое из которых представлено точкой в многомерном пространстве, последовательно показываются машине, и машина должна построить разделяющую гиперплоскость, распознающую представленные ей изображения, а желательно также и изображения, которые не были показаны.

Основным результатом статьи [7] является алгоритм построения разделяющей гиперплоскости, а также условия, при которых алгоритм дает требуемый результат. Эти условия даны в терминах вероятностных распределений точек по заданным множествам в предположении, что множества разделимы гиперплоскостью. Показано, что при выполнении упомянутых условий предложенный алгоритм строит

разделяющую гиперплоскость с вероятностью один. Оригинальная формулировка соответствующей теоремы из статьи В. А. Якубовича [7] приведена на рис. 4, где соотношения по ссылке (3.1) имеют вид ф(х) > 0 при х € ¿1 и ф(х) < 0 при х € Б2. (Тогда в качестве функции классификации можно взять у(-) := sgnф(-).)

Теорема 1. Пусть £ - непересекающиеся компактные выпуклые тела в гильбертово.« или евклидовом простран-.

нъ,»Р,?дП0Л°Ж1Ш' чтоА из мн°жества ^ выбираются случайным и независимым образом элемент . х / х' и

ТакТвГбТй ~б ЭЛеМеН,,Ш ^.....^ ^редположим, что

какова бы ни была внутренняя п очно г' с с „ „„ *

я« была ее окрестной" целиком То^ащаУя^Т ее

роятность того, что точка х) ^ шб^аТэп"ой о^ест.

И Рг для

означает вероятность выполнения соотношения (3.1)

Ф(*) = и

Хг+Х3

X — X.

Тогда Р

(3.6)

1 при ш!п (ти т.,) -> +

Рис.4- Формулировка теоремы из статьи В.А.Якубовича [7].

На рис. 5 показано, как происходит процесс построения разделяющей гиперплоскости.

Рис. 5. Геометрический смысл алгоритма В. А. Якубовича.

Полученные результаты были успешно применены к практической задаче в области криминалистики: задаче распознавания почерка [21]. Для ее решения подпись предварительно кодируют в форме набора координат точек, поставленных на подписи в определенных характерных местах.

Следует сказать и о других подходах к решению задачи разделения множеств. Эта хорошо известная задача вычислительной математики занимает одно из центральных мест в области машинного обучения с 1960-х гг. Упомянем алгоритм Б. Н. Козинца, сотрудника лаборатории теоретической кибернетики ЛГУ, производящий рекуррентное разделение выпуклых множеств [22]. Независимо от этих работ, группа В. Ф. Демьянова и В. Н. Малоземова в ЛГУ занималась аналогичны-

ми задачами и получила другой алгоритм, всемирно известный под аббревиатурой MDM [23-25] (Malozemov —Demyanov — Mitchell algorithm). Пожалуй, наибольшую известность получил алгоритм, предложенный в Институте проблем управления АН СССР в 1963-1964 гг. В. Н. Вапником, который дал начало общему методу — «Методу опорных векторов» (SVM) [26], ставшему особенно популярным с 1990-х гг.

3. Метод рекуррентных целевых неравенств. Дальнейшее развитие идей распознавания образов привело В. А. Якубовича к разработке общего метода, названного «Методом рекуррентных целевых неравенств» (метод РЦН) [10], который лег в основу решения многих задач распознавания образов, адаптации, управления, проектирования систем управления роботами и т. д.

Проиллюстрируем метод РЦН на задаче распознавания лиц. Для этого рассмотрим пространство гиперплоскостей, отождествляемых с парами коэффициентов (w, d),w е Rm,d е R:

w, d : (w, x) + d = 0, w = {wi, w2, ..., wm}.

Рис. 6. Геометрический смысл алгоритма ЯВА.

Одним из простейших конечно-сходящихся алгоритмов является алгоритм решения линейных неравенств ЯВА [10]. Геометрия алгоритма ЯВА представлена на рис. 6. Он проецирует текущий вектор коэффициентов (весов) (', йь) на новую гиперплоскость

(ю,хь+1) + й = 0,

соответствующую новому показанному изображению, если текущий вектор весов находится с «неправильной» стороны от нее (неверно распознает соответствующее изображение). Если новое изображение распознается верно, вектор весов не меняется. В статье [10] доказано, что при естественных предположениях алгоритм сходится за конечное число шагов и верно распознает все, даже еще не показанные изображения. В. А. Якубовичем было предложено несколько подобных конечно-сходящихся алгоритмов, которые позже неоднократно обобщались.

Основные идеи метода РЦН были изложены в работах В. А. Якубовича [10, 27] и впоследствии интенсивно развивались (см. [28-31] и библиографию в [32]). Суть метода заключается в том, что цель (адаптации или управления) записывается в виде бесконечной системы целевых неравенств, которые могут не задаваться заранее, а формироваться в процессе управления рекуррентно (т. е. каждое неравенство может зависеть от предыдущих). В качестве алгоритма адаптации берется алгоритм, доставляющий за конечное число шагов решение всего бесконечного «хвоста» системы неравенств, так называемый конечно-сходящийся алгоритм (КСА) [10].

Рассмотрим общую задачу поиска решения в бесконечной системы нелинейных целевых неравенств

Qk(в) < £, к = 0,1,..., (1)

где £ > 0 — допустимая погрешность достижения цели, а целевые функции Qk(в) в типичном случае «появляются» не сразу, а шаг за шагом с ростом к. На каждом шаге строится текущий кандидат в к на звание решения бесконечной системы (1), которого разрешено менять от шага к шагу. Желаемый итог значение вк перестает изменяться, начиная с некоторого шага, и с этого момента дает решение всех последующих целевых неравенств. Ослабленный вариант такого итога — последовательность {вк} имеет предел, который обладает аналогичным свойством.

В работе [27] были предложены градиентные конечно-сходящиеся алгоритмы решения неравенств (1), которые получили дальнейшее развитие в [28-31].

При обосновании сходимости таких алгоритмов обычно предполагается, что совокупность функций Qk(в) обладает важным свойством: существует вектор в* € 2, такой, что при в := в* и при подходящем выборе е в (1) все соответствующие неравенства выполнены. Это свойство, означающее, грубо говоря, что различные функции Qk(в) имеют (приближенно) общую точку минимума, является следствием квазистационарности задачи и позволяет синтезировать алгоритм адаптации на основе методов математического программирования (в первую очередь — на основе методов 1-го порядка).

Применение метода РЦН разбивается на два этапа: а) построение системы РЦН; б) построение КСА для решения системы РЦН. Действия на первом этапе зависят от специфики задачи и могут потребовать достаточно изощренных преобразований исходного описания объекта управления и целевых условий так, чтобы исключить неизвестные и недоступные измерению величины и обеспечить выполнение условий применимости КСА, сохранив при этом первоначальный смысл задачи.

Рассмотрим второй этап — построение КСА для решения системы целевых неравенств (1) безотносительно к ее происхождению. Если каждая из функций Qk(в) выпукла, то для построения КСА можно воспользоваться базовой идеей методов проекции градиента. Соответствующий алгоритм имеет вид

в [Ргн № — ^УвQk(вk)} , при Qk(вk) > е, к = 012 (2)

\вk , при Qk(вk) < е, , ,

Здесь — скалярный или матричный множитель, а Ргд — проектор на множество 2 допустимых значений в. Множество 2 должно быть выпуклым и замкнутым. Для простоты вычислений стараются задавать простые множества 2 : параллелепипед, симплекс, шар и т. д. Условия применимости алгоритма (2) и правила выбора содержатся в следующей теореме [30, 31].

Теорема 1.* Пусть существуют в* € 2 и е* < е такие, что Qk(в*) < е* для всех к = 0,1, 2,... и при в € 2, Qk(в) > е выполнено для всех к = 0,1, 2,... какое-либо из неравенств:

(в* — в)ТУвQk(в) < е* — е, (а)

(3)

(в* — в)1 У в Qk(в) < Qk(в*) — Qk(в)• (Ъ)

* Нумерация приведенных ниже теорем, естественно, не учитывает теорему 1 из статьи В. А. Якубовича [7] на рис. 4.

Пусть для любого р > 0 и любых к = 0,1, 2,... при У 9 — 9* У ^ р и Qk(9) > е выполнено неравенство У У eQk(9) У2 ^ к(р). Пусть в алгоритме (2)

7k =7Mfc|| VeQfc(0fc)|r2, 0 <7 <2(l-^), (4)

где /лк = е при выполнении (3) (a) и /лк = Qk(9k) при выполнении (3) (b).

Тогда для любого 90 G S существует к* > 0 такое, что при к > к* неравенства (1) выполняются и 9k = const, т. е. алгоритм (2) является конечно-сходящимся. Число исправлений (нарушений целевого неравенства) не превосходит величины

||0о-М2-«(||0о-М)

7(2е - 2бФ - б7)

Геометрический смысл алгоритма (2) прост: при нарушении текущего целевого неравенства (1) вектор настраиваемых параметров смещается по направлению нормали ко множеству {9 : Qk(9) < Qk(9k)}■ Это ведет к уменьшению расстояния до 9* на положительную, отделенную от нуля величину, т. е. функция V(9) = У9 — 9*У2 может быть взята в качестве функции Ляпунова для алгоритма (2). Для выпуклых функций Qk(9) выполняется любое из неравенств (3). Заметим также, что число исправлений алгоритма не совпадает со временем адаптации к* (временем окончательного достижения целевых условий) и не дает оценку скорости сходимости алгоритма.

На практике обычно стараются построить математическую модель, линейную по параметрам, а целевую функцию выбрать квадратичной. Если это удается, то целевые неравенства (1) принимают вид

\\FT9 — ykУ2 < е2, (5)

где N х /-матрицы Fk и /-векторы yk доступны измерению. При этом алгоритм (2) конкретизируется следующим образом:

[9k при У 6к У < е,

где 5k = FT9k — yk — невязка. В частности, при / = 1, когда неравенство (5) задает «полосу» в пространстве {9}, алгоритм (2) выглядит еще проще:

а /Ргн {9н — У Fk У-2} при I Sk I > е,

9k+1 = 1а г | . (7)

{9k при | дk I < е.

Алгоритм (7) получил известность под названием «полоска» [10, 38].

Из теоремы 1 следует, что (6) — конечно-сходящийся алгоритм решения неравенств (5), если существуют 9* € 2, е* < е такие, что У F'T9* — yk У < е*, и, кроме того, У Fk У ^ к, 0 < ^ < 2(1 — е*/е). При этом число исправлений алгоритма не превосходит величины

II 90 - 9* II • к

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

е1 [2(1 — е*1е) — y]

672 Вестник СПбГУ. Математика. Механика. Астрономия. 2023. Т. 10(68). Вып. 4

Если выполняется условие 2е* < е, то в (6), (7) можно брать 7 =1; тогда алгоритм

(7) состоит в проектировании 9k на середину полосы, определяемой (5), что при е = 0 совпадает с известным алгоритмом Качмажа для решения систем линейных уравнений.

Исходная задача может содержать ограничения, которые порождают дополнительные неравенства относительно 9:

РМ < 0, (8)

выделяющие множества Щ С . Неравенства (8), называемые безусловными, отличаются тем, что они обязаны выполняться при любых к = 0,1, 2,.... Для учета

(8) в алгоритме (2) проектирование на множество 2 заменяется проектированием на множество Щ П 2, а в условия теоремы 1 вводится дополнительное требование: 9* € Щ для всех к. Можно также рассматривать (8) как целевые дополнительные неравенства с использованием для их решения того же самого алгоритма (2). При этом, однако, нужно выбирать величину шага 7 так, чтобы при 9 = 9k выполнялось (8). Известны различные способы ускорения сходимости алгоритма (2). Например, при решении РЦН (5) целесообразно чередовать неравенство (5) с «разностным» неравенством

У ^ — Fk-l)т9 — Уk + у—У < 2е,

что повышает «разнообразие» векторов градиентов текущих целевых функций [32]. Еще более эффективен переход к многошаговым алгоритмам.

Опишем еще один класс алгоритмов решения целевых неравенств, в основе которого лежат идеи неявных вычислительных процедур [33]. Как известно, неявные численные методы (например, методы численного решения дифференциальных уравнений) обладают расширенной областью устойчивости; многие неявные методы устойчивы при произвольной длине шага, что обусловливает их применимость для решения систем с большим разбросом постоянных времени (жестких, плохо обусловленных задач). По аналогии с неявными численными методами введем неявные алгоритмы адаптации [33]. Неявный аналог градиентного алгоритма (2) имеет вид

9^ = |РгН {вы} при Ы^О >е, (9)

19 при Pk(вk+í) < е,

где

Ы9)= Qk (9)+0.5YkУVQk(9)У2,

9— решение уравнения

вk+l = 9k — JkVQk(вk+l). (10)

Для применения алгоритма (9) необходимо на каждом шаге решать систему, вообще говоря, нелинейных уравнений (10), что приводит к большему, чем для явных методов, объему вычислений. В общем случае для решения системы (10) можно воспользоваться, например, методом Ньютона, быструю сходимость которого обеспечивает хорошее начальное приближение (9k или результат применения явной формулы (2)). В частных случаях объем вычислений удается сократить за счет преобразования формулы (10) к явному виду. Например, для линейной по параметрам

модели объекта управления и целевых неравенств (5) имеем AQk (9k) = 2Fk5k (где 5k = FkT — yk) и уравнение (10) оказывается линейным относительно 9k+i:

[.In + 2Yk Fk FT] 9k+i = 9k — 2lkFkYk.

Пользуясь формулой обращения матриц,

[IN + abT] -1 = It — a [Il + bTa]-1 bT, a,b G RN xl, (11)

для нахождения 9k+i получаем соотношение

9k+i = 9k — Fk [Ii(2jk)-1 + FTFk]-1 5k. (12)

Применение алгоритма (9), (12) требует обращения на каждом шаге l х l-матрицы, где l — число выходов объекта управления. Для объекта со скалярным выходом (l = 1), когда Pk — столбец, процедура обращения матрицы исключается и (12) принимает вид

~вк+1 = вк~ (2lk)-"l\\FkrFk- (13)

Явный вид решения уравнения (10) можно выписать и для квадратичной целевой функции Qk(9) = 0.5(9 — 90k)THk(9 — 90к), где

Hk = HT > 0, к = 0,1, 2,....

Тогда

9k+i = [IN + YkHk]-1 (9k + Yk Hk 9k).

Следующее общее утверждение дает условия применимости алгоритма (9).

Теорема 2 [33]. Пусть Qk(9) — выпуклые, неотрицательные, дважды непрерывно дифференцируемые функции, причем

\\y2Qk(9) У < q при 9 G Б. (14)

Пусть существуют числа y > 0, е* < е и вектор 9* G б такие, что

Qk(9*) < е*, Yk > Y, к = 0,1, 2,.... (15)

Тогда существует к* > 0 такое, что 9k = const при всех к > к* и выполнены неравенства

Pk(9k+i) < е, Qk(9k\ < 2е + qYk. (16)

Если выполнены условия теоремы 1 и условие (14), то алгоритм (9) при Yk ^ Y > 0 обеспечивает достижение целей (16).

Теорема 2 показывает, что для неявных алгоритмов отсутствует ограничение сверху на длину шага, что может быть использовано для ускорения сходимости на начальных этапах работы алгоритма. Иногда полезны комбинированные явно-неявные схемы, например с заменой (10) уравнением

вk+l = 9k — Yk УQk(9k) — Y'¿VQk(0k+l )■ (17)

Один из эффективных способов улучшать качество процесса обучения — расширение памяти алгоритмов, т. е. переход к многошаговым конечно-сходящимся алгоритмам, имеющим дело с минимизацией целевых функций

= м ^ \\г?е-т\\2-

(18)

i=k-N +1

С. В. Гусев в работе [34] предложил следующий алгоритм, градиентный по отношению к функции (18), соответствующей классическому методу наименьших квадратов, но обладающий зоной нечувствительности:

1 = ок+ ^ ^ (Рк+1Рк+1 - ск),

9к+1 — 9к +

1

(Fk+lyk+l — gk):

к + 1

Рк+1 = Рк + ^-ру (|| Ук+1 II2 - Рк) ,

|k+l = 9к:Gk+l 9k — 2gJ+19k + Pk+l, zk+l = Gk+l 9k — gk+l,

(19)

9

k+l

г> ) о Ylk+l Ргк < ек - 71-—*к+1

zk+1

вk

при |Лk+l > е2, при |lk+l < е2,

где Gk — N х Ж-матрица; gk,zk — Ж-векторы; рk,|k — скаляры. Начальные условия Со, до, ро, 9о можно брать, например, нулевыми. Смысл формул (19) становится ясным, если заметить, что «усредненная» целевая функция (18) квадратична по 9 и может быть представлена в виде

Ь(9) = 9TGk9 + 2gT9 + рk,

где Gk,gk,Pk подчиняются рекуррентным уравнениям (19). При этом

|k = Ь(9k), zk = ЧЬ(9k).

Таким образом, (19) представляет собой градиентный алгоритм типа полоска с зоной нечувствительности по целевой функции (18). В отличие от обычной полоски алгоритм (19) решает вместо исходных неравенств (5) «аккумулирующие» неравенства Д (9) < е2, накапливающие информацию о прошлом.

Аккумулирующие неравенства задают систему эллипсоидов в пространстве настраиваемых параметров. Обычный метод наименьших квадратов, соответствующий движению в центры эллипсоидов, в данном случае может быть неприменим (рис.7).

Важно, что для конечной сходимости алгоритма (19) не требуется равномерной ограниченности возмущений фk = — yk в левой части неравенства (5). Оказывается, для этого достаточно, чтобы возмущения были ограничены в средне-квадратическом, т. е. чтобы были выполнены неравенства

Рис. 7. Сравнение метода наименьших квадратов и алгоритма (19): в'к+ 1,в'к+2 — оценки по алгоритму (19); &к+1>&к+2 — оценки по методу наименьших квадратов.

1 к

^Ен^-^н2^ (2°)

¿=1

при достаточно больших к. Именно справедлива следующая теорема [34].

1 Л

Теорема 3. Если — ^ II ^ ||~ ^ к и выполнены условия (20) при некотором к ¿=1

2

N ± ъ N

¿=1

в* € Я'М и при е* < е, то формулы (19) при 0 < ^ < 2(1 — е*/е) определяют конечно-сходящийся алгоритм решения неравенств 1к(в) < е2 для целевых функций 1к(в) вида (18).

Отметим, что (20) может быть выполнено и в стохастическом случае, например, если фк независимы и М|| фк ||2 ^ Дф ^ е*. Таким образом, теорема 3 показывает, что при переходе к многошаговым алгоритмам возможен компромисс между детерминистским и стохастическим подходами.

В заключение раздела упомянем конечно-сходящиеся алгоритмы с растущим числом настраиваемых параметров, предложенные В. А. Бондарко [35]. Они позволяют решать некоторые задачи адаптивного управления для бесконечномерных систем.

4. Работы группы В.А.Якубовича в области теории адаптивных систем и робототехники. Группа В.А.Якубовича занималась и другими задачами, связанными с машинным обучением и искусственным интеллектом: задачами адаптивного управления, синтеза адаптивных роботов и др. В. А. Якубович обладал приоритетом в разработке математических теорий подобных систем. Именно он впервые дал в 1968 г. строгое математическое определение адаптивной системы [11, 12]. Приводим это определение и основанную на нем теорему, следуя тексту [11].

В соответствии с принятой терминологией будем называть адаптивной систему, закон функционирования которой меняется в зависимости от приобретаемого опыта. Системе сообщается в каком-либо виде информация о «неудачности» или «успешности» ее поведения по отношению к некоторому целевому условию. Определенные характеристики среды и системы, а также, возможно, целевого условия неизвестны конструктору — они могут быть любыми из некоторого класса М . Будем называть

систему разумной в классе M, если для любого целевого условия и любых характеристик этого класса наступает момент, после которого целевое условие постоянно выполняется. Ниже приводится точная, формализованная постановка простейшего варианта задачи построения по заданному классу M системы, разумной в этом классе («простейший робот»), а также, при ряде предположений, — решение этой точно поставленной задачи.

Будем считать, что время t принимает значения t = 0,1, 2,.... Величины, меняющиеся (вообще говоря) во времени, назовем переменными, а величины, значения которых фиксированы для данной системы (и, следовательно, не меняются во времени), — параметрами. Заданное множество некоторых элементов z будем обозначать через {z}. Значение переменной z в момент t будем обозначать zt. Будем считать заданными множества {x}, {s}, {ст}, {и} и подлежащим определению (в соответствии с условиями, сформулированными ниже) множество {т}. Элементы перечисленных множеств называются так: x — внешние координаты робота, s — среда, а — сенсор, и — управление, т — тактика. Пусть задана функция ¡(x, s) со значением 0 или 1, называемая сигналом включения целевого условия, а также функция F(x, s)€ R. Целевым условием (ЦУ) будем называть условие: если ¡t = ¡(xt, Tt) = 1, то F(xt+i, st+i) > 0. Будем говорить, что ЦУ выполнено в момент t + 1, если ¡t = 1 и F(xt+i, st+i) > 0, или ¡t = 0.

Будем считать заданными: 1) уравнение сенсора at = a(xt, st) (определяющее то, что видит робот); 2) моторное уравнение xt+i = X(xt, ut) (определяющее движение робота); 3) уравнение изменения среды st+i = S(xt,st). Подлежат определению уравнения мозга робота: 4) ut = u(at,Tt) и 5) Tt+i = (at,at+i,Tt). При заданных xo,so,To уравнения 1)—5) позволяют последовательно найти значения всех указанных переменных во все моменты времени. При этом для каждого t = 1, 2,... ЦУ будет выполнено или нет. Будем считать, что so,xo, а также функции ¡, F, а, X, S (но не и и T) зависят, вообще говоря, от некоторых параметров £ = ||£t||, называемых варьируемыми параметрами, изменение которых в некоторых заданных пределах (£ € M) создает класс задач по выполнению ЦУ. Если определено все указанное выше, то будем говорить, что задан простейший робот. Простейший робот будем называть разумным в классе задач M, если для любых значений варьируемых параметров (£ € M) найдется момент to, такой, что для всех t ^ to выполнено ЦУ и Tt = const при t ^ to. Уравнения мозга должны быть выбраны так, чтобы робот стал разумным в классе задач M.

Будем считать выполненными следующие четыре условия:

I. Можно ввести новое управление v = Hvj||q=i, где {v} ограниченное подмножество некоторого конечномерного эвклидова пространства , так, что и = u(v) — однозначная функция, и так, что ЦУ в момент t + 1 заведомо выполнено, если выполнены k неравенства

\(cj ,vt) - \ <£j j = 1,...,k, (21)

где £j > 0 — параметры; ci,c2,...,cfc€ — линейно независимые известные векторы и = Vj(xt,xt+i, st, st+i,£) — некоторые функции указанных аргументов.

II. Существует функция v = Vid(а,£) (называемая идеальным управлением) такая, что для любых xt,st и £ € M при vt = Vid(&t,£) выполнено (1) с заменой £j на какие-либо £* < £j. При этом в (1) CTt,xt+i,st+i определяются согласно естественной цепочке соотношений at = a(xt, st, £), ut = u(vt), xt+i = X(xt, ut, £), st+i = S(xt, st,£).

III. Каково бы ни было управление vt, значение может быть выражено через

= Ф3(vt,°t+i), где Ф^ — некоторые функции.

IV. Для всех (£ G Ж), а G {сг} существует \Vid(a,£)\ < const> 11 < const-

Теорема 4 [11]. При выполнении условий I-IV могут быть построены уравнения мозга так, чтобы полученный простейший робот стал разумен в классе задач M.

На основе приведенного выше определения и метода рекуррентных целевых неравенств были построены математические модели адаптивных систем управления для задач управления неустойчивыми механическими и электромеханическими системами, технологическими процессами и другими техническими объектами. Теория адаптивных систем для подобных задач опубликована в многочисленных статьях, а также в монографиях В. А. Якубовича и его коллектива.

Содержащая теорему 4 статья В. А. Якубовича [11] примечательна еще и тем, что в ней термин «робот» был впервые введен в научную литературу (раньше он встречался только в научной фантастике). Теорема 4 стала первой теоремой математической робототехники: при соблюдении определенных условий построенный робот является разумным в данном классе задач. В доказательстве теоремы строится алгоритм управления роботом, обеспечивающий его разумность. Аналогичные теоремы получены для различных классов роботов, получивших названия «кузнечик», «ястреб», «глаз-рука», «робот-велосипедист». Математические модели расматриваемых роботов были довольно простыми, стилизованными. Но это были первые теоретические результаты в данной области, способные составить основу прикладных работ. Например, робот «ястреб» может представлять собой стилизованный объект, имитирующий полет какого-либо летательного аппарата. В 1972 г. полученные результаты были представлены В. А. Якубовичем на Всемирном конгрессе по автоматическому управлению в Париже [17] (тогда шутили, что Владимир Андреевич съездил в Париж на велосипеде).

В 1973 г. в лаборатории теоретической кибернетики была организована группа робототехники, которую возглавили ученики В. А. Якубовича: А. В. Тимофеев, а затем — С. В. Гусев. Коллективом была построена развитая математическая теория адаптивных систем и теория обучения машин (роботов) сложному целесообразному поведению [19-21]. В те же годы были рассмотрены общие задачи адаптивного управления робототехническими системами, описываемыми уравнениями Лагранжа 2-го рода [23-26]. Эти работы были пионерскими в области адаптивных роботов как в нашей стране, так и за рубежом. Эффективность развитой в коллективе теории была продемонстрирована экспериментами (одними из первых в стране) с реальными колесными роботами [36], начатыми в 1974 г.; в 1980 г. они были продолжены с использованием разработанного в лаборатории теоретической кибернетики более продвинутого экспериментального робота [37]. В 1980-х гг. группа робототехники лаборатории теоретической кибернетики принимала участие в разработке системы управления манипулятором в рамках проекта «Буран» — космического шаттла многоразового использовния.

В начале 70-х годов прошлого века в лаборатории теоретической кибернетики была создана группа бионики под руководством Р. М. Грановской. Ее задачей было изучение механизмов памяти живых существ, исследование феноменов восприятия и узнавания. Группой был проведен большой объем экспериментальных и теоретиче-

ских исследований. Полученные результаты широко внедрялись в заинтересованных организациях.

Результаты, полученные в области адаптивных и робототехнических систем в те годы, изложены в монографиях, опубликованных В.А. Якубовичем и его коллегами в СССР [30, 31, 33, 38-41].

Основное направление последующих работ в области управления роботами — автономная навигация мобильных роботов и управление их движением в априори неизвестных средах с препятствиями. Это направление с 2010-х гг. системно разрабатывает группа мобильной роботики кафедры теоретической кибернетики под руководством А. С. Матвеева при участии выпускников кафедры А. А. Семаковой, П. А. Коновалова и др., в том числе до 2017 г. — А. В. Савкина (университет Нового Южного Уэльса, Австралия). В группе был получен целый ряд фундаментальных результатов по алгоритмам навигации роботов, в том числе распределенному управлению их многоагентными ансамблями, в сложных, в том числе подвижных и непредсказуемых средах. Частично они систематизированы в двух монографиях [42, 43], выпущенных в 2015 и 2016 гг. ведущими мировыми издателями научной литературы. Основная специализация группы — экономные, с точки зрения используемых (вычислительных, энергетических и др.) ресурсов и сенсорных данных о среде, алгоритмы, рефлексоподобным образом конвертирующие текущее наблюдение в текущее управление (как следствие, с минималистскими требованиями к бортовым процессорам) и тем не менее снабженные математически строгими гарантиями достижения результата. По данным WoS за 2022 г., из пяти наиболее цитируемых публикаций по робототехнике, аффилиированных к РФ, четыре относятся к кафедре теоретической кибернетики, в том числе наиболее цитируемая статья [44] (337 цитирований в Scopus на 07.05.2023).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Адаптивное субоптимальное управление. Укажем первые две статьи на эту тему [45, 46]. Впрочем еще до появления этих статей адаптивное оптимальное управление изучалось в разных коллективах в СССР и за рубежом. Но если говорить о математических достижениях, то, пожалуй, эти две статьи В. А. Якубовича следует считать фундаментальными.

Их следует выделить, потому что они предвосхитили важную современную область — обучение с подкреплением, — которая очень активна и популярна в последние десятилетия. Объясним это более подробно. Сейчас в области машинного обучения важным направлением является обучение с подкреплением, развиваемые здесь методы также используются теми, кто занимается искусственным интеллектом. Количество работ, в которых используются методы «обучения с подкреплением», превышает тысячу. Имеется целый ряд фундаментальных исследований на пересечении теории управления и теории обучающихся систем. Они были опубликованы в авторитетных международных изданиях и имеют несколько сотен цитирований за последние десять лет [47-51]. В этих исследованиях была, в частности, установлена тесная связь области «обучения с подкреплением» с задачами адаптивного оптимального управления. Показано, что такие задачи могут быть решены с использованием методов обучения с подкреплением. Адаптивное оптимальное управление возникает, когда требуется достичь оптимальности с неизвестными параметрами модели объекта управления и окружающей среды, а возможно, и системы управления. Важно, что здесь могут быть применены методы, разработанные В. А. Якубовичем еще в 1970-х гг. Интересно, что строгое доказательство сходимости процесса обу-

чения с подкреплением на основе адаптивного динамического программирования даже в линейном случае было получено совсем недавно [52].

6. Заключение. В заключение несколько слов о значимости работ, которые были кратко охарактеризованы в этом тексте. Они составляют лишь малую толику работ школы В. А. Якубовича в затронутых обзором тематических областях, и говорить о этих работах можно долго. Но с точки зрения истории важно, какую роль они играют в сегодняшнем развитии кибернетики и искусственного интеллекта. По мнению авторов, есть три основных достижения научной школы В. А. Якубовича, которые влияют на текущее состояние этих областей. Прежде всего, это математические постановки задач в теории обучающихся и адаптивных систем. Они уже настолько прижились в научной литературе, что авторы часто считают излишними ссылки на работы В. А. Якубовича, в которых эти постановки появились впервые. Второе достижение — это метод рекуррентных целевых неравенств (РЦН), основанный на сведении исходной задачи к решению РЦН. Этот метод пока не может претендовать на широкую известность, но у него огромный потенциал применения и развития, поскольку стало ясно, что обучающиеся и адаптивные системы относятся к очень близким и взаимопроникающим областями в бурно развивающейся империи искусственного интеллекта. Третье научное направление (где вклад работ школы еще предстоит оценить по достоинству) — это адаптивное субоптимальное управление. Здесь работы В.А.Якубовича предвосхитили появление методов обучения с подкреплением.

Перечисленные и другие работы принесли В. А. Якубовичу и его научной школе мировую известность. В 1996 г. В.А.Якубович был награжден премией IEEE Control Systems Award — главной ежегодной премией в области систем управления IEEE (Института инженеров электротехники и электроники) и медалью «За новаторские и фундаментальные достижения в теории устойчивости и оптимального управления». В Японии была очень большая конференция (CDC 96), где была вручена награда и Владимир Андреевич Якубович выступил с речью. В тексте представления к награде ничего не было сказано о кибернетике, адаптивных системах, искусственном интеллекте — выдающихся достижений В. А. Якубовича в области теории устойчивости и оптимального управления оказалось вполне достаточно. Но влияние его работ по кибернетике на сегодняшнее бурное развитие машинного обучения и искусственного интеллекта еще предстоит осознать и оценить в полном объеме. Публикации, посвященные решению этой задачи, уже появляются [5, 53].

Литература

1. Фрадков А. Л. Научная школа по теоретической кибернетике В.А.Якубовича в Санкт-Петербургском (Ленинградском) университете. В: История информатики и кибернетики в Санкт-Петербурге (Ленинграде). Юсупов Р. М. (ред.), 79—83 (2008).

2. Fradkov A. L., Shepeljavyi A.I. The History Story of Cybernetics and Artificial Intelligence. A View From Saint Petersburg. Cybernetics and Physics 11 (4), 253—263 (2022).

3. Gusev S.V., Bondarko V. A. Notes on Yakubovich's method of recursive objective inequalities and its application in adaptive control and robotics. IFAC Congress on Automatic Control. Berlin, July, 12-17 (2020).

4. Fradkov A. L. Early History of Machine Learning. IFAC Congress on Automatic Control. Berlin, July,12-17 (2020).

5. Annaswamy A. M., Fradkov A. L. A Historical Perspective of Adaptive Control and Learning. Annual Reviews in Control 52, 18-41 (2021). https://doi.org/10.48550/arXiv.2108.11336

6. Fradkov A. L., Polyak B.T. Adaptive and Robust Control in the USSR. IFAC-PapersOnLine 53 (2), 1373-1378 (2020). https://doi.org/10.1016/j.ifacol.2020.12.1882

7. Якубович В. А. Машины, обучающиеся распознаванию образов. В: Методы вычислений. Ленинград, Изд-во ЛГУ. Вып. 2, 95-131 (1963).

8. Якубович В. А. Машины, обучающиеся распознаванию образов. Ч. I, II. Вестник Санкт-Петербургского университета.. Математика. Механика. Астрономия I, 8 (66), вып. 4, 625-638 (2021). https://doi.org/10.21638/spbu01.2021.408; II, 9 (67), вып. 1, 94-112 (2022). https://doi.org/10.21638/spbu01.2022.110

9. Якубович В. А. Некоторые общие теоретические принципы построения обучаемых опознающих систем. I. Вычислительная техника и вопросы программирования. Ленинград, Изд-во ЛГУ, (1965). 3-71.

10. Якубович В. А. Рекуррентные конечно-сходящиеся алгорифмы решения систем неравенств. Доклады академии наук 166 (6), 1308-1312 (1966).

11. Якубович В. А. К теории адаптивных систем. ДАН СССР 182 (3), 518-522 (1968)

12. Якубович В. А. Адаптивные системы с многошаговыми целевыми условиями. ДАН СССР 183 (2), 303-306 (1968).

13. Гелиг А.Х., Якубович В. А. Применение обучаемой опознающей системы для выделения сигнала из шума. Вычислительная техника и вопросы кибернетики 5, 95-100 (1968).

14. Якубович В. А. Об одной задаче самообучения целесообразному поведению. Автоматика и телемеханика 8, 119-139 (1969).

15. Якубович В. А. Об организации «мозга» одного класса систем, вырабатывающих целесообразное поведение (решенные и нерешенные задачи). 4-я Всесоюзная конференция по нейроки-бернетике: рефераты докладов 152, Ростов, Изд-во Ростовского университета (1970).

16. Пенев Г. Д., Якубович В. А. О некоторых задачах адаптивного управления. ДАН СССР 198 (4), 787-790 (1971).

17. Якубович В. А., Тимофеев А. В. Об одном классе самообучающихся систем, обладающих целесообразным поведением. В: Управление и информационный процесс в живой природе 111-113. Москва, Наука (1971).

18. Тимофеев А. В., Харичев В. В., Шмидт А. А., Якубович В. А. Одна задача распознавания и описания изображений. Биологическая, медицинская кибернетическа и бионика. Киев: Изд-во Научного совета по кибернетике и Института кибернетики (1971).

19. Гусев С. В., Тимофеев А. В., Якубович В. А. Адаптация в робототехнических системах с искусственным интеллектом. VII Всесоюзное совещание по проблемам управления: тезисы докладов. Минск, 279-282 (1977).

20. Вапник В. Н. Машины, обучающиеся распознаванию образов. В: Алгоритмы обучения ра,спозна,ва,нию образов. Москва, Советское радио 5-24 (1973).

21. Козинец Б.Н., Ланцман Р. М., Якубович В. А. Криминалистическая экспертиза близких почерков при помощи электронно-вычислительных машин. ДАН СССР 167, 1008-1011 (1966).

22. Козинец Б. Н. Об одном алгорифме обучения линейного персептрона. Вычислительная техника и вопросы программирования 3, 80-83 (1964).

23. Митчелл Б. Ф., Демьянов В. Ф., Малоземов В. Н. Нахождение ближайшей к началу координат точки многогранника. Вестник Ленинградского университета. Сер. 1 19, 38-45 (1971)

24. Mitchel B.F., Dem'yanov V. V., Malozemov V.N. Finding the point of a polyhedron closest to the origin. SIAM J. Control 12 (1), 19-26 (1974).

25. Малоземов В. Н. МДМ-методу — 40 лет. Вестник Сыктывкарского ун-та 15, 51-62 (2012).

26. Вапник В. Н., Червоненкис А. Я. Об одном классе перцептронов. Автоматика и телемеханика 25 (1), 112-120 (1964).

27. Якубович В. А. Конечно-сходящиеся алгорифмы решения счетных систем неравенств и их применение в задачах синтеза адаптивных систем. ДАН СССР 169 (3), 495-498 (1969).

28. Фомин В. Н. Стохастические аналоги конечно-сходящихся алгоритмов обучения опознающих систем. Вычислительная техника и вопросы программирования 6, 68-87 (1971).

29. Фрадков А. Л. Некоторые конечно-сходящиеся алгоритмы решения бесконечных систем неравенств и их применение в теории адаптивных систем. Вестник Ленинградского университета. Сер. 1 19, 70-75 (1972).

30. Фомин В. Н. Математическая теория обучаемых опознающих систем. Ленинград, Изд-во ЛГУ (1976).

31. Деревицкий Д. П., Фрадков А. Л. Прикладная теория дискретных адаптивных систем управления. Москва, Наука (1981).

32. Bondarko V. A., Yakubovich V. A. The Method of Recursive aim Inequalities in Adaptive Control Theory. Int. J. Adaptive Control and Signal Proc. 6, 141-160 (1992).

33. Фрадков А. Л. Адаптивное управление сложными системами. Москва, Наука (1990).

34. Гусев С. В. Конечно-сходящийся алгоритм восстановления функции регрессии и его применение в задачах адаптивного управления. Автоматика и телемеханика 3, 79—85 (1989).

35. Бондарко В. А. Адаптивные субоптимальные системы с переменной размерностью вектора подстраиваемых параметров. Автоматика и телемеханика 11, 38—59 (2006).

36. Гусев С. В., Тимофеев А. В., Якубович В. А. Об одной иерархической системе управления интегральным роботом. Труды VI объединенной конференции по искусственному интеллекту 76— 85. Москва, Институт проблем управления (1975).

37. Григорьев Г. Г., Гусев С. В., Нестеров В. В., Якубович В. А. Адаптивное управление мобильным роботом-манипулятором. Всесоюзная научно-техническая конференция «Адаптивные роботы-82»: тезисы докладов 89—91 (1982).

38. Тимофеев А. В. Роботы и искусственный интеллект. Москва, Наука (1978).

39. Фомин В. Н., Фрадков А. Л., Якубович В. А. Адаптивное управление динамическими объектами. Москва, Наука (1981).

40. Гелиг А. Х. Динамика импульсных систем и нейронных сетей. Ленинград, Изд-во ЛГУ (1982).

41. Грановская Р. М., Березная И. Я. Интуиция и искусственным интеллект. Ленинград, Изд-во ЛГУ (1991).

42. Savkin A. V., Cheng T.M., Xi Z., Javed F., Matveev A.S., Hguyen H. Decentralized Coverage Control Problems for Mobile Robotic Sensor and Actuator Networks. IEEE Press and John Wiley and Sons, New Yor, Hoboken (2015).

43. Matveev A.S., Savkin A.V., Hoy M.C., Wang C. Safe Robot Navigation among Moving and Steady Obstacles. Elsevier and Butterworth Heinemann. Oxford (2016).

44. Hoy M., Matveev A. S., Savkin A. V. Algorithms for collision-free navigation of mobile robots in complex cluttered environments: A surve Robotica 33 (3), 463—497 (2015).

45. Якубович В. А. Адаптивное субоптимальное управление линейным динамическим объектом при наличии запаздывания в управлении. Кибернетика 1, 26—43 (1976).

46. Бондарко В. А., Якубович В. А. Синтез субоптимальной адаптивной системы с эталонной моделью для управления дискретным линейным динамическим объектом. В сб.: Адаптация и обучение в системах управления и принятия решений 10—27, Новосибирск, Наука (1982).

47. Lewis F., Vrabie D. Reinforcement learning and adaptive dynamic programming for feedback control. IEEE Circ. Syst. Magazine 9 (3), 32-50 (2009).

48. Lewis F., Vrabie D., Vamvoudakis K. G. Reinforcement Learning and Feedback Control: Using Natural Decision Methods to Design Optimal Adaptive Controllers. IEEE Circ. Syst. Magazine 32 (6), 30 (2012).

49. Sutton R. S., Barto A.G., Williams R.J. Reinforcement learning is direct adaptive optimal control. IEEE Control Systems Magazine 12 (2), 19-22 (1992).

50. Yang X., Liu D., Wang D. Reinforcement learning for adaptive optimal control of unknown continuous-time nonlinear systems with input constraints. International Journal of Control 87 (3), 553566 (2014).

51. Recht B. A Tour of Reinforcement Learning: The View from Continuous Control. Annu. Rev. Control Robot. Auton. Syst. 2, 253-279 (2019).

52. Bian B. T., Jiang Z.-P. Value iteration, adaptive dynamic programming, and optimal control of nonlinear systems. IEEE 55th Conf. on Decision and Control. IEEE Trans. Neur. Net and Learning Systems (2021).

53. Lipkovich M. Yakubovich's method of recursive objective inequalities in machine learning. IFAC-PapersOnLine 55 (12), 138-143 (2022).

Статья поступила в редакцию 14 февраля 2023 г.;

доработана 11 мая 2023 г.; рекомендована к печати 18 мая 2023 г.

Контактная информация:

Матвеев Алексей Серафимович — д-р физ.-мат. наук, проф.; almat1712@yahoo.com Фрадков Александр Львович — д-р техн. наук, проф.; Alexander.Fradkov@gmail.com Шепелявый Александр Иванович — канд. физ.-мат. наук, доц.; a.shepelyavy@spbu.ru

An overview of works of the scientific school created

by V. A. Yakubovich on the issues of artificial intelligence and robotics

A.S.Matveev, A. L. Fradkov, A. I. Shepeljavyi

St. Petersburg State University, 7—9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation

For citation: Matveev A. S., Fradkov A. L., Shepeljavyi A. I. An overview of works of the scientific school created by V. A. Yakubovich on the issues of artificial intelligence and robotics. Vestnik of Saint Petersburg University. Mathematics. Mechanics. Astronomy, 2023, vol. 10(68), issue 4, pp. 665-685. https://doi.org/10.21638/spbu01.2023.406 (In Russian)

The article presents an overview of the works of the scientific school of V. A. Yakubovich in the field of artificial intelligence, machine learning, adaptive systems and robotics. The method of recurrent objective inequalities is considered in detail. The significance of the presented results for the further development of cybernetics and artificial intelligence is discussed. Special attention is given to seminal works of V. A. Yakubovich on machine learning and to the development of the concept of finitely converging algorithms for solving recurrent objective inequalities; some typical results on their convergence are discussed in detail for the sake of illustration. The paper distinctly highlights the contribution of the school to the formation and development of the modern theories of adaptive control and mathematical robotics, particularly, the theory of adaptive robots. A special section is concerned with adaptive sub-optimal control.

Keywords: artificial intelligence, machine learning, adaptive systems, robotics, Department of Theoretical Cybernetics, St. Petersburg State University, history of science.

References

1. Fradkov A. L. Scientific School of Theoretical Cybernetics at St. Petersburg (Leningrad) University. In: The History of Computer Science and Cybernetics in St. Petersburg (Leningrad). Yusupov R. M. (ed.), 79-83 (2008). (In Russian)

2. Fradkov A. L., Shepeljavyi A.I. The History Story of Cybernetics and Artificial Intelligence. A View From Saint Petersburg. Cybernetics and Physics 11 (4), 253-263 (2022).

3. Gusev S.V., Bondarko V. A. Notes on Yakubovich's method of recursive objective inequalities and its application in adaptive control and robotics. IFAC Congress on Automatic Control. Berlin, July, 12-17 (2020).

4. Fradkov A. L. Early History of Machine Learning. IFAC Congress on Automatic Control. Berlin, July,12-17 (2020).

5. Annaswamy A. M., Fradkov A. L. A Historical Perspective of Adaptive Control and Learning. Annual Reviews in Control 52, 18-41 (2021). https://doi.org/10.48550/arXiv.2108.11336

6. Fradkov A. L., Polyak B.T. Adaptive and Robust Control in the USSR. IFAC-PapersOnLine 53 (2), 1373-1378 (2020). https://doi.org/10.1016Zj.ifacol.2020.12.1882

7.Yakubovich V.A. Machines learning pattern recognition. In: Metody vychislenii 2, 95-131, Leningrad, University Press (1963). (In Russian)

8. Yakubovich V. A. Machines learning pattern recognition. P. I, II Vestnik of Saint Petersburg University. Mathematics. Mechanics. Astronomy I, 8 (66) iss. 4, 625-638 (2021) https://doi.org/10.21638/spbu01.2021.408; II, 9 (67) iss 1, 94-112 (2022). https://doi.org/10.21638 /spbu01.2022.110 (In Russian) [Engl. trans.: Yakubovich V.A. Vestnik St. Petersburg University, Mathematics P. I, 54 iss.4, 384-394 (2021); https://doi.org/10.1134/S1063454122010150; II, 55, iss. 1, 326-336 (2022) https://doi.org/10.1134/S1063454120030048].

9. Yakubovich V. A. Some general theoretical principles of the construction of trainable identification systems. I. Vychislitel'naia tekhnika i voprosy programmirovaniia 3-71. Leningrad, Leningrad University Press (1965). (In Russian)

10. Yakubovich V. A. Recurrent finitely convergent algorithms for solving systems of inequalities. Doklady Akademii nauk SSSR 166 (6), 1308-1312 (1966). (In Russian)

11. Yakubovich V.A. Theory of adaptive systems. Soviet Physics Doklady 182 (3), 518-522 (1968) (In Russian) [Engl. trans.: Soviet Physics Doklady 13 (9), 852-856 (1968)].

12. Yakubovic V.A. Adaptive systems with multistep goal conditions. Doklady Akademii nauk SSSR 183 (2), 303-306 (1968). (In Russian)

13. Gelig A. Kh., Yakubovich V. A. Application of a trainable recognition system to isolate a signal from noise. Vychislitel'naia tekhnika i voprosy kibernetiki 95-100, Leningrad, Leningrad University Press, (1968). (In Russian)

14. Yakubovich V. A. About one task of self-learning appropriate behavior. Avtomatika i tele-mekhanika 8, 119-139 (1969). (In Russian)

15. Yakubovich V. A. About the organization of "brain" of one class of systems that develop appropriate behavior (solved and unsolved problems). 4th All-Union Conference on Neurocybernetics: Abstracts of reports, Rostov University Publ. (1970). (In Russian)

16. Penev G. D., Yakubovich V.A. About some tasks of adaptive behavior. Doklady Akademii nauk SSSR 198 (4), 787-790 (1971). (In Russian)

17. Yakubovich V. A., Timofeev A. V. Upravlenie I informatsyonnyi protses v schyvoi prirode Doklady Akademii nauk SSSR 111-113. Moscow, Nauka Publ. (1971). (In Russian)

18. Timofeev A.V., Kharichev V. V., Shmidt A. A., Yakubovich V.A. One task of image recognition and description. Biological, medical cybernetics and bionics. Kyiv, Nauchnyi sovet po kibernetike i Institut po kibernetike Publ., 1971. (In Russian)

19. Gusev C. V., Timofeev A.V., Yakubovich V.A. Adaptation in robotic systems with artificial intelligence. VII All-Union Meeting on Control Problems. Abstracts of reports 279-282, Minsk, (1977). (In Russian)

20. Vapnik V. N. Machines learnnig pattern recognition. In: Pattern Recognition Learning Algorithms 5-24. Moscow, Sovetskoe Radio Publ. (1973). (In Russian)

21. Kozinets B.N., Lantsman R. M., Yakubovich V.A. Forensic examination of close handwriting using electronic computers. Doklady Akademii nauk SSSR 167, 1008-1011 (1966). (In Russian)

22. Kozinets B. N. About a linear perceptron learning algorithm. Vychislitel'naia tekhnika i voprosy programmirovaniia 3, 8-83 (1964). (In Russian).

23. Mitchel B. F., Dem'yanov V. V., Malozemov V. N. Finding the point closest to the origin of the polyhedron. Vestnik Leningrad University, 19, 38-45 (1971). (In Russian)

24. Mitchel B. F., Dem'yanov V. V., Malozemov V. N. Finding the point of a polyhedron closest to the origin. SIAM J. Control 12 (1), 19-26 (1974).

25. Malozemov V.N. MDM method after 40 years. Vestnik Syktyvkarskogo instituta 15, 51-62 (2012). (In Russian)

26. Vapnik V. N., Chervonenkis A. Ya. About one class of perceptrons. Avtomatika i telemekhanika 25 (1), 112-120 (1964). (In Russian)

27. Yakubovich V. A. Finitely convergent algorithms for the solution of countable systems of inequalities and their applications in problems of the synthesis of adaptive systems. Doklady Akademii nauk SSSR 169 (3), 495-498 (1969). (In Russian) [Engl. trans.: Soviet Physics. Doklady 14 (11), 1051-1054 (1970)].

28. Fomin V. N. Stochastic analogs of finitely convergent learning algorithms for recognition systems. In: Vychislitel'naia tekhnika i voprosy programmirovaniia, 6 68-87. (1971). (In Russian)

29. Fradkov A. L. Some finitely converging solution algorithms for infinite systems of inequalities and their application in the theory of adaptive systems. Vestnik Leningrad University Mathematics 5, 378-385 (1978). (In Russian)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

30. Fomin V. N. Mathematical theory of trainable recognition systems. Leningrad, Leningrad University Press, (1976). (In Russian)

31. Derevitskij D.P., Fradkov A. L. Applied theory of discrete adaptive control systems. Moscow, Nauka Publ. (1981). (In Russian)

32. Bondarko V. A., Yakubovich V. A. The Method of Recursive aim Inequalities in Adaptive Control Theory. Int. J. Adaptive Control and Signal Proc. 6, 141-160 (1992).

33. Fradkov A. L. Adaptive control of complex systems. Moscow, Nauka Publ. (1990). (In Russian)

34. Gusev S. V. A finite convergent algorithm for restoring the regression function and its use in adaptive control problems. Avtomatika i telemekhanika 3, 79-85 (1989). (In Russian) [Engl. trans.: Autom. Remote Control 50 (3) 367-374 (1989)].

35. Bondarko V. A. Adaptive suboptimal systems with a variable dimension of the vector of adjustable parameters. Avtomatika i telemekhanika 11, 38-59 (2006). (In Russian) [Engl. trans.: Autom. Remote Control 67 (11) 1732-1751 (2006)].

36. Gusev S. V., Timofeev A. V., Yakubovich V. A. On a hierarchical system of integral robot control. In: Proc. of the 4th International Joint Conference on Artificial Intelligence 9, 53-61 (1975). Moscow, Institut Problem upravleniia Publ. (In Russian)

37. Grigor'ev G. G., Gusev S. V., Nesterov V. V., Yakubovich V. A. Mobile robot-manipulator adaptive control. In Proc. of the Soviet Conference "Adaptive Robots" 89-91. (1982). (In Russian)

38. Timofeev A. V. Robots and artificial intelligence. Moscow, Nauka Publ. (1978). (In Russian)

39. Fomin V. N., Fradkov A.L., Yakubovich V.A. Adaptive control of dynamic systems. Moscow, Nauka Publ. (1981). (In Russian)

40. Gelig A. Kh. Dynamics of impulse systems and neural networks. Leningrad, Leningrad University Press (1982). (In Russian)

41. Granovskaya R. M. Intuition and artificial intelligence. Leningrad, Leningrad University Press (1991). (In Russian)

42. Savkin A. V., Cheng T.M., Xi Z., Javed F., Matveev A.S., Hguyen H. Decentralized Coverage Control Problems for Mobile Robotic Sensor and Actuator Networks. IEEE Press and John Wiley and Sons, New York, Hoboken (2015).

43. Matveev A.S., Savkin A.V., Hoy M.C., Wang C. Safe Robot Navigation among Moving and Steady Obstacles. Elsevier and Butterworth Heinemann. Oxford (2016).

44. Hoy M., Matveev A. S., Savkin A. V. Algorithms for collision-free navigation of mobile robots in complex cluttered environments: A surve Robotica 33 (3), 463-497 (2015)

45. Yakubovich V. A. Adaptive suboptimal control of a linear dynamic object in the presence of a delay in control. Kibernetika 1, 26-41 (1976). (In Russian)

46. Bondarko V. A., Yakubovich V. A. Synthesis of a suboptimal adaptive system with a reference model for controlling a discrete linear dynamic object. In: Adaptation and training in control and decision-making systems 10-27. Novosibirsk, Nauka Publ. (1982). (In Russian)

47. Lewis F., Vrabie D. Reinforcement learning and adaptive dynamic programming for feedback control. IEEE Circ. Syst. Magazine 9 (3), 32-50 (2009).

48. Lewis F., Vrabie D., Vamvoudakis K. G. Reinforcement Learning and Feedback Control: Using Natural Decision Methods to Design Optimal Adaptive Controllers. IEEE Circ. Syst. Magazine 32 (6), 30 (2012).

49. Sutton R. S., Barto A. G., Williams R. J. Reinforcement learning is direct adaptive optimal control. IEEE Control Systems Magazine 12 (2), 9-22 (1992).

50. Yang X., Liu D., Wang D. Reinforcement learning for adaptive optimal control of unknown continuous-time nonlinear systems with input constraints. International Journal of Control 87 (3), 553566 (2014).

51. Recht B. A Tour of Reinforcement Learning: The View from Continuous Control. Annu. Rev. Control Robot. Auton. Syst. 2, 253-279 (2019).

52. Bian B. T., Jiang Z.-P. Value iteration, adaptive dynamic programming, and optimal control of nonlinear systems. IEEE 55th Conf. on Decision and Control. IEEE Trans. Neur. Net and Learning Systems (2021).

53. Lipkovich M. Yakubovich's method of recursive objective inequalities in machine learning. IFAC-PapersOnLine 55 (12), 138-143, 2022.

Received: February 14, 2023 Revised: May 11, 2023 Accepted: May 18, 2023

Authors' information:

Aleksei S. Matveev — almat1712@yahoo.com Alexander L. Fradkov — Alexander.Fradkov@gmail.com Alexander I. Shepeljavyi — a.shepelyavy@spbu.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.