Научная статья на тему 'Модели адаптации команд'

Модели адаптации команд Текст научной статьи по специальности «Математика»

CC BY
435
64
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМАНДА / СОВМЕСТНАЯ ДЕЯТЕЛЬНОСТЬ / АДАПТАЦИЯ / ПРИНЯТИЕ РЕШЕНИЙ В УСЛОВИЯХ НЕПОЛНОЙ ИНФОРМАЦИИ

Аннотация научной статьи по математике, автор научной работы — Новиков Д. А.

Рассмотрены модели адаптации команд процесса изменения действий, выбираемых членами команды, на основании текущей информации в изменяющихся внешних условиях.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модели адаптации команд»

МОДЕЛИ АДАПТАЦИИ КОМАНД

Новиков Д. А.

(Институт проблем управления им. В. А. Трапезникова РАН)

Рассмотрены модели адаптации команд - процесса изменения действий, выбираемых членами команды, на основании текущей информации в изменяющихся внешних условиях.

Ключевые слова: команда, совместная деятельность, адаптация, принятие решений в условиях неполной информации.

1. Введение

Формирование и функционирование команд в последнее время становится предметом многих исследований. Под командой понимается коллектив (объединение людей, осуществляющих совместную деятельность и обладающих общими интересами), способный достигать цели автономно и согласованно при минимальных управляющих воздействиях [7].

Одно из ключевых отличий команд от организаций заключается в том, что в первых, несмотря на присутствие лидера (как правило, неформального), отсутствует формальная иерархия. В организациях (а иерархия - непременный атрибут почти любой организации, кроме, наверное, сетевых организаций [6]) при изменении внешних условий или каких-либо других существенных параметров задача «перестройки» принципов и условий функционирования решается на более высоких уровнях иерархии, которые «транслируют» их «вниз». В настоящей работе рассматриваются модели самостоятельной адаптации команд к изменяющимся условиям.

Приведем определения основных понятий. Адаптация тесно связана с саморазвитием и самоорганизацией. Под саморазвитием понимается самодвижение, связанное с переходом на более высокую ступень организации [11, с. 590] (под самодвижением

- изменение объекта под влиянием внутренне присущих ему противоречий, факторов и условий). При этом внешние воздействия играют модифицирующую или опосредующую роль.

Более общим является понятие самоорганизации [11, с. 591]

- процесса, в ходе которого создается, воспроизводится или совершенствуется организация сложной системы (термин «самоорганизующаяся система» ввел У. Р. Эшби [16]).

Отметим, что явления самостоятельного выбора агентами выполняемых ими функций, объемов работ и т. д. (см. модели команд в [5, 7]) могут интерпретироваться как самоорганизация команды (в отличие, опять же, от процесса централизованной организации деятельности, осуществляемого в иерархических организационных системах управляющим органом).

Адаптация (от лат. adaptatio - приспособление) - приспособление к условиям существования и привыкание к ним; в социальных системах - вид взаимодействия со средой, в ходе которого согласовываются требования и ожидания его участников [11, с. 12]. В рамках моделей команд под адаптацией будем понимать процесс изменения действий (включая в общем случае функции и объемы работ), выбираемых членами команды, на основе текущей информации в изменяющихся условиях.

Можно выделить несколько вложенных уровней адаптации любой системы (см. рис. 1):

- изменение информированности о внешней среде;

- изменение поведения (действий, выбираемых на основе имеющейся информации);

- изменение параметров системы, позволяющее реализовывать более эффективное в изменившихся условиях поведение;

- целенаправленное изменение внешней среды (активная адаптация).

В настоящей работе анализируются первые два уровня адаптации команд, т. е. адаптация рассматривается как приспособление к условиям (в основном, внешним) существования и

привыкание к ним и, фактически, зависит от информации об этих условиях1, которой агенты обладают на момент принятия решений. Изменение параметров самой команды (см. третий уровень адаптации на рис. 1) может рассматриваться как обуче-ние2 [4].

4-ый уровень: целенаправленное изменение внешней среды

3-ий уровень: изменение параметров системы

2-ой уровень: изменение поведения

1-ый уровень: изменение информированности

Рис. 1. Уровни адаптации

Члены команды рациональны (их интересы описываются целевыми функциями, и рациональность поведения каждого

1 Конечно, в общем случае адаптация некоторой системы подразумевает не только изменение информированности и поведения (первые два уровня адаптации - см. выше), но и изменение параметров самой системы (третий уровень адаптации), например - типов агентов, как реакцию на изменяющиеся внешние условия. Кроме того, можно рассматривать и активную адаптацию, когда система целенаправленно влияет на внешнюю среду (четвертый уровень адаптации).

2 Обучение и адаптация тесно связаны. Но обучение может происходить и при постоянных внешних условиях, а адаптация имеет место только при наличии их изменений.

агента заключается в стремлении максимизировать свою целевую функцию), но в каждый момент времени принимают решения - выбрают свои действия - в условиях, в общем случае, неполной информированности. С течением времени они накапливают информацию о неопределенных параметрах. Возможны различные «стратегии» поведения агентов с точки зрения тех целей, которые они преследуют.

Первый вариант заключается в выборе в каждый момент времени таких действий, которые позволяли бы как можно быстрее получить максимум информации о неопределенных параметрах - идентифицировать их значения. Затем, когда этап идентификации закончен, агенты могли бы уже выбирать действия, максимизирующие их целевые функции. Такая «стратегия поведения» соответствует традициям теории идентификации [3, 14, 15].

Второй вариант заключается в выборе агентами в каждый момент времени действий, максимизирующих их выигрыши в текущем периоде, с «попутным» накоплением информации о состоянии природы. Именно эта «стратегия поведения» моделируется в настоящей работе.

И, наконец, третий - «синтетический» вариант заключается в выборе агентами таких траекторий (последовательности действий на заданный горизонт времени), которые максимизировали их накопленный (по времени) выигрыш с учетом эффектов идентификации. Соответствующие модели являются перспективным предметом будущих исследований.

2. Структура модели адаптации команды

В теории управления накоплен значительный опыт решения задач адаптивного управления «техническими» системами - см., например, классические монографии [10, 13], а также обзор в

[9]. Однако, опыт построения моделей адаптации социальноэкономических систем, и, в частности, команд, на настоящий момент более чем скромен (см. монографию [12], посвященную адаптивным механизмам управления активными системами).

Специфика команд заключается, в частности, в том, что каждый агент в качестве информации для корректировки своих представлений о неопределенном параметре может использовать не только результаты наблюдения за внешней средой, но и результаты наблюдения за действиями и результатами деятельности других агентов, пытаясь «объяснить», почему они выбрали именно эти действия. На рис. 2 представлена структура модели адаптации команды.

Рис. 2. Структура модели адаптации команды

Перейдем к описанию модели. «Условия существования» (см. определение адаптации выше) команды N = {1, 2, ..., п}, состоящей из п агентов, отразим в модели значением состояния природы в є О, описывающим все существенные характеристики внешней среды. Агент с номером і є N имеет интервальную1

1 Традиционно в теории управления при рассмотрении моделей адаптации большее внимание уделяется случаю вероятностной неопределенности относительно внешней среды. Использование развитого в этой области математического аппарата применительно к задачам

информацию со7(в) с О о состоянии природы, причем эта информация не противоречит истинному положению дел, то есть V в е О, V 7 е N в е С07(в).

Результат г = G(в, х) команды в целом зависит от вектора х = (Хь X2, ..., xn) е X’ = П действий всех членов команды,

iеN

где х7 е Х7, и в - состояния природы. Будем считать, что каждый агент наблюдает вектор действий всех агентов, общий результат и выигрыши всех агентов.

Предположим, что выигрыш каждого агента зависит от состояния природы в и результата г команды в целом: Л(г) = /7(в, G(x, в)), 7 е N, причем множество агентов N их действительнозначные целевые функции Щ-)} и допустимые множества {X}, а также множество О возможных значений состояний природы, функция G(•) и факт наблюдения как результата и выигрышей, так и всего вектора действий каждым членом команды являются среди них общим знанием1. Если агенты выбирают свои действия одновременно и независимо, то имеет место их игра.

Обозначим множество параметрических (параметром является значение состояния природы - см. связь между информированностью и действием на рис. 2) равновесий Нэша через

(1) Еы(в) = {{Х7}7 е N е X’ | V 7 е N V у7 е X

Л(в, 0(в, Х1, ..., Хп)) >Л(в, 0(в, Х1, ..., Х7-1, уи Х7+1, ..., Хп))}.

Если множество О0 возможных значений состояний природы является общим знанием среди агентов, то, предполагая, что они устраняют неопределенность вычислением максимального

адаптации команд представляется перспективным направлением будущих исследований.

1 Возможными расширениями модели являются предположения о том, кто из агентов какие величины наблюдает - ненаблюдаемыми для агента могут быть вектора действий других агентов, их выигрыши и т. д.

гарантированного результата, получим следующее множество равновесий их игры:

E(Qo) = {{*,■},■ е n е X’ | V i е N, V y е X min f(0, G(0 xu ..., xn)) >

0eQo

> min ß(0, G(0, xi, ..., Xi_i,y, Xi+i, ..., Xn))}.

0gQo

Обозначим л(х) C Q - множество состояний природы, при которых наблюдаемый агентами вектор их действий является равновесием:

(2) п(х) = {0 е Q | 3 Q0: 0 е Q0, х е E(Q0)}.

Обозначим g = (gi, g2, ., gn) е ^n - наблюдаемый агентами вектор значений их целевых функций.

Обозначим множество тех значений состояний природы, при которых (наряду с наблюдаемым результатом z) могут реализоваться наблюдаемые выигрыши агентов g, через

(3) d(g, z) = {0 е Q | fj(0, z) = gj, j е N}.

3. Роль информированности

Проанализируем более детально информированность агентов. У i-го агента имеются как максимум четыре «источника информации» о состоянии природы:

1) априорная частная информация со(в) с Q;

2) действия других агентов: наблюдая их и предполагая, что оппоненты действуют рационально (см. связь между информированностью и действием на рис. 2), агент может (считая, что имеет место общее знание на первом уровне структуры информированности - см. Приложение в [8]1) осуществлять рефлексию - оценивать ту информацию п(х) о состоянии природы, на

1 Возможны и более сложные случаи - когда имеет место нетривиальная взаимная информированность агентов. Тогда вместо параметрического равновесия Нэша (1) следует использовать информационное равновесие игры агентов.

основании которой рационален выбор оппонентами именно этих действий;

3) выигрыши g агентов - на основании этой информации агенты могут сделать вывод о тех состояниях природы, при которых наблюдаемый результат приводит к наблюдаемым выигрышам - см. выражение (3);

4) множество рс О состояний природы, при которых наблюдаемый вектор действий агентов приводит именно к данному наблюдаемому значению г результата:

(4) р(Х, г) = {в е О | G(в, х) = г}.

Отметим, что в силу введенных предположений информация пунктов 2)-4) является общим знанием среди агентов, т. е. с точки зрения друг друга они, наблюдая одни и те же параметры, должны одинаково (и предсказуемо для оппонентов) изменять свои представления о состоянии природы. То есть общим знанием является информация 1(х, г, g) = п(х) П р(Х, г) П с>^, г) с О.

Этим предположением, наряду с предположением о том, что каждый агент считает, что имеет место общее знание на первом уровне структуры информированности, исключается из рассмотрения (но не из предметов дальнейших исследований) рефлексия агентов относительно информированности оппонентов.

На основании перечисленных источников информации 7-ый агент может вычислить оценку Ji с О значения состояния природы как пересечение общего знания 1(х, г, g) с его частной информацией ш7:

(5) Зг(аъ х, г, g) = а>г П 1(х, г, g).

Обозначим в0 - фактическое значение состояния природы и рассмотрим последовательно в порядке усложнения несколько моделей: один агент - несколько агентов, статика - динамика1.

1 Под «статикой» в рассматриваемой дискретной модели подразумевается однократный выбор агенами своих действий, под «динамикой»

- последовательность таких выборов.

4. Один агент, статика

Если агент принимает решение однократно, то на момент принятия решений о выбираемом им значении своего действия ему известно только множество о с Q значений состояний природы. Будем считать, что, принимая решение в условиях интервальной неопределенности, агент использует принцип максимального гарантированного результата, то есть, выбирает действие:

(6) хМГР(о) = arg max min j(0, 0(0, x)).

xeX бею

Так как рассматривается статическая ситуация (однократный выбор агентом своего действия), и другие агенты отсутствуют, то агент не может использовать информацию (4) о наблюдаемом им результате или своем выигрыше.

Пример 1. Пусть n = 1, x > 0, Q = [1; 4], о= [2; 4]; 0О = 3, z = x/0,

(7) j(0 z) = (0- az) z - z2/2,

где a > 0 - известная размерная константа. Содержательно, если интерпретировать агента как производителя некоторой продукции, спрос на которую зависит от объема производства, то 0 может рассматриваться как уровень спроса (по объему и по качеству): чем больше значение 0, тем выше цена (0-az) и выше требования к качеству - для обеспечения одного и того же «объема» нужны большие усилия - действие х. Чем выше объем производства, тем цена ниже.

В соответствии с целевой функцией (7) выигрыш агента представляет собой разность между выручкой (произведением цены на объем производства) и затратами, которые описываются квадратичной зависимостью.

Если бы значение состояния природы было достоверно известно агенту, то ему следовало бы выбирать действие

* 02

(8) х (0) = ------

2a +1

максимизирующее целевую функцию, зависящую от состояния природы и его действия:

(9) /0(в, х) = (в- ах/в) х / в-х2/(2 в2).

Так как целевая функция (7) монотонно возрастает по в при любых допустимых действиях агента, то в соответствии с выражением (6)

(10) Хмгр(®) = 4/(2 а+ 1).

Наблюдая (10) и либо результат хМГР(®)/в0, либо свой выигрыш /(в0, хМГР(®)/в0), а, тем более, обе эти величины одновременно, агент может однозначно оценить истинное значение в0 состояния природы. •

Пример 1 иллюстрирует ситуации, когда однократного наблюдения агентом соответствующей информации достаточно для восстановления истинного значения состояния природы. При этом нет нужды ни в повторных наблюдениях, ни в информации о выборах других агентов (если бы таковые имелись). Однако, возможны случаи, когда однократного наблюдения агенту недостаточно. Приведем пример.

Пример 2. Пусть п = 1, х > 0, г = х, в= (вр, вс)

О = [1; 4] х [1; 4], о = [2; 4] х [2; 4]; в = (3; 3),

(11)/(в, х) = (вр - ах) х - х2 вс/2 ,

где а > 0 - известная размерная константа. Содержательно, в отличие от примера 1, состояние природы является двумерным вектором, первая компонента которого характеризует параметры цены, а вторая - параметры затрат.

Если бы значение состояния природы было достоверно известно агенту, то ему следовало бы выбирать действие в

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(12) Х*(в = 9 •

2а + вс

Так как целевая функция (11) монотонно возрастает по вр и монотонно убывает по вс при любых допустимых действиях агента, то в соответствии с выражением (6)

(13) Хмгр(®) = 1/(а+ 2).

В рассматриваемом примере действие агента совпадает с его результатом, следовательно, единственным источником 66

информации для агента является наблюдение своего фактического выигрыша. Из этого наблюдения он может сделать следующий вывод о множестве возможных значений состояния природы:

(14) I = {ве О | вс = 2вр (а + 2) - 6а- 9}.

Например, при а = 1 из (5) получаем:

(15) 3 = {(вр; вс) | вс = 6вр - 15, вр е [17/6; 19/6]}.

Отметим, что непротиворечивость информации агента истинному положению дел по-прежнему имеет место, то есть 3 с о и в0 е 3, в0 е I. •

5. Один агент, динамика

Возможность «повторного» использования информации, полученной в результате наблюдения за результатами деятельности, появляется в случае многократного повторения выбора агентом своего действия. Будем считать, что агенты выбирают свои действия на каждом шаге одновременно, а шаги «равномерны».

Пример 3. Пусть в условиях примера 2 а= 1, и агент принимает решения последовательно несколько раз. После первого «шага» он обладает информацией (15). В соответствии с выражением (6) его действием на втором «шаге» будет выбор хМГР(3) = 17/31. Наблюдая свой выигрыш при этом действии, агент может однозначно восстановить истинное значение состояния природы в0 = (3; 3). Таким образом, в настоящем примере агенту достаточно было двух наблюдений (двух «шагов»), чтобы восстановить всю недостающую информацию. •

6. Общий случай

Обозначим х* е Х7 - действие 7-го агента в момент времени

t, х1, * - совокупность векторов действий всех агентов за t периодов. К окончанию периода * общим знанием среди агентов является информация

1(Х, г*, gt) = ПА П р(Х, г*) П ^, г*) с О.

На основании всех источников информации 7-ый агент за * периодов может вычислить оценку 3 7* с О значения состояния природы как пересечение общего знания 1(Х, г\ gt) с его частной информацией У*-1, соответствующей предыдущему периоду:

(16) = ГГ- П 1(Х, г*, gt).

Другими словами, его оценка состояния природы сузится до множества

(17) 3\ О, х1, *, г1, *, g1, *) = 07 П р|! (хт, гт, gт).

Т=1

Пример 4. Рассмотрим модель олигополии Курно [1, 17], функционирующей в условиях неопределенности.

Пусть п = 2, х7 > 0, 7 = 1, 2, г = Х1 + х2, О = [1; 5], Ю\ = [1; 4];

О2 = [2; 5]; в = 3,

(18)/(в, г) = (в- аг) г - хг2г/2,

где а> 0, г > 0 - известные размерные константы. То есть агенты различаются лишь своей информированностью о состоянии природы.

Если бы значение состояния природы было достоверно известно агентам, то им следовало бы выбирать действия

* в

(19) Х7 (в) = ----, 7 = 1, 2.

4а + г

Так как целевые функции (18) монотонно возрастают по в при любых допустимых действиях агентов, то в соответствии с выражением (6) агенты в первом периоде выберут действия

(20) х! = 1/(4а + г), х2 = 2/(4а + г).

В результате выбора таких действий, агенты, однократно наблюдая векторы действий и выигрышей, восстановят истинное значение состояния природы. •

Введем такое понятие, как «время адаптации команды» -время, за которое при неизменном значении состояния природы агенты на основании наблюдаемой информации могут однозначно идентифицировать состояние природы. Значение време-

ни адаптации (продолжительности переходного процесса) определяется тем, какие параметры наблюдают агенты, размерностью вектора, описывающего состояние природы, а также свойствами точечно-множественных отображений (2)-(4) - см. аналогичные модели для «технических» систем в [2]. В примерах 1 и 4 время адаптации равнялось единице (одному периоду), в примере 3 - двойке.

Время адаптации сокращается (корректнее говоря, не увеличивается) с увеличением числа наблюдаемых членами команды параметров и возрастает (корректнее говоря, не уменьшается) с увеличением размерности вектора, описывающего состояние природы, и/или ростом априорной неопределенности (расширением множеств {<я7}, описывающих частную информацию агентов).

Пример 5. Пусть к условиям примера 4 добавляется третий агент с первоначальной информированностью о3 = [2,5; 3,5].

Если каждый агент по-прежнему наблюдает действия и выигрыши всех агентов, то значение состояния природы они смогут восстановить, как и в примере 4, за один шаг. Время адаптации может увеличиться, если «ухудшится» информированность агентов - сократится множество наблюдаемых ими параметров или наблюдаемыми станут лишь некоторые агрегированные характеристики, например, сумма действий всех агентов.

Поэтому предположим, что 7-ый агент наблюдает свое действие х7, свой выигрыш g7 и сумму действий всех агентов1 г, причем факт таких наблюдений является среди агентов общим знанием.

При известных х7, г и g7 уравнение (в- а г) г - хг2г/2 = g7 решается относительно в однозначно, 7 = 1, 2. То есть с ростом

1 Если агентов всего два, то каждый, зная сумму действий и свое действие, может вычислить действие оппонента. В случае, когда агентов уже три и больше, действия оппонентов на основании такой информации не могут быть восстановлены однозначно.

числа агентов время адаптации в рассматриваемом случае не увеличивается. •

Пример 6. Предположим теперь, что в условиях примера 5 каждый агент наблюдает только свое действие и свой выигрыш. Тогда в результате наблюдений 7-ый агент получает уравнение

(21) (в- а (х1 + Х2)) (Х1 + Х2) - хг2г/2 = g7 с двумя неизвестными - х3-7 и в, 7 =1, 2.

Если каждый из агентов считает, что имеет место общее знание, то есть наделяет оппонента той же информированностью, какой обладает он сам, то он должен считать, что оппонент выберет то же действие, что и выбирает рассматриваемый агент (напомним, что в данном примере агенты различаются лишь своей информированностью о состоянии природы). Подставляя в (21) реальный выигрыш агента и х3-7 = хМГР7(о7), получим:

(22) (в- 2ах1) 2 х,? - (х] )2г/2 =

= (в0 - а( х1 + х2))(х1 + х2) - (х1 )2г/2, откуда 7-ый агент может вычислить на конец первого периода оценку

(23) в = (в0 - а (х1 + х1)) (х1 + х2) / 2 х1 + 2ах1

значения состояния природы, 7 = 1, 2. Предположим, что

а= г = 1, тогда х,1 = 0,2, х^ = 0,4, в11 = 4, в^ = 2,6. Во втором периоде агенты подставят соответствующие оценки в11 и в21 в выражение (19), то есть выберут действия х2 = 0,8, х^ = 0,52, подставят их в аналог выражения (22), вычислят новые оценки состояния природы и т. д.

В общем случае динамика оценок состояния природы агентами имеет вид (ср. с (22)):

(24) в* = (в0 - а (х1 + х2)) (х1 + х2) / 2 х7* + 2ах*,

7 = 1, 2, * = 1, 2, ... .

На основании этих оценок агенты будут выбирать действия (см. выражение (19))

Д*-1

(25) х‘(в/-1) = , 7 = 1, 2, * = 1, 2, ... .

4а + г

Таким образом, адаптация команды в рассматриваемом примере будет описываться системой (24)-(25) итерированных функций с начальными условиями (20), определяемыми на основании априорной информации агентов в соответствии с принципом максимального гарантированного результата.

На рис 3 и рис. 4 представлены соответственно динамика оценок состояния природы агентами (первый уровень адаптации

- см. рис. 1) и динамика действий агентов (второй уровень адаптации - см. рис. 1).

Видно, что процессы изменения агентами своих оценок сходятся (достаточно быстро - изменения через 8-10 шагов становятся малозаметными), причем сходятся они к истинному значению состояния природы. Кроме того, несмотря на различную априорную информированность, агенты в результате выбирают одинаковые действия (что вполне естественно, так как целевые функции агентов одинаковы). В рассматриваемом примере время адаптации, строго говоря, равно бесконечности, хотя время попадания в любую наперед заданную непустую окрестность истинного значения состояния природы конечно. •

Адаптация соответствует приспособлению, привыканию и т. п. к изменяющимся внешним условиям. Рассмотренные в настоящей работе модели адаптации команд позволяют отражать эти эффекты. Изменение внешних условий может происходить и постепенно, соответственно команда должна адаптироваться и к «медленным» изменениям условий своего функционирования. Приведем пример.

Пример 7. Предположим, что в условиях примера 6 значение состояния природы на каждом шаге увеличивается на 0,1 (см. пунктирную линию на рис. 5). На рис. 5 представлена динамика оценок агентами состояния природы.

В рассматриваемом примере скорость изменения состояния природы по отношению ко времени адаптации такова, что команда «успевает» отслеживать изменения. Возможны случаи - в условиях быстро меняющейся (по отношению ко времени адап-

тации) внешней среды, - когда команда не сможет адаптироваться.

Рис. 3. Динамика оценок состояния природы агентами (первый агент - треугольники, второй - квадраты)

Рис. 4. Динамика действий агентов (первый агент - треугольники, второй - квадраты)

Рис. 5. Динамика оценок состояния природы агентами (первый агент - треугольники, второй - квадраты)

7. Заключение

В настоящей работе рассмотрены модели адаптации команд

- процесса изменения действий (включая в общем случае функции и объемы работ), выбираемых членами команды, на основе текущей информации в изменяющихся внешних условиях функционирования команды. Выделено несколько вложенных уровней адаптации:

- изменение информированности о внешней среде;

- изменение поведения (действий, выбираемых на основе имеющейся информации);

- изменение параметров системы, позволяющее реализовывать более эффективное в изменившихся условиях поведение;

- целенаправленное изменение внешней среды (активная адаптация).

Показано, что специфика команд заключается, в частности, в том, что каждый агент в качестве информации для корректировки своих представлений о неопределенном параметре может

использовать не только результаты наблюдения за внешней средой, но и результаты наблюдения за действиями и результатами деятельности других агентов, пытаясь «объяснить», почему они выбрали именно эти действия. Другими словами, если результат совместной деятельности зависит от действий всех агентов, то у каждого агента имеются, как максимум, четыре «источника информации» о внешней среде:

1) априорная частная информация;

2) действия других агентов: наблюдая их и предполагая, что оппоненты действуют рационально, агент может осуществлять рефлексию - оценивать ту информацию о внешней среде, на основании которой рационален выбор оппонентами именно этих действий;

3) выигрыши агентов - на основании этой информации агенты могут сделать вывод о тех состояниях внешней среды, при которых наблюдаемый результат приводит к наблюдаемым выигрышам;

4) множество состояний внешней среды, при которых наблюдаемый вектор действий агентов приводит именно к данному наблюдаемому значению результата:

Введено такое понятие, как «время адаптации команды» -время, за которое при неизменной внешней среде агенты на основании наблюдаемой информации могут однозначно идентифицировать состояние внешней среды. Время адаптации сокращается с увеличением числа наблюдаемых членами команды параметров и возрастает с увеличением размерности вектора, описывающего состояние природы, и/или ростом априорной неопределенности Адаптацию имеет смысл рассматривать, если время адаптации не превышает характерного времени изменения внешней среды. Приведены примеры, иллюстрирующие процессы адаптации команд как к резкому, так и к «медленному» изменению внешних условий.

В заключение подчеркнем, что выше вводилось предположение о том, что каждый агент наделяет оппонента той же информированностью, какой обладает он сам. Можно отказаться от этого предположения и рассматривать более сложные

структуры информированности агентов, считая, то они будут выбирать действия, являющиеся информационным равновесием. Возможны также ситуации более сложной структуры «наблюдений» агентов: одни могут наблюдать одни параметры (например, действия и выигрыши одного множества агентов), другие агенты - другие параметры (например, действия и выигрыши другого множества агентов плюс некоторую информацию о состоянии природы). И так далее - все эти случаи, наверное, можно описывать по аналогии с рассмотренными выше.

Литература

1. ИНТРИЛЛИГАТОР М. Математические методы оптимизации и экономическая теория. - М.: Прогресс, 1975.

2. КРАСНОВА С. А., УТКИН В. А. Каскадный синтез наблюдателей состояния динамических систем. - М.: Наука, 2006.

3. ЛОТОЦКИЙ В. А. Идентификация структур и параметров систем управления // Измерения. Контроль. Автоматизация. 1991. № 3-4. С. 30-38.

4. НОВИКОВ Д. А. Модели обучения в процессе работы // Управление большими системами. 2007. № 19.

5. НОВИКОВ Д. А. Математические модели формирования и функционирования команд. - М.: Физматлит, 2008.

6. НОВИКОВ Д. А. Сетевые структуры и организационные системы. - М.: ИПУ РАН, 2003.

7. НОВИКОВ Д. А. Теория управления организационными системами. 2-е изд. - М.: Физматлит, 2007.

8. НОВИКОВ Д. А., ЧХАРТИШВИЛИ А. Г. Рефлексивные игры. - М.: Синтег, 2003.

9. ПОЛЯК Б. Т., ЩЕРБАКОВ П. С. Робастная устойчивость и управление. - М.: Наука, 2002.

10. РАСТРИГИН Л. А. Адаптация сложных систем: методы и приложения. - Рига: Зинатне, 1981.

11. Философский энциклопедический словарь. - М.: Советская энциклопедия, 1983.

12. ЦЫГАНОВ В. В. Адаптивные механизмы в отраслевом управлении. - М.: Наука, 1991.

13. ЦЫПКИН Я. З. Адаптация и обучение в автоматических системах. - М.: Наука, 1968.

14. ЦЫПКИН Я. З. Основы информационной теории идентификации. - М.: Наука, 1984.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

15. ЭЙКХОФФ П. Основы идентификации систем управления. М.: Мир, 1975.

16. ЭШБИ У. Р. Введение в кибернетику. - М.: Изд-во иностранной литературы, 1959.

17. MAS-COLELL A., WHINSTON M. D., GREEN J. R. Microeconomic theory. - N.Y.: Oxford Univ. Press, 1995.

Статья представлена к публикации членом редакционной коллегии В. А. Уткиным

i Надоели баннеры? Вы всегда можете отключить рекламу.