Модели управления технологией комплексной деятельности

Белов Михаил Валентинович; Новиков Дмитрий Александрович

МОДЕЛИ УПРАВЛЕНИЯ ТЕХНОЛОГИЕЙ КОМПЛЕКСНОЙ ДЕЯТЕЛЬНОСТИ1

Белов М. В.2

(Компания ИБС, Москва) Новиков Д. А.

(ФГБУН Институт проблем управления им. В.А. Трапезникова РАН, Москва)

Статья продолжает исследования технологии комплексной деятельности. Рассмотрен комплекс задач управления разработкой и освоением новых технологий комплексной деятельности. Поставлена и решена задача выбора типовых решений. В рамках данной задачи показано, что равномерное разбиение множества возможных состояний природы является «асимптотически» оптимальным с точки зрения минимизации ожидаемой ошибки, затрат или/и энтропии, а также максимизации ожидаемого значения уровня научения и/или полезности. Для задач распределения ресурса в агрегируемых технологических сетях предложены простые аналитические алгоритмы оптимального распределения ресурса. Поставлены и решены задачи выбора оптимальной стратегии переключения с разработки технологии на её продуктивное использование. Для случая априори известных характеристик природы получена оптимальная стратегия и аналитически исследованы её свойства. Для случая неизвестных характеристик предложена процедура, оптимальная в классе последовательных правил отношения правдоподобия. Представлены результаты имитационного моделирования и анализа аппроксимаций свойств процедуры.

Ключевые слова: освоение технологии, научение, кривая научения технология, комплексная деятельность, управление.

1. Введение

В статье [8] предложена базовая модель разработки и освоения новой технологии комплексной деятельности (КД) [6] (см. также обсуждение роли технологий КД в [5, 6, 8]).

1 Работа выполнена при частичной финансовой поддержке Российского научного фонда (грант №16-19-10609).

2 Михаил Валентинович Белов, к.т.н. ([email protected]).

3 Дмитрий Александрович Новиков, д.т.н., чл.-корр. РАН, профессор ([email protected]).

В [8] предлагается описывать выполнение различных видов КД процессом с дискретным временем, когда на каждом шаге выполняется один элемент КД, при этом состояние внешней среды (иногда также называемое состоянием природы) принимает одно и только одно значение из конечного множества возможных состояний внешней среды4. Если состояние внешней среды на каком-то шаге впервые принимает некоторое значение, то возникает событие неопределённости, требующее затрат на создание или адаптацию технологии применительно к этим условиям. Когда состояние внешней среды повторно принимает это значение на одном из более поздних шагов, затрат на создание технологии не требуется.

Предположим, что множество возможных состояний внешней среды состоит из К состояний, одно и только одно из которых реализуется на каждом шаге дискретного времени, независимо от принятых на предыдущих шагах значений. Обозначим через рк > 0 вероятность того, что состояние внешней среды

к

примет к-е значение (очевидно, что X рк = 1).

к=1

В рамках рассматриваемой в [8] модели процесс реализации различных фаз жизненного цикла технологии КД описывается тем, какие значения принимало (и сколько раз) состояние внешней среды, а какие ещё нет. Для этого введён показатель уровень разработанности технологии (УРТ, аналог уровня научения; последовательность значений уровня научения называется кривой научения). УРТ в момент времени ^ в [8] определён как доля состояний внешней среды, для которых технология проверена или адаптирована в течение ^ шагов, или как вероятность того, что на следующем шаге (^ + 1) состояние внешней среды примет одно из значений, которые уже принимало ранее: к

(1) А = 1 -X Рк (1 - Рк).

к=1

4 Также решается задача выбора типовых решений - поиска оптимального разбиения множества возможных состояний природы (представляемого в виде единичного отрезка) на конечное число подмножеств.

Если последовательность (1) является кривой научения, то

последовательность

к

(2) Qt = 1 - Lt = X Pk (1" Pk У

k=1

может интерпретироваться как «кривая ошибки» (вероятность того, что на следующем шаге состояние внешней среды примет одно из «новых» значений, т.е. тех, которые еще ни разу не принимало ранее).

Отметим, что процесс освоения технологии целесообразно рассматривать именно как процесс научения субъекта деятельности (см. многочисленные классические работы [2, 11, 34, 43, 44] и обзор в [20], современные модели научения - см. обзоры в [14, 17, 25, 26, 28, 31, 35, 42], в которых кривые научения вида (1) являются типовыми).

В настоящей работе на базе модели (1), (2) ставятся и решаются задачи управления: задача об оптимальном научении -поиска разбиения множества возможных состояний природы на конечное число подмножеств, минимизирующего ожидаемую ошибку (раздел 2) и/или энтропию (раздел 3); задача об оптимальном распределении ресурса в рамках сетевых моделей технологий и задача оптимального научения в рамках технологической сети (раздел 4); задача об оптимальном моменте перехода от разработки технологии к ее использованию (раздел 5).

2. Оптимальное научение (типовые решения)

Рассмотрим субъект (агента), который принимает в процессе своей деятельности те или иные решения. Пусть эффективность решений х е [0; 1] агента описывается функцией fx, 9), зависящей от реализовавшегося значения состояния природы 9 е [0; 1], причём arg max fx, в) = в. Примером такой

хе[0;1]

функции является fx, в) = 1 - (х - 9)2.

Предположим, что агент различает K значений состояния природы, реализующихся с вероятностями {pk}, k = 1,K . Разо-

бьём единичный отрезок на K последовательных отрезков Ak

с длинами {pk} и границами

считая p0 = 0.

X p X Pi

_ i=0 i=0

Будем рассматривать процесс научения следующего вида: в каждый дискретный момент времени реализуется некоторое состояние природы; если некоторое состояние природы реализуется повторно, то агент принимает оптимальное при этом состоянии природы решение x*(6) (х*(в) = arg max fx, в)); если

xe[0;1]

некоторое (например, j-е) состояние природы реализуется в первый раз, то агент принимает произвольное решение из соответствующего отрезка (А;). Данный принцип принятия решений, с одной стороны, условно соответствует модели Р. Ауманна, который в [29] разделял принятие решений, оптимальных в текущей ситуации (act-rationality), и принятие решений в соответствии с заранее определёнными правилами (rule-rationality). С другой стороны, рассматриваемая модель отражает идеологию типовых решений [12], распространённую в том числе в ситуационном и адаптивном управлении [23, 24].

Предположим, что функция f/, в) равномерно /-липшицева (l > 0, иначе эффективность не зависит от решений) по первой переменной при любых состояниях природы, тогда оценка максимальной ожидаемой ошибки (вычисляемой как разность между эффективностью принятого решения и эффективностью оптимального решения [12, 19]) принимаемых им решений в момент времени t будет иметь вид (см. также выражение (2))

K

X Pk(1 - Pk У1 Pk.

k=1

Зафиксировав произвольное целое K > 1 1 и минимальный

порог р. 0< р< — различения состояний природы, сформули-K

руем задачу поиска оптимального разбиения множества возможных состояний природы (единичного отрезка) на K подмножеств:

(3) ес^}, о = хР)2(1 -Рк)ч -

к= {Рк Х Рк =

Ш1И

к

Отметим, что введение ненулевого порога р обусловлено необходимостью уйти от тривиального решения р\ = 1,

р = о, ] = 2К.

В случае равномерного распределения (рк = 1/К) критерий задачи (3) примет вид

(4) ео(К, г) = 1 ^ 1 -1

Задача (3) может интерпретироваться как задача поиска оптимального набора типовых решений, минимизирующих ожидаемую ошибку принимаемых в заданный момент времени решений.

Утверждение 1. У ре (0;1/К] Зг(р) такое, что Уг> г(р) единственным решением задачи

(5) е({рл, г) - ш1п

{Рк >р}:Х Рк =1

к=1

является равномерное разбиение.

Доказательство утверждения 1. Сформулируем промежуточную лемму.

Лемма 1. У ре (0;1/К ] Зг (р) такое, что Ут> г (р) б({рк}, т ) - строго выпуклая функция своих переменных {рк}.

Доказательство леммы 1. Фиксируем произвольное к = 1, 2, ..., К и (опуская индекс к) покажем, что У ре (0;1/К ] Зг (р) такое, что Ут> г(р) функция G(p) = р2 (1 - р) выпукла по р. Вычислим вторую производную функции С(-):

(6) = (1 -р) 2 [2 (1 -р)2 - 4р г (1 -р) + р2 г (г - 1)].

ар

Выберем в качестве г(р) максимальный относительно г > 2 корень квадратного уравнения

(7) Уре[р;1 -р] 2 (1 -р)2 - 4р г (1 -р) + р2 г (г- 1) = 0. Уравнение (7) имеет неотрицательное решение, так как коэффициент перед старшим по степени г (квадратичным) слагае-

к

мым строго положителен. Очевидно, любое т> р) удовлетворяет системе неравенств: Ур е[р;1 -р] ' > о. Следова-

dp2

тельно, в силу непрерывности по t правой части выражения (6)

Ур е[р;1 -р], У г > г(р) > 0.

dp

Итак, каждое слагаемое X (рк)2(1 - рк)'! является выпук-

к=1

лой функцией рк (константа Липшица неотрицательна по определению). Следовательно, и их сумма - выпуклая функция. Лемма 1 доказана.

Вернемся к доказательству утверждения 1. Фиксируем произвольное t > 0. Предположим, что {дк} - решение задачи (5)

при t > t(р), и существует пара 1, у Е 1, К, такая что 1 Фу и д Ф

Пусть для определенности у > 1. В силу строгой выпуклости

целевой функции

( 4,+ 4, 4+ 4, ^

<2({чк}, О > б I Чl,■■■,Чi2 ", ч+1, —, ч-^ , Ч1—, я кI'

что противоречит сделанному предположению. Следовательно, в оптимальном решении все {дк} одинаковы. Единственность этого оптимального решения следует из строгой выпуклости целевой функции. •

Отметим, что решение задачи (5) не зависит от константы Липшица I.

Пример 1. Пусть К = 2. График зависимости Q(p, 0 приведен на рис. 1.

Можно обобщить результат утверждения 1 на следующий случай. Пусть Ск(рк) - «потери» агента при первой реализации к-го состояния природы (затраты на нахождение оптимального в этой ситуации решения). Задача поиска оптимального (в смысле минимума ожидаемых потерь в момент времени 0 разбиения множества возможных состояний природы (единичного отрезка) на К подмножеств имеет вид

Рис. 1. График зависимости Q(p, t) в примере 1

к

(8) QciiPk], t) = X^РРС1" PkУ ^ miP •

k=1 P äp}£ Pk =1

k=1

Следствие 1. Если функции Ck() принимают строго положительные значения и имеют ограниченные первую и вторую производные, k = 1, ..., K, то Vpe(0;1/K] 3tр) такое, что Vt> tp) единственным решением задачи (8) является равномерное разбиение.

Доказательство следствия 1 отличается от доказательства утверждения 1 лишь тем, что вместо функции G(p) необходимо исследовать функцию Gc(p) = C(p) p (1 - p)t. Вычислим вторую производную функции Gc(-):

(9) ¿ЧМ = (1 - p)t - 2 [ C"(p) p (1 - p)2 +

dp

+ 2 C(p) (1 -p) (1 -p -p t) + C(p)p t (t - 1)]. В силу условий следствия 1 коэффициент перед старшим по степени t (квадратичным) слагаемым в правой части выражения (9) строго положителен, а остальные коэффициенты ограничены. Справедливость следствия 1 доказана.

Пусть теперь в случае повторной и последующих реализаций к-го состояния природы агент получает «выигрыш» Ик(рк). Задача поиска оптимального (в смысле максимизации ожидаемой полезности («разности» между «выигрышем» и «затратами») в момент времени 0 разбиения множества возможных состояний природы (единичного отрезка) на К подмножеств имеет вид

(10) ан.с ((Л },0=£а {[1 - (1 - Рк }'] Н р ) - Ск р )(1 - рк )} тах .

к=1 (Р* >Р}:^Рк =1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

к=1

Теорема 1 (об оптимальных типовых решениях). Если функция Ик(-) такова, что функция х Ик(х) строго вогнута при х е [0; 1], а функция Ск(-) удовлетворяет условиям следствия 1, к = 1, ..., К, то Уре (0;1/К] (р) такое, что Ут> ?р) единственным решением задачи (10) является равномерное разбиение.

Доказательство теоремы 1. В силу условий теоремы и следствия 1, каждое из слагаемых в критерии эффективности (10) является строго вогнутой функцией (как разность строго вогнутой и строго выпуклой функций). Следовательно, QИ,c({pk}, 0 является вогнутой функцией {рк}. Аналогично доказательству утверждения 1 можно показать, что оптимальными являются одинаковые значения {рк}. Теорема 1 доказана.

Утверждение 1 гласит, что для любого порога найдется момент времени, начиная с которого равномерное распределение будет минимизировать ожидаемую ошибку принимаемых агентом решений. Возникает закономерный вопрос, верно ли «обратное» утверждение, что для некоторых достаточно больших моментов времени существует порог, при котором именно равномерное распределение оптимально. Следующее утверждение даёт положительный ответ на этот вопрос.

Утверждение 2. У? > [2К - 3 / 2 + ^2(К2 - К -1)] 3р(?) < 1 /К такое, что одним из решений задачи

(11) Q({pk}, 0 ^ тп

{рк>р(? )}:£ Рк=1

к=1

является равномерное разбиение.

Доказательство утверждения 2 тривиально, так как легко убедиться, что в рамках его условий при ДО = 1/К выполнено «условие выпуклости» (см. также выражения (6), (7) и (9)): 2 (1 - К)2 - 4 г (1 - 1/К)/К + г (г - 1)/К2 > 0. До сих пор число К попарно различных состояний природы было фиксировано. Исследуем, как от этого числа зависит ожидаемая ошибка, т.е. рассмотрим задачу поиска оптимального значения К. В силу утверждения 1 и теоремы 1 достаточно ограничиться классом равномерных распределений. Из анализа выражения (4) следует справедливость следующего утверждения.

Утверждение 3. Для любого г > 0 существует единственное наихудшее (максимизирующее ошибку) значение К*(0 = г + 1.

Пример 2. На рис. 2 приведён график зависимости (4) при

Г = 50;ДГ. = 51.

0(КЛ=50)

Рис. 2. График зависимости Q(K, г = 50) в примере 2

Минимум ошибки (4) будет достигаться либо при малых, либо при достаточно больших значениях К, следовательно, помимо величины ошибки, необходимо учитывать дополнительные критерии, например, ограниченность когнитивных возможностей агента, зависимость уровня научения от числа состояний природы и др.

Действительно, до сих пор мы в качестве критерия эффективности использовали ожидаемую ошибку (см. критерий опти-

мизации в задаче (3)). Рассмотрим теперь в качестве критерия уровень научения - вероятность того, что реализуется уже известное агенту состояние природы (см. (1)).

Пример 3. В случае равномерного распределения зависимость ожидаемого уровня научения от К имеет вид

(12) Ь(К, 0 = 1 - (1 -1

График зависимости (12)приведён на рис. 3.

Рис. 3. График зависимости Ь(К, ¿) в примере 3 Для задачи максимизации ожидаемого уровня научения

(13) Щрк}, т) = 1 - £рк(1 -рк)т

тах

К

к=1

{Рк Рк =1

можно доказать (записав условия выпуклости слагаемых) следующий аналог утверждения 1.

2

Утверждение 4. Ур е (0; 1/К] 3 ?(р)---1 такое, что

Р

Ут> г(р) единственным решением задачи (13) является равномерное разбиение.

к=1

Из выражения (12) следует, что для любого фиксированного момента времени значение уровня научения убывает с ростом числа К (см. также рис. 3), а зависимость ошибки от этого параметра имеет, в силу утверждения 3, точку максимума. Возникает вопрос, а почему нельзя выбрать К = 1, т.е. считать, что возможно всего одно состояние природы. Такое предположение, однако, приведёт вообще к отсутствию зависимости поведения изучаемой системы от состояний природы. Поэтому разумным представляется введение предположения, что априори известно число К0 принципиально различных состояний природы (требующих качественно отличных реакций от агента). Это число, с одной стороны может определяться исходя из объективных закономерностей или ретроспективных данных (в случае наличия измеримой неопределённости относительно состояний природы) или определяться эвристично/экспертно (в случае наличия истинной неопределённости относительно состояний природы). С другой стороны, это число в явном виде накладывает ограничение снизу на возможное значение числа различных состояний природы: К > К0 и должно быть согласовано с величиной «порога» р: р < 1/К0.

Проанализируем теперь, какие факторы могут сдерживать неограниченное увеличение параметра К. «Естественные» ограничения на К:

- из рк > р следует, что К < 1/р;

- из утверждения 4 следует, что ? (р) > 2К — 1;

- если 8 - «порог» различения агентом значений целевой функции, то К < I / 8.

Таким образом, рациональным является разбиение множества возможных состояний природы на такое число равновероятных «ситуаций» (для которых в рамках разработки технологий агентом ищутся оптимальные или типовые решения), которое превышало бы ограничение К0 снизу, обладало бы разумным компромиссом между ожидаемой ошибкой и уровнем научения (в заданный момент времени) и удовлетворяло бы вышеперечисленным ограничениям сверху.

Рассмотрим пример постановки оптимизационной («управленческой») задачи. Пусть требуется при заданных К0, I и р

достичь к моменту времени т требуемого значения уровня научения ¿треб, обеспечив при этом значение ожидаемой ошибки не более е. Данная система требований в рамках утверждения 1 совместна, если существует целое положительное К, удовлетворяющее следующей системе неравенств (см. также выражения

(4) и (12)):

1

(14) J

К0 < К <Р

1 -11 - К|г z

1С1 - -1 К*

КI К

треб'

Из результата утверждения 3 следует, что при K0 < K*(f) достаточно проверить, удовлетворяет ли системе (14) значение K = K0 (выбирать большие значения K не имеет смысла, так как это одновременно и снизит уровень научения, и увеличит величину ожидаемой ошибки); а при K0 > K*(f) необходимо искать допустимые значения параметра K.

3. Энтропия

Будем считать, что в каждый момент времени могут иметь место два события: реализуется известное или неизвестное агенту состояние природы (первое - с вероятностью L({pk}, t), определяемой выражением (13)). При рассмотрении двух возможных событий энтропия

(15) S(t, {pk}) = - L({pk}, t) ln (L({pk}, t)) -- (1 - L({pk}, t)) ln (1 - L({pk}, t)).

Исследуем зависимость энтропии (15) от {pk}, K и t, т.е. рассмотрим задачу минимизации энтропии в момент времени t:

(16) S(t, {pk}) ^ min .

{Pk Pk =1

k=1

Теорема 2 (об энтропии). Ур е (0; 1/К] 31(р)---1 та-

кое, что Ут> г(р) единственным решением задачи (16) является равномерное разбиение.

Справедливость теоремы 2 следует из того, что энтропия (15) минимальна, когда максимальна одна из вероятностей Ь({рк}, 0 или (1 - Ь({рк}, ¿)). А в силу утверждения 4 именно равномерное распределение максимизирует величину (13).

Результат теоремы 2 содержательно нетривиален: именно максимальное разнообразие начальных состояний (равномерное распределение вероятностей возможных состояний природы) не только минимизирует ошибку и максимизирует уровень научения (утверждения 1 и 4 соответственно), но и минимизирует энтропию состояний «обученности» агента.

Утверждение 5. Максимальное значение энтропии (15) не зависит от распределения {рк} и равно 1п(2).

Справедливость утверждения 5 следует из того, что максимум по времени выражения (15) достигается при Ь({рк}, 0 = 1 - Ь({рк}, 0, т.е. когда равновероятны события реализации известного и нового для агента состояний природы.

Для равномерного распределения зависимость (15) энтропии от времени и параметра К имеет вид

Максимум энтропии (17) достигается в момент времени tS(K (см. рис. 4 и 5).

Отметим, что ¿^К) < ¿(р), т.е. равномерное распределение оптимально при временах значительно превышающих характерное время, при котором достигается максимум энтропии.

р

(18) ¿¿К =--1п(2)—

1п(1 -1 /К)

_____________[............ |

............;.............

/ I \ |

/

1 1

1 «ц. " ............:............. I

0 10 20 30 40 60 6 0 70 80 90 1С

Рис. 4. График зависимости Б(К, 1) для равномерного распределения при К = 25 К) ~ 17)

о о оо

Рис. 5. График зависимости Б(К, 1) для равномерного распределения

В рассматриваемой модели выполняется общий принцип необходимости разрушения детерминизма [1, 27] - имеется точка максимума энтропии (в начальный момент времени энтропия равна нулю - система полностью детерминирована,

и любое состояние природы, реализующееся в первый момент времени, будет новым для агента; асимптотически энтропия также стремится к нулю).

Рассмотрим теперь энтропию s(t, {pk}) системы, которая может находиться в одном из 2K состояний (состояние этой системы в момент времени t описывается K-мерным бинарным вектором, k-я компонента которого равна единице, если до данного момента включительно состояние природы хотя бы раз принимала k-е значение; в противном случае данная компонента равна нулю):

K

(19) s(t, {pk}) = - X (1" (1" Pk ) )ln (1" (1" Pk У ) .

k =1

Рассмотрим задачу минимизации энтропии в момент времени t:

(20) s(t, {pk}) ^ min .

{Pk Pk =1

k=1

Утверждение 6. Vpe (0;1/K] 31(p) такое, что Vt> t(p) единственным решением задачи (20) является равномерное разбиение.

Доказательство утверждения 6 следует технике доказательств утверждения 1 и теоремы 1 (в данном случае необходимо показать строгую выпуклость по p функции

(1 - (1 - рУ )ln опускается.

1

1 - (1 - P)

при «достаточно больших» t) и

4. Технологические сети

Обратимся к определению технологии. Технология КД определяется в [6] как система условий, критериев, форм, методов и средств последовательного достижения поставленной цели. Последовательность действий (логическая, временная и процессная структуры КД - см. [6], т.е. «технологические сети») традиционно описывается на языке теории графов (структурное описание (связи «часть-целое» и т.п. между элемента-

ми), причинно-следственное описание, функциональное описание - поведение системы, взаимодействие с внешним миром и т.д.). Действительно, сетевые модели удачно выражают «причинно-следственные» отношения между элементами КД: описательная и прогностическая функция (от причин к следствиям), объяснительная функция (от следствий к причинам) и нормативная функция (от причин к оптимальным следствиям или оптимальные причины, приводящие к требуемым следствиям).

Среди классов моделей, отражающих содержательные свойства «технологической» структуры можно выделить:

- информационно-логические модели науки и технологий [3];

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- семантические, логические и байесовы сети: вероятностные логические сети (PLN - Probabilistic Logic Network) [4, 32], марковские логические сети (Markov Logic Networks) [39], бинарные нейронные сети [15, 16, 36];

- модели знаний: продукционные, сетевые (семантические сети, онтологии), фреймовые и др. - см. обзоры в [30, 33];

- модели развития науки в терминах библиометрии и сетей цитирования [37];

- модели диффузии, инноваций, эпидемий для описания развития научных идей [45].

Кроме того, в рамках концепции анализа уровней готовности технологий (TRL - Technologies Readiness Level) и уровней их готовности к интеграции (IRL - Integration Readiness Level) в последнее время все чаще рассматриваются задачи максимизации уровня системной готовности (SRL - Systems Readiness Level) при ограничениях на TRL и IRL [40, 41].

Все перечисленные классы моделей еще ждут своей адаптации и применения для задач управления разработкой и освоением технологий КД. Проанализируем более подробно возможности использования для этих целей моделей сетевых активных систем.

Рассмотрим сетевую активную систему (САС) [7]: конечное множество N = {1, 2, ..., n} агентов (реализующих «элементарные технологии»), n > 2, и сеть G = (N, E) (ориентированный связный граф без циклов), вершины которой соответствуют агентам, а множество дуг E с N х N отражает «логические» связи между ними, причем нумерация вершин правильная [10].

«Правильность» нумерации вершин графа отражает априорные представления о причинно-следственных связях результатов деятельности различных агентов.

Сеть в целом может рассматриваться как модель некоторой комплексной технологии, а подграфы этой сети - как модели частей комплексной технологии.

Обозначим через Li = {j е N | (j, i) е E} множество непосредственных предшественников i-го агента в сети G, множество непосредственных последователей i-го агента обозначим через Ri = {j е N | (i, j) е E}, i е N. Множество всевозможных сетей с правильной нумерацией, связывающих вершины из множества N, обозначим через GN.

Предположим, что сеть имеет единственный выход (вершину, не имеющую исходящих дуг) - n-ю вершину. Обозначим через M0 с N множество входов рассматриваемой сети (вершин, не имеющих входящих дуг), через Mk - множество вершин, в которые входят дуги только из вершин, принадлежащих множествам (M}, j = 0, • ••, k- 1 (число k(i) называется рангом вершины i, принадлежащей множеству Mk), k = 1, •.., m, m < n - 1, Mm = {n}. Ранг выхода сети k(n), очевидно, равен длине максимального пути от входов сети до ее выхода. Набор множеств (Mk}, = 0, •.., m, является разбиением множества N.

k-l

Обозначим через Л/= [jMi5 k=\,...,m, и положим

M0

= 0. Обозначим через S0 = {n}, Sk с N - множество вершин графа G, из которых исходят дуги только в вершины из множества Sk-1, k = 1, 2, •.. , k(n); в силу связности графа G выполнено

к(п)

IJ.S', = N. Обозначим через IV, множество предшественников

к= 0

i-го агента, т.е. вершин, из которых имеется путь в вершину i. Опять же, в силу связности графа G имеет место Wn = N \ {n}. Ранг вершины может условно интерпретироваться как уровень готовности соответствующей технологии.

Пусть САС является «бинарной» (логической сетью в терминах [22]), т.е. i-й агент характеризуется своими бинарными действием yi е {0; 1} и результатом деятельности zi е {0; 1}

(условная трактовка: «0» - «действие не произведено» или «результат не достигнут», «1» - «действие произведено» или «результат достигнут»). Обозначим через yD вектор действий агентов из множества D с N, через zD - вектор результатов деятельности агентов из этого множества.

Связь результата деятельности агента с его действием и используемыми им в процессе этой деятельности результатами других агентов определяется логической «технологической функцией» Qf: {0;1}|N| ^ {0;1} , т.е. z,. = yiQi) ; для i е Mo

имеет место Ni = 0, поэтому положим z = y^Q (z0), z0 - /-мерный вектор «входов» сети (l = |M0|). Предположим, что выбор действия yi = 1 требует от i-го агента затрат ci > 0.

Наиболее простыми примерами технологических функций являются конъюнкция (когда для получения агентом результата необходимо достижение результатов всеми его непосредственными предшественниками): Q"'"(zN ) = min {z }, и дизъюнкция

jeN, 3

(когда для получения агентом результата необходимо достижение результата хотя бы одним из его непосредственных предшественников): Qma (zN ) = max {z } .

'jeN, 3

Как отмечалось в [7], если субъекту, осуществляющему управление САС (будем называть его центром), известны граф G, технологические функции {Q^-)} и затраты {сг} всех агентов, то он может реализовать следующий алгоритм - для каждой вершины i графа G:

- найти функцию Qi( y ), определяющую зависимость результата zi деятельности i-го агента от вектора yr действий всех

предшественников i-го агента (данную функцию можно условно считать агрегированной технологией i-го агента; для n-го агента это будет агрегированная технология САС в целом);

- найти множество

(21)Л, = {(у^ )e{0;1}lWl | Q!(y^ ) = 1}

векторов действий агентов, обеспечивающих достижение результата i-го агента;

- найти множество

(22) A* = Arg min V c

(y )eA " 3

iyW)eA jeW,

векторов действий агентов, обеспечивающих достижение результата i-го агента с минимальными суммарными затратами агентов

(23) Ci = Ci + min V ci .

(yw,)eA. jeW, j

В случае конъюнктивных технологических функций множества (21) и (22) имеют вид A** = An = N. В случае дизъюнктивных технологических функций A* представляет собой множество вершин графа G, лежащих на кратчайшем (по сумме затрат) пути от любого из входов сети до её выхода, а величина Cn равна «длине» этого пути. В общем случае можно использовать результаты теории графов и календарно-сетевого планирования и управления [10, 13, 18].

В [7] показано, что учёт центром интересов агентов и побуждение последних к выбору требуемых действий производится достаточно просто (в рамках результатов анализа сетевых организационных структур [21] и теорем о декомпозиции игры агентов [7, 38]), поэтому имеет смысл рассматривать только задачу «планирования», решаемую центром и заключающуюся в нахождении множеств (22).

Кроме того, в [7] приведены достаточные условия агрегиру-емости САС, т.е. возможности эквивалентного представления сетевой структуры единственным элементом с конструктивно определяемыми свойствами (зависящими от свойств элементов исходной сети).

Модель САС, описанная выше, предполагает полное знание центром сети G, а также всех технологических функций. Однако результат разработки технологии, как правило, заключается в построении последовательности действий в условиях априорной неопределённости относительно как внешних условий осуществления деятельности, так и знаний относительно возможных способов достижения цели (значения результата деятельности соответствующего агента), т.е. неопределённости

относительно причинно-следственных и/или логических связей между различными потенциальными элементами технологий.

Процесс разработки технологии заключается в устранении этой неопределённости (с учётом соответствующих затрат) за счет целенаправленных действий центра, изменяющих его представления о структуре САС и синтезе в результате оптимальной технологии - САС, позволяющей достичь цели с минимальными затратами на разработку технологии и её реализацию (управление стоимостью на протяжении ЖЦ).

Рассмотрим задачу оптимального научения в рамках технологической сети. Управление (при заданном «технологическом графе») может заключаться в том, что от количества ресурсов, выделенных центром агенту, зависит число состояний природы, анализируемых им в единицу физического времени. Предположим, что время анализа любого состояния природы одинаково.

В общем виде задача выглядит следующим образом:

1. Построить технологический граф.

2. Решить для каждой его вершины задачу разбиения множества возможных состояний природы на конечное число непересекающихся подмножеств, оценить вероятности реализации каждого подмножества (см. второй раздел настоящей работы, в силу результатов которого следует использовать равномерное разбиение).

3. Фиксировать зависимость характеристик научения агентов-вершин от ресурсов.

4. Найти зависимость характеристик всего технологического графа от ресурсов (см. в том числе выражения (21)-(23)).

5. Решить задачу управления (распределения ресурсов между вершинами).

Рассмотрим ряд моделей, реализующих последний пункт. Обозначим через и < 1 «ресурс» - долю состояний природы, «проверяемых» в единицу времени.

Зависимость уровня научения от времени и ресурса (для случая равномерного распределения вероятностей состояний природы) имеет вид (см. выражение (1) и [8]): (24) £(0 = 1 - ехр (-и).

Как отмечалось в [8], для матожидания времени т достижения заданного уровня научения Хтреб е [0; 1) при К >> 1 справедлива аппроксимация

(25) ф) = - 1П(1 " ^ ) .

и

По аналогии с теоремой 5.1 в [18], с учётом выпуклости (25) по и, можно показать, что справедливо следующее утверждение.

Утверждение 7. Для любой зависимости ресурсов от времени существует постоянное их значение, приводящее к не меньшему времени достижения требуемого уровня научения.

Пусть разработка/освоение технологий требует от агента затрат с(иК), которые будем считать строго монотонно возрастающей выпуклой функцией числа состояний природы, «проверяемых» в единицу времени (последняя величина может содержательно интерпретироваться как производительность затрачиваемых вычислительных ресурсов).

Рассмотрим два частных случая - последовательной и параллельной разработки технологий (см. также пятый раздел

в [8]).

Последовательная разработка технологий. Пусть п технологий, индексируемых символом / = 1, 2, ... , п, разрабатываются последовательно (в порядке их нумерации), а требуемый уровень научения *треб одинаков для всех них. Тогда время, необходимое для разработки всего комплекса технологий, равно сумме времен разработки отдельных технологий:

n 1

(26) Гтах(нь ..., U„) = - ln(l - ^треб ) ^ — .

Un) = -

Минимально необходимые «затраты» при этом равны

(27) Cmin(ui, Un) = c(max {щ K}).

/el, n

Решение задачи минимизации времени (26) при заданном ограничении C сверху на затраты (27) имеет вид

(28) щ = C-(C)

max{^}

ie1,n

т.е. на разработку каждой из технологий выделяется одно и то же количество ресурса.

Из выражений (26) и (28) получаем, что комплекс последовательных технологий представим в агрегированном виде одной технологией со следующей зависимостью времени разработки от количества ресурса:

шах{Кг}

(29) Т(С) = - 1п(1 - ) п .

р с (С)

Обратная задача - поиска минимальных ограничении Стт сверху на затраты, обеспечивающих разработку комплекса последовательных технологий за заданное время Т, - имеет решение

(30) Стт = С

Г-1п(1 - Ареб) п шах{К

1е1,п

Т

Параллельная разработка технологий. Пусть п технологий разрабатываются параллельно. Тогда время, необходимое для разработки всего комплекса технологий, равно максимуму времён разработки отдельных технологий:

(31) Ттш(И1, ..., ип) =

- 1п(1 - Атреб )

Шm{ui } одимые

(32) стах(и1, ..., и„) = £ С К, ) .

1е1,п

Минимально необходимые «затраты» при этом равны

п

> (и

1=1

Решение задачи минимизации времени (31) при заданном ограничении С сверху на затраты (32) имеет вид

(33) Щ = - ТШш 1п(1 - ¿треб ) ,

шт V треб >

ь шт

п

где Тмп - решение уравнения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

п

(34) X с (- 1п(1 - ) С к,) = С.

1=1

Отметим, что в оптимальном решении (33) на разработку каждой технологии выделяется одно и то же количество ресурса

и разработка всех технологий заканчивается одновременно через время Тпь.

Решение обратной задачи - поиска минимальных ограничений Стт сверху на затраты, обеспечивающих разработку комплекса параллельных технологий за заданное время Т, - дается

выражением (34), в которое следует подставить Т*п = Т.

Из выражений (31) и (33) получаем, что комплекс параллельных технологий представим в агрегированном виде одной технологией. Аналитическое выражение для зависимости времени разработки от количества ресурса может быть легко получено в случае линейной функции затрат с( ):

п

Ък

(35) Т(С) = - 1п(1-) .

Таким образом, в случае последовательно-параллельного сетевого графика разработки технологий последний может быть сначала декомпозирован на последовательные и параллельные элементы, допускающие аналитическое описание оптимального распределения ресурсов и имеющие эквивалентное агрегированное представление (см. выражения (29) и (35)). В результате весь сетевой график может быть представлен в простом аналитическом агрегированном виде.

Последовательно-параллельные сети называются агрегируемыми [9]. Известно (см. теорему 1 в [9]), что критерием агреги-руемости сети является отсутствие в ней структур типа «мост». Любую сеть можно превратить в агрегируемую путем разделения ряда вершин на несколько вершин, причем решение задачи минимизации времени или затрат для преобразованной (агрегируемой) сети дает оценку снизу для исходной задачи (теорема 2 в [9]).

5. Задача о переходе от разработки технологии к её продуктивному использованию

Используя полученные в [8] свойства процессов управления технологией, рассмотрим задачу принятия решения о заверше-

нии проектирования (блок 3 на рис. 1 в [8]) и переходе к реализации продуктивной стадии ЖЦ КД (цикл Ь-с на рис. 1 в [8]).

Предположим, что в течение проектирования субъект инвестирует в создание технологии своей КД, чтобы получить выгоды от её использования в ходе реализации. На каждом шаге времени в течение фазы проектирования эффект от КД для субъекта детерминирован и отрицателен - он несёт затраты са независимо от состояний внешней среды.

В течение шага ^ фазы реализации может происходить один из двух возможных исходов:

• внешняя среда приняла одно из известных состояний, для которого технология уже разработана, соответственно субъект получает выгоду V; будем условно обозначать такой исход ^ = 1;

• внешняя среда приняла неизвестное состояние = 0), что потребовало модернизации технологии, и субъект несёт затраты ср, не получая выгоды (очевидно, имеет смысл рассматривать только случай ср > са, если это не так, фаза проектирования не имеет экономического смысла).

Эффект в течение фазы реализации неопределёнен и зависит от состояния внешней среды v£¡t - ср(1 - = (V + ср)& - ср. В зависимости от текущего уровня разработанности технологии

достигнутого к шагу I, матожидание эффекта, получаемого на данном шаге, равно:

V«) = (V + ср ]-Ср = (V + Ср )Рг(£ = 1)-Ср = (V + Ср -Ср .

Общепринятым в подобных задачах является предположение об аддитивности эффекта: эффект, получаемый на интервале времени, равен сумме эффектов, полученных на каждом шаге этого интервала.

Выполнение ЖЦ [8] заключается в том, что перед каждым шагом субъект принимает решение, производить проектирование и нести затраты са или реализовывать КД; в последнем случае он в зависимости от состояния внешней среды получает выгоду V или несёт затраты на модернизацию ср.

Пусть а - функция-индикатор, отражающая решения субъекта КД на каждом шаге ^ и принимающая значения «0» - производить проектирование или «1» - реализовывать КД. Тогда

V(t1, t2) - матожидание эффекта, получаемого субъектом на интервале времени от ti до t2 может быть записано в виде

h

V(h, t2) = Д^- - с, (1 - LJ) dz - ^ (1 - dz) ] .

T=t1

Тогда задача принятия решения о завершении фазы проектирования и переходе к фазе реализации ЖЦ КД ставится в виде поиска решений { d* }, оптимизирующих V(t1, t2):

h

К }=argmax Z[(vL^-i- (1 - z^-i)) dz- cd(1 - dr)].

z=ti

Пусть субъект может последовательно принимать решения на каждом шаге t = 1, ..., T независимо от решений на предыдущих шагах, т.е. все {dt} независимы друг от друга.

Тогда в текущий момент времени t решение принимается так, чтобы оптимизировать V(t, T):

(36) max V(t, T) = max |]Г (v Lz_, - c, (1 -LZ_J) dz -c, (1 - dz)|.

Максимум суммы эффектов равен сумме максимумов эффектов в силу независимости {dt} в различные моменты времени, тогда из выражения (36) следует, что

T

max V (t, T) = J max {(v Lz_, - c, (1 - Lz_l)) dz- cd (1 - dz)} =

{ t} z=t z

= max{(vLt-1 -c, (1 -Lt-1)) d, -cd (1 -d,)}+ max V(t + 1T).

"t {"t+1}

Выполнив преобразования и обозначив

(37) Z = ^ - ^

пор

р c, +v

получим

тах V(Г,Т) = - сЛ + (у + ср) шах -1 - Аор) а, } + ^ V(Г +1,т).

{а} а {а+1}

Откуда следует следующее утверждение. Утверждение 8. Оптимальной (дающей максимально возможный суммарный эффект) будет стратегия вида

Г0, если Д , < Ь ,

(38) ^ (Ь 1) = Г1, " /

( ) ' ('-1) [1, если Д 1 > Ьп°р.

Т° есть оптимальной является стратегия (38) с однократным переключением ^ от 0 к 1 - от фазы проектирования к фазе реализации, причём условие перехода задаётся достигнутым уровнем разработанности технологии: пока этот уровень ниже порогового значения (Ь(-1 < *пор), субъекту выгодно разрабатывать технологию (инвестировать в создание технологии), а начиная с момента tд°с достижения уровня разработанности £шр целесообразно использовать технологию для получения выгод от реализации деятельности, параллельно повышая уровень разработанности. Сначала субъект только разрабатывает технологию, потом продолжает разработку - улучшение в процессе осуществления деятельности.

Основываясь на тождестве Вальда и используя полученные выше выражения (36) и (38), получим в явном виде выражение для априорной оценки максимального эффекта:

(39) К* (0, Т) = (V + е,) £ Ьг_1 - её'дос - е, (Т - ^),

^Чос +1

где tд°с - среднее время достижения уровня Ьпор (явное выражение для tд°с приведено в [8]).

Подставив выражение для Ьт-1 - матожидания уровня разработанности - в выражение (39), получим

т-1 Л к Л

V*(0,Т) = (V + е,) £ I 1 -£рк(1 -ркУ -ей ^ -е, (Т-).

г=*дос V к=1 У

Откуда окончательно:

V*(0,Т) = vT-(V + ей)/доС -(V + е,)-(V + е,) £[(1 -Рк)'»с -(1 -Рк)т].

к=1

Интересно отметить, что оптимальная стратегия не зависит от длительности интервала Т, от неё зависит лишь значение получаемого эффекта У*(0, Т).

Из (37) и свойств монотонности возрастания процесса Ьг (см. утверждение 2 и его расширения на различные варианты комплексирования в разделе 5 в [8]) следует, что при любых сколь угодно больших затратах сЛ и ср, таких что сЛ < ср, и сколь

угодно малой, но отличной от нуля выгоде v найдётся такой момент времени Токуп, начиная с которого деятельность будет приносить положительный эффект, т.е. Токуп определит точку безубыточности ЖЦ КД. Этот момент времени может быть найден из уравнения

K K

а t+X(i - pk У=а2 и+1+X(i - Pk Удос k=1 k=1

относительно t, где 0 < a1 = v/(v + cp) < 1, 0 < a2 = = (v + cd)/(v + cp) < 1. Свойство монотонности возрастания уровня разработанности технологии (см. утверждение 2 и его расширения на различные варианты комплексирования в разделе 5 в [8]) позволяет показать, что последовательная стратегия с однократным переключением является оптимальной среди всех последовательных стратегий принятия решений dt (не только стратегий с независимыми на каждом шаге решениями). Так как оптимальная последовательная стратегия принятия решений не хуже любой априорной стратегии, можно сформулировать следующее утверждение.

Утверждение 9. Последовательная стратегия (38) с однократным переключением является оптимальной среди всех возможных. Получаемый при этом эффект (39) является предельно достижимым, а срок окупаемости Токуп - минимально возможным.

Рассмотрим теперь задачу принятия решения о переходе от фазы проектирования к фазе реализации при неизвестных, но не изменяющихся характеристиках внешней среды (размерность K и вероятности {pk}). В этом случае значение уровня разработанности технологии не может быть вычислено, поэтому непосредственно использовать стратегию (38), сформулированную в утверждении 9, нельзя.

Выражение для матожидания эффекта может быть записано в иной форме:

max V(t, T) = -c„ + (v + ^)max{(Pr(£ = l)-L^)d } + max V(t +1, T).

Отсюда следует, что последовательная стратегия, оптимизирующая матожидание эффекта V(t, T), непосредственно за-

ключается в максимизации: (Pr (4t = 1)-Lnop ) dt ^ max, что

в свою очередь обеспечивается стратегией dt = 1 при Pr(£ = 1) > Znop и dt = 0 в остальных случаях. То есть dt должно формироваться как результат последовательной проверки превышения значением ненаблюдаемого процесса Lt порога Ьпор -фактически проверки сложной основной гипотезы Lt < L^ против сложной альтернативной гипотезы Lt > Lmi,.

При неизвестных характеристиках внешней среды вся информация, на основании которой может приниматься решение, заключается в том, наблюдается ли новое или уже встречавшееся состояние внешней среды. Обозначим через 9k моменты времени, в которые состояния внешней среды принимают не наблюдавшиеся до этого значения. Эти моменты образуют возрастающую конечную последовательность

0 = в1 < в2 < ... < вк < ... < вК, наблюдаемую субъектом. Согласно определениям в каждый из моментов ek процесс Lt увеличивается на неизвестное субъекту значение pk и принимает значе-t

ние Lgt = £ pi, после чего до следующего момента ek+1 не i=1

изменяет значения. Рассмотрим длины серий yk = (ek+1 - ek - 1) при k = 1, ..., К - 1. Значения yk являются независимыми случайными величинами, распределение каждой из которых подчиняется геометрическому закону с неизвестным субъекту пара-

t

метром, равным достигнутому значению Lg =£ pi суммы

k i=1

вероятностей уже реализованных состояний внешней среды. То есть Pr(щ = n) = (l — L0t )L^"-1, их математические ожидания и

дисперсии равны L^ / (l — ) и Lg^ / (l — L^ ) соответственно.

Так как субъект априори не знает размерности К и распределения {pk}, то длина последовательности {^k} не может быть задана, поэтому последовательность {^k} априори должна считаться бесконечной.

Будем обозначать номер последнего наблюдавшегося к текущему моменту времени t нового состояния как 5, т.е. 0 = в1 < в2 < ... < 05 < t, также обозначим щ5= t - в5.

Итак, в каждый момент времени t субъект располагает следующей информацией (на основании этой и только этой информации ему необходимо принимать решение):

• значениями длин серий щ1, щ2, ..., щ5-1, щ5; будем символически обозначать этот набор значений через {щ};

• знанием о том, что каждое из порождается геометрическим распределением с неизвестным, но возрастающим параметром < .

Таким образом, в случае неизвестных свойств внешней среды необходимо синтезировать критерий а?Х{щ}) последовательной проверки сложной основной гипотезы Н0 (значение Ьг до момента t не превысило порога £пор): Ьв < Ьпор против набора

сложных альтернативных гипотез {Н} (значение превысило порог Ьпор в момент $■): Ьв > Ьпор так, чтобы оптимизировать

матожидание эффекта ¥(0, Т). При синтезе критерия вид решающей функции а?Х{щ}) выберем на основании отношения правдоподобия, а параметры критерия - исходя из оптимизации эффекта ¥(0, Т).

Относительное логарифмическое правдоподобие длин серий {щ}, порождаемых геометрическим распределением, имеет вид

Рг (М|Н)

( V \

1 М =1п ^ Ь! * Ц ^ + Е 1п

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

.Рг (М1 Н0)

V 4 у

-

V1 - А у

+ 1п

ГцЛ V ¿0 у

где Ц и Ек - значения процесса Ьг в моменты времени вк, когда верна основная Ц < ¿пор и альтернативная ¿к > ¿пор гипотезы

соответственно, а номер ■ = 1, 2, ..., 5 - номер альтернативной гипотезы, он же номер порядковый номер нового ■-го состояния внешней среды.

Отсутствие информации о свойствах внешней среды не даёт оснований сформулировать конструктивные соображения относительно значений Ц и Ек кроме неравенств ¿к < ¿пор и

Lk > поэтому полагаем L0k = Дор — AL и Пк = L^ +AL (данное предположение ничем не лучше и не хуже любого иного).

Решение отвергнуть основную гипотезу в пользу альтернативы, очевидно, принимается в момент времени t, когда хотя бы одна из функций l(i, t) превысит некоторое пороговое значение /пор, т.е. maxl(i,t)>lпор .

Обозначим l (t) = maxl (i,t) и рассмотрим изменение функции /(t) с течением времени. Если в момент времени t наблюдалось известное состояние внешней среды, то каждое из правдоподобий /(i, t) при 1 < i < s увеличивается на

a = ln

f L + АЬЛ

пор

„1

^ — пор — у

L„„„ — AL

> 0, следовательно и /(t) увеличивается на это

же значение, т.е. 1(1 + 1) = /(¿) + а1. Если наблюдалось новое состояние, то каждое из 1(1, 0 для 1 < г < 5 уменьшается на

a = ln

f 1 — L_ —АЬЛ

пор

„2

V ~ "поР '

1 — L +AL

< 0 . Также формируется новая, (s + 1)-я

функция /(s + 1, t + 1) = 0. Поэтому в этом случае /(t + 1) = max{0; /(t) + а2}.

Получающееся значение функции правдоподобия /(t) сравнивается с пороговым значением /пор. Так как все три используемые константы а1, а2 и /пор подлежат определению, без ограничения общности можно положить ai = 1 и а2 = -а.

Таким образом, вид последовательного критерия, основанного на отношении правдоподобия, для случая неизвестных свойств внешней среды определён. Критерий включает рекуррентное вычисление функции правдоподобия /(t) и на её основе принятие решения:

р ( 0) = 0,

l (t +1) = < l (t) +1 при наблюдении известного состояния, (40) max {0; l (t) — а} при наблюдении нового состояния;

d (< )) = {0 при d,—, ({щ}) = 0 и l (t) < 1пор , ' (Щ}) [1 при d,—1 ({щ}) = 1 или l(t)> ¿пор.

Для завершения синтеза критерия необходимо определить значения констант а и /пор исходя из оптимизации эффекта У(0, Т, а, /пор) при различных предположениях о свойствах внешней среды. Сделаем это.

Получим выражение для матожидания эффекта на некотором интервале времени от 0 до Т (в начале которого уровень научения Ь0 = 0) в виде функции от констант критерия а и /пор, а также от предполагаемых свойств внешней среды - от распределения {рк} и его размерности К.

Будем называть траекторией последовательность номеров {к1, к2, ... , кК} новых состояний внешней среды в том порядке, как они наблюдались в ходе разработки технологии, обозначать вг - моменты наступления состояний кг. Уровень научения в ходе реализации траектории меняется от 0 до 1 и в моменты

г

времени вг принимает значения Ц = 1 рк . Вероятность каждой

' j=I '

К г-

траектории {кг} равна Р({ki})=П рк (1 -)

¿=1 -

Сначала вычислим значение эффекта У({кг}, Т, а, /пор) для каждой траектории, а потом усредним по траекториям:

У (т ^ ) = !У ({к },т ^)Р ({к }) =

{к,}

(41) к Г

= 1У({к},т,а,/пор)П Рк, (1 -^)

{к} >=1 -

При получении выражение для эффекта У({кг}, Т, а, /пор) траектория {кг} является фиксированной, поэтому для простоты обозначений будем считать к = г, тогда р; = р^ , также будем

обозначать Ц = Ц, .

Введём в рассмотрение случайный двумерный дискретный процесс (к(0; /(0) где к(0 - количество состояний траектории, которые ещё не реализовались (после первого момента времени к(0) = К - 1 и далее уменьшается на 1 в моменты вг, не становясь меньше 0), /(?) - значения функции правдоподобия (/(0) = 0 и далее /(0 меняется согласно правилу (40) в диапазоне от 0 до /пор включительно).

Если в некоторый момент времени t второй элемент процесса (k(t), /(t)) достиг значения /(t) = /пор, эффект для данной траектории станет определён и примет значение v(T - t) --cp k(t) -cd t.

Тогда матожидание эффекта для траектории равно

V ({к,}, T, а, /пор )=Z(v(T -1) - cdt-cpk(t)) Pr (£(?); /пор; t) =

t ;k (t)

= vT-(Cd + v) J X tPr(k(t);/пор; t) + X к(t)Pr(к(t);/^; t)[.

Jt; к(t) Cd + V t; к(t) J

В этом выражении, во-первых, первый элемент vT не зависит ни от свойств внешней среды, ни от рассматриваемой траектории, ни от параметров критерия, поэтому в дальнейшем для простоты выкладок будет опущен. Во-вторых, второй элемент имеет смысл издержек на научение - произведение константы (v + cd) на сумму среднего времени достижения требуемого уровня научения (первая сумма) и среднего числа не реализовавшихся к этому моменту состояний среды (вторая сумма), умноженного на ¡л = cp (v + cd)-1.

Таким образом, оптимизация эффекта сводится к минимизации издержек в форме

(42) С ({к,,}, T, а, /пор) = X tPr (к (t); /пор; t) + м X к (t) Pr (к (/); /пор; t) . t; к (t) t; к (t)

Выражение (41) для эффекта с учётом (42) примет вид

V (T, а, /пор )= vT-(Cd + v )X С ({к,}, T, а, /^) P ({к,}) =

{к,}

k Г -Г

= vT-(Cd + v)X С ({к,}, T, а, /пор )П Рк, (1 - Vi)

{к} ,=1 L

Поэтому задача оптимизации эффекта V(0, T, а, /пор) ^ max эквивалентна задаче C(T, а, /пор) ^ max, где

минимизации средних издержек

Кг- j -

С (T, а, /пор ) = X С ({к,}, T, а, /пор )П РК (i - V1 )-

{к,}

: XI X (t + М к(t)) t Pr (к(t); /пор; t) ПГРК (i - L-1Г

[к,}\t;к(t) ) ;=1 L

i=1

Таким образом, для решения задачи необходимо получить выражение для распределения вероятностей Рг(Щ); /пор; ().

Заметим также, что средние издержки могут быть выражены следующим образом:

С (т; а; 1пор ) = 1С ({к, };Т; а; /пор )Р ({к,}) =

{к,}

= + М к (I)) Рг (к (I); /пор; I)! Р ({к,}) =

{к, Я '; к (г) )

= 11гРг (к(г); /пор; * Р ({к, }) + м1 1 к(г) Рг (к(г); /пор ;)Р ({к })

{к} к(г) (к,} г; к(г)

То есть средние издержки выражаются как (44) С(Т; а;/пор) = Г(К; {рк}; а; /^) + М (К; {Рк}; а; /пор), где I (К; {рк}; а; /пор) - среднее время достижения уровня /пор

процессом к (К; {рк }; а; /пор ) - среднее количество состояний внешней среды, не реализовавшихся к моменту достижения процессом /(0 уровня /пор и ¡л = ср (V + с^)"1 - известный параметр, аккумулировано характеризующий соотношение выгод V, затрат Ср и са.

Выражение (44) позволяет качественно проанализировать поведение средних издержек при различных значениях параметров критерия. Очевидно, функция г (•) монотонно растёт по а и

/пор, а к (•) монотонно убывает по а и /пор для любых распределений состояний внешней среды. При /пор = 0 (очевидно, а < /пор) критерий срабатывает на первом же шаге, функция г (•) оказывается равной 1, функция к (•) - равной К - 1, и средние издержки С(Т, 0, 0) = 1 + ¡л (К- 1). Наоборот, при «очень больших» значениях /пор критерий вообще не срабатывает до конца интервала Т, функция г (•) оказывается равной Т, функция

к (•) - равной 0, и средние издержки С(Т, а, да) = Т (при любых а).

Поэтому средние издержки С(Т, а, /пор) имеют оптимум, зависящий от К, {рг}, ¡л, а, /пор (в частном случае оптимум соответствует одному из граничных значений 1 + ¡л (К - 1) или Т).

Согласно определению процесса (к((), /(^) его эволюция описывается следующими правилами:

• В начальный момент времени t = 1 значение процесса детерминировано и равно (к(0); /(0)) = (К - 1; 0).

• В каждый момент t > 0, когда повторно реализуется известное состояние внешней среды, (к(0; /(?)) = (к^ - 1); /^ - 1) + 1). Если при этом /^ - 1) > /пор, то (к(Р; /(0) = = (Щ - 1); /пор). Вероятность этого события равна Ьщ^.

• Если в момент t > 0 реализуется неизвестное состояние внешней среды, то (к(0; /(¿)) = (к^ - 1) + 1; тах{0; /^ - 1) - а}), если при этом /^ - 1) > /пор, то (к(0; /(¿)) = (к(^ - 1) + 1; /пор). Вероятность этого события равна 1 - Ьщ.

Эти правила позволяют сформулировать систему разностных уравнений, описывающих эволюцию значений вероятностей Р(к; /; 0 процесса (к(0, /(0) от времени t > 0 для 0 < к < К и

0 < /< /пор:

(45) Р(к; /; 0 = ЬкР(к; / - 1; t - 1) + (1 - Ьк+1) Р(к + 1; / + а; t - 1), а также начальные условия:

(46) Р(К - 1; 0; 0) = 1 и Р(к; /; 0) = 0 для любых к < К - 1 или

/ > 0,

и граничные условия:

Р (к; /пор; t) = Lk (Р (к; /пор -1; t- 1) + Р (к; /пор; t- 1)) +

+(1"Lk+1)Р(к +1;/пор; t-1),

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а

(47) Р (к; 0; I) = 1 (1 - Ьк+1)Р (к +1; /; I -1),

/=1

Р (к; /; I) = 0 при /пор < / или / < 0 для Ук, VI.

Система разностных уравнений (45)-(47) позволяет рекур-рентно рассчитать значения вероятностей состояний процесса (к(^; /(^). В свою очередь, распределение вероятностей моментов достижения уровня /пор и количества состояний траектории, которые ещё не реализовались, может быть получено как Рг(к(0; /пор; 0 = Ьк Р(к; /пор - 1; t - 1). Это обеспечивает возмож-

ность вычисления средних издержек и, следовательно, возможность численной оптимизации издержек C(T, а, /пор) и выбора оптимальных значений параметров критерия а и /пор таких, что C(T, а, /пор) ^ max для определённых предполагаемых свойств внешней среды - распределения {pk} и его размерности K.

Таким образом, для случая неизвестных свойств внешней среды (размерность K и вероятности {pk}) синтезирован последовательный критерий (40), основанный на функции правдоподобия. Для этого критерия предложен алгоритм выбора оптимальных (по минимуму издержек) значений параметров для определённых предполагаемых свойств внешней среды.

Для исследования свойств синтезированного критерия была разработана имитационная модель, численно реализующая систему разностных уравнений (45)-(47) и позволяющая рекур-рентно рассчитать значения вероятностей Pr(k(t); /пор; t) и средние издержки C(T, а, /пор). На основании этого выбираются (перебором с заданным шагом) оптимальные значения параметров а, /пор в зависимости от предполагаемых свойства внешней среды - распределения {pk} и его размерности K.

Моделирование выполнялось для различных сценариев: предполагалось равномерным распределение состояний внешней среды различной размерности K - от 5 до 80 - при значениях параметра ¡л от 3 до 30. Результаты имитационного исследования позволили сделать следующие выводы.

Во-первых, оказалось, что для всех промоделированных сочетаний K (от 5 до 80 с шагом 5) и ¡л (от 3 до 30 с шагом 3) наименьшее значение средних издержек достигается при а = 0; иллюстративные таблицы приведены в Приложении 1 (см. таблицы П.1-П.4). Содержательную интерпретацию этого результата рассмотрим ниже.

Во-вторых, на основании моделирования были табулированы следующие функции (см. таблицы П.5 и П.6):

ConT(K; ¡л) - минимальных (по /пор при а =0) средних издержек в зависимости от K и л;

/oht(K; ¡) - оптимального значения параметра /пор в зависимости от K и ¡ , при выборе которого достигается минимум издержек Coht(K; ¡).

Из таблиц П.5 и П.6 и графиков рис. П.1 и рис. П2 видно, что при любых фиксированных ¡л обе функции Сопт(К; ¡л) и /опт(К; ¡л) с хорошим «инженерным» приближением (Л2 > 0,99) могут считаться линейными по К, и в целом могут быть численно аппроксимированы как:

(48) Сопт (К; /) = К0,5 • 1П (и) + 0,85) - 0,33 • 1П (/) + 0,13, /опт (К; /) = К • (0,95 • 1П (/) - 0,12) - 0,05 • /л + 0,56.

Выражения (48) могут использоваться для предварительных расчётов и выбора начальных значений параметра /пор при имитационных экспериментах.

Аппроксимации (48) отражают результаты численных экспериментов и вместе с тем характеризуются очень высокой точностью (см. значения В2 на графиках в П.1 и П.2 в Приложении 1). Такая высокая точность аппроксимаций экспериментальных зависимостей линейными функциями требует теоретического анализа, который приведён в Приложении 2.

6. Заключение

В настоящей работе рассмотрен комплекс задач управления разработкой и освоением новых технологий комплексной деятельности. В рамках задачи об оптимальном научении показано, что равномерное разбиение множества возможных состояний природы является «асимптотически» оптимальным с точки зрения минимизации ожидаемой ошибки и энтропии, а также максимизации ожидаемого значения уровня научения. Для задач распределения ресурса в случае агрегируемых технологических сетей на основании изложенного могут быть предложены простые аналитические алгоритмы оптимального распределения ресурса. Для задачи о выборе стратегии переключения с разработки технологии на ее продуктивное использование получена оценка оптимального момента однократного переключения.

Перспективными направлениями будущих исследований представляется получение аналитических решений задач об оптимальном распределении ресурса для максимально широких классов сетевых технологических структур, а также постановка и решение задач об оптимальном научении для более сложных

моделей последнего (в том числе учитывающих нестационарность распределений возможных состояний природы, их зависимость от накопленного опыта, взаимодействия агентов; возможную зависимость затрат от реализовавшихся значений состояния природы и т.д.).

Приложение 1

В таблицах П.1-П.4 приведены результаты имитационного исследования критерия (40) с целью определения оптимальных значений параметров /пор и а. В каждой из таблиц представлены значения средних издержек, параметр /пор меняется по столбцам, параметр а - по строкам. Из таблиц видно, что оптимальные значения средних издержек находятся в верхней строке, т.е. при а = 0.

Таблица П.1. Средние издержки при К = 8; ¡л = 3 для значений параметров /пор = 6, ..., 11 и а = 0, ..., /пор - 1

6 .. . 9 10 11 .. . 19 20

0 14,2 .. . 13,62 13,61 13,66 .. . 15,5 16,1

1 13,9 .. 14,2 14,4 14,6 . 17,6 18,0

2 14,1 .. 14,8 15,1 15,4 . 18,7 19,2

10 17,1 . 21,8 22,3

11 21,9 22,4

12 22,0 22,5

19 22,8

Таблица П.2. Средние издержки при К = 8; ¡л = 27 для значений параметров /пор = 20, ., 35 и а = 0, ., /пор - 1

20 .. . 28 29 30 .. 35

0 27,79 .. . 24,36 23,98 24,33 .. 24,63

1 25,4 .. 24,7 24,9 25,1 . 26,4

2 25,0 .. 25,4 25,6 25,9 . 27,5

19 26,3 .. 28,7 29,1 29,5 . 31,7

20 28,8 29,2 29,6 . 31,8

27 28,9 29,3 29,7 . 32,0

28 29,3 29,7 . 32,0

34 32,0

Таблица П.3. Средние издержки при К = 60; ¡л = 3 для значений параметров /пор = 55, ..., 61 и а = 0, ..., /пор - 1

55 56 57 58 59 60 61

0 83,45 83,42 83,41 83,41 83,42 83,44 83,47

1 87,7 88,0 88,2 88,5 88,8 89,1 89,4

2 93,4 93,8 94,2 94,6 95,0 95,3 95,7

3 98,3 98,8 99,2 99,6 100,1 100,5 101,0

54 134,7 135,7 136,6 137,6 138,5 139,5 140,4

59 139,5 140,5

60 140,5

Таблица П. 4. Средние издержки при К = 60; ¡л = 27 для значений параметров 1Пор = 170, ..., 188 и а = 0, ..., /пор - 1

170 .. 180 181 182 .. 187 188

0 149,35 .. . 148,91 148,87 148,92 .. . 149,07 149,20

1 151,96 .. 154,10 154,35 153,64 .. 155,88 156,15

2 157,32 .. 160,37 160,69 159,73 . 162,69 163,03

3 157,98 .. 165,65 166,01 164,92 . 168,24 168,63

180 225,8 226,4 .

181 226,4 .

186 229,1 229,6

187 229,6

В таблице П. 5 приведены результаты имитационных экспериментов исследования средних издержек для различных значений размерности распределения внешней среды и параметра ¡л, а в таблице П.6 - значения порога /пор, обеспечивающие достижения оптимума издержек. В таблицах П.5 и П.6 значения размерности К меняются по строкам, а параметра л - по столбцам.

Таблица П. 5. Сопт(К; ¡л) - минимальные (по /пор) средние издержки в зависимости от Кил (минимум достигается при 1пор = 1опт(К; ¡л), см. таблицу П. 6)

3 6 9 12 15 18 21 24 27 30

5 7 8 9 10 10 11 11 11 11 12

10 14 17 19 20 21 22 23 23 24 24

15 21 26 29 31 32 34 35 36 36 37

20 28 34 38 41 43 45 47 48 49 50

25 35 43 48 52 54 57 58 60 61 63

30 42 52 58 62 65 68 70 72 74 76

35 49 61 68 72 76 79 82 84 86 88

40 55 69 77 83 87 91 94 97 99 101

45 62 78 87 93 98 102 106 109 111 114

50 69 87 97 104 109 114 118 121 124 127

55 76 95 106 114 120 125 130 133 136 139

60 83 104 116 125 131 137 141 145 149 152

65 90 113 126 135 142 148 153 158 161 165

70 97 122 136 146 153 160 165 170 174 177

75 104 130 145 156 164 171 177 182 186 190

80 111 139 155 167 175 183 189 194 199 203

Таблица П. 6. /опт(К; в зависимости от минимум издержек

¡л) - оптимального значения параметра /пор К и л, при выборе которого достигается Сопт(К; ¡л) (см. таблицу П.4)

3 6 9 12 15 18 21 24 27 30

5 6 8 10 10 12 12 14 14 14 14

10 10 15 19 23 25 25 27 29 29 31

15 14 24 30 34 36 38 42 42 44 46

20 19 31 39 45 49 51 55 57 59 61

25 24 39 48 56 60 64 68 72 74 78

30 29 47 59 67 73 79 83 87 89 93

35 34 55 68 78 84 92 96 100 104 108

40 38 63 77 89 97 105 111 115 119 123

45 43 70 87 100 110 118 124 130 134 140

50 48 78 97 111 121 131 137 145 149 155

55 53 86 107 122 134 144 152 158 164 170

60 58 94 117 133 145 157 165 173 179 187

65 62 102 126 144 158 170 180 188 194 202

70 67 110 136 155 170 183 193 201 209 217

75 72 118 146 166 182 196 206 216 226 232

80 76 125 155 177 195 209 221 231 241 249

и технологическими процессами

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На рис. П.1 и рис. П.2 приведены графики функций средних издержек Сопт(К; ¡л) и оптимального значения порога /опт(К; ¡л) при фиксированных (л в зависимости от К.

Рис. П.1. График зависимости СоШ(К; ¡л) от размерности К при фиксированных л

Рис. П.2. График зависимости /опт(К; ¡л) от размерности К при фиксированных ¡

Приложение 2

Проанализируем полученные результаты, чтобы качественно объяснить выявленные тренды (48).

Оптимальное значение параметра критерия а =0 означает, что функции правдоподобия /(?) критерия (40) формируется следующим образом:

/ ( 0) = 0,

(П2.1) / (: +1) = < / (t) при наблюдении нового состояния,

/ (:) +1 при наблюдении известного состояния.

Это значит, что в любой момент времени (в том числе и в момент срабатывания критерия - достижения функцией правдоподобия /(^ порога /пор) соблюдается равенство Щ) = t -- (К - ^(0), где t имеет смысл общего количества наблюдений, а (К - Щ)) - количества наблюдений, в которых реализовались не наблюдавшиеся до этого состояния внешней среды. Отсюда непосредственно следует (П2.2) t = /(0 + К - Щ.

Математическое ожидание величины (К - к(1)) равно уровню научения, умноженному на К, т.е. К (1 - (1 - 1/К)), а математическое ожидание £(0 количества нереализованных состояний равно £[£(0] = К(1 - 1/К)\ Отсюда следует, что среднее время t (К; |рк}; а; /пор) достижения уровня /пор процессом /(^ и

среднее количество к (К; {рк }; а; /пор ) состояний внешней

среды, не реализовавшихся к моменту достижения процессом /(0 уровня /пор связаны уравнением (П2.3):

(П2.3) к(К;/поР) = К(1 -1 /К)Г(КЛпор).

Здесь и далее обозначаем 1 (К; /Пор ) =

* (К; {рк}; а; ^пор) для

рассматриваемого случая а = 0.

Для минимизации средних издержек (44) необходимо найти такое значение /пор, для которого

(П2.4) — С(Т; а; / ) = — 7(К; / ) + к(К; / ) = 0.

V / v ' ' пор/ д/ V ' п°р/ ^ д/ V ' п°р/

пор пор пор

Подставим (П2.3) в (П2.4) и найдём из получившегося уравнения (П2.5) значение среднего времени достижения t (K; /опт), обеспечивающего оптимум средних затрат, а из t (K; /опт) - необходимое значение оптимального порога /опт:

(П2.5) (l + /Лп(1 -1 /K)K(1 -1 /K)F(K;^11(K; l^) = 0.

Производная 7 (K; l) никогда не обращается в ноль, так как

среднее время монотонно растёт по /. Поэтому искомое значение t (K; /опт) может быть получено приравниванием нулю выражения в скобке в (П2.5):

1 + /и\п (1 -1 / K) K (1 -1 / K )(K; 1опт) = 0. Решим это уравнение относительно t (), учитывая ln (1 —1 / K)* — 1 /К, и получим t (K; /опт), обеспечивающее оптимум средних затрат: (П2.6) 7(K; 1оПГ )* Kln(М).

На основании (П2.2) и (П2.3) найдем приближённое выражение, связывающее t (K; /), k (K; /) и /пор.

В (П2.2) перейдём к математическим ожиданиям: E[t] = E[/(t)] + K - E[k(t)]. Подставим (П2.3) и получим

E [t]=E [/ (t)]+K -K (1 — 1 /K)E[t]. Приравняем E ^l (t (K; l))J = l и получим

J (K; l )* l + K — K (1 — 1 /K )t(K; l), или в иной форме:

(П2.7) l * J(K; l)—K + K(1 — 1 /KfK; l).

Подставим (П2.6) в (П2.7) и получим окончательно

/опт * 1 (К; /)-К + К(1 -1 /К)(К;/) =

= К 1п (/)-К + К (1 -1 /К )К/п(/) =

(П2.8) = К 1п(/)-К + КеК/п(1-1/К)/п(/) *

* К 1п(/)-К + Кв~/п(/) = К 1п(/)-К + К//. В итоге получаем приближённое значение оптимального порога (П2.9) /опг *К/п(/)-К + К/ /.

В силу линейной связи 1 (К; /), к (К; /) и /пор, описываемой выражением (П2.2), основной тренд оптимальных средних будет аналогичен:

(П2.10) С(Т; а = 0; ) : К 1п(/) + К .

Таким образом, аналитические аппроксимации оптимального порога (П2.9) и средних издержек (П2.10) хорошо объясняют основные тренды результатов имитационных экспериментов (48).

Литература

1 АНТОМОНОВ Ю.Г. Моделирование биологических систем. Справочник. - Киев: Наукова думка, 1977. - 259 с.

2 АТКИНСОН Р., БАУЭР Г., КРОТЕРС Э. Введение в математическую теорию обучения. - М.: Мир, 1969. - 468 с.

3 БАЛАЯН ГГ., ЖАРИКОВА ГГ., КОМКОВ НИ. Информационно-логические модели научных исследований. - М.: Наука, 1978. - 344 с.

4 БАРСКИЙ А.Б. Логические нейронные сети. - М.: Интуит, 2016. - 493 с.

5 БЕЛОВ М.В. Организация современной производственной программы и управление ею: состояние и тенденции развития // Управление проектами и программами. - 2015. -№2. - С. 86-99.

6 БЕЛОВ М.В., НОВИКОВ Д А. Методология комплексной деятельности. - М.: Ленанд, 2018. - 320 с.

7 БЕЛОВ М.В., НОВИКОВ Д.А. Сетевые активные системы: задачи планирования и стимулирования // Проблемы управления. - 2018. - №1. - С. 47-57.

8 БЕЛОВ М.В., НОВИКОВ Д.А. Модели разработки и освоения технологии комплексной деятельности // Управление большими системами. - 2019. - Вып. 77. - С.171 - 218.

9 БУРКОВ ВН., БУРКОВА И.В., УАНДЫКОВ Б.К. Задачи оперативного управления проектами // Вестник ЮжноУральского государственного университета. Серия: Энергетика. - 2015. - Т. 15, №4. - С. 129-137.

10 БУРКОВ ВН., ГОРГИДЗЕ И.А., ЛОВЕЦКИЙ С.Е. Прикладные задачи теории графов. - Тбилиси: ВЦ АН ГССР, 1974. - 232 с.

11 БУШ Р., МОСТЕЛЛЕР Ф. Стохастические модели обучаемости. - М.: Гос. изд-во физ.-мат. лит., 1962. - 483 с.

12 ВАСИЛЬЕВ Д.К., ЗАЛОЖНЕВ А.Ю., НОВИКОВ ДА., ЦВЕТКОВ А.В. Типовые решения в управлении проектами. - М.: ИПУ РАН, 2003. - 75 с.

13 ГОЛЕНКО-ГИНЗБУРГ Д.И. Стохастические сетевые модели планирования и управления разработками. - Воронеж: Научная книга, 2010. - 284 с.

14 ДЬЯЧУК П.П. Динамические компьютерные системы управления и диагностики процесса обучения: монография. - Красноярск: РИО КГПУ, 2005. - 344 с.

15 МАГНИЦКИЙ Н.А. Использование бинарной нейронной сети для обнаружения атак на ресурсы распределенных информационных систем // Динамика неоднородных систем. - 2008. - №1. - С. 200-205.

16 МАГНИЦКИЙ Н.А. Некоторые новые подходы к построению и обучению искусственных нейронных сетей / Нелинейная динамика и управление. - М.: Физматлит, 2001. -С. 138-149.

17 МАЙЕР Р.В. Кибернетическая педагогика: Имитационное моделирование процесса обучения. - Глазов: Глазов. гос. пед. ин-т, 2014. - 141 с.

18 Математические основы управления проектами / Под ред. В.Н. Буркова. - М.: Высшая школа, 2005. - 423 с.

19 НОВИКОВ Д.А. Аналитическая сложность и погрешность решения задач управления организационно-техническими системами // Автоматика и телемеханика. - 2018. - №5. -С. 107-118.

20 НОВИКОВ Д.А. Закономерности итеративного научения. -М.: Институт проблем управления РАН, 1998. - 96 с.

21 НОВИКОВ Д.А. Сетевые структуры и организационные системы. - М.: ИПУ РАН, 2003. - 101 с.

22 ПОСПЕЛОВ Д.А. Логические методы анализа и синтеза схем. Изд. 3-е, перераб. и доп. - М.: Энергия, 1974. - 368 с.

23 ПОСПЕЛОВ Д.А. Ситуационное управление. - М.: Наука, 1986. - 288 с.

24 РАСТРИГИН Л.А., ЭРЕНШТЕЙН М.Х. Адаптивное обучение с моделью обучаемого. - Рига: Зинатне, 1988. - 160 с.

25 ТАЗЕТДИНОВ А.Д. Интерактивные процессы в обучающих системах: методы управления. - СПб.: Изд-во Поли-техн. ун-та, 2007. - 155 с.

26 ЮРКОВ Н.К. Интеллектуальные компьютерные обучающие системы. - Пенза: Изд-во ПГУ, 2010. - 304 с.

27 ФЕРСТЕР Г. О самоорганизующихся системах и их окружении / Самоорганизующиеся системы. - М.: Мир, 1964. -С. 113-139.

28 ANZANELLO M., FOGLIATTO F. Learning Curve Models and Applications: Literature Review and Research Directions // Int. Journal of Industrial Ergonomics. - 2011. - Vol. 41. -P. 573-583.

29 AUMANN R. Ru/e-rationa/ity versus Act-rationa/ity // Discussion Paper №497. - Jerusalem: Hebrew University, 2008. -20 p.

30 BRACHMAN R., LEVESQUE H. Know/edge Representation and Reasoning. - N.Y.: Morgan Kaufmann, 2004. - 381 p.

31 DONNER Y., HARDY J. Piecewise Power Laws in Individua/ Learning Curves // Psych. Bull. Rev. - 2015. - Vol. 22. -P. 1308-1319.

32 GOERTZEL B., IKLE M., GOERTZEL I., HELJAKKA A.

Probabi/istic Logic Network. - Heidelberg: Springer, 2008. -333 p.

33 Handbook of Knowledge Representation. - Amsterdam: Elsevier, 2007. - 1034 p.

34 HULL C. Principles of Behavior and Introduction to Behavior Theory. - New York: D. Appleton Century Company, 1943. -422 p.

35 JABER M. Learning Curves: Theory, Models and Applications. - Boka Raton: CRC Press, 2017. - 476 p.

36 KOHUT R., STEINBACH B. Decomposition of Boolean Function Sets for Boolean Neural Networks. - URL: https://www.researchgate.net/publication/228865096_Decompos ition_of_Boolean_Function_Sets_for_Boolean_Neural_Network s. 2014 (дата бращения: 06.01.2018).

37 LUCIO-ARIAS D., SCHARNHORST A. Mathematical Approaches to Modeling Science from an Algorithmic-Historiography Perspective / In: "Models of Science Dynamics. Understanding Complex Systems" / Eds.: Scharnhorst A., Börner K., van den Besselaar P. - Heidelberg: Springer, 2012. -P. 23-66.

38 NOVIKOV D A. Theory of Control in Organizations. - N.-Y.: Nova Science Publishers, 2013. - 341 p.

39 RICHARDSON M., DOMINGOS P. Markov Logic Networks // Machine Learning. - 2006. - Vol. 62. - P. 107-136.

40 SAUSER B., MAGNAYE R., TAN W., RAMIREZ-MARQUEZ J., SAUSER B. Optimization of System Maturity and Equivalent System Mass for Space Systems Engineering Management // Proc. of the Conference on Systems Engineering Research, Hoboken, NJ, March 2010. - 10 p.

41 SAUSER B., RAMIREZ-MARQUEZ J. Development of Systems Engineering Maturity Models and Management Tools // Stevens Institute of Technology. Report No. SERC-2011-TR-014, 2011. - 63 p.

42 STENBERG S. Stochastic Learning Theory. Handbook on Mathematical Psychology. Vol. I. - New York: J. Wiley and Sons Inc., 1963. - P. 1 - 120.

43 THURSTONE L. The Learning Curve Equation // Psychol. Monogr. - 1919. - Vol. 26, No. 3. - 51 p.

44 TOLMAN E.C. Theories of Learning / Comparative Psychology. / Ed. Moss F.A. Chapter 12. - New York: Prentice Hall, 1934. - P. 232-254.

45 VITANOV N., AUSLOOS M. Knowledge Epidemics and Population Dynamics Models for Describing Idea Diffusion / In: "Models of Science Dynamics. Understanding Complex Systems" / Eds.: Scharnhorst A., Börner K., van den Besselaar P. -Heidelberg: Springer, 2012. - P. 69-125.

MODELS OF A TECHNOLOGY OF COMPLEX ACTIVITY CONTROL

Mikhail Belov, IBS, Moscow, Cand.Sc. ([email protected]). Dmitry Novikov, ICS RAS, Doctor of Sc. ([email protected]).

Abstract. The article continues the study of technology of complex activities [8]. The set of tasks of managing the development and mastering of new technologies of complex activity is considered. The problem of choosing standard solutions has been set and solved. In the framework of this task, it was shown that a uniform partition of the set ofpossible states of nature is "asymptotically" optimal from the point of view of minimizing the expected error, costs or / and entropy, and also maximizing the expected value of the level of learning and / or utility. For the tasks of resource distribution in aggregated technological networks, simple analytical algorithms for optimal resource allocation are proposed. The tasks of choosing the optimal strategy for switching from technology development to its productive use have been set and solved. For the case of a priori known nature characteristics, an optimal strategy was obtained and its properties were analytically investigated. For the case of unknown characteristics, a procedure is proposed that is optimal in the class of successive likelihood ratio rules. The results of simulation and analysis of approximations of the properties of the procedure are presented.

Keywords: learning, learning curve, technology, complex activity, control.

УДК 004.827

ББК 32.81 87 65.05 72.4

DOI: 10.25728/ubs.2019.78.8

Статья представлена к публикации членом редакционной коллегии М.В. Губко.

Поступила в редакцию 29.07.2018.

Опубликована 31.03.2019.

Модели управления технологией комплексной деятельности Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Белов Михаил Валентинович, Новиков Дмитрий Александрович

Похожие темы научных работ по математике , автор научной работы — Белов Михаил Валентинович, Новиков Дмитрий Александрович

Models of a technology of complex activity control

Текст научной работы на тему «Модели управления технологией комплексной деятельности»