Научная статья на тему 'Анализ процесса эволюционно-генетических вычислений с точки зрения характеристик обобщения'

Анализ процесса эволюционно-генетических вычислений с точки зрения характеристик обобщения Текст научной статьи по специальности «Математика»

CC BY
62
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭВОЛЮЦИОННЫЕ ВЫЧИСЛЕНИЯ / ГЕНЕТИЧЕСКИЕ АЛГОРИТМЫ / ОБУЧЕНИЕ / ИГРОВЫЕ СТРАТЕГИИ / МАССОВЫЕ ИСКЛЮЧЕНИЯ / СВЕРХСПЕЦИАЛИЗАЦИЯ / СХОДИМОСТЬ / EVOLUTIONARY COMPUTATIONS / GENETIC ALGORITHMS / TRAINING / GAME STRATEGIES / MASS EXCLUSIONS / SUPER-SPECIALIZATION / CONVERGENCE

Аннотация научной статьи по математике, автор научной работы — Имамутдинов Антон Игоревич, Слепцов Николай Владимирович

Актуальность и цели . Эволюционно-генетические вычисления активно применяются для решения сложных задач безотносительно к формально-логическим характеристикам связей между параметрами этих задач. Их основное преимущество состоит в возможности получения некоторой кодировки решения исходя из минимальной информации о входных массивах данных и реакции модели на входные данные. Расширение применения методов требует в числе прочих задач обеспечения высоких показателей обобщения для полученного решения. Методы . Рассмотрение свойств процесса формирования решения при эволюционных вычислениях проведено на примере поиска стратегии решения игровой задачи дилемме заключенного (ДЗ), относящейся к классу некооперативных игр с ненулевой суммой и широко применяемой в теории игр и машинном обучении. Результаты . В результате исследования модели выявлены причины формирования наиболее эффективных стратегий поведения и особенности, накладываемые эволюционным характером получения результата. Выводы . Доказана возможность повышения показателей обобщения для решений, полученных методами эволюционных вычислений применением предложенных подходов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYSIS OF THE PROCESS OF EVOLUTIONARY GENETIC CALCULATIONS IN TERMS OF GENERALIZATION CHARACTERISTICS

Background . Evolutionary genetic calculations are actively used to solve complex problems, regardless of the formal logical characteristics of the relationships between the parameters of these problems. Their main advantage consists in the possibility of obtaining some coding of the solution based on minimal information about the input data arrays and the response of the model to the input data. Expanding the application of methods requires, among other tasks of ensuring high indicators of generalization for the solution obtained. Methods . Consideration of the properties of the decision-making process in evolutionary computations is carried out using the example of finding a strategy for solving the DZ game problem the dilemma of the prisoner, belonging to the class of noncooperative games with a nonzero sum and widely used in game theory and machine learning. Results. The study of the model revealed the reasons for the formation of the most effective behavioral strategies and features imposed by the evolutionary nature of the result. Conclusions. The possibility of increasing the generalization indices for solutions obtained by the methods of evolutionary computing using the proposed approaches has been proved.

Текст научной работы на тему «Анализ процесса эволюционно-генетических вычислений с точки зрения характеристик обобщения»

ОБЩИЕ ВОПРОСЫ ИНФОРМАТИКИ

GENERAL ISSUES OF COMPUTER SCIENCE

УДК 519.718 DOI 10.21685/2307-4205-2019-3-10

А. И. Имамутдинов, Н. В. Слепцов

АНАЛИЗ ПРОЦЕССА ЭВОЛЮЦИОННО-ГЕНЕТИЧЕСКИХ ВЫЧИСЛЕНИЙ С ТОЧКИ ЗРЕНИЯ ХАРАКТЕРИСТИК ОБОБЩЕНИЯ

A. I. Imamutdinov, N. V. Sleptsov

ANALYSIS OF THE PROCESS OF EVOLUTIONARY GENETIC CALCULATIONS IN TERMS OF GENERALIZATION CHARACTERISTICS

Аннотация. Актуальность и цели. Эволюционно-генетические вычисления активно применяются для решения сложных задач безотносительно к формально-логическим характеристикам связей между параметрами этих задач. Их основное преимущество состоит в возможности получения некоторой кодировки решения исходя из минимальной информации о входных массивах данных и реакции модели на входные данные. Расширение применения методов требует в числе прочих задач обеспечения высоких показателей обобщения для полученного решения. Методы. Рассмотрение свойств процесса формирования решения при эволюционных вычислениях проведено на примере поиска стратегии решения игровой задачи - дилемме заключенного (ДЗ), относящейся к классу некооперативных игр с ненулевой суммой и широко применяемой в теории игр и машинном обучении. Результаты. В результате исследования модели выявлены причины формирования наиболее эффективных стратегий поведения и особенности, накладываемые эволюционным характером получения результата. Выводы. Доказана возможность повышения показателей обобщения для решений, полученных методами эволюционных вычислений применением предложенных подходов.

Ключевые слова: эволюционные вычисления, генетические алгоритмы, обучение, игровые стратегии, массовые исключения, сверхспециализация, сходимость.

Abstract. Background. Evolutionary - genetic calculations are actively used to solve complex problems, regardless of the formal - logical characteristics of the relationships between the parameters of these problems. Their main advantage consists in the possibility of obtaining some coding of the solution based on minimal information about the input data arrays and the response of the model to the input data. Expanding the application of methods requires, among other tasks of ensuring high indicators of generalization for the solution obtained. Methods. Consideration of the properties of the decision-making process in evolutionary computations is carried out using the example of finding a strategy for solving the DZ game problem - the dilemma of the prisoner, belonging to the class of noncooperative games with a nonzero sum and widely used in game theory and machine learning. Results. The study of the model revealed the reasons for the formation of the most effective behavioral strategies and features imposed by the evolutionary nature of the result. Conclusions. The possibility of increasing the generalization indices for solutions obtained by the methods of evolutionary computing using the proposed approaches has been proved.

Keywords: evolutionary computations, genetic algorithms, training, game strategies, mass exclusions, super-specialization, convergence.

© Имамутдинов А. И., Слепцов Н. В., 2019

Введение

Эволюционно-генетические вычисления, основывающиеся на применении методов генетического моделирования, генетических алгоритмов (ГА) и генетического программирования [1] активно применяются для решения сложных задач безотносительно к формально-логическим характеристикам связей между параметрами этих задач. Их основное преимущество состоит в возможности получения некоторой кодировки решения исходя из минимальной информации о входных массивах данных и реакции модели (формируемой системы, решения) на входные данные.

Направление поиска в течение цикла генетических вычислений зависит от решаемой задачи, структуры кодированной области поиска для задачи, генетических операторов. При выборе способа кодирования для ГА часто возможно следовать принципу минимальности кодирующего алфавита, но если одновременно следовать принципу создания значимых строительных блоков, способ кодирования не становится настолько очевидным, поскольку интуитивные представления о структуре пространства поиска задачи могут отличаться от пространств, соответствующих двоичной кодировке.

Обобщение как характеристика эволюционного решения

Рассмотрение некоторых аспектов эволюционного обучения и ограничений при использовании ГА проведем на примере получения решения для одного из наиболее сложных для анализа классов задач - моделирования игровых стратегий.

В ряде источников, например в [2, 3], приведены результаты исследования эволюционного решения ряда игр. Модели анализируют популяции стратегий ГА, каждая из которых решает игровую задачу по отношению к каждой другой стратегии в популяции. Генерируемая динамическая среда обеспечивает стратегии высокого качества. Однако высокое качество стратегий внутри популяции не гарантирует такового для популяции произвольной, поэтому и встает вопрос о дополнительных характеристиках решения, именно - показателях обобщения. Такие показатели в настоящее время представляются предельно актуальными в рамках, например, проблематики искусственного интеллекта.

В работах [1, 3] при исследовании процесса эволюционного обучения отмечена характерная особенность развития эволюционного процесса генерации качественных стратегий. При проведении игры достаточно быстро формируется популяция стратегий с высокими характеристиками и в течение длительного периода эпох моделирования они доминируют. Такие периоды составляют порядка 200-300 эпох при стандартном числе эпох моделирования порядка 300. Однако с достаточным постоянством периоды доминирования высококачественных решений заменяются на низкокачественные (так называемые массовые исключения), причем замены происходят достаточно быстро. Подобный характер сходимости наблюдается и при решении других классов задач методами эволюционно-генетического моделирования. Внешние причины таких выбросов отсутствуют, поэтому реальные причины таких характерных отклонений необходимо рассмотреть и по возможности минимизировать их влияние.

Прежде всего отметим, что особи популяции представляют собой некоторые объекты, кодирующие сложноорганизованное решение, представляющее совокупность многих параметров. Оценка особи (в нашем случае - игровой стратегии) проводится либо по локальным показателям качества, либо по комплексным, но с учетом приоритетности отдельных показателей, что незначительно лучше с точки зрения робастности: особи/стратегии, успешные в локальной популяции при изменении условий вследствие накопления мутаций, оказываются непригодными для этих новых условий и деградируют.

Низкие показатели обобщения для высококачественных стратегий в общем случае лежат в таких обстоятельствах. Поиск решения средствами генетического поиска осуществляется как правило на сложном рельефе. В такой области поиска ГА с фиксированной функцией пригодности подобная функция создает аттракторы, часть которых непостоянны. Находясь вблизи от аттрактора популяция слабо изменяется, поэтому притяжение к непостоянному аттрактору создает впечатление сходимости. Одновременно, следствием непостоянности аттрактора являются его изменения, что влечет резкие перемены в популяции.

Поскольку в условиях реального эволюционного обучения данная функция может изменяться, получаемые результаты имеет смысл распространить и на случай нефиксированной функции пригодности.

В качестве базовой задачи, в рамках которой будем исследовать особенности формирования игровых стратегий эволюционными методами, можно выбрать дилемму заключенного (ДЗ), решения, результаты, анализы и стратегии, образованные на ее основе, которые достаточно широко используются в целом ряде областей, таких как теория управления, экономика, машинное обучение.

Она фактически является удобным тестовым примером, дающим простое и наглядное представление о характере эволюционного процесса обучения в условиях неопределенности, позволяет легко задавать параметры, позволяющие легко проследить тренды стратегий, оценить их качество, дать оценку их критическим параметрам.

Задача формулируется стандартным образом - для двух участников на каждом шаге игры возможен выбор одной из двух стратегий - сотрудничество либо отказ от него, причем каждый из участников не имеет данных о выборе другого. При этом для каждой пары выбранных стратегий существует оценка выигрыша (премии) Я для пары С-С, Р - для пары О-О, S - для пары С-О и Т- для пары О-С. Соотношения для величины выигрыша следующие:

Принимаемые значения для данной реализации игры представлены на рис. 2.

Был установлен ряд ограничений. Первое, игра не бесконечна, число возможных итераций -50 раундов. Второе ограничение - стратегия сохраняет данные лишь только о трех предшествующих реализациях. Генотип стратегии допускает битовое представление возможных действий (0 для сотрудничества, 1 - для отказа) и формирует таблицу поиска.

Например, пусть три предыдущих действия одного игрока были «С - О - С « (010), соответствующие три действия его противника были «О - С - О» (100), их объединение формирует строку 1000102 (3410). Действие указывается в 34 разряде генотипа одного игрока. У противника объединение действий даст 0 1 0 1 002 ( 2010), поэтому указание действий проводится в позиции 20 генотипа.

Поскольку в принятой кодировке отсутствует возможность обратиться к предыдущим шагам для начальных трех позиций, относящиеся к ним действия сформированы искусственно и хронология фактических результатов начинается с четвертой итерации.

Сверхспециализация: эволюция взаимодействия. Стратегии поведения участников ДЗ варьируются от крайне антагонистических до крайне коллаборационных. При анализе любых реализаций в условиях (1) характерным показателем эволюции стратегий поведения является эволюция сотрудничества, поскольку стратегии совместных действий оказываются в конечном счете жизнеспособнее и обеспечивают деградацию антагонистичных участников. Типичный пример эволюции стратегии сотрудничества представлен на рис. 3. Начальные популяции предполагают случайные стратегии, в том числе индивидуалистические, дающие в этих условиях определенные возможности развития стратегий. На рубеже 9-14 поколений стратегии индивидуализма вырождаются (в конечном счете из-за того, что возможности обоих участников выше), стратегии сотрудничества обеспечивают успешное противостояние оппонентам и обеспечивают более высокий уровень показателей. На рис. 1 значение среднего выигрыша указывает на стратегию сотрудничества, а именно, после 50 итераций доминирующим является сотрудничество, дающее средний выигрыш 3. На рис. 2 показано изменение средней оценки пригодности и ее стандартного отклонения в эволюционирующих поколениях (300) для 30 прогонов модели.

T > R > P > S ; R > (S + T)/1.

(!)

Эволюция взаимодействия

усT<rv.....-^¿зд^чДучV

\ Я

9.1 _I_I_I_I_I_

Ü 50 m 150 2UU 250 ш

Поколения

Рис. 1. Средний выигрыш

О 50 100 150 200 250 Ж

Поколения

Рис. 2. Средняя оценка пригодности

Поколения

Рис. 3. Смещение в популяции

Оценка оптимального числа итераций может быть проведена с помощью данных, приведенных на рис. 3, отображающем зависимость среднего отклонения смещения для популяции в зависимости от номера итерации.

Значение оценки равное 0,85 определяет сводимость конкретной позиции к символу 0 либо 1 в 85 % случаев. Характер кривой после 250 поколений определяет устойчиво сходимый процесс.

Стабилизация смещения в популяции на 85 %, а не на 100 % объясняется следующим обстоятельством. Схождение генотипа к определенной стратегии показывает, что в этом случае он обеспечивает реакцию для всех имеющихся внешних воздействий, иначе говоря, и указание в генотипе членов популяции на необходимость выбора стратегий для таких не встречающихся обстоятельств не дает ни преимущества, ни штрафа. Фактически мы наблюдаем частичную атрофию стратегий, что вполне может вызывать непредсказуемые действия.

Разнообразие признаков в популяции обеспечивается двумя причинами. Первая - это отсутствие как преимуществ, так и штрафных санкций в стадии стабилизации параметров. Вторая - влияние мутации. Отсюда, несмотря на недостижимость уровня смещения, в 100 % абсолютно доминирующей стратегией в популяции является С - С, т.е. сотрудничество. Остается открытым вопрос, в какой степени эта стратегия будет обладать свойствами универсальности при изменяющихся условиях, иначе говоря, свойствами обобщения.

Специализация и возникновение массовых исключений. При достижении определенных показателей стабильности в характеристиках обучения встает проблема сроков окончания обучения. Можно либо продолжать его для расширенного диапазона ситуаций, в основном, не встречающихся на практике, либо можно ограничиться уже рассмотренными, наиболее характерными, но неизбежно обладающими свойствами локальности. Расширение диапазона влечет расширение разнообразия свойств и повышение устойчивости к внешнему окружению или в конечном счете к повышению обобщающей способности полученного решения. Сужение диапазона ситуаций ведет к сверхспециализации, результатом которой становится ослабление устойчивости, ухудшение обобщающих способностей. Незначительный выход за пределы обучающих множеств ситуаций, например, в результате тривиальной мутации, ведет к резкому смещению в пространстве поиска, нивелируя предвествовашие полученные результаты.

На рис. 4 показан процесс схождения к оптимальной стратегии, в целом аналогичный рис. 1. Однако появление мутации в одной из итераций резко меняет характер процесса. Стратегия отказа от сотрудничества, успешная при общем предшествовашем доминировании стратегии сотрудничества, использует локальные преимущества временного характера и расширяется до тех пор, пока число жертв стратегии незначительно и количество некооперирующихся особей не достигнет предела, за которым такая стратегия перестает давать преимущества (эпохи 222 - 310). В результате популяция возращается к прежней стратегии С-С, вернется к стратегии сотрудничества, но в нашем случае примерно 1/5 часть процесса ушла на ликвидацию выброса.

"'"0 50 100 150 200 250 Ш 350 400 450 500

Поколения

Рис. 4. Оценка среднего выигрыша, ситуация т.н. исключения

В целом аналогичные выбросы редки, а периоды стабильности длительны, что соответствует взаимным уровням влияния мутаций и кроссовера на эволюционный процесс. В условиях длительного моделирования, несмотря на достаточную редкость, выбросы достаточно обычны, поэтому типичным оказывается характер поведения модели на рис. 1. В среднем рис. 4 типичен лишь для одного прогона из 30, иными словами, имеет вероятность порядка 0,03-0,04, к тому же чаще всего выбросы не носят столь резкого характера.

Отметим, что если общей причиной выбросов является сверхспециализация решений (генотипов) в окружении без разнообразных внешних факторов, то их реализация в модели обусловлена такими причинами.

В данном случае генотип особи - это таблица поиска с возможными вариантами поведения (С либо О) для каждой из потенциально возможных последовательностей предыдущих шагов развития игровой стратегии. В нашем случае стратегия игрока А противостоит стратегии игрока В после длительного периода доминирования стратегии С - С (взаимное сотрудничество игроков, приносящее обоим максимальный средний выигрыш).

Пусть предшествующая хронология трех действий:

- для А - «О-С-С»;

- для В - «С-С-С».

В кодировке «0» для С и «1» - для О запись указанной хронологии для В - (100000 =32ю) определяет требование указать в 32 разряде строки генотипа, т.е. изменение игроком А характера поведения определит в свою очередь действие в таблице поиска, формирует генотип второго участника. Очевидное принятие ответных мер как стратегия ответных действий на выбор явно конфликтного взаимодействия не приводит к ожидаемому результату в развивающейся закрытой популяции взаимодействующих особей (рис. 5). Несмотря на очевидное селективное давление, конкретный разряд как действие, предпринятое на начальном участке эволюционного развития популяции после односторонней неудачи в виде выбора стратегии возмездия как ответной меры, в популяции оперативно восстанавливается как доминирующая стратегия сотрудничества. Для чистой популяции участников с диминированием стратегии С-С какая-либо односторонняя неудача исключена, и выбор после односторонней неудачи стратегии возмездия маловероятен. В результате для всех членов популяции будет обеспечен дрейф к «0» (С) в бите 32.

Поколения

Рис. 5. Вариант массового исключения

Возможна еще ситуация, когда неудачный выбор стратегий в нескольких различных итерациях вызваны разными обстоятельствами и им противостоят стратегии, вырабатывающие меры реагирования. И в этом случае выбор в совокупности стратегий ответных мер в нормальных условиях невыгоден.

На графике рис. 6 большинство членов популяции содержало 0 (С) в разряде 32 примерно до 200 поколения. Такая особенность сверхтесного сотрудничества может стать недостатком, если в результате либо внешних воздействий, либо мутации возникнет стратегия, использующая этот недостаток, как например, на рис. 4. Подобная мутация первоначально сгенерировала большое число невзаимодействующих потомков с доминирующей стратегией возмездия, следствием чего стало быстрое снижение оценки пригодности и, как следствие, восстановление линии на стратегию С.

Поколения

Рис. 6. Среднее значение выбранного бита

Данные обстоятельства поясняют локальные обстоятельства резких нарушений сходимости, представленных на рис. 4. Общие причины такого развития могут быть сформулированы следующим образом:

1. Объективно к любой эволюционной среде в той или иной степени развивается специализация вплоть до сверхспециализации.

2. Сверхспециализация неизбежно предполагает набор уязвимостей в стратегиях, которые могут быть использованы в собственных интересах, возникших в результате мутаций особей с резким ростом предельных показателей оценок пригодности или качества функционирования.

3. Далее средние показатели качества постепенно и достаточно быстро ухудшаются, вследствие деградации неприспособленных особей, и популяция в конечном счете вновь стабилизируется, причем в условиях малого числа мутаций стабилизация происходит на уровне, предшествовавшем выбросу.

В результате для ГА в рассматриваемой модели реализации, соответствующей стандартному или каноническому, сверхспециализация к предельно выгодной стратегии дает умеренные либо недостаточные характеристики обобщения. Для ряда задач это может быть допустимо, в противном случае можно предложить ряд мер по повышению свойств обобщения ГА.

Способы улучшения свойств обобщения ГА

Кратко рассмотрим возможные способы улучшения свойств обобщения ГА, имея в виду возможность впоследствии дать их подробный анализ и оценку.

Достаточно очевидными и простыми с точки зрения реализации являются такие подходы:

1) начать процесс эволюционного моделирования с изначально высококачественных особей популяции. По сути, предполагается селекционный отбор на этапе формирования начальной популяции. В условиях искусственной биологической эволюции это резко ускоряет получение результата;

2) повысить разнообразие обучающей среды введением дополнительных стратегий, например, при решении задачи ДЗ поставить задачу игры против дополнительных игроков.

В заключение отметим некоторые ключевые моменты получения числовых оценок результатов:

1) сходимость процесса стабильно наблюдалась по прошествии 250 поколений, при том, что различные среды обучения не оказывали существенного влияния на это значение. Отсюда значительное превышение таких границ не имеет смысла для повышения качества решения;

2) размер эволюционирующей популяции выбран в 100 особей. Популяция обеспечивает формирование усредненной стратегии по следующему принципу: признак принимается равным определенному значению - 0 либо 1 (соответственно, действия С либо О), если он равен этому значению для 50 % или большего числа членов популяции;

3) Для оценки характеристик, влияющих на показатели обобщения, тестовые наборы, предполагали среды с принципиально разнообразными стратегиями:

- сотрудничество;

- стратегия возмездия либо ответных воздействий;

- случайные стратегии.

Заключение

В результате рассмотрения было показано, что

- для стандартного ГА характерно формирование результатов с недостаточно высокими показателями способности обобщения, что может вызвать ситуации эволюционных выбросов или крахов;

- частичным выходом из ситуации недостаточно высоких характеристик обобщения является применение способов повышения видообразования и совместного эволюционного изменения множества характеристик популяции и обучающих стратегий;

- существенного повышения качества решения можно добиться применением динамических процедур формирования критериев оценки.

Библиографический список

1. Koza, J. Genetic programming: a paradigm for genetically breeding computer population of œmputer programs to solve problems / J. Koza. - Cambridge, MA : MIT Press, 1992.

2. Батищев, Д. И. Оптимизация многоэкстремальных функций с помощью генетических алгоритмов / Д. И. Батищев, С. А. Исаев // Высокие технологии в технике, медицине и образовании : межвуз. сб. науч. тр. - Воронеж : ВГТУ, 1997. - С. 4-17.

3. Вороновский, Г. К. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности / Г. К. Вороновский, К. В. Махотило, С. Н. Петрашев, С. А. Сергеев. - Харьков : Основа, 1997.

References

1. Koza J. Genetic programming: a paradigm for genetically breeding computer population of somputer programs to solve problems. Cambridge, MA: MIT Press, 1992.

2. Batishchev D. I., Isaev S. A. Vysokie tekhnologii v tekhnike, meditsine i obrazovanii: mezhvuz. sb. nauch. tr. [High technologies in engineering, medicine and education: inter-university collection of proceedings]. Voronezh: VGTU, 1997, pp. 4-17. [In Russian]

3. Voronovskiy G. K., Makhotilo K. V., Petrashev S. N., Sergeev S. A. Geneticheskie algoritmy, iskusstvennye ney-ronnye seti iproblemy virtual'noy real'nosti [Genetic algorithms, artificial neural networks and virtual reality problems]. Kharkov: Osnova, 1997. [In Russian]

Имамутдинов Антон Игоревич

аспирант,

Пензенский государственный университет (440026, Россия, г. Пенза, ул. Красная, 40) E-mail: [email protected]

Слепцов Николай Владимирович

кандидат технических наук, доцент, кафедра экономической кибернетики, Пензенский государственный университет (440026, Россия, г. Пенза, ул. Красная, 40) E-mail: [email protected]

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Imamutdinov Anton Igorevich

postgraduate student,

Penza State University

(440026, 40 Krasnaya street, Penza, Russia)

Sleptsov Nikolay Vladimirovich

candidate of technical sciences, associate professor, sub-department of economic cybernetics, Penza State University (440026, 40 Krasnaya street, Penza, Russia)

Образец цитирования:

Имамутдинов, А. И. Анализ процесса эволюционно —генетических вычислений с точки зрения характеристик обобщения / А. И. Имамутдинов, Н. В. Слепцов // Надежность и качество сложных систем. - 2019. - № 3 (27). - С. 84-91. - БОТ 10.21685/2307-4205-2019-3-10.

i Надоели баннеры? Вы всегда можете отключить рекламу.