Механизмы получения высококачественных решений при эволюционно-генетическом поиске

Донской Д.А.; Слепцов Н.В.; Зияутдинов В.С.

Донской Д.А., Слепцов Н.В. , Зияутдинов В.С. МЕХАНИЗМЫ ПОЛУЧЕНИЯ ВЫСОКОКАЧЕСТВЕННЫХ РЕШЕНИЙ ПРИ ЭВОЛЮЦИОННО - ГЕНЕТИЧЕСКОМ ПОИСКЕ

Применение на стадии проектирования классических методов оптимизации значительно затрудняет то обстоятельство, что на практике бывает достаточно сложно зафиксировать свойства функциональной зависимости выходных параметров от входных величин, еще сложнее, а иногда невозможно привести аналитическое описание такой зависимости. Большинство же методов оптимизации основываются на использовании априорной информации о характере поведения целевой функции, а задача определения принадлежности функции тому или другому классу сопоставима по сложности с исходной [1] . В связи с

этим вызывают интерес методы, способные отыскивать решения практически при полном отсутствии предположений о характере исследуемой функции. Примером задачи, решаемой такими методами, может служить обучение нейроподобной сети, в частности, подбор таких значений весов, при которых достигается минимальная ошибка [2,8].

В общей постановке задача многопараметрической оптимизации может быть представлена следующим образом,

F* = F(x\,xj,...,x*N) = max F(xx,xN)®

a — Xj — b,..., a — X\ — b

при этом дифференцируемость, непрерывности, удовлетворение условию Гельдера не являются необходимым свойством рассматриваемого класса задач, более того, целевая функция может быть не определена вне допустимой области, а внутри допустимой области иметь несколько глобальных экстремумов.

К таким методам оптимизации относятся эволюционные методы поиска [4,7] и, в частности, генетические алгоритмы (ГА), моделирующие процессы природной эволюции. В данной работе рассматривается особенности эффективной реализации ГА с точки зрения оптимальной организации стратегии оценки и отбора решений с максимально близким к оптимальному приближению и максимально возможным набором характеристик, обеспечивающих обобщающие способности отобранного решения.

Подобными алгоритмами могут быть решены различные классы задач, например, задача быстрой локализации одного оптимального решения, отыскание нескольких (или всех) глобальных экстремумов при определенных условиях, наконец, отображение ландшафта исследуемой функции.

Принцип работы ГА основан на моделировании некоторых механизмов популяционной генетики [2,8] :

решение ищется среди текущего множества возможных решений - популяции особей, свойства которых -суть параметры или характеристики искомых решений в прямом или кодированном виде; манипулирование хромосомным набором при формировании генотипа новой биологической особи путем наследования участков хромосомных наборов родителей (кроссовер) обеспечивает формирование новых комбинаций решений за счет уже существующих; случайное изменения генотипа, известное в природе как мутация, обеспечивает появление принципиально новых кодировок. Важным механизмом, заимствованным у природы, является процедура естественного отбора, направленная на улучшение от поколения к поколению приспособленности членов популяции путем большей способности к "выживанию" особей, обладающих определенными признаками.

Реализацию базового ГА можно представить как итерационный процесс, включающий несколько этапов:

генерация исходной популяции, воспроизводство потомков: выбор родительской пары,

выбор и реализация одного из операторов кроссовера, выбор и реализация одного из операторов мутации, создание репродукционной группы,

процедура отбора и формирование на его основе нового поколения,

Переход к п.2, если не выполнено условие окончания.

Конкретизация базового метода ведет к появлению целого спектра алгоритмов, общим для которых является принцип получения оптимального решения путем оценки множества возможных решений, их комбинации по тем или иным принципам, получения множества новых решений, их отбор, оценка с дальнейшим повторением процесса. Примерами реализации алгоритмов, удовлетворяющим перечисленным особенностям, могут служить алгоритмы, представленные на рис. 1-3.

Текущая '«нераци* Следующая

1 мютксгтте решении инженерной »плачи 1 генерация —гг

Т

Построение « »[ Бао*

ЦФ ЮШ1ЮЦ1Н1ННОЙ

? адаптации

Гортнроока на 1

основе ЦФ 1

1 1снетнческие

Селекция *■ операторы

1, 2.............к ] ____________________________________________1

Акшпп рстулиитт j Выход ]

Рис1. Простой ГА

Рис.

Ду

^ Вммц ~)

2. Генетический поиск с модификацией механизма формирования критериеЕ

Рис. 3. Метагенетический оптимизационный процесс

При достаточно разнородном составе блоков, формирующих процессы, представленные на рис. 1-3, все они соответствуют общей схеме эволюционно - генетического процесса. Их очевидные различия служат иллюстрацией утверждения, что ГА - это не столько алгоритм в традиционном понимании, а некий общий подход к решению задач. В рамках анализа этого подхода требуется эффективно разрешить целый набор достаточно нетривиальных задач: выбор способа кодирования/представления решения, формирование исходной популяции, оптимальной в некотором смысле, выбор множества генетических операторов и их параметров, обеспечение направленности генетического поиска, борьба с т.н. преждевременной сходимостью, оценка и отбор особей для эффективной работы алгоритма и т.д. Каждая из подобных задач характеризуется своими наборами проблем, затрудняющими проведение компактного и прозрачного анализа ГА как такового, особенно учитывая неоднозначность постановок задач, преимущественно решаемых ГА. Поэтому целесообразно сосредоточить внимание на механизмах, обеспечивающих эффективное функционирование процесса как такового, после чего можно будет определиться с оптимальной реализацией базовых механизмов, составляющих основные компоненты конкретной реализации ГА.

Рассмотрение некоторых аспектов оценки характеристик ГА проведем применительно к решению одного из наиболее сложных классов задач - моделирования игровых стратегий.

В [8] приводятся результаты исследования эволюционного решения ряда игр, в которых использовались популяции стратегий ГА, каждая из которых решает задачу по отношению к каждой другой стратегии в популяции . Такая динамическая среда позволяет получить высокие результаты.

При этом возникает вопрос: может ли стратегия, полученная эволюционным путем в рамках соб-

ственной популяции оказаться успешной для другой популяции; иными словами, насколько высоки характеристики обобщения , обеспечиваемые эволюционным обучением? Обобщение - крайне важный аспект обучения, в частности, в значительной степени интерес к искусственным нейронным сетям основывается на их потенциальной способности обеспечивать достаточно высокие показатели обобщения.

В [8] при исследовании процесса эволюционного обучения было показано, что когда популяция стратегий разыгрывает игру против членов собственной популяции, в течение длительных промежутков времени в популяции доминируют высококачественные стратегии, но время от времени они оказываются внезапно замененными на низкокачественные. Эти т.н. массовые исключения обусловлены не внешними причинами. Подобные исключения наблюдались и при решении других задач методами эволюционно - генетического моделирования. В естественной эволюции аналогом для такой ситуации является балансирование относительно некоторой точки равновесия со значительными отклонениями в стороны.

Отметим, что особи с самыми высокими локальными показателями качества в популяции часто имеет существенные недостатки, в результате массовые исключения вызываются отсутствием у эволюционных стратегий решения задачи робастности, иначе говоря, стратегии, успешные в локальной популяции, в условиях, когда под действием мутации появляются новые качества, оказываются непригодными для новых условий и вымирают.

Общая причина низких характеристик обобщения для высококачественных стратегий в следующем. Для моделей ГА с фиксированной функцией пригодности эта функция создает в области поиска аттракторы, некоторые из которых непостоянны. Притяжение к непостоянному аттрактору создает впечатление сходимости, поскольку популяция слабо изменяется, находясь вблизи от аттрактора, но поскольку он является непостоянным, при его изменении в популяции возникают кардинальные изменения.

Подобные результаты имеет смысл расширить на случай нефиксированной функция пригодности, поскольку в случае реального эволюционного обучения данная функция может изменяться.

Применим эволюционный ГА для итерационного решения игровой стратегии дилеммы заключенного (ДЗ) . Дилемма относится к классам некооперативных игр с ненулевой суммой и широко применяется в машинном обучении, экономике, теории игр. Удобство задачи - в возможности легко наблюдать проявление результатов сверхспециализации отдельных стратегий.

Формулировка задачи представлена на рис.4.

Рис. 5 Т > К > Р > 8

(1)

К > (8 + Т)/2

Уровень выплат показан на рис. 5. Они удовлетворяют требованиям (1).

Общие характеристики модели. Число итераций на игру установлено в 5 0. Для модели примем, что стратегия сохраняет информацию только о трех предыдущих итерациях. Каждая итерация дает 4 возможных результата (рис 5), три итерации дадут 64 возможных стратегий. Двоичное представление геноти-

па стратегии перечисляет действие (0 для сотрудничества, 1 - для отказа), взятое для каждой из 64 возможных хронологий и представляет простую таблицу поиска.

Если предыдущие 3 действия 1 игрока были " отказ - сотрудничество - отказ" (101), а аналогичные 3 действия его противника были "отказ, сотрудничество, сотрудничество " (10 0), их сочетание

(хронология 2 игрока - сначала), дает 100101 = 37ю. Выбранное действие( 0 или 1 ) записываем в бите 37 генотипа 1 игрока. Противник сочетает действия, получая 101100 = 44ю, и указывает действие ( также 0 или 1) в позиции 44 своего генотипа.

Для первых 3 итераций отсутствует возможность обратиться к предыдущим шагам, поэтому в геноти-

пе следует искусственно описать действия, относящиеся к ним. Начальные условия требуют 6 дополнительных битов, в результате строка генотипа имеет размерность 7 0 битов. Это означает наличие 270~ 1021 возможных стратегий. 6 битов дополнительного пространства обеспечивают предигру в 3 шага для обоих игроков, и указывает 64 действия до первого раунда.

Эти стратегии не имеют механизма подсчета, который мог позволить им узнавать, что число итераций конечно. С другой стороны, по [7] игра конечна. Мы не будем рассматривать способы как обеспечить эффективно неизвестной длину игры.

Индивидуальная стратегия вырабатывается при решении ( игре) ДЗ против всех остальных членов популяции. Среднее число платежей, полученное игроком в игре, характеризует пригодность - прямую эволюционную оценку.

Эволюция взаимодействия. Интересной особенностью ДЗ является эволюция сотрудничества. При любых попытках моделировать наиболее антагонистические формы поведения, стратегии совместных действий оказываются жизнеспособнее и обрекают невзаимодействующих участников на вымирание.

На рис. 6 показана эволюция стратегии сотрудничества. От начальных популяций случайных стратегий развитие идет преимущественно за счет стратегий индивидуализма, однако на рубеже 10 - 13 поколений эти стратегии вырождаются, поскольку они не могут использовать возможности друг друга, в итоге наивысшие результаты дают стратегии сотрудничества, когда они могут противостоять оппонентам. Из условий рис. 5. выигрыш взаимного сотрудничества составляет 3 единицы. Средний выигрыш на рис. 6 указывает как раз на стратегию сотрудничества. Генетический дрейф может вызвать наличие в популяции практически идентичных особей. Вопрос о сходимости (рис. 6) решается в предположении, что после 50 поколений доминирующим является сотрудничество, дающее средний выигрыш 3. На рис. 7

представлена средняя оценка пригодности и ее стандартное отклонение по результатам 30 прогонов ГА.

Рис.7

Анализ результатов, представленных на рис.6 - 7 также показывает достаточность 250 - 300 поколений особей для сходимости процесса. Даже при том, что смещение никогда не достигает предела 10 0 %, можно быть уверенным, что стратегия сотрудничества эффективно доминирует в популяции ( рис

6.). Данное обстоятельство интересует нас с точки зрения обобщающей способности эволюционного обучения.

Массовые исключения при сверхспециализации. Вопрос о продолжении обучения в эволюционирующей популяции можно поставить так: стоит ли проводить обучение для широкого диапазона ненаблюдающихся ситуаций или можно ограничиться некоторой локальной совокупностью? Очевидно, что без разнообразия свойств популяция сверхспециализируется и настолько теряет способность к обобщению, что результаты случайной мутации могут уничтожить результаты эволюционного процесса.

На рис. 8 показано схождение к стратегии сотрудничества, аналогичное рис. 6. Но в поколении 222 появилась новая мутация, которая использует соседей, поддерживающих стратегию сотрудничества. Эта успешная стратегия отказа от сотрудничества распространяется до тех пор, пока некооперирую-щихся особей популяции не станет такое количество ( и число жертв будет достаточно мало), что эта стратегия станет невыгодной и популяция вернется к стратегии сотрудничества.

3.6 ЗА 3.2

3

2.6 2.6 2.4

. ] і - , 1 1 1 1 1 1 наивысшая средняя

г і і ' 1 І 1 ї ї _ 1 * 1 1м 1 ІП И и 1 I »11/ -V " 1 и 1 'И I I I

О 50 100 1.50 200 2-50 300 350

-100 450 500

поколения

Рис.8

В работах [3,4] отмечено, что подобные выбросы могут случаться неоднократно при достаточно длительном моделировании. Выбросы, подобные показанным на рис. 8, относительно редки и, соответственно, периоды стабильности достаточно длительны. Большинство прогонов модели соответствует рис. 6. Выброс на рис. 8. соответствует одному наблюдению на 3 0 прогонов модели. Выполнение еще 7 0 показало только еще один подобный выброс, плюс несколько выбросов без таких резких характеристик. Что же является причиной относительно редких выбросов? Основная - развитие сверхспециализации в специфической среде ( окружении), не отличающейся разнообразием внешних воздействий. Непосредственная же причина следующая.

Напомним, что генотип особи в нашем случае - таблица поиска, которая перечисляет действия (или "сотрудничество" или "отказ") для каждой возможной хронологии предшествующих шагов определенной длины. Рассмотрим сценарий поведения: после длительного периода взаимного сотрудничества, стратегия А противостоит стратегии В.

Последние три действия для А - "отказ, сотрудничество, сотрудничество";

Последние три действия для В - " сотрудничество, сотрудничество, сотрудничество".

Пусть "0" представляет сотрудничество, "1" представляют отказ, тогда кодировка хронологии последних 3 шагов (100000 =32ю) указывает для В необходимость произвести действие в бите 32 строки генотипа. ( Для А кодировка 000-001). Таким образом, односторонний неудачный шаг А вызывает действие (сотрудничество или отказ), отмеченное в бите 32 таблицы поиска, которая формирует генотип

для В. Стратегия ответных действий побудила бы при оценке этого действия как неудачи принять от-

ветные меры. Но при эволюции закрытой популяции взаимодействующих особей получится следующее. Для прогона ГА, представленного на рис.8 изменение содержимого бита 32 показано на рис. 9.

На рис.9, на начальном участке видно селективное давление на бит 32 как действие, предпринятое после односторонней неудачи в качестве ответной меры ( пример возмездия ). Но вследствие штрафных санкций - рис. 5, сотрудничество быстро доминирует в популяции. Если имеется чистая популяция взаимосотрудничающих особей, односторонняя неудача исключена. Возмездие после односторонней неудачи становится несущественным, так же, как наличие аллергической реакции на цветущие растения является несущественным в их отсутствие. Это может обеспечить для всей совокупности дрейф к "0" (сотрудничество) в бите 32 для каждой особи.

При непредвиденных обстоятельствах может быть оказано селективное давление к стратегии сотрудничества после односторонней неудачи. Представим две стратегии, принимающие ответные меры против неудачи с появлением в последующем поколении другой неудачи: если одна неудача вызвана некоторыми причинами, то другие неудачи в следующей итерации - другими причинами, таким образом первый дефект проявляется в следующей итерации и т.д. Отсюда совокупность стратегий ответных мер может не окупиться.

В любом случае, до поколения 2 0 0 рис. 8 большинство особей имело 0 (сотрудничество) в бите 32. Но в поколении 222 случайная мутация вызвала стратегию, которая смогла использовать этот недостаток сверхтесного сотрудничества, что вызвало выброс на рис. 9.Эта мутация породила большое количество невзаимодействующего потомства, в результате тактика возмездия быстро становится популярной, что в конечном счете ведет к низким значениям оценки пригодности и заставляет восстановить стратегию сотрудничества.

В этом состоит непосредственная причина возмущений на рис. 8. Аналогичные события имеют различные непосредственные причины с общими истоками:

Развивается специализация к текущей эволюционной среде.

Новая мутация эксплуатирует недостатки в большинстве стратегий, вызывая неожиданный подъем предельных показателей качества функционирования

Средние показатели качества функционирования постепенно, но неуклонно ухудшаются, вследствие вымирания неприспособленных особей

Популяция в конечном счете вновь стабилизируется.

поколения

Рис. 9

Эволюция в каноническом ГА обеспечивает недостаточные характеристики обобщения вследствие сверхспециализации к одной наиболее выгодной стратегии. Эта сверхспециализация является следствием отсутствия разнообразия в популяции ГА. Канонический ГА будет всегда сходиться к единственному решению из-за генетического дрейфа. Генетический дрейф в каноническом ГА, во взаимодействии с эволюционной функцией оценки, является причиной как слабого обобщения, так и неожиданных возмущений. Как сверхспециализация, так и эволюционные взрывы происходят также и процессе естественной эволюции.

Основные результаты. Простое эволюционное обучение. Анализ традиционных способов организации ГА показал, что найденные стратегии обладают недостаточной способностью обобщения, что периодически ведет к катастрофическим провалам. Их причиной является влияние случайных мутаций на популяцию, существовавшую длительное время в однообразной внешней обстановке.

Традиционный ГА к концу моделирования находит только одно решение и дальнейшее эволюционирование приводит к сверхспециализации в рамках этого решения. Сходимость характеристик особей популяции к одному решению приводит к атрофии полезных свойств и методик (типа возмездия при односторонней неудаче), что дает возможность для их одностороннего использования и вызывает крах.

Для улучшения способности обобщения исследовались два подхода. Первый состоял в отборе начальной популяции с известными высококачественными стратегиями. В результате отбор производился в целом быстрее, но различие в способности обобщения практически незначительное, поскольку в конечном счете отбор начальной популяции не изменяет разнообразия внешних условий. Кроме того, в результате оказывается, что для таких условий оптимальный уровень отбора ниже — генетическое разнообразие лучше чем небольшое преимущество начального отбора. Это согласуется с теоретическими результатами [2,4], где показано, что отбор особей только высокого качества дает невысокие характеристики.

Второй подход к улучшению способности обобщения состоял в добавлении дополнительных стратегий для увеличения разнообразие (и обобщения). Это также не улучшало способность обобщения, но по особым причинам.

На наиболее важный вопрос - будут ли полученные стратегии обладать способностью к обобщению для тех ситуаций, которые не включены непосредственно в обучающие, ответ является отрицательным.

Решение проблемы состоит в разрешении причины и сверхспециализации, и неполного обобщения -генетического дрейфа, для чего требуется провести модификацию канонического ГА.

Литература

1. Батищев Д.И., Исаев С.А. Оптимизация многоэкстремальных функций с помощью генетических ал-горитмов./Межвузовский сборник научных трудов "Высокие технологии в технике, медицине и образовании", Воронеж, ВГТУ, 1997г, стр.4-17.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Вороновский Г.К., Махотило К.В., Петрашев С.Н., Сергеев С.А. Генетические алгоритмы, искусственные нейронные сети и проблемы виртуальной реальности. Харьков: Основа, 1997.

3. Донской Д.А., Слепцов Н.В. Проблема выбора способа представления в генетических алгоритмах ПГУ, г. Пенза - 2006

4. Емельянов В.В., Курейчик В.В., Курейчик В.М. Теория и практика эволюционного моделирования. М.: ФМЛ, 2003.

5. Слепцов Н.В. Формальный анализ некоторых операций генетических алгоритмов , ПГУ, Пенза-2007

6. Слепцов Н.В. Эволюционно - генетические методы и основания генетического программирования, ПГУ, г. Пенза - 2006

7. Chambers Practical handbook of genetic algorithms v 3 Complex coding systems 2 ed, 2001

8. Koza J. Genetic programming: a paradigm for genetically breeding computer population of

œmputer programs to solve problems. Cambridge, MA: MIT Press, 1992.

Механизмы получения высококачественных решений при эволюционно-генетическом поиске Текст научной статьи по специальности «Математика»

Похожие темы научных работ по математике , автор научной работы — Донской Д. А., Слепцов Н. В., Зияутдинов В. С.

Текст научной работы на тему «Механизмы получения высококачественных решений при эволюционно-генетическом поиске»