Научная статья на тему 'О проблеме сальтационных реорганизаций генетического материала в генетике популяций и эволюционных вычислениях'

О проблеме сальтационных реорганизаций генетического материала в генетике популяций и эволюционных вычислениях Текст научной статьи по специальности «Математика»

CC BY
118
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДУЛЬНОСТЬ / МОНОМОРФНЫЕ ЛОКУСЫ / МУТАЦИЯ / КРОССИНГОВЕР / MODULARITY / MONOMORPHIC LOCI / MUTATION / CROSSOVER

Аннотация научной статьи по математике, автор научной работы — Еремеев Антон Валентинович

Рассматривается проблема сальтационных изменений генотипа с биологической точки зрения, в том виде, в каком она возникает в генетике популяций, и с точки зрения эволюционных вычислений, в виде скачков между областями притяжения локальных оптимумов функции приспособленности. Показано, что проблема малых вероятностей сальтационных переходов остается открытой и актуальной не только в рамках биологии, но и в области эволюционных алгоритмов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On problem of saltational reorganization of genotypes in population genetics and evolutionary computations

The problem of saltational changes of genotypes is considered both from the biological point of view, as it emerges in population genetics, and from the view point of evolutionary computations, where it corresponds to jumps between the basins of attraction associated to different local optima of a fitness function. We indicate that the problem of saltational transitions remains an open and topical research question not only in biology but also in the area of evolutionary algorithms.

Текст научной работы на тему «О проблеме сальтационных реорганизаций генетического материала в генетике популяций и эволюционных вычислениях»

А.В. Еремеев1

О ПРОБЛЕМЕ САЛЬТАЦИОННЫХ РЕОРГАНИЗАЦИЙ

ГЕНЕТИЧЕСКОГО МАТЕРИАЛА В ГЕНЕТИКЕ ПОПУЛЯЦИЙ И ЭВОЛЮЦИОННЫХ ВЫЧИСЛЕНИЯХ2

Генетическая инвариантность вида и сальтационная теория видообразования

В настоящей работе рассматривается проблема сальтационных изменений генотипа с биологической точки зрения, в том виде как она возникает в эволюционной генетике популяций, и с точки зрения эволюционных вычислений, в виде скачков между областями притяжения локальных оптимумов функции приспособленности.

Анализ генотипов в популяциях различных видов животных показывает неоднородность в их структурной организации: наряду с полиморфными локусами имеются и такие, в которых отсутствует как индивидуальная, так и географическая изменчивость (мономорфные локусы). При этом межвидовые различия наиболее четко прослеживаются именно по мономорфным локусам [Алтухов, 2003].

Важная эволюционная роль сальтационных реорганизаций генетического материала отмечается в современной генетике при анализе возникновения многих таксономических групп, в том числе таких, которые демонстрируют качественные различия процессов эволюции в мире животных и мире растений. Биологический смысл этих перестроек состоит в том, что они скачком переводят все гены в мономорфных локусах или определенную их часть в гетерозиготное состояние, тем самым создавая качественно новые возможности адаптации популяции. Однако в схеме видообразования через крупные реорганизации мономорфной части генома имеется «узкое

1 Исследование выполнено за счет гранта Российского научного фонда (проект № 17-18-01536).

2 В основу статьи легли материалы доклада, представленного на семинаре Центра перспективных методологий социально-гуманитарных исследований ИНИОН РАН.

257

место»: такого рода изменчивость находится под постоянным контролем отсекающего отбора, и неясно, как в таком случае может осуществиться видообразование.

Для решения указанной проблемы, как правило, необходимо особое состояние окружающей среды, в котором макромутация может оказаться нейтральной или получить определенные селективные преимущества. Ю.П. Алтухов [Алтухов, 2003, с. 233-284] предполагает, что соответствующие реорганизации генома постоянно происходят у различных видов, однако право на жизнь они завоевывают лишь при сдвигах природной среды, в ходе которых могут осуществляться такие комбинации генов, какие в предшествовавшей фазе стабильного существования вида следовало бы рассматривать как «невероятные» [Алтухов, 1974; Hewitt, 2001].

Близкие взгляды на видообразование развивает Х. Карсон [Carson, 1975]. По Карсону, у бисексуальных видов следует различать две системы генетической изменчивости: «открытую» и «закрытую». Открытая представлена участками ДНК, не влияющими существенно на жизнеспособность. Закрытая представлена внутренне сбалансированными, взаимно адаптированными блоками генов, настолько сильно влияющими на приспособленность, что любая их реорганизация отметается естественным отбором. Видообразование осуществляется через реорганизацию закрытой системы генома, и новые виды берут свое начало от одной или немногих особей с новыми свойствами. Таким образом, макроэволюция и видообразование - явления, лежащие вне фаз длительной стабильности вида и сопряженные с крупными сдвигами природной среды и соответствующими реорганизациями геномов. Этот вывод, сделанный в работе [Алтухов, Рычков, 1972], перекликается с концепцией «прерывистого равновесия», появившейся примерно в то же время [Eldredge, Gould, 1972].

Для оценки сложности реорганизации мономорфной части генома рассмотрим гипотетическую ситуацию, когда уже имеется популяция жизнеспособных организмов со всем необходимым набором действующих молекулярных комплексов, обеспечивающих хранение, воспроизведение и трансляцию информации (синтез белка). Предположим, что для адаптации к новым условиям окружающей среды требуется совершенно новый белок, состоящий из 150 аминокислот (сравнительно небольшой для белка размер). Для упрощения будем считать, что между указанными аминокислотами и кодирующими их триплетами нуклеотидов существует взаимно однозначное соответствие. Тогда 150 аминокислотам по генетическому коду должна соответствовать последовательность из 450 нуклеотидов (каждая аминокислота кодируется триплетом нуклеотидов, которых всего четыре типа). При случайном равновероятном выборе последовательности из 450 нуклеотидов вероятность появления нового гена с заданной последовательностью нуклеотидов составляет 1/4450 « 10-270. Для сравнения заметим, что по современным оценкам число частиц во Вселенной - порядка 1080. С другой стороны, из принципа неопределенности Гейзенберга и общей

258

теории относительности вытекает, что минимальный промежуток времени, имеющий физический смысл, должен быть не менее 10-44 с (см., напр.: [Halliday, Resnick, 1988]). Возраст Вселенной, по теории большого взрыва составляет не более 20-109 лет « 6-1017 с. В таком случае число элементарных событий в истории Вселенной не превышает величины порядка 1080-1044-1018=10142. Даже предполагая, что в каждом таком событии происходит независимое испытание случайно взятой последовательности нуклеотидов, вероятность появления искомой последовательности после 10142 испытаний оценивается сверху чрезвычайно малой величиной 10142-10270 = 10-128.

При оценивании вероятности получения белка с требуемыми свойствами, кроме предположения о взаимно однозначном соответствии между аминокислотами и нуклеотидными триплетами, неявно были сделаны еще два упрощающих предположения: равновероятность всех четырех типов нуклеотидов и единственность последовательности аминокислот, составляющих белок с требуемыми свойствами. Предположение о единственности последовательности аминокислот связано с анализом мономорфной части генома, где полиморфизм белков не наблюдается. Предположение о равновероятности нуклеотидов может быть нарушено, в случае если интересующий нас участок ДНК ранее кодировал некоторый другой белок, имеющий аналогичные мотивы (генетические информационные блоки) с требуемым белком [Золян, 2016].

В работах В.А. Ратнера (см., напр.: [Ратнер, 1992]), развивающих идеи С. Оно [Ohno, 1970], предложен блочно-модульный принцип организации и эволюции молекулярно-генетических систем управления, дающий более правдоподобные сценарии возникновения новых белков. Согласно этому принципу, эволюция генов, РНК, белков, геномов и молекулярных систем управления на их основе шла путем комбинирования блоков (модулей), причем модулями, из которых составлялись вновь возникающие молекулярно-генетические системы, служили уже функционирующие макромолекулярные компоненты.

Принцип модульности может быть использован в «сценариях» эволюционного возникновения таких сложных микробиологических систем, как бактериальный жгутик [Pallen, Matzke, 2007; Bacterial flagellar diversity, 2009], хотя полемика по вопросу возникновения бактериальных жгутиков в настоящее время продолжается [Abby, Rocha, 2012]. В работах [Pallen, Matzke, 2007; Snyder et al, 2009], в частности, подчеркивается, что модули для построения жгутика имеются во многих бактериях, но выполняют другие функции. Для получения действующего бактериального жгутика остается только осуществить удачную рекомбинацию этих фрагментов. Насколько вероятно такое удачное событие - вопрос дальнейшего изучения. Некоторые трудности вычислительного характера, связанные с такого рода вопросами, кратко рассматриваются в следующем разделе.

259

Сложность анализа гипотез о видообразовании

На сегодняшний день в синтетической теории эволюции до конца не раскрыто явление сальтационных изменений генетического материала. Можно предположить, что причина состоит в том, что для изучения этого явления требуется совместить анализ комбинаторных свойств генома с динамикой популяций. Однако, как следует из некоторых результатов теории вычислительной сложности, такой анализ, вообще говоря, представляет собой чрезвычайно сложную проблему, и даже элементарные задачи, возникающие на этом пути, доставляют серьезные трудности. Например, задача нахождения вероятности появления требуемого гена в процессе эволюции известной популяции является алгоритмически неразрешимой [Backofen, Clote, 1997]. Задача вычисления трехмерной конфигурации белка с заданной последовательностью нуклеотидов не имеет эффективных алгоритмов решения (т.е. алгоритмов, время счета которых ограничено полиномом от длины исходных данных) [Berger, Leighton, 1998], если верна известная гипотеза о неравенстве сложностных классов P и NP [Гэ-ри, Джонсон, 1982]. Не менее сложен вопрос о возможности экспрессии интересующего нас гена в жизненном цикле особи с известным генотипом, что соответствует существованию определенного аттрактора в NK-модели Кауфмана [Inoue, 2011]. Приведенные примеры говорят о необходимости использования эвристических алгоритмов, в частности эволюционных алгоритмов, при анализе таких явлений, как сальтационные изменения генетического материала. Краткий обзор таких алгоритмов и некоторых их свойств приводится в следующем разделе.

Эволюционные алгоритмы

Эволюционные алгоритмы (ЭА) берут начало в работах Л. Фогеля, А. Оуэнса и М. Уолша [Фогель, Оуэнс, Уолш, 1969], а также Дж. Холланда [Holland, 1975], где было предложено моделировать процесс биологической эволюции с целью синтеза эффективных в некотором смысле структур и создания систем искусственного интеллекта.

Характерной особенностью ЭА является имитация процесса эволюционной адаптации биологической популяции к условиям окружающей среды, при этом особи соответствуют пробным точкам в пространстве решений задачи оптимизации, а приспособленность особей определяется значениями целевой функции и штрафами за нарушение ограничений задачи, если такие имеются.

Принципы наследственности, изменчивости и отбора в эволюционных алгоритмах реализуются при построении новых решений-потомков посредством рандомизированных процедур (операторов), модифицирующих полученные ранее пробные точки подобно процессам мутации и

260

кроссинговера в живой природе. Отбор таких пробных точек производится с учетом значений функции приспособленности. Особям, имеющим преимущество по приспособленности, даются большие шансы быть выбранными в качестве родительских решений.

На каждой итерации генетического алгоритма (ГА) [Holland, 1975] с помощью рандомизированных операторов мутации и кроссинговера строится новая популяция (поколение). Численность популяции фиксирована от начала работы алгоритма до конца. Операторы мутации и крос-синговера с некоторым упрощением моделируют процессы мутации и скрещивания в живой природе, состоящие в возникновении случайных изменений в молекулах ДНК.

Ввиду простоты адаптации вычислительных схем эволюционных алгоритмов эти методы активно применяются для решения задач оптимизации, возникающих в управлении, планировании, проектировании, распознавании образов и других областях.

ГА зачастую относят к классу методов локального поиска [Aarts, Lenstra, 1997]. В действительности, во многих случаях работоспособность ГА объясняется сходством его поведения с алгоритмом локального поиска. В частности, как показано в [Level-based analysis, 2016; Eremeev, 2017], с ростом селективного давления и численности популяции генетические алгоритмы почти не уступают локальному поиску по времени первого достижения локального оптимума функции приспособленности. Однако достижение глобального оптимума функции приспособленности, вообще говоря, является более сложной задачей и требует больших вычислительных затрат. Поведение эволюционных алгоритмов при поиске глобального оптимума в случаях, когда функция приспособленности имеет несколько локальных оптимумов, представляет серьезную проблему, решенную только в некоторых частных случаях. Теоретический анализ ЭА показал, что в задачах, где нужно преодолеть «провал» в ландшафте приспособленности, ЭА сильно замедляются (время поиска оптимума возрастает экспоненциально) [Jansen, Wegener, 2002]. Переход из локальных оптимумов к глобальному (аналог эволюции одного биологического вида в другой) во многих случаях требует чрезвычайно маловероятных мутационных переходов, если рассматривать практически значимые задачи оптимизации.

Одна из наиболее актуальных проблем в теории ЭА состоит в демонстрации возможностей кроссинговера качественно ускорить эволюционный поиск, например сократить экспоненциальную трудоемкость до полиномиальной. Первая попытка построить задачу, где кроссинговер существенно облегчал бы работу эволюционного алгоритма благодаря модульности, скрытой в функции приспособленности, принадлежит M. Митчелл с соавт. [Mitchel, Forrest, Holland, 1992]. Однако вскоре удалось показать, что предложенные задачи (названные авторами Royal Road Problems) легко решаются и ЭА без кроссинговера, схожими с методом

261

локального поиска. Позднее некоторые специально сконструированные примеры с требуемым свойством все-таки удалось построить [Jansen, Wegener, 2002], однако показать работоспособность этой идеи для широкого класса задач до сих пор не удается. Как правило, максимум, что удается доказать в достаточно общих предположениях, - то, что кроссинго-вер не будет существенно ухудшать время отыскания оптимального решения) [Level-based analysis, 2016; Eremeev, 2017].

Отсутствие результатов, свидетельствующих о качественных различиях между ЭА с кроссинговером и без него, на широких классах задач вполне объяснимо. Наиболее интересные с практической точки зрения задачи являются NP-трудными, и для них не существует эффективных алгоритмов решения, если верна известная гипотеза о неравенстве классов P и NP (см., напр.: [Гэри, Джонсон, 1982]). Эффективного оператора оптимального кроссинговера еще не достаточно для того, чтобы эффективно решать такую сложную задачу. Даже оптимальный оператор крос-синговера не даст желаемого результата, пока не будет построена и выбрана подходящая пара родительских особей. Таким образом, сложность исходной задачи «перетекает» в сложность задачи построения подходящих пар родительских генотипов.

Заключение

Подводя итог, можно сделать вывод о том, что поставленная в 70-е годы ХХ в. в популяционной генетике проблема сальтационных переходов остается открытой и актуальной не только в рамках генетики, но и в области эволюционных алгоритмов. Сальтационная теория видообразования и модульный принцип дают правдоподобные «сценарии» возникновения новых функциональных структур, однако комбинаторные свойства задач, связанных с биологической эволюцией и эволюционными вычислениями, создают значительные проблемы при их анализе.

Список литературы

Алтухов Ю.П. Популяционная генетика рыб. - М.: Пищ. пром-сть, 1974. - 245 с.

Алтухов Ю.П. Генетические процессы в популяциях. - М.: Академ. книга, 2003. - 431 с.

Алтухов Ю.П., Рынков Ю.Г. Генетический мономорфизм видов и его возможное биологическое значение // Журнал общей биологии. - М., 1972. - Т. 33, № 3. - С. 281-300.

Гэри М., Джонсон Д. Вычислительные машины и труднорешаемые задачи. - М.: Мир, 1982. - 416 с.

Золян С. Т., Жданов Р.И. Геном как (гипер) текст: От метафоры к теории // Критика и семиотика. - Новосибирск, 2016. - № 1. - С. 60-84.

Ратнер В.А. Блочно-модульный принцип организации и эволюции молекулярно-генетических систем управления (МГСУ) // Генетика. - М., 1992. - Т. 28, № 2. - С. 5-23.

262

Фогель Л., Оуэнс А., Уолш М. Искусственный интеллект и эволюционное моделирование. -М.: Мир, 1969. - 230 с.

Aarts E.H.L., Lenstra J.K. Introduction // Local Search in Combinatorial Optimization / Aarts E.H.L., Lenstra J.K. (eds). - N.Y.: John Wiley & Sons Ltd., 1997. - P. 1-19.

Abby S., Rocha E. The non-flagellar type III secretion system evolved from the bacterial flagel-lum and diversified into host-cell adapted systems // PLoS Genetics. - 2012. - Vol. 8, N 9. -Mode of access: https://doi.org/10.1371/journal.pgen.1002983 (Дата посещения: 28.06.2017.)

Backofen R., Clote P. Evolution as a computational engine // Proceedings of the Annual Conference of the European Association for Computer Science Logic, Springer Lecture Notes in Computer Science. - Berlin: Springer-Verlag., 1997. - Vol. 1414. - P. 35-55.

Berger B., Leighton T. Protein folding in the hydrophobic-hydrophilic (HP) model is NP-complete // J. Comput. Biol. Mary Ann Liebert Inc. - New Rochelle, 1998. - Vol. 5, N 1. -P. 27-40.

Carson H.L. The genetics of speciation at the diploid level // The American Naturalist. - Chicago: The univ. of Chicago press, 1975. - Vol. 109, N 965. - P. 83-92.

Level-based analysis of genetic algorithms and other search processes / CorusD., DangD.-C., Eremeev A.V., Lehre P.K.; $ arXiv:1407.7663 v2 [cs.NE]. - 2016. - 21 p. - Mode of access: http://arxiv.org/abs/1407.7663 (Дата посещения: 28.06.2017.)

Eldredge N., Gould S.J. Punctuated equilibria: an alternative to phyletic gradualism // Models in paleobiology / Schopf T.J.M. (ed.). - San Francisco: Freeman: Cooper & Co, 1972. - P. 82-115.

EremeevA.V. Hitting times of local and global optima in genetic algorithms with very high selection pressure // Yugoslav Journal of Operations Research. - 2017. - Mode of access: http://dx.doi.org/10.2298/YJ0R160318016E (Дата посещения: 28.06.2017.)

Hewitt G.M. Speciation, hybrid zones and phylogeography - or seeing genes in space and time // Molecular Ecology. - N.Y.: John Wiley & Sons Ltd, 2001. - Vol. 10, N 3. - P. 537-549.

Holland J. Adaptation in natural and artificial systems. - Ann Arbor: Univ. of Michigan press, 1975. - 183 p.

Inoue K. Logic programming for Boolean networks // Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence. - Barcelona: AAAI Press, 2011. - Vol. 2. -P. 924-930.

Jansen T., Wegener I. On the analysis of evolutionary algorithms - a proof that crossover really can help // Algorithmica. - N.Y., 2002. - Vol. 34, N 1. - P. 47-66.

Halliday D., ResnickR. Fundamentals of Physics. - N.Y.: Wiley, 1988. - 544 p.

Mitchell M., Forrest S., Holland J. The royal road for genetic algorithms: Fitness landscapes and GA performance // Proceedings of 1 st Eur. Conf. Artif. Life / Varela F.J., Bourgine P. (eds). -Cambridge: MIT Press., 1992. - P. 245-254.

Ohno S. Evolution by gene duplication. - N.Y.: Springer-Verlag, 1970. - 160 p.

Pallen M.J., Matzke N.J. From the Origin of Species to the origin of bacterial flagella // Nature Reviews Microbiology. - L., 2007. - Vol. 4. - P. 784-790.

Bacterial flagellar diversity and evolution: seek simplicity and distrust it? Trends in Microbiology / SnyderL.A.S., Loman N.J., Futterer K., Pallen M.J. // Trends in Microbiology. - Cambridge, 2009. - Vol. 17, Issue 1. - P. 1-5.

263

i Надоели баннеры? Вы всегда можете отключить рекламу.