СЕЛЬСКОХОЗЯЙСТВЕННАЯ БИОЛОГИЯ, 2013, № 1
УДК 631.522/.524:575.167:51-76
МАТЕМАТИЧЕСКИЕ МОДЕЛИ В СЕЛЕКЦИИ РАСТЕНИЙ. СООБЩЕНИЕ I. ТЕОРЕТИЧЕСКИЕ ОСНОВЫ ИДЕНТИФИКАЦИИ ГЕНОТИПОВ ПО ФЕНОТИПАМ ПРИ ОТБОРЕ В РАСЩЕПЛЯЮЩИХСЯ ПОКОЛЕНИЯХ*
И.М. МИХАЙЛЕНКО, В.А. ДРАГАВЦЕВ
Предложена формализованная теория идентификации генотипов по фенотипам в современных селекционных технологиях. В основу теории положены математические модели взаимодействия «генотип-среда», для которых решается обратная информационная задача оценивания величин ненаблюдаемых воздействий семи генетико-физиологических систем на выбранные количественные признаки, подлежащие селекционному улучшению.
Ключевые слова: генотипы, фенотипы, математические модели, идентификация, селекционные технологии, генетико-физиологические системы, оценивание.
Keywords: genotypes, phenotypes, mathematical models, identification, breeding technologies, genetic-physiological systems, evaluation.
Основные принципы моделирования системы взаимодействия «генотип—среда» и возможности предложенных моделей для решения ряда базовых задач современной генетики и селекции подробно обсуждались нами ранее (1). Из всех задач, решаемых с помощью таких моделей, выделим наиболее важные (рис. 1): оценка механизмов трансгрессий и подбор родительских пар для обеспечения заданного результата скрещивания; оценивание вкладов (например, в продуктивность) генетико-физиологических систем родительских пар; прогнозирование трансгрессий селекционных признаков в потомстве; скрещивание и получение популяции F2; выделение (идентификация) генотипов по их фенотипам. Эти задачи неразрывно связаны и как единое целое представляют собой аспекты обобщенной проблемы — строгого управления последовательными этапами генетико-селекционного процесса. С разработкой теории, направленной на решение указанной проблемы, связывают одну из ключевых перспектив современной генетики.
Рис. 1. Блок-схема взаимоотношения задач управления генетико-селекционным процессом.
Как видно из приведенной схемы взаимоотношений решаемых задач (см. рис. 1), они образуют замкнутый контур управления селекционным процессом. Здесь начальным этапом служит подбор родительских пар для обеспечения заданного результата скрещивания, и для оптимизации такого подбора используется задача предсказания результатов скрещива-
* Статью «Математические модели в селекции растений. Сообщение II. Алгоритмы управления генетико-селекционным улучшением хозяйственно ценных свойств самоопылителей» см. в журнале «Сельскохозяйственная биология», 2013, № 1: 35-41.
ния родительской пары, а реальные результаты скрещивания анализируются на этапе идентификации генотипов по фенотипам, они же используются для коррекции моделей предсказания результатов скрещивания. На каждом из приведенных этапов используются математические модели системы взаимодействия «генотип—среда».
О б щ а я с х е м а з а д а ч и и д е н т и ф и к а ц и и г е н от и п о в п о ф е н о т и п а м. Несмотря на то, что на схеме (см. рис. 1) эта задача — пятая по счету, в настоящей статье рассматривается именно она как затрагивающая ряд основополагающих принципов, которые позволяют более строго формулировать и решать другие задачи.
По своему содержанию выделение генотипов по фенотипам — довольно сложная с точки зрения научной классификации информационная задача. Ее цель заключается в поиске (или создании) генотипа, включающего в себя максимальное число положительных сдвигов заданных селекционных признаков (СП). Поэтому в основу алгоритма этой задачи положены принцип фоновых признаков (2) и принцип разнонаправленности сдвигов количественного признака отдельной особи под влиянием генетических и экологических причин в двумерных признаковых координатах (3).
Идеальный фоновый признак (ФП) имеет нулевую генотипическую дисперсию, поэтому он отражает только экологическое варьирование лим-фактора среды (2). Следовательно, особь, имеющая плюсовое отклонение от популяционной средней по ФП, — плюс-модификация, попавшая в лучшую микроэкологическую нишу. В то же время в случае, когда СП у этой особи сдвинут в положительную сторону от популяционной средней, это обычная модификация и нет смысла ее отбирать. Если же у другой особи ФП выражен на уровне среднего показателя по популяции, а СП сдвинут в положительную сторону от среднего в популяции, то это рекомбинация (или мутация), и ее необходимо отобрать для продуктивной селекционной работы.
Применительно к отдельной особи явление разнонаправленности сдвигов (3) позволяет количественно оценить, в какой мере отклонение признака индивида от популяционной средней определяется его генотипом, а в какой — факторами среды. ФП может быть чувствителен ко многим причинам, вызывающим сдвиги СП, кроме одной из генетических причин, к которой ФП либо нечувствителен, либо реагирует смещением в направлении, «ортогональном» к таковому у СП. Собственно, описанное явление и лежит в основе алгоритмов идентификации генотипов по фенотипам.
Конкретизируем информационную ситуацию, в условиях которой предстоит решать подобную задачу. С учетом рассмотренных понятий задача идентификации генотипов по фенотипам по сути сводится к выявлению фоновых и селекционных признаков, по которым та или иная особь может или не может быть отобрана для дальнейшей селекционной работы. В нашем распоряжении есть математическая модель «генотип—среда», которая позволяет прогнозировать количественные признаки у особей или в их популяциях (1). Кроме того, мы располагаем данными мониторинга всех влияющих факторов среды (как управляемых, так и неуправляемых) в течение всего периода вегетации растений, а также сведениями о фактическом росте и развитии особей и их популяций от посева до получения конечных количественных результатов, рассматриваемых нами как признаки. Мы должны классифицировать особей именно по конечным результатам. При этом итогом такой классификации станет разделение всего множества фенотипов нового расщепляющегося поколения на подмножества генотипов, обладающих разными наборами количественных признаков, часть которых относится к хозяйственно ценным. Число особей в отдельных под-
множествах может быть очень небольшим или даже составлять несколько единиц. Учитывая, что для формирования таких подмножеств потребуется моделировать состояние каждой особи индивидуально (без чего невозможна правильная классификация), после формирования подмножеств генотипов целесообразно найти разделяющие их границы, что позволит в дальнейшем значительно упростить и ускорить классификацию отдельных особей в других поколениях, не прибегая к их моделированию. При таком подходе первый этап классификации — обучающий, где в качестве «неидеального (реального) учителя» используются математические модели отдельных особей. Результатом обучения будет определение числа возможных классов и выявление границ подмножеств классов, а второй этап решения задачи собственно и представляет собой оперативную классификацию генотипов особей по их фенотипическим признакам.
На рисунке 2 приведена структурная схема алгоритма классификации генотипов по фенотипам.
Этап 1. Обучение с неидеальным (реальным) учителем
1____________________________________________________________________________I
Рис. 2. Блок-схема, описывающая общий алгоритм классификации генотипов по фенотипам.
При разработке алгоритма общей классификации генотипов на основе приведенных выше принципов дадим краткую характеристику эволюции моделей, используемых в современной генетике. В 1984 году к двум уже имеющимся моделям, описывающим соотношения гены—признаки, а именно модели Г. Менделя (4) и модели Р. Фишера, К. Мазера и С. Райта (5), добавилась третья — модель эколого-генетической организации количественных признаков (МЭГОКП) (6). В 1984-2008 годах были теоретически обоснованы и экспериментально подтверждены 23 следствия третьей модели. Важнейшие из них — расшифровка природы и прогнозирование
трансгрессии, экологически зависимого гетерозиса, сдвигов знаков и величин генотипических и генетических (аддитивных) корреляции, эффектов взаимодействия генотип—среда, изменении чисел генов и амплитуды генетической изменчивости своИств продуктивности, генетического гомеостаза и др. (7). В 2008 году работоспособность модели была полностью подтверждена на молекулярном уровне совместно с учеными-генетиками из Германии (8), что позволило перевести модель 1984 года в ранг теории эколого-генетическоИ организации количественных признаков (ТЭГОКП). Эта теория привела к изменению классической модели Р. Фишера:
= Ц + Уг + П ЦЬ
где Тг- — фенотипическое значение количественного признака у г-И особи, ц — средняя величина количественной характеристики признака в популяции, у, — генотипическое отклонение признака особи от среднеИ величины, п — экологическое отклонение признака особи от среднеИ величины.
Новая предложенная модель (9) описывает интегральное своИство продуктивности г-И особи:
= М- + Уайгл + Утю,г + Уад.,г + У1ттл + УеО + У1о1,г + УопО + Усотл +
[2],
где — фенотипическое значение признака продуктивности у г-И особи; ц — среднее значение зерновоИ продуктивности в популяции; уа1гг,г — отклонение аттракции продуктов фотосинтеза из стеблеИ и листьев в колос; Ут1с,г — отклонение распределения продуктов аттракции между зернами и мякиноИ в колосе; уа^,г- — отклонение влияния системы адаптивности на продуктивность, измеряемую общеИ сухоИ биомассоИ растения; У1тт,г- — влияние горизонтальноИ устоИчивости на продуктивность; уе^г- — влияние оплаты биомассоИ лимитирующих факторов почвенного питания; у1о1,г- — отклонение толерантности к загущению; уоп1г- — отклонение генетическоИ вариабельности длительности фаз онтогенеза; усот,г- — отклонение генетическоИ конкуренции растениИ за влагу, питание, свет и т.д.; лсотг- — отклонение негенетическоИ конкуренции, вызванное неодинаковыми начальными условиями роста, лоп1г- — отклонение, вызванное сменоИ лим-фак-торов в онтогенезе в период закладки и развития признака, щ — сре-довое отклонение.
Рис. 3. Схема модели «генотип-среда» для зерновых культур.
Расшифруем каждую составляющую модели в виде конкретных состояний генетико-физиологических систем и модульной структуры модели:
1 — система аттракции (масса стебля фп и колоса ф12, то есть товарной и нетоварной части растения; 2 — система микрораспределений (масса зерновой ф21 и незерновой ф22 части колоса — мякины, остей и др.); 3 — система адаптивности, то есть устойчивости к климатическим и химическим стрессорам среды (степень замедления ростовых процессов под воздействием неблагоприятных факторов среды — стрессоров, скорость и время восстановления нормальных ростовых процессов); 4 — система полиген-ного иммунитета (устойчивости растений к вредителям и возбудителям болезней, выработка растениями защитных веществ и механизмов); 5 — система восприимчивости (ответа) на дозы элементов почвенного питания (параметры чувствительности продуктивных характеристик к дозам элементов питания); 6 — система толерантности к загущению (параметры чувствительности продуктивных показателей к густоте посева); 7 — система вариабельности периодов онтогенеза (используется в селекции с целью вывести критическую фазу онтогенеза из-под воздействия стрессового фактора среды).
Отразим приведенные характеристики генетико-физиологических систем сначала на структуре модульной модели «генотип—среда» для зерновых культур (рис. 3), а затем на математической модели этого основного (выходного) модуля (4):
[3],
где приняты следующие обозначения: хц — масса зерна в колосе і-й особи, %2і — масса мякины в колосе, хзі — масса соломы в колосе, и — обеспеченность (управление) азотным питанием; / — световой фактор продуктивности, /2 — температурный фактор продуктивности, /з — влага, как фактор продуктивности; Ф1...7 — влияние генетико-физиологических систем; §1, §2, Із — случайные возмущения, отражающие информационную неопределенность модели; ау, Ь^-, су, ^ — динамические параметры модели.
Представим модель [3] в более компактной векторно-матричной
форме:
Х:
: АЦ, ЩО + Ц<р5)и(1) - С{<р3 )1'(1) - Б * ['.рл (I) (,о6 (О] + £,(/),
[4],
*е|Л(<Р7);Д<л)]
в которой все переменные и параметры объединены в соответствующие векторы и матрицы.
Модель [4] определяет состояние /-й особи, при этом влияние лим-факторов, неодинаковое для всех особей, как и действие генетико-физиологических систем, приводит к возмущениям состояний отдельных особей и возникновению средовыж и генетических дисперсий. Такие возмущения можно представить в следующем виде:
[5],
где Це, ир— векторы функций чувствительности состояния модуля соответственно к экологическим и генетическим возмущениям; ДБ;, Дф; — векторы вариаций наблюдаемых экологических факторов и ненаблюдаемых генетических воздействий.
Выражение [5] отражает моделируемые вклады экологических и генетических факторов. Вместе с тем селекционер чаще всего имеет дело с наблюдаемыми вариациями признаков, которые мы будем обозначать как ДУ;. В этом случае смысл классификации генотипов заключается в установлении причин наблюдаемых вариаций признаков отдельных особей по сравнению со среднепопуляционными значениями. В том случае, если такими причинами служат экологические факторы, мы имеем дело с модификациями одного и того же генотипа, а при установлении генетических причин — с новым генотипом.
Введем в рассмотрение квадратический функционал качества классификации:
/
чТ,
[6],
форма которого отражает «разбалансировку» моделируемых и наблюдаемых сдвигов СП, возникающих за счет ненаблюдаемых воздействий семи генетико-физиологических систем.
Минимизация критерия [6] по ненаблюдаемым воздействиям генетических факторов Дф; для известных вариаций экологических факторов ДБ, (1) позволит оценить вклады каждой из генетико-физиологических систем в проявление изменений у анализируемой особи:
[6а].
Теперь, располагая областями допустимых значений воздействий генетико-физиологических систем для отдельных генотипов Ок, где к = 1, 2, 3....К — индексы генотипов (классов), можно определить решающее правило классификации: к,=к\ если А(р е О; [7].
Располагая исходной информацией об отклонениях экологических факторов ДБг- (1) и наблюдаемых отклонениях количественных признаков /-й особи ДУ; (1), мы посредством процедур [2]-[7] может определить ее принадлежность к генотипу с заданными признаками. Фиксируя во время проведения этой процедуры для каждого класса множества ДБк(1), ДУк(1), можно построить границы между генотипами в пространстве экологических отклонений и вариаций количественных признаков в виде специальной аппроксимирующей функции:
Lk = фк. к + 1 (ДБ ДУ) [8].
В этом случае решающее правило выглядит следующим образом:
здесь с — пороговое значение правила, являющееся одним из параметров решающего правила.
Таким образом, мы рассмотрели всю схему идентификации генотипов по наблюдаемым фенотипам, представленную на рисунке 1. Здесь вся процедура предварительной сепарации генотипов и модификаций особей составляет этап обучения с «учителем» более простого решающего правила [8], [9]. Поскольку указанный алгоритм может допускать ошибки, такой «учитель» — «неидеальный» или, более точно, «реальный» (10).
А л г о р и т м и д е н т и ф и к а ц и и. Введем в рассмотрение гамильтониан системы:
Я. = (ДХ.(t|Д Е) - Д Y.(t))* (ДХ.(1|ДЕ)-ДУ.(0) +
||0|.
+Ат[А(^1,^2>^3)ДХ.(1)+Ь(у'5)Д.и(1) + С(У73)ДР.а)+П*[Д^(ОД^4(0]
где X — вектор сопряженных переменных, являющийся решением в обратном времени системы
^=-^=-2КАХ,(.|ДЕ)-ДУ((, )) + *'<*,, Л.]. [П]
t € А(/) = 0.
С учетом ввода новых вспомогательных переменных процедура минимизации критерия идентификации [5] по ненаблюдаемому воздействию генетико-физиологических систем будет иметь вид следующей многошаговой процедуры:
дН.
i|2i.
где j — номер рабочей итерации процесса минимизации критерия [5].
При достижении итераций [12] условий полученные оценки воздействий генетико-физиологических систем в дальнейшем будут обозначаться ДфД При сепарации полученных значений векторов на подмножества классов по правилу [7] их границы удобно задавать системой неравенств:
где l — индексы генетико-физиологических систем.
Систему неравенств [13], посредством которых в пространстве воздействий семи генетико-физиологических систем осуществляется сепарация особей, в дальнейшем мы будем называть «эколого-генетическим портретом» генотипа, имея в виду, что в свете развиваемой теории (ТЭ-ГОКП) он считается единственно возможным представлением различий для генотипов.
Заметим, что векторы воздействий генетико-физиологических систем Дфг* служат нам только «метками», или ориентирами для формирования подмножеств причинно-следственных отношений:
П«»:(Д**ГДХИ>-'-и» 1141-
здесь Д1 ^ — среднее значение вектора экологических вариаций в заключительный межфазовый период.
Именно для таких множеств мы вводим более простые решающие
правила. Для этого сначала объединим вектор экологических причин ДЁ и вектор последствий АУ в единый вектор ТУ = [ДЁ, АУ]Т и определим основные статистические характеристики классов в множествах [14] — векторы математических ожиданий и матрицы ковариаций К^ъ а также вероятности появления классов, оценки которых представляют собой отношение чисел особей, попавших во множества отдельных классов 1%, к общему числу исследуемых особей, то есть
И51.
ж *
По указанным характеристикам легко построить разделяющие функции классов (11):
+1®'= ■Лк« - ка +112 + 2(М А- -ма + А* +1 * Иб],
а также пороговое число с правила [9]:
с=21а^с±1+ЫтГЖ
Рк \К г к +1
м'Е, к'м,, -М^, .К* .М.,, , [17]
Ак /к 1к /А 4-1 2к +1 /к +1 I 1' Ь
где К означает норму матрицы.
Очевидно, что согласно [9] для каждой новой реализации причинно-следственных признаков ТУ = [ДЁ, АУ|Т необходимо попарно сопоставить между собой все возможные генотипы. Как уже указывалось выше, векторы воздействий генетико-физиологических систем Дф;* служат «метками» для формирования подмножеств причинно-следственных отношений :(ДЁ,ДХ..), / = 1,/. .
КЕХ К1 К1 К
Однако для решения последующих задач селекции нам потребуется статический вариант модели «экологическое возмущение—реакция генетико-физиологических систем».
Для этого нам придется сформировать идентификационное множество: П :(Д^.,ДЁД/ = 1,7.
£Д,- I I
на котором мы оцениваем параметры матрицы W искомой модели:
||8|.
Здесь в качестве иллюстрации для решения задачи мы рассмотрели только один из модулей общей модели системы «генотип—среда». В случае необходимости включения в характеристики генотипов других количественных признаков размерность задачи может быть увеличена без изменения сути предложенного подхода. При этом важная особенность разработанной теории идентификации генотипов заключается том, что она предусматривает решение этой задачи в течение всего периода онтогенеза, начиная первых фенофаз, то есть с модулей самого низкого уровня иерархии, и завершая ее выходными модулями конечной продукции. Это значительно повышает надежность решения задачи и позволяет более продуктивно использовать всю генотипическую вариабельность, которой располагает генетик-селекционер.
Итак, предложена формализованная теория идентификации генотипов по их фенотипам, включающая в себя оценивание (с помощью математической модели и специального алгоритма оптимизации) величин ненаблюдаемых вкладов семи генетико-физиологических систем в продуктивность особи; классификацию особей с помощью заданной системы неравенств по полученным уровням вкладов генетико-физиологических систем в продуктивность особи; формирование для каждого из классов осо-
бей подмножеств вариаций экологических факторов и вариаций количественных признаков с одновременным оцениванием многомерныгх статистических характеристик для этих объединенных подмножеств; определение по статистическим характеристикам вариаций экологических факторов и вариаций количественных признаков границ отдельных классов генотипов, по которым может быть реализован алгоритм упрощенной идентификации генотипов по фенотипам.
Л И Т Е Р А Т У Р А
1. М и х а й л е н к о И.М., Д р а г а в ц е в В.А. Основные принципы математического моделирования системы «генотип-среда». Сельскохозяйственная биология, 2010, 3: 31-34.
2. Д р а г а в ц е в В.А. Метод оценки роли наследственности и среды в развитии признаков растений, не требующий смены поколений. Ботанический журнал, 1966, 7: 939-946.
3. Д ь я к о в А.Б., Д р а г а в ц е в В.А. Разнонаправленность сдвигов количественного признака индивидуального организма под влиянием генетических и средовых причин в двумерных системах признаковых координат. В кн.: Алгоритмы эколого-генетической инвентаризации генофонда и методы конструирования сортов сельскохозяйственных растений по урожайности, устойчивости и качеству (методические рекомендации, новые подходы) /Под ред. В.А. Драгавцева. СПб, 1994: 22-47.
4. M e n d e l G. Versuche uber Pflanzen Hybriden. Verhandlungen des naturforschenden Ver-eins in Brunn, 1865, 4: 3-47.
5. W r i g h t S. The genetics of quantitative variability. Quantitative inheritance. Edinburh, 1950, London, 1952.
6. Д р а г а в ц е в В.А., Л и т у н П.П., Ш к е л ь Н.М., Н е ч и п о р е н к о Н.Н. Модель эколого-генетического контроля количественных признаков растений. Доклады АН СССР, 1984, 274(3): 720-723.
7. К о ч е р и н а Н.В., Д р а г а в ц е в В.А. Введение в теорию эколого-генетической организации количественных признаков растений и теорию селекционных индексов. СПб, 2008.
8. Ч е с н о к о в Ю.В., П о ч е п н я Н.В., Б ё р н е р А., Л о в а с с е р У., Г о н ч ар о в а Э.А., Д р а г а в ц е в В.А. Эколого-генетическая организация количественных признаков растений и картирование локусов, определяющих агрономически важные признаки у мягкой пшеницы. Доклады Академии наук (РАН), 2008, 418, 5: 1-4.
9. Д р а г а в ц е в В.А. Эколого-генетический скрининг генофонда и методы конструирования сортов сельскохозяйственных растений по урожайности, устойчивости, качеству, (новые подходы). СПб, 1998: 25.
10. М и л е н ь к и й А.В. Классификация сигналов в условиях неопределенности. М., 1975.
11. П у г а ч е в В.С. Теория вероятностей и математическая статистика. М., 1979.
ГНУ Агрофизический институт Россельхозакадемии, Поступила в редакцию
196220 г. Санкт-Петербург, Гражданский просп., 14, 22 августа 2011 года
e-mail: [email protected]
MATHEMATICAL MODELLING IN PLANT BREEDING. I. THEORETICAL BASIS OF GENOTYPES IDENTIFICATION ON THEIR PHENOTYPES DURING SELECTION IN SEGREGATING GENERATIONS
I.M. Mikhailenko, V.A. Dragavtsev S u m m a r y
The authors presented the formalized theory for identification of genotypes on phenotypes in modern breeding technologies. As a base the authors proposed the mathematical models of «genotype—environment» interaction, for which they solves an inverse informational problem during the estimation of sizes of no observed action of seven genetic-physiological system on selected quantitative traits to be improved.
Научные собрания
ЮБИЛЕЙНАЯ XXV ЗИМНЯЯ МОЛОДЕЖНАЯ НАУЧНАЯ ШКОЛА «ПЕРСПЕКТИВНЫЕ НАПРАВЛЕНИЯ ФИЗИКО-ХИМИЧЕСКОЙ БИОЛОГИИ И БИОТЕХНОЛОГИИ», посвященная 30-летию Научно-образовательного центра ИБХ РАН (г. Москва, 11-15 февраля 2013 года)
Контакты и информация: [email protected], http://www.ibch.ru