УДК 631.421.1:631.524.01:633.11”321”
СОВЕРШЕНСТВОВАНИЕ БИОМЕТРИЧЕСКОГО МЕТОДА ОПТИМИЗАЦИИ ВЫБОРКИ РАСТЕНИЙ ПРИ ЭКСПЕРИМЕНТАЛЬНОМ СРАВНЕНИИ ГИБРИДНЫХ ПОПУЛЯЦИЙ
А.В. СМИРЯЕВ, Т.И. ХУПАЦАРИЯ, С.С. БАЖЕНОВА, НГУЕН ТХАНЬ ТУАН
(РГАУ-МСХА имени К.А. Тимирязева)
Ранее был разработан биометрический метод оценки влияния выборки растений, измеряемых на каждой делянке полевого опыта, на точность сравнения гибридных популяций по среднему значению, а также дисперсии количественного признака. Метод усовершенствован с учетом неравноточности оценок дисперсий, для ситуаций с асимметрией и эксцессом распределения признака. Предложена методика скользящей дисперсии, предназначенная для прогноза влияния протяженности блока в опыте на достаточный объем выборки измеряемых растений. Использованы данные о 7 признаках у 17 гибридных популяций ^3, и мягкой яровой пшеницы.
Ключевые слова: биометрия, точность сравнения гибридных популяций, объем выборки растений, дисперсионный анализ, неравноточность, асимметрия, эксцесс, имитационное моделирование, скользящая дисперсия, яровая пшеница.
Проблема точности полевого опыта рассматривалась многими авторами. В литературе изучены различные причины, влияющие на точность сравнения образцов культурных растений.
Краевой эффект. В частности, установлено, что урожайность в крайних рядках некоторых опытов может превышать среднюю по делянке на 30-40% [11]. При стандартном размере делянки в зону краевого эффекта попадает до 40% растений.
Форма и размер делянки. В частности, показано, что квадратные делянки в опытах с зерновыми культурами имеют существенно меньшую вариацию основных признаков и, следовательно, более точные измерения по сравнению с вытянутыми делянками [3, 10, 12].
Влияние конкуренции. Конкуренция растений внутри каждого селекционного образца отрицательно сказывается на точности их сравнения [8]. Установлено, что минимальное влияние конкуренции проявляется при посеве с оптимальным расстоянием между растениями, разным для каждой культуры и признака [9]. Однако в селекционных питомниках необходимо соблюдать принцип типичности.
Выборка измеряемых растений. В ранних звеньях селекционного процесса сложно выполнить требования, предъявляемые к полевому опыту, и основные причины этого — малое количество семян для посева каждого из вариантов и многовариантность. При этом анализ полученного растительного материала и, в частности, измерение количественных признаков растений является довольно трудоемким. По-
этому важной задачей является разработка рекомендаций о достаточном объеме (т) выборки растений, измеренных на каждой делянке полевого опыта, т.е. таком объеме. увеличение которого незначительно повышает точность сравнения образцов.
Начиная с 2006 г. в РГАУ-МСХА имени К.А. Тимирязева разрабатывается соответствующий биометрический метод определения достаточного объема т. В результате получены оценки влияния объема на точность сравнения форм по среднему значению количественного признака [2]. Проверка и разработка рекомендаций проводились на двухлетних данных, полученных по 10 сортам гексаплоидной озимой тритикале.
Проведена модификация этого метода [5], предназначенная для сравнения гибридных популяций по их внутрипопуляционной дисперсии признака, как показателя генетической изменчивости, доступной для отбора. Проверка модифицированного метода и выработка рекомендаций были успешны на данных о семи признаках 17 гибридных популяций мягкой яровой пшеницы (^2 — 2008 г., —
2009 г., и — 2011 г.). Однако в 2010 г. проверка для трех из семи количественных признаков у 17 популяций ^4 выявила отклонения в методе, свидетельствующие
о существенных нарушениях модельных предположений дисперсионного анализа. Следовало установить причины отклонений и, по возможности, разработать рекомендации для их устранения.
Кроме того, разработанный метод проверялся на опытах с одинаковым по годам числом делянок в рандомизированных блоках. Не учитывалось возможное влияние на полученные рекомендации изменений общей протяженности блока, принимая во внимание градиенты почвенного плодородия. Желательно разработать специальную биометрическую методику, позволяющую без проведения дополнительных опытов прогнозировать достаточное число (т) растений, измеренных на каждой делянке, при изменении протяженности блока.
Цель работы — разработка и проверка усовершенствованного метода с учетом названных недостатков и ограничений.
Материалы и методика
Использовали 17 гибридных популяций (2009), ^4 (2010), и (2011) без от-
бора, полученных после попарного скрещивания восьми сортообразцов яровой мягкой пшеницы из коллекции системы ВИР имени Н.И. Вавилова [5].
Опыты проводили на поле лаборатории селекции и семеноводства полевых культур РГАУ-МСХА имени К.А. Тимирязева. Ежегодно посев 17 гибридных популяций в трех рандомизированных блоках был произведен вручную. Каждая делянка состояла из пяти учетных и двух защитных рядков по 20 зерен в каждом. Размер делянки: 1^1,26 м. Посев проводили поперёк полосы шириной 1 м с междурядьями 18 см, между соседними делянками расстояния 36 см, межполосная дорожка — 50 см. Уборку проводили вручную в фазе полной спелости, защитные и учетные рядки убирали отдельно.
Общее количество растений в учетных рядках из-за негативного влияния погодных условий разных лет колебалось в пределах от 70 до 100. На каждой делянке со всех пяти учетных рядков было использовано для измерений по 30 случайно выбранных растений (опорное число для биометрического анализа). У растений оценивали следующие признаки: 1 — высота растений; 2 — длина колосового стержня главного колоса; 3 — продуктивная кустистость; 4 — число озерненных колосков главного колоса; 5 — число зерен с растения; 6 — масса зерен с растения; 7 — масса 1000 зерен.
Теоретическая основа биометрического анализа
В основе вычисления любого доверительного интервала для парного сравнения количественного параметра (среднего значения признака, дисперсии и т.п.) у селекционных образцов в однолетнем полевом опыте лежит нахождение SPош — среднего квадрата ошибки опыта (MS остатка), получаемого из таблицы обычного дисперсионного анализа [1].
¡267 2
В частности, НСР =?тл------ош , где п — число повторений опыта, — таб-
V п
личное значение критерия Стьюдента.
Методика предложенной оценки достаточного (оптимального) объема выборки растений, измеренных на каждой делянке полевого опыта, основана на значении параметра относительной ошибки К (прогнозирует изменение ошибки опыта при любом конкретном значении т растений по сравнению с ошибкой при реальном числе растений, измеренных на каждой делянке в опыте) [5]:
к = ^7 2ош (т) у 612ош(30).
Формула дана для случая измерения 30 случайно отобранных растений на каждой делянке опыта (30 — опорное число растений). В этой формуле 672ош(30) — средний квадрат ошибки опыта (М6 остатка) из дисперсионного анализа экспериментальных данных в трех повторениях. 6/2ош(т) — также средний квадрат ошибки опыта, но прогнозируемый по формулам математической статистики для любого числа (т) растений, измеренных на делянке. При сравнении гибридных популяций по среднему значению признака параметр К далее имеет обозначение Кср, для сравнения дисперсии признака у гибридных популяций — К0 .
В формуле параметра К используется квадратный корень, так как в НСР для парного сравнения вариантов опыта входит именно корень из 672ош. Увеличение числа т вызывает снижение 672ош(т) и как следствие снижение параметра ошибки К, что означает увеличение точности сравнения в опыте и наоборот.
Предлагается следующий 10%-й критерий подбора достаточного числа растений, измеренных на делянке при шаге прогноза в 10 растений. Если оценка параметра относительной ошибки (К) при изменении объема выборки, например, на 10 растений (т = 30±10) осталась в пределах 0,9<К<1,1, то считается, что это изменение по отношению к опорному числу 30 не влияет существенно на относительную точность сравнительной оценки образцов в опыте. Тогда т можно даже сократить до 20 растений на делянке. Если при снижении объема до т = 30 - 10 = 20 растений параметр К>1,1, то это снижение нежелательно: НСР, как ожидается, увеличится минимум на 10% по сравнению с НСР при 30 измеренных растений. Если же при увеличении т на 10 (до т = 30 + 10 = 40 измеренных растений) параметр К<0,9, точность сравнения образцов должна повыситься существенно: НСР сократится минимум на 10%. Такое увеличение т желательно.
Методика оценки параметра К на основе экспериментальных данных состоит в следующем. Получив из дисперсионного анализа реальных данных опыта значение 672ош(30) — среднего квадрата ошибки для опорного числа растений, можно, как отмечалось выше, оценить 672ош(т) — средний квадрат ошибки для любого числа рас-
тений (т), измеренных на делянке. Для этого учитываем, что на 672ош(30) влияют две независимые составляющие.
Первая составляющая — это Я2* — дисперсия ошибки, которая останется даже для очень большого числа растений, измеренных на каждой делянке. Она обусловлена градиентами — тенденциями изменений почвенного плодородия, т.е. трендами характеристик почвы вдоль каждого блока, а также случайными, бессистемными изменениями параметров почвы по делянкам («пятнистость» плодородия на поле).
Вторая составляющая, оказывающая влияние на £/2ош(30), это 62(30) — дополнительная дисперсия ошибки выборочности, возникающая из-за ограниченного числа растений, измеренных на делянке (в данном случае 30).
Таким образом, получаем
67^(30) = ^ + 62(30). (1)
Если известно значение 62(30), то из этой формулы можно оценить Я2*:
Я2*, = 67^(30) - 62(30). (2)
Для определения Я2(30) обозначим через Д- — оценку дисперсии признака на 7-й делянке опыта по 30 растениям. Как известно, для любого числа т измеренных растений
А = Е (х - х)2!(т - 1),
у
где Ху — величина изучаемого признака на у-м растении, xi — среднее значение по т растениям на 7-й делянке опыта.
Напомним, что целью сравнительных экспериментов с п повторениями считалась оценка значимости различий изучаемых популяций либо по среднему значению признака (Е хк /п), либо по дисперсии признака (Е Дк /п). Здесь суммирование ведется по номерам повторений (к = 1... п) для каждой популяции, где п — общее число повторений-блоков опыта.
Рассмотрим ситуацию сравнения средних значений количественного признака у изучаемых популяций. Дисперсия ошибки среднего на 7-й делянке, как известно, равна Di/т. В частности, при т = 30 получаем Di/30. Вычисляем параметр Я2(30) для всего опыта, усредняя эти дисперсии ошибки выборочности растений по всем делянкам (17 популяций х 3 повторения = 51 делянка):
Я2(30) = Е Е Д/30). (3)
1 1________
17 х 3
В модификации метода для сравнения гибридных популяций по значениям дисперсии количественного признака используем формулу дисперсии ошибки выборочной оценки из справочника Ллойда и Ледермана [4]: 2Д ?/(т-1). Поэтому для усреднения этих дисперсий ошибки выборочности растений по 51 (17 х 3) делянке с опытными популяциями ^з, ^4 или использована формула
,2/29)
Я2(30) = . (4)
17 х 3
В обоих случаях сравнения, оценив 52(30), легко получить оценку прогнозируемого параметра 5?(т) для любого заданного числа измеряемых на делянке растений (т) по формуле
№(т) ~ 5?(30) х 30/т. (5)
Тогда 5Т2ош(т) — прогнозируемый средний квадрат ошибки для любого т вычисляется по формуле
5Рош(т) = + У(т), (6)
где значение 5^ предварительно получаем из формулы (2) при т = 30.
Далее для оценки К при любом т используется формула
К = 51 ош(т) = 15 2 „ + 5 2(т) (7)
р!2ош (30) V Б12ош (30)
В частности, для очень большого числа т растений (по отношению к опорному числу 30) величина 52(т) близка к 0, что следует из формулы (5). В этом случае из формулы (7) получаем оценку К(т^ <»):
К (т^ <») =
52
. (8)
512ош (30)
Преобразование экспериментальных данных, стабилизирующее дисперсию ошибки опыта.
Основным предположением модели дисперсионного анализа является нормальное распределение ошибок опыта в повторениях, причем с одинаковой по вариантам дисперсией (равноточность оценок) [7]. Однако при сравнении популяций по дисперсии (П) признака ошибка ее оценки на любой делянке, как отмечалось выше, равна 2П2/(т - 1), т.е. дисперсия ошибки не просто зависит от самого значения основного оцениваемого показателя П, но пропорциональна его квадрату. Эта связь может вызвать существенную неравноточность оценок П на делянках. Возможно, именно неравноточность вызвала отклонения при анализе данных 2010 г., экстремального по условиям выращивания.
Для снятия влияния связи оценок П с дисперсиями их ошибок воспользовались
известным методом поиска преобразования случайной величины, стабилизирующе-
л
го дисперсию [4]. Если случайная величина — оценка П имеет математическое
л
ожидание П и дисперсию, приблизительно равную 2П 2/(т - 1), то следует подобрать такое преобразование У = к(П), чтобы было выполнено:
с2(УМ2П 2/(т-1)][И'(П )]2 = с, (9)
лл где к'(П) — производная функции У по П при П = П, а с — постоянная величина.
Следовательно с2(У) — дисперсия ошибки преобразованной случайной вели-
л
чины У = к( П ) уже не будет зависеть от П.
Из (9) получаем И'(В) = с0,5[2В 2/(т-1)]-0,5.
Следовательно, постоянство дисперсии (9) будет приблизительно достигнуто, если
Л Л л
И(В) = с0 5| [2 В 2/(т-1)]-0 5 ёВ, (10)
где | — знак интеграла.
ЛЛ
Решение (10) дает преобразование У = 1п(В), т.е. «логарифм В » обеспечит постоянство дисперсии ошибки новой случайной величины У. Эта дисперсия зависит только от т и для любого признака приблизительно равна 2/(т - 1). В частности, при т = 30 получаем постоянное значение 2/(т - 1) ~ 0,07.
ЛЛ
Поскольку 1п( В) — монотонно возрастает по В, то преобразованные значения
ЛЛ
1п(В) можно вместо самих значений В использовать для сравнения популяций по их генетическому разнообразию (В). В частности, можно проводить дисперсионный
Л
анализ значений 1п(В ), где / — номер популяции,] — номер повторения в опыте.
Имитационное моделирование для оценки влияния асимметрии и эксцесса
В качестве известных причин нарушения модельных предположений дисперсионного анализа в работе также рассмотрено влияние отклонений от нормального распределения исходного количественного признака, измеряемого в опытах. В частности, влияние варьирования по популяциям асимметрии (рис. 1) и эксцесса (рис. 2) распределения.
Рис. 1. Кривая 1 — нормальное распределение; 2 — плотности распределения с асимметрией: 2а — положительная асимметрия, 2Ь — отрицательная асимметрия
Рис. 2. Кривая 1 — нормальное распределение; 2а — положительный эксцесс (крутовершинное распределение), 2Ь — отрицательный эксцесс (плосковершинное распределение)
Сложное влияние асимметрии и эксцесса исходных измеренных признаков 30 растений на результаты сравнения генетического разнообразия (В) селекционных образцов практически невозможно оценить аналитически. Поэтому в работе использовали метод имитационного моделирования, для чего была разработана специальная компьютерная программа на языке BASIC. В основе — генерация методом Монте-Карло «данных измерения признака у 30 растений на делянке».
В программе 500 раз генерируется выборка 30 случайных величин х, подчиняющихся распределению с заданным генеральными параметрами: математическим ожиданием, дисперсией (В), асимметрией (Ля) и эксцессом (Ех). Рассчитываются выборочная оценка В для каждой выборки из 30 значений х. К этой оценке применяется преобразование, выравнивающее дисперсии ошибки оценки В: У = 1п(В). Вычислялась с2У — дисперсия ошибки полученных значений У = 1п(В) по 500 повторам.
Затем меняют один из генеральных параметров и повторяют весь расчет. Таким способом удается оценить влияние варьирования генеральных параметров В, Ая, Ех, на а2У — дисперсию ошибки преобразованного показателя У = 1п(В).
Методика скользящей дисперсии
Желательно без проведения дополнительных экспериментов корректировать рекомендации по объему т выборки измеряемых растений при изменении числа сравниваемых селекционных образцов (делянок в блоке) на том же поле, точнее при тех же градиентах — трендах почвенного плодородия. Так, очевидно, что увеличение числа аналогичных делянок (например, в опыте следующего года) приведет к «удлинению» каждого блока-повторения в опыте. Это, как предполагается, не повлияет закономерно на показатель «2(30) в уравнении (1) и на вклад в ошибку «пятнистости» почвенного плодородия. Но удлинение участка под опытом может привести к увеличению за счет усиления влияния трендов плодородия. Последнее вызовет сокращение вклада параметра «2(30) в относительную ошибку К. Следовательно, в опыте с «удлиненными» блоками рекомендации относительно т могут измениться в сторону снижения, и наоборот, в сторону увеличения — при уменьшении числа делянок в блоке. Для количественной корректировки рекомендаций на т необходимо построить прогноз зависимости параметра от длины блока или от V — общего числа стандартных делянок в нем.
Для этого по аналогии с названием скользящей средней [6] была разработана методика скользящей дисперсии. В зависимости от целей сравнения популяций в данном методе используется один из двух индикаторов влияния градиентов почвенного плодородия в опыте на параметр Если стоит цель — сравнение по среднему значению количественного признака, то используется ё(Хср) — дисперсия оценок средних значений (X ) селекционного признака группы популяций на . соседних делянках блока. Если же поставлена цель — сравнение популяций по дисперсии признака, то ё(В) — дисперсия оценок показателя В для группы из . соседних делянок.
Так, по данным каждого однолетнего опыта с гибридными популяциями яровой пшеницы, где в каждом блоке было 17 делянок, число соседних делянок варьировали в расчетах от 7тш = 7 до .тах = 17 и оценивали 11 значений скользящей дисперсии. Выбор группы смежных делянок для получения элементов при оценке каждого значения di из 11 поясняет рисунок 3.
Элементы скользящей дисперсии определяют в группе из семи делянок: с 1-й
7
по 7-ю и получают дисперсию по ним — первый элемент ё7-1 = ^ (Р] - Р7-1)2/(7-1),
]=1
где Р] — значение изучаемого параметра (Хср или В) у популяции на ]-й делянке,
Р7-1 — среднее значение на первых семи смежных делянках блока. Затем оценивают
8
второй элемент ё7-2 = ^ (Р] - Р7-2)2/(7-1), где Р7-2 — среднее значение признака со
]=2
2-й по 8-ю делянку, затем третий — с 3-й по 9-ю (ё7-3), ... с 11-й по 17-ю (ё7-11). Сред-
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Рис. 3. Группировка соседних делянок в блоке для нахождения элементов каждой из
11 оценок скользящей дисперсии б,
нее по 11 полученным элементам ё7-к — оценкам дисперсий (к = 1.11) и будет ё7 — первой оценкой скользящей дисперсии.
Аналогично ё8 будет оценкой скользящей дисперсии — среднее значение из дисперсий, полученных по 10 группам из 8 смежных делянок, — из 9 ... ё16
(из 16), а ё17 — одна дисперсия 17 чисел Р, определенная для всей группы делянок блока: с 1-й по 17-ю. Всего таких индикаторных оценок 11 (ё7,.ё17) в каждом блоке-повторении полевого опыта.
Модель изменчивости параметра Р] (Хф или В ) у популяции с номером] в любом блоке опыта
Р] = V + С, + в],
где V — среднее значение признака по всему блоку, б] — генотипическое отклонение параметра у популяции на ]-й делянке блока, е] — ошибка оценки параметра этой популяции, имеющая структуру среднего квадрата в соответствии с уравнением (1): «I ош(30) = ^ + «2(30).
Поэтому ожидаемая структура индикаторного значения ё17 — для всего блока из 17 делянок:
^ = 1 (Р] - Р 17-1)2/(17-1) = «е17 + ^ + «2(30), (11)
]=1
где «С17 — генотипическая дисперсия параметра (X или В) всех 17 популяций опыта, «2м17 = — влияние градиентов почвенного плодородия и «пятнистости»
во всем блоке из 17 делянок.
Рассмотрим параметр «2м17 — влияние градиентов и «пятнистости» в группе из
1 < 17 смежных делянок. При увеличении di по 1 от ё7 до ё17 ожидаемое значение «2(30)
не меняется. То же относится к вкладу «пятнистости» почвенного плодородия. При условии рандомизированного размещения популяций в блоке значение «С17 также не имеет какой-либо тенденции при изменении по 1 от ё7 до ё17. Но «2М1- при существенном влиянии градиентов имеет тенденцию к увеличению по . из-за все большего «охвата» участков поля — числа смежных делянок, попадающих под усреднение в процессе вычисления от ё7 до ё17. Из уравнения (11):
= 4 - Я™ - «(30). (12)
Оценку генотипической дисперсии «С17 получаем из обычного дисперсионного анализа изучаемого параметра (X или В) по формуле
«С17 = (тя1 - тяг)1п.
Для уточнения оценок из уравнения (12) каждую из 11 оценок (ё7...ё17) следует предварительно усреднить по п повторениям-блокам.
Итак, при существенных градиентах почвенного плодородия на поле проявится достоверная положительная регрессионная связь между числами 1 и оценками скользящей дисперсий для этих групп соседних делянок. С помощью такой регрессионной связи появится возможность прогнозировать параметр для любого V — общего числа делянок, предполагаемых в блоке нового опыта на данном поле.
В результате на основе параметра К удастся заранее, не проводя дополнительных полевых опытов, подбирать новое достаточное (оптимальное) значение т для любого V.
Результаты и их обсуждение
Сравнение популяций по среднему значению признака
При сравнении 17 популяций по среднему значению признака увеличение числа растений, измеренных на делянке с опорного числа 30 до 40, не принесет значимого (на 10%) выигрыша в точности сравнения ни по одному из семи признаков (табл. 1). Снижение объема выборки до 20 растений также не приведет к значимому увеличению НСР. Снижение объема выборки с 30 до 10 растений приведет к значимому увеличению НСР для одного признака из семи. Снижение объема выборки с 30 до пяти приводит к снижению точности сравнения более чем на 10% для четырех признаков из семи.
Таким образом, результаты 2011 г. подтвердили рекомендации, полученные в 2009-2010 гг. [5]: при сравнении средних достаточно 20 растений, измеренных на
Т а б л и ц а 1
Зависимость относительной ошибки сравнения (Кср) от объема выборки растений,
измеренных на делянке (т), 2011 г.
Признак т = 5 т = 10 т = 20 т = 30 т = 40 т^~
Высота растения 1,01 1 1 1 1 1
Длина колосового стержня 1,49 1,22 1,06 1 0,97 0,87
Кустистость 1,21 1,09 1,02 1 0,99 0,95
Число озерненных колосков 1,10 1,04 1,01 1 0,99 0,98
Число зерен с растения 1 1 1 1 1 1
Масса зерен с растения 1,17 1,07 1,02 1 0,99 0,96
Масса 1000 зерен 1,03 1,01 1 1 1 0,99
каждой делянке. Отметим, что для признаков «высота», «число зерен с растения» и «масса 1000 зерен» варьирование числа т практически не влияет на Кср. Следовательно, внутриделяночная изменчивость этих признаков мала по сравнению с влияниями «пятнистости» и градиентов почвенного плодородия, отраженных в параметре (см. формулу (1) из раздела «Материалы и методика»). Вывод о трех признаках также соответствует результатам биометрического анализа данных 2009 и 2010 гг. [5].
Сравнение популяций по дисперсии признака
Снижение с 30 до 20 числа т — объема выборки растений, измеренных на делянке, нежелательно (табл. 2). При увеличении же выборки до 40 растений точность сравнения повысится на 11% только для двух признаков из семи. Лишь при очень значительном увеличении объема выборки растений (т^-да) можно добиться существенного увеличения точности сравнения популяций по дисперсии (П). Практически это трудно реализовать: резко увеличатся трудозатраты.
Т а б л и ц а 2
Зависимость относительной ошибки сравнения популяций по дисперсии (К0) от объема выборки растений (т), 2011 г.
Признак т = 5 т = 10 т = 20 т = 30 т = 40 т^~
Высота растения 2,25 1,62 1,18 1 0,89 0,44
Длина колосового стержня 2,02 1,49 1,14 1 0,92 0,62
Кустистость 1,75 1,35 1,10 1 0,95 0,77
Число озерненных колосков 1,76 1,36 1,10 1 0,95 0,76
Число зерен растения 1,80 1,38 1,11 1 0,94 0,74
Масса зерен растения 1,72 1,34 1,09 1 0,95 0,78
Масса 1000 зерен 2,25 1,62 1,19 1 0,89 0,43
Представленные в таблице 2 результаты анализа, проведенного в 2011 г. по семи исследуемым признакам подтвердили выводы, сделанные на основании исследований 2009-2010 гг. [5]: при сравнении по дисперсиям В (оценкам генетической дивергентности) популяций яровой пшеницы оптимальный объем выборки составляет 30 растений на делянке.
Преобразование данных для дисперсионного анализа
Как отмечалось выше, по данным 2010 г., для трех из семи количественных признаков дисперсионный анализ параметра В у 17 популяций выявил отклонения от ожидаемых соотношений (табл. 3). А именно, для признаков 1, 5 и 7 значения «12ош(30) оказались меньше «2(30) (отмечено жирным шрифтом). Это невозможно, исходя из формулы (1), приведенной в разделе «Материалы и методика».
Такое соотношение свидетельствует о сильных нарушениях модельных предположений дисперсионного анализа в 2010 г. и может привести к искажениям рекомендаций для подбора т — числа растений, измеряемых на каждой делянке. В 2009 г. (табл. 4) и в 2011 г. (табл. 5) подобных отклонений не наблюдалось, как и при дисперсионном анализе для сравнения популяций по среднему значению для каждого из семи признаков в 2009-2011 гг. Последнее, по-видимому, объясняется
Т а б л и ц а 3
Значения параметров 5/2ош(30) и Б2(30) при сравнении популяций по дисперсии (2010 г)
Параметр Признаки*
1 2 3 4 5 6 7
З/2 ош(30) 428,12 0,22 0,18 3,19 2,06х105 0,29 31,42
Б2(30) 504,5 0,14 0,18 1,56 2,83х105 0,27 54,21
* В таблицах 3-8 номера признаков — из раздела «Материалы и методика».
Т а б л и ц а 4
Значения 5/2ош(30) и Б2(30) при сравнении популяций по дисперсии признака (2009 г)
Параметр Признаки
1 2 3 4 5 6 7
5/2ош(30) 1102,49 0,16 0,58 2,12 6,16*105 2,01 95,64
Б2(30) 623,10 0,13 0,31 1,58 4,81*105 1,92 77,67
Т а б л и ц а 5
Значения 3/2ош(30) и Б2(30) при сравнении популяций по дисперсии признака (2011 г)
Параметр Признаки
1 2 3 4 5 6 7
5/20ш(30) 677,17 0,14 0,65 3,35 5,45*105 0,96 65,57
Б2(30) 547,29 0,09 0,27 1,41 2,44*105 0,38 53,49
отсутствием достоверной статистической связи оценок средних значений признака на делянках с дисперсиями их ошибок, которые, как отмечалось выше, равны В/т.
Как отмечалось в разделе «Материалы и методика», дисперсия ошибки основного оцениваемого показателя В не просто зависит от самого значения В, но пропорциональна его квадрату. В 2010 г., экстремальном по условиям выращивания, различия В по делянкам опыта весьма значительны, что видно из таблицы 6. Несмотря на высокую робастность дисперсионного анализа, такие различия могли грубо нарушить его предположения. Для проверки этой гипотезы в соответствии с рекомендованным
Т а б л и ц а 6
Диапазоны (тт-тэх) разброса значений показателя й и дисперсии его ошибки — 2й2Д30-1), оцененные по 51 делянке в опыте 2010 г.
Параметр Признаки
1 2 3 4 5 6 7
й (т/'п-тах) 2й2/(30-1) (тп-тах) 21,90- 172,66 33,09- 2056,99 0,56- 2,13 0,02- 0,31 0,66- 3,35 0,03- 0,77 1,00- 14,29 0,07- 15,31 832,32- 4464,91 4,78*104- 1,37*106 0,69- 2,96 0,03- 0,60 14,06- 46,65 13,64- 150,16
преобразованием (раздел «Материалы и методика») было проведено преобразование
л
оценок дисперсий на каждой делянке по формуле 1п( Б) и пересчет (табл. 7).
Т а б л и ц а 7
Л
Пересчитанные значения 5/2ош(30) и Б2(30) при анализе величин 1п( Б), преобразованных значениям дисперсий на каждой делянке в опыте 2010 г.
Параметр Признаки
1 2 3 4 5 6 7
5/2ош(30) 0,07 0,12 0,08 0,12 0,07 0,10 0,05
Б2(30) 0,07 0,07 0,07 0,07 0,07 0,07 0,07
Для преобразованных данных недопустимые отклонения проявляются при
анализе только последнего признака (масса 1000 зерен) из трех, отмеченных в табли-
л
це 3. Следовательно, устраненная зависимость дисперсий ошибок параметра В к от значений самого этого параметра — не единственная причина, нарушающая модельные предположения дисперсионного анализа.
Результаты применения имитационного моделирования для оценки влияния асимметрии и эксцесса
Возможно, дополнительной причиной, вызывающей существенные нарушения модельных предположений дисперсионного анализа, является значительный разброс значений асимметрии (Ля) и особенно эксцесса (Ех) по исходным данным на 51 делянке в опыте 2010 г. (табл. 8).
Т а б л и ц а 8
Диапазоны (т1п-тах) разброса значений асимметрии (Аб) и эксцесса (Ех), оцененных для 51 делянки по выборкам объема 30 растений (2010 г)
Параметр Признаки
1 2 3 4 5 6 7
Лб (тіп-твх) Ех (тіп-тах) —1,41 — 0,88 —1,44— 3,86 —1,97— 1,13 —1,31— 6,36 -0,44- 2,11 -1,31- 7,68 -1,85- 0,86 -1,31- 6,41 -0,27- 2,00 -1,34- 1,99 -0,2- 2,32 -1,41- 6,48 -0,48- 2,71 -1,31- 11,26
Полученные результаты имитационного моделирования, описанного в разделе «Материалы и методы», использовали прежде всего для оценки влияния параметров Б, Ая, Ех, на а2г — дисперсию ошибки преобразованного показателя Б. Анализ влияния параметров позволил сделать следующие выводы:
1. При фиксированных значениях показателей Б, Ая, Ех варьирование математического ожидания признака на делянке, как и предполагалось, не влияет на с2У;
2. Проверка выравнивания дисперсии ошибки параметра Б через преобразование У = ¡п(П), если изменчивость количественного признака подчиняется закону нормального распределения (Ая = 0, Ех = 0), подтвердила высокое качество этого пре-
образования. Дисперсия ошибки преобразованных значений У = ¡п(Б), независимо от Б, составляла приблизительно 0,07, что соответствует оценке 2/(30—1), полученной при аналитическом подборе преобразования (см. раздел «Материалы и методы»);
3. При фиксированных показателях Ая и Ех значение дисперсии ошибки преобразованных значений У = ¡п(П) мало зависит от величины генерального параметра Б у исходных выборок «данных по 30 растениям». Распределение самих преобразованных значений У = ¡п(Б) близко к нормальному;
4. Дисперсия ошибки преобразованных значений У = ¡п(Б) существенно меняется (по сравнению с 0,07) при варьировании показателя Ех у распределения количественного признака и в меньшей степени — при варьировании Ая.
Для иллюстрации 4-го вывода на рисунке 4 представлен характер зависимости а2У — дисперсии ошибки преобразованных значений У = ¡п(Б) от Ех — генерального значения показателя эксцесса распределения признака х у 30 растений при отсутствии асимметрии этого распределения (Ая = 0).
Пересчет при дополнительном внесении асимметрии (Аяф0) показывает, что независимо от знака величины Ая при варьировании степени асимметрии от -2 до
2 показатель с2У увеличивается на 5-80% (числа на поле рисунка 4 обозначают величины Ая).
Расчеты варьирования опытных оценок Ех и Ая (см. табл. 8) при сопоставлении с графиком на рисунке 4 показывают, что параметр Ех в 2010 г. для признака масса 1000 зерен мог колебаться в диапазоне от -1,44 до 11,26. Сле-
Рис. 4. Характер зависимости ст2у от Ех при Лб = 0 (жирная линия) и увеличение ст2у при Лб £ 0
довательно, дисперсия с2У могла колебаться по делянкам опыта в
2010 г. приблизительно от 0,07^0,3 при Ех = -1,44 до 0,07x18 при Ех = 11,26 (см. рис. 4). По-видимому, превосходство параметра 5^(30) над параметром 572ош(30), получаемым из дисперсионного анализа оценок У = ¡п(Б) для признака масса 1000 зерен (см. табл. 7), вызвано именно такой неравноточностью этих оценок.
Добиваться устранения такого недостатка преобразованных значений У = ¡п(Б) проблематично и, по-видимому, нецелесообразно, так как при анализе семи признаков за четыре года (28 расчетов) подобный недостаток проявился только один раз (7-й признак в таблице 7). Такие редко встречающиеся результаты просто не следует учитывать при разработке рекомендаций по числу измеряемых растений (т) для сравнения показателя Б у селекционных образцов по элементам структуры урожая любой культуры.
Можно сделать вывод, что преобразование У = ¡п(Б) весьма чувствительно к различиям по делянкам эксцессов и асимметрий исходных распределений признаков. Поэтому в 2009 и 2011 гг., когда преобразование данных не потребовалось,
дисперсионный анализ проявил большую робастность к эксцессам и асимметриям исходных данных.
Таким образом, для анализа и сравнения параметра Б (генетического разнообразия гибридных семей) при возникновении проблем с дисперсионным анализом следует использовать не сами оценки параметра Б, а их преобразованные значения У = ¡п(П), выравнивающие дисперсии ошибки.
Применение методики скользящей дисперсии
Для построения наглядных графиков на оси абсцисс можно отложить целые числа (/ = 7.17) соседних делянок, используемых при подсчете скользящих дисперсий. На оси ординат — оценки ¿7...йХ7, предварительно усредненные по п повторениям-блокам. В результате возникает возможность выявить тенденцию — связь размеров участков поля с градиентами (трендами) почвенного плодородия. Однако при этом следует учитывать, что оценки й7...й17 получены с ошибками выборочности — на график следует нанести их доверительные интервалы. В качестве «плеча» такого интервала при построении графиков можно использовать параметр у ошибки выборочности:
2 ¿2 ' п(и -1)
где п — число повторений-блоков (в наших опытах п = 3), и — число делянок в блоке (и = 17).
При анализе гибридных популяций по средним значениям признака методика скользящей дисперсии не выявила достоверных тенденций для большинства признаков и опытов 2009-2011 гг., т.е. не проявилась достоверная (с учетом доверительных интервалов оценок ¿(Хср)) регрессионная зависимость ошибки, связанной с пестротой почвенного плодородия (У2*,), от длины опытного блока (количества делянок /). Для иллюстрации на рисунке 5 приведен результат анализа признака высота растения; графики для каждого из трех лет усреднены по трем повторениям (блокам) опыта.
Напомним, что если бы проявилась тенденция роста при увеличении длины опытного блока, то влияние ошибки, связанной с ограниченным числом растений, измеряемых на каждой делянке (У230), на относительную ошибку (К) сравнения средних снизилось бы. Тогда при значительном удлинении блока, возможно, удалось бы сократить число растений, измеряемых на делянке без существенного снижения точности сравнения популяций (К<1,1).
Рис. 5. Зависимость скользящих дисперсий с(/Хср) при сравнении популяций по среднему значению признака высота растений от длины опытного блока (/ — количество делянок в блоке)
Аналогично при сравнении семей по дисперсии (Б) признака за 2009-2011 гг. методика скользящей дисперсии не выявила достоверных тенденций di(D) по большинству признаков. Для иллюстрации на рисунке 6 показан признак высота растений.
Каждый график усреднен по трем повторениям (блокам) опыта.
Причина отсутствия достоверных регрессионных зависимостей di от
1 — малая общая длина каждого блока (17 делянок) в экспериментах 2009-
2011 гг. Градиенты почвенного плодородия в сравнительно коротких блоках не проявились в достаточной степени.
Основное влияние на параметр ока-
зывала «пятнистость».
Выводы
1. В целом анализ данных 2009-2011 гг. с помощью усовершенствованного биометрического метода оптимизации числа растений, измеренных на каждой делянке, указывает, что 20 растений достаточно для сравнения популяций по среднему значению количественного признака. Если стоит цель — сравнить показатель генетического разнообразия (Б) популяций, то следует измерять по 30 растений. Вывод относится к опытам с популяциями мягкой яровой пшеницы, но сам биометрический метод применим для оптимизации полевых сравнительных испытаний любых форм культурных растений.
2. При возникновении проблем с дисперсионным анализом результатов сравнительных испытаний по показателю Б — генетическому разнообразию популяций — следует анализировать не сами оценки Б, а их преобразованные значения У = 1п(П), выравнивающие дисперсии ошибки Б. Установлено, что преобразование У = 1п(Б) чувствительно к различиям по делянкам эксцессов и асимметрий исходных распределений признаков. Однако, судя по 4-летним результатам анализа семи количественных признаков, это влияние проявляется сравнительно редко и не снижает возможностей разработанного биометрического метода оптимизации числа растений, измеряемых на каждой делянке.
3. Предложенную методику скользящей дисперсии желательно проверить на данных полевых сравнительных испытаний с более длинными блоками. Другой подход — применить имитационное моделирование, накладывая с помощью метода Монте-Карло дополнительный градиент почвенного плодородия на реальные или моделируемые данные эксперимента.
Работа выполнена при частичной финансовой поддержке Министерства сельского хозяйства РФ по теме: Разработка прогрессивных методов селекции и технологий возделывания новых сортов тритикале и пшеницы на основе математического моделирования.
Библиографический список
1. Доспехов Б.А. Методика полевого опыта. М.: Агропромиздат, 1985.
2. Комарова Е.А., Смиряев А.В., Пыльнев В.В. Влияние объема выборки растений на точность сравнения генотипов в полевом опыте // Известия ТСХА, 2007. Вып. 2.
3. Коновалов Ю.Б. Особенности полевого опыта в ранних звеньях селекционного процесса. М.: ТСХА, 1982. 28 с.
4. Ллойд Э., Ледерман У. Справочник по прикладной статистике. Т. 1. М., 1989.
Рис. 6. Зависимость скользящих дисперсий б(й) при сравнении гибридных популяций по дисперсии признака высота растений от длины опытного блока (/ — количество делянок в блоке)
5. Нгуен Тхань Туан., Смиряев А.В., Баженова С.С. Влияние объема выборки растений на точность сравнения гибридных форм яровой пшеницы // Известия ТСХА, 2010. Вып. 3.
6. Смиряев А.В., Кильчевский А.В. Генетика популяций и количественных признаков. М.: «КолосС», 2007.
7. ШеффеГ. Дисперсионный анализ. М.: Физматгиз, 1963.
8. Dionysia A. Fasoula. Correlations between auto-, allo- and nil-competition and their implications in plant breeding // Euphytica, 1990. Vol. 50. № 1. P. 57-62.
9. Iliadis G.C., RoupakiasD.G., Goulas C.K. Effectiveness of honeycomb selection for yield superiority at three interplant distances: a field simulation study using chickpea (Cicer arietinum L.) inbred lines // Euphytica, 2003. Vol. 133. № 3. P. 299-311.
10. Pouliney R., Riley J. and Webster R. Optimizing plot size and shape for field experiments on terraces // Experimental Agriculture, 1997. P. 51-64.
11. Romani M., BorghiB., Aiberici R. , Delogu G., Hesselbach J. and Salamini F. Intergeno-typic competition and border effect in bread wheat and barley // Euphvtica, 1993. Vol. 69. № 1-2. P. 19-31.
12. Zhang R., Warrick A. W., Myers D. E. Heterogeneity, plot shape effect and optimum plot size // Geoderma, 1994. Vol. 62. P. 183-197.
Рецензент — к. с.-х. н. Р.Р. Усманов
SUMMARY
Biometrical method for estimating the influence of plants number, measured on each plot of field experiment, upon accuracy comparison the hybrid populations by the averages and variances of a quantitative trait, had been worked out before. The method has been improved taking into account not equal accuracy of variances estimate and for situations with skewness and kurtosis of trait distribution. The technique of moving variance is used to forecast the influence of block length in experiment on the enough sample size of measured plants on each plot. Data of seven traits in 17 hybrid populations F3, F4 and F5 of soft spring wheat are used.
Key words: biometry, accuracy of hybrid population comparison, plants sampling volume, dispersion analysis, irregularity, asymmetry, excess, imitation modeling, sliding dispersion, spring wheat.
Смиряев Анатолий Владимирович — д. б. н., проф. каф. генетики и биотехнологии РГАУ-МСхА имени Тимирязева (127550, г. Москва, ул. Тимирязевская, 49; тел. (499) 976-08-94; e-mail: [email protected]).
Хупацария Титико Ипполитович — к. б. н., проф. каф. селекции и семеноводства полевых культур РГАУ-МСХА имени Тимирязева (тел. (499) 976-12-72).
Баженова Светлана Сергеевна — к. с.-х. н., доц. каф. селекции и семеноводства полевых культур РГАУ-МСХА имени Тимирязева (e-mail: [email protected]).
Нгуен Тхань Туан (Вьетнам) — к. б. н., преподаватель каф. селекции и генетики Ханойского аграрного университета (e-mail: [email protected]).