УДК 681.518:575.113
С.Е. Дромашко
КОМПЬЮТЕРНОЕ ОБЕСПЕЧЕНИЕ СЕЛЕКЦИОННОГО ПРОЦЕССА
ГНУ «Институт генетики и цитологии НАН Беларуси» Республика Беларусь, 220072, г. Минск, ул. Академическая, 27
Введение
В настоящее время отсутствуют современные объектно-ориентированные программные средства для обработки генетико-селекционных данных и оптимизации и ускорения процесса количественной оценки нового генофонда по показателям продуктивности с учетом влияния факторов среды (уровень урожайности в зависимости от почвенно-климатических факторов, устойчивость к основным биотическим и абиотическим стрессам, минимизация приемов интенсификации выращивания). Имеющиеся мощные статистические пакеты SYSTAT, STATGRAPH, STATISTICA вполне пригодны для обработки медико-биологических и фармакологических данных и пользуются широким спросом у данной категории пользователей. Существует
целый ряд отечественных и переводных пособий по использованию биометрических методов для целей так называемой «доказательной медицины» [1,2]. Однако ни один из названных пакетов не включают блока генетико-статистического анализа, учитывающего специфику требований селекционера. Общение с зарубежными математиками (Болгария, Литва, Россия) на 8-й Международной конференции «Компьютерный анализ данных и моделирование: Сложные стохастические данные и системы» (Минск, 11-15 сентября 2007 г.) [3] показало, что математики-программисты сталкиваются со значительными трудностями при обработке и интерпретации генетико-селекционных данных в наиболее распространенных статистических пакетах.
Материалы и методы
Хотя в основе большинства биометрических методов, предназначенных для решения селекционно-генетических задач растениеводства, лежат аппараты теории вероятностей и математической статистики, такие методы как дисперсионный, регрессионный, корреляционный и др., биометрические модели опираются на биологическую сущность анализируемых процессов, что в принципе не учитывается в стандартных пакетах, обладающих мощными средствами статистического прогнозирования [4].
Вот пример такой нетривиальной модели по оценке количественных признаков у сельскохозяйственных растений [5, с.78-87,191-194]. В модифицированном методе селекционных индексов формула для оценки величины любого изучаемого признака у /-го генотипа (фор-мообразца) набора ву'-й год, в к-й повторности
будет отвечать модели:
= G + Lt + V, + F. + в.к,
1к] / k ík у 1ку
где О. - характеризует генотип, Lk - годы (места) выращивания, Viк - взаимодействие генотип х среда, Г - опыты со случайными блоками, е- ошибку повторности. Для расчетов применяются формулы трехфакторного дисперсионного и ковариационного анализов с одним взаимодействием.
Уже из этого примера видно, что для селекционно-генетических задач требуется специальное программное обеспечение, отвечающее конкретным моделям и обеспечивающее оптимизацию и ускорение процесса количественной оценки нового генофонда по показателям продуктивности с учетом влияния факторов среды, например:
- общая и специфическая комбинационная способность,
- коэффициенты наследуемости,
- зависимость урожайности от эколого-генетических факторов,
- устойчивость к основным биотическим и абиотическим стрессам,
- минимизация приемов интенсификации выращивания и др.
Институт генетики и цитологии НАН Беларуси является ведущим учреждением респу-
блики в области математической генетики и моделирования селекционного процесса. Более 30 лет в институте разрабатываются прикладные программы для ЭВМ по генетико-статистическому анализу экспериментальных данных и математическому моделированию. В конце 1980-х - начале 1990-х годов в двух разных группах независимо были созданы два пакета прикладных программ: АБ-Стат (начиналась работа в БелНИИ земледелия и кормов) и РИШОН.
Результаты и обсуждение
Биометрические и компьютерные модели в Институте генетики и цитологии НАН Беларуси. В 1991-1993 гг. был разработан пакет прикладных программ АБ-Стат [6], предназначенный для статистического анализа результатов селекционных, генетических и медико-биологических экспериментов и являющийся продолжением и развитием пакета программ «Сигма», созданного Б.Ю. Аношенко для СМ ЭВМ в 1986 г
АБ-Стат не является универсальным пакетом, но имеет ряд преимуществ. Простая структура обрабатываемого файла данных (обычный текстовый файл - ASCII файл), который может быть подготовлен в любом текстовом редакторе (Norton editior, Multi edit, Word) или экспортирован почти из любых других программных продуктов (Dbase, Paradox, Statgraphics), позволяет быстро и оперативно проводить как предварительную, так и основную обработку данных. Файл данных или результаты его обработки можно быстро и легко перевести в другие программные продукты для дальнейшего анализа, графического представления или создания баз данных.
В пакет АБ-Стат включены следующие блоки, объединяющие около 30 программ:
- предварительная обработка файлов данных (проверка данных, конкатенация (объединение) данных, печать данных);
- вычисление элементарных показателей (средние и корреляции, ранговая корреляция по Спирмену);
- дисперсионный анализ (многофакторный (до 6-ти) анализ, восстановление пропущенных данных, одно- и двухфакторный дисперсионный анализ неравномерных комплексов);
- сравнение (по t-критерию Стьюдента, по
U-критерию Манна-Уитнея, сравнение частот по критерию хи-квадрат);
- графическое представление данных (гистограммы и др. одномерные графики, двумерные графики рассеивания);
- регрессионный анализ (регрессии от одного аргумента, множественная полиномиальная регрессия, путевые коэффициенты Райта);
- многомерная классификация (кластерный анализ признаков, кластерный анализ объектов, линейный дискриминантный анализ);
- сервисные программы (очистка экрана, транслитерация текстов);
- специальные программы (учет пестроты почвенного плодородия, анализ общей (ОКС) и специфической (СКС) комбинационной способности, определение экологической стабильности);
программы оптимизации селекционного процесса (планирование селекционных скрещиваний по методу «белорусского квадрата», составление схем посева и печати журнала полевых наблюдений, создание «bsd» и «fld» файлов и проверка соответствия журнала схеме посева, оценка образцов по комплексу признаков в селекционных питомниках, создание файла средних значений по линиям, комбинациям скрещивания, родительским формам).
К 1995 г. под операционную систему MS DOS было в основном завершено под руководством автора создание пакета прикладных программ для персональных компьютеров РИШОН по различным видам биометрического анализа (элементарный статистический, корреляционный, дисперсионный, многомерный, генетический) [7]. Пакет РИШОН зарегистрирован в Государственном регистре информа-
ционных ресурсов Республики Беларусь [8]. На рис. 1 и 2 представлены примеры работы различных программ пакета.
В пакет вошло около 40 программ по различным видам биометрического анализа:
- элементарный статистический анализ -первичная обработка, вычисление критериев Стьюдента и Фишера, сравнение распределений, разбиение по классам;
- корреляционный анализ - выбор уравнения регрессии (17 различных аппроксимирующих формул, включая полином степени К), определение множественной нелинейной регрессии, вычисление корреляционного отношения, нахождение линейных корреляций, вычисление корреляций по Спирмену и т.п.;
- дисперсионный анализ - однофакторный, двухфакторный и трехфакторный (в том числе учет неполноблочных планов, расчет коэффициентов наследуемости);
- многомерный анализ - построение дендро-граммы, компонентный анализ, разные виды кластерного анализа;
- генетический анализ - вычисление общей и специфической комбинационной способности (по четырем методам Гриффинга), оценка комбинационной способности при скрещивании с тестерами, нахождение генетических параметров по методу Хеймана, определение экологической стабильности и пластичности по Эберхарту и Расселу, вычисление путевых коэффициентов Райта и целый ряд других методов.
D:\DI5KE-1YTB\BIN\RISHON.EXE
Ваиемч вниманию предлагается
Статистический пакет RISHON <версия 1.0) обработки селекционно гсистичсской информации
elp Screen= Определение генетических параметров по методу Хеимана.
(Цильке Р.й. Методика диa.i.ie 1ьного анализа исходного
материала по количественным признакам. Неб., 1979) Данные вводятся в виде массива:
n,n,k п - количество сортов <линий) в
х,х,х,х,х исходной матрице
х.х.х.х.х п - количество повторностей
х„х,х,х„х к - число наблюдений (растений)
х,х,х,х,х по Фактору
х,х,х,х,х Д.-1Я до упорного массива
More PgDn
|р
Элементарный Ксрелляционнын Дисперсионным Многомерный Генетическии
Рис. 1. Пакет РИШОН: вверху - окно описания метода Хеймана, внизу - работа соответствующей программы.
Блок генетического анализа занимает около трети всего пакета и постоянно пополняется новыми программами. В настоящее время в него входит более 10 программ, написанных как по известным из литературы методам, так и на основе оригинальных, разработанных в Институте генетики и цитологии НАН Беларуси моделей (например, программа ADIS для определения адаптивной способности по А.В.Кильчевскому
и Л.В.Хотылевой и др. [9]).
В отличие от других пакетов указанного периода, например DAVEP-PC (Германия), или БИОСТАТ (Молдова), пакеты АБ-Стат и РИШОН ориентированы на запросы генетиков и селекционеров. Они обладают удобным интерфейсом, все программы в пакетах работают в режиме Q&A (вопрос-ответ) (см. пример на рис. 2). Пакет РИШОН, кроме того, позволяет
легко и естественно перейти от стандартных статистических методов обработки экспериментальных данных к блоку генетического анализа. Интерфейс позволяет провести в ходе корреляционного, дисперсионного или генетического анализа всю необходимую первичную статистическую обработку исходных данных и выдать их пользователю. Можно также использовать уже полученные ранее расчеты основных статистических параметров в задачах селекционно-генетического плана.
Ориентированность на запросы генетики
сельскохозяйственных растений позволила внедрить пакет РИШОН в практику учебного процесса на биологическом факультете Гомельского государственного университета, ряде кафедр Белорусской государственной сельскохозяйственной академии. Пакет был также передан для использования на Опытную научную станцию по птицеводству НАН Беларуси, в Институт генетики и физиологии хлопчатника АН Таджикистана. Ряд программ, в частности ADIS, передан в селекционные учреждения России и Молдовы.
Рис. 2. Пример работы программы по определению вида полинома из пакета РИШОН.
В целом оба пакета нашли широкое применение в научных исследованиях Института генетики и цитологии НАН Беларуси и других НИИ. Однако за 10 прошедших лет дизайн пакетов АБ-Стат и РИШОН, ориентированный на MS DOS, морально устарел. Назрела необходимость их объединения и перевода на современную платформу, а также включения в них некоторых других программных продуктов, разработанных после создания пакетов.
В частности, это касается программы BIODIS [10], которая позволяет оценить характер распределения данных. Известно из практики, что при обработке эксперименталь-
ных данных, как правило, предполагается, что они подчиняются нормальному, или Гауссову распределению. В крайнем случае, используются еще биномиальное распределение, а для редких событий или малых выборок - соответственно распределения Пуассона и Стьюдента. Однако в целом ряде случаев биологические данные могут отвечать другим распределениям, например, распределению Максвелла, Шарлье и т.д.
Важно четко представлять характер распределения, которому подчиняются экспериментальные данные, поскольку в случае его несовпадения с нормальным распределением нельзя
использовать статистические методы, на нем основанные. В частности, к неверным выводам приведет применение таких популярных в биологии статистических показателей, как среднее и среднеквадратичное отклонение. Некорректно также для описания дисперсии применять стандартную ошибку среднего и т.д. [11].
Здесь следует вспомнить работы О.О. Кедрова-Зихмана [12], который показал, что в значительном числе случаев наблюдается сильное отклонение от нормального распределения, что можно определить по величине статистических моментов порядка выше второго: коэффициентов эксцесса и асимметрии (в случае нормального распределения они равны 3 и 0 соответственно). Например, нельзя ожидать нормального распределения при создании синтетических гибридных популяций.
Созданная нами программа BЮDIS (ВЮтеМса1 DIStribution) позволяет сделать выбор между семью распределениями: нормальное, биномиальное, Пуассона, ^распределение (Стьюдента), Максвелла, геометрическое, равномерное. При этом учитывается величина выборки (больше
или меньше 20 измерений в обрабатываемом массиве) и наличие так называемых «выбросов» (или грубых ошибок измерений), так что экспериментатор может задать соответствующий режим обработки. С помощью анализа отчета, выдаваемого программой, можно подбирать наиболее подходящее распределение, даже если гипотеза о распределении подтвердилась для нескольких законов.
В генетике и селекции наибольшее распространение получили математические методы, связанные с традиционным статистическим подходом [13-15 и др.]. Однако в целом ряде случаев экспериментальный материал заставляет сомневаться в самом существовании априорных моделей, на которых основана вся статистическая методология. В этих обстоятельствах представляется необходимым строить анализ эколого-генетических селекционных данных на какой-то иной методологической основе, более адекватной характеру экспериментального материала. В качестве такой основы мы предлагаем теоретико-информационный подход [16].
Рис. 3. Система однофакторного теоретико-информационного анализа ТИА 2.1: слева - основное окно с описанием возможностей метода, справа - результаты расчетов с выдачей графика.
Во второй половине 1990-х гг. под операционную систему MS DOS нами разработан комплекс программ теоретико-информационного анализа генетических процессов у сельскохозяйственных растений с учетом влияния средовых факторов, в настоящее время модицицированный для операционной системы MS Windows [17]. На рис.
3 представлен соответствующий программный продукт.
Перспективы модернизации. Поскольку направление «Информационные основы повышения эффективности управления селекционными процессами на базе современных компьютерных средств и новых информационных технологий» является важным и актуальным
совместно с НИИ прикладных проблем математики и информатики УО «Белорусский государственный университет» подан проект «Разработать пакет прикладных статистических программ для анализа генетико-селекционных данных» на конкурс Инновационного фонда НАН Беларуси 2009 года. Новый пакет будет отличать современная, удобная для пользователей платформа Grid, для которой будут адаптированы в формализме Grid и заново разработаны следующие программы:
- элементарной статистики: первичная обработка генетико-селекционных данных, вычисление критериев Стьюдента и Фишера, сравнение распределений по критериям Манна-Уитни и хи-квадрат, робастные оценки сдвига и масштаба, разбиение по классам;
- корреляционного анализа: выбор уравнения регрессии, определение нелинейной регрессии, вычисление корреляционного отношения, нахождение линейных корреляций, вычисление корреляций по Спирмену, робаст-ных коэффициентов корреляции и др.;
- дисперсионного анализа: одно-, двух-, трех- и многофакторый (до 6 факторов) дисперсионный анализ;
- многомерного анализа: построение ден-дрограммы, компонентный анализ, разные виды кластерного анализа и др.);
- теоретико-информационного анализа: скрининг наиболее значимых факторов, определение информационных потоков и их силы, оптимизация многомерных взаимодействий в малых и уникальных выборках;
- генетического анализа: вычисление общей и специфической комбинационной способности по Гриффингу, метод Хеймана, определение экологической стабильности и пластичности, вычисление путевых коэффициентов Райта;
- селекционного анализа: планирование селекционных скрещиваний по методу «белорусского квадрата», оценка образцов по комплексу признаков, учет пестроты почвенного плодородия и др.
Кроме того, в России в 1993-2000 гг. под руководством д.б.н. С.П. Мартынова был создан пакет AGROS, содержащий более 60 специализированных программ, написанных под операционную систему MS DOS [18]. В 2009 г. с российскими коллегами достигнута принципиальная договоренность о разработке
на более современной платформе совместного программного продукта, объединяющего достоинства ранее созданных пакетов. В случае реализации всех планов новый пакет программ явится хорошим примером использования информационных технологий для оптимизации и ускорения селекционного процесса. Он также будет востребован в учебных, научно-исследовательских и селекционных учреждениях Беларуси и стран СНГ при подготовке специалистов, магистров и аспирантов биологического и сельскохозяйственного профиля.
Система компьютерной алгебры Math-ematica. В настоящее время на Западе разработано несколько универсальных компьютерных систем, дающих специалистам-нематематикам возможность решать ряд сложных задач в области своих исследований «в формульном представлении», не вдаваясь в математические тонкости. К ним можно отнести системы Maple, MathCAD, MatLab, Mathematica. Наиболее мощной и эффективной из них является система Mathematica, разработанная в США коллективом авторов под руководством профессора С. Вольфрама и выпускаемая фирмой Wolfram Research Inc. Несмотря на то, что основное назначение системы - символьные вычисления, она может быть использована и как «очень большой калькулятор», и для проведения численных вычислений с любой заданной точностью. На русском языке имеется ряд пособий по разным версиям компьютерной системы Mathematica [19, 20].
Один из математических методов, реализованных в данной системе, - линейное программирование. Этот метод позволяет оптимизировать различные процессы, добиваясь максимального выхода продукции или минимальных затрат. В генетике и селекции задача линейного программирования часто формулируется именно как «задача на минимум», или задача о диете или оптимальном рационе. Пусть имеется n видов продуктов, в которых содержится в разных количествах m видов питательных веществ. Обозначим через y. количество купленного продукта i-го вида (i = 1, ..., n), b. - цену единицы i-го продукта, c. - необходимый минимум j-го питательного вещества (j = 1, ..., m), через a.. - количество питательного вещества в единице i-го продукта. Тогда получаем систему
Еy. ap> c , j = 1 ...m) y > 0 , (i = 1, ...и) Е b. y. ^ min.
Легко заметить, что также описывается в общем виде и задача о выборе опти-
мальной стратегии селекционного процесса, например, о включении в него тех или иных дорогостоящих, но эффективных молекулярно-генетических методов, определении объемов селекционного материала и т.д.
заключение
В Институте генетики и цитологии НАН Беларуси созданы пакеты прикладных программ по биометрической генетике АБ-Стат, РИШОН и теоретико-информационному анализу эколого-генетических взаимодействий ТИА 2.1, используемые в научных исследованиях и селекционном процессе. Эти пакеты генетико-статистических программ переданы в ряд научных и учебных учреждений Беларуси и СНГ. Однако в настоящее время назрела необходимость
объединения пакетов и перевода их на современную платформу. Обсуждаются пути модернизации пакетов для расширения практического использования в НИИ и селекционных учреждениях, а также для последующего включения в программу подготовки магистров и аспирантов биологического и сельскохозяйственного профиля. Предлагается использовать систему компьютерной алгебры МаШеша^са для решения селекционных задач.
Список использованных источников
1. Реброва, О.Ю. Статистический анализ медицинских данных. Применение пакета прикладных программ STATISTICA / О.Ю. Реброва. - М.: МедиаСфера, 2002. - 312 с.
2. Петри, А. Наглядная статистика в медицине / А. Петри, К. Сэбин; пер. с англ. В.П. Леонова. - М.: ГЭОТАР-МЕД, 2003. - 144 с.
3. Computer Data Analysis and Modeling: Complex Stochastic Data and Systems: Proc. 8th Intern. Conf., Minsk, Sept. 11-15, 2007. In 2 Vol. - Minsk: Publ. Center BSU, 2007.
4. Боровиков, В.П. Прогнозированеи в системе STATISTICA в среде Windows: Основы теории и интенсивная практика на компьютере: учеб. пособие / В.П. Боровиков, Г.И. Ивченко. - 2-е изд., перераб. и доп. - М.: Финансы и статистика, 2006. - 368 с.
5. Смиряев, А.В. Биометрические методы в селекции растений / А.В.Смиряев, М.В. Гох-ман. - М.: Агропромиздат, 1985. - 214 с.
6. Аношенко, Б.Ю. Программы анализа и оптимизации селекционного процесса растений. Материалы 1-ого съезда Вавиловского общества генетиков и селекционеров (Саратов, 20-25 декабря 1994 г.) / Б.Ю. Аношенко// Генетика. - Т. 30 (прил.). - С. 8-9.
7. Дромашко, С.Е. О логической схеме и структуре пакета прикладных программ
по генетико-статистическим расчетам / С.Е.Дромашко, С.Р.Мац, Г.И.Френкель // Генетика. - 1995. - Т. 31, № 9. - С. 1314-1316.
8. Система для генетико-статистического моделирования генетических процессов / С.Е. Дромашко, С.Р. Мац, Г.И. Френкель, О.М. Пятковская; обладатель - Институт генетики и цитологии НАН Беларуси // Государственный регистр информационных ресурсов Республики Беларусь. -№ 1340600426. - 27.03.2006.
9. Кильчевский, А.В. Генотип и среда в селекции растений / А.В. Кильчев-ский, Л.В. Хотылева - Мн: Наука и техника, 1989. - 191 с.
10. Дромашко, С.Е. Новая компьютерная программа для подбора вида распределения биологических данных / С.Е. Дромашко, О.М. Громыко // Весщ НАН Беларуа, сер. бiял. навук. - 1999. - № 1. - С. 28-30.
11. Реброва, О.Ю. Описание процедуры и результатов статистического анализа медицинских данных в научных публикациях. Часть I. Описание статистического анализа в разделе «Материалы и методы». Представление данных в разделе «Результаты» / О.Ю. Реброва // Международный журнал медицинской практики. - 2000. - № 4. - С. 43-46 (http://www.
mediasphera.rU/mjmp/2000/4/r4-00-21.htm).
12. Кедров-Зихман, О.О. Поликросс-тест в селекции растений / О.О. Кедров-Зихман. -Минск: Наука и техника, 1974. - 128 с.
13. Рокицкий, П.Ф. Биологическая статистика / П.Ф. Рокицкий. - Минск: Вышэйшая школа, 1973. - 319 с.
14. Смиряев, А.В. Биометрия в генетике и селекции растений / А.В. Смиряев, С.П. Мартынов, А.В. Кильчевский. - М.: Изд-во МСХА, 1992. - 269 с.
15. Смиряев, А.В. Генетика популяций и количественных признаков / А.В. Смиряев, А.В. Кильчевский. - М.: Колос С, 2007. - 272 с.
16. Дромашко, С.Е. О возможности исследования генетических систем с помощью информационно-логического подхода / С.Е. Дромашко, Г.И. Френкель, Б.О. Дубовской// Генетика. - 1995. - Т. 31, № 1. - С. 139-143.
17. Дромашко, С.Е. Разработка метода
компьютерного анализа данных на основе теоретико-информационного формализма / С.Е. Дромашко, Я.И. Шейко // Молекулярные, мембранные и клеточные основы функционирования биосистем: Междунар. научн. конф.; 8-й съезд Бел. обществ. об-ния фотобиол. и биофиз., 25-27 июня 2008 г., Минск, Беларусь: сб. статей. - Минск: Изд. центр БГУ, 2008. -Ч. II. - С. 292-294.
18. Пакет программ статистического и био-метрико-генетического анализа в растениеводстве и селекции AGROS. - Тверь, 1999.
19. Капустина, Т.В. Компьютерная система Mathematica 3.0 для пользователей: Справочное пособие / Т.В.Капустина. - М.: СОЛОН-Р, 1999. - 240 с.
20. Шмидский, ЯК. Mathematica 5. Самоучитель / Я.К.Шмидский. - М.: Издат. дом «Вильямс», 2004. - 592 с.
Дата поступления статьи 16 марта 2009 г.