Научная статья на тему 'К вопросу о методологии статистической обработки количественных данных генетических экспериментов'

К вопросу о методологии статистической обработки количественных данных генетических экспериментов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
179
37
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Фролова Л. Л., Королева Т. Э.

The author consider aa common approach to solving this problem. The article shows that a check-up of data normal distribution is necessary for the correct use of statistical methods.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Фролова Л. Л., Королева Т. Э.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE METHODOLOGY OF STATISTICAL ANALYSIS OF QUANTITATIVE GENETIC DATA OBTAINED BY EXPERIMENTS

The author consider aa common approach to solving this problem. The article shows that a check-up of data normal distribution is necessary for the correct use of statistical methods.

Текст научной работы на тему «К вопросу о методологии статистической обработки количественных данных генетических экспериментов»

УДК 575; 577.1

К ВОПРОСУ О МЕТОДОЛОГИИ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ КОЛИЧЕСТВЕННЫХ ДАННЫХ ГЕНЕТИЧЕСКИХ ЭКСПЕРИМЕНТОВ

© Л.Л. Фролова, Т.Э. Королева

Frolova L.L., Koroleva Т.Е. On ihe methodology of statistical analysis of quantitative genetic data obtained by experiments. The author consider aa common approach to solving this problem. The article shows that a check-up of data normal distribution is necessary for the correct use of statistical methods.

До недавнего времени лишь немногие биологи сознательно использовали статистическую обрабо тку экспериментальных результатов, и трудно было предположить, что математические методы войдут в повседневную жизнь практически каждого биолога-исследователя. С развитием компьютерных информационных технологий анализ биологических данных приобретает важное практическое и научное значение. Компьютерная обработка данных позволяет быстро получать необходимые оце1нш и расчеты, не углубляясь в вычислительные детали и математические доказательства. Однако при анализе данных необходимо учитывать условия применения статистических методов, а также следует обратить внимание на корректность использования параметрических и непараметрических методов.

При статистической обработке данных, в силу их случайной природы, важно установить соответствие выборочных характеристик тем вероятностным законам, которым они подчиняются. Основным из них является нормальный закон распределения (закон Гаусса), который используется в задачах теории оценивания и проверки гипо тез.

Поскольку понятие нормальности играет важную роль для применения многих статистических процедур, то важно проверить, что выборка значимо не отличается от нормальной, а используемые статистики имеют выборочные нормальные распределения. Рис. 1 иллюстрирует правильное применение стати-

стических методов для анализа выборки в зависимости от принадлежности к нормальному закону распределения. Аппарат параметрических методов разработан лучше, и поэтомл он применяется чаще при статистическом анализе данных.

Схема статистической обработки экспериментальных данных должна быть построена в зависимости от постановки задачи и включать обязательный этан проверки выборочных данных на нормальность для всех задач. Проиллюстрируем этот подход на примерах анализа количественных генетических данных. Обработка данных проведена с помощью пакета Statgraphics Plus for Windows.

Пример 1. Определим связь, между частотой появления мутантов и числом клеток, участвующих в эксперименте. Данные приведены в табл. 1.

Первоначально проведем проверку выборок (Num_cells, Num_mut, Freq_mut) на принадлежность к нормальному закону распределения. По результатам проведенного анализа можно утверждать, что данные принадлежат к нормальному распределению. Результат для выборки Freq_mi.it приведен па рис. 2.

Из рисунка 2 видно:

- проверка по тесту на нормальность показала, что наймет,шее Р-значение среди выполненных тестов равно 0,12869. Так как /'-значение этого теста больше 0,10, то гипотезу о принадлежности частоты появления мутантов к нормальному распределению можно не отвергать с вероятностью 90 %;

Проверка выборки на принадлежность к нормальному закону распределения (тест Шапиро - Уилкса, тест для малых выборок: тест согласия: у_\ критерий Колмогорова - Смирнова)

Да Нет/Да

Параметрические методы Непара.ме ї рнческпе методы

Корреляционный анализ Ранговый коэффициент Спирмена

Частішій корреляционный анализ -

Описательные статистики

Среднее Медиана

Стаї ідарті юе отклої іеі me Размах выборки

Асимметрия -

Эксцесс -

('равнение двух выборок

/-критерий Стыодеита Критерий Маши - Уитни

(’равнение нескольких выборок

Однофакторный дисперсионный анализ Критерий Краскелла - Уоллиса

Рис. 1. Схема соогиетсп’.пя параметрических и непарамеірических методой для анализа данных

Таблица 1

Данные о частоте мутаций и плотности бактериалі.ной поп\'ляции

Логарифм числа клеток, участвующих в эксперименте Логарифм числа появившихся мутантов Логарифм часюш появления мутантов

Num cells \:ШП 11ШІ Fieq mill

17,83 72 -13,56

18,19 87.19 -13,72

12,13 99.67 -7,52

9,82 76.75 -5,48

7.52 42.56 -3.77

5,22 19.56 -2.24

15,04 103.13 -10.4

12,04 56,69 -8.01

9,05 17,94 -6.16

18,38 226.67 -12,96

16,08 46,75 -12,24

13,78 22.87 -10.65

17,9 180,56 -12,71

15,59 84.58 -11.16

13.29 73.62 -8,99

17,5 199.13 -12,21

15,2 109.12 -10.51

12,89 87.87 -8.42

18,34 124.5 -13,55

- проверка по тесту согласия показала, что /■’-значение выполненного теста равно 0.717427. Так как Р-значение теста больше 0,10. то гипотезу о принадлежности частоты появления мутантов к нормальному распределению можно не отвергать с вероятностью 90 %.

Так как выборки принадлежат к нормальному закону распределения, то корректно применение параметрических и непараметрических методов, т. е. научные выводы, сделанные по результатам обоих методов, будут идентичны.

Применение параметрических методов. Для проверки наличия связи между факторами (числом появившихся му тантов, частотой появления мутантов и числом клеток, участвующих в эксперименте) МОЖНО вычислить коэффициенты корреляции Пирсона. Уровни значимости коэффициентов корреляции построены на основе распределения Стьюдента. Результат корреляционного анализа представлен на рис. 3.

Из рис. 3 видно, что результат анализа показывает сильную отрицательную связь между «Частотой мутаций» (Рге(.цпи1) и «Количеством клеток» (№т1_ее118). Степень доверия к этой связи, исходя из уровня 'значимости, почти стопроцентная. Хорошо выражены связи -положительная между «Количеством мутаций» (Мшп_1тш1:) и «Количеством клеток» (Ышп_се118) и отрицательная между «Частотой мутаций» (Freq_mt.il) и «Количеством мутаций» (Num_mi.Lt). Доверие к ним более 95 % (Р < 0,05).

По результатам предыдущего анализа было выдвинуто предположение, что уже возникшие мутанты влияют на появление последующих (влияние числа мутантов на частоту мутаций). Это предположение можно проверить с помощью част-Н010 корреляционного анализа. Изменение частного К0'.)(|)([)ициента корреляции говорит о том, что факторы, влияние которых в данном случае исключено, являются важными для характеристики данной величины. На рис.4 показан результат анализа даш!ых.

Тест на нормальность для логарифма частоты появления мутантов Ртеи ти!

Шапиро - Уилкса К-статистика = 0,922226 /'-значение = 0,12X69

Тест для малых выборок:

Для асимметрии = 1,00827 Р-значение = 0,313324

Тест согласия для логарифма частоты появления мутантов Ртеи пни Оцениваемая статистика Колмогорова 1)РИ.18 = 0,159736 Оцениваемая статистика Колмогорова ВМВДХРЧ = 0,121381 Оцениваемая полная статистика ГЖ = 0,159736

AнlLpoкcимиpoвaннoe /’-значение = 0,717427______________________________

Рис. 2. Результаты проверки выборки на нормальность

Freq_mut Num_cells Num_mut

Freq_mi.it -0,9893 -0,5681

0,0000 0,0112

Nnm_cells -0,9893 0,6683

0,0000 0,0018

Ыит_тШ -0,5681 0,6683

0,0112 0,0018 первое число - коэффициент корреляции 11ирсопа; второе число - это /'-значение, показывающее статистическую значимость корреляции (/'-значение меньше 0,05 показывает статистическую значимость ненулевой корреляции с 95 % уровнем доверия)

Рис. 3. Матрица корреляциошюі о анализа

Freq^m ut Num cells Num mut

Freq_mut -0,9958 -0,8559

Num_cells Num mut -0,9958 -0,8559 0,8840 0,8840

Рис. 4. Матрица частного корреляционного анализа

Freq mut Num cells Num mut

F req_mut -0,9684 0,0000 -0,5070 0,0315

Num cells 0,0000 -0,9684 0,6789 0,0040

Num_mut -0,5070 0,0315 0,6789 0,0040

Рис. 5. Матрица коэффициентов ранговой корреляции Спирмена

Таблица 2

Взвешивание крысят (самцов) трех контрольных и ,рех опытных семей

1 3 - контрольные семьи, 4 6 - опытные семьи. Fain - помер семьи. ------Пну] -180 - дни, в которые производилось взвешивание

236.0 I 251,2

Из рис. 4 видно, что сила ’зависимости частоты мутаций от числа клеток не меняется при исключении влияния числа мутантов, т. е, числом мутантов, как фактором, влияющим на частоту мутаций можно пренебречь. Таким образом, первоначальное предположение не подтвердилось Но подтвердилось предположение о том, что плотность клеток является ведущим фактором в частоте появчения мутантов.

Применение нспиримстрмческнх методов. [<ак отмечалось выше, для анализа выборки, имеющей нормальное распределение, корректно также использовать непараметрические методы (рис. 1), В частности, вместо коэффициента корреляции Пирсона может быть вычислен коэффициент ранговой корреляции Спирмена (рис. 5).

Из рис. э видно, что полученные результаты, аналогичные параметрическому случаю, т. е. наблюдается паличне сильной оірицательпой связи между плотностью клеточной популяции и частотой мутантов

Вывод. В случае принадлежности выборки к нормалі,ному закону распределения использование параметрических и непараметрических методов приводит к одинаково достоверным заключениям.

Пример 2. Проверим значимость различий веса крысят в опытных и котрольных семьях. Опыт заключался в выяснении влияния изменения пищевого рациона па вес крыс. Взвешивание проводилось для опытных и котрольных семей в контрольные дій (табл. 2).

Схема анализа, как и прежде, заключаегся в первоначальной проверке выборки на нормальность.

I еплыагы проверки представлены на рис. 6.

Тест на нормальность для Рау 180

Шапиро - Уилкса П -статисгика = 0,818217 /'-значение = 0,00784526

Тест для малых выборок:

Для асимметрии = 1,19952 /'-■значение = 0,230324

Тест на нормальность для Ра\'180о

Шапиро - Уилкса ((-статистика = 0,82912 Р-значение = 0,0239958

Тест для малых выборок:

Для асимметрии = 1,42938 /'-•значение = 0,152896

1’пс. 6. Проверка выборок на нормальность

Медиана выборки 1 (контрольные семьи): 240,5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Медиана выборки 2 (опы тные семьи): 200,9

Манна - Уитни (Уилкоксопа) (Г-тест сравнения медиан

Нулевая гипотеза: медиана 1 = медиана 2

Средний ранг выборки 1: 15,6429

Средний рані' выборки 2: 9,63636

(1) Альт, гипотеза: медиана 1 * медиана 2

II- 40,0 /'-значение = 0,0456949

(2) Альт, гипотеза, медиана 1 > медиана 2

IV = 40.0 /'-значение = 0,022848

(3) Альт, гипотеза: медиана 1 < медиана 2

11'= 40,0 /'-значение = 0,977152

Рис. 7. Критерий Манна - Уитни сравнения медиан

М ес т сравнения средних

выборка 1 - контрольные семьи, выборка 2 - опытные семьи

Пулевая гипотеза: среднее 1 = среднее 2 Альт, гипотеза: среднее 1 * среднее 2 / = 2,07866 /'-значение = 0,0507275 Альт, гипотеза: среднее I > среднее 2 / = 2,07866 /'-значение = 0,0253638 Альт, гипотеза: среднее 1 < среднее 2 I = 2,07866 /'-значение = 0.974636______

Рис. N. Проверка различия выборок по критерию Стьюдеига

Из рис. 6 видно:

- проверка по тесту па нормальность для Рау 180 показала, что наймеш,шее /’-значение среди выполненных тестов равно 0,00784526. Так как /'-значение этого теста меньше 0,01, то гипотезу о принадлежности выборки к нормальному распределению можно отвергнуть с вероятностью 99 %;

- проверка по тесту на нормальность для PaylXOo показала, что наймеш,шее /'-значение среди выполненных тестон равно 0,0239958. Гак как /'-значение меньше 0,05, то гипотезу о принадлежности выборки к нормальному распределению можно отвергнуть с вероятностью 95 %.

Так как выборки не принадлежат к нормальному закону распределения, то корректно применение только непараметрических методов.

Применение немарамеїричееких методов. Проведем сравнение двух выборок для определения статистической значимости различий в весе крысят

опытных и контрольных семей. Результаты анализа 180-го дня наблюдений представлены на рис. 7.

Из рис.7 видно, что Р-значение для альтернативной гипотезы 1 меньше 0,05, то есть существуют статистически значимые различия между медианами с 95 % уровнем значимости. Таким образом, можно утверждать влияние изменения рациона питания на вес крыс.

Сравним выводы, полученные непараметрическим методом с результатами анализа, полученными параметрическим методом.

Применение параметрических методов. Определим влияние изменения рациона питания на вес крыс параметрическим методом - /-критерием Стью-дента. Результат анализа для 180 дня (контрольные и опытные семьи) представлен на рис. 8.

Из рис. 8 видно, что Р-зпачение для альтернативной гипотезы 1 больше 0,05, то есть не существует статистически значимых различий между средними с

95 % уровнем значимости, значит отсутствует влияние изменение рациона питания па вес крыс.

Таким образом, вывод, полученный по результатам анализа, проведенного параметрическим методом, не совпадает с выводом, полученным в результате анализа, проведенного непараметрическим методом

Вывод. Если выборка не подчиняется нормальному закону распределения, то для ее статистической обработки необходимо использовать только непараметрические метода. Применение параметрических

методов к такой выборке приводит к недостоверному выводу.

Заключение. Приведенные примеры показывают, что проверка данных на нормальнос ть является необходимым условием корректности применения методов статистического анализа.

Благодарность: Авторы выражают благодарность сотрудникам кафедры генетики Казанского госупиверситета за предоставленные данные.

Поступила в редакцию 15 сентября 1999 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.