БИОЛОГИЧЕСКАЯ АНТРОПОЛОГИЯ
DOI: 10.32521/2074-8132.2022.4.005-018
Пасеков В.П.
Федеральный исследовательский центр «Информатика и управление» Российской академии наук, ул. Вавилова, д. 40, Москва, 119991, Россия
О ПРИМЕНЕНИИ БИОМЕТРИИ В АНТРОПОЛОГИИ И ОСНОВНЫХ ЗАДАЧАХ НАУКИ
Введение. Задачей биометрии в антропологии является описание и анализ случайной изменчивости, присущей человеку как объекту исследования. В настоящее время для этого широко используются многомерные биометрические модели, в которых предполагается, что наблюдаемые количественные признаки организма выражаются в виде взвешенных сумм скрытых случайных факторов (например, анализ главных компонент, факторный и дискрими-нантный анализы, канонические переменные и др.). Данное предположение согласуется с существованием общих и специфических биологических факторов-причин, определяющих признаки организма. Поскольку основной задачей науки является изучение причинно-следственных связей в природе, важно проанализировать взаимоотношения между статистическими и причинно-следственными зависимостями.
Результаты и обсуждение. Получаемые в результате обработки данных статистические факторы (такие как общий размер, форма и т. д.) в общем случае не только не согласуются с причинными факторами, но могут даже противоречить им. Продемонстрировано, что статистические коэффициенты корреляции, регрессии и ковариации даже в простейшем случае двух признаков, случайно изменяющихся под влиянием одной общей причины и нескольких специфических факторов, могут принимать бесконечно много значений при одной и той же причинной связи, причем при той же самой статистической закономерности изменчивости существует бесконечно много ее причинно-следственных объяснений.
Заключение. Интерпретация в отношении причинно-следственных закономерностей детерминации признаков и другие причинно-следственные выводы не должны вытекать из результатов применения одномерных и многомерных биометрических моделей, использующих в качестве входных данных указанные статистические коэффициенты.
Ключевые слова: биометрия; многомерные модели; причинные законы; регрессия; корреляции; общие и специфические факторы; антропология
5 ИНСТИТУТУ И МУЗЕЮ з ё АНТРОПОЛОГИИ | Ь ИМЕНИ Д.Н.АНУЧИНА |
100
Введение
Использование биометрических методов в биологии, особенно, в антропологических исследованиях, имеет длительную историю, начинающуюся уже с момента появления биометрических подходов (вспомним коэффициенты корреляции и расового сходства Пирсона, дисперсионный анализ Фишера и что термин регрессия был введен в практику биометрических исследований Гальто-ном). Дальнейшее развитие биометрии привело к широкому применению методов многомерного статистического анализа (скажем, таких как расстояние Махалонобиса, анализ главных компонент, факторный анализ, канонические переменные, многомерный дисперсионный и дискрими-нантный анализы, и др. (см., например, [Дерябин, 1983; Rao, 1952]). При этом основная задача биометрии состоит, как правило, в описании и анализе существующей изменчивости исследуемых объектов. Биометрический анализ позволяет отделить случайные различия от реально существующих. Он неоценим для решения таких задач как оптимальное оценивание параметров популяции, разбиение обнаруженных статистических зависимостей на достоверные и чисто случайно сложившиеся в выборочных наблюдениях, для определения значимости различий между группами, для перехода от наблюдаемых признаков к новым случайным переменным, позволяющим судить о принадлежности наблюдаемого объекта к одной из нескольких групп, и кроме того, в результате подобного перехода легче увидеть закономерности случайной вариабельности и т. д.
Здесь результаты применения формальных биометрических методов оставляют как бы за кадром причинно-следственные закономерности, лежащие в основе обнаруживаемых статистических связей. Их интерпретация предоставляется исследователям. У меня при первоначальном знакомстве с биометрией вызывало сожаление отсутствие в учебниках причинно-следственные выводов из результатов статистической обработки материалов. Возникало впечатление, что авторы старательно обходят, казалось бы, лежащую на поверхности причинную интерпретацию выявляемых статистических связей. Достоинство такой подачи материала в том, что она обеспечивает универсальность чисто статистического взгляда.
Сейчас использование биометрии в антропологии базируется на относительно простом решении возникающих статистических задач на
компьютерах помощью соответствующих пакетов программ. В результате освобождается время для причинного анализа изменчивости вместо затрат на трудоемкие рутинные вычисления. Выяснение соотношений между причинным и статистическим анализами является важной задачей. Стремление проанализировать использование биометрии в данном направлении мотивировано тем, что основной задачей науки является изучение причинно-следственных законов функционирования и развития изучаемых объектов в целях описания, объяснения и понимания, а также прогнозирования их состояний.
Причинные механизмы позволяют увидеть вместо нагромождения фактов логичную картину явления в целом, редуцировать огромный объем информации к сравнительно немногим принципам, лаконичные схемы которых дают возможность прогнозировать многочисленные свойства-следствия. Подобно этой картине многомерные методы статистики редуцируют море статистических данных к немногим показателям, которые допускают наглядную интерпретацию и позволяют увидеть основные закономерности случайной изменчивости. Однако эти закономерности, как мы увидим, лежат как бы в другой плоскости, нежели скрытые под ними причинные связи.
Применительно к типичным материалам в антропологии, собираемым путем обследования индивидуумов в популяции, будем понимать под причинными связями законы, действующие на уровне организма (и независящие от популяци-онного окружения), а статистические связи отражают эти индивидуальные закономерности на популяционном уровне. Мы ограничимся далее случаем функциональных связей (законов) для организма, когда результаты применения закона однозначны, что характерно для макромира. Например, известный из школьного курса закон Ньютона о движении тела под действием приложенных сил определяет траекторию динамики тела единственным образом.
В антропологии хотелось бы, скажем, найти закон, по которому в процессе развития происходят изменения размеров различных признаков организма под действием концентрации гормона роста в крови в течение созревания, что приводит к соответствующей траектории динамики морфологического облика индивидуума с возрастом. Так как скорости изменения размеров признаков отличаются между собой, то соотношения этих размеров меняются в ходе развития от характерных для ребенка значений до
типичных для взрослого состояния. Если бы такой закон роста был известен, то можно было бы предсказывать пропорции данного человека к взрослому состоянию и пр. в зависимости от пола, длительности и интенсивности процессов роста и концентрации гормона роста.
В частности, тогда можно предсказать качественное и количественное изменение гра-цильного детского черепа мальчика до матури-зованного черепа мужчины с прогнозом результатов вплоть до выяснения теоретической возможности появления на черепе гребней,если бы рост продолжался далее существующих пределов. Аналогично изменение действия фактора роста в эволюционном процессе приводит к закономерному, например, аллометрическому соотношению размеров признаков организма не с возрастом, а в серии ископаемых останков.
Задача выяснения законов функционирования и динамики объектов обычно решается в точных науках на основе экспериментального подхода. Для человека такой путь недопустим по этическим соображениям. В то же время данные по естественной изменчивости в окружающей действительности словно бы дают в руки результаты экспериментов, поставленных самой природой. Это производит впечатление возможности заменить проведение экспериментов на обработку таких данных. Статистические связи в естественной изменчивости, казалось бы, позволяют оценить лежащие в основе согласованной вариабельности скрытые неизвестные природные законы, порождающие наблюдаемое разнообразие, лишь бы были правильно использованы адекватные статистические методы.
Сейчас хорошо известно, что статистические связи не эквивалентны причинным, хотя наличие статистических зависимостей обусловлено причинными влияниями. Цель настоящей работы состоит в анализе соотношения статистических выводов и причинных закономерностей на примере использования широко распространенных биометрических методов (множественной линейной регрессии, анализа главных компонент, факторного анализа, канонических переменных и др. им подобных). Для этого исследуется принципиальная возможность определения природных закономерностей по данным, представляющим собой наблюдения над случайной неконтролируемой изменчивостью организмов. Изложение базируется на выступлениях автора на различных конференциях (например, [Пасеков, 2001]) и, главным образом,
на препринте [Пасеков, 2005], развиваемых и объединяемых на основе исследования возможности использования биометрии для причинного анализа популяционных антропологических данных. Обоснование приводимых далее выражений для коэффициентов регрессии, корреляции и ковариации в рассматриваемых ситуациях приведено в приложении.
Гетерогенность популяции по рассматриваемым признакам обусловлена, главным образом, различиями индивидуумов по значениям присущих им факторов-причин, их разными комбинациями и изменчивостью условий среды. Предположим, что причинные зависимости значений признаков от внешних и внутренних факторов (допустим, от интегрального уровня гормона роста в крови или от уровня питания) описываются некоторыми функциональными законами, выражающими устойчивые общие отношения, свойственные всем явлениям данного рода. Тогда в гетерогенной популяции при наличии случайной вариабельности будут наблюдаться вызванные этими зависимостями статистические связи между признаками.
При получении знаний о началах биометрии появляется желание связать статистическую зависимость с причинной. Однако получаемое на популяционном уровне статистическое отражение индивидуальных закономерностей может быть искаженным. Например, реальные (функциональные) связи между признаками, вообще говоря, отличаются от регрессионных зависимостей [Кендалл, Стюарт, 1973; Пасеков, 2001].
Для иллюстрации основных идей в дальнейшем отвлечемся от важных, но излишних для наших целей подробностей, например, от учета выборочных ошибок, искажающих теоретические закономерности (т.е. будем рассматривать свойства генеральной совокупности).
Результаты и обсуждение
Коэффициенты корреляции и регрессии и важность отдельной причины для признака Рассмотрим такую простую и популярную характеристику статистической зависимости как коэффициент корреляции (Пирсона). Кажется, что чем больше абсолютная величина коэффициента корреляции двух признаков, тем более один из них влияет на другой или сильнее воздействует на признаки неизвестный или предполагаемый общий фактор. Чем ближе коэффициент
корреляции к ±1, тем больше теснота статистической связи, и считается, что тем важнее она статистически. Можно ли говорить, что тем важнее она и биологически?
А. Приведем один из наиболее простых вариантов детерминации признака У в виде суммы независимых случайных положительных факторов-причин {X/}, например, когда У = Х1 + Х2 + Хз (см. рис. 1а). Реально ими могут быть, например, составные части размерного признака, скажем, составным признаком будет длина тела, складывающаяся из высоты стопы, длины голени, бедра и т. д. (если отвлечься в иллюстративных целях от возможных зависимостей между ними).
При малости отдельных отклонений У от среднего значения (когда для всех индивидуумов относительные вклады {Х/} в У сходны) можно определить важность -го фактора X/ для признака Y как отношение среднего вклада фактора в среднее значение признака Е{Х}/Е{У}. Здесь символ Е означает операцию получения средней величины.
Возьмем какую-либо отдельную составную часть (X/) признака У. Известно, что если к каждому значению случайной величины X/ добавить одно и то же допустимое число, то ее среднее значение Е{Х/} сдвинется на ту же величину. Очевидно, на столько же изменится и Е{У}, но отношение Е{Х/}/Е{У} в зависимости от величины и знака добавка может стать близким к нулю или единице. При этом изменчивость (дисперсия) не изменится. Дело в том, что в определении дисперсии используются только отклонения от среднего, сохраняющиеся при такой модификации. Точно также и коэффициент корреляции
между признаком и его составной частью (фактором) останется фиксированным на прежней величине, если все значения фактора (а значит, и принятый нами показатель важности данной причины - ее вклад в признак) изменить на какую-либо допустимую величину, поскольку и корреляция определяется отклонениями от средних.
Поэтому какова бы ни была фиксированная величина коэффициента корреляции (теснота статистической связи) между фактором-причиной и признаком-следствием, относительная величина среднего вклада фактора в среднее значение признака (важность данной причины) может быть как угодно близкой к нулю, так и произвольно близкой к единице. Значит, в данной схеме коэффициент корреляции не характеризует важность причины для следствия.
Б. Пусть теперь У(Х) = £сХ/, где отдельная фактор-причина, обозначенная как X, влияет на признак У по закону У(Х) = сХ. Коэффициент с определяет интенсивность причинной зависимости У от фактора Х. Чем больше отличается от нуля коэффициент с, тем сильнее воздействует причина Х на признак У, и можно сказать, что тем важнее она для У. Если причина Х случайно варьирует, то это не сказывается на зависимости У(Х), по которой значение У находится для каждого из значений Х. Однако, когда на У дополнительно влияют случайные специфические факторы даже с нулевым средним значением, то такого соответствия между заданном Х и У уже не будет из-за добавления к значению У(Х) случайного фактора или нескольких случайных факторов.
При этом степень нарушения соответствия можно охарактеризовать коэффициентом корреляции Пирсона рух. Если рух = ±1, то нарушения соответствия не будет. Когда рух = 0, соответствие возможно только случайно. Напомним, что коэффициент корреляции рух находится через случайные отклонения X и У от своих средних значений как отношение ковариации COV(Y, X) признака У с X к квадратному корню из произведения их дисперсий Vy и Vx:
COV(Y, X) = Е{(Х - E{X})(Y— £{У})},
Как известно, дисперсия Vy равна сумме дисперсий, суммируемых в у независимых случайных величин, вклад Wx фактора X в дисперсию Vy равняется c2Vx, а ковариация в данном случае будет равна произведению cVx. Следовательно, при c > 0
PYX = сУх/^^ = О^Ух/Уу = Vс2Ух/Уу =
Значит, при одной и той же причинной зависимости Y(X = сХ между признаком Y и причиной X (при ее фиксированной важности с) коэффициент корреляции рух может принимать бесконечно много разных значений в зависимости от отношения №х/Уу компонента №х дисперсии признака у из-за фактора х ко всей дисперсии Уу признака. Отсюда вытекает, что величина коэффициента корреляции, будь она близкой к нулю или к ±1, ничего не говорит о важности причины X для Y (об интенсивности причинной зависимости).
В. Перейдем к сравнению характера (формы) статистической и причинной зависимостей. Когда У = С1Х1 + С2Х2 + сХз (см. рис. 1б), степень влияния причины X: на признак У определяется коэффициентом с/. Графически причинная зависимость У от X/ представляет собой прямую линию с угловым коэффициентом с/. Если факторы-причины случайно варьируют, то в качестве показателя связи между у и х/ кажется привлекательным использовать соответствующие коэффициенты регрессии, определяющие углы наклона регрессионных прямых.
Возможность предсказания по линии регрессии среднего значения «зависимого» признака, соответствующего заданному значению «ведущего» (независимого), ассоциируется со следующими экспериментами. Пусть нужно исследовать влияние некоторого фактора на анали-
зируемый признак. Для этого в равных условиях, отличающихся лишь величиной рассматриваемого фактора, производится серия опытов (в которых изменяется фактор-причина) и регистрируются значения анализируемого признака. Изменения последнего от опыта к опыту показывают влияние фактора на признак. Поскольку линия регрессии представляет собой график изменений среднего значения зависимого признака при изменениях значений ведущего, то, казалось бы, она дает полную аналогию с указанной серией опытов.
При статистической связи двух признаков у1 и у2 каждому фиксированному значению первой случайной переменной у1 соответствует распределение значений второй у2 и наоборот. Если взять совокупность индивидуумов с фиксированным значением случайно варьирующего признака У1, то при этом среднее значение у У2 для данного распределения находится по формуле линейной регрессии как У2 = а + Ь21У1. Здесь Ь21 обозначает коэффициент регрессии второго признака у2 от первого у1. Вычисление коэффициента регрессии следствия (у) от причины (скажем, от Х1) для схемы на рис. 1б дают коэффициент, равный С1. В данном случае коэффициент регрессии совпадает с влиянием с1 причины Х1 на признак-следствие У.
Если поменять местами роли случайных величин (формально рассматривать х1 как зависимую величину), то коэффициент Ьх1у регрессии Х1 от У не будет прямо связан с законом влияния причины на следствие. Он не равен 1/С1, как можно было наивно ожидать, а будет равняться
1 2
с1рУХ1
что обычно меньше абсолютной величины у коэффициента 1/С1 в функциональной зависимости Х1 от У, так как квадрат любого коэффициента корреляции не больше единицы.
Таким образом, при одной и той же причинной зависимости Y(X) = сХ между признаком Y и причиной X коэффициент регрессии Ьху причины X от признака Y может принимать бесконечно много разных значений
1 2
с РУХ,
в зависимости от (бесконечного согласно предыдущему п. Б) числа значений у рху. Отсюда вытекает, что величина коэффициента регрес-
сии ничего не говорит о важности причины X для Y (об интенсивности причинной зависимости).
Г. Проанализируем отражение зависимости двух признаков из-за общей причины в статистической связи между ними. В биологии широко распространено предположение о детерминации комплексов признаков общими и специфическими (действующих лишь на отдельные признаки) факторами. Такая детерминация обеспечивает гибкость как при индивидуальном росте и развитии, так и в эволюционных преобразованиях. Пусть, например, зависимость между признаками У1 и У2 обусловлена единственной общей причиной Р при наличии случайных специфических факторов А, В, С и О, Е (см. рис. 2) для первого и второго признаков соответственно. В простейшей формализации данной картины признаки выражаются как соответствующие суммы общих и специфических факторов-причин (как линейные комбинации факторов).
Рассмотрим в данной ситуации соотношения между регрессиями и причинными связями при независимости случайных факторов-причин, суммирующихся в признаке (эта ситуация допускает простые точные вычисления коэффициен-
Рисунок 2. Концептуальная схема статистической зависимости признаков Yi и Y2. Зависимость обусловлена общей причиной P при наличии специфических факторов A, B, C и D, E, стрелки указывают на направление
причинных влияний Figure 1. Conceptual scheme of the statistical dependence of traits Yi and Y2. The dependence is due to a common cause P in the presence of specific factors A, B, C and D, E, arrows indicate the direction of causal influences
тов регрессии и корреляции). Если выбрать из всей совокупности часть индивидуумов со значением признака У1, отклоняющимся от среднего значения, то в ней ожидаем соответствующих средних отклонений каждого из влияющих на У1 факторов (специфических А, В, С и общего фактора Р). При этом среднее значение признака У2 в отобранной части будет отклоняться от общего среднего для всей совокупности (регрессия), но только за счет индуцированных изменений общего фактора Р (поскольку другие изменившиеся специфические факторы А, В, С не влияют на У2).
Из этих качественных соображений [Пасе-ков, 2001] следует, что регрессия признака Y2 по признаку Y1 показывает изменения Y2 только за счет общих с Y1 причин (у нас из-за единственной причины Р) при изменении признака У1 за счет всех влияющих на него факторов (в том числе специфических А, В, С).
Понятно, что если рассматривать другую регрессию (признака У1 от признака У2), то получим иную линию, поскольку теперь изменения У1 будут только за счет общих с У2 причин при изменении признака У2 за счет всех влияющих на У2 факторов, включая свои специфические О, Е не участвующие в предыдущей регрессии. Получается, что ни одна из двух линий регрессии не совпадает с зависимостью обоих признаков от общего фактора. Искомая функциональная связь двух признаков получается, если рассматривать одновременные изменения У1 и У2 в результате изменений общей причины Р [Пасеков, 2001; Пасеков, 2012].
Регрессионная зависимость не дает причинный закон, а использование коэффициентов регрессии самих по себе для характеризации причинных закономерностей малопродуктивно. Таким образом, форма статистической связи (расположение линии регрессии) для зависящих от общей причины признаков, вообще говоря, не соответствует форме причинной зависимости, хотя их направление (знак) совпадают. Количественно различия между регрессионной и причинной зависимостями рассматриваются в приложении.
Итак, при одних и тех же причинных закономерностях возможны разные коэффициенты регрессии и корреляции, а при одном и том же наборе таких коэффициентов возможны разные причинные зависимости.
Простота приведенных выше схем влияния причинных факторов (законов природы) не позволяет экстраполировать полученные для них результаты на гораздо более сложные биологические феномены. Однако качественное понимание того, как могут отражаться причинные закономерности в статистических показателях, во многом сохраняется. Далее рассмотрим соотношение более сложных биометрических моделей с причинными зависимостями.
Множественная линейная регрессия
Одним из наиболее распространенных методов многомерного анализа является множественная линейная регрессия (см., например, [Кендалл, Стюарт, 1973; Дерябин 1983]). Пусть задача состоит в причинной интерпретации статистических связей некоторого множества признаков. Здесь можно попытаться объяснить каждую из статистических зависимостей, а можно для более глубоко понимания пойти дальше и рассматривать связи при исключении одного, двух и т. д. признаков. В биометрии статистические зависимости между количественными признаками при исключении одного или ряда других характеризуются частными коэффициентами регрессии или корреляции.
Например, под множественной линейной регрессией понимается статистическая зависимость среднего значения зависимого признака, скажем, Уо от значений ряда других У1, ..., Уп, рассматриваемых как признаки-предикторы:
Уо = а + ЬУ + Ь2У2 + ... + ЬпУп.
Коэффициент Ь/ называется частным коэффициентом регрессии Yo от У/ (регрессии при условии исключения прочих признаков-предикторов). Под исключением признака подразумевается ситуация, когда при изучении статистической связи между другими двумя (и более) признаками исключаемый принимает постоянное значение и, тем самым, зависимость между остальными признаками не может быть вызваны им. Более подробно данная формула интерпретируется следующим образом. Если выбрать совокупность индивидуумов с фиксированными значениями случайно варьирующих признаков У1, Y2, ... Yn, то в данной совокупности у Уо сохраняется какая-то изменчи-
вость с некоторым распределением. Среднее значение Уо в совокупности в зависимости от значений фиксированных признаков находится по приведенной формуле линейной регрессии.
Нередко исключение признаков трактуется как прием для выявления эффекта отдельного из предикторов (отражаемого соответствующим частным коэффициентом регрессии Ь/ или частным коэффициентом корреляции) на зависимый признак в чистом виде при удалении косвенных влияний через другие предикторы. Однако частным показателям связи в общем случае трудно придать реальный причинный смысл.
Обсудим, в какой степени соображения о мешающих и косвенных влияниях исключаемого признака соотносятся с линейной причинной детерминацией рассматриваемого комплекса признаков скрытыми общими и специфическими причинами. Можно ли при использовании частных зависимостей ожидать более яркого проявления и разделения влияний отдельных причин, так как исключение признаков способно ослабить или даже устранить одну из них и подчеркнуть другие. Может ли величина частных показателей связи и их сравнение с безусловными показателями прояснить характер элементарных причинных влияний, скрытый под статистическими зависимостями в многофакторной структуре?
Далее ограничимся для простоты анализом эффектов исключения только одного признака, поскольку оно приводит к изменениям причинной структуры качественно такого же типа, как при исключении нескольких. Поэтому получаемые при исключении одного признака выводы, допустим, в отношении регрессии и корреляции в качественном отношении имеют общий характер, но при этом достигается выигрыш в простоте.
В рамках предположения о детерминации признака Уо рядом причин устранение изменчивости Уо дает эффекты двоякого рода.
1. Исключение признака приводит не к исключению изменчивости влияющих на него причин, а, как известно, лишь к уменьшению их вариабельности (согласно теории статистики, дисперсия отдельной причины падает в 1 - р2 раз, где р есть коэффициент корреляции данной причины с признаком). Так как при статистической связи с исключаемым признаком изменчивость причин все же остается, то и остается вклад причин в согласованную изменчивость, но в (по-разному) ослабленном виде.
2. При сохраняющейся изменчивости причин всякое изменение одной из них должно ком-
пенсироваться соответствующими изменениями других, чтобы значение исключаемого признака оставалось постоянным. Тем самым между всеми влияющими на исключаемый признак причинами возникает ложная статистическая связь с ложным вкладом в связь между признаками, под которой нет никакого реально существующего (а не искусственно вызванного исключением) основания. Появление ложных корреляций искажает существующие зависимости вплоть до проявления связи признаков там, где ее не существует.
Уменьшение изменчивости какой-либо причины оказывает неоднозначное влияние на такие статистические показатели, как коэффициенты регрессии и корреляции. Оно изменяет не только вклад в ковариацию признаков (числитель указанных показателей), но и в соответствующие средние квадратические отклонения (в знаменателе). Итог для частных коэффициентов зависит от соотношения изменений и величин числителя и знаменателя, определяемых качественной причинной структурой и количественными характеристиками связей с причиной. К одним и тем же значениям безусловных и частных показателей связи могут привести разные (и неизвестные заранее) схемы и разные значения причинных влияний. В точности эти же эффекты присущи исключению не одного, а ряда признаков. Соответственно нельзя придавать однозначный причинный смысл коэффициентам уравнения множественной регрессии (частным коэффициентам регрессии) и результатам использования этого уравнения.
В целом, коэффициенты множественной регрессии отражают не только наложенные друг на друга скрытые причинные влияния, но и зависят от дисперсий причин при неизвестной степени их уменьшения из-за исключения признаков, вызывающего также количественно неизвестные ложные зависимости между причинами. Использование статистических зависимостей (как безусловных, так и получаемых при исключении ряда признаков) для выявления отдельных элементарных причин и их эффектов невозможно без дополнительной информации. В конце концов, частные коэффициенты регрессии или корреляции выражаются через привычные безусловные коэффициенты связей, которые могут принимать разные значения при одних и тех же причинных зависимостях, как показано выше. Следовательно, при этом обычно получаются разные частные коэффициенты.
В итоге для общего случая использование множественной регрессии в целях причинного анализа практически бесполезно.
Метод главных компонент
Метод главных компонент является одним из популярных инструментов многомерного статистического анализа (см., например, [Кендалл, Стюарт, 1976; Дерябин, 1983]). Обычно, чтобы избежать затруднений из-за измерений признаков в разных шкалах (скажем, при измерениях длины и веса), используются данные о корреляциях между признаками. Главные компоненты определяются в виде сумм признаков с соответствующими весами и обратно - признаки являются некоторыми суммами главных компонент. Сами главные компоненты интерпретируются как скрытые и недоступные прямому измерению фундаментальные свойства, лежащие в основе наблюдаемой изменчивости.
Так как значения главных компонент равны соответствующим суммам значений признаков, а признаки, в свою очередь, выражаются как взвешенные суммы скрытых причин, то и сами главные компоненты представляют собой суммы причин, определяющих признаки. Поэтому главные компоненты можно рассматривать как некоторые новые признаки, линейно детерминированные теми же самыми причинами, что и исходные, и интерпретация взаимоотношений главных компонент нисколько не проще интерпретации рассмотренных ранее наблюдаемых признаков.
Противоречия результатов анализа главных компонент и причинной структуры видны из следующего примера. Если общие причины влияют в одном направлении на рассматриваемые признаки, то матрица корреляций между ними будет состоять из положительных коэффициентов. Из теории положительных матриц следует, что при этом все нагрузки (влияния статистического фактора) первой главной компоненты положительны. Тогда у следующих компонент обязательно имеются нагрузки разных знаков, так как по определению все главные компоненты независимы (ортогональны). Значит, для каждой следующей главной компоненты найдутся признаки с разными знаками зависимости от нее. Однако предполагалось, что причин, противоположно
влияющих на признаки, нет. Значит, здесь главные компоненты не могут рассматриваться как причинные факторы, так как дают ложные результаты, противоречащие реальным влияниям причин на признаки.
Прямое изучение соотношений между результатами многомерного анализа и причинной детерминацией количественных признаков возможно с помощью имитационных экспериментов (статистических испытаний). В них с помощью компьютера генерируются случайные "выборки наблюдений" при заданных причинных связях. Полученные выборки можно анализировать многомерными методами и проверять, насколько статистические результаты отражают лежащую в основе генерированных данных заранее заданную причинную структуру.
Подобный подход использовался для изучения возможности судить о причинной структуре с помощью анализа общих главных компонент [Houle, 2002] для нескольких популяций с обсуждением эволюционно-генетических приложений. Оказалось, что результаты такого статистического анализа часто противоречат биологической интуиции, существует тенденция обнаруживать сходную структуру при разной причинной и находить различия, когда причинная структура одинакова.
Суммируя результаты, мы можем сказать, что метод главных компонент дает лишь удобный способ описания совместной изменчивости признаков.
Факторный анализ
Предположения модели факторного анализа (см., например, [Иберла, 1980; Дерябин, 1983]) находятся в тесном согласии с используемыми в настоящей работе предпосылками о линейной детерминации признаков общими и специфическими факторами. При этом общие факторы могут, в свою очередь, определяться факторами следующего порядка и т. д. По первому впечатлению кажется, что факторный анализ наконец-то дает возможность статистическими методами решать задачи о влиянии факторов-причин на признаки и оценивать значения факторов у отдельных индивидуумов.
Напомним, что существует бесконечное множество значений корреляций признаков с ненаблюдаемыми причинами, порождающих наблюдаемые корреляции между признаками, в том числе не только класс тех множеств, которые переходят одно в другое при соответствую-
щем повороте осей координат. В факторном анализе внимание концентрируется на таком классе. Попытки выбрать в нем единственное множество основываются на каких-либо постулируемых критериях. Например, согласно принципу простой структуры поворотом осей достигается положение, когда каждый фактор оказывает максимальное влияние на группу признаков, предположительно обладающими свойствами определенного рода.
Можно сказать, что при простой структуре каждый фактор влияет по возможности на небольшое число признаков, а каждый признак определяться небольшим числом факторов. Получаемая при использовании простой структуры картина огрубленно соответствует разбиению признаков на группы, корреляции внутри которых больше, чем межгрупповые. В биологии данную картину для признаков организма нельзя признать универсальной и теоретически обоснованной.
При использовании канонических переменных мы опять представляем их как новые признаки, сконструированные в виде взвешенных сумм исходных. В рамках детерминации последних общими и специфическими причинами новые признаки по характеру детерминации не отличаются от исходных, и поэтому их нельзя отождествлять с причинными факторами по прежде изложенным основаниям. Аналогично, как бы ни была привлекательна попытка причинной интерпретации канонических переменных, по ним также нельзя судить о реальных причинах. Достаточно напомнить, что канонические переменные определяются по данным о корреляциях признаков, которые могут принимать различные значения и, соответственно, определять разные канонические переменные при одних и тех же причинных влияниях.
Заключение
Резюмируя, мы можем сказать, что такой простой показатель зависимости как величина коэффициента корреляции ничего не говорит о биологической важности соответствующей статистической связи, и утверждения типа «... большая корреляция элемента кисти с другим признаком человеческого тела является указанием на большую морфологическую зависимость между обоими признаками» [Ярхо, 1926, с. 53] не являются корректными. Подкупающие предположения более сложных моделей главных компонент, факторного анализа и канонических переменных находятся в тесном согласии с используемыми в
настоящей работе предпосылками о линейной детерминации признаков общими и специфическими факторами. Однако даже в тех случаях, когда удается правильно оценить качественный характер причинной детерминации признаков (направление влияния причинного фактора), связь статистических факторов с признаками не совпадает с причинной количественно. Она даже может отличаться качественно, что особенно наглядно проявляется в соотношениях между главными компонентами и причинными зависимостями.
Кроме того, как уже мы неоднократно подчеркивали, при одних и те же причинных влияниях на признаки коэффициенты корреляции и ковари-ации между ними могут принимать бесконечно много значений. Попытки выбрать для них единственную структуру причинных влияний статистическими методами основываются на каких-либо постулируемых критериях (например, на максимуме дисперсии, простой структуре, максимальной корреляции), не имеющих биологического обоснования, и априори их нельзя считать выполненными в конкретных исследованиях. Поэтому не обоснованы утверждения типа « ... (статистические) факторы имеют реальный смысл, т. е. являются математическим выражением конкретной деятельности внутренних систем организма: гуморальной, нервной» [Русалов, 1979, с. 61]. Более чем полувековой промежуток времени, разделяющий цитируемые высказывания, говорит о живучести подобных представлений. Согласно Дж. Тэннеру [Тэннер, 1979, с. 451] «Факторы представляют собой, по существу, статистические величины, такие же, как средние квадратические отклонения. A priori их нельзя связывать с генетическими и физиологическими механизмами». Как пишут известные специалисты по теории статистики [Кендалл, Стюарт, 1973, с. 375], « . причинная зависимость не может быть выведена ни из какого наблюдаемого совместного изменения, даже самого тесного».
В связи с приведенной аргументацией возникает вопрос о конечной ценности биометрического описания данных в антропологии. Есть впечатление о некотором культе такого подхода, понимаемого во многом чисто статистически. Биометрический анализ дает описательную, а не причинную картину изменчивости. Описательный этап является только начальным при изучении любых феноменов, а конечной целью исследования служит построение и проверка гипотез о причинных механизмах, лежащих в их основе. Хотя помимо статистического описа-
ния в антропологических работах всегда привлекаются соображения о том, чем могут быть обусловлены выявляемые связи, анализ чаще всего базируется на статистической аргументации. Однако ни форма статистической связи между признаками (расположение линий регрессии), ни ее теснота (величина коэффициента корреляции) не связаны жестко с характером причинной детерминации признаков.
Замечание. Размер составного признака индивидуума складывается из значения его части, рассматриваемой как общий фактор, плюс значения специфических факторов (других частей). Результат измерения в технике состоит из точного значения признака неживого объекта плюс независимая случайная ошибка (из аналогов значений общего и специфического факторов). Поэтому результаты анализа роли ошибок измерения [Кендалл, Стюарт, 1973, Гл. 29], казалось бы, полностью приложимы и к биометрическим исследованиям популяций. Однако между контролируемыми с помощью повторных измерений случайными ошибками в технике и неконтролируемыми специфическими биологическими факторами есть принципиальные различия.
Скорректировать искажения функциональной зависимости, вносимые ошибками измерения, можно с помощью учета их дисперсии (дисперсии специфического фактора), которая оценивается по повторным измерениям. Размер неживого измеряемого объекта не меняется, но при каждом измерении к нему добавляется независимая случайная ошибка, играющая роль специфического фактора. В результате с помощью повторных измерений тех же самых объектов можно оценить дисперсию подобных «специфических» факторов (ошибок измерения).
В рассматриваемой биологической ситуации при повторных измерениях можно выделить два типа специфических факторов - биологические факторы и ошибки измерения. Каждое повторное измерение признака индивидуума включает все его составные части, поэтому наблюдаемое значение признака представляет собой сумму реализованных и фиксированных у индивидуума значений как общих, так и биологических специфических факторов (случайных в популяции, но постоянных у каждого отдельного индивидуума) плюс варьирующая реальная ошибка измерения. Повторные измерения отдельного индивидуума не позволят оценить необходимую для коррекции дисперсию специфического биологического фактора, обусловленную изменчивостью
между разными индивидуумами, а дают возможность найти только дисперсию реальной ошибки измерения. Поэтому избежать искажений при оценивании причинной биологической зависимости от общего фактора с помощью повторных измерений невозможно.
Анализируемые выше биометрические методы изложены, например, в выгодно отличающейся доступностью подачи материалов книге В.Е. Дерябина [Дерябин, 1983]. Интерпретация в ней статистических факторов типа один из них является показателем общей длины тела, другой показателем формы [Дерябин, 1983, с. 4748] может натолкнуть читателя на мысль связать факторы с реальными причинами (факторами общего и специфического роста с соответствующими количественными зависимостями признаков от факторов). В свете вышеизложенного данная интерпретация, в сущности, просто фигура речи, удобная для ориентации в результатах статистической обработки.
Еще раз отметим, что сделанные выводы не зависят от вида распределения признаков, а также от размера выборки (относятся к генеральной совокупности). Они не являются биологической спецификой и справедливы для феноменов любой природы, детерминированных общими и специфическими факторами.
Библиография
Дерябин В.Е. Многомерная биометрия для антропологов. М.: Изд-во МГУ. 1983. 227с.
Иберла К. Факторный анализ. М.: Статистика. 1980. 398 с.
Кендалл М., Стюарт А. Статистические выводы и связи. М.: Наука. 1973. 899 с.
Кендалл М., Стюарт А. Многомерный статистический анализ и временные ряды. М.: Наука. 1976. 736 с.
Пасеков В.П. Концептуальная схема соотношений причинного и статистического анализов на примере антропологических исследований // Бунаковские чтения. Тезисы докладов. Ч. I. М.: Старый сад, 2001. С. 96-99.
Пасеков В.П. О теоретических проблемах биометрического и причинного подходов в популяционных исследованиях. I. Конспективное изложение. Москва: ВЦ РАН. 2005. 64 с.
Пасеков В.П. О принципах решения проблемы размера и формы // Вестник Московского университета. Серия 23. Антропология, 2012. № 2. С. 17-28.
Русалов В.М. Биологические основы индивидуально-психологических различий. М.: Наука. 1979. 352 с.
Тэннер Дж. Рост и конституция человека / Биология человека. М.: Мир, 1979. С. 366-471.
Ярхо А.И. О некоторых морфологических свойствах человеческой кисти // Русский антропологический журнал, 1926. Т. 15. Вып. 1-2. С. 50-74.
Сведения об авторах
Пасеков Владимир Петрович, к.б.н., pass40@mail.ru.
Поступила в редакцию 20.09.2022, принята к публикации 27.10.2022.
Passekov V.P.
Federal Research Center "Computer Science and Control" of Russian Academy of Sciences, Vavilova str., 40, Moscow, Russia, 119991
ON THE APPLICATION OF BIOMETRICS IN ANTHROPOLOGY AND THE MAIN TASKS OF SCIENCE
Introduction. The task of biometrics in anthropology is to describe and analyze the random variability inherent in a person as an object of study. At the modern time, multivariate biometric models are widely used for this, in which it is assumed that the observed quantitative organism traits are expressed as weighted sums of latent random factors (for example, principal component analysis, factor and discriminant analyses, canonical variables, etc.). The given assumption is consistent with the existence of general and specific biological factors-causes that determine the organism traits. Since the main task of science is to study the laws of cause-and-effect in nature, it is important to analyze the relationship between statistical and causal dependences.
Results and discussion. Statistical factors obtained as a result of data processing (such as the general size, shape, etc.) in the general case not only disagree with the causal factors, but may even contradict them. It is shown that the statistical coefficients of correlation, regression, and covariance, even in the simplest case of two traits randomly varying under the influence of one common cause and several specific factors, can take on infinitely many values under the same causal relationship, and with the same statistical pattern of variability, there are infinitely many causal explanations it.
Conclusions. Interpretation in relation to the cause-and-effect patterns of trait determination and other causal conclusions should not follow from the results of the application of one-dimensional and multidimensional biometric models that use the indicated statistical coefficients as input data.
Keywords: biometrics; multivariate models; causal laws; regression; correlations; general and specific factors; anthropology
References
Deryabin V.E. Mnogomernaya biometriya dlya an-tropologov [Multivariate biometrics for anthropologists]. Moscow, MSU Publ., 1983. 227 p. (In Russ.).
Iberla K. Faktorenanalyse. Berlin, Springer-Verlag, 1977.
Kendall M., Stuart A. Statisticheskie vyvody i svyazi [The Advanced Theory of Statistics. V. 2: Inference and Relationship]. London, Griffin & Co., 1961. 676 p.
Kendall M.G., Stuart A. Mnogomernyj statisticheskij an-aliz i vremennye ryady [The Advanced Theory of Statistics. V. 3: Design and Analysis, and Time-Series]. London & High Wycombe, Charles Griffin & Co. Ltd. 1976.
Passekov V.P. Konceptual'naya skhema sootnoshenij prichinnogo i statisticheskogo analizov na primere antropolog-icheskih issledovanij [Conceptual scheme of relationships between causal and statistical analyzes on the example of anthropological research]. In Bunakovskie chteniya. Tezisy dokladov. Chast' I [Bunak Reading. Abstracts. Prt 1]. Moscow. Staryj sad Publ., 2001, pp. 96-99. (In Russ.).
Passekov V.P. O teoreticheskih problemah bio-metricheskogo i prichinnogo podhodov v populyacionnyh issledovaniyah. I. Konspektivnoe izlozhenie. [On theoretical problems of biometric and causal approaches in population studies. I. Concize treating]. Moscow, VC RAN Publ., 2005. 64 p. (In Russ.).
Passekov V.P. O principah resheniya problemy razmera i formy [On the principles of solving the problem of size and shape]. Moscow University Anthropology Bulletin [Vestnik Moskovskogo universiteta Seriya 23. Antropologiya], 2012, 2, pp. 17-28. (In Russ.).
Rusalov V.M. Biologicheskie osnovy individual'no-psihologicheskih razlichij [Biological basis of individual psychological differences]. Moscow, Nauka Publ., 1979. 352 p. (In Russ.).
Tanner J.M. Growth and constitution. In Human biology. Oxford, Oxford Univ. Press, 1977, pp. C. 366-471.
Yarkho A.I. O nekotorykh morfologicheskikh svoystvakh chelovecheskoy kisti [On some morphological properties of the human wrist]. Russkij antropologicheskij zhurnal [Russian Journal of Anthropology], 1926, 15 (12), pp. 50-74. (In Russ.).
Houle D., Mezey J., Galperin P. Interpretation of the results of common principal analysis. Evolution, 2002, 56 (3), pp. 433-440.
Rao C.R. Advanced Statistical Methods in Biometric Research. New York, Wiley. 1952. 390 p.
Information about Authors
Passekov Vladimir Petrovich, PhD, pass40@mail.ru.
Приложение Appendix
В данном приложении приводится вывод формул для характеристик статистических связей признаков в использованных выше простейших схемах их детерминации и суммируются полученные результаты. В рамках существования общих и специфических факторов рассматриваются элементарные зависимости между причинами и следствием, где определение важности отдельных причин достаточно наглядно и возможно легко сравнить статистическую и причинную зависимости количественно. Повторим, что получаемые далее соотношения относятся к свойствам популяции как генеральной совокупности (выборочные ошибки отсутствуют), а на распределение признаков не наложено особых ограничений.
А. Ранее мы показали, что какова бы ни была фиксированная величина коэффициента корреляции (теснота статистической связи)
между фактором-причиной X/ и признаком-следствием У, равным ХХ/, относительная величина среднего вклада фактора в среднее значение признака (важность данной причины) может быть как угодно близкой к нулю, так и произвольно близкой к единице. Значит, здесь коэффициент корреляции не характеризует важность причины для следствия.
Б. Теперь обратимся к случаю, когда признак У является суммой независимых причин {X/} с весами {с,} и дисперсиями {V/}, т. е. У = ХсХ/. Найдем ковариацию признака У с отдельной причиной, скажем, с Х|. По свойствам ковариации, когда один из аргументов (У) у ковариации COV(Y, Х|) является суммой случайных величин, то COV(Y, Х|) равна сумме ковариаций каждого из слагаемых с другим аргументом (Х|). В случае трех причин (см. рис. 1б)
СОУ(У, Хл) = С О V (с 1Х1+С2Х2+сзХз, Х1)
Здесь У1 обозначает дисперсию фактора-причины Х1, и мы учли, что ковариации независимых факторов равны нулю, а постоянный множитель (01) у ООУ(сх Х1) можно вынести из-под знака ковариации. Кроме того, напомним, что по определению
COV(X1, Х1) = Е{(Х1 - Е{Х1})2} = У1.
В итоге для любого количества факторов в сумме У = XX ковариация ООУ(У, Х1) признака У с отдельной причиной ^1) при фиксированном причинном влиянии (С1) может принимать бесконечное множество значений с1 У1, в зависимости от величины дисперсии У1 фактора-причины
Напомним также, что дисперсия Уу признака У, равного сумме независимых случайных величин сХ, будет суммой дисперсий слагаемых, постоянный множитель с/ можно выносить из-под символа дисперсии, и при этом его следует возвести в квадрат (У(сХ) = с2У(Х)). Значит,
Уу = с2У1 + с2У2 + с2Уз = W1 + ^2 + Wз, Щ = с2У/,
где Щ/ интерпретируется как компонент дисперсии признака У, индуцированный /-й причиной.
Отсюда коэффициент корреляции р признака У с одной из причин (Х1) находится как
р = СОЩУ, = сМ/л/ЩЛ = а^/М/Уу,
р2 = c2Vi/Vy= Wi/Vy.
(2)
Таким образом, квадрат коэффициента корреляции признака с одной из влияющих на него независимых причин равен отношению компонента дисперсии признака из-за этой причины ко всей дисперсии признака. Значит, коэффициент корреляции признака У с причиной Х1, влияющей на него по одному и тому же неизменному закону У = сХ1, может принимать разные значения в зависимости от
дисперсии У1 причины Х1 (и дисперсий других причин, определяющих величины компонентов {Щ}, суммирующихся в общей дисперсии Уу признака У). Следовательно, указанный коэффициент корреляции рух1 = с^л[У1/УУ не характеризует закон влияния причины х1 на признак У.
В. Заметим, что можно попробовать взять в качестве показателя важности фактора не коэффициент корреляции, а такую естественную характеристику важности (с/) /-го фактора, которая показывает как сильно меняется признак (скорость его изменений) при варьировании данной причины. Такая функциональная (неслучайная) зависимость как У = сХ графически отображается проходящей через начало координат прямой с угловым коэффициентом с. Отсюда можно выразить X как 1
х=су.
Если данная функциональная связь нарушается присутствием случайных факторов {Хк}, то У = сХ + ХскХк. Здесь кажется, что в качестве аналога коэффициента с можно рассматривать коэффициент регрессии Ьух признака У от причины X (угловой коэффициент соответствующей линии регрессии). Согласно (1) Ьух = ООУ(У, Х)/Ух = сУх/Ух = с.
Итак, в данном случае причинная функциональная связь признака У с причиной х и регрессионная связь условного среднего значения У от х совпадают независимо от дисперсий факторов:
У = сх, У = Ьухх = сх.
Если рассматривать коэффициент другой регрессии Ьху причины х от признака У, то согласно (2)
1
Ьху = COV(У, х)/Уу = сУх/Уу = тсУ/Уу
с
i 12
= -ЯШу = трУх
Так как величина коэффициента корреляции не выше единицы, то абсолютная величина углового коэффициента Ьух линии регрессии причины х от зависимого от нее признака У обычно меньше, чем у коэффициента 1/с линии функциональной связи.
Мы получили, что причинная функциональная связь и регрессионная зависимость причины от зависимого признака не совпадают:
Х = С-У Х = ьуху = (1рУХ)у.
Г. Пусть теперь функциональная зависимость между двумя признаками У1 и У2 вызвана общей причиной Р, скажем, У1 = сР, У2 = 6Р.
Если из первого уравнения выразить Р как функцию У1 и подставить ее во второе уравнение, то найдем зависимость У2 от У1 (аналогично находится зависимость У1 от У2):
Р = -У1; У2 = бР = -Ус, Ус = -У2.
Далее обратимся к ситуации, когда данная функциональная связь У1 с У2 нарушается присутствием независимых случайных факторов {Хк} и {2}, скажем,
Вспомним только что полученное выражение (2) для коэффициента корреляции причины с признаком. Для Р и У1 оно принимает вид
ру1Р = ^УР/У1, а ру2Р = бл]Ур/У2. Отсюда р12 = ру1рру2р.
Перейдем к вычислению коэффициентов регрессии. Начнем с коэффициента Ь21 регрессии признака У2 от У1.
Ь21 = ООУ^/У = С6УыУ1 = ^сУ/У = ^УР
согласно (2). Таким образом, абсолютная величина углового коэффициента Ь21 линии регрессии принятого за зависимый признака У2 от признака У1 обычно меньше, чем у углового коэффициента
- соответствующей функциональной связи У2 от с
признака У1, поскольку р2 < 1. Геометрически это означает, что рассматриваемая линия регрессии получается поворотом линии функци-
- б.,
ональной зависимости признаков У2 = 7У1 из-
с
за общей причины к оси координат зависимого признака (параллельно ей).
Аналогично коэффициент Ь12 регрессии зависимого признака У1 от У2, меньше по абсолютной величине углового коэффициента < соответствующей функциональной связи У1 от У2:
с с 2
Ь12 = ООУ12/У2 = СбУр/У2 = <<2Ур/У2 = <-ру2Р.
Мы получили, что функциональная связь признаков, вызванная общей причиной, и регрессионные зависимости при наложении на эту связь случайных специфических факторов не совпадают:
На плоскости с осями координат ОУ1 и ОУ2 одна из линий регрессии получается поворотом линии функциональной зависимости признаков из-за общей причины к первой из осей координат, а другая к второй. Величины поворотов вокруг центра с координатами (Е{У1}, Е{У2}) обычно различны и изменяются при изменениях дисперсий общего и специфического факторов, а линия зависимости признаков из-за общей причины лежит между обеими регрессиями, и ее положение постоянно.
Таким образом, ни теснота статистической связи (квадрат коэффициента корреляции), ни регрессионные зависимости не характеризуют ни скрытые причинные закономерности, ни важность причины согласованной совместной изменчивости признаков.