Научная статья на тему 'О ПРИМЕНЕНИИ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ В КРАНИОЛОГИИ'

О ПРИМЕНЕНИИ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ В КРАНИОЛОГИИ Текст научной статьи по специальности «Математика»

CC BY
238
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Camera praehistorica
Область наук
Ключевые слова
МОРФОЛОГИЯ ЧЕРЕПА / ПРОБЛЕМА ВЫБОРКИ / ИССЛЕДОВАТЕЛЬСКИЕ ОШИБКИ / МЕТОД ГЛАВНЫХ КОМПОНЕНТ / SKULL MORPHOLOGY / SAMPLING PROBLEM / RESEARCH BIAS / PRINCIPAL COMPONENT ANALYSIS

Аннотация научной статьи по математике, автор научной работы — Широбоков Иван Григорьевич

Анализ главных компонент часто используется краниологами для оценки однородности выборок, но до сих пор не существует общепринятого подхода к интерпретации его результатов. Для проведения такой оценки были созданы две модельные группы, суммарно включающие измерения 900 мужских черепов. Из модельных выборок извлекались случайные выборки разного объема, для каждой проводился анализ методом главных компонент (ГК) по набору из 14 краниометрических признаков. Выявлены закономерности в средней величине и вариативности нагрузок признаков на первые две главные компоненты и определена изменчивость дисперсий. Они условно могут быть обозначены как фактор общего размера и фактор формы лицевого скелета. В больших сериях первая компонента имеет высокую корреляцию со средним геометрическим всех линейных признаков, а вторая обусловлена отрицательными связями между широтным и высотным комплексами признаков. Корреляционный анализ показал, что из-за случайных различий в величине собственных чисел ГК по результатам отдельных анализов вторая компонента может меняться местами с третьей и даже четвертой. Результаты эксперимента, в ходе которого моделировались смешанные серии черепов саамов и финнов, показали, что при условии отсутствия внешних (некраниометрических) дифференцирующих признаков метод главных компонент является недостаточно эффективным инструментом для обнаружения скрытой структуры выборки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE APPLICATION OF THE PRINCIPAL COMPONENT ANALYSIS IN CRANIAL METRIC STUDIES

Principal component analysis (PC) is often used by anthropologists to assess the homogeneity of the cranial samples, but so far there is no common approach to the interpretation of its results. Two reference groups included 900 male skulls were formed to try to set such standards. Random samples of different sizes were extracted from the model groups; the data on 14 craniometric traits for these groups were subjected to the principal component analysis. The consistent patterns of the average value, variability of the loadings of the first two PCs and the variability of eigenvalues were revealed. The first two PCs can be described as the factor of the total size and the factor of the facial skeleton form. In large samples, the first component has high correlations with the geometric means of all linear metric characters while the second component is related the variability of the negative correlated transverse and longitudinal cranial traits. Correlation analysis revealed that the second PC can interchange with the third and even fourth PC due to random differences in the eigenvalues of the PCs. The results of the experiment in which the samples randomly combined from skulls of Finns and Sami, demonstrated that the principal component analysis can not be effectively used for detecting the hidden structure of sample if researchers have no independent information on external (non-cranial metric) traits meaningful for differentiation of the sample.

Текст научной работы на тему «О ПРИМЕНЕНИИ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ В КРАНИОЛОГИИ»

УДК 572

DOI: 10.31250/2658-3828-2020-1-121-138

И.Г. ШИРОБОКОВ

Музей антропологии и этнографии им. Петра Великого (Кунсткамера) РАН, Университетская наб., 3, Cанкт-Петербург, 199034, Россия E-mail: ivansmith@bk.ru ORCID: 0000-0002-3555-7509

О ПРИМЕНЕНИИ МЕТОДА

ГЛАВНЫХ КОМПОНЕНТ В КРАНИОЛОГИИ*

АННОТАЦИЯ Анализ главных компонент часто используется краниологами для оценки однородности выборок, но до сих пор не существует общепринятого подхода к интерпретации его результатов. Для проведения такой оценки были созданы две модельные группы, суммарно включающие измерения 900 мужских черепов. Из модельных выборок извлекались случайные выборки разного объема, для каждой проводился анализ методом главных компонент (ГК) по набору из 14 краниометрических признаков. Выявлены закономерности в средней величине и вариативности нагрузок признаков на первые две главные компоненты и определена изменчивость дисперсий. Они условно могут быть обозначены как фактор общего размера и фактор формы лицевого скеле-

та. В больших сериях первая компонента имеет высокую корреляцию со средним геометрическим всех линейных признаков, а вторая обусловлена отрицательными связями между широтным и высотным комплексами признаков. Корреляционный анализ показал, что из-за случайных различий в величине собственных чисел ГК по результатам отдельных анализов вторая компонента может меняться местами с третьей и даже четвертой. Результаты эксперимента, в ходе которого моделировались смешанные серии черепов саамов и финнов, показали, что при условии отсутствия внешних (некраниометрических) дифференцирующих признаков метод главных компонент является недостаточно эффективным инструментом для обнаружения скрытой структуры выборки.

Ключевые слова: морфология черепа, проблема выборки, исследовательские ошибки, метод главных компонент.

I.G. SHIROBOKOV

Peter the Great Museum of Anthropology and Ethnography (the Kunstkamera) of the Russian Academy of Sciences, Universitetskaya Naberezhnaya, 3, St. Petersburg, 199034, Russian Federation E-mail: ivansmith@bk.ru ORCID: 0000-0002-3555-7509

ON THE APPLICATION OF THE PRINCIPAL COMPONENT ANALYSIS IN CRANIAL METRIC STUDIES**

Principal component analysis (PC) is often used by anthropologists to assess the homogeneity of the cranial samples, but so far

there is no common approach to the interpretation of its results. Two reference groups included 900 male skulls were formed to try to set such

* Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 18-39-00138.

** Funding: The reported study was funded by RFBR according to the research project No. 18-39-00138.

standards. Random samples of different sizes were extracted from the model groups; the data on 14 craniometric traits for these groups were subjected to the principal component analysis. The consistent patterns of the average value, variability of the loadings of the first two PCs and the variability of eigenvalues were revealed. The first two PCs can be described as the factor of the total size and the factor of the facial skeleton form. In large samples, the first component has high correlations with the geometric means of all linear metric characters while the second component is related the variability of

the negative correlated transverse and longitudinal cranial traits. Correlation analysis revealed that the second PC can interchange with the third and even fourth PC due to random differences in the eigenvalues of the PCs. The results of the experiment in which the samples randomly combined from skulls of Finns and Sami, demonstrated that the principal component analysis can not be effectively used for detecting the hidden structure of sample if researchers have no independent information on external (non-cranial metric) traits meaningful for differentiation of the sample.

Key words: skull morphology, sampling problem, research bias, principal component analysis.

ВВЕДЕНИЕ

Метод главных компонент остается сегодня одним из наиболее широко распространенных статистических методов, используемых российскими краниологами для анализа однородности выборок и выделения признаков, обладающих наибольшим дифференцирующим значением на внутригрупповом уровне. Обзор более чем 250 статей по краниологии, вышедших за последние 20 лет, показывает, что при проведении внутри-группового анализа исследователи прибегают к нему в каждой пятой публикации (или почти в половине случаев, когда использовался хотя бы один статистический метод). Несмотря на популярность метода ГК, сегодня по-прежнему отсутствуют какие-либо общепринятые стандарты подхода к анализу и оценки результатов, полученных при его помощи. Причем, по всей видимости, не существует никакой специальной антропологической литературы, в которой рассматривались бы принципы морфологической интерпретации главных компонент, и все существующие руководства по биометрии содержат общие стандартные описания (см. [Bookstein 2017]). При этом произвольность подходов и ошибки в использовании данного метода являются актуальной проблемой среди специали-

стов разных областей науки [Peres-Nero et al. 2003; Berner 2011; Björklund 2019].

Российскими краниологами анализ чаще всего проводится либо по некоторому стандартному набору краниометрических показателей, либо по группе признаков, оценить изменчивость которых позволяет сохранность большей части черепов. Сам анализ, как правило, сводится к описанию факторной структуры, выделению признаков с наиболее высокими нагрузками и визуальной оценке относительного расположения черепов на графиках первых двух (реже трех-четырех) главных компонент. В некоторых случаях новые переменные тестируются на нормальность распределения или оценивается статистическая значимость различий в положении индивидов, разделенных по внешним (не используемым в анализе ГК) признакам на подгруппы. Заключение об однородности или неоднородности исследуемой выборки чаще всего основывается на субъективно оцениваемой степени соответствия полученной картины представлениям конкретных исследователей. Нередко также метод используется в качестве формальной процедуры, описание результатов которой размещается перед описанием результатов межгрупповых сопоставлений, но не влияет на общие выводы авторов.

Первоначальным поводом для подготовки данного исследования стала высказанная А.Г. Козинцевым идея о том, что теоретически метод главных компонент должен давать более надежные основания для заключения о неоднородности краниологических серий по сравнению с попарными сопоставлениями выборочных и ожидаемых значений коэффициентов корреляции, дисперсий, а также проверки нормальности распределений признаков, поскольку все эти показатели подвержены случайным колебаниям [Козинцев 2016]. Таким образом, задача может быть сформулирована как оценка целесообразности введения в краниологический анализ некоторой эталонной факторной структуры, предположительно характеризующей однородные выборки. Задача предполагает по меньшей мере решение двух вопросов. Какую выборку в краниологии следует считать однородной? Насколько устойчивой к выборочному эффекту является факторная структура, полученная по результатам анализа серий разного размера?

Для решения этой задачи требуется определить, как именно следует оценивать результаты анализа ГК в краниометрии. Выборки какого объема достаточны для применения метода? Какое число главных компонент следует принимать в расчет? Каким образом оценивать значимость нагрузок на главные компоненты и как определять значимость различий между нагрузками в двух разных анализах?

Логичным представляется рассмотреть эти вопросы в рамках варианта алгоритма главных компонент, который чаще всего используется современными краниологами. Его главная особенность — использование корреляционной, а не ковариационной матрицы, что позволяет проводить совместный анализ линейных и угловых признаков. Как правило, анализу подвергается выборка с относительно небольшим числом наблюдений (чаще всего — не более нескольких десятков), причем отсутствующие значения некоторых признаков, в случае если сохранность черепа позволила измерить большую часть остальных параметров, замещаются среднегрупповыми.

МАТЕРИАЛЫ И МЕТОДЫ

Для оценки устойчивости факторной структуры было создано две модельные группы. Первая включает в себя 600 мужских черепов из 18 краниологических серий, относящихся к локальным популяциям различных регионов Евразии и датируемых Новым временем. В их число вошли: финны (провинция Уусимаа), карелы (Суйстамо I), коми-зыряне (Подъельск), удмурты (Бурино), марийцы (Немец-Сала), осетины (село Мацута), мордва-эрзя (Новая Пырма), хевсуры (Шатили), ингуши (ущелье Армхи), армяне (Бингель-Даг), арабы (Антиливан), русские (Старая Ладога), шведы (Остроботния), саамы (Утсйоки), латыши (Дурбе), буряты (улус Шулут), японцы (Канто), киргизы (сборная серия). При расчетах использовались преимущественно индивидуальные данные измерений черепов из цифрового архива Отдела антропологии МАЭ РАН, а также из публикации Н.И. Миклашевской [Миклашевская 1959]. В настоящее время индивидуальные данные всех включенных в анализ европейских серий находятся в свободном для читателей доступе [Широбоков и др. 2017]. Серии марийцев, удмуртов, мордвы, русских, осетин, ингушей и арабов были измерены В.П. Алексеевым, карел и коми-зырян — В.И. Хартановичем, финнов, шведов и саамов — А.Г. Козинцевым, японцев — В.Г. Моисеевым, бурят — Н.Н. Мамоновой, армян — М.Г. Абдушелишвили, хевсур — А.Н. Джа-вахишвили, киргизов — Н.И. Миклашевской.

Вторая модельная группа состоит из 300 мужских финских черепов, характеризующих близкое к современности население различных провинций Финляндии, измеренных А.Г. Козинцевым и опубликованных В.И. Хартановичем [Хартанович 1995] (индивидуальные данные доступны в [Широбоков и др. 2017]).

В рамках данного исследования модельные группы играют роль двух генеральных совокупностей с известными параметрами, а случайные выборки из них — роль краниологических серий, по характеристикам которых мы пытаемся оценить параметры исходных популяций.

Таблица 1. Усредненная матрица внутригрупповых корреляций А.Г. Козинцева (ниже диагонали) и матрица, рассчитанная для основной модельной группы (выше диагонали) Table 1. Averaged matrix of intra-group correlations by A.G. Kozintsev (below the diagonal) and the correlation matrix calculated by author for the reference group (above the diagonal)

Признаки 1 8 17 9 45 48 55 54 51 52 77 zm SS:SC 75(1)

1 — 0.22 0.33 0.38 0.35 0.34 0.28 0.23 0.31 0.15 -0.21 0.00 0.00 -0.01

8 0.30 — 0.19 0.37 0.50 0.18 0.27 0.12 0.22 0.25 0.11 0.11 -0.05 0.03

17 0.34 0.25 — 0.25 0.34 0.24 0.20 0.09 0.20 0.08 -0.01 0.00 0.08 0.04

9 0.23 0.39 0.21 — 0.43 0.23 0.22 0.19 0.41 0.24 -0.14 0.14 -0.17 -0.04

45 0.33 0.44 0.33 0.43 — 0.33 0.37 0.31 0.48 0.23 0.10 0.15 -0.10 0.01

48 0.32 0.21 0.26 0.19 0.32 — 0.73 0.05 0.28 0.44 -0.11 -0.19 0.10 0.00

55 0.26 0.16 0.16 0.23 0.34 0.72 — 0.08 0.28 0.45 -0.07 -0.25 0.14 0.02

54 0.20 0.07 0.05 0.20 0.24 0.04 0.16 — 0.27 -0.02 0.03 0.08 -0.20 -0.08

51 0.25 0.18 0.17 0.39 0.41 0.28 0.24 0.18 — 0.33 -0.18 0.05 -0.07 0.05

52 0.09 0.13 0.06 0.21 0.20 0.39 0.42 -0.03 0.30 — -0.05 -0.07 0.04 -0.05

77 -0.10 0.13 0.00 -0.05 0.07 -0.09 -0.07 0.02 -0.16 -0.02 — 0.26 -0.04 -0.08

zm -0.04 0.12 -0.05 0.15 0.16 -0.11 -0.10 0.04 -0.02 0.00 0.30 — -0.21 -0.17

SS:SC 0.04 0.00 0.08 -0.16 -0.03 0.18 0.18 -0.08 0.04 0.09 -0.06 -0.15 — 0.36

75(1) -0.10 -0.03 -0.05 -0.24 -0.02 -0.05 -0.05 -0.16 -0.07 -0.03 0.03 0.01 0.49 —

Таблица 2. Средние величины дисперсий (собственных чисел) ГК для выборок с разным числом наблюдений Table 2. Average variances (eigenvalues) of the PC calculated for samples with different sizes

Число наблюдений PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC13 PC14

10 34.3 (4.8) 20.8 (2.9) 15.6 (2.2) 10.7 (1.5) 7.5 (1.1) 5.3 (0.7) 3.3 (0.5) 1.8 (0.3) 0.8 (0.1)

20 31.4 (4.4) 17.6 (2.5) 12.4 (1.7) 9.8 (1.4) 7.7 (1.1) 5.9 (0.8) 4.5 (0.6) 3.6 (0.5) 2.7 (0.4) 1.8 (0.2) 1.3 (0.2) 0.8 (0.1) 0.4 (0.1) 0.2 (0.0)

30 29.2 (4.1) 16.2 (2.3) 12.1 (1.7) 9.7 (1.4) 7.9 (1.1) 6.2 (0.9) 5.0 (0.7) 3.9 (0.5) 3.0 (0.4) 2.3 (0.3) 1.7 (0.2) 1.3 (0.2) 0.9 (0.1) 0.6 (0.1)

50 26.7 (3.7) 15.8 (2.2) 10.9 (1.5) 9.4 (1.3) 7.6 (1.1) 6.3 (0.9) 5.2 (0.7) 4.3 (0.6) 3.6 (0.5) 3.1 (0.4) 2.6 (0.4) 1.9 (0.3) 1.5 (0.2) 1.0 (0.1)

100 26.8 (3.8) 13.9 (1.9) 10.2 (1.4) 8.8 (1.2) 7.0 (1.0) 6.2 (0.9) 5.5 (0.8) 4.8 (0.7) 4.1 (0.6) 3.5 (0.5) 3.0 (0.4) 2.6 (0.4) 2.0 (0.3) 1.6 (0.2)

200 25.9 (3.6) 13.6 (1.9) 9.6 (1.3) 8.7 (1.2) 7.2 (1.0) 6.5 (0.9) 5.4 (0.8) 4.9 (0.7) 4.4 (0.6) 3.8 (0.5) 3.3 (0.5) 3.0 (0.4) 2.2 (0.3) 1.6 (0.2)

600 25.0 (3.5) 13.5 (1.9) 11.5 (1.6) 9.8 (1.4) 7.4 (1.0) 5.6 (0.8) 5.5 (0.8) 5.2 (0.7) 4.2 (0.6) 3.7 (0.5) 3.0 (0.4) 2.5 (0.4) 2.0 (0.3) 1.2 (0.2)

Параметры первой модельной группы, очень смешанной по составу, были подвергнуты специальным процедурам, которые, с точки зрения автора, дают основания считать ее примером морфологически однородной серии. Вторая модельная группа исполняет роль тестовой и преобразованиям не подвергалась.

Автор исходил из того, что однородная краниологическая выборка должна характеризоваться двумя основными параметрами: первый — распределение признаков в выборке имеет нормальный или близкий к нему вид; второй — внутригрупповые корреляции между признаками соответствуют некоторым ожидае-

мым величинам (установленным по результатам анализа большого числа краниологических серий, представляющих локальные популяции различного происхождения).

Основная посылка при отборе параметров заключается в том, что в краниологии понятию «однородная выборка» стоит придавать исключительно морфологический смысл. Вопрос об однородности серии лишь косвенно связан с решением вопроса об ее происхождении*. Идея о том, что «однородность» должна обязательно предполагать генетическое родство, вызывает серьезные затруднения в краниологическом анализе. Во-первых, в большинстве случаев мы не обладаем достоверной информацией ни об истории формирования интересующих нас групп населения, ни о степени родства между погребенными, черепа которых составляют исследуемую выборку. Во-вторых, даже хорошо задокументированный факт смешанного происхождения выборки сам по себе еще не может служить основанием считать выборку неоднородной, поскольку история большей части населения земного шара так или иначе затронута процессами генетического смешения.

На практике однородность — это лишь техническая характеристика выборки, среднегрупповая для краниологических серий, формируемых по принципу принадлежности к одному или нескольким географически и хронологическим близким погребальным памятникам. Такая характеристика всегда основана на результатах анализа конкретного набора признаков. Она может быть поставлена под сомнение при введении в исследование дополнительных параметров, если результаты дополненного анализа свидетельствуют о присутствии в выборке «скрытой» структуры.

Одним из наиболее ранних и широко распространенных способов оценки однородности се-

* Достаточно вспомнить, что термины «однородность» (homogeneity) и «неоднородность» (heterogeneity) как в отечественной, так и в зарубежной литературе употребляются, когда речь идет о равенстве или различиях между дисперсиями признаков в разных выборках. Очевидно, что в этом случае их использование также не подразумевает никакого «генетического» подтекста.

рии остается анализ показателей изменчивости признаков [Pearson 1903; Дебец 1948; Козинцев 1977]. В отечественной литературе, как правило, такая оценка проводится путем сравнения выборочных значений стандартных отклонений с некоторыми ожидаемыми величинами. Предполагается, что в однородной серии изменчивость признаков должна укладываться в диапазон средних в мировом масштабе значений [Алексеев, Дебец 1964]. По всей видимости, данный подход не всегда позволяет выявить смешанное происхождение серии, так как некоторые признаки в метисных популяциях могут иметь даже более низкую изменчивость, чем в предковых группах [Ярхо 1947: 127-128; Дебец 1948: 25]. При этом на практике повышенная изменчивость признаков всегда рассматривается как свидетельство смешанного происхождения серии, если только объем выборки не позволяет подозревать случайный характер изменчивости. Так или иначе, в рамках данного исследования показатели изменчивости не могут быть использованы для оценки однородности выборки. В варианте анализа ГК, основанном на корреляционной матрице, дисперсии и коэффициенты вариации исходных признаков не играют никакой роли, так как последние подвергаются нормированию.

Нормальное распределение признаков, возможно, не является характеристикой исключительно однородных (в генетическом смысле) выборок и может встречаться в сериях, составленных из механически смешанных групп. Однако действительно важно лишь то, что нормальное или близкое к нему унимодальное распределение, по-видимому, является типичным для большинства краниометрических параметров среднестатистической краниологической выборки, а в большинстве остальных случаев может быть приведено к нему путем логарифмического преобразования.

Наиболее существенный критерий однородной выборки — определенная корреляционная структура. Корреляционный анализ, сопоставление внутри- и межгрупповых корреляций между некоторыми группами признаков,

Таблица 3. Средние величины коэффициентов корреляции между исходными признаками и первыми двумя ГК

Table 3. The average correlation coefficients between the cranial traits and the first two PCs

Размер выборки 10 20 30 50 100 200 средн.* 10 20 30 50 100 200 средн.*

Признаки ГК I ГК II

1. 0.61 0.69 0.61 0.56 0.57 0.59 0.62 -0.03 0.04 -0.04 0.03 0.08 0.04 0.02

8. 0.52 0.53 0.60 0.60 0.56 0.58 0.57 0.00 0.28 0.16 0.17 0.25 0.14 0.21

17. 0.38 0.59 0.48 0.35 0.50 0.43 0.49 -0.09 0.10 0.05 -0.10 0.00 -0.01 0.02

9. 0.64 0.65 0.65 0.64 0.66 0.62 0.65 0.19 0.20 0.25 0.28 0.27 0.28 0.25

45. 0.72 0.74 0.78 0.76 0.71 0.75 0.75 0.04 0.24 0.22 0.21 0.20 0.25 0.22

48. 0.73 0.72 0.66 0.63 0.68 0.68 0.67 -0.07 -0.31 -0.33 -0.49 -0.34 -0.42 -0.37

55. 0.76 0.72 0.71 0.65 0.69 0.69 0.70 0.06 -0.37 -0.34 -0.49 -0.37 -0.42 -0.39

54. 0.23 0.45 0.29 0.39 0.34 0.31 0.36 0.19 0.17 0.31 0.38 0.42 0.46 0.31

51. 0.64 0.64 0.66 0.62 0.66 0.63 0.64 0.09 0.12 0.08 0.12 0.03 0.12 0.10

52. 0.59 0.38 0.56 0.53 0.58 0.59 0.51 -0.15 -0.25 -0.19 -0.26 -0.16 -0.18 -0.22

77. -0.26 -0.12 -0.16 -0.03 -0.19 -0.09 -0.12 -0.09 0.41 0.20 0.28 0.26 0.25 0.29

zm' -0.19 -0.03 0.00 0.05 -0.04 0.02 0.00 0.26 0.68 0.52 0.64 0.62 0.65 0.62

SS:SC. 0.15 0.00 0.02 -0.14 -0.01 -0.05 -0.03 -0.46 -0.37 -0.51 -0.56 -0.62 -0.62 -0.51

75(1). 0.00 -0.03 -0.01 -0.06 0.03 0.05 -0.01 -0.53 -0.18 -0.35 -0.21 -0.51 -0.44 -0.30

* Средняя величина коэффициентов, рассчитанная для всех выборок объемом от 20 черепов.

Таблица 4. Число значимых ГК для выборок разного объема

Table 4. The number of significant PCs estimated for samples of different sizes

Объем выборки «Графический» Метод Кайзера Метод Кеттела Критерий сломанной трости Бутстрэппинг независимых признаков

10 2 5 2 — 0 (2)

20 2 5 2-3 2 0 (2)

30 2 5 2-3 2 1 (2)

50 2 5 3 1 1 (2)

100 2 5 3 1 1 (3)

200 2 5 3 1 2 (4)

600 2 5 3-6 1 3 (4)

остается сегодня важнейшим этапом всякого краниологического исследования. Главной посылкой анализа является наблюдение, согласно которому между краниометрическими параметрами внутри выборок существуют стабильные связи, которые обусловлены физиологическими особенностями формирования черепа, а также топографическим расположением краниометрических точек. Нарушение таких корреляций,

выявление «атипичных» комбинаций признаков могут свидетельствовать о смешанном составе серии и должны контролироваться при помощи межгруппового анализа [Ярхо 1934; Дебец 1948; Рогинский 1954, Рогинский 1962; González-José et al. 2004; Дерябин 2005]. Основная проблема заключается в установлении той самой универсальной корреляционной матрицы, которая скрывается за всегда сложными и запутанными

процессами формирования антропологического состава населения разных регионов. Поскольку «чистых» групп, кроме как в воображении отдельных исследователей, по-видимому, не существует, а изоляты вряд ли могут рассматриваться в качестве эталонов, проблема может быть решена только путем расчета усредненных матриц корреляций для большого числа краниологических серий разного происхождения.

В данном исследовании в качестве таковой использовалась матрица, полученная для основной модельной выборки и подвергнутая коррекции. Как ориентир ожидаемых значений конкретных коэффициентов корреляции использовалась матрица, рассчитанная А.Г. Козинцевым для программы канонического дискриминантного анализа CANON*, а как контрольный ориентир — матрицы, полученные С.Г. Ефимовой по материалам 7 краниологических выборок [Ефимова 1991], а также матрица второй модельной группы, включающей исключительно финские черепа. Для удобства проведения сопоставлений в анализе учитывалась программа из 14 признаков (№ по Мартину и др.): 1, 8, 17, 9, 45, 48, 55, 54, 51, 52, 77, zm, SS:SC, 75(1).

Формирование основной модельной группы проводилось в несколько этапов. На предварительном этапе учитывались данные измерений только тех черепов, информация о которых не содержала пустых ячеек. Для каждой выборки осуществлялось нормирование значений признаков (они приводились к такому виду, что M = 0, а s2 = 1, где M — среднее значение, s2 — дисперсия). После устранения межгрупповых различий в абсолютных значениях признаков выборки объединялись в общую группу, и проводилась проверка соответствия ее характеристики указанным выше критериям. Для суммарной группы рассчитывались коэффициенты внутригрупповой корреляции, а полученная матрица сравнивалась с матрицами А.Г. Козинцева и С.Г. Ефимовой при

* Матрица была рассчитана А.Г. Козинцевым по опубликованным к началу 1990-х гг. данным приблизительно 10 разных выборок.

помощи теста Мантеля для корреляций (в программе PAST). Удовлетворительным считался результат, при котором значение коэффициента корреляции между матрицей, рассчитанной для модельной группы, и матрицей А.Г. Козинцева не уступало величине коэффициента, рассчитанного между матрицами А.Г. Козинцева и С.Г. Ефимовой (r = 0.93 при p < 0.0001)**.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Распределение каждого признака тестировалось на нормальность при помощи W-критерия Шапиро-Уилка. Допустимым считалось, если рассчитанная вероятность наблюдаемого или еще более выраженного отклонения выборочного распределения не превышала 5% при условии справедливости нулевой гипотезы — о том, что генеральная совокупность характеризуется нормальным распределением. Теоретически применение такого формального подхода сопряжено с занижением вероятности ошибки второго рода (в данном случае присутствует заинтересованность в принятии нулевой гипотезы, а не в ее отклонении, что нетипично для исследовательских задач). Однако эта проблема по-настоящему актуальна лишь при анализе маленьких выборок. Вероятность достижения условного критического уровня значимости (p < 0.05) для одного и того же унимодального распределения с небольшой асимметрией или эксцессом значительно выше для выборки, включающей в себя 600 черепов, нежели два десятка. В случае необходимости выправления асимметрии использовалось логарифмическое преобразование данных.

На следующем этапе в группу включались черепа с одним-двумя отсутствующими измерениями, причем недостающие данные заполнялись таким образом, чтобы приблизить характеристику модельной группы к ожидаемым

** Поскольку простая проверка показала, что тест Мантеля не только чувствителен к автокорреляциям, но и воспринимает коэффициенты в качестве аддитивных величин, сравнивались 2-преобразованные коэффициенты. Корреляция между матрицами вычислялась для набора из 13 признаков, являющихся общими для матриц С.Г. Ефимовой и А.Г. Козинцева (исключен симотиче-ский указатель).

показателям, а расчеты проводились заново. Если эти манипуляции оказывались недостаточными для приближения характеристики группы к ожидаемой, часть черепов с недостающими измерениями замещалась другими и операция проводилась заново. В окончательном варианте доля черепов с частично искусственно установленными параметрами составила около 7-8%*. Матрица внутригрупповых корреляций, полученная для окончательного варианта модельной группы, представлена в таблице 1. В соответствии с результатами теста Мантеля корреляцию между матрицами удалось увеличить от г = 0.91 до г = 0.95 при р < 0.0001. Сходную структуру имеет также корреляционная матрица, полученная для тестовой финской группы (г = 0.94 с основной модельной группой). Выборочные значения признаков финнов отдельных провинций Финляндии подвергались нормированию перед объединением в общую группу, но данные не подвергались искусственной коррекции для приближения распределения к нормальному виду, а корреляций — к ожидаемым величинам.

Оценка устойчивости факторной структуры в однородных выборках проводилась следующим образом. Путем извлечения случайно отобранных черепов из основной модельной группы формировались выборки разного размера (по 200, 100, 50, 30, 20 и 10 черепов), а полученные матрицы данных анализировались методом главных компонент. После формирования каждой новой выборки все черепа возвращались в модельную группу, порядок строк в матрице случайным образом изменялся, и процедура проводилась заново. Для выборки каждого размера вычислялся средний размер собственных чисел всех главных компонент и коэффициентов кор-

* Подгонка данных имеет простое объяснение. В действительности, если мы принимаем корректность определения однородной краниологической выборки как выборки, соответствующей двум указанным выше параметрам, реальный состав модельной группы вообще не имеет большого значения. Если бы не техническая сложность процедуры, вполне можно было обойтись генерацией матрицы абстрактных измерений некоторой идеальной выборки черепов.

реляции с исходными признаками. При расчете средних коэффициентов корреляции применялась процедура z-преобразования с поправкой на знак. Примерно в половине случаев знаки всех коэффициентов корреляции между признаками и конкретной ГК искусственно изменялись на противоположные, чтобы сохранить общее направление корреляционных связей в выборках.

Количество извлекаемых из модельной группы выборок увеличивалось с уменьшением размера последних (приблизительно обратно пропорционально квадратному корню из числа наблюдений). Это позволило сохранить примерно одинаковый уровень погрешности средних показателей в больших и маленьких выборках. Всего из модельной группы было извлечено 100 выборок: 30 — по 10 черепов; 20 — по 20; 20 — по 30; 15 — по 50; 10 — по 100 и 5 — по 200 черепов.

Тестовая модельная группа использовалась для оценки целесообразности использования метода ГК при анализе смешанных групп. С этой целью из модельной группы извлекались случайные выборки разного размера, в которые дополнительно включались черепа саамов муниципалитетов Инари и Утсйоки, также измеренные А.Г. Козинцевым [Широбоков и др. 2017]. Такой подбор был важен, чтобы полностью исключить влияние межисследовательских расхождений — известно, что в некоторых случаях последние могут серьезно искажать результаты анализов [Page 1976; Utermohle et al. 1983; Широбоков 2016]. Черепа плохой и удовлетворительной сохранности в этот анализ не включались, использовались только данные финских и саамских черепов, измеренных по всему набору 14 признаков.

РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ

Средние величины дисперсий главных компонент и нагрузок, полученных по результатам анализа 100 случайных выборок, приведены в таблицах 2 и 3. Очевидно, что результаты анализа обусловлены, с одной стороны, характеристикой модельной группы, а с другой — размером случайных выборок. Величина дисперсий

первых главных компонент имеет обратную связь с числом черепов — чем меньше выборка, тем выше вклад случайной индивидуальной вариабельности, которая влияет на нагрузки. Для того чтобы установить число значимых компонент, в каждом конкретном анализе полученные собственные числа сравнивались с собственными числами аналогичных компонент, рассчитанных по результатам анализа 14 независимых признаков с тем же числом наблюдений [Peres-Neto et al. 2003; Vieira 2012]. Значения независимых признаков были получены путем случайных перестановок значений исходных параметров. Затем в программе PAST 4.0 при помощи процедуры бутстрэппинга (1000 повторов) определялся в 95% доверительный интервал для собственных значений главных компонент. Если собственное число главной компоненты, рассчитанной для выборки из модельной группы, превышало верхнюю границу такого интервала, компонента считалась значимой. Если же оно оказывалось в пределах интервала, но превышало среднюю величину собственного числа компоненты, полученной для независимых признаков, она оценивалась как «условно значимая». Остальные главные компоненты не рассматривались в анализе.

Представляется, что такой способ оценки компонент является более адекватным приемом, чем принятые сегодня российскими краниоло-гами. Метод «каменистой осыпи» Кеттела и критерий Кайзера (при котором значимыми считаются компоненты с собственными числами, превышающими 1) зависимы от числа признаков, но недостаточно чувствительны к размеру выборки. Использование критерия «сломанной трости» привело к парадоксальному результату: число значимых компонент для выборок объемом 100-200 черепов оказалось меньше, чем для выборок объемом 20-30 черепов (табл. 4). Весьма распространенный способ всегда принимать во внимание первые две главные компоненты (потому что их удобно представлять в виде графика) также очевидно игнорирует как размер выборки, так число и корреляции между

признаками. Впрочем, если отталкиваться от результатов анализа независимых параметров, оказывается, что «графический» способ примерно в равной степени пригоден для анализа выборок объемом от 30 до 100 черепов, если с осторожностью относиться к интерпретации второй компоненты*.

Многократное повторение процедуры анализа главных компонент для случайных наборов данных позволяет решить вопрос о требовании к минимальному числу наблюдений в выборке. Обычно исследователи исходят либо из некоторых условно установленных чисел (100, 150, 300 или более наблюдений), но чаще указывают некоторое соотношение числа наблюдений и числа признаков (2:1, 3:1, 5:1 или 6:1) (см. обзор в [8Ьаика1 е! а1. 2016]). Очевидно, что вопрос о размере выборки в анализе ГК не имеет универсального ответа. Решение этой задачи зависит от множества параметров, в частности от числа признаков, величины коэффициентов корреляций между признаками и, конечно, типа распределения данных**. В случае анализа краниометрических данных результаты бутстрэппинга хорошо согласуются с зачастую игнорируемой антропологами формулой N > 5 х ((2т + 5) / 6), где т — это число признаков. Эта формула обусловлена требованиями критерия сферичности [Дерябин 2005]. Однако в отличие от нее бутстрэппинг позволяет не только установить целесообразность использования для анализа

* Следует подчеркнуть, что это утверждение справедливо именно в случае анализа 14 признаков, а не любого набора краниометрических параметров вообще.

** Например, в случае, когда снижение размерности данных невозможно (метод ГК бесполезен), поскольку в генеральной совокупности все признаки варьируют независимо друг от друга. Тогда как в случае нормального распределения признаков чем больше число наблюдений, тем более плоским будет выглядеть график собственных чисел главных компонент. Однако для набора некоррелированных данных, имеющих так называемое распределение с «толстыми хвостами», ожидаемого «уплощения» структуры не происходит: формально нельзя показать, что в действительности факторная структура является случайной, даже если число наблюдений многократно превышает число признаков [Та1еЬ 2019: 33-34].

выборки метода ГК, но и определить число рассматриваемых компонент.

Другим важным вопросом является определение способа оценки нагрузок на компоненты. По всей видимости, метод стандартной оценки статистической значимости коэффициентов корреляции в данном случае не идеален. Во-первых, каждая главная компонента фактически является составным признаком, состоящим из преобразованных краниометрических параметров, и, конечно, зависима от них. Во-вторых, поскольку каждая последующая компонента характеризуется меньшим собственным числом, чем предшествующая, а собственные числа являются суммой квадратов величин нагрузок, одно и то же значение коэффициента корреляции может оказаться незначимым для первой компоненты, но значимым для последующих [Peres-Neto et al. 2003].

К сожалению, оценка при помощи бутстрэп-пинга в данном случае оказывается недостаточно точной. Можно извлечь из любой исследуемой выборки множество псевдовыборок с возвращением и для каждой из них провести анализ главных компонент. Затем, определив размах изменчивости нагрузок на главные компоненты, теоретически можно отсеять как незначимые те корреляции, которые демонстрируют тенденцию смены знака на противоположный. Однако при проведении повторных анализов главные компоненты, имеющие небольшие различия в величине дисперсий, могут периодически случайным образом меняться местами, нарушая исходный порядок следования, что приводит к завышению изменчивости корреляций. Обнаружить такие перемещения главных компонент помогает расчет корреляций между комплексом нагрузок на компоненты в генеральной совокупности (модельной группе) и нагрузками, получаемыми при анализе случайно извлекаемых из нее выборок. Рассчитанный по данным 50 выборок размах значений нагрузок на первую компоненту не изменился, но оказался заметно ниже на вторую, чем до коррекции (рис. 1).

Если учитывать, что для большинства серий уже вторая компонента может быть признана лишь условно значимой, и рассматривать разброс значений коэффициентов, полученных для выборок разного объема из модельной группы, то окажется, что изменчивость предположительно однородных групп объясняется двумя факторами. Условно они могут быть обозначены как фактор общего размера и фактор формы лицевого скелета.

Первая главная компонента (фактор общего размера) охватывает более четверти общей изменчивости признаков. Максимальный вклад во внутригрупповую дифференциацию вносят метрические признаки черепа, характеризующиеся общим направлением изменчивости. При этом наименьший разброс корреляций обнаруживают параметры лицевого скелета. Исключение составляет ширина носа, корреляция которой в некоторых случаях неотличима от 0 или имеет обратный знак.

Строго говоря, первую главную компоненту можно считать фактором общего размера на том же основании, что и среднее геометрическое всего рассматриваемого набора линейных признаков. Между последним показателем и первой главной компонентой при большом числе наблюдений (достаточном для преодоления 95% доверительного интервала, в котором находится собственное число ГК при анализе 14 случайно сгенерированных признаков) всегда максимально высокая корреляция. Причем это утверждение справедливо как для обеих модельных групп, так и механической смеси краниологических серий, послуживших для них основой (рис. 2). Таким образом, первая главная компонента просто выражает общую направленность в изменчивости линейных признаков.

Вторая компонента (фактор формы лицевого скелета) в среднем охватывает около шестой доли общей изменчивости. Если обратиться к рассмотрению средних величин коэффициентов корреляции, то можно прийти к следующему наблюдению. Наибольшим весом в дифференциации черепов обладают симотический указатель и зигомаксиллярный угол, несколько

меньшим — высота лица и носа, а также угол выступания носовых костей к линии профиля. Высоколицые черепа чаще характеризуются сильно выступающим носом и клиногнатностью на уровне альвеолярного отростка. Если же обратиться к размаху изменчивости нагрузок признаков, обращая внимание в первую очередь на те из них, которые в наименьшей степени склонны менять знак на противоположный, то окажется, что вторая компонента дифференцирует черепа по двум совокупностям признаков — широтных и высотных, — имеющих противоположное направление изменчивости. Ширина лба, скуловой диаметр, ширина носа и зигомаксиллярный угол противостоят высоте лица, носа и орбиты, а также симотическому указателю.

Средние значения нагрузок на третью и последующие компоненты в таблице 3 не приводятся, поскольку они оказались слишком подвержены выборочному эффекту. Кроме того, для выборок объемом менее 100 черепов число значимых и «условно значимых» компонент исчерпывается первыми двумя. Выявленные закономерности подтверждены путем анализа случайных выборок из второй модельной группы. Было проведено 10 анализов главных компонент для выборок объемом от 30 до 100 черепов. Во всех случаях нагрузки на первые две главные компоненты находились в пределах размаха изменчивости, установленного для первой модельной группы. Косвенно это свидетельствует о том, что в однородных выборках исследователь вправе ожидать выделения сходной факторной структуры. Важными условиями процедуры установления такого сходства являются: совпадающий набор признаков; оценка значимости ГК; контроль возможного изменения порядка ГК путем сравнения ожидаемых и наблюдаемых нагрузок.

Означает ли это, что метод ГК может быть использован для оценки однородности выборок в спорных случаях или при изучении очевидно неоднородных серий? По-видимому, его применение для этих целей не имеет большого смысла.

С целью проведения такой оценки во вторую модельную выборку были включены несколько

Рис. 1. Размах нагрузок на первые две ГК (50 выборок, от 30 до 200 черепов). Светло-серый — доля изменчивости, устраненная после коррекции случаев изменения порядка ГК II и ГК III Fig. 1. The magnitude of the loadings on the first two PCs (50 samples, consisting of from 30 to 200 skulls). The light gray filling indicates the variability eliminated after correction of random changes in the order of the second and third PCs

десятков саамских черепов из Инари и Утсйоки. Кроме того, для получения более объективной оценки все черепа с неполными данными измерений (включая единичные) были исключены из группы. Из полученной группы извлечено 10 случайных выборок объемом 30 и 50 черепов. Выборки меньшего объема не анализировались, так как они не позволяют получить значимые компоненты.

Проблема заключается в том, что во всех 10 случаях, как и при анализе выборок из первой модельной группы, первая компонента оказывается фактором общего размера, а вторая может считаться лишь условно значимой, так как находится в пределах 95% интервала дис-

Рис. 2. Диаграммы рассеяния для первой ГК и среднего геометрического (GM) 10 линейных признаков в основной модельной группе (слева) и исходной совокупности включенных в нее выборок (справа). Буквой r обозначен коэффициент корреляции

Fig. 2. Scattering diagrams for the 1PC and geometric mean (GM) calculated for 10 linear traits in the main reference group (left) and in the cranial series included in main reference group (right). The letter r denotes the correlation coefficient

Рис. 3. Графики осей первых ГК, рассчитанных для высоты черепа (17) и скуловой ширины (45) в финской (ГК I) и финско-саамской (ГК Г) выборках с разным числом наблюдений. Черные — финские черепа, белые — саамские

Fig. 3. The axes of the first principal components calculated for two traits in the Finns (ГК 1) and Finns-Saami (ГК 1') samples with different numbers of observations. The Finns skulls are marked with black circles, Sami skulls with white circles

персии для набора случайных признаков. Вве- рование данных при помощи непараметриче-дение в анализ информации о дополнительном ского критерия Манна-Уитни позволили разде-признаке (языковой принадлежности) и тести- лить группы черепов по второй компоненте в 9

из 10 случаев*. Однако комбинации нагрузок на вторую главную компоненту либо не выходят за рамки, установленные по результатам анализов 50 выборок из первой («однородной») модельной выборки, либо обнаруживают отличия по случайным признакам, а не только тем, которые дифференцируют исходные совокупности финских и саамских черепов по результатам ^критерия.

Причины, по которым метод ГК не имеет преимуществ перед оценкой исходных показателей, наглядно продемонстрированы на рисунке 3. Возьмем два признака (высотный и скуловой диаметры) из группы параметров, которые хорошо разграничивают обобщенные серии саамов и финнов, и рассчитаем угол наклона оси главной компоненты для разных вариантов анализа. Пусть случайная выборка включает в себя либо только финские, либо финские и саамские черепа, а их суммарное число либо превышает 100, либо составляет 10 на серию. Тогда обнаружится, что разница в углах наклона между осями главных компонент, полученных для выборок разного объема, значительно превышает различия между углами аналогичных осей, рассчитанных отдельно для финской и отдельно для смешанной финско-саамской выборок в каждом из двух случаев. При этом значимые статистические различия между соответствующими коэффициентами корреляции отсутствуют. Только наличие информации о внешнем дифференцирующем признаке позволяет обнаружить ожидаемые для генеральных совокупностей различия.

Таким образом, с одной стороны, по результатам анализа главных компонент в однородных сериях случайные выборки обнаруживают те же закономерности, что и исходные совокупности. С другой стороны, при среднем числе наблюдений в несколь-

* Очевидно, это не единственный способ оценки возможных различий внутри выборки. В отечественных публикациях для этих целей используется также t-критерий, но U-критерий Манна-Уитни дает более консервативную оценку и не предъявляет требований к распределениям. Еще один возможный подход, представляющий собой вариант дисперсионного анализа, был недавно предложен группой американских исследователей [Skalski et al. 2018].

ко десятков черепов анализ механически смешанных серий, происходящих из смежных географических регионов, либо приводит к результату, ожидаемому для однородных групп, либо обнаруживает отклонения в нагрузках по случайным (не связанным с реальными различиями) признакам.

Возможно, при увеличении или изменении набора признаков, переходе к использованию ковариационной матрицы, изменении подхода к оценке однородности можно добиться более эффективного использования метода ГК при оценке однородности групп. Не исключено, что в некоторых случаях лучшего результата можно также достигнуть, если включить в программу анализа только те признаки, которые предположительно дифференцируют предковые популяции исследуемой смешанной выборки, а затем сравнивать результаты, полученные при условии принятия разных гипотез. Несомненно, улучшения можно добиться при многократном увеличении числа наблюдений, что, к сожалению, не зависит от воли исследователя. Так или иначе, результаты свидетельствуют о том, что метод главных компонент, в той его форме, которая наиболее распространена сегодня среди российских краниологов, не имеет очевидных преимуществ перед методами одномерной статистики при оценке однородности серий**.

ЗАКЛЮЧЕНИЕ

Выводы исследования могут быть объединены в три блока.

1. Число значимых главных компонент для некоторого набора краниометрических признаков

** Под сомнение не ставится целесообразность его применения для решения других задач, таких как один из этапов интеграция данных разных систем признаков или суммарная оценка морфологических различий между черепами при проверке конкретных гипотез. Широко распространенный способ визуальной оценки относительного расположения черепов на графиках первых двух ГК, по-видимому, не всегда корректен и должен быть замещен расчетом евклидовых расстояний в пространстве первых нескольких ГК, предварительно подвергнутых стандартизации (см.: [Goodman 1972]).

логично определять с учетом дисперсий ГК, рассчитанных для того же числа признаков, не коррелирующих между собой. Если в анализе собственное число главной компоненты не выходит за рамки 95% доверительного интервала собственного числа той же главной компоненты, рассчитанной для независимых признаков с тем же числом наблюдений, сохраняется высокая вероятность получения случайного результата дифференциации.

2. Можно ожидать, что результаты анализа ГК, полученные для случайной выборки, будут соответствовать результатам, характеризующим генеральную совокупность, только при определенных условиях: объем выборки позволяет получить хотя бы одну значимую компоненту (в случае с рассмотренным набором из 14 признаков требуется около 30 черепов); проводится контроль возможного изменения ожидаемого порядка главных компонент; нагрузки на компоненты оцениваются по знаку коэффициента, а не его величине.

3. Если размер выборки исчисляется десятками, а не сотнями черепов, метод ГК не позволяет надежно определить структуру выборки в условиях отсутствия у исследователя данных о каких-либо дополнительных (некраниометрических) признаках, предположительно дифференцирующих выборку на подгруппы. Может быть выделено две основные причины,

по которым метод главных компонент оказывается неэффективным для оценки однородности краниологических выборок: статистическая и исследовательская. По всей видимости, статистическая причина вариативности результатов заключается в существенном влиянии случайной изменчивости признаков, определяющих угол оси максимальной дисперсии в выборках небольшого объема, с которыми, как правило, и работают краниологи. Все линейные признаки связаны между собой положительной корреляцией, но средняя величина этой связи очень невелика. Многомерный корреляционный эллипсоид данных обладает недостаточно вытянутой формой, чтобы сохранять устойчивость при анализе не-

больших серий. В маленькой выборке достаточно увеличить случайный разброс отдельных параметров одного-двух черепов, чтобы изменить угол оси первой главной компоненты. При этом если нагрузки на первую ГК отличаются от ожидаемых, они обязательно будут отличаться и для второй ГК — парадоксальным образом независимость векторов играет здесь злую шутку. Если к результатам анализа подходить с конкретными ожиданиями, в некоторых случаях можно выявить изменение порядка главных компонент, в других — нет. Иными словами, ортогональные векторы оказываются системой с жесткой конструкцией, целиком реагирующей на случайную изменчивость признаков в выборке.

Исследовательская причина может быть описана по аналогии с аргументами В.Е. Дерябина [Дерябин 1998], использованными им для объяснения некорректности применения метода ГК для межгрупповых сопоставлений. Внутригруп-повая изменчивость смешанных серий включает в себя три разных составляющих:

1. собственно внутригрупповую, обусловленную преимущественно «фактором общего размера»;

2. внутригрупповую, обусловленную случайными вариациями признаков в конкретной выборке;

3. скрытую межгрупповую, разграничивающую предковые популяции исследуемой смешанной серии или обусловленную клинальной изменчивостью территориальных выборок, объединенных в одну серию.

Вопреки интуитивным ожиданиям метод ГК выделяет независимые векторы с последовательно убывающей максимальной дисперсией, но вовсе не разделяет эти составляющие.

Отчасти по этим же причинам неудачной представляется попытка применения анализа главных компонент к анализу морфологической изменчивости черепов в мировом масштабе [Ев-теев, Двуреченский 2017]. По мысли А.А. Евтее-ва, предложенный им подход аналогичен подходу В.Е. Дерябина к анализу схем телосложения, однако сходство ограничивается алгоритмом, но не относится к поставленным задачам. У В.Е. Де-

рябина анализ ГК с обучающей выборкой является способом классификации индивидов. Три главные компоненты интерпретируются как три основных соматических фактора, для каждого индивида классифицирующее значение имеет каждая из компонент, но нет ни разных уровней изменчивости, ни внешних группировок как объектов анализа.

В исследовании А.А. Евтеева метод главных компонент используется в качестве приема анализа внутри- и межгрупповой изменчивости в общем поле, что на первый взгляд является хорошим решением для контроля внутригрупповых корреляций межгрупповыми. Однако основные векторы внутригрупповой изменчивости выборок, вероятнее всего, не совпадают между собой полностью, и, несомненно, они не соответствуют направлениям межгрупповых различий. Подчинение распределения выборочных данных жестко закрепленной системе векторов, полученных для «обучающей выборки», включающей в себя черепа из разных частей света, никак не решает этой проблемы. Не ясно, какой морфологический смысл имеет ортогональность полученных главных компонент, если признаки связаны разными корреляциями на физиологическом и межгрупповом уровнях. Не очевиден ответ на вопрос, что именно для «обучающей выборки» выражает порядок главных компонент, дисперсии которых определяются одновременно индивидуальной вариабельностью черепов и межпопуляционной изменчивостью признаков. Наконец, нет никаких оснований полагать, что тот комплекс признаков, который в наилучшей степени дифференцирует интересующие исследователя совокупности объектов (выделяемые по не учитываемым в анализе напрямую территориальным, этническим, расовым признакам), при таком подходе вообще окажется значимым хотя бы для одной из ГК.

Скрытое расхождение между тем результатом, который мы хотели бы получить от главных компонент, и той информацией, которую метод может предоставить нам в реальности, — одна из основных причин неудач в применении как указанного подхода, так и попыток изучения не-

однородных выборок. Метод ГК — способ оптимального сокращения числа переменных, однако он не является методом выявления комплексов краниометрических признаков, имеющих реальный генетический или морфологический смысл. Он не только не облегчает интерпретацию наблюдаемой внутригрупповой изменчивости, напротив, иногда вынуждает исследователя искать правдоподобное объяснение картине случайного распределения данных.

Как подчеркивает выдающийся специалист в области современной биометрии Фред Бук-стейн, мы плохо осознаем, что метод ГК почти никогда не соответствует целям исследовательских задач в антропологии, часто не требующих ни учета максимальной дисперсии всего множества используемых признаков, ни некоррелированности векторов [Bookstein 2017]. Задача внутри-группового анализа краниологической выборки не может заключаться в выделении «группы признаков с максимальными нагрузками» и должна четко формулироваться в каждом конкретном случае. Она нуждается в историческом и археологическом контексте и в гипотезах, которые могут быть сформулированы на языке статистики и справедливость которых краниологический материал позволяет оценить. Она также требует информации о внешних (некраниометрических) признаках, которые могут быть использованы при попытках выявить «скрытую» структуру выборки. В конечном счете не существует никакого смысла ни в оценке однородности выборок, ни в использовании статистических методов, если исследователь не может дать полученным результатам обоснованную интерпретацию, выходящую за пределы собственно краниологического анализа. В XXI в. у формального подхода к краниометрическим данным нет перспектив.

БЛАГОДАРНОСТИ

Приношу искреннюю признательность А.А. Евтееву и А.Г. Козинцеву за ценные замечания, высказанные ими при знакомстве с первоначальным вариантом публикации.

СПИСОК ЛИТЕРАТУРЫ

Алексеев, Дебец 1964. Алексеев В.П., Дебец Г.Ф. Краниометрия. Методика антропологических исследований. — М.: Наука, 1964. — 128 с.

Дебец 1948. Дебец Г.Ф. Палеоантропология СССР. — М., 1948. — 392 с. (Труды Института этнографии АН СССР. Новая серия. Т. IV).

Дерябин 1998. Дерябин В.Е. О методиках многомерного таксономического анализа в антропологии. Канонический анализ против главных компонент // Вестник антропологии. — Вып. 4. — 1998. — С. 30-67.

Дерябин 2005. Дерябин В.Е. Краткий справочник по решению типовых задач биометрической обработки антропологических данных. Депонент МГУ (М.). — [Б. м.: б. и.], 2005. — 247 с.

Евтеев, Двуреченский 2017. Евтеев А.А., Двуре-ченский О.В. Краниологическая изменчивость русского сельского населения XVI-XIX веков в координатах «мировых» главных компонент // АЭАЕ. — 2017. — Т. 45. — № 4. — С. 143-151.

Ефимова 1991. Ефимова С.Г. Палеоантропология Поволжья и Приуралья. — М.: Изд-во МГУ, 1991. — 95 с.

Козинцев 1977. Козинцев А.Г. Антропологический состав и происхождение населения тагарской культуры. — Л.: Наука, 1977. — 144 с.

Козинцев 2016. Козинцев А.Г. О некоторых аспектах статистического анализа в краниометрии // Рад-ловский сборник: научные исследования и музейные проекты МАЭ РАН в 2015 году. — СПб.: МАЭ РАН, 2016. — С. 381-390.

Миклашевская 1959. Миклашевская Н.Н. Краниология киргизов // Труды Киргизской археолого-этнографической экспедиции. Т. II. — Фрунзе, 1959. — С. 266-294.

Рогинский 1954. Рогинский Я.Я. Величина изменчивости измерительных признаков черепа и некоторые закономерности их корреляции у человека // Ученые записки МГУ Вып. 166. — М.: Изд-во МГУ, 1954. — С. 57-92.

Рогинский 1962. Рогинский Я.Я. Закономерности связей между признаками в антропологии // СЭ. — 1962. — № 5. — С. 15-29.

Хартанович 1995. Хартанович В.И. Материалы к краниологии финнов // Антропология сегодня. Вып. 1. — СПб., 1995. — С. 71-89.

Широбоков 2016. Широбоков И.Г. Насколько серьезное влияние оказывают межисследовательские расхождения на результаты краниологических

исследований? (некоторые итоги семинара по коннексии краниометрических признаков в МАЭ РАН) // Вестник Московского университета. Серия XXIII. Антропология. — 2016. — № 3. — С. 36-48.

Широбоков и др. 2017. Широбоков И.Г., Моисеев В.Г., Козинцев А.Г., Хартанович В.И. Чистов Ю.К., Громов А.В. Индивидуальные краниометрические данные близких к современности групп населения Восточной и Северо-Восточной Европы [Электронный ресурс]. СПб.: МАЭ РАН, 2017. URL: http://camera-praehistorica.kunstkamera.ru/ files/camera_praehistorica/ee_craniometric_database/ ee_craniometric_database_rus.pdf. (Дата обращения: 15.03.2020.)

Ярхо 1934. Ярхо А.И. О некоторых вопросах расового анализа // Антропологический журнал. — 1934. — № 3. — С. 43-76.

Ярхо 1947. Ярхо А.И. Алтае-саянские тюрки. Антропологический очерк. — Абакан: Хакасское областное национальное изд-во, 1947. — 148 с.

Berner 2011. Berner D. Size correction in biology: how reliable are approaches based on (common) principal component analysis? // Oecologia. — 2011. — Vol. 166. — No. 4 — P. 961-971.

Bjorklund 2019. Bjorklund M. Be Careful with Your Principal Components // Evolution. — 2019. — Vol. 73. — No. 10. — P. 2151-2158.

Bookstein 2017. Bookstein F.L. A Method of Factor Analysis for Shape Coordinates // American Journal of Physical Anthropology. — 2017. — Vol. 164. — No. 2. — P. 221-245.

González-José et al. 2004. González-José R., Van der Molen S., González-Pérez E., Hernández M. Patterns of Phenotypic Covariation and Correlation in Modern Humans as Viewed from Morphological Integration // American Journal of Physical Anthropology. — 2004. — Vol. 123. — No. 1. — P. 69-77.

Goodman 1972. Goodman M.M. Distance Analysis in Biology // Systematic Zoology. — 1972. — Vol. 21. — № 2. — P. 174-186.

Page 1976. Page J.W. A Note on Interobserver Error in Multivariate Analyses of Populations // American Journal of Physical Anthropology. — 1976. — Vol. 44. — No. 3. — P. 521-526.

Pearson 1903. Pearson K. Craniological Notes: Homogeneity and Heterogeneity in Collections of Crania // Bi-ometrika. — 1903. — Vol. 2. — No. 3. — P. 345-347.

Peres-Neto et al. 2003. Peres-Neto P.R., Jackson D.A., So-mers K.M. Giving Meaningful Interpretation to Ordination Axes: Assessing Loading Significance in Principal Component Analysis // Ecology. — 2003. — Vol. 84. — No. 9. — P. 2347-2363.

Shaukat et al. 2016. Shaukat S.S., Rao T.A., Khan M.A. Impact of Sample Size on Principal Component Analysis Ordination of an Environmental Data Set: Effects on Eigenstructure // Ekólogia (Bratislava). — 2016. — Vol. 35. — No. 2. — P. 173-190.

Skalski et al. 2018. Skalski J.R., Richins S.M., Townsend R.L. A statistical test and sample size recommendations for comparing community composition following PCA // Plos ONE. — 2018. — Vol.13(10): e0206033. — https://doi.org/10.1371/journal.pone.0206033

REFERENCES

Alekseev, V.P., Debets, G.F., Kraniometriia. Metodika an-tropologicheskikh issledovanii [Craniometry. Methods of Anthropological Investigations], Moscow: Nauka Publ., 1964, 128 p., (in Russian).

Debets, G.F., Paleoantropologiia SSSR [Paleoanthropology of the USSR], Moscow, 1948, 392 p., (in Russian).

Deriabin, V.E., O metodikakh mnogomernogo takso-nomicheskogo analiza v antropologii. Kanonicheskii analiz protiv glavnykh component [On Methods of Multitivariate Taxonomic Analysis in Anthropology: Canonical Analysis Versus Principal Components], Vestnik antropologii, 1998, vol. 4, pp. 30-67, (in Russian).

Deriabin, V.E., Kratkii spravochnik po resheniiu tipovykh zadach biometricheskoi obrabotki antropologicheskikh dannykh [A Brief Guide to Solving Typical Problems of Biometric Processing of Anthropological Data], Moscow: VINITI Publ., 2005, 247 p., (in Russian).

Evteev, A.A., Dvurechensky, O.V., Intragroup Variation of the Facial Skeleton in 16th-19th Century Rural Russian Populations in the Worldwide Context: a Principal Component Analysis, Archaeology, Ethnology & Anthropology of Eurasia, 2017, vol. 45, no. 4, pp. 143-151.

Efimova, S.G., Paleoantropologiia Povolzh'ia i Priural'ia [Paleoanthroplogy of Volga and Pre-Urals Region], Moscow: MGU Publ., 1991, 95 p., (in Russian).

Kozintsev, A.G., Antropologicheskii sostav i proiskhozhdenie naseleniia tagarskoi kul'tury [Anthropological Composition and Origin of the Tagar Culture Population], Leningrad: Nauka Publ., 1977, 144 p., (in Russian).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Taleb 2019. Taleb N.N. The Statistical Consequences of Fat Tails. Real World Preasymptotics, Epistemology, and Applications. — [New-York]: STEM Academic Press, 2019. — 446 p. (Technical Incerto Collection. Vol. 1).

Utermohle et al. 1983. Utermohle C.J., Zegura S.L., Heathcote G.M. Multiple Observers, Humidity, and Choice of Precision Statistics: Factors Influencing Craniometric Data Quality // American Journal of Physical Anthropology. — 1983. — Vol. 61. — No. 1. — P. 85-95.

Vieira 2012. Vieira V.M.N.C.S. Permutation Tests to Estimate Significances on Principal Components Analysis // Computational Ecology and Software. — 2012. — Vol. 2 — No. 2. — P. 103-123.

Kozintsev, A.G., O nekotorykh aspektakh statistichesko-go analiza v kraniometrii [On Some Aspects of Statistical Analysis in Craniometry], in: Radlovskii sbornik. Nauchnye issledovaniia i muzeinye proekty MAE RAN v 2015 godu, St. Petersburg: MAE RAN Publ., 2016, pp. 381-390, (in Russian).

Miklashevskaia, N.N., Kraniologiia kirgizov [Craniol-ogy of Kyrgyz], in: Trudy Kirgizskoi arkheologo-et-nograficheskoi ekspeditsii, Frunze, 1959, vol. 2, pp. 266294, (in Russian).

Roginskii, Ia.Ia., Velichina izmenchivosti izmeritel'nykh priznakov cherepa i nekotorye zakonomernosti ikh korreliatsii u cheloveka [The Variability of the Quantitative and Metric Cranial Traits and Some Regularities of the Correlations in Humans], in: Uchenye zapiski Moscovskogo gosudarstvennogo universiteta, vol. 166, Moscow: MGU Publ., 1954, pp. 57-92, (in Russian).

Roginskii Ia.Ia., Zakonomernosti sviazei mezhdu priz-nakami v antropologii [The Regularities of Correlations Between Traits in Physical Anthropology], Sovet-skaia etnografiia, 1962, no. 5, pp. 15-29, (in Russian).

Khartanovich, V.I., Materialy k kraniologii finnov [Materials to Craniology of Finns], Antropologiia segodnia, vol. 1, St. Petersburg: MAE RAN Publ., 1995, pp. 7189. (in Russian).

Shirobokov, I.G., Naskol'ko ser'eznoe vliianie okazyvaiut mezhissledovatel'skie raskhozhdeniia na rezul'taty kra-niologicheskikh issledovanii? (nekotorye itogi seminara po konneksii kraniometricheskikh priznakov v MAE RAN) [How Serious is an Effect of Interobserver Errors on Conclusions of Craniological Studies? (Some

Results of the Workshop on Craniometric Consistency in Peter the Great Museum of Anthropology and Ethnography)], Vestnik Moskovskogo universiteta. Seriia XXIII. Antropologiia, 2016, no. 3, pp. 36-48, (in Russian).

Shirobokov, I.G., Moiseev, V.G., Kozintsev, A.G., Khar-tanovich, V.I. Chistov, Y.K., Gromov, A.V., (2017), Individual'nye kraniometricheskie dannye blizkikh k sovre-mennosti grupp naseleniia Vostochnoi i Severo-Vostoch-noi Evropy. Elektronny resurs [Craniometric Database on Modern Populations of Northeastern Europe. Electronic edition], (Online), Available from http://camera-prae-historica.kunstkamera.ru/files/camera_praehistorica/ ee_craniometric_database/ee_craniometric_database_ rus.pdf (Accessed: 15.03.2020), (in Russian).

Iarkho, A.I., O nekotorykh voprosakh rasovogo analiza [On Some Issues of Analysis of Race], Antropolog-icheskii zhurnal, 1934, no. 3, pp. 43-76, (in Russian).

Iarkho, A.I., Altae-Saianskie tiurki (antropologicheskii ocherk) [Altai-Sayan Turks (Anthropological Essay)], Abakan: Khakasskoe oblastnoe natsional'noe izdatel'stvo Publ., 1947, 148 p., (in Russian).

Berner, D., Size Correction in Biology: How Reliable Are Approaches Based on (Common) Principal Component Analysis?, Oecologia, 2011, vol. 166, no. 4, pp. 961-971.

Bjorklund, M., Be Careful with Your Principal Components, Evolution, vol.73, no. 10, pp. 2151-2158.

Bookstein, F.L., A Method of Factor Analysis for Shape Coordinates, American Journal of Physical Anthropology, 2017, vol. 164, no. 2, pp. 221-245.

González-José, R., Van der Molen, S., González-Pérez, E., Hernández, M., Patterns of Phenotypic Covariation and Correlation in Modern Humans as Viewed from Morphological Integration, American

Journal of Physical Anthropology, 2004, vol. 123, no. 1, pp. 69-77.

Goodman, M.M., Distance Analysis in Biology, Systematic Zoology, 1972, vol. 21, no. 2, pp. 174-186.

Page, J.W., A Note on Interobserver Error in Multivariate Analyses of Populations, American Journal of Physical Anthropology, 1976, vol. 44, no. 3, pp. 521-526.

Pearson, K., Craniological Notes: Homogeneity and Heterogeneity in Collections of Crania, Biometrika, 1903, vol. 2, no. 3, pp. 345-347.

Peres-Neto, P.R., Jackson, D.A., Somers, K.M., Giving Meaningful Interpretation to Ordination Axes: Assessing Loading Significance in Principal Component Analysis, Ecology, 2003, vol. 84, no. 9, pp. 2347-2363.

Shaukat, S.S., Rao, T.A., Khan, M.A., Impact of Sample Size on Principal Component Analysis Ordination of an Environmental Data Set: Effects on Eigenstructure, Ekologia (Bratislava), 2016, vol. 35, no. 2, pp.173-190.

Skalski, J.R., Richins, S.M., Townsend, R.L., A Statistical Test and Sample Size Recommendations for Comparing Community Composition Fllowing PCA, Plos ONE, 2018, vol. 13(10): e0206033, doi.org/10.1371/ journal.pone.0206033.

Taleb, N.N., The Statistical Consequences of Fat Tails. Real World Preasymptotics, Epistemology, and Applications, New-York: STEM Academic Press, 2019, 446 p.

Utermohle, C.J., Zegura, S.L., Heathcote, G.M., Multiple Observers, Humidity, and Choice of Precision Statistics: Factors Influencing Craniometric Data Quality, American Journal of Physical Anthropology, 1983, vol. 61, no. 1, pp. 85-94.

Vieira, V.M.N.C.S., Permutation Tests to Estimate Significances on Principal Components Analysis, Computational Ecology and Software, 2012, vol. 2, no. 2, pp. 103-123.

i Надоели баннеры? Вы всегда можете отключить рекламу.