https://doi.org/10.20874/2071-0437-2023-62-3-11
УДК 572.08
Широбоков И.Г.
МАЭ РАН, Университетская наб., 3, Санкт-Петербург, 199034
E-mail: [email protected]
ОБ ИСПОЛЬЗОВАНИИ КОЛЛЕКЦИЙ С НЕДОСТОВЕРНО УСТАНОВЛЕННЫМИ ПОЛОВОЗРАСТНЫМИ ХАРАКТЕРИСТИКАМИ ПРИ ОБУЧЕНИИ МОДЕЛЕЙ ДЛЯ ОПРЕДЕЛЕНИЯ ПОЛА ПО ПРИЗНАКАМ СТАНДАРТНОЙ КРАНИОМЕТРИЧЕСКОЙ ПРОГРАММЫ
Проведена оценка эффективности четырех статистических методов, предназначенных для определения пола по черепу и обученных на материалах археологических раскопок. Доля точных классификаций, полученных по результатам использования разных методов, приблизительно одинакова и соответствует средним результатам по опубликованным данным. Выделена группа краниометрических признаков, выделяющихся наибольшей эффективностью во всех моделях. Показано, что межисследовательские расхождения в измерениях незначительно снижают точность определений.
Ключевые слова: определение пола, краниометрические признаки, дискриминантный анализ, метод опорных векторов, логистическая регрессия, случайный лес, методы машинного обучения.
Введение
За последние 20 лет было опубликовано более ста работ, посвященных различным методам установления пола по черепу, и интерес к этой теме, кажется, только возрастает — в первую очередь благодаря расширению арсенала доступных инструментов статистического анализа данных, в том числе внедрения в исследовательскую практику методов машинного обучения. С одной стороны, традиционный взгляд на череп как носитель важнейших половых индикаторов, дифференцирующая способность которых уступает лишь признакам таза, не находит сегодня подтверждения. В действительности анализ многих элементов посткраниального скелета может быть более эффективным для решения этой задачи [Spradley, Jantz, 2011; Jantz, Ousley, 2020]. С другой стороны, старейшие коллекции многих антропологических музеев и институтов составляют именно краниологические серии, в том числе серии с задокументированным полом и возрастом. Кроме того, исследователи нередко вынуждены работать с неполными скелетами, а некоторые дифференцирующие пол признаки неплохо поддаются фиксации и на черепах плохой сохранности.
Основными подходами к определению пола по признакам черепа остаются визуальная оценка и формализованный анализ морфологических признаков. Морфометрический анализ предполагает измерение комплекса признаков, характеризующих форму и размеры черепа, как в рамках традиционной краниометрической программы, так и при помощи набирающих популярность методов геометрической морфометрии [Giles, Elliot, 1963; Abdel Fatah et al., 2014; Santos et al., 2014; Musilova et al., 2016; Constantinou, Nikita, 2022; и др.]. Полученные характеристики затем обрабатываются при помощи различных статистических методов, а некоторые подходы не требуют даже проведения измерений со стороны человека, что позволяет исключить из анализа погрешности, обусловленные внутри- и межисследовательской ошибкой [Arigbabu et al., 2017].
Морфометрический анализ, основанный на конкретных измерениях черепа, обычно считается более точным, чем визуальная оценка, но последняя также может быть формализованной. В этом случае оценка морфологических признаков становится первым этапом анализа, за которым следует либо субъективная оценка половой принадлежности по комплексу признаков, либо их статистическая обработка в рамках одной из множества методик. Пожалуй, наибольшее распространение получил комплекс пяти признаков, оцениваемый в пятибалльной системе и включающий в себя оценку развития надбровья, верхнего края орбиты, затылочного бугра, величины сосцевидных отростков и степени развития подбородочного выступа. Для оценки пола по различным комбинациям этих признаков предложено несколько дискриминантных функций [Walker, 2008; Lewis, Garvin, 2016]. Существуют и программы визуальной оценки пола по черепу, охватывающие множество признаков. В отечественной практике хорошо известна методика,
предложенная В.Н. Звягиным и охватывающая 40 краниоскопических признаков, оцениваемых в бинарной системе [Звягин, 1983; Соловьев и др., 2021].
Разброс оценок эффективности разных методов весьма велик. Методы, основанные на визуальной оценке признаков, нередко критикуют за субъективность и плохую воспроизводимость из-за существенного влияния межисследовательских расхождений в определении признаков и межгрупповой изменчивости последних [Lewis, Garvin, 2016; Williams, Rogers, 2006; Walrath et al., 2004]. Эффективность моделей, обученных в рамках краниометрической программы, также нередко оказывается заметно сниженной — преимущественно при попытке из применения к группам иного происхождения. Межгрупповая изменчивость как абсолютных значений признаков, так и уровня полового диморфизма, по всей видимости, является одним из ключевых факторов эффективности моделей. В большинстве исследований авторы опираются на анализ выборок локального населения, представленного сериями черепов с документально подтвержденным полом и возрастом [Soficaru et al., 2014; Musilova et al., 2016; Oikonomopoulou et al., 2017], однако некоторые авторы не оставляют попыток создания универсального метода. Существует несколько работ, в которых представлены результаты применения методов машинного обучения к большому набору данных, включающих измерения групп различного происхождения (по материалам У. Хауэллса). По данным самих авторов, модели демонстрируют эффективность, сопоставимую с эффективностью моделей, обученных на региональных данных [Del Bove, Veneziano, 2022; Kelley, Tallmann, 2022; Constantinou, Nikita, 2022]. Теоретически полученные модели можно использовать для оценки пола в любой группе без предварительного знания происхождения группы/индивида, хотя это утверждение требует проверки, что признают и сами исследователи.
В целом неучтенная межгрупповая изменчивость признаков, внутри- и межисследовательские ошибки измерений, недостоверная информация о поле в обучающей выборке, проблема заполнения недостающих значений признаков — это основные источники статистического шума, которые могут негативно повлиять на эффективность моделей. Логично стремление всякого исследователя полностью исключить или минимизировать влияние этих факторов на результаты еще до этапа обучения модели.
Основной целью настоящего исследования является анализ влияния одного из возможных факторов шума, которому до настоящего времени уделялось недостаточно внимания, а именно оценка относительной эффективности различных моделей, обученных на материалах с незадокумен-тированным полом (т.е. содержащих ошибки в определениях), при работе с признаками стандартной краниометрической программы. В рамках исследования были поставлены следующие задачи:
— сравнительная оценка эффективности разных моделей в предсказании субъективных исследовательских оценок пола;
— сравнительная оценка эффективности разных моделей собственно в предсказании пола;
— оценка влияния возможных межисследовательских расхождений в измерении признаков на эффективность моделей.
Материалы и методы
Обработка данных, обучение, валидация и тестирование моделей были реализованы на языке Python (библиотека scikit-learn) [Pedregosa et al., 2011]. Для классификации черепов были использованы четыре метода: дискриминантный анализ, логистическая регрессия, случайный лес и метод опорных векторов. C подробным описанием и разбором практического применения алгоритмов можно ознакомиться на сайте авторов библиотеки: http://scikit-learn.sourceforge.net. Кратко остановимся на описании методов.
Линейный дискриминантный анализ (LDA) — старейший метод уменьшения размерности данных и классификации, чаще других используемый для установления пола по признакам черепа и посткраниального скелета [Giles, Elliot, 1963; Walker, 2008; Abdel Fatah et al., 2014; Soficaru et al., 2014; и др.]. На основе анализа многомерных распределений признаков, установленных для каждого пола, вычисляются параметры, которые наилучшим образом их разделяют. Условия корректного применения метода требует нормального распределения признаков внутри классов и отсутствия выбросов.
Заметно реже исследователи используют для классификации черепов по полу логистическую регрессию (LR) [Walker, 2008; Oikonomopoulou et al. 2017; Kelley, Tallman, 2022]. Суть метода заключается в оценке взаимосвязи между входными функциями и бинарным результатом путем моделирования логарифмических шансов результата как линейной комбинации входных функций. Затем эта линейная модель преобразуется логистической функцией для получения
прогнозируемой вероятности результата. Объект относится к тому классу, для которого предсказана наибольшая вероятность.
Случайный лес (RF) — метод машинного обучения, который широко используется в задачах классификации и обеспечивает высокую точность и устойчивость к переобучению. Однако в решении поставленной задачи он практически не использовался до настоящего времени (редкое исключение представляет сравнительное исследование [Constantinou, Nikita, 2022]). Его основа — ансамбль деревьев принятий решений. При построении случайного леса выбирается случайное подмножество признаков для каждого дерева, обеспечивающее разнообразие моделей. Каждое дерево строится на основе случайного выбора подмножества обучающих данных. Классификация новых объектов проводится путем пропускания их через каждое дерево в лесу. Каждое дерево возвращает свой прогноз, а окончательное решение о классе объекта основывается на прогнозе наибольшего количества деревьев.
Метод опорных векторов (SVM) — один из самых мощных алгоритмов машинного обучения, используемый для решения задач классификации, в том числе в антропологии [Musilová et al., 2016; Santos et al., 2014]. SVM строит гиперплоскость в многомерном пространстве, которая разделяет объекты разных классов таким образом, чтобы максимизировать расстояние между классами и минимизировать ошибки классификации. Для этого метод выбирает опорные вектора — объекты, которые по своим характеристикам находятся ближе всего к границе между классами. Гиперплоскость выбирается с тем условием, чтобы минимизировать ошибку классификации на опорных векторах и максимизировать расстояние между гиперплоскостью и опорными векторами.
Для обучения и валидации моделей были использованы измерения нескольких краниологических серий русских XVII-XVIII вв., измеренные и опубликованные В.П. Алексеевым [1969]. Индивидуальные данные приведены в сводке [Широбоков и др., 2017]. Использовались данные измерений тех черепов, которые происходили из материалов раскопок кладбищ с территории европейской части России и пол которых был определен В.П. Алексеевым на основе визуальной оценки морфологических особенностей черепа. Среди черепов преобладают мужские, поэтому для выравнивания соотношения полов из анализа были исключены некоторые мужские черепа, отличающиеся неполной сохранностью. При обучении моделей не учитывались также черепа обоего пола с экстремальными значениями признаков, выходящими за пределы трех стандартных отклонений от среднего. Соответствующие расчеты производились отдельно для обобщенных мужской и женской выборок. Недостающие значения были заполнены средними величинами признаков, рассчитанными с учетом предполагаемого пола. Всего в окончательную выборку вошли 258 черепов: 137 мужских и 121 женский. Таким образом, соотношение полов примерно соответствует равному (57:43).
Для оценки эффективности моделей использовалась сборная серия русских с задокументированным полом и возрастом, находящаяся на хранении в фондах МАЭ РАН и также измеренная В.П. Алексеевым. Черепа были переданы в Кунсткамеру из Военно-медицинской академии известным российским анатомом К.З. Яцутой в 1911-1914 гг. В музее они зарегистрированы в составе нескольких коллекций (№ 1830, 1831, 1989, 2222, 2282, 2303). Черепа принадлежали уроженцам различных регионов европейской части России, в том числе Витебской, Вологодской, Воронежской, Выборгской, Калужской, Костромской, Новгородской, Петербургской, Псковской, Смоленской, Тверской и Ярославской губерний. Возраст умерших колеблется от 18 до 70 лет, средний возраст составляет 42 года. Всего в составе коллекций зарегистрировано 105 черепов русских. В архиве МАЭ РАН сохранились измерения 99 черепов, проведенные В.П. Алексеевым, из которых 89 принадлежали мужчинам и 10 женщинам. Эта серия и составила тестовую выборку.
Само исследование было разделено на несколько этапов.
На первоначальном этапе в анализ были включены измерения 33 стандартных краниометрических признака (№№ по Мартину и др.): 1, 8, 17, 5, 9, 11, 12, 45, 40, 48, 43, 46, 62, 55, 54, 51, 52, DC, DS, SC, SS, FC, 77, Zzm', 32, Zg-m, 72, 73, 74, 75(1), ширина скуловой кости, высота изгиба скуловой кости [Алексеев, Дебец, 1964]. Признаки нижней челюсти в расчет не принимались, поскольку, хотя В.П. Алексеев и учитывал их в своей программе, в значительном числе случаев челюсти не сохранились. Перед обучением моделей все признаки были подвергнуты нормированию: их изменчивость приведена к диапазону от 0 до 1. Для оценки эффективности модели использовались два показателя: 1) доля корректно классифицированных по полу черепов относительно числа всех проведенных классификаций; 2) доля корректно классифицированных черепов конкретного пола относительно всех черепов данного пола в выборке. Введе-
ние второго признака обусловлено как необходимостью отслеживать возможное систематическое смещение в корректной оценке пола моделями, так и спецификой состава тестовой выборки, в которой полностью преобладают мужские черепа. Эффективность моделей, полученных при помощи разных методов, оценивалась путем сравнения средней доли показателей по результатам k-блочной кросс-валидации на пяти случайно отобранных блоках данных. Каждый из блоков поочередно исключался из обучения и выступал в качестве тестовой выборки. Затем доли точных классификаций усреднялись, а также рассчитывалось стандартное отклонение (выступающее в качестве показателя склонности моделей к переобучению).
На следующем этапе проводилась оптимизация набора признаков путем оценки вклада каждого признака в рамках каждой из моделей. Из числа десяти признаков, обладающих максимальной дифференцирующей способностью в рамках каждой из моделей, был выделен комплекс из пяти признаков, состав которых совпал во всех четырех моделях (но сам порядок признаков варьирует между моделями). Затем были проведены повторное обучение и валидация моделей. После сравнения эффективности моделей по результатам кросс-валидации и перед их применением к материалам тестовой выборки модели логистической регрессии, случайного леса и метода опорных векторов были оптимизированы путем настройки гиперпараметров при помощи функции GridSearchCV. Гиперпараметры — это настраиваемые параметры, позволяющие вносить изменения в процесс обучения модели, имеющие свою специфику у каждого метода машинного обучения (с подробной информацией читатель может ознакомиться на сайте авторов библиотеки scikit-learn: http://scikit-learn.sourceforge.net).
На третьем этапе оптимизированные модели, обученные по набору из пяти признаков, были применены к тестовой выборке с задокументированным полом, измеренной В.П. Алексеевым, и рассчитаны доли точных классификаций мужских и женских черепов. Значения признаков в выборке предварительно нормировались путем их приведения к масштабу изменчивости признаков в основной выборке.
Наконец, на последнем этапе была протестирована эффективность моделей при работе с данными измерений разных авторов. Для этого автором по программе из пяти признаков были измерены черепа русских, зарегистрированных в составе наиболее крупных из задокументированных коллекции (МАЭ № 1830 и 2222). Всего были измерены 56 мужских и 8 женских черепов и проведено сравнение долей точных классификаций пола, полученных в рамках этой серии по результатам измерений автора и В.П. Алексеева.
Относительная эффективность моделей оценивалась путем сравнения полученных показателей со средней долей точных классификаций, рассчитанной по результатам обзора 80 публикаций и приведенной в разделе «Обсуждение».
Результаты
Основные показатели эффективности обученных моделей в задаче предсказания субъективных оценок пола представлены в табл. 1. Точность разных моделей в прогнозировании оценок пола оказалась приблизительно равной и составила около 88 %, и только модель дискриминант-ного анализа оказалась несколько менее точной (85 %). Во всех случаях присутствует некоторое смещение в оценках по полу. Модели хуже предсказывают случаи, в которых В.П. Алексеев определял пол как мужской, и точнее прогнозируют противоположные оценки.
Таблица 1
Доля корректно спрогнозированных оценок пола, полученная для четырех моделей
по результатам кросс-валидации (%)
Table 1
Proportion of correctly predicted sex estimates, obtained for the four models by cross-validation
Модель Полный набор признаков Пять признаков (1, 40, 43, 45, 75(1))
Все Муж. Жен. Все Муж. Жен.
Дискриминантный анализ 85±3 82 89 87±5 86 88
Логистическая регрессия 88±4 87 89 88±3 89 87
Случайный лес 88±3 87 88 86±3 85 87
Метод опорных векторов 88±2 87 90 88±3 87 89
Сопоставление вклада отдельных признаков в обученные модели позволило выделить комплекс из пяти признаков с максимальной в рамках изученного материала полодифференци-рующей способностью. В их числе: скуловой (45) и продольный (1) диаметры, верхняя ширина лица (43), основание лица (40) и угол выступания носа к линии профиля (75(1)). Во всех случаях
наибольшее значение для классификации имеет скуловой диаметр. Как показывают результаты кросс-валидации, модели, обученные на оптимизированном наборе признаков, сохранили исходный уровень точных классификаций и при этом позволили минимизировать систематическое смещение в точности предсказаний оценок между полами.
В табл. 2 представлены данные о доле точных классификаций, полученные путем применения оптимизированных моделей к тестовой выборке с достоверно установленным полом. Все модели демонстрируют сходную точность классификаций: в среднем пол удалось установить в 88 % случаев. Смещение в точности оценок между полами не зафиксировано. Впрочем, если учесть, что в серии присутствуют всего 10 женских черепов, приходится признать, что смещение невозможно было бы достоверно обнаружить и при значительных различиях в долях точных классификаций. В целом точность моделей в предсказании собственно биологического пола совпала с точностью предсказания оценок пола, установленных по визуально-морфологическим признакам. При этом в рамках оптимизированной программы признаков модели, обученные при помощи методов машинного обучения, не обнаруживают преимуществ перед классическим линейным дискриминантным анализом.
Таблица 2
Доля корректных определений пола в тестовой выборке
Table 2
Proportion of correct sex determinations in the test sample
Модель Доля точных классификаций (%)
Все Муж. Жен.
Дискриминантный анализ 88 88 90
Логистическая регрессия 88 88 90
Случайный лес 87 87 90
Метод опорных векторов 88 88 90
В табл. 3 представлены результаты измерений черепов из коллекции № 1830, проведенных В.П. Алексеевым и автором. Средние размеры серии по данным измерений автора оказались в среднем на 0,7-0,9 мм меньше установленных В.П. Алексеевым. Ожидаемыми являются расхождения в величине угла выступания носа, однако они обнаруживаются и при сопоставлении таких относительно надежных признаков, как продольный и скуловой диаметры. Расхождения обусловлены не только погрешностью собственно измерений, но и субъективными решениями попытаться оценить величину признака в сомнительном случае, установить его приблизительную величину или совсем отказаться от измерения. Ранее было показано, что именно фактор внимательности вносит основной вклад в величину межисследовательской ошибки [Широбоков, 2016].
Таблица 3
Средние значения и ошибка измерения признаков в коллекции черепов МАЭ № 1830 и 2222 по данным измерений В.П. Алексеева и автора
Table 3
Mean values and measurement error in the skull collection no. MAE 1830 and 2222 according to measurements by V.P. Alekseev and the author
Признаки Измерения И.Г. Широбокова Измерения В.П. Алексеева Величина средней ошибки *
Муж. Жен. Муж. Жен. мм %
1 177,8 173,6 178,8 174,4 1,0 0,6
45 132,8 122,3 133,6 122,8 0,8 0,6
40 96,8 92,3 97,4 93,1 1,0 1,1
43 105,1 98,3 105,9 99 0,8 0,8
75(1) 31,3 24,0 32,2 24,9 1,7 5,4
* Средняя ошибка рассчитана как среднее арифметическое разниц по модулю, полученных для каждой пары измерений (случаи, когда признак измерил только один исследователь, не учитывались). В последней колонке приведена величина ошибки относительно средней величины признака.
Измеренные черепа русских отличаются не только по степени сохранности, но и по наличию некоторых возрастных изменений. Так, у многих черепов наблюдается прижизненная утрата зубов и атрофия альвеолярного отростка. Решение «реконструировать» расположение точки простион или отказаться от измерения неизбежно влияет на величину расхождений в величине угла выступания носа и длины основания лица. Скуловые дуги и носовые кости не всегда имеют хорошую сохранность, в некоторых случаях зафиксированы следы заживших переломов, и фиксация необходимых для измерения точек иногда была
просто невозможна без субъективно оцениваемого уровня приемлемой погрешности. Наконец, некоторые черепа распилены в горизонтальной плоскости на уровне выше глабеллы, причем спилы, как правило, сделаны довольно грубо. Это обстоятельство неизбежно увеличило погрешность в измерениях продольного диаметра. Смещение полученных автором значений всех пяти признаков по сравнению с измерениями В.П. Алексеева имеет одно и то же направление: характеристика мужских черепов несколько сдвинулась в сторону «женских» величин. Таким образом, использованный комплекс признаков является хорошим тестовым набором для оценки влияния межисследовательских расхождений.
В табл. 4 представлены результаты применения оптимизированных моделей к черепам из коллекций № 1830 и 2222, значения признаков в ней соответствуют измерениям В.П. Алексеевым и автора. Точность всех четырех моделей оказалась ниже в случае их применения к данным измерений автора, причем эти различия сложились исключительно за счет некорректной оценки нескольких мужских черепов — четырех для модели случайного леса и двух для всех остальных. Проверка показала, что различия в оценках моделей преимущественно обусловлены расхождениями в величине угла выступания носа.
Таблица 4
Доля корректно спрогнозированных оценок пола в коллекции черепов МАЭ № 1830 и 2222, измеренной разными авторами
Table 4
Proportion of correctly predicted sex estimates in the collection of skulls no. MAE 1830 and 2222
measured by different authors
Модель Доля точных классификаций пола (%) по данным измерений В.П. Алексеева Доля точных классификаций пола (%) по данным измерений И.Г. Широбокова
Все Муж. Жен. Все Муж. Жен.
Дискриминантный анализ 89,1 89,3 87,5 85,9 85,7 87,5
Логистическая регрессия 89,1 89,3 87,5 85,9 85,7 87,5
Случайный лес 89,1 89,3 87,5 82,3 82,1 87,5
Метод опорных векторов 89,1 89,3 87,5 85,9 85,7 87,5
Обсуждение
Насколько удовлетворительными можно считать эти результаты? Корректно ответить на этот вопрос можно, сравнив их с результатами, полученными в предшествующих исследованиях. Как показывают результаты обзора 80 публикаций, посвященных оценке эффективности различных методов установления пола по признакам черепа, средняя доля точных классификаций составляет около 86 % (рис. 1)1. Это число является условным из-за методических расхождений в оценке эффективности моделей у разных авторов. В большинстве публикаций эффективность моделей оценивается по результатам проведения кросс-валидации. Некоторые авторы публиковали оценки точности, достигнутые в рамках обучения модели (т.е. очевидно завышенные), тогда как другие тестировали эффективность применения уже существующих моделей к независимым группам, в т.ч. с целью оценки влияния межгрупповых различий. Если принимать в расчет только данные публикаций, в которых проводилась оценка качества моделей на материалах дополнительных тестовых групп, то средняя точность моделей составит всего 79 % [Соловьев и др., 2021; Garvin, Klales, 2017; Oikonomopoulou et al. 2017; Soficaru et al., 2014; и др.].
Средняя доля точных классификаций в случаях, когда тестировались возможности использования незадокументированных коллекций (базы данных У. Хауэллса), составляет 86,6 %. Это число, впрочем, не слишком надежно, поскольку является средним арифметическим для пяти моделей, опубликованным в трех исследованиях [Lescure et al., 2020; Constantinou, Nikita, 2022; Del Bove, Veneziano, 2022]. При этом в четырех из пяти случаев доля точных классификаций рассчитана по результатам кросс-валидации, т.е., строго говоря, позволяет судить об эффективности моделей в предсказании оценок пола антропологом (У. Хауэллсом), а не в предсказании собственно пола. Впрочем, в единственной работе, в которой эффективность модели, обученной на археологическом материале, тестировалась на задокументированном материале, она также составила 86 %.
1
Полный список учтенных публикаций приведен на личной страничке автора на платформе academia.edu. В обзор не попали работы, посвященные анализу дифференцирующей способности отдельных краниометрических признаков или морфологии отдельных элементов (например, сосцевидных отростков или ветвей нижней челюсти). В тех случаях, когда в публикации приводятся результаты тестирования разных наборов признаков, рассмотренных в рамках одного метода, в оценке распределения учитывались максимальные из достигнутых авторами показатели. При использовании нескольких подходов учитывались результаты, достигнутые в рамках каждого из подходов.
50 45 40 35 30 25 20 15 10 5 0
50 55 60 65 70 75 80 85 90 95 100 105 доля корректных классификаций пола (%)
Рис. Распределение доли точных классификаций пола по черепу, полученных при помощи различных методов (обобщенные данные для 115 моделей по материалам 80 публикаций).
Fig. Distribution of the proportion of accurate sex classifications based on skull using various methods (aggregated data for 115 models from 80 publications).
В этом отношении полученные результаты хорошо соответствуют ожидаемым. Модели, обученные на археологическом материале, одинаково хорошо предсказывают как субъективные оценки пола, так и собственно пол,— и их эффективность сопоставима со средней эффективностью моделей, обученных на задокументированных материалах. На первый взгляд этот результат является контринтуитивным, потому что обучающая выборка содержит очевидный изъян, а значит, результаты, основанные на анализе внутри- и межполовой изменчивости признаков, будут неточны.
Предположим, что доля точных определений пола у В.П. Алексеева в археологической выборке соответствует средней доле для случаев субъективно оцениваемого пола по данным обзора публикаций и составляет около 86 %. Результаты кросс-валидации свидетельствуют о том, что трем из четырех моделей удалось добиться правильной (в рамках антропологических оценок) классификации в 88 %. Следовательно, мы вправе ожидать, что при использовании полученных моделей вероятность верного определения пола для случайно взятого черепа из тестовой выборки с задокументированным полом составит всего около 76 % (0,86 * 0,88 = 0,757). Однако это не соответствует результатам, поскольку погрешности в оценках не являются независимыми. Весьма вероятно, что в археологической серии те черепа, пол которых указан неверно из-за исследовательской ошибки, и те черепа, оценку пола которых ни одна из моделей не смогла корректно предсказать, являются пересекающимися множествами. Ошибочно классифицированные черепа характеризуются сходными морфологическими чертами, выходящими за пределы среднего изменчивости признаков у представителей своего пола и сближающими их с протиовоположным. Иными словами, и люди, и модели часто ошибаются в определении пола в одних и тех же случаях.
С этим предположением согласуются неопубликованные результаты воркшопа, проходившего в стенах МАЭ РАН в 2015 г. в рамках конференции «Палеоантропологические и биоархеологические исследования: традиции и новые методики». Исследователям предлагалось оценить пол и возраст 15 случайно отобранных черепов из коллекции № 1830, вошедшей в состав тестовой выборки. В определении пола успели принять участие 17 человек. В двух из трех случаев, когда корректно определить пол смогли менее половины участников, ошибочно идентифицировав мужские черепа как принадлежавшие женщинам, ту же ошибку совершили и все четыре модели. В третьем случае модели корректно оценили череп как принадлежащий мужчине, тогда как 7 участников посчитали его женским. В среднем как участники, так и модели правильно оценили пол в 73-74 % случаев (для 11 из 15 черепов).
Кроме того, сами результаты обзора демонстрируют удивительное сходство в оценках средней доли точных классификаций, полученных путем субъективной визуальной оценки и при помощи статистических методов. В обоих случаях показатель составляет около 86 %. На это можно посмотреть и с другой стороны: в среднем модели так же неэффективны, как и люди, и приходится прикладывать серьезные усилия к отбору признаков и методам их обработки для того, чтобы значительно повысить точность классификаций.
Заключение
Результаты этого исследования можно кратко представить в виде нескольких тезисов:
1. Модели, обученные на данных краниометрических измерений коллекций с незадокумен-тированным полом, в среднем столь же эффективны, как и модели, обученные на сериях чере-
пов с достоверно установленным полом. Вероятно, черепа, пол которых неверно определен антропологом, и те черепа, корректную оценку пола которых смогла установить модель, являются пересекающимися множествами. В обоих случаях ошибочно классифицированные черепа характеризуются сходными морфологическими чертами, выходящими за пределы среднего изменчивости признаков у представителей своего пола и сближающими их с противоположным.
2. Для сохранения приемлемого уровня точности классификаций (т.е. не уступающего среднему) достаточно опираться на анализ пяти краниометрических показателей: 1, 45, 43, 40 и 75(1).
3. В задаче установления пола при работе с признаками стандартной краниометрической программы методы машинного обучения не обнаруживают существенных преимуществ перед дискриминантным анализом. По всей вероятности, близкий уровень эффективности обусловлен небольшим размером анализируемых матриц (как числом признаков, так и числом наблюдений) и преимущественно линейным характером связей между признаками.
4. Межисследовательские расхождения в оценке некоторых признаков (в первую очередь в величине угла выступания носа) могут несколько понизить точность классификаций, обученных на материалах, измеренных другим исследователем. Однако даже с учетом негативного влияния этого фактора средняя точность моделей оказывается сопоставима со средними показателями, полученными по ранее опубликованным данным.
СПИСОК ЛИТЕРАТУРЫ
Алексеев В.П. Происхождение народов Восточной Европы: (Краниологическое исследование). М.: Наука, 1969. 324 с.
Алексеев В.П., Дебец Г.Ф. Краниометрия: Методика антропологических исследований. М.: Наука, 1964. 128 с. Звягин В.Н. Методика краниоскопической диагностики пола человека // Судебно-медицинская экспертиза. 1983. № 3. С. 15-17.
Соловьев К.В., Магдич А.Е., Кириллова М.П. Сравнение результативности отечественных методик определения пола по черепу взрослого человека // Известия Рос. воен.-мед. академии. 2021. T. 40. C. 304-308.
Широбоков И.Г. Насколько серьезное влияние оказывают межисследовательские расхождения на результаты краниологических исследований? (Некоторые итоги семинара по коннексии краниометрических признаков в МАЭ РАН) // Вестник МГУ. Сер. XXIII, Антропология. 2016. Вып. 3. С. 36-48.
Широбоков И.Г., Моисеев В.Г., Козинцев А.Г., Хартанович В.И. Чистов Ю.К., Громов А.В. Индивидуальные краниометрические данные близких к современности групп населения Восточной и Северо-Восточной Европы. Электрон. изд. СПб.: МАЭ РАН, 2017. https://lib.kunstkamera.ru/rubrikator/04/978-5-88431-337-8
Abdel Fatah E.E., Shirley N.R., Jantz R.L., Mahfouz M.R. Improving sex estimation from crania using a novel three-dimensional quantitative method // Journal of Forensic Sciences. 2014. Vol. 59 (3). P. 590-600. https://doi.org/10.1111/1556-4029.12379
Arigbabu O.A., Liao I.Y., Abdullah N., Mohamad Noor M.H. Computer vision methods for cranial sex estimation // IPSJ Transactions on Computer Vision and Applications. 2017. Vol. 9 (1). P. 1-15. https://doi.org/10.1186/s41074-017-0031-6 Constantinou C, Nikita E. SexEst: An open access web application for metric skeletal sex estimation // International Journal of Osteoarchaeology. 2022. Vol. 32 (4). P. 832-844. https://doi.org/10.1002/oa.3109
Del Bove A., Veneziano A. A Generalised Neural Network Model to Estimate Sex from Cranial Metric Traits: A Robust Training and Testing Approach // Applied Sciences 2022. Vol. 12. 9285. https://doi.org/10.3390/app12189285
Garvin H.M., Klales A.R. A validation study of the Langley et al. (2017) decision tree model for sex estimation // Journal of Forensic Sciences. 2017. Vol. 63(4) P. 1243-1251. https://doi.org/10.1111/1556-4029.13688
Giles E., Elliot O. Sex determination by discriminant function analysis of crania // American Journal of Physical Anthropology. 1963. Vol. 21 (1). P. 53-68. https://doi.org/10.1002/ ajpa.1330210108
Jantz R.L., Ousley S.D. Sexual dimorphism variation in Fordisc samples // Sex estimation of the human skeleton: History, Methods, and emerging techniques. 2020. P. 185-200. https://doi.org/10.1016/B978-0-12-815767-1.00012-2
Kelley S.R., Tallman S.D. Population-inclusive assigned-sex-at-birth estimation from skull computed tomography scans // Forensic Science. 2022. Vol. 2. P. 321-348. https://doi.org/10.3390/ forensicsci2020024
Lescure J., Ardevines C., Becerra P., Marrodan M.D. New random generalized linear model for sex determination based on cranial measurements // Archaeological and Anthropological Sciences. 2020. Vol. 12. P. 1-5. https://doi.org/10.1007/s12520-020-01145-8
Lewis C.J., Garvin H.M. Reliability of the Walker cranial nonmetric method and implications for sex estimation // Journal of Forensic Sciences. 2016. Vol. 61 (3). P. 743-751. https://doi.org/10.1111/1556-4029.13013
Musilova B, Dupej J., Veleminska J., Chaumoitre K, Bruzek J. Exocranial surfaces for sex assessment of the human cranium // Forensic Science International. 2016. Vol. 269. P. 70-77. https://doi.org/10.1016/j.forsciint.2016.11.0
Oikonomopoulou E.-K, Valakos E., Nikita E. Population-specificity of sexual dimorphism in cranial and pelvic traits: Evaluation of existing and proposal of new functions for sex assessment in a Greek assemblage // International Journal of Legal Medicine. 2017. Vol. 131 (6). P. 1731-1738. https://doi.org/10.1007/s00414-017-1655-x
Pedregosa F., Varoquaux G., Gramfort A., Michel V., Thirion B., Grisel O., Blondel M., Prettenhofer P., Weiss R, Dubourg V, Vanderplas J., Passos A, Cournapeau D, Brucher M., Perrot M., Duchesnay E. Scikit-learn: Machine learning in python // Journal of Machine Learning Research. 2011. Vol. 12. P. 2825-30.
Santos F., Guyomarc'h P., Bruzek J. Statistical sex determination from craniometrics: Comparison of linear discriminant analysis, logistic regression, and support vector machines // Forensic Science International. 2014. Vol. 245. P. 204.e1-204.e8. http://dx.doi.org/ 10.1016/j.forsciint.2014.10.010
Soficaru A, Constantinescu M., Culea M., IonicS C. Evaluation of discriminant functions for sexing skulls from visually assessed traits applied in the Rainer Osteological Collection (Bucharest, Romania) // Homo. 2014. Vol. 65. P. 464-475. https://doi.org/10.1016/jJchb. 2014.08.004
Spradley M.K., Jantz R.L. Sex estimation in forensic anthropology: skull versus postcranial elements // Journal of Forensic Sciences. 2011. Vol. 56. № 2. P. 289-296. https://doi.org/10.1007/ 978-1-59745-099-7_9
Walker P.L. Sexing skulls using discriminant function analysis of visually assessed traits // American Journal of Physical Anthropology. 2008. Vol. 136. P. 39-50. https://doi.org/10.1002/ajpa.20776
Walrath D.E., Turner P., Bruzek J. Reliability test of the visual assessment of cranial traits for sex determination // American Journal of Physical Anthropology. 2004. Vol. 125. P. 132-137. https://doi.org/10.1002/ajpa.10373
Williams B.A., Rogers T.L. Evaluating the accuracy and precision of cranial morphological traits for sex determination // Journal of Forensic Sciences. 2006. Vol. 51. P. 729-735. https://doi.org/10.1111/j.1556-4029.2006.00177.x
Shirobokov I.G.
Peter the Great Museum of Anthropology and Ethnography Universitetskaya nab., 3, St. Petersburg, 199034, Russian Federation
E-mail: [email protected]
On the use of collections with unreliably determined sex and age characteristics in model training for sex determination by traits of the standard craniometric program
The study is concerned with the feasibility of applying machine-learning methods to determine the sex from craniometric features when working with materials from archaeological excavations. A specific feature of such materials is subjectively estimated sex and age characteristics of individuals. The main object of the analysis was a sample measured by V.P. Alekseev and comprised of 258 crania (137 male and 121 female) characterising Russian population of the European part of Russia in the 17th-18th cc. As a test sample, a group of crania of the Russians with documented sex and age, registered within several collections of the Kunstkamera's repository, also measured by V.P. Alekseev, was used. The series includes 89 male and 10 female skulls, which came to the museum from the Military Medical Academy in 1911-1914 by the effort of the Russian anatomist K.Z. Yatsuta. The models were trained, validated, and tested using four different methods, including discriminant analysis, logistic regression, random forest, and support vector machine. Thirty-three craniometric traits were included in the analysis, from which a group of five features with the highest differentiating ability (Nos. by Martin) — 1, 40, 43, 45, 75(1) — was chosen. When both sets of traits were used for the models commensurable performance indicators were obtained. According to the results of the cross-validation, in 85-88 % of cases, on average, all four models accurately predicted the sex estimates given by V.P. Alekseev. When the models were applied to the test sample, the proportion of accurate classifications did not change and stood at 87-88 %. At the same time, the machine-learning methods did not reveal any noticeable advantages in the level of the classification accuracy over the linear discriminant analysis. In general, the efficiency of the obtained models corresponds to the average value of the indicators calculated from the materials of 80 publications (86 %). It is likely that the crania, whose sex cannot be correctly classified neither by the models nor by visual assessment, constitute overlapping sets, which have some common morphological features assimilating them to individuals of the opposite sex. Application of the models to the skulls of the test sample, re-measured by the author, revealed some deterioration of the model performance indicators in all four cases. The decrease in the proportion of accurate classifications is caused mainly by discrepancies in the estimation of the nasal protrusion angle, as well as subjective errors in the size estimation under insufficient preservation of the crania and partial atrophy of the alveolar process.
Keywords: sex estimation, craniometrics traits, discriminant analysis, support vector machine, logistic regression, random forest, machine learning methods.
REFERENCES
Abdel Fatah, E.E., Shirley, N.R., Jantz, R.L., Mahfouz, M.R. (2014). Improving sex estimation from crania using a novel three-dimensional quantitative method. Journal of Forensic Sciences, 59(3), 590-600. https://doi.org/10.1111/1556-4029.12379
Alekseev, V.P. (1969). The origin of the peoples of Eastern Europe: (Craniological research). Moscow: Nauka. (Rus.).
Alekseev, V.P., Debets G.F. (1964). Craniometry: Methods of anthropological research. Moscow: Nauka. (Rus.).
Arigbabu, O.A., Liao, I.Y., Abdullah, N., Mohamad Noor, M.H. (2017). Computer vision methods for cranial sex estimation. IPSJ Transactions on Computer Vision and Applications, 9(1). 1-15. https://doi.org/10.1186/s41074-017-0031-6
Constantinou, C., Nikita, E. (2022). SexEst: An open access web application for metric skeletal sex estimation. International Journal of Osteoarchaeology, 32(4), 832-844. https://doi.org/10.1002/oa.3109
Del Bove, A., Veneziano, A. (2022). A Generalised Neural Network Model to Estimate Sex from Cranial Metric Traits: A Robust Training and Testing Approach. Applied Sciences, 12, 9285. https://doi.org/10.3390/app12189285
Garvin, H.M., Klales, A.R. (2017). A validation study of the Langley et al. (2017) decision tree model for sex estimation. Journal of Forensic Sciences, 63(4), 1243-1251. https://doi.org/10.1111/1556-4029.13688
Giles, E., Elliot, O. (1963). Sex determination by discriminant function analysis of crania. American Journal of Physical Anthropology, .21(1), 53-68. https://doi.org/10.1002/ ajpa.1330210108
Jantz, R.L., Ousley, S.D. (2020). Sexual dimorphism variation in Fordisc samples. In: Klales A.R. (Ed.). Sex estimation of the human skeleton: History, methods, and emerging techniques. Elsevier Academic Press, Cambridge, 185-200. https://doi.org/10.1016/B978-0-12-815767-1.00012-2
Kelley, S.R., Tallman, S.D. (2022). Population-inclusive assigned-sex-at-birth estimation from skull computed tomography scans. Forensic Science, 2. P, 321-348. https://doi.org/10.3390/ forensicsci2020024
Lescure, J., Ardevines, C., Becerra, P., Marrodan, M.D. (2020). New random generalized linear model for sex determination based on cranial measurements. Archaeological and Anthropological Sciences, 12, 1-5. https://doi.org/10.1007/s12520-020-01145-8
Lewis, C.J., Garvin, H.M. (2016). Reliability of the Walker cranial nonmetric method and implications for sex estimation. Journal of Forensic Sciences, 61(3), 743-751. https://doi.org/10.1111/1556-4029.13013
Musilova, B., Dupej, J., Veleminska, J., Chaumoitre, K., Bruzek, J. (2016). Exocranial surfaces for sex assessment of the human cranium. Forensic Science International, 269, 70-77. https://doi.org/10.1016/j.forsciint.2016.11.0 Oikonomopoulou, E.-K., Valakos, E., Nikita, E. (2017). Population-specificity of sexual dimorphism in cranial and pelvic traits: Evaluation of existing and proposal of new functions for sex assessment in a Greek assemblage. International Journal of Legal Medicine, 131(6), 1731-1738. https://doi.org/10.1007/s00414-017-1655-x
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderpla,s J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., Duchesnay, E. (2011). Scikit-learn: Machine learning in python. Journal of Machine Learning Research. Vol. 12. P. 2825-30.
Santos, F., Guyomarc'h, P., Bruzek, J. (2014). Statistical sex determination from craniometrics: Comparison of linear discriminant analysis, logistic regression, and support vector machines. Forensic Science International, 245, 204.e1-204.e8. http://dx.doi.org/ 10.1016/j.forsciint.2014.10.010
Shirobokov, I.G. (2016). How serious is an effect of inter-observer errors on conclusions of craniological studies? (Some results of the workshop on craniometric consistency in Peter the Great Museum of Anthropology and Ethnography). Vestnik Moskovskogo Universiteta. Seriya 23, Antropologiya, 3, 36-48. (Rus.).
Shirobokov, I.G., Moiseyev, V.G., Kozintsev, A.G., Khartanovich, V.I., Chistov, Yu.K., Gromov, A.V. (2017). Craniometric Database on Modern Populations of Eastern and Northeastern Europe. Electronic publication. St. Petersburg: МАE RAN. https://lib.kunstkamera.ru/rubrikator/04/978-5-88431-337-8 (Rus.).
Soficaru, A., Constantinescu, M., Culea, M., Ionica, C. (2014). Evaluation of discriminant functions for sexing skulls from visually assessed traits applied in the Rainer Osteological Collection (Bucharest, Romania). Homo, 65, 464-475. https://doi.org/10.1016/jJchb. 2014.08.004
Solovyev, K.V., Magdikh, A.E., Kirillova, M.P. (2021). Comparative effectiveness of the national methods of sex determination based on an adult's skull. Izvestia Rossiyskoi voenno-meditsinskoi akademii, 40, 304-308. (Rus.).
Spradley, M.K., Jantz, R.L. (2011). Sex estimation in forensic anthropology: Skull versus postcranial elements. Journal of Forensic Sciences, 56(2), 289-296. https://doi.org/ 10.1007/978-1-59745-099-7_9
Walker, P.L. (2008). Sexing skulls using discriminant function analysis of visually assessed traits. American Journal of Physical Anthropology, 136, 39-50. https://doi.org/10.1002/ ajpa.20776
Walrath, D.E., Turner, P., Bruzek, J. (2004). Reliability test of the visual assessment of cranial traits for sex determination. American Journal of Physical Anthropology, 125, 132-137. https://doi.org/10.1002/ajpa.10373
Williams, B.A., Rogers, T.L. (2006). Evaluating the accuracy and precision of cranial morphological traits for sex determination. Journal of Forensic Sciences, 51, 729-735. https://doi.org/10.1111/j.1556-4029.2006.00177.x
Zvyagin V.N. (1983). Technique of cranioscopic diagnosis of human sex. Sudebno-meditsinskaya eksper-tiza, 3, 15-17 (Rus.).
Широбоков И.Г., https://orcid.ora/0000-0002-3555-7509
Сведения об авторах:
Широбоков Иван Григорьевич, кандидат исторических наук, старший научный сотрудник, Музей антропологии и этнографии им. Петра Великого (Кунсткамера) РАН, Санкт-Петербург. About the authors:
Shirobokov Ivan G., Candidate of Historical Sciences, Senior Researcher, Peter the Great Museum of Anthropology and Ethnography (Kunstkamera) RAS, St. Petersburg.
This work is licensed under a Creative Commons Attribution 4.0 License.
Accepted: 08.06.2023
Article is published: 15.09.2023