Научная статья на тему 'КЛАССИФИКАЦИЯ ВОЗРАСТА В СУДЕБНОЙ МЕДИЦИНЕ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ'

КЛАССИФИКАЦИЯ ВОЗРАСТА В СУДЕБНОЙ МЕДИЦИНЕ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Прочие медицинские науки»

CC BY
161
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СУДЕБНАЯ МЕДИЦИНА / ДИАГНОСТИКА ВОЗРАСТА / ВОЗРАСТНЫЕ ГРУППЫ / МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ / МЕТОДЫ НЕЛИНЕЙНОГО СНИЖЕНИЯ РАЗМЕРНОСТИ

Аннотация научной статьи по прочим медицинским наукам, автор научной работы — Золотенкова Г.В., Рогачев А.И., Пиголкин Ю.И., Эделев И.С., Борщевская В.Н.

Цель работы - оценить возможность установления возраста (возрастной группы) на момент смерти с использованием методов классификации по данным гистоморфометрической характеристики возрастных изменений костной и хрящевой тканей. Материалы и методы. Материалом для исследования послужила база данных, содержащая результаты морфометрических исследований гистологических препаратов костной и хрящевой тканей от 294 паспортизированных трупов лиц мужского пола в возрасте от 10 до 93 лет. Для анализа и классификации данных использованы современные методы машинного обучения: k-NN, SVM, Logistic Regression, Catboost, SGD, Naive Bayes, Random Forest, методы нелинейного снижения размерности (t-SNE и uMAP) и метод рекурсивного исключения признаков (Recursive feature elimination) для отбора признаков. Результаты. Использованные методы (алгоритмы) обеспечили эффективную визуализацию сложного набора данных (76 гистоморфометрических признаков), на основе которой была выявлена кластерная структура части объектов в пространстве признаков, что свидетельствовало о целесообразности построения моделей. В ходе отбора признаков была дана оценка их значимости для диагностики возрастной группы, изучена зависимость качества классификации от размера признакового пространства. Предобработка данных позволила избавиться от шума в данных и оставить наиболее информативные признаки, тем самым ускорить процесс обучения и повысить качество классификации. Установлено, что сокращение признакового пространства является необходимой мерой и не приводит к потере качества классификации. Повторная визуализация данных свидетельствовала о наличии более четкой кластерной структуры в пространстве отобранных признаков. Точность установления отдельных групп - 90%. Это доказывает высокую эффективность использования методов машинного обучения с целью судебно-медицинской диагностики возраста на основе данных гистоморфометрических исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по прочим медицинским наукам , автор научной работы — Золотенкова Г.В., Рогачев А.И., Пиголкин Ю.И., Эделев И.С., Борщевская В.Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AGE CLASSIFICATION IN FORENSIC MEDICINE USING MACHINE LEARNING TECHNIQUES

The aim of the study was to assess the capabilities of age determination (age group) at death using classification techniques by histomorphometric characteristics of osseous and cartilaginous tissue aging. Materials and Methods. The study material was a database containing the findings of morphometric researches of osseous and cartilaginous tissue histologic specimens from 294 categorized male corpses aged 10-93 years. For data analysis and classification we used modern machine learning methods: k-NN, SVM, logistic regression, CatBoost, SGD, naive Bayes, random forest, nonlinear dimensionality reduction methods (t-SNE and uMAP), and recursive feature elimination for feature selection. Results. The used techniques (algorithms) provided effective representation of a complex data set (76 histomorphometric features), allowing to reveal the cluster structure inside the low dimensional feature space, thus fitting the classifier becomes even more reasonable. During feature selection, we estimated their importance for age group classification and studied the relationship between classification quality and the number of features inside the feature space. Data pre-processing made it possible to get rid of noise and keep most informative features, thereby accelerating a learning process and improving the classification quality. Data projection showed more well-defined cluster structure in the space of selected features. The accuracy of establishing certain groups was equal to 90%. It proves high efficiency of machine learning techniques used for forensic age diagnostics based on histomorphometric findings.

Текст научной работы на тему «КЛАССИФИКАЦИЯ ВОЗРАСТА В СУДЕБНОЙ МЕДИЦИНЕ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ»

классификация возрас с использованием методов машинного обучения

DOI: 10.17691/stm2022.14.1.02 УДК 340.6:004.891.3 Поступила 12.08.2021 г.

А.И. Рогачев, аспирант департамента больших данных и информационного поиска факультета компьютерных наук3; научный сотрудник2;

Ю.И. Пиголкин, д.м.н., профессор, член-корреспондент РАН, зав. кафедрой судебной медици научный сотрудник2;

И.С. Эделев, к.м.н., ассистент кафедры судебной медицины4; В.Н. Борщевская, ассистент кафедры судебной медицины5; R. Cameriere, DMD, PhD, Professor, AgEstimation Project6

1Первый Московский государственный медицинский университет им. И.М. Сеченова Минздрава России (Сеченовский университет), ул. Трубецкая, 8/2, Москва, 119991; 2Центр информационных технологий в проектировании РАН, ул. Маршала Бирюзова, 7а, Московская область, Одинцово, 143003;

Национальный исследовательский университет «Высшая школа экономики», Покровский бульвар, 11, Москва, 109028;

"Приволжский исследовательский медицинский университет, пл. Минина и Пожарского, 10/1, Н. Новгород, 603005;

Ставропольский государственный медицинский университет, ул. Мира, 310, Ставрополь, 355017; institute of Legal Medicine, University of Macerata, Macerata, 62100, Italy

Цель работы — оценить возможность установления возраста (возрастной группы) на момент смерти с использованием методов классификации по данным гистоморфометрической характеристики возрастных изменений костной и хрящевой тканей.

Материалы и методы. Материалом для исследования послужила база данных, содержащая результаты морфометрических исследований гистологических препаратов костной и хрящевой тканей от 294 паспортизированных трупов лиц мужского пола в возрасте от 10 до 93 лет. Для анализа и классификации данных использованы современные методы машинного обучения: k-NN, SVM, Logistic Regression, CatBoost, SGD, Naive Bayes, Random Forest, методы нелинейного снижения размерности (t-SNE и uMAP) и метод рекурсивного исключения признаков (Recursive feature elimination) для отбора признаков.

Результаты. Использованные методы (алгоритмы) обеспечили эффективную визуализацию сложного набора данных (76 ги-стоморфометрических признаков), на основе которой была выявлена кластерная структура части объектов в пространстве признаков, что свидетельствовало о целесообразности построения моделей. В ходе отбора признаков была дана оценка их значимости для диагностики возрастной группы, изучена зависимость качества классификации от размера признакового пространства. Предобработка данных позволила избавиться от шума в данных и оставить наиболее информативные признаки, тем самым ускорить процесс обучения и повысить качество классификации. Установлено, что сокращение признакового пространства является необходимой мерой и не приводит к потере качества классификации. Повторная визуализация данных свидетельствовала о наличии более четкой кластерной структуры в пространстве отобранных признаков. Точность установления отдельных групп — 90%. Это доказывает высокую эффективность использования методов машинного обучения с целью судебно-медицинской диагностики возраста на основе данных гистоморфометрических исследований.

Ключевые слова: судебная медицина; диагностика возраста; возрастные группы; методы машинного обучения; методы нелинейного снижения размерности.

Как цитировать: Zolotenkova G.V., Rogachev A.I., Pigolkin Y.I., Edelev I.S., Borshchevskaya V.N., Cameriere R. Age dassification in forensic medicine using machine learning techniques. Sovremennye tehnologii v medicine 2022; 14(1): 15, https://doi.org/10.17691/ stm2022.14.1.02

Для контактов: Золотенкова Галина Вячеславовна, e-mail: zolotenkova.galina@bk.ru

чшшшшт^тчтчшшшшш^тчтчтчшт

Классификация возраста в судебной медицине СТМ I 2022 I том 14 I №1 15

Age Classification in Forensic Medicine Using Machine Learning Techniques

G.V. Zolotenkova, MD, DSc, Professor, Department of Forensic Medicine1; Researcher2;

A.I. Rogachev, PhD Student, Big Data and Information Retrieval School, Faculty of Computer Science3;

Researcher2;

Y.I. Pigolkin, MD, DSc, Professor, Corresponding Member of the Russian Academy of Sciences,

Head of the Department of Forensic Medicine1; Researcher2;

I.S. Edelev, MD, PhD, Assistant, Department of Forensic Medicine4;

V.N. Borshchevskaya, Assistant, Department of Forensic Medicine5;

R. Cameriere, DMD, PhD, Professor, AgEstimation Project6

1 First Moscow State Medical University (Sechenov University), 8/2 Malaya Trubetskaya St., Moscow,

119991, Russia;

2Center for Information Technologies in Engineering of the Russian Academy of Sciences,

7a Marshala Biryuzova St., Moscow Region, Odintsovo, 143003, Russia;

3HSE University, 11 Pokrovsky Boulevard, Moscow, 109028, Russia;

4Privolzhsky Research Medical University, 10/1 Minin and Pozharsky Square, Nizhny Novgorod,

603005, Russia;

5Stavropol State Medical University, 310 Mira St., Stavropol, 355017, Russia;

institute of Legal Medicine, University of Macerata, Macerata, 62100, Italy

The aim of the study was to assess the capabilities of age determination (age group) at death using classification techniques by histomorphometric characteristics of osseous and cartilaginous tissue aging.

Materials and Methods. The study material was a database containing the findings of morphometric researches of osseous and cartilaginous tissue histologic specimens from 294 categorized male corpses aged 10-93 years. For data analysis and classification we used modern machine learning methods: k-NN, SVM, logistic regression, CatBoost, SGD, naive Bayes, random forest, nonlinear dimensionality reduction methods (t-SNE and uMAP), and recursive feature elimination for feature selection.

Results. The used techniques (algorithms) provided effective representation of a complex data set (76 histomorphometric features), allowing to reveal the cluster structure inside the low dimensional feature space, thus fitting the classifier becomes even more reasonable. During feature selection, we estimated their importance for age group classification and studied the relationship between classification quality and the number of features inside the feature space. Data pre-processing made it possible to get rid of noise and keep most informative features, thereby accelerating a learning process and improving the classification quality. Data projection showed more well-defined cluster structure in the space of selected features. The accuracy of establishing certain groups was equal to 90%. It proves high efficiency of machine learning techniques used for forensic age diagnostics based on histomorphometric findings.

Key words: forensic medicine; age diagnostics; age groups; machine learning techniques; nonlinear dimensionality reduction methods.

English

Введение

Диагностика возраста — ключевое звено в процессе идентификации личности [1, 2]. Происходящие в постнатальном онтогенезе морфологические изменения тканей и органов не всегда являются следствием старения. Влияние целого ряда факторов как эндогенного (генетическая предрасположенность, сопутствующие заболевания, массо-ростовые показатели и др.), так и экзогенного (профессия, вредные привычки, экологические проблемы) происхождения обусловливает расхождение между биологическим и паспортным возрастом с наибольшим искажением результирующей оценки у лиц средних и старших возрастных групп [3, 4]. Увеличению погрешности конечного результата при прогнозировании возраста способствует использование в экспертной практике

линейной регрессии. Учитывая, что процессы старения тканей и органов имеют сложную динамику и не могут быть описаны простыми линейными зависимостями, большинство исследователей сходятся во мнении о нецелесообразности подобного рода подхода, так как он не всегда способен решить целевую задачу [5-7].

В настоящее время накоплен большой информационный массив количественных показателей возрастных изменений различных органов и тканей [7-14]. В большинстве своем созданные базы данных являются «зашумленными», так как содержат большой набор разнородных показателей, что затрудняет их обработку и принятие итогового решения. В подобных случаях целесообразно использовать методы нелинейного интеллектуального анализа с хорошо выраженными обобщающими свойствами [15]. Перспективным на-

//////////////////////^^^^

16 СТМ 1 2022 1 том 14 1 №1 Г.В. Золотенкова, А.И. Рогачев, Ю.И. Пиголкин, И.С. Эделев, В.Н. Борщевская, R. Cameriere

правлением являются современные интеллектуальные информационные технологии (методы машинного обучения) [16-18].

Цель исследования — оценить возможность установления возраста (возрастной группы) на момент смерти с использованием методов классификации по данным гистоморфометрической характеристики возрастных изменений костной и хрящевой тканей.

Материалы и методы

Для достижения поставленной цели был предложен следующий дизайн исследования:

1) отбор и сокращение признакового пространства с использованием выбранного алгоритма;

2) сравнительный анализ и выбор классификатора, обеспечивающего наибольшую точность при прогнозировании возраста неизвестного индивида;

3) установление оптимального возрастного интервала, диагностика которого осуществляется с максимальной точностью и надежностью.

При судебно-медицинском исследовании неизвестного индивида часто устанавливают вероятный возраст с указанием доверительных или прогнозных интервалов, т.е. речь идет о синтезирующей оценке многочисленных параметров для определения границ возрастной группы, к которой принадлежит идентифицируемый объект. Это пример задачи классификации, в которой рассматривается множество заранее размеченных объектов, существующих в некотором признаковом пространстве и используемых в качестве обучающей выборки при построении модели, способной классифицировать неразмеченные данные. Для решения своей задачи мы строили модель, классифицирующую произвольные объекты сходной природы. В качестве метки класса выступала возрастная группа объекта. В нашем исследовании для обучения и ва-лидации различных моделей классификаторов были использованы базы данных признаков возрастных изменений костной и хрящевой тканей от 294 трупов лиц мужского пола с известным возрастом (от 10 до 93 лет) и происхождением (соблюдалась этническая однородность). Цифровые значения признаков взяты из литературы [2, 8-10] при микроостеометрическом исследовании гистологических препаратов диафиза и эпифиза длинных трубчатых костей (В1-В24) и щитовидного хряща (С1-С28).

На основе общепринятой периодизации, рекомендованной VII Всесоюзной научной конференцией по проблемам возрастной морфологии, физиологии и биохимии, было выделено 7 возрастных групп: до 12 лет; от 13 до 18 лет; от 19 до 21 года; от 22 до 35 лет; от 36 до 60 лет; от 61 до 75 лет; старше 75 лет. При формировании этих групп учитывали данные литературы и результаты ранее проведенных собственных исследований. Так, основанием для выделения верхней границы 2-й возрастной группы стало наличие эпифизарной хрящевой пластинки, которая имеется только у лиц в возрасте до 18 лет

Для дифференцированного исследования использовали разбивку материала на десятилетние возрастные интервалы (табл. 1).

С целью построения модели для классификации возрастной группы индивидов на основе представленных признаков использовали алгоритмы машинного обучения: Random Forest, CatBoost, k-NN, Logistic Regression, SGD, SVM, Naive Bayes, t-SNE и uMAP, язык программирования Python, библиотеку scikit-learn. В рамках исследования применяли методы, в основе которых лежат концептуально отличающиеся подходы. Приведем их краткое описание.

Метод k-ближайших соседей (k-nearest neighbors algorithm, k-NN) хранит информацию о всех объектах обучающей выборки. Для нового объекта, который необходимо классифицировать, находятся наиболее близкие к нему точки в данных заранее заданной метрики расстояния. Среди ближайших k-точек определяется наиболее часто встречающийся класс, который и будет использоваться в качестве результата работы модели.

В случае классической логистической регрессии применяли реализации методов Logistic Regression из библиотеки sklearn и Stochastic Gradient Descent (SGD) из библиотеки Vowpal Wabbit, основанные на градиентном спуске — итеративном процессе, в ходе которого обновляются веса модели.

Метод опорных векторов (Support Vector Machine, SVM), в отличие от логистической регрессии, имеющей предпосылки, основан на геометрии множества объектов в признаковом пространстве. SVM строит разделяющую поверхность между объектами разных классов, при этом данное построение может производиться не только в исходном пространстве признаков, но и в его новом представлении, полученном с

Таблица 1

Распределение аутопсийных объектов (трупов) для исследования по десятилетним интервалам

Признак Десятилетние возрастные интервалы

1-й 2-й 3-й 4-й 5-й 6-й 7-й 8-й 9-й Всего <10 11-20 21-30 31-40 41-50 51-60 61-70 71-80 >81

Возраст, лет

Количество наблюдений 10 41 50 30 35 35 34 32 27 294

Классификация возраста в судебной медицине

СТМ I 2022 I том 14 I №1 17

помощью ядра — функции, ставящей в соответствие исходным данным точки в другом признаковом пространстве. Таким образом, разделяющая гиперплоскость в изначальном пространстве признаков может иметь отличную форму в исходном пространстве.

Наивный байесовский классификатор (Naive Bayes) классифицирует объекты, основываясь на применении теоремы Байеса. Данный подход утилизирует даже малое количество данных, доступных для обучения, оценки параметров и классификации.

Дерево решений моделирует процесс принятия решения экспертом. Модель имеет графовую структуру, в каждом из узлов дерева находится решающее правило, определяющее, в какую из ветвей следует перейти, а в листьях дерева находятся итоговые метки классов. Проведя обход дерева от корня и далее согласно правилам и значениям признаков у определенного объекта, можно провести классификацию объекта.

Случайный лес (Random Forest) является примером ансамбля решающих деревьев. Одновременно строится множество деревьев, которые используют разные подмножества признаков в процессе обучения. Итоговый результат получается путем голосования: каждое из деревьев предоставляет метку класса, в качестве итогового результата используется метка класса, полученная наибольшим количеством деревьев в ансамбле.

CatBoost основан на градиентном бустинге, в отличие от случайного леса, который представляет пример бэггинга, демонстрирующий альтернативный способ ансамблирования моделей. Суть применения бустин-га заключается в комбинации слабых (с невысокой обобщающей способностью) функций (в рамках исследования использовались неглубокие деревья), которые строятся в ходе итеративного процесса, где на каждом шаге новая модель обучается с использованием данных об ошибках предыдущих.

Качество классификации оценивали методом перекрестной проверки (cross-validation). Эксперименты проводили на 5 итерациях. Качество работы алгоритмов классификации оценивали посредством метрики F1-score и выбирали модель с наибольшим значением данного показателя. Для оценки выполненной классификации строили матрицу ошибок, позволяющую понять, как именно «ошибается» модель, куда относятся неправильно классифицированные объекты, а также выделить классы, работа с которыми дает наибольшее количество ошибок. Данную информацию использовали для поиска в ходе экспериментов десятилетних возрастных интервалов каждого класса, диагностика которых осуществляется при оптимальном соотношении качества работы классификаторов и внутриклассовой возрастной дисперсии. Проводили анализ ROC-кривых, построенных для каждого из классов: форма графика и площадь позволяли выявить наиболее проблемные классы (возрастные группы).

Результаты

Исходные данные представлены в виде двухмерных изображений, выполненных с использованием методов нелинейного снижения размерности t-SNE и uMAP, позволяющих сократить размерность признакового пространства для последующей визуализации данных. Данные методы позволяют получить маломерное представление объектов таким образом, что объекты, схожие в исходном признаковом пространстве, моделируются близко расположенными точками, а непохожие точки располагаются как можно дальше друг от друга. Результаты визуализации на рис. 1 свидетельствуют о плотном перемешивании возрастных групп без явной кластеризации до отбора признаков. Особняком выступают лица 1-й (до 12 лет) и 2-й (13-18 лет) возрастных групп, которые уже на данном этапе визуально отделимы от других.

Следующим этапом работы стал отбор признаков методом Recursive feature elimination с использованием деревьев решений и критерия Джини (рис. 2). В ходе данной процедуры модель, основанная на выбранном алгоритме, сначала обучается на всех признаках, среди которых выбирается наименее информативный. В нашем случае информативностью считается вклад признака в снижение значения критерия Джини в процессе поиска оптимального разбиения, т.е. то, как сильно мы можем разделить объекты разных классов, используя определенный признак. Данный признак отбрасывается и описанная процедура повторяется, информативности признаков пересчи-тываются.

Согласно полученным результатам, наибольший вклад в целевую кластеризацию вносят количественные показатели возрастных изменений в щитовидном хряще. Связаны они с процессами созревания и последующей оссификацией самой хрящевой ткани, замещением ретикулярной ткани жировой. В ранжированном списке, представленном на рис. 2, лидирующие позиции занимают такие признаки, как площадь костной ткани в поле зрения гистологического препарата щитовидного хряща (С2), долевое соотношение (С28) на рентгеновском снимке щитовидного хряща костной (С1) и хрящевой (С17) тканей. При этом необходимо не только учитывать площадь хрящевой ткани, но и принимать во внимание толщину зоны молодого хряща (С23) и ее соотношение с зоной зрелого хряща (С25). Площади жировой (С14) и ретикулярной (С15) тканей в поле зрения препарата щитовидного хряща также характеризуют старение хряща, происходящие в нем атрофические процессы. Следует отметить обоснованность выбора не просто площади костной ткани, а учет размерных характеристик трабекул в поле зрения: их толщины (С13) и площади (С6).

Выполненный экспертный и сравнительный анализ подтвердил целесообразность выбора микроостеоме-трических показателей в качестве объективных мар-

//////////////////////^^^^

18 СТМ 1 2022 1 том 14 1 №1 Г.В. Золотенкова, А.И. Рогачев, Ю.И. Пиголкин, И.С. Эделев, В.Н. Борщевская, R. Cameriere

• •

• •

• • • и • •• . • • • 7 V* • • « • ••

"f.i . •

* if

-2 -3

V

< \

v*

t

I

a •

•»- -

?4

•n.

-4

-2

Возрастная группа ► 1-я • 2-я tt 3-я • 4-я t 5-я • 6-я « 7-я

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 1. Двухмерное представление исходных данных до отбора признаков:

а — с использованием метода t-SNE; б — с использованием метода иМАР

керов возрастных изменении костной ткани. Отмечена значимость признаков, отражающих происходящие морфологические изменения в гистострукту-ре, прежде всего в компакте диафиза: толщина слоев наружных (В10) и внутренних (В12) общих пластинок, слоя остеонов (В11) и их количественная характеристика (В23). Объективным предиктом костного возраста выступают такие показатели ремоделирования, как диаметр гаверсова канала (В21) и его соотношение с размером остеона (В22). Значимость данных признаков удалось выявить только с использованием алгоритма Random Forest, так как коэффициенты корреляции этих показателей, полученные при их анализе данных с помощью описательной статистики, составили всего лишь 0,4 и 0,3 соответственно. Подобное обстоятельство доказывает эффективность использования случайного леса для заявленной цели. Количественная оценка процессов перестройки костной ткани активно применяется как объективная мера биологического возраста. По мере роста, развития и старения человека накапливаются свидетельства увеличения числа циклов оборотов структурных элементов, поэтому количество остеонов с перестроенным центральным отделом (В18) также закономерно является атрибутивным показателем возраста. Отмечена значимость показателей возрастных преобразований губчатого вещества нижнего эпифиза: количество остеонов (В13), размерные характеристики зоны хрящевой ткани (В7).

С2 С28 С14 А С1 -В13 -С17 -С26 -I С15 • С25 -В22 615 -\ В12 В21 А С16 -С12 -С13 •

В7 В11 А С23 -В14 -С6 -С20 -В23 -В18 -BIO Вб СЮ С4 С18 С19 С9 В1б С8 В17 С7 В8 СЗ В24 С21 С5 ВЗ 62 В5 B2Q В19 С27 В4 В1 СИ В9 С22 С24

8

Значимость

Рис. 2. Информативность признаков [2, 8-10]

В исследовании была изучена зависимость качества работы классификаторов от количества признаков, отсортированных по убыванию информативности. Следует отметить, что для алгоритмов, основанных на методе «дерево решений» (CatBoost, Random Forest) и применяемых для получения двухмерных представлений с целью последующей визуализации, качество остается примерно одинаковым

б

а

Классификация возраста в судебной медицине

СТМ J 2022 J том 14 J №1 19

вплоть до использования всех исходных признаков, что можно объяснить способностью данных алгоритмов самостоятельно отбирать признаки. Для остальных алгоритмов можно заметить тенденцию к падению качества после использования более 28

Рис. 3. Зависимость значения F1-score от количества используемых признаков

признаков. По этой причине было отобрано именно 28 признаков (рис. 3).

После отбора признаков данные были повторно визуализированы (рис. 4). Стала наблюдаться более четко выраженная кластерная структура. Более того, соседние по возрасту группы находятся близко, в то время как индивиды с большой разницей в возрасте удалены друг от друга. Методы t-SNE и uMAP не умеют работать с пропусками, поэтому пропущенные значения в исходных данных заполнялись значением признака у предыдущего индивида в отсортированных по возрасту данных. Это могло послужить причиной попадания некоторых точек в соседние кластеры, но даже с учетом данного факта не наблюдается ситуации, когда индивид попадает в кластер, средний возраст в котором сильно отличается от его собственного.

Для решения поставленной задачи была проведена также сравнительная оценка эффективности работы классификаторов. Ее результаты представлены в табл. 2.

Для дальнейших экспериментов был выбран алгоритм Random Forest, показавший наилучшую работу на рассматриваемых данных. Проверку качества модели проводили с использованием кросс-валидации на 5 итерациях. Строили матрицы ошибок (представление реальных и предсказанных алгоритмом меток классов) и ROC-кривые для каждого класса в отдельности (рис. 5). Кривая ошибок (receiver operating characteristic, ROC) — график, позволяющий оценить качество классификации, — отображает соотношение между долей объектов от общего количества объек-

а 10 б 4 2

• • • v\ • • . а. л •Ч <

5 ш1 0 21 • • % • • • • Г • • • .4* • • • •• • • ч \ » . • # ...» . • 2 < 0 S -2 . Ч. • • • ч • • и . V • •

-5 -10 ч • •• * t• •• ' • • м • • • • »• • • • -4 -6 А

-8 -6 -4 -2 0 t-SNE 1 2 4 6 2 4 6 uMAP 1 8 10

Возрастная группа

• 1-я • 2-я • 3-я • 4-я 5-я • 6-я • 7-я

Количество признаков

Рис. 4. Двухмерное представление исходных данных после отбора признаков:

а — с использованием метода t-SNE; б — с использованием метода иМАР

//////////////////////^^^^

20 СТМ | 2022 | том 14 j №1 Г.В. Золотенкова, А.И. Рогачев, Ю.И. Пиголкин, И.С. Эделев, В.Н. Борщевская, R. Cameriere

Таблица 2

Качество работы алгоритмов на исследуемых данных

Название алгоритма F1-score

k-NN 0,83

SGD 0,85

SVM 0,85

Logistic Regression 0,86

Naive Bayes 0,89

CatBoost 0,90

Random Forest 0,91

Рис. 5. РОС-кривые для каждой возрастной группы

тов положительного класса, классифицированных верно (чувствительность алгоритма классификации), и долей объектов от общего количества объектов отрицательного класса, ошибочно отнесенных к положительному классу (специфичность алгоритма классификации) при изменении порога решающего правила. В виде численной характеристики качества работы модели выступает площадь под искомой кривой.

Мы установили, что, согласно данным матрицы ошибок и ROC-кривых, оценка точности классификации построенной моделью объектов, принадлежащих к 1-, 2-, 3-, 6-й возрастным группам, составляет 100%; к 4-й группе — 90%; к 5-й группе — 92%. Уверенное вычленение данных групп является отображением фундаментальных процессов постнатального онтогенеза, происходящих в костно-хрящевой системе. Стадия созревания 1-3-й групп сменяется стабилизацией (4-я группа) и завершается инволю-тивными преобразованиями (5-7-я группы). Наименьшая точность зафиксирована в 7-й возрастной группе. У лиц старше 75 лет состояние тканей и органов обусловлено не только возрастной инволюцией, но и результирующим воздействием массы привходящих факторов (болезни, прием лекарственных препаратов, вредные привычки, питание, образ жизни и т.д.), которые к данному периоду имеют выраженный кумулятивный эффект.

Оценки результатов классификации на группы, соответствую-

щие десятилетнему интервалу, представлены на рис. 6. Точность классификации 2-й группы (11-20 лет) — 67%. Данный интервал включает в себя периоды активного роста и развития всех органов и систем, период полового созревания, что влечет за собой неравномерность, неоднородность показателей. Следовательно, относительно низкая точность связана с широтой возрастного диапазона данной

1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0 00

0.00 0.67 0.33 0.00 000 0.00 0.00 0.00 0 00

000 000 100 000 000 000 000 000 0 00

0.00 000 0.00 100 0 00 0.00 0.00 0.00 0 00

0.00 000 0.00 0.00 100 0.00 000 0.00 0 00

0.00 000 0.00 0.00 000 LOO 0.00 0.00 0 00

000 000 000 000 000 014 043 043 0 00

0.00 000 0.00 0.00 000 0.00 000 1.00 0 00

0.00 000 0.00 0.00 0.00 0.00 0.00 0.20 0 80

Предсказание алгоритма

Рис. 6. Матрица ошибок

ттчттчттчтчшжтчттчжтчжтчжчт

Классификация возраста в судебной медицине СТМ | 2022 | том 14 | №1 21

группы. Снижение точности классификации 7-й группы (61-70 лет), с одной стороны, связано с влиянием ассоциированных с возрастом болезней, с другой — именно в данной декаде мы отмечали некоторое замедление процессов возрастной инволюции. Эти обстоятельства, на наш взгляд, объясняют значительный разброс цифровых значений и, как прямое следствие, попадание объектов в соседние группы. Согласно данным матрицы ошибок, точность классификации 1-, 3-, 4-, 5-, 6-, 8-го возрастного интервала на валидационной выборке составляет 100%, а для 9-го интервала — 80%.

Обсуждение

Гистоморфометрия костной ткани давно используется для установления возраста [19-21]. Существует много различных модификаций как самих методик, основанных на количественном учете процессов реорганизации костной и хрящевой тканей, так и образцов (их выбор) для исследования [22-24]. Мы разделяем мнение авторов работы [24] о необходимости отказа от утверждения, что ремоделирование костной ткани происходит с предсказуемой скоростью. А это в свою очередь означает отказ от использования линейных моделей и обусловливает дальнейшее развитие ги-стоморфометрических методов.

Анализ гистологических количественных переменных показывает, что они демонстрируют сложный характер взаимодействия с возрастом. Не менее сложным является их взаимосвязь с полом, состоянием здоровья (наличие заболеваний, прием фармакологических препаратов), биомеханикой. Это должно послужить предостережением от создания «простых» моделей — уравнений линейной регрессии — с использованием универсальных показателей гистологической оценки возраста. Поэтому мы в своей работе для анализа комплекса гистоморфометрических признаков использовали алгоритмы, позволяющие изучать нелинейные зависимости (например, SVM с правильно подобранным ядром, дерево решений) и основанные на них методы, такие как Random Forest или CatBoost. Для визуализации подобных данных методы t-SNE и uMAP работают ожидаемо лучше классических методов, таких, например, как анализ главных компонентов (principal component analysis, PCA), который используется в аналогичных целях и показывает ощутимо менее информативный результат [15]. Достигнутая авторами работы [15] точность классификации (±30 лет) может быть также связана с тем, что анализировались базы данных качественной оценки морфологических изменений лонного сочленения.

Гистоморфометрический метод, результаты которого послужили материалом для представленного исследования, является количественной мерой и позволяет более объективно подходить к диагностике возраста. Полученные нами результаты пока-

зали, что сокращение признакового пространства является необходимой мерой и не приводит к потере качества классификации. Эффективность работы алгоритмов зависит от количества признаков, и при наличии 20-30 из них уже достигается достаточная точность. Далее она снижается до точности линейных классификаторов. При этом следует подчеркнуть, что речь идет о совокупном наборе признаков. Максимальная точность и достоверность конечного результата были достигнуты при комплексной оценке возрастных изменений различного вида костной и хрящевой тканей.

Использование после отбора признаков современного метода нелинейного снижения размерности uMAP в совокупности с уже хорошо зарекомендовавшим себя методом t-SNE позволило нам увидеть проявление в данных кластерной структуры, которой не было на первоначальном этапе. Это подтверждает, с одной стороны, целесообразность фильтрации признаков по их информационной значимости, с другой стороны — правильность произведенного отбора. Исследования также показали, что сокращение признакового пространства — это необходимая мера, которая не приводит к потере качества классификации. Кластеризация объектов с использованием ранжированного списка гистоморфометрических показателей позволила получить значимые результаты в отношении точности и надежности диагностики заданной возрастной группы. Метод «дерево решений» продемонстрировал способность самостоятельно отбирать признаки в процессе работы. Вне зависимости от их количества он отдает предпочтение самым информативным. Из всех рассмотренных в работе классификаторов алгоритм «случайный лес» (Random Forest) оказался наиболее продуктивным для решения поставленной задачи. Подобное обстоятельство подтверждает преимущество использованного алгоритма для достижения поставленной цели.

Заключение

Полученные результаты доказали перспективность применения методов машинного обучения в судебно-медицинской экспертной практике для установления возраста, продемонстрировав достаточно высокую, порядка 90%, точность конечного результата.

Проведенное исследование позволило сформировать с помощью методов интеллектуального анализа оптимальный набор информативных гистоморфоме-трических признаков возрастных изменений, который целесообразно использовать с целью создания цифровой базы как конструктивной основы для накопления и систематизации данных при судебно-медицинской оценке возраста. Формирование подобного рода списков позволяет унифицировать последующие научные исследования в области возрастной морфологии и тем самым расширять «тренировочный» массив данных для построения прогнозов. Ведь именно про-

//////////////////////^^^^

22 СТМ | 2022 j том 14 j №1 Г.В. Золотенкова, А.И. Рогачев, Ю.И. Пиголкин, И.С. Эделев, В.Н. Борщевская, R. Cameriere

блемы с обучающей выборкой (большое количество разнообразных признаков при малом числе наблюдений) являются главным сдерживающим моментом активного внедрения методов машинного обучения в медицину.

Изучение закономерностей возрастной инволюции с формированием информационного хранилища количественных характеристик (биомаркеров старения) — это фундаментальная научная проблема. Высокая социальная значимость подобного рода исследований обусловлена увеличением доли пожилых граждан. Полученные результаты, несомненно, будут представлять интерес для различных разделов медицины и биологии, в том числе и для развития персонифицированной медицины.

Финансирование исследования. Работа выполнена при поддержке гранта Российского фонда фундаментальных исследований №19-07-00982а.

Конфликт интересов. Авторы декларируют отсутствие явных и потенциальных конфликтов интересов, связанных с публикацией настоящей статьи.

Литература/References

1. Garvin H., Passalacqua N.V., Uh N.M., Gipson D.R., Overbury R.S., Cabo L.L. Developments in forensic anthropology: age-at-death estimation. In: Dirkmaat D.C. (editor). A companion to forensic anthropology. Chichester: Wiley-Blackwell; 2012; p. 202-223, https://doi. org/10.1002/9781118255377.ch10.

2. Глыбочко П.В., Пиголкин Ю.И., Николенко В.Н., Золотенкова Г.В., Ефимов А.А., Алексеев Ю.Д., Феду-лова М.В., Савенкова Е.Н., Курзин Л.М., Гончарова Н.Н., Юрченко М.А., Мирошниченко Н.В. Судебно-медицинская диагностика возраста. М: Первый МГМУ имени И.М. Сеченова; 2016.

Glybochko P.V., Pigolkin Yu.I., Nikolenko V.N., Zolotenkova G.V., Efimov A.A., Alekseev Yu.D., Fedulova M.V., Savenkova E.N., Kurzin L.M., Goncharova N.N., Yurchenko M.A., Miroshnichenko N.V. Sudebno-meditsinskaya diagnostika vozrasta [Forensic diagnostics of age]. Moscow: Pervyy MGMU imeni I.M. Sechenova; 2016.

3. Schmitt A., Murail P., Cunha E., Rouge D. Variability of the pattern of aging on the human skeleton: evidence from bone indicators and implications on age at death estimation. J Forensic Sci 2002; 47(6): 1203-1209, https://doi. org/10.1520/jfs15551j.

4. Mays S. The effect of factors other than age upon skeletal age indicators in the adult. Ann Hum Biol 2015; 42(4): 332-341, https://doi.org/10.3109/03014460.2015.1044470.

5. Ferrante L., Skrami E., Gesuita R., Cameriere R. Bayesian calibration for forensic age estimation. Stat Med 2015; 34(10): 1779-1790, https://doi.org/10.1002/sim.6448.

6. Bucci A., Skrami E., Faragalli A., Gesuita R., Cameriere R., Carle F., Ferrante L. Segmented Bayesian calibration approach for estimating age in forensic science. Biom J 2019; 61(6): 1575-1594, https://doi.org/10.1002/ bimj.201900016.

7. Hartnett K.M. Analysis of age-at-death estimation using data from a new, modern autopsy sample — part I: pubic bone.

J Forensic Sci 2010; 55(5): 1145-1151, https://doi.org/10.1111/ j.1556-4029.2010.01399.x.

8. Pigolkin Yu.I., Zolotenkova G.V., Sereda A.P., Zolotenkov D.D., Gridina N.V. Histometric symptoms of age-sensitive changes of bone tissue. Adv Gerontol 2018; 31(2): 203-210.

9. Пиголкин Ю.И., Полетаева М.П., Золотенкова Г.В., Волков А.В. Возрастные изменения гистологической структуры щитовидного хряща у лиц мужского пола. Судебно-медицинская экспертиза 2017; 60(5): 11-14, https://doi. org/10.17116/sudmed201760511-14.

Pigolkin Yu.I., Poletaeva M.P., Zolotenkova G.V., Volkov A.V. The age-specific changes in the histological structure of the thyroid cartilage in the men. Sudebno-medicinskaja ekspertiza 2017; 60(5): 11-14, https://doi.org/10.17116/ sudmed201760511-14.

10. Пиголкин Ю.И., Полетаева М.П., Золотенкова Г.В. Использование лучевой диагностики для определения биологического возраста человека по морфометрическим параметрам щитовидного хряща. Российский электронный журнал лучевой диагностики 2017; 7(4): 23-29, https://doi. org/10.21569/2222-7415-2017-7-4-23-29.

Pigolkin Yu.I., Poletaeva М.Р, Zolotenkova G.V. Age determine by the age of the thyroid cartilage by the radiological method in forensic medicine. Rossijskij ehlektronnyj zhurnal luchevoj diagnostiki 2017; 7(4): 23-29, https://doi. org/10.21569/2222-7415-2017-7-4-23-29.

11. Пиголкин Ю.И., Золотенкова Г В., Березовский Д.П. Методологические основы определения возраста человека. Судебно-медицинская экспертиза 2020; 63(3): 45-50, https://doi.org/10.17116/sudmed20206303145.

Pigolkin Yu.I., Zolotenkova G.V., Berezovskii D.P. Methodological basis for determining a person's age. Sudebno-meditsinskaya ekspertisa 2020; 63(3): 45-50, https:// doi.org/10.17116/sudmed20206303145.

12. Ковалев А.В., Аметрин М.Д., Золотенкова Г.В., Герасимов А.Н., Горностаев Д.В., Полетаева М.П. Судебно-медицинское установление возраста по КТ-сканограммам черепа и краниовертебральной области в сагиттальной проекции. Судебно-медицинская экспертиза 2018; 61(1): 21-27, https://doi.org/10.17116/sudmed201861121-27.

Kovalev А.У, Аmetrin M.D., Zolotenkova G.V., Gerasimov А.№, Gornostaev D.V., Poletaeva M.P. Forensic medical determination of the age based on the analysis of CT-scanograms of the skull and the craniovertebral region in the sagittal projection. Sudebno-meditsinskaya ekspertisa 2018; 61(1): 21-27, https://doi.org/10.17116/sudmed201861121-27.

13. Пиголкин Ю.И., Ткаченко С.Б., Золотенкова Г.В., Веленко П.С., Золотенков Д.Д., Сафронеева Ю.Л. Комплексная оценка возрастных изменений кожи. Судебно-медицинская экспертиза 2018; 61(3): 15-18, https://doi. org/10.17116/sudmed201861315-18.

Pigolkin Yu.I., Tkachenko S.B., Zolotenkova G.V., Velenko P.S., Zolotenkov D.D., Safroneeva Yu.L. The comprehensive evaluation of the age-specific changes in the skin. Sudebno-meditsinskaya ekspertisa 2018; 61(3): 1518, https://doi.org/10.17116/sudmed201861315-18.

14. Пиголкин Ю.И., Золотенкова Г.В. Возрастные изменения капилляров коры головного мозга. Судебно-медицинская экспертиза 2014; 57(1): 4-10.

Pigolkin Yu.I., Zolotenkova G.V. Age-specific changes in the cerebral cortex capillaries. Sudebno-meditsinskaya ekspertisa 2014; 57(1): 4-10.

чшшшшт^тчтчшшшшш^тчтчтчшт

Классификация возраста в судебной медицине СТМ | 2022 | том 14 | №1 23

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

15. Buk Z., Kordik P., Bruzek J., Schmitt A., Snorek M. The age at death assessment in a multi-ethnic sample of pelvic bones using nature-inspired data mining methods. Forensic Sci Int 2012; 220(1-3): 294.e1-294.e9, https://doi.org/10.1016/j. forsciint.2012.02.019.

16. Moskalenko V.A., Nikolskiy A.V., Zolotykh N.Yu., Kozlov A.A., Kosonogov K.A., Kalyakulina A.I., Yusipov I.I., Levanov V.M. Cyberheart-diagnostics software package for automated electrocardiogram analysis based on machine learning techniques. Sovremennye tehnologii v medicine 2019; 11(2): 86-91, https://doi.org/10.17691/ stm2019.11.2.12.

17. Andryushchenko V.S., Uglov A.S., Zamyatin A.V. Statistical classification of immunosignatures under significant reduction of the feature space dimensions for early diagnosis of diseases. Sovremennye tehnologii v medicine 2018; 10(3): 14-20, https://doi.org/10.17691/stm2018.10.3.2.

18. Samoyavcheva S.V., Shkarin V.V. Capabilities of cluster analysis in interpretation of 24-hour blood pressure monitoring data in patients with arterial hypertension and left ventricular remodeling. Sovremennye tehnologii v medicine 2015; 7(4): 113-118, https://doi.org/10.17691/stm20157A15.

19. Kerley E.R. The microscopic determination of age in

human bone. Am J Phys Anthropol 1965; 23(2): 149-164, https://doi.org/10.1002/ajpa.1330230215.

20. Stout S.D. The use of cortical bone histology to estimate age at death. In: I§can M.Y. (editor). Age markers in the human skeleton. Springfield: Charles C. Thomas; 1989, https://doi. org/10.1002/ajhb.1310030516.

21. Crowder C.M., Pfeiffer S. The application of cortical bone histomorphometry to estimate age at death. In: Latham K.E., Finnegan J.M., Rhine S. (editors). Age estimation of the human skeleton. Springfield: Charles C. Thomas; 2010.

22. Crowder C.M., Dominguez V.M. A new method for histological age estimation of the femur. In: Proceedings of the American Academy of Forensic Sciences; Vol. 18. Atlanta; 2012; p. 374-375.

23. Doyle E., Marquez-Grant N., Field L., Holmes T., Arthurs O.J., van Rijn R.R., Hackman L., Kasper K., Lewis J., Loomis P., Elliott D., Kroll J., Viner M., Blau S., Brough A., de las Heras S.M., Garamendi P.M. Guidelines for best practice: imaging for age estimation in the living. J Forensic Radiol Imaging 2019; 16: 38-49, https://doi.org/10.1016/jjofri.2019.02.001.

24. Crowder C. Evaluating the use of quantitative bone histology to estimate adult age at death. PhD Thesis. Toronto: University of Toronto, Department of Anthropology; 2005.

24 СТМ j 2022 j том 14 j №1

ШМШММШММШМШМ' Г.В. Золотенкова, А.И. Рогачев, Ю.И. Пиголкин, И.С. Эделев, В.Н. Борщевская, R. Cameriere

i Надоели баннеры? Вы всегда можете отключить рекламу.