Научная статья на тему 'Опыт применения в медико-биологических исследованиях алгоритма самоорганизующихся карт Кохонена для поиска скрытых закономерностей в массивах данных'

Опыт применения в медико-биологических исследованиях алгоритма самоорганизующихся карт Кохонена для поиска скрытых закономерностей в массивах данных Текст научной статьи по специальности «Математика»

CC BY
180
54
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
МЕДИКО-БИОЛОГИЧЕСКИЕ ИССЛЕДОВАНИЯ / АНАЛИЗ ДАННЫХ / САМООРГАНИЗУЮЩИЕСЯ КАРТЫ КОХОНЕНА / SELF-ORGANIZING KOHONEN'S MAPS / MEDICAL RESEARCH / DATA ANALYSIS

Аннотация научной статьи по математике, автор научной работы — Иванов А. В.

Результаты морфометрии и рентгенометрии проксимального метаэпифиза бедренной кости были проанализированы с использованием алгоритма самоорганизующихся карт Кохонена. В соответствии с результатами кластеризации рекомендованы правила для определения значений угла ротации шейки бедра.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Иванов А. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Using the self-organizing Kohonen's maps algorithm for data determining in medical research

The results of the proximal femoral metaepiphysis morphometry and roentgenometry were analyzed by using the self-organizing Kohonen's maps algorithm. According to the clustering the rules for determining the femoral neck rotation angle are recommended.

Текст научной работы на тему «Опыт применения в медико-биологических исследованиях алгоритма самоорганизующихся карт Кохонена для поиска скрытых закономерностей в массивах данных»

УДК 378:001.891

ОПЫТ ПРИМЕНЕНИЯ В МЕДИКО-БИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ АЛГОРИТМА САМООРГАНИЗУЮЩИХСЯ КАРТ КОХОНЕНА ДЛЯ ПОИСКА СКРЫТЫХ ЗАКОНОМЕРНОСТЕЙ В МАССИВАХ ДАННЫХ

© Иванов А. В.

Кафедра гистологии, цитологии и эмбриологии Курского государственного медицинского университета

Результаты морфометрии и рентгенометрии проксимального метаэпифиза бедренной кости были проанализированы с использованием алгоритма самоорганизующихся карт Кохонена. В соответствии с результатами кластеризации рекомендованы правила для определения значений угла ротации шейки бедра.

Ключевые слова: медико-биологические исследования, анализ данных, самоорганизующиеся карты Кохонена.

USING THE SELF-ORGANIZING KOHONEN'S MAPS ALGORITHM FOR DATA DETERMINING IN MEDICAL RESEARCH Ivanov A. V.

Histology, Cytology and Embryology Department of the Kursk State Medical University

The results of the proximal femoral metaepiphysis morphometry and roentgenometry were analyzed by using the self-organizing Kohonen's maps algorithm. According to the clustering the rules for determining the femoral neck rotation angle are recommended.

Key words: medical research, data analysis, self-organizing Kohonen's maps.

Все аналитические задачи, стоящие перед исследователем, можно условно разделить на две группы: первую составят задачи, алгоритм решения которых известен, равно как известен перечень необходимых и достаточных для решения условий. Ко второй группе относятся задачи с открытым списком необходимых условий, или же перечень условий которых настолько велик, что представляется возможным лишь выделить приблизительный набор наиболее важных из них. Так как часть условий при этом не известна, или же не учитывается, алгоритм решения не может быть четко сформулирован, а ответ носит неточный характер, с большей или меньшей степенью приближения.

Следует отметить, что большинство медико-биологических исследований относятся ко второй группе. Прежде всего, это касается проблем дифференциальной диагностики, прогнозирования исходов заболевания, разработки методов лечения с разветвленным алгоритмом в случае сопутствующей патологии или возникающих по ходу лечебного процесса осложнений.

Большая часть трудностей, связанных с анализом и интерпретацией полученных данных, может быть устранена посредством тщательного планирования исследования, рандомизации контрольной группы и группы сравнения по максимально возможному числу признаков, определения типа распределения полученных данных и подбора адекватного пакета методов описательной и вариационной статистики и т.п. При явной достаточности указанных процедур для решения поставленных в исследовании задач часто "за кадром" остаются неочевидные закономерности и факты, описание которых не входит в цели и задачи исследования или же их обнаружение невозможно из за недостаточной "разрешающей" способности использованных методик.

Известно, что кластерный анализ предназначен для разбиения множества объектов на некое (заданное исследователем или же неизвестное заранее) число классов на основании некоторого математического критерия качества классификации. Указанный критерий качества кластеризации должен отражать следующие неформальные требования: внутри кластера наблюдения (объекты) должны

быть тесно связаны между собой; наблюдения из разных кластеров должны быть далеки друг от друга; при прочих равных условиях распределения объектов по группам должны быть равномерными. Главным моментом в кластерном анализе считают выбор метрики (или меры близости объектов), от чего, собственно, и зависит вариант разбиения объектов на группы при заданном алгоритме кластеризации. При выборе метрики необходимо учитывать цель исследования, природу исследуемых признаков и особенности конфигурации облака наблюдений в п-мерном пространстве и многое другое. Также важной величиной является расстояние между кластерами, поскольку от него зависит геометрия выделяемых группировок объектов в пространстве признаков.

Известны три основных типа алгоритмов кластеризации: первый из них основан на измерении расстоянии до "ближайшего соседа", почему и получил такое название - "метод ближайших соседей". Он наиболее применим, если наблюдения сгруппированы в цепочечную структуру. В свою очередь, метод "дальних соседей" применяется, когда искомые группировки образуют в пространстве признаков шаровидные облака. Промежуточное место занимают алгоритмы, использующие расстояния центров тяжести и средней связи, которые лучше всего работают в случае группировок эллипсоидной формы [3]. Такая "специализация" алгоритмов кластерного анализа на определенную пространственную конфигурацию объектов в пространстве признаков может приводить к неправильной трактовке результатов, тем более если предположение исследователя о типе конфигурации ошибочно. Поэтому в условиях неопределенности рекомендуется применение нескольких алгоритмов кластерного анализа с

последующим предпочтением какого-либо одного на основании комплексной оценки совокупности результатов работы этих алгоритмов.

Самоорганизующиеся карты Кохонена: эта система анализа сводится к тому, что информация группируется по степени схожести между объектами. Результирующие сведения выдаются исследователю в виде карт, на которых объекты расположены таким образом, что расстояние между ними соответствует степени близости характеристик этих объектов в реальном мире. Этот алгоритм успешно применяется при анализе и выявлении зон риска, поиске объектов на основе нечетких критериев, диагностике [1, 2].

Целью настоящей работы является демонстрация возможностей алгоритма кластеризации по методу самоорганизующихся карт (СОК) Кохонена.

Были проанализированы первичные данные, полученные И.Н. Яшиной и А.А. Сама-хой в ходе исследования системной организации строения бедренной кости человека в норме и при коксартрозе [5]. Следует отметить, что одной из задач этого исследования была разработка метода вычисления углов антеверзии и ротации (рис. 1 А, Б) шейки бедренной кости человека по совокупности линейных и угловых параметров, измеряемых на рентгеновском снимке в прямой проекции. Знание величин этих углов необходимо хирургам-ортопедам при подготовке больного к оперативным вмешательствам на тазобедренном суставе в случае его травматического повреждения, дисплазии и т.п. Проблема заключается в трудностях технического характера при съемке проксимального эпифиза бедренной кости в аксиальной плоскости и невозможности определения угла ротации шейки даже на компьютерных томограммах.

Рис. 1. Схема измерения угла атеверзии шейки бедренной кости (А) и угла ротации шейки бедренной кости (Б) на мацерированных бедренных костях человека.

ных костях, коррелируют величины углов I и II (рис. 2, табл. 1).

Тем не менее значения коэффициента корреляции Пирсона свидетельствуют о наличии слабых и разнонаправленных связей между изучаемыми признаками. То есть обнаруженные нами на этом этапе анализа закономерности, никак не могут быть использованы в практическом здравоохранении в качестве теоретической основы для определения истинных величин углов антеверзии и ротации шейки бедра.

Полученный в результате исследования массив данных в виде электронной таблицы был нами проанализирован в аналитической программе Deductor Studio, входящей в аналитическую платформу Deductor Lite, разработанной в фирме BaseGroup Labs (www.basegroup.ru) и распространяемой бесплатно.

Таблица 1

Показатели коэффициента корреляции Пирсона между линейными и угловыми параметрами бедренных костей человека, определяемых на мацерированных костях, и величинами углов между костными трабекулами проксимального метаэпифиза бедренной кости, определяемых

на рентгеновских снимках

Угол I Угол II Угол III

длина бедренной кости до головки -0,4202 -0,2273 0,228416

диаметр головки прямой -0,25964 -0,0692 0,25922

диаметр головки вертикальный -0,24625 -0,05362 0,201801

диаметр шейки прямой 0,000306 -0,05623 0,18079

диаметр шейки вертикальный -0,3282 0,046329 0,065123

длина шейки передняя -0,16034 0,058389 -0,05906

длина шейки верхняя -0,17632 -0,08153 0,022356

длина шейки нижняя -0,2661 0,004004 0,068866

длина шейки задняя -0,20237 -0,08974 0,131441

радиус кривизны бедра -0,12127 -0,43961 0,30739

межвертельный размер -0,1253 0,053103 0,080568

длина латерального мыщелка -0,22236 -0,06242 0,210025

длина медиального мыщелка -0,16867 -0,07132 0,210198

наружный межмыщелковый размер -0,20877 -0,0998 0,183366

внутренний межмыщелковый размер -0,12454 -0,17919 0,284795

ширина поверхности надколенника -0,00147 0,105064 -0,18797

поперечный размер проксимального эпифиза -0,25234 -0,05115 0,208261

диаметр диафиза кости прямой -0,13687 0,138147 0,100772

угол антеверзии -0,14835 -0,33617 0,322956

угол ротации головки -0,0814 -0,31329 0,363102

угол наклона бедра -0,05736 -0,07773 0,109146

диафизарно-шеечный угол -0,07901 0,063531 -0,22464

Примечание: обсуждаемые в тексте величины коэффициента корреляции в таблице выделены.

На первом этапе исследования [4] производилось морфометрическое исследование 15 линейных и угловых параметров проксимального эпифиза мацерированных бедренных костей из коллекции кафедры анатомии КГМУ при помощи специально сконструированного устройства [6] и штангенциркуля. Затем были изготовлены рентгенограммы исследуемых костных препаратов в прямой проекции, на которых также были измерены линейные и угловые параметры. После расчета коэффициентов корреляции между значениями линейных и угловых параметров, измеренных на мацерированных костях и на рентгеновских снимках, обнаружено, что из всех исследованных параметров, определяемых на рентгеновских снимках с реальными показателями углов антеверзии и ротации шейки бедра, определяемых на мацерирован-

Рис. 2. Схема измерения значений межтрабекулярных углов проксимального метаэпифиза бедренной кости.

Для поиска скрытых закономерностей был использован алгоритм построения самоорганизующихся карт Кохонена. Исходное множество данных (значения исследуемых признаков по каждому наблюдению) было распределено на два подмножества для последующего построения самоорганизующихся карт Кохонена, основанных на алгоритме кластеризации по методу ближайших соседей. При этом 95% исходного массива записей случайным образом было отобрано для обучающей выборки, а 5% - для тестовой. Условием остановки процесса обучения самоорганизующейся карты являлось выполнение условия - в тестовом и обучающем множествах ошибка принимала значения меньше 0,05. Начальная инициализация карты Кохо-нена производилась из обучающего множества. Количество кластеров определялось автоматически при 1% уровне значимости. При очевидной равномерности плотности попадания наблюдений в кластеры, на матрице расстояний между ближайшими соседями определяются "облака" сгущений и разрежений (рис. 3 Ж). Это явилось основанием для автоматического разбиения всей выборки на 23 кластера (рис. 3 Е). Относительно большое количество кластеров характеризует неоднородность исследуемой выборки. Это подтверждается конфигурацией отображения облака исследуемых наблюдений в многомерном пространстве на плоскость — проекция Саммона (рис. 3 З). "Выпадающие" наблюдения занимают позиции на периферии пред-

ставленного на иллюстрации облака наблюдений.

Тем не менее анализ полученных карт Ко-хонена позволяет сформулировать следующие выводы:

1. Если значение угла антеверзии близко к минимальному уровню в выборке (рис. 3 А), то значение угла ротации шейки также минимально или близко к минимальному (рис. 3 Б).

2. При средних или близких к средним значениях угла антеверзии в выборке (рис. 3 А) следует ожидать средние или близкие к средним значения угла ротации (рис. 3 Б).

3. При максимальных значениях угла ан-теверзии в выборке (рис. 3 А) следует ожидать близкие к максимальным, но не максимальные значения угла ротации (рис. 3 Б).

4. Минимальные значения угла ротации в выборке (рис. 3 Б) соответствуют максимальным значениям угла I (рис. 3 В).

5. Максимальные значения угла ротации в выборке (рис. 3 Б) соответствуют средним значениям угла I (рис. 3 В) и существенно ниже средних значениям угла II (рис. 3 Г) и угла III (рис. 3 Д).

Таким образом, применение алгоритма построения самоорганизующихся карт Кохо-нена позволило обнаружить в массиве данных скрытые закономерности и на их основе сформулировать правила, позволяющие с определенной степенью приближения определять угол ротации шейки бедра по рентгеновским снимкам в прямой проекции.

Рис. 3. Карты Кохонена, полученные при анализе массива данных.

ЛИТЕРАТУРА 2.

1. Анил К. Джейн, Жианчанг Мао, Моиуд-дин К.М. Введение в искусственные нейронные сети // Открытые системы. - 1997. - № 4. -С. 16-24. 3.

Щетинин В.Г., Комаров В.Т. Дифференциальная диагностика при помощи искусственных нейронных сетей // Клиническая лабораторная диагностика. - М., 1998. - № 11. -С. 34-37.

Щетинин В. Г. и др. Применение методов самоорганизации прогнозирующих моделей

биотехнических систем. - Пенза: ПГУ, 1999. -60 с.

4. Яшина И.Н., Самаха А., Колесник А.И., Иванов А.В., Иванов Д.А. Анализ системной организации бедренной кости человека // Курский научно-практический вестник "Человек и его здоровье". - 2003. - № 2. - С. 92-100.

5. Яшина И.Н., Иванов А.В., Колесник А.И., Иванов Д.А., Самаха А. Системная асимметрия строения проксимального метаэпифиза бед-

ренной кости человека // Журнал теоретической и практической медицины. - 2005. - Т. 3, № 1.- С. 130-133.

6. Яшина И.Н., Иванов Д.А., Иванов А.В., Колесник А.И., Самаха А.А. Устройство для антропометрических измерений длинных трубчатых костей // Патент на изобретение № 2245101, зарегистрирован 27 января 2005 г. опубл. 27.01.05 бюлл. № 3.

i Надоели баннеры? Вы всегда можете отключить рекламу.