Радиационно-эпидемиологическая классификация заболеваемости и смертности ликвидаторов от цереброваскулярных заболеваний методами кластерного анализа и главных компонент
Иванов В.К., Горский А.И., Чекин С.Ю., Кочергина Е.В., Карпенко С.В.
МРНЦ им. А.Ф. Цыба - филиал ФГБУ «ФМИЦ им. П.А. Герцена» Минздрава России, Обнинск
Приведён анализ структуры и классификация цереброваскулярных заболеваний ликвидаторов последствий аварии на ЧАЭС для определения моделей и объектов радиационно-эпидемиологического анализа. Исследование структуры и классификация данных проведена с использованием многомерных исследовательских методов: анализа главных компонент и кластерного анализа, в пространстве переменных, обычно используемых в оценке зависимости доза-эффект для онкологических заболеваний. Анализ реализован с использованием статистического программного обеспечения «Статистика». Источником данных была персональная информация, накопленная в Национальном радиационно-эпидемиологическом регистре (НРЭР, Россия) о 127912 ликвидаторах (мужчинах), за период наблюдения с 1986 по 2012 гг. Число смертей от цереброваскулярных заболеваний - 2412, диагнозов заболеваний - 87917. В результате анализа структуры данных и классификации заболеваний определены: 1 ) набор переменных, которые вносят основной вклад в дисперсию данных о заболеваемости и смертности ликвидаторов от цереброваскулярных заболеваний (ЦВЗ) - возраст, доза облучения, год въезда в зону облучения и регион, из которого прибыл ликвидатор в зону облучения. Набор этих переменных может представлять основу математических моделей для оценки и прогнозирования радиационного риска; 2) заболевания, частота которых коррелирует с частотой ЦВЗ, и которые могут выступать, как мешающие факторы при анализе радиационных рисков для ЦВЗ. Это онкологические заболевания, нозология G81 - для нозоло-гий ЦВЗ: I61, I63, I64, I69. Нозологии D33, G45 и блоки D60-D68, E10-E13, нозологии БСК I10, I20 - для ЦВЗ I60, I67; 3) ориентировочные группы заболеваний, которые могут иметь зависимость от дозы облучения. Из ЦВЗ это - I61, I63, I64, I67, I69.
Ключевые слова: ликвидаторы последствий аварии на ЧАЭС, цереброваскулярные заболевания (ЦВЗ), болезни системы кровообращения (БСК), заболеваемость, смертность, структура данных, классификация, радиационный риск, кластерный анализ, метод главных компонент.
Введение
Смертность от болезней системы кровообращения (БСК) является превалирующей в современном индустриальном обществе. Очевидно, что установленная зависимость заболеваемости БСК от дозы ионизирующего излучения может стать важной социальной проблемой, влияющей на развитие атомных технологий, атомной энергетики, радиотерапии, оценки медицинских последствий радиационных аварий.
В настоящее время основополагающими данными о возможном существовании такой зависимости при дозах облучения меньше 1 Зв являются результаты наблюдений за смертностью в когорте LSS, жителей Японии, переживших атомную бомбардировку [1]. Согласно публикации,
Иванов В.К. - Председатель РНКРЗ, зам. директора по научн. работе, чл.-кор. РАН; Горский А.И.* - вед. научн. сотр., к.т.н.; Чекин С.Ю. - зав. лаб.; Кочергина Е.В. - зав. лаб., к.м.н.; Карпенко С.В. - инженер. МРНЦ им. А.Ф. Цыба - филиал ФГБУ «ФМИЦ им. П.А. Герцена» Минздрава России.
*Контакты: 249036, Калужская обл., Обнинск, ул. Королева, 4. Тел.: (484) 399-32-45; e-mail: [email protected].
статистически значимые радиационные риски смертности от БСК примерно в 4 раза меньше риска индукции радиогенных злокачественных новообразований. Но даже при таком соотношении рисков радиогенные БСК составляют примерно треть от всех радиационно-индуцированных причин смерти в этой когорте. Из других важных результатов этого исследования можно выделить отсутствие заметного влияния мешающих факторов, таких, как курение, алкоголь, профессия, образование, ожирение и диабет, на оценку радиационного риска смерти от заболеваний БСК. Основной вывод исследования - дозы свыше 0,5 Гр могут увеличивать смертность от этих причин. Найдена сильная дозовая зависимость для некоторых нозологических единиц: гипертензии и остановки сердца.
Полезным источником информации по данной проблеме являются радиационно-эпидемиологические исследования заболеваемости и смертности работников атомной промышленности в развитых странах, проведённые в когортах с большой численностью и длительным периодом наблюдения. Из этих работ выделим [2-4], где проведён анализ неонкологической смертности работников атомной промышленности США, Великобритании и совместное исследование в когорте, объединяющей 15 стран. В качестве фактора риска рассматривалась кумулятивная доза. В публикации [2] (когорта США) получены значимые риски для БСК среди контингента, работавшего до 1940 г., когда дозы облучения были достаточно велики (ограничение 0,3 Зв в год). В работе [3] (когорта Великобритании) получен значимый риск для всех БСК, в 4 раза превышающий риск в когорте LSS, и значимые тренды риска для ишемической болезни сердца и, в частности, острого инфаркта миокарда, цереброваскулярных заболеваний (ЦВЗ), хронической ишемической болезни сердца, диабета. В работе [4] риски для БСК близки к рискам в LSS, повышенные риски (статистически не значимые) наблюдались для всех ЦВЗ в целом и для категории «другие ЦВЗ».
Результаты анализа радиационного риска в когорте ликвидаторов (жителей России), период наблюдения с 1986 по 2000 гг., представлены в работе [5]. Статистически значимый избыточный относительный риск получен для ишемической болезни сердца, эссенциальной гипер-тензии и ЦВЗ.
Приведённые исследования охватывают широкий диапазон доз, начиная от хронического облучения малыми и кончая острым облучением большими дозами в когорте LSS. В своей основе результаты этих работ подтверждают существование зависимости доза-эффект для БСК, но коэффициенты этой зависимости варьируются в достаточно широких пределах. Учитывая высокую социальную значимость данной проблемы, дальнейшие исследования представляются необходимыми, в частности, в когорте ликвидаторов, информация о которых накапливается в Национальном радиационно-эпидемиологическом регистре (НРЭР, Россия).
Смертность от ЦВЗ (коды МКБ-10: I60-I69) [6] составляет заметную долю среди всех смертей от БСК (около 20%).
В данной работе приведены результаты предварительного исследования структуры и классификации заболеваемости и смертности от ЦВЗ в когорте ликвидаторов (годы въезда в зону облучения - 1986-1990) за период наблюдения с 1986 по 2012 гг., методом главных компонент (PCA - Principal Component Analysis) и кластерным анализом (CA - Claster Analysis). Метод РСА использован для определения переменных в моделях прогноза и оценки радиационных рисков. Классификация ЦВЗ в пространстве выбранных переменных произведена с использованием подходов кластерного анализа. Для проведения статистического анализа использован пакет «Статистика».
Материалы и методы Общее описание когорты
Рассмотрена когорта ликвидаторов (мужчин) 1986-1990 гг. въезда в зону облучения, имеющих документированные дозы (0-500 мЗв), период наблюдения за когортой - с 1986 по 2012 гг., возраст при облучении - 18-70 лет, достигнутый возраст - 18-85 лет, интервал доз облучения - 1-500 мЗв. Общая численность ликвидаторов, имеющих вышеперечисленную информацию, - 127912 человек.
Рассматриваются ЦВЗ с кодами I00-I69 в классификации МКБ-10. Общее число случаев смерти от ЦВЗ - 2412, диагнозов заболеваний - 87917.
В анализе использованы нозологии этого блока, где число случаев смерти превышало 40 (исключены I62, I65, I66, I68):
160 - субарахноидальное кровоизлияние (126 случаев смерти, 783 диагноза заболеваний).
Включён разрыв аневризмы сосудов мозга. Исключены последствия субарахноидального
кровоизлияния (I69.0).
161 - внутримозговое кровоизлияние (535 смертей, 1449 диагнозов заболеваний).
Исключены последствия кровоизлияния в мозг (I69.1).
163 - инфаркт мозга (554 смерти, 2464 диагноза заболеваний).
Включены закупорка и стеноз церебральных и прецеребральных артерий, вызывающие инфаркт мозга. Исключены осложнения после инфаркта мозга (I69.3).
164 - инсульт, не уточнённый как кровоизлияние или инфаркт (615 смертей, 2624 диагноза заболеваний).
Цереброваскулярный инсульт БДУ. Исключены последствия инсульта (I69.4).
I67 - другие цереброваскулярные болезни (478 смертей, 73442 диагноза заболеваний).
Исключены последствия перечисленных состояний (I69.8).
I69 - последствия цереброваскулярных болезней (62 смерти, 5828 диагнозов заболеваний).
Анализ главных компонент
В контексте данной работы анализ главных компонент (РСА) предназначен для определения факторов, максимально влияющих на дисперсию данных, с целью сокращения размерности рассматриваемых переменных. Подробное изложение подхода приводится, например, в работе [7].
Суть подхода сводится к ортогонализации корреляционной матрицы данных, что приводит к отсутствию корреляций между факторами, с использованием технологии метода наименьших квадратов. Ортогонализация проводится с использованием сингулярного разложения корреляционной матрицы (SVD - singular value decomposition) или при помощи алгоритма Nipals (no linear iteration partial least square).
Использование данного метода представляется полезным при определении дизайна и предварительных эпидемиологических исследований многомерных данных регистра.
Дадим основные определения, которые используются в PCA.
Главные компоненты (principal component) - это прямые (оси факторов), проходящие через облако точек (переменных, наблюдений) в векторном пространстве, проложенные по кри-
терию наименьших квадратов, которые максимизируют суммы квадратов ортогональных проекций (дисперсий).
Фактор - ненаблюдаемая латентная переменная, с помощью которой можно объяснить наблюдаемое сходство полученных оценок.
Собственные значения (eigenvalues) - собственные значения корреляционной матрицы, служат для определения факторных координат переменных и наблюдений, являются мерой вклада данного фактора в общую дисперсию данных. Это дает возможность определить порядок сокращения размерности начального пространства переменных и наблюдений при минимальной потере информации. Так как сумма собственных значений равна числу переменных, хорошим критерием при выборе числа факторов для адекватного описания данных является сохранение тех, для которых собственные значения больше единицы, - среднего значения (правило Кайзера).
В табл. 1 (фрагмент от полной таблицы данных) приведены персональные стандартизованные значения переменных, использованных в анализе (среднее - 0, дисперсия - 1), которые представляют собой набор переменных, обычно применяемый в радиационно-эпидемиологи-ческом анализе.
Наименование колонок (табл. 1) - нозология (диапазон МКБ-10: I60-I69), "reg" - регион, из которого ликвидатор приезжал в зону облучения, "birth" - год рождения, "age" - достигнутый возраст (годы), "t.exp" - время пребывания в зоне облучения (дни), "year.ar" - год прибытия в зону облучения, "a.exp" - возраст при облучении (годы), "d.rate" - мощность дозы (мЗв/день), "dose" - доза внешнего облучения (Зв).
Таблица 1
Фрагмент таблицы стандартизованных данных
Нозология "reg" "birth" "age" "t.exp" "year.ar" "a.exp" "d.rate" "dose"
I62 -1,147 0,126 -1,353 0,283 -0,957 -0,259 -0,108 1,115
I63 -1,147 -0,515 -0,797 -0,129 -0,957 0,395 0,017 0,874
I64 -1,147 -0,034 0,316 0,387 -0,957 -0,095 -0,119 1,236
I64 -0,029 -0,034 0,038 -0,313 -0,957 -0,095 -0,073 -0,093
I67 -0,700 -0,836 0,872 0,425 -0,957 0,722 -0,210 0,390
I67 -0,924 1,570 -3,022 -0,403 -0,957 -1,729 0,412 1,236
I61 -0,700 2,211 -1,770 -0,171 -0,957 -2,383 0,091 1,115
I64 -0,029 -0,034 0,177 -0,067 -0,957 -0,095 0,084 1,478
I67 -0,700 -1,637 0,733 -0,701 -0,957 1,539 0,299 -0,818
I63 -0,700 -0,194 0,177 -0,725 -0,957 0,068 5,708 1,840
I61 -1,147 -0,675 -0,658 -0,077 -0,957 0,558 -0,174 -0,093
I63 -0,029 -1,477 0,872 -0,209 -0,957 1,375 -0,359 -1,216
I61 0,195 0,126 -0,241 -0,209 -0,957 -0,259 0,247 1,719
I61 -0,700 -0,675 0,316 -0,011 -0,957 0,558 -0,099 0,511
I64 -0,700 -0,194 0,455 -0,337 -0,957 0,068 0,328 1,357
I64 -1,147 -1,637 1,707 -0,441 -0,957 1,539 0,415 0,994
В табл. 2 приведены собственные значения корреляционной матрицы смертности, определяющие важность факторов при описании данных (для матрицы заболеваемости значения практически идентичны).
В первой колонке табл. 2 приведены номера факторов в порядке убывания их важности (описанной фактором дисперсии данных), в колонке 2 - собственные значения, в колонке 3 -проценты описанной дисперсии. Из табл. 2 следует, что первый фактор описывает (2,77/8)х 100=34,7% полной дисперсии, а первые 4 фактора описывают 82% от общей диспер-
сии (колонка 5). Меру корреляции наблюдаемых переменных с факторами в графическом виде можно увидеть из единичных кругов корреляций.
Таблица 2
Собственные значения РСА
Фактор Собственное значение Полная дисперсия, % Кумулятивные собственные значения Кумулятивная дисперсия, %
1 2,773090 34,66362 2,773090 34,6636
2 1,840697 23,00872 4,613787 57,6723
3 0,986648 12,33310 5,600435 70,0054
4 0,949702 11,87127 6,550137 81,8767
5 0,777466 9,71833 7,327603 91,5950
6 0,365199 4,56499 7,692802 96,1600
7 0,307198 3,83997 8,000000 100,0000
Круг корреляций для факторов 1-2, с их собственными значениями в процентах, представлен на рис. 1: чем ближе точка, представляющая переменную, к единичной окружности, тем сильнее корреляция переменной с фактором. Как для заболеваемости, так и для смертности первый фактор (горизонтальная ось) сильно коррелирован (отрицательно) с годом рождения, возрастом и возрастом при облучении.
Переменные возраст и возраст при облучении, доза и мощность дозы также сильно коррелированны между собой положительно (расположены близко друг к другу). Второй фактор разделяет дозу, мощность дозы и год въезда (меньше год въезда - больше доза и мощность дозы), что также известно по данным НРЭР. Переменные регион и время облучения расположены близко к центру, что говорит об их слабой корреляции с факторами 1-2. Кроме того, из рис. 1 следует, что доза и мощность дозы слабо коррелированны с годом рождения (угол между ними на рисунке близок к 90 градусам), то же самое можно сказать про возраст и дозу. Таким образом, первые два фактора объясняют 58% дисперсии данных (значения для каждого фактора приведены на осях), надпись «активные», в нижнем углу, обозначает, что эти переменные были использованы при определении главных компонент. На рис. 2 приведён круг корреляций для факторов 3-4.
Смертность
-1.0 -0.5 0.0 0.5
Фактор 1 : 34.66%
о Активные
Заболеваемость
-1.0 -0.5 0.0 0.5
Фактор 1 : 35.90%
о Активные
Рис. 1. Круг корреляций переменных и факторов 1-2.
1.0
1.0
0.5
0.5
0.0
0.0
-0.5
-0.5
-1.0
-1.0
1.0
1.0
Смертность
\
/ \
/ \
\ .
7
"year.ar"
"чи xp"
"dose" /
¡Karate" •
V'texD"-' \ ! / /
\
\ "reg
-0.5 0.0 0.5
Фактор 3 : 12.33%
о Активные
Заболеваемость
/exp гед
dose birth
«Ю f-sdrate
У e^rar^
-1.0 -0.5 0.0 0.5
Фактор 3 : 12.68%
о Активные
Рис. 2. Круг корреляций переменных и факторов 3-4.
.0
.0
0.5
0.5
0.0
0.0
-0.5
-0.5
-1.0
-1.0
.0
-1.0
1.0
Факторы 3-4 эквивалентны по доле объяснённой дисперсии, фактор 3 представляет время облучения, а фактор 4 - регион, время облучения и регион слабо коррелированны.
Как следует из рис. 1, 2, корреляции переменных с факторами одинаковы для заболеваемости и смертности.
Главная цель РСА - это сокращение размерности данных. Из анализа кругов корреляций для четырёх компонент из переменных «возраст», «возраст при облучении» и «год рождения», которые сильно коррелированны, выберем традиционную переменную «возраст», которая обычно используется в эпидемиологических исследованиях. По тем же соображениям выберем «дозу облучения». Таким образом, имеем четыре выбранных переменных: «возраст», «доза», «год приезда» и «регион».
Анализ корреляций представляет лишь одну из многих возможностей РСА. Продемонстрируем дополнительные возможности РСА. Будем считать выбранные переменные: возраст, доза, год приезда, регион активными, главные компоненты будут определяться только в пространстве этих переменных; остальные - дополнительными компонентами, играющими вспомогательную роль в анализе данных. Выберем, для примера, нозологию !69, как активные наблюдения для построения главных компонент, а остальные - как дополнительные.
Разделим наблюдения на две группы: ликвидаторы, приехавшие в зону в 1986 г., и все остальные, введём новую групповую переменную «yеar», которая имеет значения «у86» -въезд в 1986 г. и «у87» - для остальных. Круг корреляций в этом случае будет иметь вид (рис. 3). Фактор 1 наиболее сильно коррелирован с дозой и годом приезда, фактор 2 - с возрастом, годом приезда и регионом.
На рис. 4 приведена карта активных наблюдений в факторном пространстве с указанием их групповой принадлежности. Из рисунка следует, что ликвидаторы 1986 г. въезда, умершие от !69, разделяются по дозе облучения от остальных, умерших от этой причины (компонента 1 и по региону компонента 4).
Так как ликвидаторы, бывшие в зоне облучения в 1986 г., получили большие дозы, чем остальные, данный результат позволяет предположить о существовании дозовой зависимости
для этого заболевания и который можно рассматривать как радиационно-эпидемиологическую классификацию заболеваний.
Факторы 1-2
-0.5 0.0 0.5
Фактор 1 : 42.15%
о Активные □ Дополнительные
Факторы 3-4
-0.5 0.0 0.5
Фактор 3 : 18.36%
о Активные □ Дополнительные
1.0
1.0
0.5
0.5
0.0
0.0
-0.5
-0.5
-1.0
-1.0
-1.0
.0
-1.0
.0
Рис. 3. Круги корреляций для активных переменных «возраст», «доза», «год приезда» и «регион».
Факторы 1 -2
у87
' у 87 О у87 О
у87
. О у86 ' О
ЯШ77УЯ ^^7у86у8б у 86 '
"<8^ ж У87Й886866'
Уда7 у86у уЩГ
■ у87 0
у87 у 86 Я56
. О о
■2 0 2 Фактор 1: 42.15%
Факторы 3-4
у87
у86 ° у86
у86
о дд
8я8у8И? да
¡ю у8
у87 У887 !у07у87о
у87 о у86у ? <76
—у8 7
у87
-4 -3 -2 -1 0 1 2 3 4 5 6
Фактор 3: 18.36% о Активные
4
4
6
8
Рис. 4. Карта наблюдений 169 в двухфакторном пространстве.
Как главный результат проведённого РСА можно рассматривать определение 4-х переменных, дающих максимальный вклад в дисперсию данных: возраст, доза облучения, год прибытия в зону аварии и регион, которые могут быть использованы в анализе зависимости ЦВЗ от дозы облучения (определение радиационного риска) и прогнозировании последствий облучения в контексте заболеваемости и смертности от ЦВЗ.
Кластерный анализ
Задачей данного кластерного анализа является классификация нозологий в пространстве рассматриваемого набора переменных. Детальное описание кластерного анализа с практическими примерами можно найти, например, в работе [8]. Для кластерной классификации были выбраны нозологии ЦВЗ, использованные в анализе РСА, дополнительно введена категория
«здоровых» при анализе смертности, добавлены заболевания, которые могут быть коррелированными по частоте диагностики с рассматриваемыми (I60-I69). Список таких заболеваний получен на основании известных клинических и опубликованных данных.
Список блоков заболеваний, частота диагностики которых может коррелировать с ЦВЗ:
I10-I15 - болезни, характеризующиеся повышенным кровяным давлением (41714 диагнозов);
I20-I25 - ишемическая болезнь сердца (189093 диагноза);
С00-С97 - злокачественные новообразования (13314 диагнозов);
Е10-Е13 - сахарный диабет (11099 диагнозов);
G30-G32 - другие дегенеративные болезни центральной нервной системы (1735 диагнозов);
S00-S09 - травмы головы (11269 диагнозов);
D33-D34 - доброкачественные новообразования головного мозга и других отделов нервной системы (179 диагнозов);
D50-D59 - анемии, связанные с питанием, и гемолитические анемии;
D60-D69 - апластические и другие анемии и нарушение свертываемости крови (1800 диагнозов);
Е65-Е68 - ожирение и другие виды избыточности питания (11366 диагнозов);
G45-G47 - эпизодические и пароксизмальные расстройства (1465 диагнозов);
нозология G81 - гемиплегия (481 диагноз);
нозология H34 - окклюзии сосудов сетчатки (720 диагнозов).
В пакете «Статистика» для проведения кластерного анализа реализовано три подхода: «Дерево кластеров», задание числа кластеров и двустороннее объединение. Для классификации используем первые два, наиболее часто используемые в практике. Кластеризация этими методами может быть произведена, как в пространстве переменных, так и в пространстве наблюдений.
Для проведения кластеризации данные представляются в виде таблицы, столбцы которой - переменные, строки - нозологии (наблюдения), а в ячейках - стандартизованные средние значения переменных.
Дерево кластеров «Tree clasters». Дерево кластеров нозологий в пространстве переменных представлено на рис. 5. При формировании дерева кластеров определяется расстояние между объектами (x,y), в нашем случае объектами являются причины смерти или заболевания, которые характеризуются выбранным набором переменных (их средними значениями). Расстояние между объектами получено с использованием эвклидова расстояния d, которое рассчитывается по формуле:
d = (Z (Xi - V,)2)05,
i
где i - индекс размерности пространства, в котором производится кластеризация. Для линкид-жа (связи между кластерами) использован метод «Ward», который использует дисперсионный анализ и минимизирует внутригрупповую дисперсию между двумя гипотетическими объединяемыми кластерами на каждом шаге кластеризации.
По оси абсцисс на рис. 5 приведено расстояние кластеризации в процентах от максимального: чем меньше расстояние, тем больше общность объектов, входящих в кластер.
Как следует из рис. 5, для причин смерти и заболеваний можно выделить три кластера.
Смертность
""H"" ""60"" "G30" ""S0*"" ""I10"" ""E10"" ""69""
""64"" ""67""
60
(Dlink/Dmax)*100
Заболеваемость
40 60 80
(Dink/Dmax)*100
0
20
40
80
Рис. 5. Дерево кластеров наблюдений в пространстве переменных.
Для смертности первый кластер включает здоровых (выживших) членов когорты, умерших от травм головы и дегенеративных болезней нервной системы. Для второго кластера наблюдается корреляция смертей от последствий ЦВЗ (I69) со смертями от диабета (E10) и ги-пертензией (110-115). Известно, что гипертензия и сахарный диабет являются не только основными факторами риска возникновения острых нарушений мозгового кровообращения (ОНМК), но и заболеваниями, отягчающими течение ОНМК и восстановление пациента. Для третьего кластера видна схожесть смертей от I61, I63, I64, I67 в пространстве рассматриваемого набора переменных с ишемической болезнью сердца (ИБС) (I20-I25) и злокачественными новобразова-ниями (С0*). ИБС является клиническим выражением атеросклеротического поражения коронарных артерий, что указывает и на природу проблем с сосудами головного мозга. Злокачественное новообразование, согласно правилам выбора основной причины смерти (МКБ-10, Т. 2, с. 75), является заболеванием, при котором ОНМК «следует рассматривать как возможный последовательный ряд событий», т.е. как следствие или осложнение онкологической патологии.
Для заболеваний следует выделить кластер (внизу рисунка), объекты которого не коррелируют с ЦВЗ, слабую корреляцию G81 с двумя другими кластерами. Логичным выглядит сочетание кодов I63-I64 (ОНМК) с блоком, в который входят коды I67_ - другие цереброваскулярные болезни и I69_ - последствия цереброваскулярных заболеваний, а также с кодом G81 - гемип-легия, в основном являющейся последствием ОНМК.
Задание числа кластеров (K mean clusters). Выделим кластеры, используя подход с заданием числа кластеров. Число кластеров, равное 3, определим из дерева кластеров.
Этот подход радикально отличается от предыдущего. Алгоритм подхода начинает работать со случайно выбранным числом кластеров, затем перемещает объекты так, чтобы минимизировать изменчивость внутри кластеров и максимизировать изменчивость между кластерами. Подход имеет сходство с дисперсионным анализом ANOVA, с той разницей, что ANOVA оценивает внутригрупповую вариабельность против межгрупповой, для проведения теста значимости отличия средних, тогда как данный подход смещает объекты вне групп, чтобы получить наиболее значимый ANOVA результат, то есть алгоритм ANOVA является частью данного процесса кластеризации.
Результат кластеризации этим методом практически совпадает с деревом кластеров: также выделяется некоррелированный с ЦВЗ кластер с теми же объектами, отличие состоит в том, что в других двух кластерах происходит обмен объектами !20, E10, И0.
На рис. 6 приведены средние значения переменных в кластерах наблюдений.
Объекты в кластерах для заболеваемости:
Кластер 1 - D50, E66, G30, G46, Н34, S0*;
Кластер 2 - !©1, !63, !64, !69, C0*, G81;
Кластер 3 - И0, !20, !60, !67, D33, D60, E10, G45.
В данном случае первый кластер не содержит кодов (и, соответственно, заболеваний) из блока ЦВЗ. Коды Е66 - ожирение, G30 - болезнь Альцгеймера, D50 - железодефицитная анемия практически не связаны с рассматриваемыми нами цереброваскулярными заболеваниями, но имеют довольно чёткую связь с кодом Н34 - окклюзии сосудов сетчатки, что требует дальнейшего исследования. Присутствие в данном кластере кодов S0* - травмы головы - свидетельствует, скорее всего, о посттравматической природе регистрируемых у ликвидаторов окк-люзий сосудов сетчатки.
Второй кластер подтверждает связь между заболеваниями, обозначенными кодами !61, !63-!64 (ОНМК) c кодами !69_ - последствия цереброваскулярных заболеваний, а также с кодом G81 - гемиплегия, в основном являющимися последствием ОНМК, а также со злокачественными новообразованиями.
Третий кластер демонстрирует связь частоты субарахноидального кровоизлияния (!60) с наличием гипертонической болезни (И0) - основного фактора риска для ОНМК, с анапластиче-ской анемией ^60), заболеванием крови, при котором страдают функции, и свертывающей системы крови, а также с инсулинозависимым сахарным диабетом (Е10), при котором отмечаются глобальные нарушения микроциркуляции, гипоксия тканей и изменения в сосудистой стенке артерий, в том числе мозговых. Многолетний опыт работы показывает, что основными выставляемыми в первоисточниках медицинских документов диагнозами из рубрики !67_ являются три нозологии: церебральный атеросклероз !67.2, гипертензивная энцефалопатия !67.4 и дисциркуляторная энцефалопатия !67.8 - патологические состояния, связанные с хронической церебральной недостаточностью, следствием и терминальным проявлением которой также могут быть ОНМК. Кроме того, результатами исследования дополнительно подтверждён факт, что истинному ОНМК часто предшествуют преходящие (динамические) нарушения мозгового кровообращения ^45) - связь этих кодов очевидна.
Информация, приведённая на рис. 6, полезна тем, что показывает вариации переменных в различных кластерах: например, для экспертной оценки заболеваний, которые могут быть коррелированны с дозой облучения. Интересен рисунок для смертности, где имеется категория «Ж» - здоровые. Очевидно, что при наличии такой корреляции, доза облучения для случаев должна быть выше, чем у здоровых. Согласно рисунку, это, прежде всего, кластер 2 и, возможно, кластер 1. Ответ о наличии дозовой зависимости для конкретного заболевания должен дать специальный регрессионный анализ. Кластер 2 отличается большими номерами регионов, минимальным годом прибытия в зону, большим возрастом и минимальным временем облучения, большим возрастом при облучении. Кластер 3 характеризуется более молодым возрастом и большим годом прибытия в зону.
Смертность
График средних в каждом кластере
birth age t.exp year.ar a.exp d.rate dose Переменные
-е- Кл. 1 20,61,63,64, I67,C0*
-в- Кл. 2 I10,H69,E10 -»- Кл. 3 Н, I60, G30,S0*
Заболеваемость
Средние значения переменных в кпастерахг
с''' / \ / .......... \
\ / \
__._._.__
"age" "year.ar" "d.rate"
"birth" "t.exp" "a.exp" "dose"
Переменные
-о- Кластер 1 -□- Кластер 2 Кластер 3
2.0
0.0
-0.5
-1.0
-1.5
-2.0
Рис. 6. График средних значений переменных в кластерах.
Как видно из приведённых результатов, кластерная классификация определяет заболевания, частота которых коррелирована с ЦВЗ и которые могут быть мешающими факторами при анализе радиационных рисков; определяет гетерогенность данных по переменным, которая также должна быть учтена соответствующей группировкой данных; дает оценку групп заболеваний, которые могут иметь зависимость от дозы облучения.
Обсуждение результатов
Главной целью данной работы был анализ структуры и классификации данных о заболеваемости и смертности ликвидаторов от ЦВЗ с использованием многомерных статистических методов: анализа главных компонент и кластерного анализа. Выбор данных подходов обусловлен наличием многих факторов, которые могут влиять на заболеваемость и смертность от ЦВЗ, имеющих много нозологий. В результате анализа выявлена важность переменных, потенциальных компонент моделей риска, установлены внутренние связи между переменными и наблюдениями. Очевидно, что такое исследование должно быть предтечей радиационно-эпидемиологи-ческого анализа для выявления зависимости доза-эффект для конкретных нозологий и блоков заболеваний, тем более, что в этой работе продемонстрирована лишь небольшая часть возможностей данных подходов.
Сложность радиационно-эпидемиологического анализа заболеваемости и смертности от ЦВЗ обусловлена наличием большого количества мешающих (confounding) факторов, которые могут быть коррелированны с радиогенными заболеваниями. Прежде всего, это социально-экономические условия, тесно связанные с образом жизни и образом питания, которые, в конечном счёте, выражаются как во вредных привычках, курении и потреблении алкоголя, так и ожирении, наличии гипертензии или диабета и др. Учёт этих факторов требует проведения масштабных, трудоёмких и дорогостоящих исследований. Важным мешающим фактором, который, как правило, не учитывается в эпидемиологических исследованиях из-за сложности моделирования, является также наличие корреляций частот изучаемых заболеваний с другими за-
болеваниями. Второй важной причиной, обуславливающей сложность изучения данной проблемы, являются недостаточные знания о биологическом механизме воздействия облучения на заболеваемость БСК (в том числе и ЦВЗ) в области доз менее 1 Зв. В качестве механизмов, объясняющих воздействие радиации на исследуемую заболеваемость и смертность, рассматриваются гипотезы о прямом повреждении сосудистой микроструктуры миокарда или непрямом образовании фиброзов после такого воздействия. Повреждение микроструктуры сосудов может ограничивать сердечную реакцию на дополнительные стрессоры, как гипертензия и субклиническая ишемическая болезнь. Интерпретация результатов анализа многофакторных данных также представляет сложную исследовательскую задачу.
Согласно указанным аргументам, статистическое исследование структуры многомерных данных о заболеваемости и смертности от ЦВЗ представляется полезным и необходимым, как дающее дополнительные знания для решения данной проблемы.
Следует отметить, что комплексный РСА и кластерный радиационно-эпидемиологический анализ данных о заболеваемости ЦВЗ проведён впервые в российской эпидемиологической практике.
Основные выводы
1. В результате анализа главных компонент (РСА) определён набор переменных, которые вносят основной вклад в дисперсию данных о заболеваемости и смертности ликвидаторов от ЦВЗ: возраст, доза облучения, год въезда в зону облучения и регион, из которого прибыл ликвидатор в зону облучения. Набор этих переменных может представлять основу математических моделей для оценки и прогнозирования радиационного риска.
2. Определены заболевания, частота которых коррелирует с частотой ЦВЗ, и которые могут выступать как мешающие факторы при анализе радиационных рисков для ЦВЗ. Это онкологические заболевания С00-С96, нозология G81 - для нозологий ЦВЗ: 161, 163, 164, 169. Заболевания блоков Р33, Р60, Е10, 045, нозологий БСК 110, 120 - для ЦВЗ 160, 167.
3. Определены ориентировочные группы заболеваний, которые могут иметь зависимость от дозы облучения. Из ЦВЗ это 161, 163, 164, 167, 169.
4. Результаты проведённого исследования и классификации данных о ЦВЗ ликвидаторов следует рассматривать как предварительные. Такая оценка обусловлена, прежде всего, качеством диагностики и классификации заболеваний по кодам МКБ, ограниченным набором связанных с заболеванием факторов, а также со сложностью интерпретации связей в многофакторных данных.
Исследование выполнено за счёт гранта Российского научного фонда (проект №14-1500826).
Литература
1. Shimizu Y., Kodama K., Nishi N., Kasagi F., Suyama A., Soda M., Grant E.J., Sugiyama H., Sakata R., Moriwaki H., Hayashi M., Konda M., Shore R.E. Radiation exposure and circulatory disease risk: Hiroshima and Nagasaki atomic bomb survivor data, 1950-2003 //BMJ. 2010; 340: b5349. doi: 10.1136/bmj.b5349.
2. Hauptmann M., Mohan A.K., Doody M.M., Linet M.S., Mabuchi K. Mortality from diseases of the circulatory system in radiologic technologists in the United States //Am. J. Epidemiol. 2002. V. 157, N 3. Р. 239-248.
3. Vrijheid M., Cardis E., Ashmore P., Auvinen A., Bae J.M., Engels H., Gilbert E., Gulis G., Habib R.R, Howe G., Kurtinaitis J., Malker H., Muirhead C., Richardson D.B, Rodriguez-Artalejo F., Rogel A., Shubauer-Berigan M., Tardy H., Telle-Lamberton M., Usel M., Veress K. Mortality from diseases other than cancer following low doses of ionizing radiation: results from the 15-Country Study of nuclear industry workers //Int. J. Epidemiol. 2007. V. 36. P. 1126-1135.
4. McGeoghegan D., Binks K., Gillies M., Jones S., Whaley S. The non-cancer mortality experience of male worker at British nuclear fuels plc., 1946-2005 //Int. J. Epidemiol. 2008. V. 37. P. 506-518.
5. Ivanov V.K., Maksioutov M.A., Chekin S.Yu., Petrov A.V., Biryukov A.P., Kruglova Z.G., Matyash V.A., Tsyb A.F., Manton K.G., Kravchenko J.S. The risk of radiation-induced cerebrovascular disease in Chernobyl emergency workers //Health Physics. 2006. V. 90, N 3. P. 199-207.
6. Международная статистическая классификация болезней и проблем, связанных со здоровьем. Десятый пересмотр. Женева: ВОЗ, 1995.
7. Айвазян С.А., Бухтштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: классификация и снижение размерности. М.: Финансы и статистика, 1989. 607 с.
8. Олдендерфер М.С., Блэшфилд Р.К. Кластерный анализ //Факторный, дискриминантный и кластерный анализ: пер. с англ. /Под. ред. И.С. Енюкова. М.: Финансы и статистика, 1989. 215 с.
Radiation epidemiological classification of cerebrovascular morbidity and mortality among Chernobyl clean up workers with use of claster analysis and method
of principal components
Ivanov V.K., Gorsky A.I., Chekin S.Yu., Kochergina E.V., Karpenko S.V.
A. Tsyb MRRC of A. Hertsen FMRC MH RF, Obninsk, Russia
Structure and classification of cerebrovascular morbidity and mortality among Chernobyl clean up workers were examined for determination of models and objects for radiation epidemiological analysis. For investigation cluster analysis and method of principal components were applied in a space of variables used for estimating relationship between dose and tumor diseases development. Analysis was carried out with the use of statistical software "Statistika". Sources of data were personal information about 127912 clean up workers (men) accumulated in the National Radiation Epidemiological Registry for the period from 1986 to 2012. The number of deaths from cerebrovascular diseases (CVD) was 2412, the number of diagnoses - 87917. As a result of the study the following was identified: 1) a set of variables, which were main contributors to dispersion of data on cerebrovascular morbidity and mortality among clean up workers, they are age, radiation dose, date of entering the 30-km dose, region, from which a worker came in the radiation zone. The set of variables can serve as the basis for mathematical models and calculation of radiation risk; 2) the diseases, which can be considered as confounded factors for calculating radiation risks of CVD, they are G81 for I61, I63, I64, I69, D33, G45 and blocks D60-D68, E10-E13, I10, I20 - for I60, I67; 3) groups of diseases, which can depend on radiation doses, these are I61, I63, I64, I67, I69.
Key words: Chernobyl clean up workers, cerebrovascular diseases, circulation diseases, morbidity, mortality, structure of data, classification, radiation risk, cluster analysis, method of principal components.
Ivanov V.K. - Chairman of RSCRP, Deputy Director, Corresponding Member of RAS; Gorsky A.I.* - Lead. Researcher, C. Sc., Tech.; Chekin S.Yu. - Head of Lab.; Kochergina E.V. - Head of Lab., C. Sc., Med.; Karpenko S.V. - Engineer. MRRC. •Contacts: 4 Korolyov str., Obninsk, Kaluga region, Russia, 249036. Tel.: (484) 399-32-45; e-mail: [email protected].
References
1. Shimizu Y., Kodama K., Nishi N., Kasagi F., Suyama A., Soda M., Grant E.J., Sugiyama H., Sakata R., Moriwaki H., Hayashi M., Konda M., Shore R.E. Radiation exposure and circulatory disease risk: Hiroshima and Nagasaki atomic bomb survivor data, 1950-2003. BMJ, 2010; 340: b5349. doi: 10.1136/bmj.b5349.
2. Hauptmann M., Mohan A.K., Doody M.M., Linet M.S., Mabuchi K. Mortality from diseases of the circulatory system in radiologic technologists in the United States. Am. J. Epidemiol., 2002, vol. 157, no 3, pp. 239248.
3. Vrijheid M., Cardis E., Ashmore P., Auvinen A., Bae J.M., Engels H., Gilbert E., Gulis G., Habib R.R, Howe G., Kurtinaitis J., Malker H., Muirhead C., Richardson D.B, Rodriguez-Artalejo F., Rogel A., Shubauer-Berigan M., Tardy H., Telle-Lamberton M., Usel M., Veress K. Mortality from diseases other than cancer following low doses of ionizing radiation: results from the 15-Country Study of nuclear industry workers. Int. J. Epidemiol., 2007, vol. 36, pp. 1126-1135.
4. McGeoghegan D., Binks K., Gillies M., Jones S., Whaley S. The non-cancer mortality experience of male worker at British nuclear fuels plc., 1946-2005. Int. J. Epidemiol., 2008, vol. 37, pp. 506-518.
5. Ivanov V.K., Maksioutov M.A., Chekin S.Yu., Petrov A.V., Biryukov A.P., Kruglova Z.G., Matyash V.A., Tsyb A.F., Manton K.G., Kravchenko J.S. The risk of radiation-induced cerebrovascular disease in Chernobyl emergency workers. Health Physics, 2006, vol. 90, no 3, pp. 199-207.
6. International Statistical Classification of Diseases and Related Health Problems. 10th Revision. Geneva, 1995.
7. Ayvazyan S.A., Bukhtshtaber V.M., Enyukov I.S., Meshalkin L.D. Applied statistics: classification and dimension reduction. Moscow: Finances and Statistics, 1989. 607 p. (In Russian).
8. Oldenderfer M.S., Bleshfild R.K. Cluster analysis: Factor, discriminant and cluster analysis. Moscow: Finances and Statistics, 1989. 215 p. (In Russian).