Научная статья на тему 'Многофакторный анализ при формировании групп высокого онкологического риска'

Многофакторный анализ при формировании групп высокого онкологического риска Текст научной статьи по специальности «Клиническая медицина»

CC BY
638
104
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОНКОЛОГИЧЕСКИЙ РИСК / МНОГОФАКТОРНЫЙ АНАЛИЗ / ОНКОЛОГИЯ

Аннотация научной статьи по клинической медицине, автор научной работы — Лазарев А. Ф., Петрова В. Д., Терехова С. А., Синкина Т. В.

В статье представлены результаты исследования, доказывающие, что применение многофакторного анализа в определенных контингентах населения с использованием методов определения относительного риска, корреляционных коэффициентов и формированием групп высокого онкологического риска по результатам дискриминантного анализа позволяет значительно повысить эффективность онкологической диспансеризации населения и улучшить раннюю диагностику злокачественных новообразований.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по клинической медицине , автор научной работы — Лазарев А. Ф., Петрова В. Д., Терехова С. А., Синкина Т. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Многофакторный анализ при формировании групп высокого онкологического риска»

_БЮЛЛЕТЕНЬ МЕДИЦИНСКОЙ НАУКИ Ж (5) 2017

УДК 616-006-36.22

МНОГОФАКТОРНЫЙ АНАЛИЗ ПРИ ФОРМИРОВАНИИ ГРУПП ВЫСОКОГО ОНКОЛОГИЧЕСКОГО РИСКА

Алтайский государственный медицинский университет, г. Барнаул

Алтайский филиал Российского онкологического центра им. Н.Н. Блохина, г. Барнаул

Алтайский краевой онкологический диспансер, г. Барнаул

Лазарев А.Ф., Петрова В.Д., Терехова С.А., Синкина Т.В.

В статье представлены результаты исследования, доказывающие, что применение многофакторного анализа в определённых контингентах населения с использованием методов определения относительного риска, корреляционных коэффициентов и формированием групп высокого онкологического риска по результатам дискриминантного анализа позволяет значительно повысить эффективность онкологической диспансеризации населения и улучшить раннюю диагностику злокачественных новообразований. Ключевые слова: онкологический риск, многофакторный анализ, онкология.

The article presents the results of the research, proving that the implementation of multivariate analysis in particular contingents of population using the methods of determination of relative risk, correlation coefficients and formation of groups with high risk of oncology allows to considerably increase the effectiveness of oncological periodic health examination and improve early diagnostics of malignant tumors. Key words: oncological risk, multivariate analysis, oncology.

Большинство злокачественных опухолей человека имеет многофакторную природу, т.е. в их возникновении играют роль факторы как генетические, так и внешнесредовые [9].

Сегодня уже установлены основные факторы риска злокачественных опухолей. К ним относят курение и другие формы потребления табака, особенности питания, эндогенные и экзогенные гормоны, потребление алкогольных напитков, профессиональные канцерогены, загрязнение воздуха, ультрафиолетовое изучение, ионизирующую радиацию, инфекционные факторы, наследственность [5].

Однако роль и степень влияния их на развитие различных злокачественных новообразований человека неодинакова. Так, «курение табака является главной причиной развития рака лёгкого у мужчин, тогда как при раке молочной железы у женщин роль этого фактора незначительна, а по мнению некоторых авторов, играет даже защитную функцию. Аналогичным образом обстоит дело и с другими факторами риска: большое количество беременностей и родов профилактирует рак молочной железы и повышает риск развития рака шейки матки, а приём тамоксифена снижает риск рецидива рака молочной железы, но повышает опасность развития рака эндометрия. Поэтому необходимо установить свой перечень факторов риска для каждой злокачественной опухоли.

В настоящее время известны основные факторы риска при многих злокачественных новообразованиях, например:

• рак лёгкого: курение, асбест, радон, другие «профессиональные канцерогены» (хлорметил, хром, никель, мышьяк), питание (дефицит витаминов А, С, Е, (3-ка-

ротина), ионизирующая радиация, генетические/наследственные факторы;

• рак желудка: генетические (группа крови П(А), пернициозная анемия, семейный анамнез рака желудка, наследственный неполипозный колоректальный рак, синдром Ли-Фраумени и др.; предшествующие заболевания (хронический атрофический гастрит, аденоматозный полип желудка и др.), факторы питания (избыточное употребление соли и нитратов, недостаток витаминов А и С и др.); курение, инфекция Helicobacter pylori, вирус Epstein-Barr; предшествующие операции по поводу язвы желудка; ионизирующее излучение;

• рак молочной железы: возраст, рак молочной железы в семейном и личном анамнезе, гиперэстрогения (раннее менархе, поздняя менопауза, заместительная гормонотерапия/оральные контрацептивы); отсутствие родов; первая беременность после 30 лет; питание и образ жизни (ожирение, злоупотребление алкоголем); воздействие ионизирующего излучения до 40-летнего возраста; предшествующие доброкачественные и пограничные изменения в молочной железе (рак in situ, атипическая гиперплазия, радиальные рубцы) и т.п. [7; 14; 15].

Важно определить степень влияния каждого фактора на развитие того или иного заболевания. В большинстве клинических ситуаций одновременно действуют несколько факторов, между которыми существуют взаимные влияния. Общий эффект от двух факторов может быть выше индивидуальной суммы, а может

быть и ниже. Поэтому важным условием получения точных прогностических и диагностических данных является правильный выбор методов статистической обработки материала.

Многофакторный анализ - это совокупность методов одновременного рассмотрения воздействия многих переменных. Они используются для того, чтобы корректировать эффекты множества исследуемых переменных для выявления независимого действия одного фактора, позволяют выделить из большого числа переменных те, которые вносят независимый и существенный вклад в исход, и упорядочить переменные по силе их влияния на исход [4,12].

Прогресс в области медицины в значительной степени может быть связан с новыми возможностями компьютерных исследовательских программ, поскольку они являются не только средствами статистической обработки данных, но и инструментом медико-биологического познания [3; 4].

Если задача исследователя не ограничивается только констатацией факта отличия средних, а ставится проблема поиска существующих связей, то на первом, разведочном этапе применяется исследование коэффициентов корреляций [4; 10]. Дополнительная задача корреляционного анализа (являющаяся основной в регрессионном анализе) состоит в оценке уравнений регрессии, где в качестве результативного выступает признак, являющийся следствием других признаков (факторов, причин) [1; 2].

Целью факторного анализа является попытка качественно описать большую совокупность имеющихся параметров, как бы суммировать информацию и получить факторы, имеющие некий биологический смысл [5; 10]. Особенностью факторного анализа является его непредвзятость с точки зрения анализа объектов, так как фактически основной анализ производится над корреляционной матрицей, не включающей информацию о каждом объекте. Использование таких подходов и помогает решать современные задачи.

Нами создана база данных, включающая информацию по различным факторам, отражающим гено- и фенотип человека на основе обследования > 10 тыс. больных злокачественными новообразованиями и > 10 тыс. пациентов без онкологической патологии. Факторный анализ включал > 100 различных факторов и > 500 их параметров.

Значимые факторы и их параметры для каждого новообразования выявлялись методом определения относительного риска (КЛ) и их доверительных интервалов [11].

Степень влияния фактора на развитие той или иной опухоли устанавливали методом корреляционного анализа [6].

Группа пациентов с высоким онкологическим риском формировалась на основе дискри-минантного анализа [11].

Статистическая обработка данных проводилась методами вариационной статистики с определением показателя вероятности по таблице Стьюдента с помощью электронной таблицы Microsoft Excel в операционной системе Microsoft Windows. Статистически значимыми принимались различия при величине достоверности р < 0,05 [4].

На примере рака желудка для определения силы связи развития рака желудка с факторами внешней и внутренней среды организма каждый из этих факторов был разделён на несколько (от 2 до 72) вариантов значений по силе и качественным характеристикам воздействия. Для каждого значения был определён коэффициент корреляции. При наличии трёх и более вариантов значений одного признака исследовалось каждое его значение отдельно в сравнении со всеми остальными наблюдениями [6]. Были исследованы 131 фактор и 526 их вариантов.

Для 285 вариантов были установлены положительные коэффициенты корреляции (при таком значении фактора связь его с раком желудка - прямая), при 241 - отрицательные (при этом значении фактора связь его с раком желудка — обратная).

Положительные значения коэффициентов корреляции варьировали от 0,0001 до 0,5144; отрицательные - от -0,0004 до -0,5193.

Статистически значимую связь между значением фактора и раком желудка показали только коэффициенты корреляции более 0,3 (связь прямая) и менее -0,3 (связь обратная).

Положительные значения коэффициентов корреляции (г), превышающие 0,3, получены для следующих признаков: возраст 60 лет и старше (0,4990); нерегулярное питание (0,3043); употребление только крепких (40° и более) алкогольных напитков в неразбавленном виде (0,3302); перерывы между приёмами пищи восемь часов и более (0,5116); употребление маринованных продуктов и солений чаще двух раз в неделю (0,3536); употребление острой пищи чаще двух раз в неделю (0,4037); употребление животных жиров (в том числе для жарения) чаще двух раз в неделю (0,4739); употребление свежих овощей, фруктов, зелени редкое, даже в сезон (0,3480); отказ от употребления кисломолочных продуктов (0,3004); использование для питья водопроводной воды без дополнительной очистки (0,3411); СОЭ 14 мм/ч и более (0,3591); гемоглобин до 120 г/л (0,3801); АПТВ 46» и более (0,3207); хронический гастрит в анамнезе 10 лет и более (0,3449).

Коэффициенты корреляции меньше -0,3 (г) были установлены для признаков: возраст

моложе 40 лет (-0,5258); регулярное питание (-0,3043); отказ от употребления крепких (40 и более) алкогольных напитков в неразбавленном виде (-0,3132); отказ от употребления крепких алкогольных напитков натощак, без закуски (-0,4190); перерывы между приёмами пищи 5-7 часов (-0,4289); отказ от употребления животных жиров (в том числе для жарения) (-0,4636); употребление свежих овощей, фруктов, зелени круглый год (-0,3206); гемоглобин 160 г/л и более (-0,4534).

Для остальных значений исследованных факторов коэффициенты корреляции отличались от 0 менее чем на 0,3. Статистически значимая связь между такими вариантами значений исследованных факторов и раком желудка отсутствовала.

Для установления различий между основной и контрольной группами по нескольким вариантам значений различных факторов одновременно был применён метод современной многомерной статистики - дискриминантный анализ. Анализ информации о наборе признаков у индивидуумов, относящихся к одной из двух групп (основной - больные раком желудка, и контрольной - лица с исключённой онко-патологией желудка), выясняет возможность использования набора данных факторов для отнесения конкретного индивидуума в ту или иную группу (при формировании групп риска по раку желудка), а также то, насколько хорошо эти факторы помогают производить такую дискриминацию и какие из них наиболее информативны.

Целью дискриминации является выявление такой линейной комбинации переменных, которая оптимально разделила бы рассматриваемые группы. Для дискриминации все значения переменных в обеих группах были выражены в интервальной шкале, из анализа исключались линейнозависимые переменные и переменные, значения которых не подчинялись многомерному нормальному закону распределения.

Коэффициенты канонической функции дискриминации статистически значимых для разделения (дискриминации) групп факторов представлены в таблице 1.

На основании полученных коэффициентов канонической функции дискриминации вычислялся интегральный показатель (сумма произведений интервальных значений признаков на соответствующие коэффициенты этих признаков). Введение константы -3,254 позволило использовать знак интегрального показателя как указатель группы, к которой относится индивидуум с данным интегральным показателем. Знаки групп определяются знаком соответствующих центроидов (таблица 2).

Распределение интегральных показателей в основной группе было в интервале от -2,75 до 5,25. Среднее значение составило 2,09, стандартное выборочное отклонение - 1,00. Таким образом, 95% значений интегральных показателей больных основной группы попадали в интервал от 0,09 до 4,09.

Распределение интегральных показателей в контрольной группе было в интервале от -4,25 до 3,25 (рисунок 1). Среднее значение составило -1,47, стандартное выборочное отклонение - 1,00. Таким образом, 95% значений интегральных показателей лиц контрольной группы основной группы попадали в интервал от-3,47 до 0,53.

Таким образом, коэффициенты канонической функции дискриминации позволили отличить основную группу (больные раком желудка) от контрольной (лица с исключённой онкопатологией желудка) на основании значений следующих наиболее информативных признаков: возраст, масса тела, наличие клинических симптомов, продолжительность стрессового воздействия, дневной сон, уровень образования, рак желудка у кровных родственников, злокачественные новообразования других локализаций у кровных родственников, бессонница, общий стаж курения в течение жизни, количество употребляемых алкогольных напитков в месяц (в пересчёте на чистый спирт), употребление крепких (40° и более) алкогольных напитков в неразбавленном виде, регулярность питания, перерывы между приёмами пищи, разнообразие рациона, привычка употреблять очень горячую пищу и напитки, употребление животных жиров (в том числе для жарения), хлебобулочных изделий, консервированной и острой пищи, крепкого чёрного чая и кофе, свежих овощей, зелени и фруктов, зелёного чая и фиточаев, кисломолочных продуктов, величина СОЭ и гемоглобина.

Целью классификации является нахождение классифицирующей функции, обеспечивающей возможность отнесения конкретного индивидуума к определённой группе, т.е. поиск возможности предсказания по имеющимся значениям переменных вероятности диагноза рака желудка.

Для классификации возможно использование непосредственно дискриминантных функций (рисунок 2). Для классификации по группам используется знак интегрального показателя конкретного человека («-» - контрольная группа,«+»- основная).

Точность классификации проверена применением полученных функций к объектам, по которым они были выведены. По доле правильных классификаций объектов оценили точность процедуры классификации (таблица 3).

На основании полученных данных доля больных основной группы, классифицированных правильно, составила 95,3%, а доля лиц контрольной группы, классифицированных правильно, - 95%.

Для повышения точности оценки результатов классификации была произведена кросс-проверка: поочерёдно из исходной базы данных исключалось по одному наблюдению, производилось определение канонической функции дискриминации на оставшихся случаях наблюдений, на основании полученных функций классифицировалось исключённое наблюдение.

Доля правильно классифицированных лиц основной группы (т.е. частота отнесения их в группу больных раком желудка) по результатам кросс-проверки составила 95,1%, а доля правильно классифицированных лиц контрольной группы (т.е. частота попадания их в группу с исключённой онкопатологией желудка) - 95%.

Таким образом, результаты дискриминант-ного анализа позволили добиться правильного предсказания наличия или отсутствия у человека с определённым набором значений исследованных признаков рака желудка; чувствительность метода составила 95,1%, специфичность -95%.

Применение результатов дискриминантного анализа в алгоритме обследования пациентов дало возможность прогнозировать рак желудка и может служить критерием для формирования групп высокого риска по данной патологии.

Аналогичные исследования нами были проведены со всеми основными локализациями злокачественных новообразований, на их основе создана корреляционная матрица в виде компьютерной программы, и по ней осуществлён проспективный многофакторный анализ в четырёх контингентах населения: среди пациентов с облигатными предраковыми заболеваниями; пострадавшими вследствие радиационных катастроф; членов «раковых» семей; больных, излеченных от двух и более злокачественных новообразований. По его результатам сформирован регистр пациентов с высоким онкологическим риском, в который вошёл 9861 человек.

Диспансеризация и углубленное обследование этих пациентов в условиях отделения профилактики КГБУЗ АКОД в 2016 г. позволили обнаружить 122 больных. Из них в стадии in situ было 27 (22,13%) человек. 95 (77,87%) человек с различными злокачественными новообразованиями были выявлены в ранних стадиях (I-II) заболевания, с III-IV ст. - 0. В структуре выявленных у 22 пациенток обнаружен рак молочной железы, у 21 - рак кожи, у 6 - рак матки, по 5 - рак ободочной кишки, рак яичников, рак предстательной железы.

Таким образом, проведённые исследования показали, что применение многофакторного анализа в определенных контингентах населения с использованием методов определения относительного риска, корреляционных коэффициентов и формированием групп высокого онкологического риска по результатам дискриминантного анализа позволяет значительно повысить эффективность онкологической диспансеризации населения и улучшить раннюю диагностику злокачественных новообразований.

Таблица 1

Коэффициенты канонической функции дискриминации

Переменный признак Коэффициент (р<0,001)

Перерывы между приёмами пищи 0,4888

Употребление крепких (40° и более) алкогольных напитков в неразбавленном виде 0,3925

СОЭ 0,3192

Употребление животных жиров (в том числе для жарения) 0,2622

Привычка употреблять слишком горячую пищу и напитки 0,2318

Количество употребляемых алкогольных напитков, г в месяц (в пересчёте на чистый спирт) 0,2234

Возраст 0,2000

Рак желудка у кровных родственников 0,1746

Продолжительность стрессового воздействия 0,1690

Употребление острой пищи 0,1672

Наличие клинических симптомов 0,1444

Употребление свежих овощей, зелени и фруктов 0,1396

Злокачественные новообразования у родственников 0,1338

Бессонница 0,1297

Употребление консервированной пищи 0,1101

Употребление хлебобулочных изделий 0,0927

Общий стаж курения в течение жизни 0,0755

Употребление крепкого чёрного чая и кофе 0,0747

Употребление зелёного чая, фиточая -0,0440

Уровень образования -0,0794

Масса тела -0,1338

Дневной сон -0,1650

Гемоглобин -0,1800

Употребление кисломолочных продуктов -0,2727

Регулярность питания -0,2919

Разнообразие рациона -0,4659

Constant -3,254

Таблица 2

Центроиды распределений интегральных показателей в группах

Группа Центроиды групп

Основная (больные раком желудка) 2,09

Контрольная (здоровые) -1,47

Таблица 3

Результаты проверки точности классификации

Точность классификации (предсказанная группа) Всего

основная контрольная рольная

Исходные данные основная группа абс. число 667 33 700

/о 95,3 4,7 100

контрольная группа абс. число 50 942 992

/о 5,0 95,0 100

Кросс-проверка основная группа абс. число 666 34 700

о/ /о 95,1 4,9 100

контрольная группа абс. число 50 942 992

о/ /о 5,0 95,0 100

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Каноническая дискриминантная фунция 1 Группа = основная

-г-иЧ-ГТ

Шк

5ЫЛЭеу-1,оо Меап = 2,09 N = 700,00

Каноническая дискриминантная фунция 1 Группа = контрольная

40. 20 0,

Тттт-гп

Меап - -1,47 N = 992,00

Рисунок 1

Гистограмма значений канонической дискриминантной функции (интегральных показателей)

в основной и контрольной группах.

зо%-

25 20% 15%" 10% 5 %-

| Основная группа | Контрольная группа

шш

ти _

vwimmw^m^

Рисунок 2.

Распределение значений канонической функции дискриминации (интегральных показателей) в основной и контрольной группах

Список литературы

1. Боженко В.К. Многопараметрический анализ лабораторных показателей крови для получения диагностической информации в экспериментальной и клинической онкологии //Дис... д-ра мед. наук. М„ 2004. С. 52-53.

2. Боровиков В.П. Прогнозирование в системе Statistics в сфере Windows / В.П. Боровиков, И.Г. Ивченко. М.: Финансы и статистика. -1999. - С.381.

3. Генкин A.A. Новая информационная технология медицинских данных/ A.A. Генкин. СПб.: Политехника, 1999. - С. 192.

4. Гланц С. Медико-биологическая статистика. / Пер. с англ./ С. Гланц. М.: Практика, 1998.-459 с.

5. Канцерогенез / Под ред. Д.Г. Заридзе. М.: Медицина, 2004. - 576 с.

6. Лазарев А.Ф. Оптимизация методов хирургического и лекарственного лечения рака желудка: Дис... д-ра. мед. наук. М.: 1991.-338 с.

7. Лазарев А.Ф. Профилактика злокачественных новообразований: лекция // VIII Российский онкологический конгресс 23-25 ноября 2004 г., Москва.

8. Лазарев А.Ф. Проект «Регистр предрака высокого онкологического риска» - модель для реализации медицинской профилактики рака в современных условиях / А.Ф. Лазарев, В.Д. Петрова, Е.П. Дми-трина, А. Лейман, Л.П. Омелаева, Т.В. Терехова, Синкина Т.В., Димитриади Ю.Н. // Высокие технологии в онкологической практике. 70 лет онкологической службе Алтайского края: материалы Российской научно-практической конференции с международным участием 30 июня - 1

июля 2016 года г. Барнаул. Барнаул : АЗБУКА. 2016. - С. 29-31. "

9. Полищук Л.З. Использование методов генетического анализа при обследовании больных раком эндометрия/ Л.З. Полищук, И.П. Несина, А.Ф. Гриценко, Л.И. Воробьева, К.П. Ганина // Акушерство и гинекология. -1990. №2. - С. 49-51.

10. Сепетлиев Д. Статистические методы в научных медицинских исследованиях: Пер. с болг. М.: Медицина. 1968. - С. 130132.

11. Терехова С.А. Многофакторный анализ при формировании групп риска рака желудка: Дис... канд. мед. наук. Барнаул, 2005. -162 с.

12. Флетчер Р. Клиническая эпидемиология. Основы доказательной медицины. Пер. с англ. / Р. Флетчер, С. Флетчер, Э. Вагнер М.: Медиа Сфера. 1998. - 352 с.

13. Lazarev A.F. Factor analysis in earby detection of malignancies / A.F. Lazarev, V.D. Petrova, TV. Sinkina et al. // J. of Clin, oncol., 2006. ASCO Annual Meeting Proceedings, 42-nd Annual Meeting June 2-6 2006, Atlanta, GA. Abstract #1033 P. 573.

14. Lazarev A.F. Medical Prevention of Lung Cancer/ A.F. Lazarev, V.D. Petrova UICC World Cancer Congress July 8-12, 2006. Washington D.C. USA. Education/ Abctract 85 -54. Washington, 2006. P. 295.

15. Terekhova S.A. Effect of Tabacco use on Risk of Gastric Cancer/ S.A. Terekhova, A.F. Lazarev, V.D. Petrova, Y.N. Shoykhet // UICC World Cancer Congress July 8-12, 2006 Washington D.C. USA. Education. Abctract 88-41, Washington, 2006. P. 329.

Контактные данные:

656038, г. Барнаул, пр. Ленина, 40.

Алтайский государственный медицинский

университет.

Тел.: (3852) 632620.

Email: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.