Научная статья на тему 'Методы многомерного моделирования в детской кардиологии'

Методы многомерного моделирования в детской кардиологии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
96
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
: СЕРДЕЧНОСОСУДИСТАЯ СИСТЕМА / ПОДРОСТКИ / МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Безляк В.В., Ковалев И.А., Плотникова И.В.

Регуляция деятельности сердечно>сосудистой системы у детей имеет сложную регуляцию и зависит от многих факторов, которые необходимо принимать во внимание при ее исследовании и формировании выборок. Формирование групп сравнения случайным образом не всегда представляется возможным. При анализе данных госпитальных регистров приходится работать с нерандомизированными группами. Применение базовых критериев (двухвыборочный критерий Стьюдента, критерий Хи-квадрат и др.) в этих случаях не всегда позволяет сделать правильные выводы. Дробление выборок на страты и анализ в подгруппах не позволяет учитывать сразу несколько факторов и приводит к уменьшению статистической мощности. Применение многомерных методов дает возможность проводить анализ всей популяции, принимать во внимание влияние нескольких факторов. В статье дан обзор основных многомерных методов с интерпретацией результатов и рекомендациями по их представлению на примере артериальной гипертензии у детей и подростков.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Безляк В.В., Ковалев И.А., Плотникова И.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методы многомерного моделирования в детской кардиологии»

МЕТОД ИССЛЕДОВАНИЯ - В ПРАКТИКУ

© Коллектив авторов, 2009

В.В. Безляк, И.А. Ковалев, И.В. Плотникова

МЕТОДЫ МНОГОМЕРНОГО МОДЕЛИРОВАНИЯ В ДЕТСКОЙ КАРДИОЛОГИИ

ГУ Научно-исследовательский институт кардиологии СО РАМН, г. Томск, РФ

Регуляция деятельности сердечно-сосудистой системы у детей имеет сложную регуляцию и зависит от многих факторов, которые необходимо принимать во внимание при ее исследовании и формировании выборок. Формирование групп сравнения случайным образом не всегда представляется возможным. При анализе данных госпитальных регистров приходится работать с нерандомизированными группами. Применение базовых критериев (двухвыборочный критерий Стьюдента, критерий Хи-квадрат и др.) в этих случаях не всегда позволяет сделать правильные выводы. Дробление выборок на страты и анализ в подгруппах не позволяет учитывать сразу несколько факторов и приводит к уменьшению статистической мощности. Применение многомерных методов дает возможность проводить анализ всей популяции, принимать во внимание влияние нескольких факторов. В статье дан обзор основных многомерных методов с интерпретацией результатов и рекомендациями по их представлению на примере артериальной гипертензии у детей и подростков.

Ключевые слова: сердечно-сосудистая система, подростки, многомерные статистические методы.

Regulation of cardiovascular system in children is complex and depends on many of different factors which must be accounted in scientific studies and in sampling. Random sampling of compared groups sometimes is not possible, and researcher must work with non-randomized groups. Application of basic criteria (two-sample Student's criterion, chi-square criterion) sometimes does not guarantee correct results. Division of samples onto strata and subgroup analysis does not permit to count several factors and limits statistical power. Multivariate methods permit to analyze population in whole and account a number of factors. Authors present the review of main multivariate methods with interpretation of results on example of children and adolescent arterial hypertension and give recommendations of these methods usage on basis of arterial hypertension in children and adolescents.

Key words: cardiovascular system, adolescents, multivariate statistical methods.

Регуляция деятельности сердечно-сосудистой системы у детей и подростков имеет сложную структуру и зависит от многих факторов, которые необходимо принимать во внимание при ее исследовании и формировании выборок. В первую очередь, это возраст и пол - в различных поло-воз ра ст ных груп пах ме ха низ мы ре гу ляции значительно различаются. Формирование вредных при вы чек и фак то ров рис ка, ко то рые так же иг ра-ют большую роль в развитии кардиоваскулярной патологии, так же зависит от возраста и пола - у

более взрослых подростков больше шансов начать курить, иметь ожирение, вести малоподвижный об раз жиз ни, про во дить боль ше време ни за компьютером [1].

Влияние различных факторов учитывается и контролируется при помощи специальных способов фор ми ро ва ния вы бор ки и про ве де ния ис следований (так называемые «дизайны»). Формирование выборок при апробации лекарственных препаратов проводится с применением строгих критериев включения и исключения, рандомизации

Контактная информация:

Безляк Владимир Валерьевич - к.м.н., координатор проекта «Информационно-аналитический портал «Детская кардиология Сибири»

Адрес: 634012 г. Томск, ул. Киевская, 111-а, ГУ НИИ кардиологии Тел.: (3822) 55-82-39, E-mail: bezlyak@sgmail.com Статья поступила 26.01.09, принята к печати 20.01.10.

и большого объема выборки. Для редких видов патологии и эпидемиологических исследований применяются специальные виды дизайнов, такие как «случай-контроль» и др. [2].

Формирование групп сравнения случайным образом не всегда представляется возможным, и исследователю часто приходится работать с нерандомизированными группами. Такие выборки формируются при анализе госпитальных регистров и результаты обработки таких баз данных являются очень ценными [3-5].

Самые популярные методы - двухвыборочный критерий Стьюдента и критерий Хи-квадрат не всег да поз во ля ют сде лать пра виль ные вы во ды при исследованиях в нерандомизированных исследования. Дробление выборок на подгруппы не позволяет учитывать сразу несколько факторов, но приводит к уменьшению статистической мощности за счет снижения объема выборки. Применение много мер ных мето дов да ет воз мож ность про во дить анализ всей популяции, принимая во внимание влияние нескольких факторов.

Материалы и методы исследования

Представлены результаты анализа данных гос-пи таль но го ре ги ст ра от де ле ния детс кой кар ди о-логии НИИ кардиологии г. Томск [6]. В исследо-ва ние бы ли вклю чены па ци ен ты с эс сен ци аль ной артериальной гипертензией (АГ) на разных этапах ее формирования.

Статистические методы - двухвыборочный критерий Стьюдента, критерий Хи-квадрат, Пирсона, ковариационный анализ, логистическая регрессия. Результаты анализа количественных параметров представлены в виде средних (стандартное отклонение - SD), медианы, нижнего и верхнего квартилей (Q1, и Q3 соответственно), разницы средних и ее 95% -доверительного интервала (ДИ). При представлении результатов анализа качественных признаков использовали количество наблюдений и проценты, отношения шансов и их 95%-ДИ. Критическим принимали уровень р=0,05. Расчеты проводили с использованием статистических пакетов SAS v9.1 и R v2.7.0.

Результаты и их обсуждение

Рассмотрим оценку влияние курения на уровень АД по дан ным су точ но го мо ни то ри ро ва ния (табл. 1). Самое простое решение - это сравнение сред них цифр сис то ли чес ко го АД (САД) в груп пах ку ря щих и не ку ря щих под ро ст ков с по мощью двух вы бо роч но го кри те рия Сть ю ден та.

Обратим внимание на представление результатов. Основной показатель, на котором акцентируют внимание исследователи, - это уровень р (веро-ят ность отк лоне ния ну ле вой ги по те зы), или, применительно к t-критерию, достоверность различий средних между группами. Традиционно медицинские исследователи в таблицах результатов также приводят средние значения и ошибки измерений

Таблица 1

Средние значения САД за день у курящих и некурящих подростков и их разница без поправки на пол и возраст

Показатель Не курят Курят Разница «курит -не курит» (95%-ДИ) р

Среднее САД за день 124,68 (11,41)* 130,33 (9,69)* 5,64 (2,28 : 9,01) 0,0011

* m (SD).

в каждой из исследуемых групп. Такое представление является малоинформативным - значение р полезно только на первом этапе анализа. Кроме статистической достоверности, есть еще и клини-чес кая зна чи мость раз ли чий - ко ли че ст вен ная ве ли чи на вли я ния фак тора, вы ра жа е мая в раз ни-це средних значений и ее ДИ. Так или иначе, при обсуждении результатов исследователь оперирует этой разницей (клиническая значимость). Гораздо ин фор ма тив нее сра зу оце нить ве ли чи ну эф фек та и, на ря ду со сред ни ми значе ни я ми, при вес ти разницу средних и ДИ этой разницы. Эти вычисления не являются сложными: разница, ее ошибка и 95%-ДИ рассчитываются многими статистическими прог рам ма ми на ря ду с ве ли чи ной р.

Проведенные сравнения будут корректными, если группы были рандомизированы и стратифици-ро ва ны по ос нов ным фак то рам, ко то рые мо гут влиять на уровень АД, и исследователь уверен, что влияние курения прямое (как, например, при изучении эффекта лечения, где предполагается, что снижение АД произошло под влиянием препарата).

Если группы курящих и некурящих несбалан-си ро ва ны по ос нов ным фак то рам, то воз мож но опос ре до ван ное вли я ние по ла и воз рас та (и дру гих показателей) на уровень АД. Может оказаться, что груп па ку ря щих под ро ст ков стар ше по воз рас ту и там преобладают мальчики, тогда как среди неку-ря щих бу дет боль ше де во чек млад ше го воз рас та. Совершенно ясно, что у подростков разного пола и возраста именно эти факторы, а не употребление табака, могут обусловливать различие. Для того что бы ни ве ли ро вать вли я ние по ла и воз рас та и вы я вить вли я ние ку ре ния как та ко во го, не об хо ди-мо все это учитывать при анализе. Самым распространенным способом является дробление основной группы на подвыборки. Но при этом значительно умень ша ет ся ко ли че ст во наб лю де ний и па да ет мощность теста - выборка мала для получения достоверных результатов. Более рациональным являет ся приме не ние рег рес си он ной мо де ли, в ко то рой можно использовать все наблюдения и ввести влияющие параметры как дополнительные факторы. Эту модель можно представить в виде следующей наглядной формулы:

Таблица 2

Результаты регрессионного анализа (pазница средних значений САД за день между группами курящих и некурящих подростков с поправкой на пол и возраст)

Факторы Поправленная разница (95%-ДИ), р

Курение(да/нет) 2,38 (-1,09 : 5,85), р=0,18

Возраст 1,35 (0,66 : 2,03), р=0,00013

Пол (муж/жен) 4,62 (1,99 : 7,25), р=0,00061

Среднее САД день = курение + пол + возраст,

где курение имеет 2 градации - да и нет, пол - 2 градации - мальчики и девочки, возраст - количественная переменная, годы.

Возникает вопрос - как представить эти результаты и как оценить величину эффекта? Средние и стандартные отклонения в этом случае абсолютно неинформативны. Единственным способом является представление в виде разницы средних и ее ДИ. Результаты регрессионного анализа представлены в табл. 2. Влияние курения на уровень САД отражено в первой строке. Необходимо отметить, что указанная разница будет поправлена на пол и возраст. Если не стоит задача анализа влияния половозрастных показателей, то результаты для этих параметров (строки 2 и 3 в табл. 2) не представляют интереса, они выполнили свою функцию и ввели поправку в величину эффекта курения. Если влияние пола и возраста будет незначимым, то результаты будут мало отличаться от ^критерия. Как видно в представленной выборке, влияние пола (у мальчиков значение АД на 4,6 мм рт. ст. выше, чем у девочек) и возраста (увеличение возраста на 1 год ассоциировано с повышением АД на 1,3 мм рт. ст.) статистически значимо, а фактор курения не влияет на уровень АД (уровень р>0,05 и ДИ содержит 0).

Ес ли ко ли че ст во ис сле ду е мых групп боль ше двух, то при ме не ние рег рес си онных мо де лей де лает анализ более простым, а интерпретацию результатов более понятной. Рассмотрим пример - сравнение уровня САД в дневное время в 4 группах подростков (контроль, гипертония «белого халата» - ГБХ, лабильная АГ - ЛАГ и стабильная АГ -САГ. Также введем поправку на пол и возраст. Ис сле ду е мая модель бу дет по хо жа на фор му лу в первом примере:

Среднее САД день=тяжесть АГ+пол+возраст.

При анализе показателя в трех и более группах од на из них вы би ра ет ся ре ферент ной (обыч но контроль) и все срав не ния про во дят ся от но си тель но нее. Описательная статистика представлена в табл. 3, а результаты регрессионного анализа - в табл. 4.

Из табл. 4 видно, что влияние пола и возраста высоко достоверно (строки 4 и 5 в табл. 4). Но основной ин те рес в этой таб ли це предс тав ля ют пер вые 3 строки, которые показывают влияние тяжес-

Таблица3

Средние значения САД за день у подростков с АГ на разных этапах ее становления и ее разница между группами наблюдения и контролем без поправки на пол и возраст

Группы наблюдения Среднее(SD) Разница с контролем (без поправки)

Контроль 114,23 (4,72) Референтная группа

ГБХ 117,32 (7,68) 3,09

ЛАГ 125,41 (7,10) 11,18

САГ 137,75 (7,93) 23,52

Таблица 4

Результаты регрессионного анализа фазница средних значений дневного САД между группами наблюдения и контролем с поправкой на пол и возраст)

ти АГ на изменение САД в группах. Представлена поправленная разница средних значений САД между контролем и группами пациентов с АГ, а также ее 95%-ДИ. Величина р показывает достоверность различий с контролем. Анализ различий между группами АГ проводится на основании ДИ, если они не перекрываются, то группы различаются на уровне р<0,05, иначе различие недостоверно. Но, основным здесь является не статистическая, а клиническая значимость. Из табл. 4 видно, что эффект САГ в 2 раза выше, чем ЛАГ (разница средних между группами с САГ и контролем составляет 22,6 мм рт. ст., между ЛАГ и контролем - 10,5 мм рт. ст.) и ДИ этих разниц не перекрываются, что говорит о достоверных статистических различиях между группами САГ и ЛАГ. Группа пациентов с ГБХ не отличается от контроля, но среднее значение САД в этой группе достоверно ниже, чем в группах ЛАГ и САГ.

В данном случае можно было бы использовать однофакторный дисперсионный анализ, который говорит о наличии влияния тяжести АГ в целом (р<0,0001), но далее потребуются парные сравнения. Применив регрессионную модель, мы провели межгрупповые и парные сравнения за один шаг, а также сделали поправку на пол и возраст -

Факторы Поправленная разница (95%-ДИ), р

Тяжесть АГ (ГБХ/ контроль) 3,12 (-0,15 : 6,38), р=0,061

Тяжесть АГ (ЛАГ/ контроль) 10,45 (7,21 : 13,69), р<0,0001

Тяжесть АГ (САГ/ контроль) 22,63 (19,32 : 25,94), р<0,0001

Пол (муж/жен) 2,71 (0,97 : 4,46), р=0,0024

Возраст 0,85 (0,45 : 1,25), р<0,0001

Рисунок. Поправленная разница среднего САД за день и ее 95%-ДИ в группах с АГ по сравнению с контролем.

разница между средними показателями между группами АГ и контролем в модели отличается от аналогичной разницы средних значений в табл. 3.

Более наглядно эти результаты можно представить в виде графика (см. рисунок). Этот вид графи ка мо жет быть ис поль зо ван для предс тав ле ния результатов многомерного анализа, критерия Сть-юдента и однофакторного дисперсионного анализа вместо традиционной столбцовой диаграммы. На нем наряду со средней разницей изображены границы ДИ, что делает его более информативным и наглядным.

Регрессионные модели также могут быть использованы для анализа взаимосвязи между количественными показателями. При анализе двух параметров в этом случае традиционно ис поль зуют ся ко эф фи ци ен ты кор ре ля ции Пир со-на и Спирмена. Но они не позволяют проводить поправку эффекта изучаемого параметра на другие факторы. Как уже говорилось, дробление выборки не помогает.

Другим существенным недостатком коэффици-ен тов кор ре ля ции яв ля ет ся невоз мож ность оценки клинической значимости, величины эффекта. Да, они позволяют говорить о силе взаимосвязи, но эти абстра кт ные циф ры ни че го не го во рят о клинике. Несомненно, что фраза «увеличение возраста на 1 год ассоциировано с повышением АД на 1,35 мм рт. ст.» более понятна врачу, чем «коэффициент корреляции между САД и возрастом составляет г=0,76, р<0,001».

Рассмотрим пример анализа взаимосвязи между САД и индексом массы тела (ИМТ) с применением регрессионного анализа. Введем поправку на пол и возраст, а также тяжесть АГ. Изучаемая модель выглядит следующим образом:

Среднее САД день=ИМТ+возраст+пол+тя-жесть АГ.

Результаты представлены в табл. 5. Как уже бы ло ска за но, тя жесть АГ, пол и воз раст вве де ны

для поп рав ки, и ос нов ной ин те рес предс тав ля ет первая строка, которая отражает искомую взаимосвязь - изменение САД с увеличением избыточной массы тела (ИМТ). Установлено, что при увеличении ИМТ на 1 кг/м2 наблюдается повышение АД на 0,24 мм рт. ст. Знак разницы указывает на направленность взаимосвязи, ее значение - на величину эф фек та, уро вень р - ве ро ят ность то го, что эта раз ни ца от ли ча ет ся от ну ля, близ ка к кри ти ческой (0,05). Взаимосвязь между САД и ИМТ очень слабая и основной эффект объясняется влиянием пола и тяжести АГ (строки 4-6 в табл. 5).

Таблица 5

Результаты регрессионного анализа (разница средних значений ИМТ между группами наблюдения и контролем с поправкой на пол и возраст)

Мно го мер ное мо де ли ро ва ние с ус пе хом мо жет быть применено и при анализе качественных признаков. Рассмотрим формы представления результатов анализа качественных признаков на примере оцен ки вза и мос вя зи ожи ре ния у под ро ст ка и наличия ожирения у членов семьи (табл. 6).

Таблица 6

Взаимосвязь между наличием ожирения у подростка и ожирения в семье

Ожирение в семье Ожирение у подростка

Нет Есть

Нет 40 10

Есть 30 20

Традиционно для описания качественных признаков использует количество наблюдений и проценты (или доли), другой способ описания - шанс. Ис хо дя из данных, предс тав лен ных в табл. 6, вероятность ожирения в группе, отягощенной по ожирению, составляет 100 • 20/(30+20)=40% , шанс иметь ожирение при наличии ожирения у родственников - 20/30=2/3=0,67. В неотягощенной группе эта вероятность составляет 100 • 10/(40+10)=20%, а шанс - 10/40=1/4=0,25. Шансы и проценты несут одну и ту же информацию, но удобство применения шансов заключается в том, что их можно объединить в один общий показатель, который будет характеризовать величину влияния фактора -

Факторы Разница (95%-ДИ), р

ИМТ 0,24 (0,01 : 0,47), р=0,049

Возраст 0,39 (-0,13 : 0,9), р=0,14

Пол (муж/жен) 2,98 (1 : 4,96), р=0,0033

ГБХ/контроль 2,7 (-0,99 : 6,39), р=0,15

ЛАГ/контроль 8,39 (4,72 : 12,06), р<0,0001

САГ/контроль 21,27 (17,4 : 25,14), р<0,0001

отношение шансов (ОШ). В табл. 6 ОШ составляет 0,67/0,25=2,67, то есть шанс иметь ожирение у под ро ст ков из се мей с отя гощен ной по ожи ре нию нас ле д ствен ностью поч ти в 2,5 ра за боль ше, чем у подростков из неотягощенных семей. Дополнительное удобство ОШ в том, что оно является кос вен ной оцен кой от но си тель но го рис ка и при малой частоте событий приближается к нему по значению.

При использовании регрессионного анализа для оценки качественных признаков ОШ являются един ствен ным спо со бом предс тав ле ния ве ли чины фак то ра. Рассмот рим при мер - вза и мос вязь ку ре ния и ожи ре ния. Вве дем поп рав ку на пол и возраст:

Ожирение=курение+возраст+пол.

Описательная статистика и результаты моделирования представлены в табл. 7 и 8 соответственно. Шансы ожирения в группе курения более чем в 3 раза ниже, чем в группе некурящих. Увеличение возраста на 1 год увеличивает шансы ожирения в 1,2 раза (20%). Пол не влияет на ожирение. Как видно из табл. 8, поправка на пол и возраст уменьшила вклад курения, значение ОШ и уровень р в модели значительно ниже, чем при анализе исходных частот с помощью критерия Хи-квадрат.

Таблица 7

Частота встречаемости ожирения и ОШ в группах курящих и некурящих подростков без поправки на пол и возраст

Таблица 9

Курение Ожирение ОШ РХ2

есть нет всего

Всего 75 226 301 3,48 0,011

Нет 70 (93,3%) 181 (80,1%) 251

Есть 5 (6,7%) 45 (19,9%) 50

Таблица 8

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Результаты регрессионного анализа (ОШ встречаемости ожирения в группах курящих и не курящих подростков с поправкой на пол и возраст)

Параметры ОШ (95%-ДИ), р

Курение(нет/да) 3,14 (1,16 : 8,54), p=0,025

Возраст 1,2 (1,03 : 1,4), p=0,017

Пол (муж/жен) 0,59 (0,31 : 1,09), p=0,093

Применение регрессионных моделей и представление результатов в виде ОШ делают более простой обработку качественных признаков, когда количество градаций больше 2. Используется подход, аналогичный анализу средних, - один из уровней зависимой переменной и одна из групп принимаются референтными и проводится расчет ОШ для всевозможных комбинаций отношений. Применение

Взаимосвязь тяжести АГ и суточного профиля САД

Суточный профиль САД ГБХ ЛАГ САГ Всего

dipper 61 (62,24%) 66 (56,90%) 44 (47,83%) 171

nondipper 33 (33,67%) 34 (29,31%) 30 (32,61%) 98

overdipper 4 (4,08%) 16 (13,79%) 18 (19,57%) 38

Итого 98 116 92 306

рх2 =0,0206.

критерия Хи-квадрат, по аналогии с однофактор-ным дисперсионным анализом, дает только статистическую достоверность наличия или отсутствия взаимосвязи для таблицы в целом. Например, в табл. 9 взаимосвязь между суточным профилем САД и тяжестью АГ достоверная (р=0,021). Но для получения более детальной информации необходимо про во дить пар ные срав не ния (табл. 10).

Применение регрессионной модели позволяет значительно упростить вычисления и представить результаты в компактном виде (табл. 11). Из табл. 11 видно, что различаются dipper/overdipper и nondipper/overdipper в группах ГБХ и САГ.

Анализ отношения dipper/nondipper в группах ГБХ и САГ проводится на основании ДИ dipper/over-dipper и nondipper/overdipper (они перекрываются) -делаем вывод, что отношение dipper/nondipper статистически не достоверно. Для оценки величины клинического эффекта dipper/nondipper надо разделить ОШ dipper/overdipper и nondipper/overdipper -6,239/4,95=1,26. Таким образом, делаем вывод, что шансы иметь профиль dipper по отношению к non-dipper в группах ГБХ и САГ почти не различаются -величина ОШ близка к 1 и ДИ ОШ dipper/overdipper и nondipper/overdipper пересекаются.

Такие несложные вычисления проводятся, ес ли у ис сле до ва те ля нет воз можнос ти пов то рить анализ с другой референтной группой. Если же срав не ния dipper/nondipper предс тав ля ют ся очень важными и исследователь сам проводит вычисления, то расчеты повторяются с выбором другого референтного уровня. И действительно, изменив референтный уровень на nondipper получаем 0111=1,26, 95%о-ДИ=(0,67; 2,36) (р=0,47), что подтверждает вышеизложенные вычисления и выводы. Аналогично проводится интерпретация результатов в группах ЛАГ и САГ. Для сравнения групп ГБХ и ЛАГ мож но по ме нять ре фе ре нт ный уро вень (ес ли вычис ле ния про из во дят ся са мим ис сле до вате лем) или про из вес ти оцен ку на ос но ва нии ДИ и вычислений, описанных выше (если исследователь не имеет доступа к исходным цифрам, например, ре зуль та ты из ло же ны в пуб ли ка ции).

Таблица 10

Парные таблицы для расчетов ОШ

Профиль Группа

ГБХ САГ

dipper 61 44

overdipper 4 18

ОШ=(61*18)/(4*44)=6,24.

Профиль Группа

ГБХ САГ

nondipper 33 30

overdipper 4 18

Профиль Группа

ЛАГ САГ

dipper 66 44

overdipper 16 18

ОШ=(66*18)/(16*44)=1,69.

Профиль Группа

ЛАГ САГ

nondipper 34 30

overdipper 16 18

0Ш=(33*18)/(4*30)=4,95.

Необходимо отметить, что при применении рег-рес си он ной мо де ли с поп равкой на раз лич ные факторы ОШ, полученные в результате моделирования, будут отличаться от вычислений, основанных на исходных таблицах 2х2 (сравните табл. 7 и 8). Графически ОШ и их ДИ могут быть представлены аналогично разнице средних (см. рисунок).

Для то го что бы ис поль зу е мые мно го мер ные модели отражали реальную ситуацию, необходимо выполнение некоторых требований. Основным является гауссово («нормальное») распределение остатков (разницы между исходными данными и результатами моделирования). Именно графики остатков используются для оценки адекватности проведенного анализа. Другим методом оценки качества модели являются индексы, оценивающие корреляцию между реальными данными и результатами модели - с-1^ех, R2. Так как основ-

ОШ=(34*18)/(16*30)=1,28.

ной характеристикой модели являются средние и их раз ни ца, то фор ма расп ре де ле ния ис ход ных дан ных долж на быть близкой к нор маль ной. Ес ли расп ре де ле ние асим мет рич но или име ют ся «выскакивающие значения», тогда среднее смещается, а дис пер сия ста но вит ся очень боль шой, что не позволяет выявить различия. Для стабилизации дис пер сии и при да ния распре де ле нию сим мет рии используется трансформация, например логариф-ми ро ва ние, воз ве де ние в сте пень, ре цип рок ное и другие преобразования. Общепризнанной практикой является использование логарифмирования при анализе лабораторных данных (С-реактивного бел ка, триг ли це ри дов, ин тер лей ки на 6 (ИЛ6) и многих других параметров).

До пол ни тель ное удоб ство ис поль зо ва ния ло га-рифмирования в качестве способа стабилизации дисперсии - простота интерпретации результатов.

Таблица 11

Результаты регрессионного анализа (ОШ частоты встречаемости разных типов суточного индекса САД в группах наблюдения)

Группа Суточный профиль САД ОШ 95%-ДИ р

ГБХ/САГ dipper/overdipper 6,239 1,974 19,716 0,0045

ГБХ/САГ nondipper/overdipper 4,950 1,505 16,286 0,0096

ЛАГ/САГ dipper/overdipper 1,688 0,778 3,659 0,3326

ЛАГ/САГ nondipper/overdipper 1,275 0,554 2,934 0,1946

Таблица 12

Результаты анализа исходного и трансформированного уровня ИЛ6 в группах подростков с ЛАГ и САГ

Параметры Статистические параметры ЛАГ САГ Разница (95%-ДИ), р

ИЛ6 Среднее(SD) 2,2(1,6) 2,0 (1,6) -0,25 (-0,51 : 0,01), p=0,051

Медиана ^1^3] 1,8[1,1:3] 1,5[1:2,5]

Log (ИЛ6) Среднее(SD) 0,6 (0,7) 0,4 (0,7) -0,13 (-0,24 : -0,02), p=0,018

Медиана ^1^3] 0,6 [0,1:1,1] 0,4 [-0,1:0,9]

Таблица 13

Методы многомерного анализа

Задача Критерий для 2 выборок Многофакторные методы

Сравнение средних в 2 и более группах Критерий Стьюдента, однофакторный дисперсионный анализ Ковариационный анализ

Оценка взаимосвязи между 2 количественными параметрами Коэффициент корреляции Пирсона

Оценка динамики количественного параметра Парный критерий Стьюдента Дисперсионный анализ для повторных наблюдений

Сравнение долей в 2 и более группах, оценка взаимосвязи между 2 качественными параметрами Хи-квадрат Логистическая регрессия

Анализ выживаемости в 2 и более группах Лог-ранговый критерий Модель пропорционального риска Кокса

Непараметрическое сравнение 2 и более групп Критерий Манна-Уитни/ Краскала-Уоллиса Ординарная логистическая регрессия

Ранговые корреляции Коэффициент корреляции Спирмена

В табл. 12 представлены результаты анализа уровня ИЛ6. Медиана изучаемого параметра значительно меньше его среднего значения, что говорит о смещении распределения влево. При логарифмировании выборки средние и медианы сравниваются. Стабилизация дисперсии влияет на величину уровня р, которая снижается более чем в 3 раза. При интерпретации результатов используется свойство логарифмов - разница логарифмов равна логарифму отношения (log(a)-log(b)=(log a/b)). Если логарифм отношения равен -0,13, то, проведя обратную трансформацию (экспонирование), получаем exp (-0,13)=1,14, что сопоставимо с отношением не-трансформированного отношения средних в группах 1 и 2 (2,2/2=1,1). Таким образом, стабилизация вы бо рок за счет транс фор ма ции поз во ли ла вы явить статистическую и клиническую разницу.

Для каждого метода, который используется при анализе двух параметров, существует метод, позволяющий провести многомерное моделирование (табл. 13) [7]. Эти методы являются общепризнанными и реализованы во многих статистических пакетах.

Несмотря на то, что медицинские исследователи пред по чи та ют прог рам мы с кно поч ным ин тер-фейсом (SPSS, Statistica и др.), их использование требует глубоких знаний статистики, так как существует большое количество опций и установок, настройка которых по умолчанию не всегда соответствует проводимому анализу. Статистические пакеты, основанные на макрокомандах (SAS, S-Plus, R), с одной стороны, являются сложными для самостоятельного освоения и использования, а с другой - когда уже подготовлен набор необходимых функций и макрокоманд, их применение зна-

чительно упрощает проведение обработки данных и представления результатов.

В от де ле нии детс кой кар ди о ло гии Томс ко го НИИ кардиологии с 2002 г. успешно функционирует программный комплекс, в составе которого име ют ся кли ничес кая ба за дан ных па ци ен тов, про хо див ших ле че ние в НИИ [8], и мо дуль ав то-матизированной статистической обработки данных [9]. Дан ные ре ги ст ра бы ли ис поль зова ны при выполнении нескольких научно-исследовательских и диссертационных работ, написании научных статей. В ходе обработки данных регистра были разработаны подходы и реализован набор макрокоманд и функций для свободно распространяемого статистического пакета R (http://www. г-р^ect.org). Данные функции для проведения различных видов статистического анализа, форматирования и представления результатов в виде готовых таблиц реализованы и размещены в свободном доступе на портале «Детская кардиология Сибири» ^Мр://саМ1орог^tomsk.ru).

Заключение

Рассмотренные подходы к обработке, анализу и представлению результатов являются одним из возможных способов, широко распространенных в мировой медицинской науке. Авторы ни в коем случае не умаляют достоинств базовых методов, таких как критерий Стьюдента, Манна-Уитни, Хи-квадрат. Для каждого из методов существуют своя область применения, преимущества и ограничения. Многомерные методы являются развитием идей, лежащих в основе базовых критериев, но не их заменой. Как уже говорилось, при применении

рандомизации в формировании выборок результаты многомерных и базовых методов будут одинаковыми. Если группы сопоставимы по полу, возрасту и другим важным параметрам, то нет особой необ-хо ди мос ти в ис поль зо ва нии рег рес си он ных мо де-лей. Но представление результатов в виде разницы средних (для критерия Стьюдента) и ОШ (для Хи-квадрат) с их ДИ позволит оперировать более понятной величиной эффекта - клинической значимостью. Разница в АД между группами с ГБХ и САГ в 25 мм рт. ст. намного понятнее врачу, чем абстра кт ное р<0,0001.

Более того, врачи, применяющие тот же крите рий Сть ю ден та, са ми то го не зная, ис поль зу ют математическое моделирование - они заменяют исходные значения нормальным распределением, характеристиками которого являются среднее и

стандартное отклонение. То есть работа ведется не с каждой цифрой, а с моделью выборки. Так же и пропорции в таблице сопряженности будут подчиняться биномиальному распределению.

Многомерные методы используются в работах в основном как украшения, для построения прогностических моделей и выявления информативных показателей. Применение регрессионных моделей для оценки клинического эффекта ограничено, и причина того - исследователи не знают, как наиболее доступно представить результаты этого анализа. В статье дан обзор основных методов с интерпретацией результатов и рекомендациями по их представлению. Так же авторы предлагают облегчить труд по обработке, предоставляя свободный доступ к функциям, реализующим многие многомерные процедуры и другие статистические ресурсы.

ЛИТЕРАТУРА

1. Леонтьева И.В. Современное состояние проблем диагностики, лечения и профилактики артериальной гипертонии у детей и подростков Рос. вест. перинатологии и педиатрии. 2002; 1: 38-45.

2. Флетчер Р., Флетчер С., Вагнер Э. Клиническая эпидемиология: основы доказательной медицины: Пер. с англ. М.: Медиа Сфеpа, 1998.

3. Benson K, Hartz AJ. A comparison of observational studies and randomized, controlled trials. N. Engl. J. Med. 2005; 342: 1878-1886.

4. Drummond MF. Experimental versus observational data in the economic evaluation of pharmaceuticals. Med. Decision Makin. 1998;18 (2) (Suppl 1): 12-18.

5. Concato J, Shah N, Horwitz RI. Randomized, controlled trials, observational studies, and the hierarchy of research designs. N. Engl. J. Med. 2000; 342: 1887-1892.

6. Ковалев ИА., Безляк В.В., Ковалев В.В. и др. Организа-

ция специализированной кардиологическои помощи детям с сердечно-сосудистыми заболеваниями в Сибирском федеральном округе. Рос. вест. перинатологии и педиатрии. 2007, 3: 32-37.

7. Harrell FE. Regression Modeling Strategies with Applications to Linear Models, Logistic Regression, and Survival Analysis. Springer, 2006.

8. Ковалев ИА., Безляк В.В. Распределенная информационно-аналитическая система «Детская кардиология». Свидетельство об официальной регистрации программы для ЭВМ № 2006613596, зарегистрировано в реестре программ для ЭВМ 09.01.2007 г.

9. Безляк В.В. Система автоматизированной статистической обработки, анализа и представления медицинских данных « АвтоНИР». Свидетельство об официальной регистрации программы для ЭВМ № 2008613489, зарегистрировано в реестре программ для ЭВМ 23.07.2008 г.

© Коллектив авторов, 2009

i Надоели баннеры? Вы всегда можете отключить рекламу.