Редакционная статья
УДК: 001.891
О НЕКОТОРЫХ МОМЕНТАХ ОФОРМЛЕНИЯ НАУЧНЫХ СТАТЕЙ
Х.М.КАСИМОВ
About some moments in scientific article preparation
H.M.KASIMOV
Республиканский научный центр экстренной медицинской помощи
В статье обсуждаются наиболее типичные погрешности представления цифровых данных, с которыми постоянно приходится сталкиваться при научной редакции. Предлагается целый ряд рекомендаций по повышению методологического уровня статей. В частности уточняется терминология методов статистического анализа, перечисляются основные принципы формирования групп сравнения, разъясняются правила описания выборок в медико-биологических исследованиях и представления абсолютных и относительных показателей. Представлены преимущества и недостатки наиболее распространенных методов статистической обработки.
Ключевые слова: медико-биологическая статистика, терминология, методы статистического анализа.
The most typical errors of representation of figures which constantly meet at scientific edition is discussed In article. Variety of references on rising of methodological level of articles Is offered. In particular terminology of methods of the statistical analysis is specified, main principles of formation of groups of comparison are listed, description rules sample in medico-biological researches and representations of absolute and relative indicators are explained. Advantages and disadvantages of the most widespread methods of statistical processing are presented.
Key words: medico-biological statistics, terminology, methods of the statistical analysis.
Эта небольшая статья призвана обсудить наиболее типичные погрешности представления данных, с которыми постоянно приходится сталкиваться при научной редакции. Мы не ставили себе целью глобально разбирать принципы планирования эксперимента и статистической обработки результатов медико-биологических исследований. Наша цель - повышение методологического уровня статей и, таким образом, повышение престижа нашего журнала. В этом плане наибольшее внимание необходимо обратить на статистическую обработку данных.
В первую очередь, хотелось бы остановиться на разделе "Материал и методы", который должен присутствовать в любой оригинальной работе. Непременным компонентом этого раздела является описание конкретных методов статистической обработки (если речь не идет об описании серии клинических случаев). Широко используемые фразы типа: "Обработка производилась общепринятыми статистическими методами" - неприемлемы. Статистическая обработка является не вспомогательным, а основным инструментом, с помощью которого в медико-биологических исследованиях делаются те или иные предположения и выводы.
Следует учесть, что похожие названия могут иметь принципиально разные методы статистического анализа. Например, точный критерий Фишера может быть одно- и двусторонним, при анализе повторных изменений в одной и той же группе используется не привычный всем, а парный ^тест Стьюдента. Не говоря уже о том, что фраза типа "проводился корреляционный анализ" мало что говорит читателю, поскольку последний может подразумевать принципиально различные тесты: Пирсона, Спирмена и др.
Поскольку в большинстве случаев статистическая обработка не ограничивается использованием какого-либо одного метода, в разделе "Материал и методы" рекомендуется поместить общее описание использо-
ванных тестов. Конкретные же методы статистического анализа целесообразно указывать по ходу изложения материала в разделе "Результаты". В большинстве же представляемых рукописей в тексте статьи присутствуют указания лишь на тот факт, что "р < 0,05" или "р < 0,01" и т.п.
В разделе "Материал и методы" целесообразно указать задачи, которые ставились при анализе данных, например: описание изучаемых параметров в группах (использована только описательная статистика), парные групповые сравнения, исследование связей двух или нескольких параметров, анализ дожития.
Если речь идет о проспективном клиническом исследовании, необходимо указать принципы разделения пациентов на группы, в частности проводилась ли рандомизация, а если да, то каким методом. В случае контролируемого исследования необходимо указать, проводился ли статистический анализ данных только тех больных, которые закончили лечение, или всех включенных в исследование, поскольку при значительной доле выбывших может существенно измениться сопоставимость групп.
Особо внимание следует уделить проблеме множественных сравнений. Дело в том, что чем больше статистических сопоставлений проводится на одних и тех же данных, тем больше вероятность того, что значение "р" (вероятность справедливости нулевой гипотезы) может быть ошибочно принято за отражающее истинную биологическую закономерность. Наиболее типичной ошибкой являются попарные сравнения в рамках 3-х и более групп с помощью ^теста Стьюдента (см. ниже). Следовательно, в "Материале и методах" целесообразно отметить, приводятся ли в работе все сопоставления, которые выполнены в ходе анализа данных. В случае попарных сравнений необходимо указать на соблюдение соответствующих поправок (например, поправка Бонферрони, критерий Ньюмена -Кейлса и др.).
В настоящее время для статистической обработки рекомендуется использование общеизвестных статистических компьютерных программ, поскольку ручной подсчет и использование самостоятельно разработанных программ не обеспечивает должного уровня точности и воспроизводимости. Таким образом, в разделе "Материал и методы" необходимо указать конкретный программный пакет и его производителя. Например: Statistica (StatSoft, США), SPSS (SPSS Inc., США), STAT-GRAPHICS (Manugistic Inc., США) и т.д. Нередко удивляет упоминание авторами факта использования компьютерных программ наряду с ошибками в написании их названий ("Exell" или "STATGAF") и типичными некорректностями в использовании статистических методов. Очевидно, что сам факт использования компьютера, во-первых, уже не повышает престижа работы, во-вторых, не страхует от ошибок и не может их нивелировать.
При описании лабораторных методов необходимо четко указать название коммерческих наборов для определения гормонов и привести нормативы гормональных показателей. Для инструментальных методов необходимо указать название и основные характеристики приборов (марку ультразвукового аппарата и т.д.).
Другой проблемой, на которой хотелось бы вкратце остановиться, является представление данных в разделе "Результаты". Описание выборок в медико-биологических исследованиях, как известно, зависит от характера распределения показателей. В некоторых работах данные представлены в виде "Х ± х". Что авторы понимают под этим, в большинстве случаев не указывается. При дальнейшем разбирательстве оказывается, что "Х" - почти всегда - это среднее арифметическое (M), а "х" - его стандартная ошибка "m".
В таком варианте изложения (если авторы все-таки указали на это) возникает ряд проблем. Во-первых, среднее арифметическое адекватно характеризует выборку только в случае распределения близкого к нормальному. Оценка же нормальности распределения производится и описывается в единичных случаях. Еще более проблематично использование для описания выборки стандартной ошибки средней, поскольку эта ошибка характеризует само среднее арифметическое, но никак не разброс показателей в выборке (!), который наиболее интересен читателям. Другими словами, описание "M ±± m" не позволяет читателям оценить однородность выборки. В случае нормального распределения однородность выборки характеризует стандартное отклонение "SD".
Соблазн привести "m" вместо "SD" — очевиден. Во -первых, "m" по определению (!) меньше "SD". То есть, приводя "m", автор "демонстрирует" большую однородность выборки. С другой стороны, автор может столкнуться с ситуацией, когда "SD" окажется больше М. (Данные, например, будут выглядеть как 45±100 мл). Такая ситуация характерная для распределения, отличающегося от нормального. Не зная, как описывать такую выборку, авторы очень часто указывают на то, что "M±±m" и избегают заведомо некорректную ситуацию.
По современным представлениям, большинство распределений медико-биологических параметров не являются нормальными. Особенно низка вероятность того, что нормальному распределению будут подчиняться показатели в малых выборках. Для описания
распределений, не являющихся нормальными, используют медиану (Me) и интерквартальный размах, как правило в виде 25 и 75 процентилей. Например: 45 (22, 84), где: 45 - Me, 22 - 25-й, а 84 - 75 процентили.
Следует иметь в виду, что при округлении числовых данных в средних значениях (или медиане) принято приводить не более, чем на один десятичный знак больше, чем в исходных данных, а в "SD" (или "Mo") - не более чем на 2 знака больше, чем в исходных данных. То есть, среднее артериальное давление должно описываться не как 80,8796 ± 10,3321533 мм рт.ст., а 80,9±10,33 мм рт.ст., а лучше даже 81±10,3 мм рт.ст. (Кроме того, очевидно, что сотые доли мм рт.ст. при обсуждении артериального давления абсолютно лишены клинического значения).
Если число наблюдений в исследовании мало (менее 20 - 15), т.е. речь идет о малой выборке, использования описательной статистики следует избегать. Как это не кажется абсурдным, но приходится сталкиваться со средним и стандартным отклонением по выборке из трех значений. Конечно, теоретически среднее арифметическое и стандартное отклонение может быть рассчитано и для двух значений, одно из которых "1", а другое "0", однако в любой из описанных ситуаций полученные показатели могу исказить представление о выборке. Таким образом, в малых выборках, которые анализируются достаточно часто, по возможности целесообразно приводить первичные данные.
Похожая ситуация возникает при использовании процентов. Проценты используются для наглядного сопоставления различных по объему выборок. Если объем выборки больше 100 наблюдений, рекомендуется указывать процент не более, чем с одним десятичным знаком. Если объем выборки меньше 100, то проценты указываются только целыми числами.
Необходимо заметить, что если выборка меньше 20, то проценты использовать вообще не целесообразно. В этой ситуации процент будет значительно больше, чем само число. (Получается описание типа: "50% больных выздоровело, а еще у одного процесс приобрел хроническое течение"). При малых выборках приводятся только абсолютные числа количества наблюдений. В целом при приведении процентов необходимо указывать числители и знаменатели, с использованием которых проценты вычислены: "% ("n/N").
Мы уже указывали, что нашей задачей является краткий разбор наиболее типичных неточностей, которые содержат статьи, направляемые в редакцию журнала. В большей степени эта статья ориентирована на то, чтобы заострить внимание авторов на таком важном, если не сказать, на наиболее важном аспекте, как представление данных и их статистическая обработка. То есть мы не будем здесь описывать плюсы и минусы тех или иных методов статистической обработки. Но использование одного и наиболее излюбленного метода мы проанализируем. Речь идет о t-тесте Стьюдента.
Как показывает анализ публикаций, этот метод для проверки гипотез используют подавляющее большинство авторов. Фактически t-тест затмил собой все многообразие методов, которое может предложить современная статистика. Наряду с этим, складывается ситуация, которую автор недавно переведенного на русский язык руководства по медицинской статистике
Х.М.Касимов
С. Гланц [1] описывает следующим образом: "... Результаты многих биологических и медицинских работ основаны на неправильном использовании статистических методов и способны только ввести в заблуждение. Большинство ошибок связано с неправомерным использованием критерия Стьюдента". Этим мы хотим подчеркнуть, что проблема носит, в какой-то мере, интернациональный характер. В одном из опросов врачей-исследователей выяснилось, что большая часть из них не знают, каковы условия использования этого столь популярного теста.
Во-первых, t-тест используется только для сравнения количественных признаков, но не качественных. (Стандартная ситуация: в "Материале и методах" указано, что "для статистической обработки использовался t-тест". После этого в тексте статьи идет описание: "распространенность явления "А" в основной группе 80%, а контрольной - 10%, р < 0,05. Получается, что при помощи t-теста сравнивались качественные данные). Для сопоставления качественных признаков используются совершенно другие методы ("Хи-квадрат", точный критерий Фишера и др.).
Во-вторых, t-тест (как и все другие параметрические методы) может быть использован только для сравнения групп с нормальным распределением. То есть, перед использованием t-теста необходимо с помощью ряда тестов (Колмогорова-Смирнова, Шапи-ро-Уилка и др.) удостовериться в нормальности распределения в группах.
В-третьих, t-тест правомерно использовать при равенстве дисперсий в выборках, то есть когда разброс данных в выборках примерно одинаков. Наконец, в-четвертых, t-тест предназначен для сравнения двух групп и не может (!) использоваться для попарного сравнения трех групп и более (см. выше). В последней ситуации из параметрических тестов может быть использован дисперсионный анализ (ANOVA), непараметрическим аналогом которого является критерий Крускала-Уолл иса.
Достаточно жесткие ограничения в последние десятилетия делают все более популярным использование непараметрических тестов (критерии Манна-Уитни, Уилкоксона, Крускала-Уоллиса и др.). Эти тесты лишь немногим уступают по мощности параметрическим, но не требуют какого-либо типа распределения. Как показал анализ, непараметрические методы в оригинальных работах используются очень редко.
В статьях, приходящих в редакцию, очень часто можно видеть либо использование статистических терминов (чаще "корреляция") вне какой-либо связи с проведенным статистическим анализов, либо подмену правильных статистических терминов теми, которые глобализируют простые статистические выкладки. Наиболее типичным примером последнего феномена является полное вытеснение термина "статистически значимый", различными вариантами слова "достоверный" или даже "высокодостоверный".
Совершенно очевидно, что если исследователю с помощью того или иного статистического метода удалось отвергнуть нулевую гипотезу об отсутствии различий между выборками с тем или иным уровнем значимости (например, всеми любимым р < 0,05), это свидетельствует лишь об одном: есть некое косвен-
ное подтверждение того, что исследованные выборки отличаются (т.е. не принадлежат к одной большой выборке) по исследованному параметру. Поскольку эти различие было подтверждено статистическими методами, они являются "статистически значимыми". Статистическая значимость отличий не может свидетельствовать о неких достоверных клинических отличиях и вообще не несет никакой смысловой, в данном случае клинической нагрузки. То есть наличие статистически значимых отличий или статистически значимой корреляции не свидетельствует о прямой причинно-следственной, а особенно патогенетической связи явлений.
Причина, по которой русским эквивалентом английского термина "significance" стало не "статистически значимый", а "достоверный", во многом ясна. Часто авторы работ подсознательно или намеренно стремятся отождествить неслучайность выявленный различий (только об этом и свидетельствует "статистическая значимость") с некоей достоверностью, то есть, по сути, с биологической или патогенетической закономерностью.
Некорректных вариантов использования авторами статей слова "достоверность" применительно к статистическому анализу очень много: "...достоверность определялась по критерию Стьюдента", "...высокая достоверная корреляционная связь...", ".высоко достоверное увеличение.", ".статистически достоверно большими были.", ".коэффициенты достоверно отличались друг от друга...". Иногда можно встретить откровенный набор слов. "Вероятность случайности различий соответствует достоверности".
Наиболее ярким примером попытки глобализации полученных данных является попытка полной подмены статистического контекста клиническим. Так вместо термина "статистически значимые различия" можно встретить фразу "обнаружены статистически и клинически достоверные различия".
Таким образом, замена термина "статистическая значимость" (два слова обязательно вместе) на "достоверность" применительно к статистическому анализу неприемлема.
Примером того, как статистическое понятие некорректно применяется вне контекста статистического анализа, является использования термина "корреляция" и "коррелирует". Очевидно, что в быту и в разговорной речи эти термины часто используют, чтобы просто обозначить взаимосвязь между явлениями. Такой вариант абсолютно неприемлем в научной литературе, поскольку термин "корреляция" имеет совершенно определенное значение, а сам корреляционный анализ является базовым методом проверки гипотез о взаимосвязи признаков в медико-биологических исследованиях. Например, авторы обнаружили, что некий феномен "А" встречается чаще в группе с более тяжелым течением какого-то заболевания. Далее, среди прочих рассуждений, используется фраза типа: ""А" достоверно коррелирует с тяжестью заболевания". Возвращаясь назад, заметим, что корреляция может быть статистически значимая, при этом упоминать ее можно лишь на основании проведенного корреляционного анализа.
Таким образом, при обсуждении любых понятий,
как медицинских так и статистических, очень важно использовать как можно более точную и единообразную научную терминологию, так как даже расширение значения термина (не говоря уже о его подмене) неизбежно приводит к неоднозначности его понимания.
Литература
1. Гланц С. Медико-биологическая статистика. Пер. с англ. М Практика, 459.
Контакт: Касимов Хамид Махмудович. 100107, Ташкент, ул. Фархадская, 2. РНЦЭМП.
Тел.: +99871-150-4610
ИЛМИИ МАКОЛАЛАРНИ ШАКЛЛАНТИРИШНИНГ АЙРИМ ЖАБ^АЛАРИ
Х.М.Касимов
Республика шошилинч тиббий ёрдам илмий маркази
Маколаларни илмий тахрир килишда доимий ра-вишда учрайдиган одатий камчиликлардан бири булмиш ракамли маълумотларни келтириш нуксонлари ёритилган. Маколаларнинг услубий савия-сини ошириш буйича бир канча тавсиялар берилган. Жумладан статистик та^лил услубларига оид атама-ларга аниклик киритилган, таккослаш гуру^ларини шакллантириш тамоиллари санаб утилган, тиббий-биологик тадкикотларда жамламаларни таърифлаш хамда мутлак ва нисбий курсаткичларни такдим килиш коидалари тушунтирилган. Энг куп кулланиладиган статистик ишлов бериш услублари-нинг афзалликлари ва камчиликлари келтирилган.