Научная статья на тему 'Общие вопросы методологии статистического анализа: типы данных и алгоритмы подбора методов'

Общие вопросы методологии статистического анализа: типы данных и алгоритмы подбора методов Текст научной статьи по специальности «Прочие медицинские науки»

CC BY
456
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МЕТОДОЛОГИЯ НАУКИ / НАУКОВЕДЕНИЕ / НАУЧНАЯ РАБОТА / БИОСТАТИСТИКА / ПЕРЕМЕННАЯ / METHODOLOGY OF SCIENCE / SCIENCE STUDIES / RESEARCH WORK / BIOSTATISTICS / VARIABLE

Аннотация научной статьи по прочим медицинским наукам, автор научной работы — Трущелёв Сергей Андреевич

Статья посвящена общим вопросам методологии научноисследовательской деятельности. Представлено описание элементарных понятий биостатистики типы данных и шкалы их измерения. Кроме того, описаны алгоритмы подбора таблиц, типов графической визуализации и методов статистического анализа. Материал является основой для изложения принципов математикостатистического обеспечения диагностических шкал, применяемых в психиатрии.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

General issues of statistical analysis methodology: data types and algorithms selection tables, graphical visualizations

The paper provides focus on general issues of research methodology. Described are the basic concepts of biostatistics data types and scales of measurement. Also presented are algorithms of selection tables, graphical visualization and statistical analysis methods. The material could form the basis for expounding the principles of mathematical-statistical support of psychiatric rating scales.

Текст научной работы на тему «Общие вопросы методологии статистического анализа: типы данных и алгоритмы подбора методов»

ф

МЕТОДОЛОГИЯ НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ В ПСИХИАТРИИ

© С.А. Трущелёв, 2014 УДК 303.7:[311:57]

Для корреспонденции

Трущелёв Сергей Андреевич - кандидат медицинских наук, доцент, ведущий научный сотрудник отделения информатики и системных исследований в психиатрии ФГБУ «Московский научно-исследовательский институт психиатрии» Минздрава России

Адрес: 107076, г. Москва, ул. Потешная, д. 3 Телефон: (495) 963-76-26, (499) 168-05-22 E-mail: sat-geo@mail.ru

С.А. Трущелёв

Общие вопросы методологии статистического анализа: типы данных и алгоритмы подбора методов

General issues of statistical analysis methodology: data types and algorithms selection tables, graphical visualizations

S.A. Trushchelev

The paper provides focus on general issues of research methodology. Described are the basic concepts of biostatistics - data types and scales of measurement. Also presented are algorithms of selection tables, graphical visualization and statistical analysis methods. The material could form the basis for expounding the principles of mathematical-statistical support of psychiatric rating scales. Key words: methodology of science, science studies, research work, biostatistics, variable

ФГБУ «Московский научно-исследовательский институт психиатрии» Минздрава России

Moscow Research Institute of Psychiatry

Статья посвящена общим вопросам методологии научно-исследовательской деятельности. Представлено описание элементарных понятий биостатистики - типы данных и шкалы их измерения. Кроме того, описаны алгоритмы подбора таблиц, типов графической визуализации и методов статистического анализа. Материал является основой для изложения принципов математико-статистического обеспечения диагностических шкал, применяемых в психиатрии.

Ключевые слова: методология науки, науковедение, научная работа, биостатистика, переменная

В периодической научной печати все чаще стали появляться публикации о типичных ошибках организации научной работы, дефектах сбора и обработки данных [3, 5-8, 10, 14-17]. Одна из трудностей, с которой сталкиваются исследователи, а также научные редакторы, руководители научных работ и другие участники процесса публикации научных результатов, - определение шкалы измерения, типа переменной и применение адекватного метода статистического анализа. Большинство эмпирических исследований в области медицинских наук связано со сбором и анализом данных, которые исходят из наблюдений или измерений одной либо нескольких переменных. Термин «переменная» означает показатель, способный изменяться. Например, исследователь предполагает собрать информацию о распространенности определенной болезни среди населения. Для этого наиболее часто избирают переменную - наличие или отсутствие болезни. Если хотят изучить популяцию в зависимости от пола и возраста больных, то эти данные (пол, возраст) также станут соответствующими изучаемыми переменными.

Статья посвящена общим вопросам методологии научно-исследовательской деятельности и является основой для изложения прин-

68

С.А. Трущелёв

ципов математико-статистического обеспечения диагностических шкал, применяемых в психиатрии. Это сообщение планируется к публикации в одном из следующих номеров журнала.

Шкалы измерения

Шкалы измерения обычно делят на 2 группы -шкалы качественных признаков и шкалы количественных признаков. Шкала наименований и порядковая шкала — основные шкалы качественных признаков, поэтому во многих конкретных областях результаты анализа категориальных данных можно рассматривать как измерения по этим шкалам. Шкалы количественных признаков - это шкалы интервалов, отношений, разностей и шкала абсолютных значений. Соответственно шкалам выделяют основные типы переменных: номинальная,

порядковая (ординальная), интервальная и относи*

тельная .

В зависимости от того, какое значение может принимать переменная, различают 2 два типа количественных данных: дискретные и непрерывные. Дискретная - такая переменная, которая может принимать только строго определенные значения, например, целочисленные. К таким переменным относят число дней болезни за год, количество мужчин или женщин в группе наблюдения и т.д. В отличие от дискретных, непрерывные переменные могут принимать любое значение в пределах определенного интервала. Например, показатели измерения роста, массы тела, коэффициент умственного развития и т.д. - непрерывные переменные.

Номинальные переменные

Номинальные переменные используются только для классификации по признаку категорий. Это означает, что такие переменные могут быть измерены только в терминах принадлежности к различным классам. При этом исследователь не может влиять на количество этих классов и упорядочивать их. Измерения в этой шкале строятся только на принципе эквивалентности. Например, в результатах исследования можно указать, что в случайной выборке оказалось 212 пациентов, различимых в рамках переменной А (национальность): русских - 150, татар - 50, немцев - 10, армянин - 1, грузин - 1 (пациенты принадлежат к разным национальнотям). Типичные примеры номинальных переменных: пол, национальность, цвет, населенный пункт и т.д. Номинальные переменные иногда называют категорийными. Частным случаем номинальных признаков являются бинарные

(дихотомические) признаки, представляющие собой признаки с двумя градациями, например, мужской и женский пол, вакцинированные и невакцини-рованные, масса тела пациента выше среднего или ниже, симптом болезни есть или нет. Наличие или отсутствие признака иногда кодируют цифрами: «нет» - 0, «да» - 1. К цифровому кодированию следует подходить особенно осторожно, так как статистические программы могут производить действия, не свойственные этим данным. Часто начинающие исследователи ошибочно воспринимают их как обычные числовые значения. Однако эти признаки не связаны между собой никакими арифметическими соотношениями, упорядочить их также нельзя. Единственный способ описания категорийных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение [6, с. 30]. Кроме того, можно определить, какая доля от общего числа единиц измерения приходится на то или иное значение [3, с. 122-123]. Такими данными можно характеризовать структуру явления и представлять их в виде таблиц или диаграмм (см. рисунок).

Порядковые переменные

Порядковые переменные позволяют ранжировать (упорядочить) единицы наблюдения, указав, какие из них в большей или меньшей степени обладают качеством, соответствующим данной переменной. Однако они не позволяют установить различие между ними (нельзя определить, на сколько больше или меньше). Порядковые переменные иногда называют ординальными. Типичные примеры порядковой переменной: состояние больного (тяжелое, средней тяжести, удовлетворительное); выраженность боли (сильная, умеренная, слабая, отсутствие боли). Широко известны диагностические инструменты: шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско-Василенко-Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), визуальная шкала боли и т.д. Все эти шкалы построены по схеме: болезни нет; первая стадия болезни; вторая стадия; третья стадия и т.д. Иногда стадии кодируют так: 1, 2а, 2б, 3 и т.д. Каждая стадия имеет свойственную только ей медицинскую характеристику [9].

С градациями этой переменной нельзя производить арифметические действия (складывать, вычитать, делить и т.д.). Понятно, что между тяжелым состоянием одного больного и состоянием средней тяжести другого больного есть разница, однако между этими состояниями нельзя установить разницу, скажем, в 18%. В данном случае

* В статье использованы справочные материалы электронного учебника по статистике информационного портала StatSoft [http://www.statsoft.ru].

Российский психиатрический журнал № 1, 2014 69

МЕТОДОЛОГИЯ НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ В ПСИХИАТРИИ

Алгоритм подбора таблицы и графической визуализации в зависимости от типа данных [7] (в модификации автора)

градация порядковой переменной характеризуется последовательностью, в то время как номинальные переменные предназначены исключительно для различения категорий. Порядковые переменные играют ключевую роль в оценивании. Иногда признак (переменная) может иметь большое число градации. В связи с этим для сокращения записи таким переменным иногда присваивают определенный балл (от франц. Balle - шар) - условная единица для оценки интенсивности (насыщенности) явления по определенной шкале.

Подбор формы таблицы и типа графической визуализации данных, измеренных в порядковой шкале, выполняется по алгоритму категорийных данных (см. рисунок).

Интервальные переменные

Интервальная переменная — тип непрерывной или дискретной переменной с количественным значением, которую используют для обозначения интервальных показателей. Интервалы дискретной интервальной переменной определены. За единицу измерения интервальной переменной принимается одна и та же величина, равная интервалу между 2 соседними значениями переменной. К такому типу переменных относят, например, показатели артериального давления, пульса, концентрации того или иного вещества и т.п. По значениям интервальных переменных можно не только ранжировать измеряемые признаки по порядку, но и представлять их в количественной форме, а также сравнивать величины разностей между ними. Обычно в связи с этим приводят примеры об измерении темпера-

туры в градусах Цельсия. Исследователь исходя из свойств интервальной переменной в пределах ее значений может установить, что температура тела больного утром была 38,2 °С, а вечером 40,0 °С, т.е. повышение произошло на 1,8 °С. В этом контексте нельзя использовать показатель отношений: температура стала в 1,05 раза выше. Другие примеры переменных, измеренных в интервальной шкале: время, высота местности над уровнем моря. Интервальные переменные бывают непрерывными (когда теоретически между любыми 2 категориями может находиться еще одна категория) и дискретными (когда между значениями классов существуют промежутки). Так, температурная шкала рассматривается как непрерывная, а вот количество детей, родившихся у женщины, -величина дискретная. В интервальной шкале за нуль может быть принята любая точка отсчета. Вместе с тем из-за отсутствия фиксированной (абсолютной) точки отсчета единиц измерения интервальных переменных невозможно сравнение отношений этих переменных. Другими словами, измерения в интервальной шкале можно сравнивать через определение разности между значениями, однако анализ результатов отношения этих значений не имеет смысла. Соответствие интервальных переменных обычно демонстрируют таблицей или рисунком, подобранным по алгоритму количественных данных (см. рисунок).

Относительные переменные

Относительные переменные (переменные отношений) во многом сходны с интервальными пере-

70

С.А. Трущелёв

менными, обладают их свойствами. Отличаются от интервальных переменных наличием четко определенной точки начала отсчета единиц измерения, а также наличием экспериментально воспроизводимой постоянной точки. Каждое последующее значение относительной переменной образуется умножением предыдущего значения на константу. Например, температурная шкала Кельвина построена на основе относительной переменной. За начало отсчета принят абсолютный (независимый от термометрического вещества) нуль температур (0 °К=-273,15 °С), а единицей отсчета является один градус Кельвина. Таким образом, относительные переменные, например, могут указывать на то, во сколько раз больше значение переменной X по сравнению со значением переменной Y. Интервальные переменные свойств отношений не имеют. Типичными примерами относительных переменных являются переменные для измерения пространства и времени, скорости, напряжения, давления и т.д. В большинстве статистических процедур не делается различия между свойствами интервальных шкал и шкал отношения. Шкала отношений обеспечивает наибольшую точность измерений. Результаты измерения относительных переменных обычно демонстрируют таблицей (с указанием среднего и показателей разброса) или рисунком, подобранным по алгоритму количественных данных (см. рисунок).

Согласно Большой психологической энциклопедии (М.: Эксмо, 2007), шкала наименований и шкала порядков относятся к «слабым» шкалам, поскольку приписывание чисел объектам связано с минимальными ограничениями на шкалируемые свойства. Эти типы шкал остаются инвариантными только при самых общих математических преобразованиях групповой структуры шкал (группа перестановок и изотоническая группировка) и допускают использование только наиболее простых статистик (мода, медиана, ранговая корреляция). Два других типа шкал (интервалов и отношений) относятся к «сильным». Они инвариантны при общих линейных преобразованиях (шкала интервалов) и при преобразованиях подобия (шкала отношений). Соответственно, они допускают применение более сложных статистик (среднее арифметическое, дисперсия, корреляция, коэффициент вариации и др.). Преимуществом «слабых» шкал является их применимость к самым сложным, мало определенным эмпирическим объектам. С этим связана их широкая распространенность как в естественнонаучной эмпирике, так и в гуманитарных областях знаний. Преимуществом «сильных» шкал является их большая информативность. Они позволяют делать более точные и разнообразные модельные предсказания об эмпирических свойствах объектов, чем «слабые» шкалы.

Составные шкалы

В процессе развития знаний типы шкал могут меняться. Например, сначала температура измерялась по порядковой шкале (холоднее или теплее), затем по интервальной шкале (шкалы Цельсия, Фаренгейта, Реомюра), а после открытия абсолютного нуля температуру можно считать измеренной по шкале отношений (шкала Кельвина). Надо отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать те или иные измерения. Например, в медицинской науке и практике весьма часто используют составные шкалы (composite scale) — измерения, которых складываются из независимых переменных и образуются при комбинации категорий (например, диагноз на основе стандартных диагностических критериев), в результате математических вычислений (например, индекс массы тела, а также все относительные показатели), при комбинации баллов (шкала депрессии Бека, шкала комы Глазго и др.), кумулятивном шкалировании (иерархическая шкала Гутмана, индекс независимой жизни Катца и др.). Одни исследователи считают, что к таким показателям применимы все математические действия, присущие количественным данным [4, 12], а другие отмечают, что такой подход не во всех случаях правомерен [9]. Так, неприменимость математических действий с комбинациями балльных оценок объясняется просто - ведь все измерения произведены с помощью порядковой шкалы, поэтому, согласно действующему положению [11], такие данные нельзя преобразовывать в количественные. Во всяком случае исследователь, применяющий данные такого типа, должен иметь четкую методически обоснованную позицию и быть способен дать объяснения необходимости применения такого подхода к анализу переменной. Объяснение типа «так делают все» для обоснования не подходит.

Подбор метода биостатистики для анализа данных

К переменным применимы процедуры статистического анализа. Большинство этих процедур одинаково применимы как к интервальным, так и к относительным переменным. Перед применением метода статистического анализа необходимо убедиться, что он соответствует шкале измерения исходных данных (признаков). Распределение признаков по шкалам измерения обычно основано на анализе допустимых логических и арифметических операций, которые могут быть проведены над признаками (табл. 1).

Перед применением метода биостатистики исследователю необходимо уточнить единицы измерения переменных и определить, в какой степени единицы измерения отличаются друг от друга. Так,

Ф

Российский психиатрический журнал № 1, 2014

71

МЕТОДОЛОГИЯ НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ ДЕЯТЕЛЬНОСТИ В ПСИХИАТРИИ

Таблица 1. Соотношение между проявлениями свойств переменной [11]

Шкала измерения Соотношение свойств

Шкала номинальных значений Эквивалентность

Шкала порядковых значений Эквивалентность, порядок (ранжирование)

Шкала разностей (интервалов), шкала отношений, шкала абсолютных значений Эквивалентность, порядок (ранжирование), пропорциональность, суммирование

Таблица 2. Некоторые статистические критерии для сравнения выборок

Тип данных Число сравниваемых групп Независимые выборки Парные выборки

Номинальные данные 2 группы и более Критерий хи-квадрат, точный критерий Фишера (для бинарных переменных) Критерий Мак-Немара

Порядковые данные 2 группы Критерий ранговых сумм Вилкоксона или ^-критерий Манна-Уитни Критерий знаков Вилкоксона

3 группы и более Критерий Краскела-Уоллеса Однофакторный дисперсионный анализ Фридмана

Непрерывные данные 2 группы Критерий Стьюдента или ^-критерий Манна-Уитни Парный ?-критерий или критерий знаков Вилкоксона

3 группы и более Дисперсионный анализ (А1\ША или F-test) или критерий Краскела-Уоллиса А1\ЮУА повторных измерений или однофакторный дисперсионный анализ Фридмана

если для оценивания представляет интерес национальность участников курсов повышения квалификации и если только 2 из 56 участников отличаются от остальных по этому признаку, то при последующем анализе данных невозможно будет использовать национальность в качестве переменной.

Наиболее употребительные статистические критерии для сравнения групп исследования сведены в табл. 2 [6, с. 70]. Среди множества средств статистического анализа выделим свободно распространяемую русскоязычную компьютерную программу Attestat [2]. Программное обеспечение Attestat использует интерфейс электронных таблиц Microsoft Excel под управлением операционной системы Windows и состоит из 12 функционально независимых модулей, которые обеспечивают возможность выполнения расчета различными методами статистического анализа данных: описательную статис-

тику, обработку выбросов, обработку пропущенных данных, разведочный информационный анализ, параметрическую и непараметрическую статистику, дисперсионный анализ, проверку нормальности распределения, кластерный анализ, факторный анализ, корреляционный анализ, распознавание образов.

При анализе показателей, измеренных в количественных шкалах, всегда надо помнить о необходимости проверки распределения данных на нормальность. Для этого существует много методов и подходов. Из самых простых - глазомерный метод (построение гистограммы) и расчет показателей скоса и уплощенности распределения данных (коэффициенты асимметрии и эксцесса) [1, 13]. Если распределение данных сильно отличается от нормального, тогда необходимо применять непараметрические методы статистического анализа.

Литература

1. Берк К., Кэйри П. Анализ данных с помощью Microsoft Office Excel: Пер с англ. - М.: Вильямс, 2005. - 560 с.

2. Гайдышев И.П. Моделирование стохастических и детерминированных систем: Руководство пользователя программы Attestat. - Курган, 2013. - 462 с.

3. Гланц С. Медико-биологическая статистика / Пер. с англ. д-ра физ.-мат. наук Ю.А. Данилова; под ред. Н.Е. Бузикаш-вили, Д.В. Самойлова. - М.: Практика, 1998. - 459 с.

4. Гусев А.Н., Измайлов Ч.А., Михалевская М.Б. Измерение в психологии: общий психологический практикум. -2-е изд. - М.: Смысл, 1998. - 286 с.

5. Ланг Т. Двадцать ошибок статистического анализа, которые вы сами можете обнаружить в биомедицинских

72

статьях // Междунар. журн. медицинской практики. -2005. - № 1. - С. 21-31.

6. Ланг Т.к., Сесик М. Как описывать статистику в медицине: Руководство для авторов, редакторов и рецензентов / Пер. с англ.; под ред. В.П. Леонова. - М., 2010. -484 с.

7. Левин Д.М, Стефан Д., Кербиль Т.С. и др. Статистика для менеджеров с использованием Microsoft Excel. - 4-е изд.: Пер. с англ. - М.: Вильямс, 2004. - 1312 с.

8. Медицинская диссертация: современные требования к содержанию и оформлению: Руководство: 4-е изд. / Авт.-сост. С.А. Трущелёв; под ред. И.Н. Денисова. -М.: ГЭОТАР-Медиа, 2013. - 496 с.

С.А. Трущелёв

9. Орлов А.И. Прикладная статистика [Электронный 13. Трущелёв СЛ. Решение задач описательной статистики ресурс]. - М.: Экзамен, 2004. http://www.aup.ru/books/ средствами пакета анализа Microsoft Excel // Рос. психиатр. m163/ (дата обращения 30.10.2013). журн. - 2013. - № 2. - С. 38-42.

10. Реброва О.Ю. Описание статистического анализа дан- 14. Трущелёв С.Л. Совершенствование методических подходов ных в оригинальных статьях. Типичные ошибки // Журн. в исследованиях проблем организации и оказания пси-неврол. и психиатр. им. С.С. Корсакова. - 2010. - № 11. - хиатрической помощи населению: Автореф. дис. ... канд. С. 71-74. мед. наук. - М., 2008. - 24 с.

11. РМГ 83-2007 ГСИ. Шкалы измерений. Термины и опре- 15. De Oliveira G.S., Chang R., Kendall M.C. et al. Publication деления // Complexdoc.ru [Электронный ресурс]. URL: Bias in the Anesthesiology Literature // Anesth. Analg. -http://www.complexdoc.ru/ntdpdf/538330/gsi_shkaly_ 2012. - Vol. 114, N 5. - P. 1042-1048. izmerenii_terminy_i_opredeleniya.pdf (дата обращения 16. loannidis J.P. Why most published research findings are 7.11.2013). false // PLoS Med. - 2005. - Vol. 2, N 8. - P. e124.

12. Стивене С.С. Экспериментальная психология: В 2 т. 17. Shafer S.L., Dexter F. Publication Bias, Retrospective Bias, and Т. 1. - М., 1960. - 686 с.; Т. 2. - М., 1963. - 1038 с. Reproducibility of Significant Results in Observational Studies //

Anesth. Analg. - 2012. - Vol. 114, N 5. - P. 931-932.

#

Российский психиатрический журнал № 1, 2014 73

i Надоели баннеры? Вы всегда можете отключить рекламу.