Методика статистической обработки признаков сахарного диабета

Кашлева Юлия Владиславовна; Тимербулатова Гузяль Шамильевна; Самохина Кристина Сергеевна

УДК 004.047

Ю. В. Кашлева, Г. Ш. Тимербулатова, К. С. Самохина

МЕТОДИКА СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ПРИЗНАКОВ САХАРНОГО ДИАБЕТА

Аннотация. Исследование основывается на анализе историй болезней пациентов с диагнозом «сахарный диабет» первого и второго типа, нацелено на разработку методики статистической обработки данных лабораторных анализов для получения закономерностей распределения признаков сахарного диабета.

Ключевые слова: база данных, статистическая обработка, нормальное распределение, сахарный диабет, гликозилированный гемоглобин, постпрадиальная гликемия, триглицериды, Excel, Access.

Актуальность

Сахарный диабет (СД) относится к социально значимым прогрессирующим заболеваниям. По статистике ВОЗ число больных возросло со 108 млн в 1980 г. до 422 млн в 2014 г. и продолжает расти [1]. В условиях массового распространения диагностика сахарного диабета является трудоемким процессом, требующим привлечения большого числа квалифицированных специалистов и не исключающим ошибки. Снижение трудоемкости и повышение достоверности постановки диагноза достигается путем разработки и внедрения информационной технологии распознавания заболеваний. Она основывается на вероятностных диагностических моделях, структурирующих множество заболеваний и вероятности признаков заболеваний. Данные о распределении вероятностей значений признаков сахарного диабета отсутствуют.

Цели исследования

Исследование основывается на анализе историй болезней пациентов с установленным диагнозом СД первого и второго типа, нацелено на поиск информативных диагностических признаков сахарного диабета, разработку методики статистической обработки данных лабораторных анализов для получения закономерностей распределения признаков сахарного диабета.

Материалы и методы

База данных - ядро информационной системы, совокупность знаний предметной области. Создание базы данных информационной системы необходимо для формирования вероятностной диагностической модели сахарного диабета.

Вероятностная диагностическая модель состояния здоровья представляет собой двудольный взвешенный граф, вершинам и ребрам которого соответствуют числовые характеристики (веса):

G = (E, Ukl, ф Pe,Pu), (1)

где G - обозначение взвешенного графа; E - множество вершин, сопоставляемых классам состояния здоровья; Ukl - множество вершин, сопоставляемых интервалам значений признаков; ф - множество ребер, задающих отображение множества E в множество Ukl ; PE -множество вероятностей классов состояния здоровья; PU - множество вероятностей принятия признаками значений из выбранных интервалов. Модель (1) представляется в табличной форме [2].

Для формирования диагностической модели необходимы сведения об установленных диагнозах и результатах обследований пациентов (табл. 1). Эти сведения используются для обоснования распределений вероятностей значений диагностических признаков, разделения диапазона изменений значений диагностических признаков на интервалы и вычисления условных вероятностей. Исчерпывающие сведения о распределениях вероятностей значений диагностических признаков сахарного диабета в медицинской литературе отсутствуют. Источником таких сведений являются истории болезней пациентов с установленным диагнозом.

Таблица1

Пример данных лабораторных исследований гликозилированного гемоглобина, полученных из историй болезней за 2016 г. на базе эндокринологического отделения ПОКБ им. Н. Н. Бурденко

Код пациента Название болезни Оценка признака, %

16136 Сахарный диабет 2 типа 6,11

16227 Сахарный диабет 2 типа 6,58

16338 Сахарный диабет 2 типа 8,28

16343 Сахарный диабет 1 типа 9,45

16344 Сахарный диабет 2 типа 6,62

16438 Сахарный диабет 2 типа 10,66

16496 Сахарный диабет 1 типа 13,45

17079 Обследование (здоров) 4,63

Методикой обработки статистических данных о распределениях вероятностей значений диагностических признаков сахарного диабета для формирования диагностической модели предусматривается [4]:

- импортирование результатов обследований пациентов с установленным диагнозом сахарного диабета из базы данных Access в Excel;

- формирование интервального вариационного ряда (группирование данных);

- построение гистограммы распределения частот;

- проверка гипотезы о распределении случайной величины;

- расчет статистических параметров распределения;

- расчет корреляции значений признаков;

- вычисление условных вероятностей;

- передача (экспортирование) полученных характеристик распределений в базу данных Access.

Данные по установленным диагнозам и результаты обследования пациентов размещаются в реляционных таблицах базы данных MS Access (рис. 1).

Обработка данных начинается с систематизации результатов наблюдений - группирования данных. Для получения хорошо обозримого вариационного ряда и обеспечения точности вычисляемых по нему числовых характеристик необходимо разбить вариацию признака на группы, намечаемые при построении вариационного ряда:

А = Xmax Xmin / k, (2)

где А - ширина классового интервала; Xmax - максимальное значение выборки; Xmin - минимальное значение выборки; k - число классов, на которые следует разбить вариацию признака.

Код пациента Название болезни Оценка признака Обозначение признака

16343 Сахарный диабет 1типа 9,45 и15

16436 Сахарный диабет 1типа 13р45 и 18

16530 Сахарный диабет 1типа 8,67 и15

16652 Сахарный диабет 1типа 9,06 и15

16783 Сахарный диабет 1типа 6,80 и 13

16823 Сахарный диабет 1типа 10,50 и16

17313 Сахарный диабет 1типа 7,91 и 14

17404 Сахарный диабет 1типа 10,49 и16

17418 Сахарный диабет 1типа 10р71 и16

17563 Сахарный диабет 1типа 8,62 и15

17669 Сахарный диабет 1типа 10,62 и!6

17703 Сахарный диабет 1типа 13,16 и 18

17794 Сахарный диабет 1типа 7,09 и 13

17882 Сахарный диабет 1типа 8,21 и 14

17896 Сахарный диабет 1типа 12,40 и 18

18079 Сахарный диабет 1типа 7,47 и 14

1В429 Сахарный диабет 1типа 8,20 и 14

18659 Сахарный диабет 1типа 8,70 и15

18973 Сахарный диабет 1типа 6,40 и 13

Рис. 1. Пример таблицы базы данных с установленными диагнозами и оценками признаков

Величину к можно рассчитать по формуле Стерджеса

к = 1 + 3,32 ^(л), (3)

где л - объем выборки.

Так как X ф 1 (признак варьирует в широких границах), то статистическая совокупность распределяется в интервальный вариационный ряд [3]. При построении интервального вариационного ряда минимальная варианта совокупности должна попадать примерно в середину первого классового интервала. Этому требованию удовлетворяет формула

Хн = хт1п - Х/2, (4)

где Хн - нижняя граница первого классового интервала; Хтт - минимальная варианта совокупности; X - величина классового интервала.

Последовательным прибавлением к нижней границе первого классового интервала Хн значения X ряд разбивается на классовые интервалы. Путем уменьшения верхних границ на величину, равную точности, принятой при измерении признака, достигается необходимое разграничение классов [4].

После разбиения на серию равных классовых интервалов подсчитывается количество вариантов в каждом интервале [3]. Диагностический признак - уровень гликозили-рованного гемоглобина - разделяется на восемь классовых интервалов (табл. 2).

Для того, чтобы более наглядно представить закономерность варьирования количественных признаков, вариационные ряды изображаются в виде графиков [4]. По оси абсцисс откладываются срединные значения классов, по оси ординат - частоты. Гистограмма распределения частот значений уровня гликозилированного гемоглобина (НЬА1С) у пациентов с сахарным диабетом первого типа приведена на рис. 2.

Таблица 2

Результаты обследований и диагнозы пациентов на примере уровня гликозилированного гемоглобина

Уровень гликозилированного гемоглобина, %, обозначения интервалов значений признаков, щ

Обозначение диагноза, Е1 Число больных, М1 3,49 - 4,74 («11) 4,75-6 ("12) 6,01-7,26 ("13) 7,27-8,52 ("14) 8,53-9,78 ("15) 9,79-11,04 ("16) 11,05-12,3 ("17) 12,31-13,56 ("18)

Число больных с диагнозом Е, у которых обнаружены значения признака из интервала щ, Ыщ

Сахарный диабет 1 типа 27 0 0 4 7 6 6 1 3

Сахарный диабет 2 типа 28 0 1 8 9 5 4 1 0

Обследование (здоров) 31 18 13 0 0 0 0 0 0

Суммарное число больных со значениями признака из интервала щ, Ыц

86 18 14 12 16 11 10 2 3

Рис. 2. Гистограмма распределения частот значений уровня гликозилированного гемоглобина у пациентов с сахарным диабетом первого типа

Нормальное распределение наиболее характерно для непрерывных случайных величин, зависящих от многочисленных факторов. При нормальном распределении значений признака наибольшие и наименьшие значения появляются сравнительно редко, а значения, которые ближе к среднему арифметическому, встречаются чаще [3]. Проверка распределения на нормальность осуществляется по критериям, представленным в табл. 3.

Таблица 3

Достоинства и недостатки критериев нормальности

Название критерия Достоинства Недостатки

1 2 3

Критерий Пирсона, или критерий х2 Универсален, так как применяется при проверке как непрерывных, так и дискретных законов распределения [3] При сравнительно малом объеме выборки наблюдается потеря части первоначальной информации. В связи с этим рекомендуется дополнять проверку соответствия распределений по критерию х2 другими критериями [5]. Необходимо, чтобы частоты значений признака в крайних классах были > 5 [3]

Окончание табл. 3

1 2 3

Критерий Шапиро -Уилка Считается наиболее мощным критерием, если объем выборки небольшой (8 < п < 50) [3] Малые выборки п < 8 при обнаружении отклонений от нормального распределения не дают достоверных результатов [6]

Критерий Колмогорова -Смирнова Обладает большей мощностью для непрерывных переменных [3] Выводимые значения вероятности основаны на предположении, что среднее и стандартное отклонение нормального распределения известны априори и не оцениваются из данных. В последние годы предпочтительнее становится критерий нормальности Шапиро - Уилка [7]

Для проверки распределения на нормальность выбирается критерий согласия Пирсона и критерий Шапиро - Уилка, наиболее подходящий для малых выборок. Гипотеза о нормально распределенной величине по критерию Пирсона проверялась с использованием MS Excel. Проверка гипотезы о нормально распределенной величине по критерию Шапиро - Уилка выполняется поэтапно:

1. Формируется ранжированный ряд значений в порядке убывания.

2. По выборочным данным вычисляется сумма квадратов центральных отклонений:

с2 =к X -X )2,

1 (5)

где C2 - обозначение суммы квадратов центральных отклонений; Xi - значение из ранжированного ряда; X - среднее значение выборки.

3. Определяется величина k. Для четных выборок она равна половине ее объема, в противном случае вычисляется по формуле

к, (6)

2

где k - искомая величина, n - объем выборки.

4. Вычисляется вспомогательная величина B с использованием табличных коэффициентов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

к

B =Х an-г+1 ixn-г+1 - X )• (7)

г=1

Сомножители, стоящие в скобках, представляют собой разности между значениями, расположенными симметрично относительно концов ранжированного ряда.

5. Вычисляется величина W по формуле:

в2

W =—. (8)

C

Значение W служит статистикой для проверки гипотезы о нормальности распределения. Если W превышает критические значения Wst, то распределение допустимо рассматривать как нормальное. Критические значения Wst находят в зависимости от уровня значимости и объема выборки из специальных таблиц [8].

Во всех выборках расчетное значение критерия Пирсона больше критического, а Шапиро - Уилка меньше критического (табл. 4), следовательно, гипотеза, состоящая в том, что генеральная совокупность подчиняется нормальному закону распределения, принимается.

Таблица 4

Результаты проверки выборки на нормальность по критериям Пирсона и Шапиро — Уилка

Сахарный диабет 1 типа Сахарный диабет 2 типа

Гликозили-рованный гемоглобин Постпради- альная гликемия Тригли-цериды Гликози-лирован-ный гемоглобин Постпради- альная гликемия Три-гли-цери-ды

Критерий Пирсона. Критическое значение 0,92

Расчетное значение 0,94 0,93 0,93 0,96 0,94 0,94

Критерий Шапиро - Уилка. Критическое значение 11,07

Расчетное значение 3,55 10,32 6,19 4,8 3,85 5,28

Таким образом, значения постпрадиальной гликемии (ППГ), уровня гликозилиро-ванного гемоглобина и триглицеридов (ТГ) для пациентов с сахарным диабетом первого и второго типа подчиняются нормальному распределению.

Для полного описания варьирующих объектов используют статистические обобщающие характеристики. К ним относят средние величины и показатели вариации (табл. 5).

Таблица 5

Статистические характеристики признаков сахарного диабета

Характеристика распределения Сахарный диабет 1 типа Сахарный диабет 2 типа

Гликози-лирован-ный гемоглобин Постпра-диальная гликемия Триглице-риды Гликози-лирован-ный гемоглобин Постпра-диальная гликемия Триглице-риды

Объем выборки 27 27 27 28 28 28

Выборочное среднее 9,19 13,51 1,32 8,23 11,41 3,65

Дисперсия 3,64 13,72 0,53 2,58 17,82 3,45

СКО 1,91 3,7 0,73 1,61 4,22 1,86

Медиана 8,70 13,30 1,2 8,08 10,6 3,47

Мода 7,47 13,40 13 4,57

Эксцесс - 0,16 1,39 - 0,17 - 0,24 - 0,77 0,52

Асимметрия 0,68 1,06 0,76 0,59 0,49 0,85

Теснота корреляционной связи оценивается по коэффициенту корреляции. Коэффициент корреляции изменяется от -1 до +1 и показывает тесноту и направление корреляционной связи. Предпочтительным методом для расчета коэффициента корреляции является метод Пирсона [5]:

, (9)

Те (х - х )2-Е (у,-у)

где Гху - обозначение коэффициента корреляции; х, - значения, принимаемые переменной х; у, - значения, принимаемые переменной у; х - средняя по х; у - средняя по у.

Чем ближе к единице величина Гху, тем связь сильнее, чем ближе к нулю, тем связь слабее. Если коэффициент корреляции имеет положительное значение, то связь прямая, если отрицательное - связь обратная (табл. 6).

Таблица 6

Коэффициенты парной корреляции признаков

Наименование величины Значения коэффициента корреляции признаков

Hb и ППГ Hb и ТГ ТГ И ППГ

Коэффициенты парной корреляции признаков у здоровых пациентов 0,075 0,004 -0,054

Коэффициенты парной корреляции признаков у пациентов с сахарным диабетом 1 типа 0,428 0,211 0,034

Коэффициенты парной корреляции признаков у пациентов с сахарным диабетом 2 типа 0,409 -0,05 -0,248

Результаты и их обсуждение

Проведенный анализ историй болезней пациентов за 2016 г. на базе эндокринологического отделения ПОКБ им. Н. Н. Бурденко с установленным диагнозом сахарный диабет позволил обосновать выбор трех наиболее информативных признаков сахарного диабета первого и второго типа: постпрадиальной гликемии, уровня гликозилирован-ного гемоглобина и триглицеридов. Полученные данные о диагнозах и результатах обследований собраны в реляционных таблицах базы данных MS Access.

Выбрана методика обработки статистических данных для определения параметров распределений значений диагностических признаков по малым выборкам. Методика основывается на использовании сочетания критерия согласия Пирсона и критерия Шапиро - Уилка. Подтверждена гипотеза о нормальном распределения количественных признаков сахарного диабета, вычислены параметры плотности нормального распределения. В результате получены оригинальные данные о распределениях значений диагностических признаков сахарного диабета.

Показано, что между рассматриваемыми диагностическими признаками наблюдается слабая теснота связи (коэффициент парной корреляции находится в пределах от 0,1 до 0,3), за исключением пары признаков Hb и ППГ у пациентов с сахарным диабетом двух форм. Между Hb и ППГ отмечается умеренная теснота связи (коэффициент парной корреляции находится в пределах от 0,3 до 0,5). Следовательно, связь между диагностическими признаками незначительна и может не учитываться при разработке диагностической модели.

Библиографический список

1. Всемирная организация здравоохранения. Информационный бюллетень. - 2016, ноябрь. -URL: http://www.who.int/mediacentre/factsheets/fs312/ru

2. Фандеев, В. П. Теоретические основы кибернетики : учеб. пособие / В. П. Фандеев. -Пенза : Изд-во ПГУ, 2016. - 66 с.

3. Сиделев, С. И. Математические методы в биологии и экологии: введение в элементарную биометрию : учеб. пособие / С. И. Сиделев. - Ярославль : ЯрГУ, 2012. - 140 с.

4. Лакин, Г. Ф. Биометрия : учеб. пособие для биолог. спец. вузов / Г. Ф. Лакин. - М. : Высш. шк., 2009. - 352 с.

5. Библиотека методов и моделей; описательные статистики и статистические характеристики; критерии качества; критерий согласия Пирсона. - URL: http://help.prognoz. com/ru/mergedPro-jects/Lib/05_statistics/uimode]ling_chitest.htm

6. ГОСТ Р ИСО 54-79-2002. Статистические методы. Проверка отклонения распределения вероятностей от нормального распределения.

7. Портал знаний. Критерий Колмогорова - Смирнова. - URL: http://statistica.ru/glossary/ general/kriteriy-kolmogorova-smirnova

8. Гиниятуллин, К. Г. Статистическая обработка результатов научных исследований: краткий конспект лекций / К. Г. Гиниятуллин. - Казань, 2014. - URL: http://dspace.kpfu.ru/ xmlui/bitstream/handle/ net/2i9i9/02_i0_kl-000830.pdf

Кашлева Юлия Владиславовна, студентка, Пензенский государственный университет. E-mail: kashlewa.ju@gmail.com

Тимербулатова Гузяль Шамильевна, студентка, Пензенский государственный университет. E-mail: f.guzyal@yandex.ru

Самохина Кристина Сергеевна, сотрудник, ЗАО «Научно-исследовательский институт физических измерений и вычислительной техники». E-mail: Kristina.bazykina@mail.ru

УДК 004.047 Кашлева, Ю. В.

Методика статистической обработки признаков сахарного диабета / Ю. В. Кашлева, Г. Ш. Тимербулатова, К. С. Самохина // Вестник Пензенского государственного университета. - 2017. - № 4 (20). -С. 101-108.

Методика статистической обработки признаков сахарного диабета Текст научной статьи по специальности «Клиническая медицина»

Текст научной работы на тему «Методика статистической обработки признаков сахарного диабета»