УДК 616.43:616-71
В.В. Кузьменко А.С. Аникин 2, А.Ю. Горнов 2
ОЦЕНКА ТОЧНОСТИ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ РАСЧЕТА КОНЦЕНТРАЦИЙ
ФРАКЦИЙ ХОЛЕСТЕРИНА
1 Иркутский областной клинический консультативно-диагностический центр, Иркутск 2 Институт динамики систем и теории управления СО РАН, Иркутск
Исследована точность расчетной методики Фридвальда при замене метода ультрацентрифугирования на метод фотометрии при определении фракций липопротеинов. Проанализирована возможность и ограничения использования метода Шепарда для. расчета концентрации холестеринаЛПНП. Проведено сравнение различных математических моделей по точности вычисления концентрации холестерина липопротеинов низкой плотности. Вычислительные эксперименты, проведены на выборках большого объема — от. 212 до 4384 наблюдений.
Ключевые слова: холестерин липопротеинов низкой плотности, формула Фридвальда, метод Шепарда
EVALUATION OF ACCURACY OF MATHEMATICAL MODELS OF CHOLESTEROL
FRACTIONS COUNTING
V.V. Kuz'menko A.S. Anikin 2, A.Yu. Gornov 2
11rkutsk Regional Diagnostic Center, Irkutsk 2 Institute of System Dynamics and Theory of Management SB RAS, Irkutsk
It was investigated, the accuracy of the Friedewald's calculation method, in case when method, of ultracentrifuga-tion was replaced, by the method, of photometry. The possibility and limitations of using Shepard's method, for calculating the concentration of low density lipoprotein cholesterol was investigated. A comparison of accuracy of various mathematical models to calculate the concentration, of LDL cholesterol were given. Computational experiments were conducted, on large samples — from 212 to 4384 observations. Key words: low-density lipoprotein cholesterol, the formula of Friedewald, the method of Shepard
Определение в сыворотке крови лабораторных показателей липидного обмена, в частности фракций холестерина, является важными критериями диагностики, оценки прогноза и определения тактики лечения ряда эндокринных и сердечно-сосудистых заболеваний [4, 5]. Эти исследования вошли в стандарты диагностики пациентов, что в свою очередь, вызвало увеличение нагрузки на лабораторные подразделения, а так же стоимости обследования пациентов. В связи с этим, при оценке фракций липидов в крови вместо непосредственного, прямого определения холестерина липопротеинов низкой плотности (Х-ЛПНП), как правило, прибегают к использованию расчетного метода. Для оценки указанного параметра на протяжении длительного периода используется методика, предложенная W.T. Friedewald [2, 9].
Можно с уверенностью полагать, что эта методика, как и любой другой косвенный метод, будет иметь худшую точность получаемых результатов в сравнении с непосредственным определением того же показателя. Известно также, что методика Фридвальда имеет ряд существенных ограничений. Одно из них — низкая точность в случае высокой (более 4 г/л) концентрации триглицеридов (ТГ) в плазме [8], которая мешает динамическому наблюдению за эффективностью терапии у больных пациентов. Кроме того, использование формулы основано на предположении, что соотношение триглицеридов и холестерина липопротеинов очень низкой плотности стабильно и составляет
5 : 1 [7]. Этот метод может иметь существенную погрешность, если в крови окажется значительное количество хиломикронов, концентрация которых в большинстве лабораторий не определяется. Вместе с тем, применение расчетной методики привлекательно тем, что позволяет снизить стоимость лабораторных исследований липидного статуса за счет отказа от выполнения лабораторного анализа одного из показателей.
Целью исследования было изучение возможностей повышения точности расчетного метода при определении концентрации холестерина ЛПНП. Для достижения поставленной цели решались следующие задачи:
1. Оценить погрешность методики Фридвальда в условиях замены метода ультрацентрифугирования для определения фракций липопротеинов на метод фотометрии.
2. Оценить метод линейной регрессии для расчета коэффициентов при определении фракций холестерина методом фотометрии.
3. Проанализировать возможности и ограничения применения созданной статистической модели с использованием метода Шепарда.
МЕТОДИКА
Для проведения расчетов была подготовлена выборка результатов исследований, состоящая из 4384 наблюдений. В нее вошли результаты лабораторного обследования пациентов, у которых из одного образца сыворотки в течение короткого
промежутка времени определена концентрация следующих показателей: триглицериды, общий холестерин (ОХ), холестерин липопротеинов высокой плотности (Х-ЛПВП) и Х-ЛПНП. Лабораторные исследования были проведены на анализаторе Modular Р-800/ISE компании «Рош Диагностика» (Швейцария) с использованием реактивов и стандартных образцов этой же фирмы. Кроме того, параллельно с лабораторными анализами была рассчитаны концентрации Х-ЛПНП и холестерина очень низкой плотности (Х-ЛПОНП) с применением формулы, предложенной Фридвальдом. Расчет формулы линейной регрессии был осуществлен с использованием системы программного обеспечения анализа данных STATISTICA версия 6.0.
Метод Шепарда [6, 9] ранее редко использовался при решении задач анализа данных. Основной областью его применения являлась обработка картографической информации, хотя возможности упомянутого метода, по нашему мнению, гораздо шире. Метод Шепарда предполагает построение интерполянта в виде отношения двух дробно-рациональных функций, опирающихся на экспериментальные данные — обучающую выборку. Невысокая операционная сложность соответствующих алгоритмов позволяет применять его для обработки таблиц экспериментальных данных с большим (тысячи и десятки тысяч) количеством показателей и прецедентов. Предлагаемая методика предполагает двукратное применение метода Шепарда, на первом этапе для улучшения качества входных данных (т.е. их «чистку»), и на втором — для построения моделей исследуемой зависимости. Алгоритмы предложенной методики, реализованы на языке C/C+ + и функционируют под ОС семейств Windows и Linux.
Эффективность моделей для повышения точности расчета Х-ЛПНП оценивалась путем сравнения систематических (средних значений) и случайных ошибок (дисперсий) при расчетах, выполненных на этих моделях пакетом анализа данных программы MS Excel.
РЕЗУЛЬТАТЫ
Для оценки погрешности метода Фридвальда была вычислена разность в абсолютных и в относительных единицах (%) между рассчитанной по формуле концентрацией холестерина в составе ЛПНП и значениями, полученными непосредственно в ходе выполнения анализа. Оказалось, что в среднем систематическая погрешность рассчитанных по формуле Фридвальда значений составляет 11,49 %, при этом дисперсия значений относительных погрешностей составила 818,36.
Столь значительную случайную и систематическую погрешности можно объяснить как несовершенством косвенного метода определения, так и использованием для проведения расчетов значений триглицеридов, общего холестерина и Х-ЛПВП, полученных при применении иных аналитических методов, чем у авторов широко применяемой формулы. Если первоначально формула Фридвальда
более точно отражала закономерности распределение холестерина в разных фракциях липидов при выделении их методом ультрацентрифугирования [10], то при определении фракций холестерина фотометрическим методом на анализаторе Modular формула расчета должна быть уточнена.
Справедливость высказанного замечания подтверждается и тем фактом, что концентрация общего холестерина в сыворотке крови оказалась меньше в среднем на 26,1 %, чем сумма концентраций холестерина, определенная в различных фракциях липидов (Х-ЛПОНП — расчетное значение и Х-ЛПНП, Х-ЛПВП) этого же образца, хотя эти значения должны быть близки. Вне зависимости от использованных аналитических методов измеренное количество общего холестерина в целом не может быть меньше, чем суммарное его количество в отдельных фракциях. Поскольку при этих расчетах количество Х-ЛПОНП рассчитывалось в соответствии с формулой Фридвальда [9], то можно полагать, что причина выявленных расхождений между расчетной концентрацией холестерина в пробе и определенной лабораторным путем, находится в значении используемого коэффициента.
В качестве следующего шага в повышении точности расчета Х-ЛПОНП была предпринята попытка уточнить коэффициенты в используемой формуле. Для этого было рассчитано количество Х-ЛПОНП, как разность общего холестерина и суммы холестерина во фракциях ЛПВП и ЛПНП. Расчеты показали, что его среднее значение в сыворотке у пациентов составило 0,35 ммоль/л. Это количество составляет примерно 6,23 % от количества общего холестерина. Исходя из приведенных расчетов можно полагать, что в проведенных нами замерах на аналитической системе Modular совместно с Х-ЛПНП и липопротеинами промежуточной плотности выявляется и значительная часть Х-ЛПОНП.
В дальнейшем была проанализирована возможность использования метода множественной регрессии для уточнения формулы расчетов. Вычисления проведены с применением программного пакета STATISTICA. Прежде всего, была предпринята попытка протестировать на полной выборке формулу, рассчитанную [3] на тестовой выборке, полученной случайным образом и состоящей из 212 наблюдений. Как следует из результатов, представленных в таблице 1, средняя относительная погрешность снизилась в 11 раз в сравнении с методом Фридвальда. К сожалению, при построении модели с использованием метода регрессии дисперсия оказалась значительной.
Далее были рассчитаны коэффициенты на полной выборке, при этом коэффициент множественной корреляции (R), отражающий степень зависимости концентрации Х-ЛПНП от других переменных, оказался равным 0,951. Значение коэффициента детерминации 0,904 показывает, что модель объясняет почти всю изменчивость соответствующих переменных. Применение рассчитанных коэффициентов позволило снизить
среднюю относительную погрешность вычисления Х-ЛПНП до 0,23 %, а дисперсию понизить на 10 %, которая, однако, по-прежнему осталась большой (табл. 1). Использование двухвыборочного Б-теста позволило убедиться в значимости различий дисперсий сравниваемых выборок при уровне значимости а = 0,001. Наличие у моделей, построенных с использованием метода множественной регрессии, большой дисперсии побудило нас к поиску альтернативных методов расчетов.
На следующем этапе для повышения точности методики, снижения случайной и систематической ошибок расчетного метода был применен метод Шепарда. Проверка качества полученной модели проводилась с использованием метода комитетов. В ходе этой работы для каждого элемента исходной выборки проводится расчет Х-ЛПНП с использованием многомерной аппроксимирующей функции на всех остальных элементах исходной выборки. Так как истинные значения Х-ЛПНП известны,
то для всех элементов выборки производится расчет относительной погрешности вычисленного значения. Результатом проверки модели являются среднее и дисперсия полученных погрешностей.
Для уменьшения количества расчетов в ходе оценки возможности использования метода Шепарда были проведены вычислительные эксперименты на тестовой выборке, состоящей из 212 наблюдений. При этом все расчеты удалось провести на обычном персональном компьютере без применения технологий параллельных вычислений. По результатам проведенных вычислений получены следующие параметры относительной погрешности: среднее арифметическое относительной погрешности вычисления 3,94 % и дисперсия 452,24.
К сожалению, данные результаты по-прежнему нельзя считать удовлетворительными, т. к. имела место высокая дисперсия. При этом для некоторых пациентов отмечалось неприемлемо большое отклонение расчетного значения Х-ЛПНП от
Таблица 1
Параметры относительной погрешности при расчете Х-ЛПНП, полученных при применении различных методик расчета
Методы математического моделирования Средняя относительная погрешность вычисления, % Дисперсия
Формула Фридвальда -11,49 818,36
Формула, полученная с применением метода линейной регрессии на тестовой выборке 1,05 5546
Формула, полученная с применением метода линейной регрессии на полной выборке 0,23 4989
Таблица 2
Изменение относительной погрешности и ее дисперсии в процессе «чистки»
Количество удаленных элементов выборки Количество элементов выборки Параметры погрешности модели
Среднее арифметическое, % Дисперсия
0 212 3,94 452,24
10 202 1,16 121,75
Рис. 1. Частотное распределение погрешности модели на основе метода Шепарда. Актуальные проблемы медицинской экологии
измеренного в лаборатории. И хотя, количество таких случаев невелико, их наличие резко снижает возможность практической применимости созданной модели.
По опыту предыдущих работ [1] было принято решение о проведении «горизонтальной чистки», заключающейся в направленном удалении элементов выборки, которые вносят наибольший «шум», увеличивая тем самым погрешность созданной модели. В данной работе было принято решение о минимизации дисперсии, однако алгоритм позволяет выбрать любой другой допустимый параметр, например, среднее значение погрешности и др. Выполнение данной операции позволило существенно повысить качество модели, выражающееся в значительном снижении дисперсии. Максимальное количество удаляемых при «чистке» элементов выбиралось из «правила 2 сигм», т. е. модель строилась из предположения, что у большинства пациентов проявляются общие закономерности и взаимосвязи, а те элементы, которые мы удаляем (5 %) представляют собой отдельную группу, которую необходимо рассматривать более подробно и создавать другую модель с учетом ее особенностей. Для тестовой выборки максимально допустимое число удаляемых точек выборки составило 10 наблюдений. Изменение относительной погрешности и ее дисперсии в процессе «чистки» приведены в таблице 2 и на рисунке 1.
Анализ результатов, полученных для тестовой выборки, позволяет утверждать, что проведение процедуры «чистки» позволило значительно, в 3 — 4 раза снизить и среднее арифметическое, и дисперсию погрешности модели. Описанные выше вычислительные эксперименты показали целесообразность проведения расчетов на выборке с большим количеством наблюдений.
Дальнейшая работа проводилась на полной выборке. На этом этапе при тестировании моделей и реализации процедуры их «чистки» потребовались значительные вычислительные ресурсы. При увеличении размера выборки — числа элементов в ее составе, до нескольких тысяч наблюдений, процессорное время проведения операции «чистки» возрастает до неприемлемых величин — дней и недель. Для ускорения вычислений был использован вычислительный кластер Blackford ИДСТУ СО РАН.
Тестирование полученной модели показало, что ее характеристики (табл. 3), в частности дисперсию относительной погрешности, нельзя считать удовлетворительными. Было проведено удаление ряда элементов выборки для улучшения качества модели — «чистка». Кроме того, подверглась проверке гипотеза о том, что уменьшить погрешности можно путем разделения исходной выборки на несколько частей по разным критериям с последующим построением моделей на каждой из них. Первый рассмотренный вариант такого решения состоял в раз-
Таблица3
Параметры относительной погрешности расчета Х-ЛПНП, полученные при применении метода Шепарда на
полной выборке
Этапы тестирования Среднее арифметическое относительной погрешности модели (%) Дисперсия погрешности моделей
Полная Мужчины Женщины Полная Мужчины Женщины
До «чистки» 5,01 8,73 1,87 31231,4 62430,9 200,36
После «чистки» (1 %) 1,45 2,01 1,40 114,72 142,73 105,80
Рис. 2. Динамика снижения значений систематических и случайных ошибок при «чистке» исходной выборки.
биении показателей всех пациентов (модель I) на 2 группы — женщин (модель II) и мужчин (модель III). Для этих моделей было произведено тестирование их качества с последующей «чисткой». Границей «чисток» был выбран 1 % от общего количества элементов — использовалось «правило 3-х сигм».
Проведенные многовариантные вычислительные эксперименты доказали работоспособность предложенных подходов. Подтверждено, что при выполнении расчетов на модели, построенной на основе метода Шепарда, проведение операции «чистки» исходной выборки способно значительно повысить качество моделей (рис. 2, табл. 3).
Гипотеза о целесообразности разделения выборки частично подтверждается вычислительным экспериментом. Выделение показателей женщин в отдельную выборку позволило на порядок снизить дисперсию погрешности. Модель, построенная на выборке показателей у мужчин, напротив, имеет гораздо худшие показатели, чем модель II и модель I. Тем не менее, при проведении процедуры «чистки» характеристики модели так же возможно привести в допустимый диапазон.
ЗАКЛЮЧЕНИЕ
С использованием предложенной методики построения, тестирования и изучения моделей исследованы возможности повышения точности расчетных методик, ориентированных на оценку концентрации холестерина во фракциях. Как следует из представленных данных, в условиях смены существенных элементов технологии выделения липидов применение расчетных методов определения Х-ЛПНП возможно только при изменении метода расчета этого показателя. Уточненные формулы расчетов Х-ЛПНП по методу линейной регрессии можно рекомендовать в случае скри-нинговых исследований, что связано с наличием определенной погрешности расчетов.
Применение математических моделей, основанных на методе Шепарда, делает возможным получение минимальных погрешностей. Созданные и протестированные модели позволили значительно, в несколько раз, уменьшить погрешности расчетов холестерина липопротеинов низкой плотности и могут служить основой для практического использования.
ЛИТЕРАТУРА
1. Горнов А.Ю. и др. Применение методик распознавания образов в одной задаче медицинской экологии // Инф. и матем. технологии в науке и управлении : Тр. XIII Байкальской Всероссийской конференции. - Иркутск : ИСЭМ СО РАН, 2008. -Ч. II. - C. 124-129.
2. Долгов В.В. и др. Лабораторная диагностика нарушений обмена липидов. - Тверь : Губернская медицина, 1999. - 56 с.
3. Кузьменко В.В., Аникин А.С., Горнов А.Ю. Алгоритм оценки концентрации холестерина липопротеинов с использованием методики статического моделирования по Шепарду // Инф. и матем. технологии в науке и управлении : Тр. XV Байкальской Всерос. конф. с межд. участием. - Иркутск : ИСЭМ СО РАН, 2010. - Ч. 1. -C. 145-151.
4. Об утверждении стандарта медицинской помощи больным с инсулинонезависимым сахарным диабетом // Приказ МЗ РФ № 748 от 11 декабря 2007 г.
5. Рекомендации экспертов всероссийского научного общества кардиологов по диагностике и лечению метаболического синдрома. Второй пересмотр. - Режим доступа : http://www.cardiosite.ru/ recommendations/article.asp?id = 6247
6. Caira R., Dell'Accio R. Shepard-Bernoulli operators // Mathematics of computation. - 2007. -Vol. 76, N 257. - P. 299-321.
7. Friedewald W.T., Levy R.I., Fredrickson D.S. Estimation of the Concentration of Low-Density Lipoprotein Cotysterol in Plasma, Without Use of the Preparative Ultracentrifuge // Clinical Chemistry. -1972. - Vol. 18, N 6. - P. 499-502.
8. Fredrickson D.S., Levy R.I. Familial hyperlipoproteinemia // Chap. 28 in The Metabolic Basis of Inherited Disease. - 3rd ed. - N.-Y. : McGraw-Hill, 1972. - P. 531.
9. Fredrickson D.S., Levy R.I., Lees R.S. Fat transport in lipoproteins - an integrated approach to mechanisms and disorders // The New England journal of medicine. - 1967. - Vol. 276 (1). - P. 34-42.
10. Shepard D. A two-dimensional interpolation function for irregularly-spaced data // Proc. of the 23 ACM National Conference. - N.-Y. : ACM Press, 1968. - P. 517-524.
Сведения об авторах
Кузьменко Владимир Викторович - к.м.н., старший научный сотрудник Иркутского областного клинического консультативно-диагностического центра (664049, г Иркутск, а/я 9, тел.: 8 (3952) 21-13-60; e-mail: [email protected], [email protected]) Горнов Александр Юрьевич - д.т.н., заместитель директора Института динамики систем и теории управления СО РАН. Аникин Антон Сергеевич - младший научный сотрудник Института динамики систем и теории управления СО РАН