Е.В. ВЫСОЦКАЯ, канд техк наук, доц ХНУРЭ (г. Харьков,
А.Н. БЕЛОВОЦ ДОЦ ХНМУ (г. Харьков Ю.В КИРИЧЕНКО (г. Харьков
ВОССТАНОВЛЕНИЕ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ ПАРАМЕТРОВ В ТАБЛИЦАХ БИОХИМИЧЕСКИХ АНАЛИЗОВ ПАЦИЕНТОВ С ПСОРИАЗОМ
В статьерассмотретодходк восстановлениюропущенныхзначенийс помощьюнейросетевых технологий ПредложенанейроннажетЬ) позволяющажосстанавливататсутствующиеклинико-биохимическиепоказателипациентовс псориазом Проведен расчет подставляемьша место пропускавначений и оцененаадекватностшосстановленизданныхна искусственнсвведенных пропусках Ил.: 1.Табл З.Библиогр: 9 назв
Ключевыеслова восстановление ропущенныхзначений нейросетеваэтехнологи? клиникобиохимически етоказателипсориаз
Постановкапроблемьи анализлитературы Псориаз-один из самых распространенныжроническихд ерматозор которым страдаетот 1 до 5% населенияп ланеты В п оследнеевремя все чащео псориазеговорят как о системномзаболеваникиз-за вовлечения процессне толькокожи, но и суставов ряда внутренних органов[1]. Поэтому для выяснения причин возникновения! сориазанеобходимоучитывать состояние всех органови системорганизмав целом Но дляустановленияюстоянижаждой из систем необходимо взять у пациента множество различных анализов что представляелекоторую сложность Поэтомупроблемаобработкш анализа информации с пропусками биохимических параметров пациентов и ее дальнейшего использования для выяснения причин появления псориаза являетсяактуальной Анализируемаявыборка должна отвечатьк ритериям качественности и полноты В реальности приходится сталкиваться с ситуацией когда некоторые из свойств одного или нескольких объектов отсутствуют- возникаете итуацияданныхс пропусками что значительно осложняет математическую обработку так как смещение основных статистических характеристик таких как математическоеожидание или дисперсии возрастазтнапример прямо пропорциональношелу пропусков Поэтому проблемапредварительноб бработкод анных являетсяодной из первостепенныхОсновываясша тех или иных представления« природе пропущенныхзначений имеютсфазличнывспособыих заполнения
Существует несколько подходов к анализу медицинских данных с пропусками[2]. К ним относятсязледующиеудаленишсегокомплектд если он содержитхотя бы один пропуск замена! ропускана условноезначение например null, с дальнейшим пропуском при обработку дополнение пропущенныхзначений
Рассмотрим варианты работы с комплексом данные содержащих пропущенныеначения
Самым простым решениемзадачиобработкирезультатоЕисследования являетсялсключениен екомплектныхнаблюдений содержащих! ропуски, и дальнейшийанализполученныхтаким образом"полны>Р данных Понятнд чтот акой подход приводитк сильномуразличиюстатистическихвыводов сделанныхпри наличиив данныхпропускови при их отсутствии
Поэтому более перспективным является иной путь - заполнение пропусков перед анализом фактических значений Можно выделить следующиепреимуществдцанного подхода ясное представлениетруктуры данных вычисление необходимых итоговых значений уверенная интерпретацирезультатоанализэчтопозволяетэпиратьсяна традиционные характеристика суммарныэначения{3].
Всес уществующиеалгоритмыза полнения1 ропусковв данных можно разделитниадвабольшихкласса простыеалгоритмьи сложныеалгоритмы Простыеалгоритмы-неитеративнывлгоритмуоснованныега простых арифметическиюперация* расстоянияхмежду объектами регрессионном моделировании К ним относится заполнение пропусков средним арифметическидоегрессионноаиоделированив ропусков метод НсШеск и подборе группе [4].
В результате применения метода заполнения пропусков средними значениями несколькозначенийодного факгораоказываютсяэдинаковыми что указываема его низкую точность
В методеб лижайших соседей находят строки таблицу которые по определенномукритерию (обычно минимума декартового расстояний являютсяближайшимкк строкес пропуском
Для его заполненияначенияфактор^ соседеРусредняются; весовыми коэффициента^юбратнопропорциональнымих декартовом уэасстояникк строку которая содержит пропуск Метод точнее предыдущегр но он практически неприменим в случае большого количества пропусков и базируется^ гредположению существованиювязеймеждуобъектами
В регрессионномиетодепо комплектным данным строится уравнение линейноймножественноСрегрессиии вычисляютсяпропущенныезначения факторов Метод невозможнсприменить есликоличествспропусковв строке болыиеодногр что приводитк множествурешений и крометого, в реальных задачахзависимостичащевсегр нелинейнырпоэтомуего точностьявляется невысокой
Сложные алгоритмы - итеративные алгоритму предполагающие оптимизацию некоторого функционалу отражающего точность расчета подставляемыхна место пропуска значений Их можно разделить на глобальны»! локальные
Локальные алгоритмы - в оценивании (предсказаний каждого пропущенного значения участвуют полные наблюдения находящиеся в
некоторойокрестносткгредсказываемогобъекта К даннойгруппе относятся алгоритмbiZetи Zet Braid.
ГлавнаяидеяалгоритмагЕТ заключаете» циклическомформировании "компетентной матриць'1, подборе параметровмодели прогнозирования« прогнозированишропуска Недостаткол/влгоритмаявляетсдаголокальности поскольку для вычисленияотсутствующегозначениуи спользуютсяне все данныетаблицу а лишь их часть Субъективизмопределенифазмерности "компетентной матриць'1 приводитк учету неинформативныУ'шумовы)? факторот смещениюоценкинеизвестноганачения
Основною Tnn4neanropnTMaZetBraid от алгоритмагЕТ заключаете» формировании "компетентной матриць'1. В процессе работы алгоритма происходит последовательныйюочередныйотбор компетентных строк и компетентных столбцов Критерием оценки адекватности компетентной матрицывыступаетоценкакачествапредсказанияеизвестногсвлементаВсе другие недостатки в том числе и статистическая оценка неизвестного значенияисключительнона основе корреляционнфегрессионногоанализр остаются
Глобальные алгоритмы - в оценивании (предсказаний каждого пропущенного значения участвуют все объекты рассматриваемой совокупности методБартлеттэ ЕМ-оцениваниж Resampling! другие
Метод максимальной правдоподобности и ЕМ-алгоритм требует проверки гипотез о распределении значений факторов Применение осложняете® случаеболыиогсколичествапропущенныхзначенийфакгора Метод Бартлетта применяется для заполнения пропусков в векторе значений результирующей характеристики в допущение что значения входных факторов являются комплектными Его недостатком является базированиена предположении о линейной зависимостино отсутствие обоснования применимости метода наименьших квадратов приводит к ошибкам
Метод Resampling имеет те же недостатки что и предыдущий Он является итеративным и имеет две модификации В первой из них некомплектные строки случайным образом заменяют на к омплектные из исходнойматрицьм рассчитываютуравненифегрессии Во втором варианте уравнениерегрессииполучаютиз комплектной подматрицы находятоценки неизвестных значений ищут уравнение регрессии После определенного количестваитерацийзначениякоэффициентор средняют Информационная избыточностьна фоне малой мощности множествакомплекгных данныхв первой модификации resampling и информационнаянедостаточностьв композициисослучайнымформированиевначеникмсходнойхарактеристики не позволяют получать приемлемыерезультаты Кроме того, отсутствуют процедурыэптимизацииметода
Рассматривавышеперечисленнынетоду делаемвыводоб их низкой точности наличии жестких требований: и сходной информации количеству
пропусков размерности матрицы данных априорных предположенияхо сущ ествующихзависимостя* сложности реализации что свидетельствуем необходимоспразработкииетодов базирующихсяна новых подхода* таких как нейронныесети
Нейронные сети могут обучаться любым функциям что позволяет избежатьиспользованижложногоматематическогаппарата Использование нелинейны>функцийактивацитозволяерешатьзадач1С нелинейностями
Целью данной работы является разработка метода восстановления пропущенных значений параметровв таблицах биохимических анализов пациентов^ псориазомна основенейроннойсети
Постановка задачи восстановленитропусков в биохимических показателях Рассмотрены показатели белкового (ав^ аК, игеаи т.д), углеводного(д1ис, Мд,Г-6ФФГ и т.д.), микроэлементногфРе, Са, Мд/1 т.д) и жирового (ИБХЛ, МДА, Диены и т.д) обменов Всего рассмотрено46 различныхпоказателейкоторыебыливзятыу 153 пациентовс псориазом У 88 человекзначенияю всемпоказателялбылизаполненьполностыра у 65 пациентоЕкомплекгбылзаполнежа 95 - 99%.
Для обучениянейроннойсетибыливзятыданныегех пациентов которые содержали полный комплект значений биохимических показателей Для восстановления пропущенных значений использоваласьуже обученная нейроннаяэть
Пусть Х={Х1,Х2,...ЛП}. п = 1, 153 - вектор входных
биохимических показателей У - вектор диагнозов значения элементов которого соответствуют различным формам псориаза (распространенный псориаз артропатическаформапсориаза<1 т.д.), т - размерность каждого входноговектора(т= 46). Исходная<1нформацияпредставленв табл Юна имеетпропуски, обозначенныевездочками
Таблица!
Т аблицаюходныхданныхбиохимическихпоказателей пропусками
№ исследовани Параметрьбиохимическилоказателей Диагноз
’ 1 2 3 т У
1 Х„ Х12 ■^13 Ат Ул
2 Х21 Х22 * *2т Уг
3 *31 *33 * Уг
... ... ... ... ... ...
п х* * *лЗ у укпт Уп
При решении задачи восстановления пропущенных значений минимизируетафункция
^ =агдтт|У- Г(Х)|,
где, Р= Р(Х1,Х2.Хт) - функция определяющаявзаимосвязы ежду
выходнойпеременнойс' и векгоромХ входныхпеременных
V/ = Р^Хп,Х12..Х/т), ¡ = \п . (1)
Поэтому задача восстановления пропущенных значений сводится к определениюоотношений(1).
Решение задачи восстановления данных в биохимических показателях Существуют множество видов структур нейронных сетей каждая из которых предназначения решенияопределенныхгипов задач ПрименениеСИЧМ сети для решениязадачипо восстановлению ропусков данныхобусловленохледующимюепреимуществамВД:
- возможностьмоделирования елинейныхсвязей между входнымии выходнымшараметраци
-архитектурасетификсированаи не нуждается определении
- времяобучениясетизначительнсменьшфчем у других ИНС. Создадим1Скусственнуюнейроннуюсетьследующейархитектуры(рис):
Рис АрхитектураискусственножейроннойсетиСКММ
Параметры результатов обучения для выбранной архитектуры сети показаньв табл 2.
ПараметрьрезультатовбученияОКЫМ-сети
Параметрыобучения Значенияіараметров
Архитектурасети 153-182-1
Средняжбсолютна5разностьреальньіхі моделируемыяначений 5,15
Козффициенігарреляциірасчетньїлі фактическихзначений 0,982
ОтношениестандартногсЕтклонения ошибки сети к стандартномуггклонению исходныхданных 0,8
Изтабл 2 можно сделатьвывод что параметрьр езультатов бучения удовлетворительны Коэффициент корреляции расчетных и фактических значенийравенО,982.Этоговорито хорошейсходимостимоделш является наиболе®ажнымпоказателемсетидля решенищаннойзадачи
Для того чтобы оценитькачествовосстановлениданных в зависимости от количестваисходных пропусков из идеальногомассивабыло созданоЭ отдельных массивов с разным количеством искусственно внесенных случайных пропусков путем сознательного удаления у некоторых наблюденишзвестныхзначенитнтересующижаспеременных
Далеедля каждого из массивапроизведена роцедуравосстановления данныхнаобученнойнейроннойсети Результатыпоказаньв табл 3.
Можно сделатьвывод что модельдостаточноточно восстанавливает данные есликоличествспропусковне февышае'6%.
Выводы В статье проведен обзор существующих методов для заполнение ропусковв неполных данныхи показангих к лассификация Показаньпреимуществаиетодд основанногсна испол ьзованиинейросетевых технологий для восстановления пропущенных значений параметров в таблица)биохимически)внализотациентовс псориазом
Предложена искусственная нейронная сеть для восстановления пропусковданныхв биохимическихисследования>Лроведенгочный расчет подставляемыяаа место пропуска значений и адекватностьвосстановления данныхна искусственнсвведенныхпропусках
Ошибкавосстановлениданныхв зависимости^ количестваїропусков
Пропущенсзначений % Относительнаашибкавосстановления
1% 0,012
5% 0,046
10% 0,122
15% 0,173
20% 0,193
30% 0,245
40% 0,266
50% 0,483
60% 0,591
70% 0,675
Список литературы 1. Бакулев А.Л. Псориаз как системная патология / АЛ. Бакулер Ю.В.Шаговд И.В. Козлова// Саратовскими аучно-медицинскийжурнал - 2008. -N2 1 (19). -С. 13-20. 2. ЛиттгРДж.А. Статистическийана лизданныхс пропусками / РДж.А. Лиття Д.Б Рубин - М.: Финансыи с татистикд 2001. - 254с. 3. СнитюкВ.Е. Эволюционныйметод восстановленияіропусковв данных/ В.Е. Снитюк/1 Интеллектуальныйанализинформации Межд. конф - К. - 2006. -С. 262-271.4. КрасногорскаФі. Н. Применениеискусственных нейронных сетей при восстановлении пропущенных гидрологических данных I Н.Н. КрасногорскарА.Н. ЕлизарьоеО.В. Нафиков$Л.М. ЯкуповаІІ Промышленнаякологияи безопасностыкизнедеятельности- 2009. -№ 1. - С. 12-16.5.Васипье&.И. Восстановление пропускови о бнаружениеошибокв эмпирическихтаблицах/ В.И. Васильев/ Искусственный интеллект- 2003. -N2 3. -С. 317-324В.ХайкинС. Нейронныесеты полный курс/ С. Хайкин -М.: Вильямс - 2006. - 1104с. 7. ОсовскийС. Нейронныесети для обработки информации I С.ОсовскиШ Перс польск И.Д. Рудинского - М.: Финансыи статистика 2004. - 344с.
8.УоссермеШ). Нейрокомпьютернаэтехника Теорияи практика/ Ф. Уоссермен- М.: Мир. -1992. - 423с. 9 .РутковскаЩ. Нейронныесети генетическиеалгоритмьи нечеткие системы I Д. РутковскарМ. ПилиньскирЛ. Рутковский Пер с польскогоИ.Д. Рудинского - М.: Горячая линия-Телеком 2006. - 452;.
СтатьяіредставленАт.н проф каф ИКИ ХНУРЭАвраменксВ.П.
УДК 519:616-079.4:616.5
Відновлення) ропущенихзначеньпараметрівв таблицях біохімічних аналізів пацієнтівз псоріазом ВисоцкаЄ.В., БєловоіА.Н., КиріченкоЮ.В. // Вісник НТУ "ХПІ". Тематичниквипуск Інформатика моделювання-Харків: НТУ "ХПІ". - 2010. -N221. -С. 38 -45.
У статті розглянуто підхід до відновлення пропущених значень за допомогою нейромережевихехнологій Створенанейроннамережд що дозволяшідновлюватюідсутні клініко-біохімічні показники пацієнтівз псоріазом Проведеногочний розрахунокзначені?
які підставленна місце п ропуску, і адекватністьвідновленняданих на штучно введених пропусках Іл.: І.Табл: З.Бібліогр: 9назв
Ключовіслова відновлення! ропущенихзначені? нейромережевтехнології клініко-біохімічні показники псоріаз
UDC 519:616-079.4:616.5
Renewal of the skipped values of parameters in the tables of biochemical analyses of patients with psoriasis / Vysotskay E.V., Belovol A.N., Kirichenko РГагё/d of the National Technical University "KhPI". Subject issue: Information Science and Modelling. - Kharkov: NTU "KhPI". - 2010. -№. 21. - P. 38 - 45.
The article was considered approach to the restoration of missing values using neural network technology. Neural network was created to recover the missing clinical and biochemical parameters of patients with psoriasis. An accurate calculation, is substituted for the omission of values, and the adequacy of data recovery on an artificially imposed empty values. Figs: 1. Tabl.: 3. Refs: 9 titles.
Keywords: the restoration of missing values, neural network technology, clinical and biochemical parameters, psoriasis.
Поступипт редакцию01.03.2010