Научная статья на тему 'ПРИМЕНЕНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ПРОГНОЗИРОВАНИЯ САХАРНОГО ДИАБЕТА В МЕДИЦИНСКИХ СИСТЕМАХ ПРИНЯТИЯ РЕШЕНИЙ'

ПРИМЕНЕНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ПРОГНОЗИРОВАНИЯ САХАРНОГО ДИАБЕТА В МЕДИЦИНСКИХ СИСТЕМАХ ПРИНЯТИЯ РЕШЕНИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
138
16
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
системы принятия решений / корреляция / интеллектуальный анализ данных / прогнозирование / сахарный диабет / ранняя диагностика заболеваний / язык программирования R / decision support systems / correlation / data mining / predicting / diabetes / early diagnostic / R programming language

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сажнова Виктория Александровна, Нестеров Сергей Александрович

В статье рассматривается анализ медицинского опроса пациентов по наличию или отсутствию ряда характерных для сахарного диабета симптомов, на основе которого с помощью средств языка R была построена модель прогнозирования наличия сахарного диабета для случайного пациента. Результаты и методы, полученные в данном исследовании, могут быть использованы для разработки систем ранней диагностики и медицинских приложений самодиагностики сахарного диабета.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сажнова Виктория Александровна, Нестеров Сергей Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

APPLICATION OF DATA MINING FOR PREDICTING DIABETES IN CLINICAL DECISION SUPPORT SYSTEM

The article describes the analysis of the patients report about presence or absence of some diabetic symptoms. In the result, model was constructed for predicting the presence of diabetes for a random patient using the R language tools. The results and methods can further be used in the deployment of systems for the early diabetes diagnosis.

Текст научной работы на тему «ПРИМЕНЕНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ПРОГНОЗИРОВАНИЯ САХАРНОГО ДИАБЕТА В МЕДИЦИНСКИХ СИСТЕМАХ ПРИНЯТИЯ РЕШЕНИЙ»

Список литературы

1. Маркетинговая статистика [Электронный ресурс]. - URL: https://www.freely.net/marketing-statistics-2016 (дата обращения: 08.11.2022).

2. Данько Т.П., Ходимчук М.А. Системы искусственного интеллекта в разработке корпоративных маркетинговых стратегий // Журнал «Маркетинг в России и за рубежом». - 2000. - № 5. - С. 106-110.

3. Роуз Р., Пулицци Д. Управление контент-маркетингом [Электронный ресурс]. - М.: «Манн, Иванов и Фербер». 2014. — URL: https://bakunin.com/content-marketing-ai/ (дата обращения: 09.11.2022).

4. Digital 2022: Global Overview Report [Электронный ресурс]. — URL: https://datareportal.com/reports/digital-2022-global-overview-report (дата обращения: 09.11.2022).

5. Искусственный интеллект в маркетинге: где его используют и как внедрить уже завтра. [Электронный ресурс]. — URL: https://skillbox.ru/media/marketing/iskusstvennyy-intellekt-v-marketinge-gde-ego-ispolzuyut-i-kak-vnedrit-uzhe-zavtra/ (дата обращения: 09.11.2022).

УДК 004.62, 616.379-008.64 doi:10.18720/SPBPU/2/id23-503

Сажнова Виктория Александровна \

студент магистратуры;

л

Нестеров Сергей Александрович ,

доцент, канд. техн. наук, доцент

ПРИМЕНЕНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ПРОГНОЗИРОВАНИЯ САХАРНОГО ДИАБЕТА В МЕДИЦИНСКИХ СИСТЕМАХ ПРИНЯТИЯ РЕШЕНИЙ

1 2

' Россия, Санкт-Петербург, Санкт-Петербургский политехнический

университет Петра Великого,

1 2 sazhnova.va@edu.spbstu.ru, nesterov@spbstu.ru

Аннотация. В статье рассматривается анализ медицинского опроса пациентов по наличию или отсутствию ряда характерных для сахарного диабета симптомов, на основе которого с помощью средств языка R была построена модель прогнозирования наличия сахарного диабета для случайного пациента. Результаты и методы, полученные в данном исследовании, могут быть использованы для разработки систем ранней диагностики и медицинских приложений самодиагностики сахарного диабета.

Ключевые слова, системы принятия решений, корреляция, интеллектуальный анализ данных, прогнозирование, сахарный диабет, ранняя диагностика заболеваний, язык программирования R.

Victoria A. Sazhnova 1,

Master's Student;

л

Sergey A. Nesterov ,

Candidate of Technical Sciences, Associate Professor

APPLICATION OF DATA MINING FOR PREDICTING DIABETES IN CLINICAL DECISION SUPPORT SYSTEM

1 2

' Peter the Great St. Petersburg Polytechnic University, St. Petersburg, Russia, 1 sazhnova.va@edu.spbstu.ru, 2 nesterov@spbstu.ru

Abstract. The article describes the analysis of the patients report about presence or absence of some diabetic symptoms. In the result, model was constructed for predicting the presence of diabetes for a random patient using the R language tools. The results and methods can further be used in the deployment of systems for the early diabetes diagnosis.

Keywords: decision support systems, correlation, data mining, predicting, diabetes, early diagnostic, R programming language.

Введение

На данный момент согласно отчетам Всемирной организации здравоохранения (ВОЗ) сахарный диабет находится на третьем месте по причинам смертности после сердечно-сосудистых заболеваний и онкологии. Поэтому важно своевременно диагностировать заболевание на ранних стадиях, и как можно раньше помочь человеку начать поддерживающее лечение для сохранения качества и увеличения продолжительности жизни.

Цель данной работы — определение вероятности наличия сахарного диабета по проявлению характерных ему симптомов у человека.

1. Описание набора данных и первичная обработка

Для проведения исследования был выбран язык программирования R, который предназначен для статистической обработки данных, а также имеет удобные инструменты для визуализации результатов [2].

В работе исследуется обезличенный набор данных с результатами анкетирования пациентов из диабетической больницы Силхета (Бангладеш) [1]. Помимо возраста и пола пациента в опросе уточнялось наличие или отсутствие следующих 14 симптомов: частое мочеиспускание, повышенная жажда, резкое снижение веса, общая слабость, повышенный аппетит, генитальный кандидоз, нечеткость зрения, кожный зуд, раздражительность, замедленное заживление ран, частичный парез, ригидность мышц, выпадение волос, ожирение.

Также в наборе данных каждому пациенту была сопоставлена информация о том, был ли у него диагностирован сахарный диабет. Сводная информация о количестве принявших участие в анкетировании женщин и мужчин с учётом наличия сахарного диабета приведена в таблице 1.

Таблица 1

Описание набора данных

Категория С диабетом, чел. Без диабета, чел. Всего, чел.

Мужчины 173 19 192

Женщины 147 181 328

Общее 320 200 520

Для визуализации возраста принявших участие в анкетировании пациентов была построена гистограмма, которая изображена на рисунке 1, с выделением цветом по половой принадлежности: розовым и голубым для женщин и мужчин соответственно.

Как видно из гистограммы, возраст наибольшего количества опрошенных находится в диапазоне от 30 до 60 лет. Также для исследуемого набора были определены следующие характеристики: минимальный возраст опрошенного — 16 лет, максимальный — 90 лет, а средний возраст — 48 лет.

Рис. 1. Гистограмма возраста опрошенных (интервалы по 10 лет)

2. Корреляционный анализ атрибутов

Корреляция определяет меру зависимости между двумя и более величинами. Данная зависимость выражается через коэффициент корреляции. Коэффициент принимает значения в промежутке от -1 до 1. Интерпретировать значения коэффициента корреляции необходимо по знаку и модулю: если коэффициент положительный — связь между атрибутами прямая, ес-

ли коэффициент отрицательный — обратная; если модуль коэффициента близок к 1 или равен ему — связь между переменными сильная, если близка к 0 — слабая, а если равна 0 — связь отсутствует [4].

С целью определения зависимости между переменными исходного набора для них были попарно рассчитаны коэффициенты корреляции по Пирсону г по следующей формуле:

е "=1( х - х)( уi - у )

г = ■

(1)

где XI и у1 — значения двух переменных, х и у — их средние значения, а ^ и я — их стандартные отклонения; п — количество пар значений.

Полученные результаты были визуализированы с помощью тепловой карты, которая изображена на рисунке 2.

Диабет

Ожирение 0.1

ВыпадВолос 0 -0.3

РигидМышц 0 0.2 0.1

ЧастичПарез 02 -0.2 0 0.4

ЗамедЗажРан 0.2 0.3 0.3 -0.1 0

Раздр_ть 0.1 0.2 0.2 0 0.1 0.3

КожЗуд 0.1 0.5 0.1 02 0.3 0 0

НечетЗрения 0.3 0.1 0.2 0.4 0.4 0 0.1 0.3

ГенитКанд -0.1 0.1 0.2 0.1 -0.2 0.1 0.2 0.1 0.1

ПовАппетит -0.1 0.3 0.1 0.2 0.3 0.4 0.3 -0.1 0 0.3

Слабость 0.2 0 0.3 0.3 0.1 0.3 0.3 0.3 0.1 0 0.2

ПотВеса 0.3 0.2 0.1 0.1 0 0.1 0.2 0.1 0.3 0.1 -0.2 0.2 0.4

ПовЖажда 0.4 0.3 0.3 0 0.3 0.1 0.1 0.4 0.2 -0.3 0.1 0.6

ЧастоеМоч 0.6 0.4 0.3 0.4 0.1 0.2 0.1 0.2 0.1 0.4 0.2 -0.1 0.1 0.7

Пол -0.3 -0.3 -0.3 -0.1 -0.2 0.2 -0.2 -0.1 0 -0.1 -0.3 -0.1 0.3 0 -0.4

0.1 0.2 0.1 0.1 0.2 0.3 0.1 0.4 0.3 0.2 0.3 0.2 0.3 0.3 0.1 0.1

[-1,-0 75]

[-0.75,-0.5]

[-0.5,-0.25]

i-0.25.Dl

[0,0.25]

[0.25.0.5]

[0.5,0.75]

<075,1]

Рис. 2. Тепловая карта корреляции атрибутов

На данной тепловой карте палитра красных цветов характеризует положительную корреляцию, а палитра синих цветов — отрицательную. Согласно тепловой карте видна положительная корреляция между наличием сахарного диабета и таких атрибутов, как частое мочеиспускание и повышенная жажда.

На основе таблицы интерпретации силы корреляции можно сказать, что наличие таких симптомов, как частое мочеиспускание и повышенная жажда, имеют среднее влияние на наличие сахарного диабета, так как значения соответствующих коэффициентов принадлежат диапазону от 0,5 до 0,7 [4].

Таким образом, можно сказать, что данные симптомы являются главными признаками для ранней диагностики сахарного диабета. С медицинской точки зрения такую взаимосвязь можно обосновать тем, что почки интенсивно фильтруют и поглощают накопленный в крови избыток глюкозы.

Также стоит отметить, что коэффициенты корреляции между наличием сахарного диабета и таких симптомов, как кожный зуд и замедленное заживление ран, равны нулю, что показывает отсутствие зависимости между ними. Объяснить такую зависимость можно тем, что данные симптомы диабета чаще проявляются на поздних стадиях заболевания, поэтому не так распространены у опрошенных пациентов.

2. Построение и сравнение моделей предсказания

Цель исследования — определить риск наличия сахарного диабета по проявлению конкретных симптомов, на основе набора данных с заранее известными результатами. Эта задача является задачей построения предсказательной модели классификации [3].

В исследовании были построены четыре модели классификации на основе следующих алгоритмов: алгоритм к-ближайших соседей, алгоритм деревьев решений, алгоритм Байеса и алгоритм логистической регрессии.

Для обучения и проверки точности моделей изначальный набор данных был разделён на тренировочный и тестовый наборы в соотношении 70 на 30. В таблице 2 представлены результаты обучения построенных моделей на тестовых наборах.

Таблица 2

Сравнение результатов моделей

Алгоритм Точность модели на основе матрицы ошибок Точность модели на основе значения АиС

^ближайших соседей 0,9352941 0,9428571

Деревья решений 0,8470588 0,8410287

Байес 0,8235294 0,8298992

Логистическая регрессия 0,8352941 0,8282448

Исходя из результатов таблицы наилучшую точность согласно матрице ошибок имеет модель, построенная на основе алгоритма ^ ближайших соседей. Матрица ошибок данной модели показала, что из 100 диабетиков — верно классифицировано 90 диабетиков и 10 диабетиков неверно. А из 70 пациентов, не имеющих сахарный диабет, только

1 был отнесен к диабетикам. Таким образом, точность данной модели составляет 94 процента на тестовом наборе.

Также для оценки точности для каждой модели были вычислены значения площади (AUC) под ROC-кривой («кривая ошибок»). Полученные результаты, которые представлены в таблице 2, схожи с теми, что были вычислены при расчете доли правильно предсказанных значений по матрицам ошибок. Наилучший показатель точности также демонстрирует модель, полученная с помощью алгоритма k-ближайших соседей.

4. Пример использования модели предсказания для случайного пациента

Для построения модели прогнозирования вероятности наличия сахарного диабета у случайного пациента была взята модель на основе алгоритма k-ближайших соседей, так как она показала наилучший результат классификации пациентов на тестовом наборе данных.

Рассмотрим в качестве примера нового пациента с наличием восьми симптомов: повышенная жажда, резкое снижение веса, общая слабость, повышенный аппетит, нечеткость зрения, кожный зуд, раздражительность, выпадение волос.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Набор наличия симптомов из примера был передан в модель предсказания, результаты работы которой представлены на рисунке 3.

> example_patient$result с- predict(knn_mode1, example_patient)

Рис. 3. Результат прогнозирования модели для случайного пациента

Полученная вероятность наличия сахарного диабета для пациента с указанными выше симптомами равна 0,67 (67 %), то есть риск наличия сахарного диабета достаточно высокий.

Аналогичным образом можно определить вероятность наличия сахарного диабета для любого нового пациента с учётом проявления конкретных симптомов.

Заключение и выводы

В ходе работы был проведен корреляционный анализ атрибутов исходного набора данных, по результатам которого были выявлено, что основные взаимосвязи между атрибутами: наибольшее влияние на наличие сахарного диабета оказывает проявление у пациентов таких симптомов, как частое мочеиспускание и чрезмерная жажда.

В данной работе представлен результат сравнения моделей прогнозирования наличия сахарного диабета, построенных на четырёх алгоритмах: наилучший результат показала модель, основанная на алгоритме k-ближайших соседей, точность модели — 94 % на тестовых данных.

В результате работы была построена предсказательная модель вероятности наличия сахарного диабета для любого нового пациента с учётом проявления конкретных симптомов.

Результаты и методы, полученные в ходе проведения данного исследования, могут быть использованы для разработки систем ранней диагностики и медицинских приложений самодиагностики диабета.

Список литературы

1. UCI. Machine Learning Repository. - URL: https://archive.ics.uci.edu/ml/machine-leaming-databases/00529/ (дата обращения: 20.09.2022).

2. Lantz B. Machine learning with R. - 2nd. ed. - Birmingham, UK: Packt Publishing, 2015.

3. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. - СПб.: БХВ-Петербург, 2004. - 336 c.

4. Бююль А., Цёфель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей [Пер. с нем.] / Под ред. В.Е. Момота. - М. [и др.] : DiaSoft(DS), 2002. - 602 c.

УДК 338.266

ао1:10.18720/8РБРШМ23-504

Платонов Владимир Владимирович 1,

профессор, д-р экон. наук, профессор;

Л

Кузяев Далер Адьямович ,

аспирант

ИНДУСТРИЯ ФУТБОЛА КАК ОБЪЕКТ ИССЛЕДОВАНИЯ КОГНИТИВНОЙ ЭКОНОМИКИ

1 2

' Россия, Санкт-Петербург, Санкт-Петербургский государственный

экономический университет,

1 2 vladimir.platonov@gmail.com, daler9593@mail.ru

Аннотация. Статья построена на тезисе, что основные продукты индустрии футбола являются когнитивными товарами. Исходя из того, что продукт профессионального спорта является когнитивным, уточняется предметная область когнитивной экономики и ее место в экономической и когнитивной науках. Уточняется структура когнитивного спортивного продукта, составляющими частями которого являются спортивно-зрелищный и спортивно-информационный продукты. Обосновывается, что в этих условиях, для индустрии футбола является перспективным когнитивный подход к стратегическому управлению.

Ключевые слова: когнитивная экономика, индустрия футбола, продукт профессионального спорта, неопределенность результата.

i Надоели баннеры? Вы всегда можете отключить рекламу.