Список литературы
1. Маркетинговая статистика [Электронный ресурс]. - URL: https://www.freely.net/marketing-statistics-2016 (дата обращения: 08.11.2022).
2. Данько Т.П., Ходимчук М.А. Системы искусственного интеллекта в разработке корпоративных маркетинговых стратегий // Журнал «Маркетинг в России и за рубежом». - 2000. - № 5. - С. 106-110.
3. Роуз Р., Пулицци Д. Управление контент-маркетингом [Электронный ресурс]. - М.: «Манн, Иванов и Фербер». 2014. — URL: https://bakunin.com/content-marketing-ai/ (дата обращения: 09.11.2022).
4. Digital 2022: Global Overview Report [Электронный ресурс]. — URL: https://datareportal.com/reports/digital-2022-global-overview-report (дата обращения: 09.11.2022).
5. Искусственный интеллект в маркетинге: где его используют и как внедрить уже завтра. [Электронный ресурс]. — URL: https://skillbox.ru/media/marketing/iskusstvennyy-intellekt-v-marketinge-gde-ego-ispolzuyut-i-kak-vnedrit-uzhe-zavtra/ (дата обращения: 09.11.2022).
УДК 004.62, 616.379-008.64 doi:10.18720/SPBPU/2/id23-503
Сажнова Виктория Александровна \
студент магистратуры;
л
Нестеров Сергей Александрович ,
доцент, канд. техн. наук, доцент
ПРИМЕНЕНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ДЛЯ ПРОГНОЗИРОВАНИЯ САХАРНОГО ДИАБЕТА В МЕДИЦИНСКИХ СИСТЕМАХ ПРИНЯТИЯ РЕШЕНИЙ
1 2
' Россия, Санкт-Петербург, Санкт-Петербургский политехнический
университет Петра Великого,
1 2 sazhnova.va@edu.spbstu.ru, nesterov@spbstu.ru
Аннотация. В статье рассматривается анализ медицинского опроса пациентов по наличию или отсутствию ряда характерных для сахарного диабета симптомов, на основе которого с помощью средств языка R была построена модель прогнозирования наличия сахарного диабета для случайного пациента. Результаты и методы, полученные в данном исследовании, могут быть использованы для разработки систем ранней диагностики и медицинских приложений самодиагностики сахарного диабета.
Ключевые слова, системы принятия решений, корреляция, интеллектуальный анализ данных, прогнозирование, сахарный диабет, ранняя диагностика заболеваний, язык программирования R.
Victoria A. Sazhnova 1,
Master's Student;
л
Sergey A. Nesterov ,
Candidate of Technical Sciences, Associate Professor
APPLICATION OF DATA MINING FOR PREDICTING DIABETES IN CLINICAL DECISION SUPPORT SYSTEM
1 2
' Peter the Great St. Petersburg Polytechnic University, St. Petersburg, Russia, 1 sazhnova.va@edu.spbstu.ru, 2 nesterov@spbstu.ru
Abstract. The article describes the analysis of the patients report about presence or absence of some diabetic symptoms. In the result, model was constructed for predicting the presence of diabetes for a random patient using the R language tools. The results and methods can further be used in the deployment of systems for the early diabetes diagnosis.
Keywords: decision support systems, correlation, data mining, predicting, diabetes, early diagnostic, R programming language.
Введение
На данный момент согласно отчетам Всемирной организации здравоохранения (ВОЗ) сахарный диабет находится на третьем месте по причинам смертности после сердечно-сосудистых заболеваний и онкологии. Поэтому важно своевременно диагностировать заболевание на ранних стадиях, и как можно раньше помочь человеку начать поддерживающее лечение для сохранения качества и увеличения продолжительности жизни.
Цель данной работы — определение вероятности наличия сахарного диабета по проявлению характерных ему симптомов у человека.
1. Описание набора данных и первичная обработка
Для проведения исследования был выбран язык программирования R, который предназначен для статистической обработки данных, а также имеет удобные инструменты для визуализации результатов [2].
В работе исследуется обезличенный набор данных с результатами анкетирования пациентов из диабетической больницы Силхета (Бангладеш) [1]. Помимо возраста и пола пациента в опросе уточнялось наличие или отсутствие следующих 14 симптомов: частое мочеиспускание, повышенная жажда, резкое снижение веса, общая слабость, повышенный аппетит, генитальный кандидоз, нечеткость зрения, кожный зуд, раздражительность, замедленное заживление ран, частичный парез, ригидность мышц, выпадение волос, ожирение.
Также в наборе данных каждому пациенту была сопоставлена информация о том, был ли у него диагностирован сахарный диабет. Сводная информация о количестве принявших участие в анкетировании женщин и мужчин с учётом наличия сахарного диабета приведена в таблице 1.
Таблица 1
Описание набора данных
Категория С диабетом, чел. Без диабета, чел. Всего, чел.
Мужчины 173 19 192
Женщины 147 181 328
Общее 320 200 520
Для визуализации возраста принявших участие в анкетировании пациентов была построена гистограмма, которая изображена на рисунке 1, с выделением цветом по половой принадлежности: розовым и голубым для женщин и мужчин соответственно.
Как видно из гистограммы, возраст наибольшего количества опрошенных находится в диапазоне от 30 до 60 лет. Также для исследуемого набора были определены следующие характеристики: минимальный возраст опрошенного — 16 лет, максимальный — 90 лет, а средний возраст — 48 лет.
Рис. 1. Гистограмма возраста опрошенных (интервалы по 10 лет)
2. Корреляционный анализ атрибутов
Корреляция определяет меру зависимости между двумя и более величинами. Данная зависимость выражается через коэффициент корреляции. Коэффициент принимает значения в промежутке от -1 до 1. Интерпретировать значения коэффициента корреляции необходимо по знаку и модулю: если коэффициент положительный — связь между атрибутами прямая, ес-
ли коэффициент отрицательный — обратная; если модуль коэффициента близок к 1 или равен ему — связь между переменными сильная, если близка к 0 — слабая, а если равна 0 — связь отсутствует [4].
С целью определения зависимости между переменными исходного набора для них были попарно рассчитаны коэффициенты корреляции по Пирсону г по следующей формуле:
е "=1( х - х)( уi - у )
г = ■
(1)
где XI и у1 — значения двух переменных, х и у — их средние значения, а ^ и я — их стандартные отклонения; п — количество пар значений.
Полученные результаты были визуализированы с помощью тепловой карты, которая изображена на рисунке 2.
Диабет
Ожирение 0.1
ВыпадВолос 0 -0.3
РигидМышц 0 0.2 0.1
ЧастичПарез 02 -0.2 0 0.4
ЗамедЗажРан 0.2 0.3 0.3 -0.1 0
Раздр_ть 0.1 0.2 0.2 0 0.1 0.3
КожЗуд 0.1 0.5 0.1 02 0.3 0 0
НечетЗрения 0.3 0.1 0.2 0.4 0.4 0 0.1 0.3
ГенитКанд -0.1 0.1 0.2 0.1 -0.2 0.1 0.2 0.1 0.1
ПовАппетит -0.1 0.3 0.1 0.2 0.3 0.4 0.3 -0.1 0 0.3
Слабость 0.2 0 0.3 0.3 0.1 0.3 0.3 0.3 0.1 0 0.2
ПотВеса 0.3 0.2 0.1 0.1 0 0.1 0.2 0.1 0.3 0.1 -0.2 0.2 0.4
ПовЖажда 0.4 0.3 0.3 0 0.3 0.1 0.1 0.4 0.2 -0.3 0.1 0.6
ЧастоеМоч 0.6 0.4 0.3 0.4 0.1 0.2 0.1 0.2 0.1 0.4 0.2 -0.1 0.1 0.7
Пол -0.3 -0.3 -0.3 -0.1 -0.2 0.2 -0.2 -0.1 0 -0.1 -0.3 -0.1 0.3 0 -0.4
0.1 0.2 0.1 0.1 0.2 0.3 0.1 0.4 0.3 0.2 0.3 0.2 0.3 0.3 0.1 0.1
[-1,-0 75]
[-0.75,-0.5]
[-0.5,-0.25]
i-0.25.Dl
[0,0.25]
[0.25.0.5]
[0.5,0.75]
<075,1]
Рис. 2. Тепловая карта корреляции атрибутов
На данной тепловой карте палитра красных цветов характеризует положительную корреляцию, а палитра синих цветов — отрицательную. Согласно тепловой карте видна положительная корреляция между наличием сахарного диабета и таких атрибутов, как частое мочеиспускание и повышенная жажда.
На основе таблицы интерпретации силы корреляции можно сказать, что наличие таких симптомов, как частое мочеиспускание и повышенная жажда, имеют среднее влияние на наличие сахарного диабета, так как значения соответствующих коэффициентов принадлежат диапазону от 0,5 до 0,7 [4].
Таким образом, можно сказать, что данные симптомы являются главными признаками для ранней диагностики сахарного диабета. С медицинской точки зрения такую взаимосвязь можно обосновать тем, что почки интенсивно фильтруют и поглощают накопленный в крови избыток глюкозы.
Также стоит отметить, что коэффициенты корреляции между наличием сахарного диабета и таких симптомов, как кожный зуд и замедленное заживление ран, равны нулю, что показывает отсутствие зависимости между ними. Объяснить такую зависимость можно тем, что данные симптомы диабета чаще проявляются на поздних стадиях заболевания, поэтому не так распространены у опрошенных пациентов.
2. Построение и сравнение моделей предсказания
Цель исследования — определить риск наличия сахарного диабета по проявлению конкретных симптомов, на основе набора данных с заранее известными результатами. Эта задача является задачей построения предсказательной модели классификации [3].
В исследовании были построены четыре модели классификации на основе следующих алгоритмов: алгоритм к-ближайших соседей, алгоритм деревьев решений, алгоритм Байеса и алгоритм логистической регрессии.
Для обучения и проверки точности моделей изначальный набор данных был разделён на тренировочный и тестовый наборы в соотношении 70 на 30. В таблице 2 представлены результаты обучения построенных моделей на тестовых наборах.
Таблица 2
Сравнение результатов моделей
Алгоритм Точность модели на основе матрицы ошибок Точность модели на основе значения АиС
^ближайших соседей 0,9352941 0,9428571
Деревья решений 0,8470588 0,8410287
Байес 0,8235294 0,8298992
Логистическая регрессия 0,8352941 0,8282448
Исходя из результатов таблицы наилучшую точность согласно матрице ошибок имеет модель, построенная на основе алгоритма ^ ближайших соседей. Матрица ошибок данной модели показала, что из 100 диабетиков — верно классифицировано 90 диабетиков и 10 диабетиков неверно. А из 70 пациентов, не имеющих сахарный диабет, только
1 был отнесен к диабетикам. Таким образом, точность данной модели составляет 94 процента на тестовом наборе.
Также для оценки точности для каждой модели были вычислены значения площади (AUC) под ROC-кривой («кривая ошибок»). Полученные результаты, которые представлены в таблице 2, схожи с теми, что были вычислены при расчете доли правильно предсказанных значений по матрицам ошибок. Наилучший показатель точности также демонстрирует модель, полученная с помощью алгоритма k-ближайших соседей.
4. Пример использования модели предсказания для случайного пациента
Для построения модели прогнозирования вероятности наличия сахарного диабета у случайного пациента была взята модель на основе алгоритма k-ближайших соседей, так как она показала наилучший результат классификации пациентов на тестовом наборе данных.
Рассмотрим в качестве примера нового пациента с наличием восьми симптомов: повышенная жажда, резкое снижение веса, общая слабость, повышенный аппетит, нечеткость зрения, кожный зуд, раздражительность, выпадение волос.
Набор наличия симптомов из примера был передан в модель предсказания, результаты работы которой представлены на рисунке 3.
> example_patient$result с- predict(knn_mode1, example_patient)
Рис. 3. Результат прогнозирования модели для случайного пациента
Полученная вероятность наличия сахарного диабета для пациента с указанными выше симптомами равна 0,67 (67 %), то есть риск наличия сахарного диабета достаточно высокий.
Аналогичным образом можно определить вероятность наличия сахарного диабета для любого нового пациента с учётом проявления конкретных симптомов.
Заключение и выводы
В ходе работы был проведен корреляционный анализ атрибутов исходного набора данных, по результатам которого были выявлено, что основные взаимосвязи между атрибутами: наибольшее влияние на наличие сахарного диабета оказывает проявление у пациентов таких симптомов, как частое мочеиспускание и чрезмерная жажда.
В данной работе представлен результат сравнения моделей прогнозирования наличия сахарного диабета, построенных на четырёх алгоритмах: наилучший результат показала модель, основанная на алгоритме k-ближайших соседей, точность модели — 94 % на тестовых данных.
В результате работы была построена предсказательная модель вероятности наличия сахарного диабета для любого нового пациента с учётом проявления конкретных симптомов.
Результаты и методы, полученные в ходе проведения данного исследования, могут быть использованы для разработки систем ранней диагностики и медицинских приложений самодиагностики диабета.
Список литературы
1. UCI. Machine Learning Repository. - URL: https://archive.ics.uci.edu/ml/machine-leaming-databases/00529/ (дата обращения: 20.09.2022).
2. Lantz B. Machine learning with R. - 2nd. ed. - Birmingham, UK: Packt Publishing, 2015.
3. Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining. - СПб.: БХВ-Петербург, 2004. - 336 c.
4. Бююль А., Цёфель П. SPSS: искусство обработки информации. Анализ статистических данных и восстановление скрытых закономерностей [Пер. с нем.] / Под ред. В.Е. Момота. - М. [и др.] : DiaSoft(DS), 2002. - 602 c.
УДК 338.266
ао1:10.18720/8РБРШМ23-504
Платонов Владимир Владимирович 1,
профессор, д-р экон. наук, профессор;
Л
Кузяев Далер Адьямович ,
аспирант
ИНДУСТРИЯ ФУТБОЛА КАК ОБЪЕКТ ИССЛЕДОВАНИЯ КОГНИТИВНОЙ ЭКОНОМИКИ
1 2
' Россия, Санкт-Петербург, Санкт-Петербургский государственный
экономический университет,
1 2 vladimir.platonov@gmail.com, daler9593@mail.ru
Аннотация. Статья построена на тезисе, что основные продукты индустрии футбола являются когнитивными товарами. Исходя из того, что продукт профессионального спорта является когнитивным, уточняется предметная область когнитивной экономики и ее место в экономической и когнитивной науках. Уточняется структура когнитивного спортивного продукта, составляющими частями которого являются спортивно-зрелищный и спортивно-информационный продукты. Обосновывается, что в этих условиях, для индустрии футбола является перспективным когнитивный подход к стратегическому управлению.
Ключевые слова: когнитивная экономика, индустрия футбола, продукт профессионального спорта, неопределенность результата.