Научная статья на тему 'КЛАССИФИКАЦИИ ПРОБЛЕМ С СЕРДЦЕМ НА ОСНОВЕ ПОКАЗАТЕЛЕЙ ЗДОРОВЬЯ'

КЛАССИФИКАЦИИ ПРОБЛЕМ С СЕРДЦЕМ НА ОСНОВЕ ПОКАЗАТЕЛЕЙ ЗДОРОВЬЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
классификация / показатели здоровья / сердце / интеллектуальный анализ / classification / health indicators / heart problems / data mining / Random Forest / R Studio

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бородин А.В.

В статье проводится анализ набора данных по показателям здоровья и выявлению проблем с сердцем. Подготовлены данные с помощью, которых происходит выявление. В ходе исследования была поставлена и проверена гипотеза, что показатели здоровья человека сигнализируют о том, что у него существуют проблемы, связанные с сердечно-сосудистой системой. Для проведения анализа была использована программа R Studio, в которую были загружены необходимые для решения пакеты. Классификация осуществлялась с помощью метода Random Forest. По итогу всей работы сделаны выводы, а также построена модель, которая позволяет анализировать пациентов на предмет наличия проблем с сердцем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бородин А.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLASSIFICATIONS OF PROBLEMS WITH HEART BASED HEALTH INDICATORS

The article analyzes a data set on health indicators and identification of heart problems. Data has been prepared with the help of which identification occurs. During the study, the hypothesis was formulated and tested that a person’s health indicators indicate that he has problems associated with the cardiovascular system. To carry out the analysis, the R Studio program was used, into which the packages necessary for the solution were loaded. Classification was carried out using the Random Forest method. Based on the results of all the work, conclusions were drawn, and a model was built that allows one to analyze patients for the presence of heart problems.

Текст научной работы на тему «КЛАССИФИКАЦИИ ПРОБЛЕМ С СЕРДЦЕМ НА ОСНОВЕ ПОКАЗАТЕЛЕЙ ЗДОРОВЬЯ»

УДК 004

Бородин А.В.

студент магистратуры Уральский государственный экономический университет (г. Екатеринбург, Россия)

КЛАССИФИКАЦИИ ПРОБЛЕМ С СЕРДЦЕМ НА ОСНОВЕ ПОКАЗАТЕЛЕЙ ЗДОРОВЬЯ

Аннотация: в статье проводится анализ набора данных по показателям здоровья и выявлению проблем с сердцем. Подготовлены данные с помощью, которых происходит выявление. В ходе исследования была поставлена и проверена гипотеза, что показатели здоровья человека сигнализируют о том, что у него существуют проблемы, связанные с сердечно-сосудистой системой. Для проведения анализа была использована программа R Studio, в которую были загружены необходимые для решения пакеты. Классификация осуществлялась с помощью метода Random Forest. По итогу всей работы сделаны выводы, а также построена модель, которая позволяет анализировать пациентов на предмет наличия проблем с сердцем.

Ключевые слова: классификация, показатели здоровья, сердце, интеллектуальный

анализ.

Основой нашего окружения является информация. Она, наряду с понятием о данных - являются основой интеллектуального анализа данных, в частности, и работы с цифровыми технологиями, в целом.

Информация - это сведения, воспринимаемые человеком или специальными устройствами как отражение фактов материального или духовного мира в процессе коммуникации. [2] Это очень важно для упоминания.

Данные, уже, в свою очередь, являются зарегистрированной информацией, представлением фактов, понятий или инструкций в форме, приемлемой для общения, интерпретации, обработки человеком или с помощью

автоматических средств. В определенное время зародилось целое направление анализа и связанных с ним вещей.

Анализ данных (АД) - это система подходов и методов, ориентированная на выявление механизма порождения представленных данных в рамках имеющейся априорной модели этого механизма. Современные технологии анализа данных - новая парадигма процесса исследования данных, основанная на принципах, предложенных Джоном Тьюки.

В рамках данной работы решено выбрать данные - показатели здоровья людей, имеющих или не имеющих некоторые физические отклонения, связанные с сердцем.

Основным утверждением, с которым идёт работа следует считать таким: «Некоторые показатели здоровья человека сигнализируют о том, что у него существуют проблемы, связанные с сердечно-сосудистой системой». Естественно, стоит отметить, что это является не только сигналом, но и причиной проблем, однако, смысл от этого не меняется, например, постоянно высокое давление приводит к ухудшению состояния сердца и исходит от него же.

Целью данной работы является процесс построения модели классификации на основе данных о здоровье и интерпретация результатов. Для этого будет использоваться метод машинного обучения Random Forest.

Далее важно перейти к средствам реализации. В появившейся задаче классификации выбран метод, расписаны шаги, но необходимо решить какое программное средство будет использована в выполнении возникшей задачи. Программное обеспечение интеллектуального анализа данных предназначено для поиска неочевидных и нетривиальных представлений и выводов, имеющих практическое применение. Основные используемые языки: R, Python, SQL. Основные инструменты: Deductor, Orange, Anaconda, Loginom, RStudio, Qlik Sense, SAP Analytics Cloud, Yandex DataLens и так далее, в действительности, подобных программных решений огромное количество.

Однако, не смотря на великое количество потенциальных средств - выбор пал на программное средство - RStudio. Он позволяет удобно работать как с кодом, так и с его демонстрацией. В добавок, RStudio имеет несколько преимуществ:

- RStudio является более легковесной и быстрой программой,

- RStudio предоставляет больше функциональности для работы с R, имеет множество полезных вкладок, например, крайне полезную вкладку Environment, которая показывает все переменные, добавленные в окружение,

- RStudio не требует установки дополнительного ПО, не нагружая и делая установку и реализацию доступнее для более широкого круга пользователей.

Классификация — это задача интеллектуального анализа данных, которая включает присвоение метки класса каждому экземпляру в наборе данных на основе его характеристик. Целью классификации является построение модели, которая точно предсказывает метки классов новых экземпляров на основе их характеристик.^] Классификация имеет несколько этапов [1]:

- первым шагом в построении модели классификации является сбор данных,

- вторым шагом в построении модели классификации является предварительная обработка данных. Собранные данные должны быть предварительно обработаны для обеспечения их качества,

- третьим шагом в построении модели классификации является выбор признаков. выбор объекта включает в себя определение наиболее релевантных атрибутов в наборе данных для классификации,

- четвертым шагом в построении модели классификации является выбор модели. выбор модели включает в себя выбор соответствующего алгоритма классификации для рассматриваемой проблемы,

- пятым шагом в построении модели классификации является обучение модели,

- шестым шагом в построении модели классификации является оценка модели. Оценка модели включает в себя оценку производительности обученной модели на тестовом наборе.

Первыми шагами проведения анализа является сбор данных предварительная обработка. В рамках данной работы эти пункты выполнены в самом начале, на стадии сбора данных. Данные собраны и оформлены в виде умной таблицы в Excel. Данные представлены на рисунке 1.

Age В BP □ CH □ G в BMq Heart_Disease q

31 120 200 110 20 0

52 130 220 120 21 1

45 140 210 95 27 1

24 125 230 110 25 0

55 135 240 130 17 1

22 120 195 90 21 0

SO 100 250 140 29 1 J

Рисунок 1. Выборка данных по потреблению спиртных напитков.

Все перемененные, за исключением последнего столбца, использованы для создания модели. Далее, когда данные собраны они экспортируются, непосредственно, в программное средство. Как показано на рисунке 2 и рисунке 3. В самой программе необходимо добавить нужные пакеты. Для этой работы нам нужен пакет(библиотека) «Random Forest». В добавок, для импорта уже добавлена библиотека «readr», а также добавлены библиотеки: «class», «ggplot2», «cowplot».

fJiAlft!,:

' RoKiir*^ Trctir-guier d4» ^rlrtl rc*di

Рисунок 2. Импорт данных.

Рисунок 3. Код для импорта данных из таблицы.

Следующим важным шагом является проверка на необходимое количество деревьев, проверка выполняется с помощью команды «model». Результат на рисунке 4.

model

trees

Рисунок 4. Наименьшая среднеквадратичная ошибка.

Для наглядности можно использовать команду <^ЫсЬ.тт(тоёе1$тве)» и получить данные. В данном случае значение - 34 дерева.

Следующим шагом в выполнении является построение графика влияния факторов. Он отображает пункты, которые оказали влияние на модель, определили самый важный фактор, влияющий на состояние сердца. Про ранжировали значимость, результат показан на рисунке 5.

Рисунок 5. Влияние различных факторов.

Наибольшее влияние на модель оказывает давление. Вторым является показатель холестерина в миллиграммах. На третьем месте - возраст, на четвёртом - уровень глюкозы, также, в миллиграммах. Последним по важности на данном графике является индекс массы тела, который, по всей видимости, играет наименьшую роль в данном случае.

На третьем этапе вычисляется значение той или иной меры сходства между объектами. Для выполнения этого шага будет использован метод Варда. Этот метод отличается от всех других методов, поскольку он использует методы дисперсионного анализа для оценки расстояний между кластерами. Метод минимизирует сумму квадратов для любых двух кластеров, которые могут быть сформированы на каждом шаге. Метод представляется очень эффективным,

однако он стремится создавать кластеры малого размера. Этот метод был выбран в виду его эффективности.

Следующим шагом является настройка модели. По умолчанию функция «randomForest()» использует 500 деревьев и (всего предикторов/3) случайно выбранных предикторов в качестве потенциальных кандидатов при каждом разбиении. Можно настроить эти параметры с помощью функции «tuneRF()».

Следующий пункты показывают, как найти оптимальную модель, используя спецификации:

- ntreeTry: количество деревьев, которые необходимо построить,

- mtryStart: начальное количество переменных-предикторов, которые следует учитывать при каждом разбиении,

- stepFactor: коэффициент, на который следует увеличивать до тех пор, пока оценочная ошибка вне упаковки не перестанет улучшаться на определенную величину,

- improve: величина, на которую необходимо улучшить ошибку вне упаковки, чтобы продолжать увеличивать ступенчатый коэффициент.

Эта функция создает следующий график, который отображает количество предикторов, используемых в каждом разбиении при построении деревьев по оси x и оценочную ошибку вне пакета по оси у, график представлен на рисунке 6.

2 3 4 5

ГЦ,

Рисунок 6. Количество предикторов.

Видно, что наименьшая ошибка OOB достигается за счет использования 3 случайно выбранных предикторов в каждом разбиении при построении деревьев. После построения необходимо проверить модель. Для этого заранее выделены из обучающих данных те, что будут использованы при проверке. Добавим человека, у которого, также, известны показатели здоровья, в добавок, есть информация, что у него существуют проблемы с сердцем. На рисунке 7 показан результат проверки.

> new <- data, frame(Age=60, BP=135, CH=250 ,G=100r BMI=28)

Рисунок 7. Проверка модели человеком с болезнью сердца.

Основываясь на значениях переменных-предикторов, подобранная модель случайного леса показывает значение 0,8687, что можно интерпретировать как крайне высокий шанс наличия проблем с сердцем. Для перепроверки следует добавить ещё одного человека с известными данными. Результат на рисунке 8.

> new с- data, f rame(.Age=3 5, БР=120, СН=2СС ,G=80r BMI=20)

Рисунок 8. Проверка модели человеком без болезни сердца.

Подобная проверка позволяет сказать, что модель работает именно так, как и ожидалось, она определяет расположенность к проблемам с сердцем достаточно точно.

Переходя к последнему шагу, анализу и интерпретации важно отметить значимость графика на рисунке 5, ведь благодаря нему становится понятнее тенденция по развитию проблем. Таким образом не всегда большой вес, то есть

показатель ИМТ(BMI) ведёт к болезням сердцам, данный пункт и в половину не имеет такой важности как, например, возраст, а тем более холестерин и давление.

Что касается последних двух пунктов, базовые представления о здоровье и медицине говорят о том, что подобный график имеет смысл, ведь если просмотреть истории болезней или же использовать обыденный опыт -становится очевидным, что именно эти два пункта ведут к проблемам. Высокое давление является первой причиной активной фазы такой проблемы, связанной с сердцем, как, например, инфаркт. Повышенное содержание в крови холестерина способствует развитию атеросклеротического поражения стенок кровеносных сосудов и является одним из факторов риска развития тяжелых сердечно-сосудистых заболеваний, таких как стенокардия (ишемическая болезнь сердца) и инфаркт миокарда, инсульт и перемежающаяся хромота, соответственно, очевидно, какое значение имеет холестерин в человеческом организме.

СПИСОК ЛИТЕРАТУРЫ:

1. «Как темные UX-паттерны заставляют вас делать то, чего вы не хотите» — URL: https://say-hi.me/design/dark-ux.html (дата обращения: 31.05.2022). — Режим доступа: свободный. — Текст: электронный;

2. Кластерный анализ — URL: https://ranalytics.github.io/data-mining/101-Partitioning-Algos.html#sec_10_1 (дата обращения: 31.05.2022). — Режим доступа: свободный. — Текст: электронный;

3. Doctor router «FB использует ваш номер телефона для таргетинга рекламы, и вы не можете его остановить» — URL: https://www.doctorrouter.ru/ (дата обращения: 31.05.2022). — Режим доступа: свободный. — Текст: электронный;

4. Forbes «Власти США подали в суд на владельца Tinder за обман пользователей» — URL: https://www.forbes.ru/newsroom/tehnologii/384323-vlasti-ssha-podali-v-sud-na-vladelca-tinder-za-obman-polzovateley (дата обращения: 31.05.2022). — Режим доступа: свободный. — Текст: электронный;

5. Ux.pub «Темные паттерны дизайна — это совершенно неэтично и безответственно» — URL: https://ux.pub/editorial/tiemnyie-pattierny-dizaina-eto-soviershienno-nieetichno-i-

biezotvietstvienno-

2931#1_Zapros_kreditnoj_karty_pri_besplatnom_probnom_periode_i0/o20spolzovania_produkta (дата обращения: 31.05.2022). — Режим доступа: свободный. — Текст: электронный;

6. LinkedIn Dark Patterns — URL: https://medium.com/@danrschlosser/linkedin-dark-patterns-3ae726fe1462#.hiqkzc1xd (дата обращения: 31.05.2022). — Режим доступа: свободный. — Текст: электронный;

7. Usability Heuristics for User Interface Design — URL: https://www.nngroup.com/articles/ten-usability-heuristics/ (дата обращения: 31.05.2022). — Режим доступа: свободный. — Текст: электронный

Borodin A.V.

Ural State Economic University (Ekaterinburg, Russia)

CLASSIFICATIONS OF PROBLEMS WITH HEART BASED HEALTH INDICATORS

Abstract: the article analyzes a data set on health indicators and identification of heart problems. Data has been prepared with the help of which identification occurs. During the study, the hypothesis was formulated and tested that a person's health indicators indicate that he has problems associated with the cardiovascular system. To carry out the analysis, the R Studio program was used, into which the packages necessary for the solution were loaded. Classification was carried out using the Random Forest method. Based on the results of all the work, conclusions were drawn, and a model was built that allows one to analyze patients for the presence of heart problems.

Keywords: classification, health indicators, heart problems, data mining, Random Forest, R

Studio.

i Надоели баннеры? Вы всегда можете отключить рекламу.