Научная статья на тему 'Компьютерная модель решения задач классификации в программной среде Rapid Miner'

Компьютерная модель решения задач классификации в программной среде Rapid Miner Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
837
102
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
DECISION TREE / SOLVING CLASSIFICATION PROBLEMS / RAPID MINER / PRACTICAL CLASSES / ДЕРЕВО РЕШЕНИЙ / ЗАДАЧИ КЛАССИФИКАЦИИ / ПРАКТИЧЕСКОЕ ЗАНЯТИЕ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Никонорова М. Л.

Развитие информационных технологий и современных коммуникаций, появление в клиниках большого количества автоматизированных медицинских приборов и компьютеров привело к значительному росту медицинской специализированной информации и биомедицинских данных. Методы и технологии анализа данных Data Mining позволяют выявить ряд скрытых закономерностей и связей между различными массивами данных. Правила принятия решений, получаемые при классификации, содержат новые медицинские знания. Статистический контроль качества диагностических тестов с бинарными исходами показал, что компьютерная модель классификации может использоваться для построения алгоритмов диагностики заболеваний. Построение модели решения задач классификации в программной среде Rapid Miner на практических занятиях развивает информационно-технологические компетенции, обеспечивает отработку компетенций принятия практических решений в реальных условиях профессиональной деятельности.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Никонорова М. Л.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Computer model for solving classification problems in a software environment Rapid Miner

The development of information technology and modern communications, the emergence of a large number of automated medical devices and computers in clinics has led to a significant increase in medical-specialized information and biomedical data. Methods and technologies data analysis Data Mining lets identify a number of hidden patterns and relationships between data of various nature. The decision rules obtained in the classification contain new medical knowledge. Statistical quality control of diagnostic tests with binary outcomes showed that a computer classification model can be used to construct diagnostic algorithms for diseases. The construction of model for solving classification problems in a software environment Rapid Miner in practical classes develops information and technological competencies, ensures the development of competences for making practical decisions in the real conditions of professional activity.

Текст научной работы на тему «Компьютерная модель решения задач классификации в программной среде Rapid Miner»

Для корреспонденции

Никонорова Маргарита Леонидовна — кандидат педагогических наук, доцент ФГБОУ ВО «Первый Санкт-Петербургский государственный медицинский университет им. акад. И.П. Павлова» Минздрава России E-mail: [email protected]

Никонорова М.Л.

Компьютерная модель решения задач классификации в программной среде Rapid Miner

Nikonorova M.L.

Computer model for solving classification problems in a software environment Rapid Miner

Academician I.P. Pavlov First

St. Petersburg State Medical University

The development of information technology and modern communications, the emergence of a large number of automated medical devices and computers in clinics has led to a significant increase in medical-specialized information and biomedical data. Methods and technologies data analysis Data Mining lets identify a number of hidden patterns and relationships between data of various nature. The decision rules obtained in the classification contain new medical knowledge. Statistical quality control of diagnostic tests with binary outcomes showed that a computer classification model can be used to construct diagnostic algorithms for diseases. The construction of model for solving classification problems in a software environment Rapid Miner in practical classes develops information and technological competencies, ensures the development of competences for making practical decisions in the real conditions of professional activity.

Keywords

• decision tree

• solving classification problems

• Rapid Miner

• practical classes

ФГБОУ ВО «Первый Санкт-Петербургский государственный медицинский университет им. акад. И.П. Павлова» Минздрава России

Развитие информационных технологий и современных коммуникаций, появление в клиниках большого количества автоматизированных медицинских приборов и компьютеров привело к значительному росту медицинской специализированной информации и биомедицинских данных. Методы и технологии анализа данных Data Mining позволяют выявить ряд скрытых закономерностей и связей между различными массивами данных. Правила принятия решений, получаемые при классификации, содержат новые медицинские знания. Статистический контроль качества диагностических тестов с бинарными исходами показал, что компьютерная модель классификации может использоваться для построения алгоритмов диагностики заболеваний. Построение модели решения задач классификации в программной среде Rapid Miner на практических занятиях развивает информационно-технологические компетенции, обеспечивает отработку компетенций принятия практических решений в реальных условиях профессиональной деятельности.

Ключевые слова

• дерево решений

• задачи классификации

• Rapid Miner

• практическое занятие

Современный этап развития общества характеризуется экспоненциальным ростом количества накопленной информации. В течение длительного времени в информационных системах медицинских учреждений создавались электронные архивы историй болезни, компьютерные средства диагностики и тестирования пациентов, системы анкетирования и многое другое. Однако для извлечения из накопленных данных полезной информации знаний требуется их определенная обработка, которая поможет существенно расширить границы применимости научных результатов. Методы и технологии анализа данных Data Mining выявляют неочевидные, объективные и полезные закономерности различного типа. Интеллектуальный анализ данных Data Mining позволяет проводить глубокое исследование и обнаруживать в данных ранее неизвестные, практически полезные и достаточно интерпретируемые связи [2]. Основные методы интеллектуального анализа данных базируются на статистике, машинном обучение и теории баз данных, а наиболее часто используемые методы интеллектуального анализа данных — классификация и кластеризация.

Статистические алгоритмы классификации основаны на априорных предположениях о виде плотностей распределения классов (байесовское решающее правило, линейный дискриминант Фишера, ЕМ-алгоритм). Метрические алгоритмы основаны на формализации понятия сходства между объектами и гипотезе компактности (методы ближайших соседей, потенциальных функций, радиальных базисных функций). Алгоритмы классификации можно построить на основании индукции правил (rule induction, rule learning) или индуктивного вывода логических закономерностей [7].

Отметим, что одним из наиболее популярных методов решения задач классификации является метод деревьев решающих правил или деревьев принятия решений.

Алгоритмы интеллектуального анализа данных реализуются фирмой Microsoft в табличном процессоре Excel, где для анализа данных добавляется вкладка «Анализ». Компания Palisade поставляет комплексный пакет Decision Tools Suite, в состав которого входит Precision Tree. Данный пакет также встраивается в табличный процессор Excel. Создавать деревья решений возможно и в Microsoft Visio профессиональный 2013. Результат работы See5 системы See5/C5.0 компании RuleQuest выражается в виде деревьев решений и множества правил if... then... Программа для построения деревьев решений AnswerTree входит в состав пакета SPSS.

Рассмотрим технологию построения компьютерной модели классификации биомедицинских данных методом деревьев принятия решений на примере бесплатно распространяемой программы Rapid Miner [8].

Цели проведенного исследования — создание компьютерной модели классификации биомедицинских данных и выявление правил принятия решений в программной среде Rapid Miner.

Для достижения данной цели были поставлены следующие задачи:

• построить компьютерную модель классификации и анализа результатов на примере оценки комплексного функционального исследования внешнего дыхания;

• проанализировать эффективность построенной компьютерной модели классификации.

Дерево решений — это способ представления правил в виде иерархического графа. В состав дерева решений входят узлы, со-

держащие правила проверки зависимых атрибутов и разбиения выборки данных на разные классы, листья, не содержат ветвления и являются конечными узлами дерева, именно листья определяют принадлежность к одному из диагностических классов. Атрибуты или показатели, выбранные в соответствии с условием и наилучшим образом разбивающие выборку на разные классы, располагаются выше в дереве. Таким образом, наиболее информативный показатель с точки зрения разбиения выборки на подклассы, находится в вершине дерева [6] и является корнем дерева или корневым узлом. Корень дерева не имеет входных ветвей. Дерево решений может быть представлено в виде логических высказываний или правил, где каждое правило отражает путь из корня в лист и описывается логическими цепочками условий. Качество построенного дерева характеризуют такие показатели, как точность и сложность. Под точностью дерева понимается точность разделения объектов на диагностические классы. Сложность дерева определяется числом листьев дерева и его внутренних узлов, а также максимальной длиной пути из корня в лист [1].

В программе Rapid Miner процесс классификации данных методом «Дерево решений» состоит из двух этапов: этапа обучения, в котором обучающая выборка анализируется относительно целевых атрибутов — листьев дерева и непосредственно классификации, в этом случае тестовые данные используются для оценки точности создаваемых правил классификации. Если точность является допустимой, правила применяют для классификации новых наборов данных [9]. Для повышения качества классификации используют кросс-валидацию, разбивающую выборку на N групп, причем каждая группа один раз

участвует в классификации (тестировании) и (N — 1) раз в обучении. В результате можно оценить количество правильно и неправильно классифицированных объектов при помощи таблицы ошибок.

Следует отметить, что в качестве меры информативности в программе Rapid Miner обычно используют следующие параметры построения дерева: information gain (вычисляется энтропия всех атрибутов в соответствии с формулой Шеннона, атрибуты с минимальной энтропией расщепляются); gain ratio (задает диапазон и степень однородности для каждого атрибута, усечение дерева производится путем замещения целого поддерева листом); gini index (индекс Джини, задает при необходимости меру добавления, создает разветвления дерева по бинарному разделению), accuracy (оценивает точность атрибутов при разветвлении и максимальную точность всего дерева).

Закономерности в виде правил, предоставляемые деревом решений, могут применяться в научных исследованиях для поиска нестандартных медицинских случаев и их дальнейшего анализа [6]. Например, результаты комплексного функционального исследования внешнего дыхания после технологии анализа методом «Дерево решений» можно использовать для построения алгоритмов диагностики заболеваний легких.

Подробное построение модели принятия решений в прикладной среде Rapid Miner описано в методическом кейсе [5].

В качестве исходных данных для построения модели взяты данные спирометрии у пациентов с нарушениями здоровья, оценку степени и выраженности нарушений условно обозначаемыми Д1, Д2, Д3. Исследования проводились в течение нескольких лет и из собранной базы данных

рандомизированно выбрано 277 пациентов. Такой выбор оптимален для решения учебных задач в программной среде Rapid Miner различными методами классификации, например, дерево решений, нейронная сеть. Источником получения знаний при решении учебных задач является выполнение практической работы, которая всегда имеет ограничение по времени.

Выбранные пациенты распределились в зависимости от пола: 113 мужчин и 164 женщины со средним возрастом 47 лет. Исходное распределение по степени и выраженности нарушений дыхания можно представить следующим образом: Д1 — 47 пациентов; Д2 — 115 пациентов; Д3 — 115 пациентов. Традиционно при интерпретации результатов легочных функциональных тестов используют должные величины, разработанные Р.Ф. Клементом. Количественные результаты спирометрии, оцениваемые с помощью должных величин [6] и участвующие в построении дерева решений, сведены в табл. 1.

Вышеперечисленные показатели спирометрии загружаются в репозиторий, далее следует машинное обучение и тестирование, затем оценка точности клас-

сификации и анализ построенного дерева решений. В процессе загрузки задается тип численных (numeric, integer, real) и качественных (nominal, binominal, polinominal) данных. В качестве целевых атрибутов — листьев выбираются степень и выраженность нарушений Д1, Д2, Д3 (diagnosis).

В программе Rapid Miner все операторы получают исходные данные на входе, после этого выполняется алгоритм оператора (дерево решений, нейронные сети) и на выходе оператор выдает некий результат.

Компьютерная модель классификатора и анализа данных строится на рабочем столе программы Rapid Miner в виде последовательной цепочки операторов и затем запускается на выполнение (рис. 1). С помощью оператора Retrive загружаются входные данные из репозитория для последующей классификации и анализа. Следующий оператор, Set Role, выделяет целевые атрибуты Д1, Д2, Д3, относительно которых будет проведена классификация. Данный оператор можно исключить, если назначение целевых атрибутов было проведено на этапе загрузки данных в ре-позиторий. Оператор Select Attributes позволяет отделить атрибуты, которые не ре-

Таблица 1. Показатели спирометрии

Название Обозначение,клинический смысл Тип данных

age Возраст Вещественный

diagnosis Диагноз предполагаемый Строковый

packyears Интенсивность курения Вещественный

vcpred Жизненная емкость легких, % от должной величины Вещественный

fvcpred Форсированная жизненная емкость легких,% от должной величины Вещественный

fevlfvc Индекс Генслера Вещественный

tlcpred Полный объем легких, % от должной величины Вещественный

rvpred Остаточный объем легких, % от должной величины Вещественный

dlcopred Диффузионная емкость легких, % от должной величины Вещественный

vapred Альвеолярный объем легких, % от должной величины Вещественный

комендуется использовать при проведении классификации, в данном случае patID. Оператор Validation содержит 2 внутренние панели: обучения (traning) и тестирования (testing). На левую панель помещается оператор Decision Tree, для которого задаются различные критерии построения, на правой панели размещаются операторы Apply Model, строящий модель дерева принятия решений, и Perfomance, оценивающий качество классификации данных и правил построения дерева решений.

Для того чтобы избежать ошибочных оценок на рабочий стол необходимо добавить еще несколько операторов: Retrive, Set Role, Select Attributes, Apply Model, Rule Model. В этом случае появляется возможность оценить точность построения дерева принятия решений на тестовом наборе данных, который не использовался для обучения модели, при этом точность уменьшается на 3—5%.

Оператор Rule Model выводит набор правил классификации входных данных (рис. 2) на основе вычисленной энтропии всех атрибутов для последующего разделения выбирается атрибут с минимальной энтропией.

Представленный набор правил классификации показывает, что оператор Rule Model исключил из анализа 3 пациентов, из оставшихся 274 пациентов в построении правил классификации участвовали только 242. Входные данные 35 пациентов Rule Model не смог классифицировать, и это требует дальнейшего изучения. В конце каждой строки представленных правил в скобках показаны значения прогнозируемых атрибутов-листьев в следующей последовательности: Д2, Д1 и Д3. Например, при условии, что полный объем легких <0,805 и индекс Генслера >0,832, степень и выраженности нарушений Д1 прогнозируется у 68 пациентов, Д2 — у 2, Д3 — у 3.

Рис. 1.

Компьютерная модель классификатора

На рис. 2 полужирным шрифтом выделены максимальные значения для прогнозируемых нарушений по каждому логическому условию. В 3-й строке указан возраст вместе со стандартным отклонением для нарушений Д1, Д2 и Д3 — 36,496+6,718. Следовательно, уже при поверхностном анализе правил классификации могут быть обнаружены скрытые закономерности и связи. Например, на степень и выраженность нарушений Д1 оказывает влияние объем форсированного выдоха за 1 с, для Д2 важное значение имеет возраст пациента (<43 лет) и объем форсированной жизненной емкости легких, при Д3 следует обратить внимание на значение жизненной емкости легких. Все перечисленные показатели индивидуальны для каждого пациента. Информативность спирометрии в диагностике механики дыхания приведена в [4]. Общее количество прогнозируемых нарушений: Д1 — 47 пациентов; Д2 — 46 пациентов и Д3 — 114 пациентов. Таким образом, Д2 не определяется с помощью правил классификации, следовательно, можно порекомендовать исключить возраст пациентов при проведении классификации с помощью предложенной компьютерной модели и повторно провести исследование.

Набор правил классификации входных данных отличается от набора правил полученных после построения дерева принятия решений (рис. 3). Алгоритм, лежащий в основе оператора Decision Tree, рассматривает все данные, поданные на вход в соответствии с выбранным критерием построения, выбирает наиболее значимые среди них, и только эти атрибуты участвуют в построении дерева. В этом случае происходит обрезка листовых узлов, в которых не выполняются определенные условия, например, которые меньше порогового значения или допускают частоту ошибок >50%. Пороговое значение и частота ошибок подсчитывает алгоритм оператора. Построить полное дерево решений можно при любых критериях построения. На рис. 3 приведен пример правил классификации методом дерево решений с критерием gain ratio.

Дерево решений классифицировало всех пациентов с предполагаемыми нарушениями: Д1 (115 пациентов), Д2 (47 пациентов) и Д3 (115 пациентов). Часть пациентов с Д2 классифицирована как пациенты с нарушениями Д1. Пациенты с нарушениями Д3 классифицированы полностью. После сравнения наборов правил классификации можно отметить, что при полном

if tlcpred < 0.805 and fevlfvc > 0.832 then flMarH03_1 (2 / 68 / 3)

if dlcopred > 0.661 and packyears < 6.650 and vcpred > 0.890 then gwarH03_3 (2 / 7 / 78) if age < 43.214 and age > 29.778 then flMarH03_2 (21 / 1 / 1)

if age > 48.670 and rvpred < 0.905 and fevlfvc > 0.801 then flMarH03_1 (0 / 25 / 1)

if dlcopred > 0.575 rvpred < 1.095 and packyears < 14.500 then gwarH03_3 (0 / 2 / 15)

if tlcpred > 0.940 then flMarH03_2 (16 / 1 / 6)

if fevlfvc > 0.754 and fevlfvc < 0.797 then flMarH03_1 (0 / 6 / 0)

if fevlfvc < 0.686 and vapred > 0.585 then gwarH03_3 (0 / 0 / 8)

else flMarH03_2 (5 / 4 / 2)

correct: 242 out of 274 training examples.

Рис. 2. Набор правил классификации Медицинское образование и профессиональное развитие №2-3 (28-29) 2017 I 29

объеме легких >0,805 метод дерево решений прогнозирует нарушения Д3, в отличии от Д2, определяемого оператором Rule Model. Также заметим, что прогнозируемое нарушение в усеченном дереве решений не зависит от пола пациента и отношения диффузионной емкости легких к альвеолярному объему. Но, к сожалению, такое дерево не может устанавливать предварительный диагноз, поскольку не содержит информацию о других диагнозах пациентов, хотя его структура интересна сама по себе и может послужить основой для гипотез и дальнейших исследований [6].

Для улучшения качества классификации, распознавания и прогнозирования, а также для получения устойчивых закономерностей (устойчивость — повторение результатов) может быть использована процедура построения леса деревьев решений [3]. Деревья строятся с различными критериями, но по разным выборкам. Каждая новая выборка получается из предыдущей путем уменьшения атрибутов входных данных. Максимальное количество деревьев, входящих в лес, достигает log2D + 1, где D — количество входных атрибутов описывающих объект.

В созданной компьютерной модели классификации можно построить 16 деревьев решений без изменения входных атрибутов. Примеры построенных деревьев решений с различными критериями сведены в табл. 2.

Качество классификационной модели, построенной при помощи дерева решений, оценивается точностью распознавания и ошибкой. Точность распознавания — отношение объектов правильно классифицированных в процессе обучения к общему количеству объектов массива данных, которые принимали участие в обучении. Ошибка — отношение объектов неправильно классифицированных в процессе обучения к общему количеству объектов массива данных, которые принимали участие в обучении. В соответствии с построенной таблицей результатов можно предположить, что наиболее оптимальным является дерево решений с критерием построения gain_ratio, таблица точности которого показана на рис. 4. Дерево считается оптимальным, если оно использует информацию улучшающую качество модели и игнорирует иную информацию.

Tree

tlcpred > 0.805: диагноз_3 {диагноз_2=39, диагноз_1=26, диагноз_3=105} ticpred < 0.805

fevlfvc > 0.685

vapred > 0.655

| age > 43.167: диагноз_1 {диагноз_2=0, диагноз_1=31, диагноз_3=4}

| age < 43.167: диагноз_2 {диагноз_2=7, диагноз_1=1, диагноз_3=2}

vapred < 0.655

| age > 28.173: диагноз_1 {диагноз_2=0, диагноз_1=56, диагноз_3=0}

| age < 28.173: диагноз_2 {диагноз_2=1, диагноз_1=1, диагноз_3=1}

fevlfvc < 0.685: диагноз_3 {диагноз_2=0, диагноз_1=0, диагноз_3=3}

Рис. 3. Правила классификации дерева решений с параметром gain ratio

Таблица 2. Деревья решений и их точность

Критерий построения Точность Доверительный Количество Количество Количество Корень

построения интервал листьев ветвей узлов дерева

gain_ratio 71,49 7,17 6 10 5 tlcpred

accuracy 57,79 5,37 4 6 3 vapred

information gain, без отсечений 64,62 6,93 34 66 33 tlcpred

gini_index 68,56 7,80 38 74 39 tlcpred

Данное дерево имеет наибольшую точность построения и 6 различных ветвей ведущих к листьям, прогнозируемым нарушениям Д1, Д2 или Д3. При этом основными узлами являются жизненная сила легких, форсированная жизненная сила легких, объем форсированного выдоха за 1 с. Все перечисленные показатели измеряются с помощью спирометра и на их основе вычисляются ticpred, fev1fvc, vapred. Оценка результатов однократного исследования отражает только те нарушения, которые имели место во время исследования.

Согласно рис. 4, дерево решений имеет общую точность классификации 71,49%. Верно распознает Д1 в 72%, Д2 в 21% и Д3 в 91% случаев. Верно предсказывает Д1 в 86% случаев, Д2 в 59% и Д3 в 64% случаев. На основании рис. 4 составим таблицу ошибок 2x2 (табл. 3) и рассмотрим 2 класса: «точн_рапозн» и «ошибка». В этом случае можно говорить о чувствительности и предсказательности дерева решений как метода диагностики.

После проведенного анализа (рис. 4), видно, что нарушения прогнозируются у 83+10+105=198 пациентов, не точно поставлена степень и выраженность нарушений у 5+32+5+27+2+8=79 пациентов. Прогнозируемый Д1 есть у 5 пациентов, а дерево решений распознает его как Д2, но и распознанный Д1 есть у 5 пациентов с прогнозируемым Д2. Прогнозируемый Д1 есть у 27 пациентов с распознанным Д3, но распознанный Д1 есть у 8 пациентов с прогнозируемым Д3. Также прогнозируемый Д2 есть у 32 пациентов, у которых с дерево решений распознает Д3, однако классифицированный Д2 прогнозируется у 2 пациентов с Д3. Таким образом, мы получаем, что 19+30=49 пациентов имеют предполагаемую степень нарушений, но не распознаются методом классификации дерево решений.

Показателями качества диагностического теста являются вероятностные показатели распознавательной и предсказательной способности. Чувствительность

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 4. Таблица точности дерева решений с параметром gain ratio

True_диагноз_2 True_диагноз_1 True_диагноз_3 Class predsion

Р^.диагноз_2 10 5 2 58,82%

Р^.диагноз_1 5 83 8 86,46%

Р^.диагноз_3 32 27 105 64,02%

Class recall 21,28% 72,17% 91,30%

Accuracy: 71,49± 7, 17% (mikro: 71,48%). Медицинское образование и профессиональное развитие №2-3 (28-29) 2017 I 31

Таблица 3. Диагностическая таблица сопряженности усеченного дерева решений с параметром gain ratio

Параметр Предполагаемый диагноз Итого

«есть» нет»

Дерево решений, «есть» 198 0 198

Дерево решений, «нет» 49 30 79

Всего 247 30 277

есть условная вероятность положительных результатов диагностического теста (7+) распознавать предполагаемые нарушения (0+). Предсказательность позитивов является условной вероятностью верного предположения положительных результатов наличия предполагаемых нарушений при условии получения положительного результата теста.

Полученное значение чувствительности 0,799 вместе с доверительным интервалом [0,730; 0,86] является статистически значимо на уровне доверия 99%, так не включает неинформативное значение 0,5. Предсказательность позитивов 0,99 вместе с доверительным интервалом [0,97; 1] статистически высоко значимо на уровне доверия 99%, так как не перекрывается с распространенностью 0,89, имеющей доверительный интервал [0,84; 0,93], и не содержит неинформативное значение 0,5.

При полученных значениях точности построенной компьютерной модели и ее предсказательной способности можно использовать построенную модель классификатора и его результаты, правила классификации, для уточнения функциональных особенностей легких, построения алгоритмов диагностики заболевания легких, в ранней диагностике, а также для дальнейших исследований и построения гипотез. Кроме того, спирометрия является основным средством диагностики и количественной оценки не только са-

мых различных легочных расстройств, но и других болезней дыхательной, сердечнососудистой, нервной систем и опорно-двигательного аппарата. Традиционно врач проводит анализ результатов исследований в зависимости от определяющих факторов (по возрасту, полу и физическим навыкам пациента). Для расчета должных величин он выполняет сопоставление полученных величин с их нормами, границами, градациями и относительной степенью отклонения. Предложенная компьютерная модель решения задач классификации помогает провести анализ результатов спирометрии с помощью программных средств.

Практические методы обучения основаны на практической деятельности учащихся, этими методами формируют практические компетенции студентов. Метод моделирования позволяет использовать интегрированный подход при проведении практических занятий и осваивать компетенции в индивидуальном темпе. Следует отметить, что средства информационных и компьютерных технологий активизируют учебно-познавательную и исследовательскую деятельность студентов. Построение компьютерной модели классификации на практических занятиях обеспечивает отработку компетенций принятия практических решений в реальных условиях профессиональной деятельности

Все вышеизложенное позволяет сделать следующие выводы:

1. Компьютерная модель классификации в программе Rapid Miner проводит анализ результатов спирометрии и формирует правила решений, которые можно использовать при создании алгоритмов диагностики заболеваний на ранней стадии.

2. Полученная модель классификации помогает определить прогноз или риск развития заболевания в зависимости от количественных результатов спирометрии.

3. Построение компьютерной модели классификации в среде Rapid Miner развивает информационно-технологические компетенции, компетенции анализа и принятия решений.

4. Рассматриваемый пример комплексного функционального исследования внешнего дыхания можно дополнительно рассмотреть на примере построения леса деревьев решений и отработать методику анализа полученных результатов.

Литература

1. Берестнева О.Г., Муратова ЕА. Построение логических моделей с использованием деревьев решений // Известия Томского политех. универ. 2004. Т. 27, вып. 2. С.154—159.

2. Дюк В., Самойленко Л. Data Mining: учебный курс. СПб. : Изд. Питер, 2001. 368 с.

3. Дюк В., Эммануэль В. Информационные технологии в медико-биологических исследованиях. СПб. : Питер, 2003. 528 с.

4. Каменева М.Ю., Трофимов В.И., Тишков А.В. Информативность спирометрии в диагностике нарушений механики дыхания у больных интерстициальными заболеваниями легких // Бюл. физиол. и патологии дыхания. 2015. № 66. С. 8—14.

5. Никонорова М.Л. Интеллектуальный анализ медицинских данных с использованием кейсовой технологии // Врач и информ. технологии. 2016. № 1. С. 54—59.

6. Тишков А.В., Каменева М.Ю., Гладской А.А., Гунченко А.И. и др. Применение деревьев решений для интерпретации нарушений механики дыхания и легочного газообмена // Вестник ТвГУ. Серия «Биология и экология». 2013. № 29. С. 264-271.

7. Методы построения деревьев решений в задачах классификации Data Mining. Режим доступа https:// www.ami.nstu.ru/~vms/lecture/data_mining/trees.htm. Дата обращения: 28.04.2017.

8. Прикладная программа Rapid Miner. Режим доступа: https://rapidminer.com/products/studio/. Дата обращения: 16.06.2016

9. Data mining : concepts and techniques / Jiawei Han, Micheline Kamber, Jian Pei. 3rd ed. 2012. References

1. Berestneva O.G., Muratova E.A. Building logical models using decision trees. Izvestiya Tomskogo politekhnicheskogo universiteta [Proceedings of Tomsk Polytechnic University]. 2004; 27 (issue 2): 154-9. (in Russian)

2. Dyuk V., Samojlenko L. Data Mining: training course. Saint Petersburg: Piter, 2001. 368 р.

3. Dyuk V., Emmanuehl' V. Information technologies in biomedical research. Saint Petersburg: Piter, 2003. 528 р. (in Russian)

4. Kameneva M.Yu., Trofimov V.I., Tishkov A.V. Informativeness of spirometry in the diagnosis of violations of respiratory mechanics in patients with interstitial lung diseases. Byulleten' fiziologii i patologii dyhanija хBulletin of the Physiology and Pathology of Breathing]. 2015; 66: 8-14. (in Russian)

5. Nikonorova M.L. Intellectual analysis of medical data using case technology. Vrach i informacionnye tekhnologii [Doctor and Information Technology]. 2016; 1: 54-9. (in Russian)

6. Tishkov A.V., Kameneva M.Yu., Gladskoy A.A., Gunchenko A.I., Trofimov V.I. The use of decision trees for the interpretation of violations of respiratory mechanics and pulmonary gas exchange. Vestnik TvGU. Seriya: Biologiya i ehkologiya. Bulletin of the Tver State University. Series "Biology and Ecology". 2013; 29: 264-71. (in Russian)

7. Methods for constructing decision trees in Data Mining classification problems. https://www.ami.nstu. ru/~vms/lecture/data_mining/trees.htm. Data obrashcheniya: 28.04.2017. (in Russian)

8. Application program Rapid Miner. https://rapidminer.com/products/studio/. Data obrashcheniya: 16.06.2016. (in Russian)

9. Data mining: concepts and techniques/ Jiawei Han, Micheline Kamber, Jian Pei. 3rd ed. 2012. (in Russian)

i Надоели баннеры? Вы всегда можете отключить рекламу.