Научная статья на тему 'Методические основы применения Microsoft Excel для решения статистических задач в учебном процессе медицинских вузов'

Методические основы применения Microsoft Excel для решения статистических задач в учебном процессе медицинских вузов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1423
158
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карпушкина С. А., Рябухина Е. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методические основы применения Microsoft Excel для решения статистических задач в учебном процессе медицинских вузов»

ЕСТЕСТВЕННЫЕ НАУКИ

Математика

МЕТОДИЧЕСКИЕ ОСНОВЫ ПРИМЕНЕНИЯ MICROSOFT EXCEL

ДЛЯ РЕШЕНИЯ СТАТИСТИЧЕСКИХ ЗАДАЧ В УЧЕБНОМ ПРОЦЕССЕ МЕДИЦИНСКИХ ВУЗОВ

КАРПУШКИНА

Е. А. РЯБУХИНА, кандидат педагогических наук

Современный этап развития общества предъявляет к подготовке специалистов все более высокие требования. В наше время специалист с высшим образованием — это человек, не только хорошо знающий свою предметную область, но и владеющий навыками исследователя, включающими применение новых компьютерных и информационных технологий в

о

своей деятельности.

Вместе с тем продолжающийся процесс интеграции наук привел к объединению различных отраслей знания посредством использования общих законов, понятий, методов исследования. В контексте одного из направлений этого процесса рассмотрим взаимосвязь математики с медико-биологическими дисциплинами.

Как известно, качественные медико-биологические явления в значительной мере могут быть описаны количественно. Поэтому в медицинской практике и особенно в медицинских исследованиях широко распространены различные методы анализа и обработки данных, главным образом основанные на математической статистике [6]. Статистические методы позволяют объективно оценить количественные результаты экспериментальных исследований, обнаружить ранее неизвестные закономерности, проверить достовер-

ность априорно сформулированных предположений.

Первым и важнейшим правилом при анализе данных являются корректность и грамотность применения статистических методов, что требует от исследователя основательной подготовки в данной области знания. Некорректность и неполнота делают весьма сомнительными, а иногда и просто несостоятельными объявляемые исследователем выводы.

К сожалению, преподавание прикладной статистики в медицинских вузах началось сравнительно недавно. Так, в Мордовском университете на медицинском факультете курс «Высшая математика» был введен лишь в 1995 году, поэтому многие из выпускников не имели возможности приобрести столь нужные знания.

В настоящее время редкий исследователь проводит все вычисления, необходимые для статистического анализа данных, вручную. Большинство использует разнообразные компьютерные пакеты программ. Применение компьютера, с одной стороны, позволяет уйти от рутинной работы и сконцентрировать внимание на собственно творческой составляющей (постановка задач, выбор методов их решения, интерпретация результатов), а с другой — требует определенных зна-

© С. А. Карпушкина, Е. А. Рябухина, 2003

ill

ний и навыков в области компьютерных технологий [2; 4].

Таким образом, введение в учебный план медицинских вузов математических курсов и продолжающийся процесс информатизации образования обусловили качественно новый характер обучения студентов. В связи с этим возникает потребность в разработке методических основ обучения как прикладной статистике, являющейся одним из разделов математики, так и компьютерным технологиям, реализующим статистические методы.

Рассмотрим методические основы курсов «Высшая математика» и «Медицинская информатика» в учебном процессе медицинского факультета Мордовского университета.

Согласно учебному плану эти дисциплины изучаются в первом семестре, что имеет свои преимущества. Во-первых, студенты еще достаточно хорошо помнят основное содержание курса математики, являющегося одним из приоритетных предметов школьной программы. Во-вто-рых, на семинарских занятиях по высшей математике они решают стандартные статистические задачи с использованием микрокалькулятора, т. е. фактически «вручную». Это позволяет облегчить переход к решению тех же задач с помощью компьютера за счет уменьшения количества ошибок, связанных с логической конструкцией задач.

Наиболее значимыми разделами курса «Высшая математика» с точки зрения применения компьютерных технологий являются:

• статистические ряды и их числовые характеристики;

• точечные и интервальные оценки параметров генеральной совокупности;

• проверка гипотез о законах распределения и параметрах распределения;

• дисперсионный анализ;

• корреляционный и регрессионный анализ.

Курс «Медицинская информатика» рассматривается нами как логическое продолжение курса «Высшая математика». Его содержание обусловлено содер-

жанием последнего и поддерживается лабораторным практикумом [3]. Представленные в практикуме лабораторные работы охватывают следующие разделы:

• способы группировки выборки в безынтервальные, интервальные и ранговые вариационные ряды;

• вычисление числовых характеристик выборочного распределения;

• точечные и интервальные оценки параметров нормального распределения по выборке;

• проверка гипотез о равенстве математических ожиданий и дисперсий двух нормально распределенных генеральных совокупностей по выборкам;

• проверка гипотез о нормальности распределения;

• одно- и двухфакторный параметрический дисперсионный анализ;

• ковариационный и корреляционный анализ;

• линейный регрессионный анализ.

Лабораторные работы выполняются

студентами в операционной системе Windows (версия 95 и выше). В качестве обучающего инструмента выбрана электронная таблица Microsoft Excel (версия 95 и выше). Такой выбор сделан не случайно. В настоящее время существует большое число отечественных и зарубежных программ для статистической обработки и анализа данных. Наиболее распространенным отечественным программным продуктом является интегрированный статистический пакет STADIA, достаточно хорошо освещенный в работах [5] и [8], причем обучающая версия этого пакета свободно распространяется через Internet. Среди зарубежных продуктов российскому пользователю лучше всего известна система STATISTICA (фирма-производитель StatSoft Inc., США). Из учебных пособий на русском языке, посвященных этой системе, следует выделить работу [1]. Оба программных продукта, позволяют проводить всесторонний анализ данных для научного применения, обладают превосходными средствами представления результатов анализа в графическом виде.

Однако статистические пакеты все же

более полезны научным работникам, аспирантам, ординаторам, знакомым с основами прикладной статистики, чем студентам первого курса, только начинающим изучать методы и средства анализа данных. Поэтому, хотя статистические процедуры, включенные в Excel, существенно уступают специализированным пакетам обработки данных, приступать к освоению простейшей статистической обработки целесообразнее с получения представления о ней. К тому же значительная часть студентов, поступающих в вуз, уже знакома с работой в Excel, поэтому они тратят меньше времени на ознакомление с интерфейсом программы, способами ввода данных, их обработки и визуализации результатов, а основное внимание уделяют интерпретации результатов и формулировке выводов. Студенты же, не имеющие навыков работы в Excel, достаточно быстро формируют их в процессе обучения. Более подготовленным студентам можно дать задания на реализацию математических формул, приведенных в лекциях, с помощью электронной таблицы Excel.

Определим содержание обучения по курсам «Высшая математика» и «Медицинская информатика». Как известно, оно включает в себя знания, умения и навыки. Эти знания можно разделить на две категории:

1) математические, которые студент получает на лекциях по курсу «Высшая математика»;

2) компьютерные, которые реализуют математические знания с помощью Excel и приобретаются на лабораторных занятиях по курсу «Медицинская информатика».

Краткий перечень необходимых математических знаний был приведен выше. Компьютерные знаиия в данном случае составляют такие понятия Excel, как ячейка, относительный и абсолютный адрес ячейки, массив, формула, функция, диаграмма и т. д.

К важнейшим умениям относятся:

1) выбор метода или группы методов, необходимых для статистического анализа данных в поставленной задаче;

2) нахождение подходящих функций

или средств, включенных в стандартный набор Excel (или разработка собственных процедур), для реализации выбранного метода;

3) построение и ввод этих формул, функций или процедур в соответствии с требованиями Excel;

4) правильная интерпретация полученных результатов.

Среди основных мыслительных операций, являющихся базой умений студентов, можно выделить следующие: анализ, синтез, сравнение, обобщение, классификацию, конкретизацию, аналогию, перенос знаний, абстрагирование.

К главным навыкам относятся:

1) двигательные, включающие работу

с клавиатурой, мышью;

2) сенсорные, позволяющие осуществлять работу со справочной системой, документацией или литературой по Excel;

3) наблюдения, помогающие прогнозировать результат и осуществлять поиск ошибок, возникающих при реализации формул или процедур в Excel;

4) счета, позволяющие производить вручную или мысленно проверку результатов вычислений;

5) общения, необходимые для взаимодействия студента и преподавателя в процессе решения задачи.

Рассмотрим поэтапную схему реше-

ния прикладной задачи из раздела корреляционного анализа, реализуемую в Excel, и определим знания, умения и навыки, соответствующие каждому из выделенных этапов.

Пусть переменная У зависит от одной переменной х. При этом предполагается, что переменная х принимает заданные значения, а зависимая переменная У имеет случайный разброс из-за ошибок измерения, влияния неучтенных факторов или других причин. Пусть проведено п независимых наблюдений случайной величины У при значениях переменной х = , х2, ..., хп, при этом измерения величины У дали следующие результаты: г/1; у2, уп. Требуется определить наличие или отсутствие линейной корреляционной зависимости между х и У и в случае достоверного наличия такой взаимосвязи

провести линейный регрессионный анализ.

Операционное звено задачи, представляющее собой последовательность

вычислений, имеет следующую структуру.

1. Вычисление выборочного коэффициента корреляции г по формуле

[7]

г =

ху

рхОу '

(1)

где

п

о

ху

»•=1

= (2)

¿=1

¿=1

х, у — выборочные средние,

д:

| П | Л

п ¿=1 "

»

2. Проверка гипотез о коэффициенте корреляции р. Когда необходимо определить значимость выборочного коэффициента корреляции г, т. е. проверить гипотезу Я0: р= 0, можно использовать критерий, статистикой которого является г. На уровне значимости а критическая область этого критерия определяется неравенствами

\ г •

г >

к-а (" ~ 2 )

1 I

2 + ¿12-а " 2)

(3)

при альтернативной гипотезе Н^ : р > 0;

г <

¿„(п-2)

2 + ^(п-2)

(4)

при альтернативной гипотезе яЯ^: р < 0;

г >

2 + Й2-а/2(я-2)

(5)

при альтернативной гипотезе н\ : г * 0.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В неравенствах квантиль

(3) —(5) ЬЛп- 2)

Р

Стьюдента с

распределения п~ 2 степенями свободы порядка р. Если гипотеза #0 принимается, то исследуемые признаки некоррелированы и решение задачи можно считать завершенным. В противном случае можно провести линейный регрессионный анализ.

3. Линейный регрессионный анализ. Взаимосвязь между переменными У и х можно записать в виде линейной регрессионной модели

У = Ро + Р\*>

(6)

где Д) и — параметры линейной регрессии. Задачи линейного регрессионного анализа состоят в том, чтобы по результатам наблюдений у,-), г = 1, п:

• получить оценки неизвестных параметров Д) и Д;

проверить гипотезу о значимости модели (6);

• проверить гипотезы о параметрах модели Д> и Д;

вычислить коэффициент детерминации модели;

• проверить, достаточно ли хорошо модель согласуется с результатами наблюдений (т. е. установить адекватность модели результатам наблюдений).

4. Нахождение оценок параметров линейной модели по методу наименьших

квадратов. МНК-оценки Д), Д параметров Д и Д модели (6) вычисляются по формулам

Р\

О

ху

о

Ро=У~ Р\Х-

(7)

5. Проверка гипотезы о значимости модели. Линейная регрессионная модель (6) называется незначимой, если параметр Д = 0. Для проверки гипотезы Я0: Д = 0 используют либо доверительный интервал для параметра Д (см. ниже), либо статистику

F =

02ху(п- 2)

ОеО

Ое (8)

¿=1

Если гипотеза Я0: А = 0 верна, то эта статистика имеет распределение Фишера с 1 и п - 2 степенями свободы.

6. Проверка гипотез о параметрах модели. Для проверки гипотез #0: Ро = О и Я0: = 0 можно использовать доверительные интервалы для параметров Д) и

А=

Р\ -tx_a/2(n-2)sJi/Qx <

< Pi < Р\ + ¿1-а / 2 (« " 2)5 VVOT-

Здесь 52 = 0е/(п - 2) — остаточная дисперсия.

7. Вычисление коэффициента детерминации. Полезной характеристикой линейной регрессии является коэффициент детерминации Я2 Он равен той доле разброса результатов наблюдений (х^ у-), г = 1, ..., п относительно горизонтальной

прямой у = у, которая объясняется выборочной регрессией

\

У = До + До*- <10>

В случае линейной регрессии У на ж между и выборочным коэффициентом

корреляции г имеется следующее соотношение

R2 =г2 (И)

8, Проверка адекватности модели. Адекватность модели можно оценить визуально при помощи построения графиков подбора и остатков. Для построения графика подбйра в декартовой прямоугольной системе координат следует отложить точки (xif у^), соответствующие результатам наблюдений, и точки (г,-, /30 + Poxi), соответствующие предсказанным по уравнению (10) значениям У Для построения графика остатков в декартовой прямоугольной системе координат следует отложить точки

(г ,yi - Pq- До**)» соответствующие разности между наблюдаемыми значениями yi и предсказанными значениями

Ро + Poxi • Если для каждого i графики

наблюдаемых и предсказанных значений У достаточно близки, а остатки малы (не менее чем на порядок ниже значений уj)y то модель можно считать адекватной результатам наблюдений.

При реализации этой структуры в Excel выделяются четыре этапа:

— подготовка исходных данных;

— предварительный анализ данных;

— выбор и реализация конкретного метода статистического анализа данных;

— интерпретация результатов.

Рассмотрим конкретную задачу. Имеются результаты наблюдений частоты сердечных сокращений ЧСС (число ударов в минуту) и частоты дыхания ЧД (число вдохов в минуту) у группы из 15 больных с определенной патологией (табл.).

Таблица

ЧСС 80 84 88 90 92 96 99 102 105 108 111 113 115 118 120

чл 13 16 15 16 16 18 16 17 16 18 20 19 20 20 19

Необходимо определить, имеется ли частотой сердечных сокращений и часто-линейная корреляционная связь между той дыхания при исследуемой патологии.

Этап 1. Подготовка исходных данных

На данном этапе исходные данные заносятся на лист Excel так, чтобы они располагались либо по строкам, либо по столбцам.

Знания: математические — понятие корреляционной зависимости между переменными; компьютерные — понятия ячейки и ее адреса.

Умения: правильный ввод данных, т. е. соблюдение соответствия между ЧСС

и ЧД.

Навыки: двигательные (работа с клавиатурой и мышью).

Этап 2. Предварительный анализ данных

На данном этапе следует вычислить выборочный коэффициент корреляции г и проверить гипотезы о коэффициенте корреляции р (см. пункты 1 — 2 операционного звена). Следует заметить, что г можно вычислить двумя способами:

1) используя статистическую функцию Excel КОРРЕЛ;

2) реализуя формулу (1) напрямую, для чего следует:

• вычислить х, у, применяя функцию СРЗНАЧ;

• рассчитать три дополнительных столбца, которые будут содержать значения (Xi - х)(х{ - х) [х{ - xf, (у{ - у f

для каждого г;

• вычислить суммы значений в полученных столбцах, т. е. Qx, Qy, Qxy\

• составить из рассчитанных сумм формулу (1) для вычисления г в соответствии с требованиями Excel.

Для данной задачи получим г = 0,87. Так как выборочный коэффициент корреляции г > 0, то имеет смысл проверить гипотезу Я0: р = 0 при альтернативной гипотезе р> 0. Воспользуемся для

этого неравенством (3). Вычисление квантилей распределения Стыодента в Excel производится с помощью функции СТЬЮДРАСПОБР Тогда при а = 0,05 правую часть неравенства (3) можно вычислить по формуле

= СТЬЮДРАСП<ЭБР(0,05;13)/КОРЕНЬ

(13 + СТЬЮДРАСП05Р(0,05;13Г2).

После ввода этой формулы в ячейке появится число 0,44. Так как выборочное значение г = 0,87 не принадлежит области принятия гипотезы #0 (0,87 > 0,44),

то следует принять гипотезу Н

Знания: математические — понятие коэффициента корреляции, знание формул для вычисления выборочного коэффициента корреляции и критериев для проверки гипотез о коэффициенте корреляции; компьютерные — понятия формулы и функции в Excel.

Умения: примерное определение вида зависимости между переменными, выбор подходящих функций из набора стандартных функций Excel или разработка собственных процедур для реализации математических знаний этого этапа.

Навыки: двигательные, сенсорные, наблюдения (отслеживание ошибок и их исправление).

Этап 3. Выбор и реализация конкретного метода статистического анализа данных

(1)

Из принятия гипотезы Щ : р > 0 следует, что изучение взаимосвязи между ЧСС и ЧД можно продолжить с помощью методов линейного регрессионного анализа. Для этого следует реализовать пункты 4 — 8 операционного звена. Сделать это можно опять же двумя способами:

1) используя подпрограмму «Регрессия» из пакета «Анализ данных», входящего в состав надстроек Excel;

2) реализуя формулы (7) — (11) напрямую, аналогично вычислению г на предыдущем этапе.

При использовании подпрограммы «Регрессия» появляются три таблицы: «Регрессионная статистика», «Дисперсионный анализ», «Параметры регрессии».

В таблице «Регрессионная статистика» приведены значения г = 0,87, R2 = 0,76, а также еще некоторых величин. Заметим, что значение г = 0,87 должно совпадать со значением г, вычисленным на этапе 2.

С помощью таблицы «Дисперсионный анализ» проверяют гипотезу о значимости модели, т. е. гипотезу Я0: = 0. Как видно из таблицы, статистика F = 100,44 превосходит распределение Фишера с 1 и 13 степенями свободы на уровне значимости, равном 1,75е~7 Таким образом, гипотеза Я0: Р\ = 0 отвергается и модель (б) статистически значима.

Из таблицы «Параметры регрессии»

находим, что /30 = 4,63, = 0,13. В столбцах «Нижние 95 %» и «Верхние 95 %» этой таблицы стоят нижние и верхние

границы 95 % доверительных интервалов для /30 и /?!, равные соответственно 0,31, 8,95; 0,08, 0,17. Гипотезы Я0: /30 = 0 и Я0:/3| = 0 отвергаются на уровне значимости 0,05, в силу того что построенные доверительные интервалы для (30 и

(0,31 < Д) < 8,95 и 0,08 <Д <0,17) не накрывают нуль с доверительной вероятностью 95 %.

Подпрограмма «Регрессия» также строит графики подбора и остатков. Для данного примера они имеют вид:

ЧД 21

20-19-18-

17-16 154

График подбора

♦ ЧД

Предсказанное ЧД

V

«и

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

■ «

®

чсс

80 85 90 95 100 105 110 115 120

График остатков

Остатки

2

1 --

-1" -2-

-3

оТ—I—♦ + I—I-1 А I ♦ I

чсс

85 +90 95 100* 105 110 115 120

На графике подбора видно, что опытные и предсказанные значения ЧД достаточно близки друг к другу, а на графике остатков — остатки малы.

Знания: математические — формулы для вычисления МНК-оценок параметров регрессии, коэффициента детерминации; критерии для проверки гипотез о значимости модели и ее параметрах; визуальная проверка адекватности модели с помощью графиков подбора и остатков; компьютерные — как и на предыдущем этапе.

Умения: использование для расчетов стандартных подпрограмм Excel, определение входных и выходных интервалов для работы с подпрограммой «Регрессия», разработка собственных процедур для реализации математических знаний этого этапа.

Навыки: двигательные, сенсорные, наблюдения (отслеживание ошибок и их исправление), поиска (нахождение значе-

ний искомых величин в таблицах, полученных с помощью подпрограммы «Регрессия»).

Этап 4. Интерпретация результатов

Полученные на этапах 2 и 3 результаты позволяют сделать следующие выводы в предметной области задачи.

1. Значение выборочного коэффициента корреляции г = 0,87 говорит о том, что между ЧСС и ЧД больных с исследуемой патологией существует сильная положительная связь.

2. Проверка гипотезы #0: р = 0 подтвердила наличие между ЧСС и ЧД положительной корреляционной связи, так как оказалось, что р > 0. Следовательно, при увеличении ЧСС увеличиваются значения ЧД и наоборот.

3. Вычисленные выборочные коэффициенты регрессии (30 =4,63, Д} = 0,13

позволяют построить выборочное уравнение регрессии вида у = 4,63 + 0,13л:.

4. Коэффициент Д =0,13 говорит о

том, что при увеличении ЧСС на 1 удар в минуту происходит увеличение ЧД в среднем на 0,13 вдоха в минуту.

5. Проверка гипотез Я0: /?0 = 0 и Я0: Д = 0 подтвердила значимость выборочных коэффициентов Д), Д -

6. Коэффициент детерминации /?2=0,76 означает, что полученное уравнение регрессии на 76 % объясняет общий разброс результатов наблюдений относительно горизонтальной прямой

У = 17,4.

7. Построение графиков подбора и остатков позволяет сделать предположение об адекватности модели результатам наблюдений.

Знания: математические — соответствие числовых характеристик качественным изменениям исследуемых величин.

Умения: конкретизация полученных числовых результатов в соответствии с предметной областью задачи, прогнозирование изменения вычисляемых величин при изменении входных данных в соответствии с построенной моделью.

Навыки: общения.

Основным преимуществом предлагаемого лабораторного практикума является возможность качественного обучения студентов применению методов статистического анализа данных для решения практических задач в процессе компьютерного эксперимента.

Формулировки заданий, использующие медико-биологические термины и данные, усиливают положительную мотивацию при изучении указанных дисциплин, что в конечном счете позволяет интенсифицировать процесс обучения и способствует повышению творческого потенциала студентов.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Боровиков В. П. STATISTICA. Статистический анализ и обработка данных в среде Windows. 2-е изд., стереотип. / В. П. Боровиков, И. П. Боровиков. М.: Информ.-издат. дом «Филинъ», 1998. 608 с.

2. Гельман В. Я. Медицинская информатика. СПб.: Питер, 2001. 480 с.

3. Карпушкина С. А. Применение Microsoft Excel для статистического анализа данных медико-биологических исследований: Учеб. пособие. 2-е изд., стереотип. Саранск: Изд-во Мордов. ун-та, 2001. 152 с.

4. Кудрина В. Г. Медицинская информатика. М.: РМАПО, 1999. 100 с.

5. Кулаичев À. П. Методы и средства анализа данных в среде Windows. STADIA. 3-е изд., перераб. и доп. М.: Информатика и компьютеры, 1999. 341 с.

6. Лакин Г. Ф. Биометрия: Учеб. пособие для биол. спец. вузов. 4-е изд., перераб. и доп. М.: Высш. шк., 1990. 352 с.

7. Морозов Ю. В. Основы высшей математики и статистики: Учеб. М.: Медицина, 1998. 232 с.

8. Тюрин Ю. Н. Анализ данных на компьютере / Ю. Н. Тюрин, А. А. Макаров. М.: ИНФРА-М; Финансы и статистика, 1995. 384 с.

Поступила 04.11.02.

i Надоели баннеры? Вы всегда можете отключить рекламу.