Научная статья на тему 'Статистический анализ экзаменационных оценок'

Статистический анализ экзаменационных оценок Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
217
31
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КАЧЕСТВО УЧЕБНОГО ПРОЦЕССА / ВАЛИДНОСТЬ / ДИСКРИМИНАТИВНОСТЬ / НАДЕЖНОСТЬ / КРИТЕРИЙ ХИ-КВАДРАТ / ДИСПЕРСИОННЫЙ АНАЛИЗ / АЛЬФА КРОНБАХА / КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ / CRONBACH'S ALPHA / QUALITY OF EDUCATIONAL PROCESS / VALIDITY / DISCRIMINATION / RELIABILITY / CHI SQUARE TEST / ANALYSIS OF VARIANCE / CORRELATION COEFFICIENT

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Братищенко Владимир Владимирович

Предлагается традиционные оценки результатов тестирования применять для изучения качества обучения по оценкам преподавателей. Описываются методики вычисления статистических оценок показателей валидности, дискриминативности и надежности. Приведены значения показателей для оценок одного потока студентов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STATISTIC ANALYSIS OF EXAMINATION GRADES

The author suggests applying traditional assessment of test results for studying quality of educational process based on grades given by tutors. The article describes methods of calculating statistic estimates of validity, discrimination and reliability indicators, and demonstrates the indicators for assessing one stream of students.

Текст научной работы на тему «Статистический анализ экзаменационных оценок»

со

%

о

<N

УДК 378 В.В. Братищенко

ББК 74.58

СТАТИСТИЧЕСКИЙ АНАЛИЗ ЭКЗАМЕНАЦИОННЫХ ОЦЕНОК

Предлагается традиционные оценки результатов тестирования применять для изучения качества обучения по оценкам преподавателей. Описываются методики вычисления статистических оценок показателей валидности, дискриминативности и надежности. Приведены значения показателей для оценок одного потока студентов.

Ключевые слова: качество учебного процесса, валидность, диск-риминативность, надежность, критерий хи-квадрат, дисперсионный анализ, альфа Кронбаха, коэффициент корреляции.

V.V. Bratishenko STATISTIC ANALYSIS OF EXAMINATION GRADES

The author suggests applying traditional assessment of test results for studying quality of educational process based on grades given by tutors. The article describes methods of calculating statistic estimates of validity, discrimination and reliability indicators, and demonstrates the indicators for assessing one stream of students.

Keywords: quality of educational process, validity, discrimination, reliability, chi square test, analysis of variance, Cronbach’s alpha, correlation coefficient.

SSI

KS г g|l'

НА

Ой"

%<s ^ 1

5s 1

S I

8s! ИН 25 о

СнО!

£яц

МО I See

К

н

н

о

н

PQ

со

Н

Традиционно по экзаменационным оценкам вычисляются показатели успеваемости (доля успевающих) и качества обучения (доля оценок «хорошо» и «отлично»). Эти показатели не позволяют выявить расхождения в методиках экзаменационного оценивания различных предметов преподавателей, оценить значимость расхождений и выявить «проблемные» методики с целью их улучшения. В данной работе для такого анализа предлагается использовать различные известные статистические процедуры.

В классической теории тестирования [1] для оценки качества тестов широко применяются следующие характеристики:

- валидность — свойство оценки правильно характеризовать знания и навыки студента по предмету;

- дискриминативность — способность теста разделять тестируемых по уровню знаний;

- надежность — характеристика точности измерения.

Статистические оценки перечисленных характеристик с некоторыми оговорками могли бы быть применены к оценкам преподавателей.

Одним из способов оценки валидности мог бы быть некоторый, независимый от преподавателя, механизм сравнения знаний студента с эталоном. Такой механизм интенсивно создается в высшей школе в виде системы профессионального тестирования (ФЭПО). Валидность можно оценивать по корреляции между оценками профессионального тестирования и оценками преподавателей.

На рисунке приведено эмпирическое распределение оценок потока студентов по разным предметам. Распределение оценок по всем предметам («неудовлетворительно» — 2,3%, «удовлетворительно» — 28,3%, «хорошо» — 36,4%, «отлично» — 32,8%) достаточно сильно отличает-

© В.В. Братищенко, 2011

О

(N

ся от распределения по отдельным предметам. Следует сразу объяснить незначительную долю оценок «неудовлетворительно». Приведенные статистические исследования относятся к оценкам, полученным за все время обучения. При этом оценки студентов, отчисленных за неуспеваемость, не попадают в выборку.

Распределение оценок по предметам и по всем предметам (пунктирная линия), %

SS1

Яз =

Ин5|

Н£ї

«Зі

І

ой-

%<s ^ 1

5s 1

«Л*

h gl S I

8s!

M g! о

СнО!

£я§|

E40 I ЙИ-І Sffle

К

H

H

о

H

PQ

CO

H

Анализ частот оценок является очевидной простой методикой изучения одной из сторон дискриминативности оценивания — соответствия оценок общепринятой шкале оценок. Такой анализ можно свести к сравнению эмпирического распределения с некоторым стандартным распределением оценок. Например, в европейской системе ECTS принято следующее распределение оценок: 10% — Exellent (превосходно), 25% — Very good (очень хорошо), 30% — Good (хорошо), 25% — Satisfactory (удовлетворительно), 10% — Sufficient (достаточно). Это распределение имеет моду в точке Good (хорошо). Таким же свойством обладает и распределение оценок, усредненное по всем предметам (пунктирная линия на рисунке). Определение стандартного распределения для оценок российской высшей школы — это самостоятельная задача, выходящая за рамки данной статьи.

Для выработки единого подхода к оценке знаний студентов в рамках одного вуза предлагается сравнивать распределение оценок для каждого предмета с эмпирическим распределением по всем предметам и выполнять проверку гипотезы о совпадении распределений, например по критерию хи-квадрат. Для этого можно вычислять следующую статистику, имеющую распределение % (3) хи-квадрат с тремя степенями свободы:

t = у (eij - mipj)2,

' j = 2 miPj ’

где etj — количество оценок j е {2, 3, 4, 5} для i-го предмета, i = 1, .. n — количество предметов;

5

mi = ^ eij — количество оценок по i-му предмету;

j = 2

., n;

тельно

тельно

О

«К1

2нё ЯЧ г

МнЗ|

нйе

«31

НА

ОЙ"

^ 1

I

«Л*

ё§!

^1

I

8Н| Й§ о

ЕнО а

£мЦ

МО I £И4

нее

И

н

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

н

о

н

м

со

Н

п 5 п

pj = '^-!ец X X ец — частота оценки j эмпирического распределе-

i = 1 / j = 2i = 1

ния по всем предметам.

В табл. 1 приведены вычисления статистики для разных предметов, упорядоченные по возрастанию значений критерия (показаны первые и последние предметы в последовательности). Последние предметы имеют значительный перекос в распределении оценок.

Таблица 1

Значения статистики хи-квадрат для различных предметов

Предмет Оценка, % ч р{х 2(3) > ч}

Неудовлет- ворительно Удовлетво- рительно Хоро- шо Отлич- но

Лингвистическое обеспечение информационных систем 3,0 30,3 33,3 33,3 0,16 0,983 581 2

Предметно-ориентированные экономические информационные системы 0,0 30,3 33,3 36,4 1,11 0,775 436 1

Основы организации цифровых систем обработки информации 0,0 24,2 39,4 36,4 1,25 0,741 391 2

Проектирование информационных систем 9,1 15,2 60,6 15,2 15,9 0,001 165 9

Философия 0,0 6,1 24,2 69,7 21,6 0,000 077 9

Экономическая теория (микроэкономика 1) 0,0 0,0 33,3 66,7 21,7 0,000 072 0

Для изучения влияния дисциплины на оценку можно применить дисперсионный анализ [4]. Пусть хій — оценка й-го студента (й = 1, ..., т) по і-му предмету (і = 1, ..., п). Сравниваются усредненные выборочные дисперсии по предметам

М9

1

п(т -1) і - 1; - 1 с межгрупповой дисперсией т "

XXX - х*)^ хі

М1 -

п

х**)2,

Х** "

1

1 т

-X хі

ті -1 1

X X Хі,

пті -1 і -1

которые в случае отсутствия влияния предмета на оценку являются оценками дисперсии оценок студентов. Статистика F = М^ М2, при условии одинакового нормального распределения и независимости вариаций среди оценок одного предмета, будет иметь распределение Фишера со степенями свободы п - 1 и тп - п.

В исследованиях по статистике отмечается, что дисперсионный анализ устойчив по отклонению от нормальности, однородности дисперсии, асимметрии распределения [2]. Вычисления по оценкам одного потока студентов (п = 37 предметов и т = 33 студента) дают следующие значения:

*

«К1

2нё ЯЧ г

МнЗ|

нйе

«31

Ен^ І

ой-

^ 1

5к 1

^ Л £ ё§| ^1

I

8Н! й§ о

ул* ЕнО а

£мщ

МО I £И4

Н®Є

И

н

н

о

н

м

со

Н

М1 = 3,14 и М2 = 0,63, которые при выполнении гипотезы об отсутствии влияния фактора являются оценками дисперсии оценок. Уровень значимости соответствующего критического значения статистики ¥ = 4,95 составляет 2,7 ■ 10-17. Даже с учетом отклонений от классических условий применения дисперсионного анализа следует признать гипотезу об отсутствии влияния предмета на оценки не прошедшей статистическую проверку. Это свидетельствует о различиях в методиках преподавания и оценивания знаний.

Приведенные статистические процедуры позволяют изучить «перекосы» в оценках по отдельным предметам без учета согласованности оценок, полученных одним студентом по разным предметам. Очевидно, что использование согласованности позволило бы строить более точные статистические оценки. Основанием для этого является тот факт, что для подавляющего большинства студентов не играет особой роли специфика предмета: способный студент примерно одинаково справляется и с профильными, и с непрофильными дисциплинами. Кроме этого, возможно выполнять исследования по однородной группе дисциплин, например по дисциплинам гуманитарного цикла.

Для оценки дискриминативности на основе согласованности оценок, полученных по разным предметам, можно применять коэффициенты корреляции. Парные корреляции не совсем подходят для оценки отдельного предмета, поэтому предлагается использовать коэффициенты корреляции оценок по предмету со средними оценками студентов:

1 п

Уи = -Х хій, и =1 —, т

Пі - 1

(1)

Согласованность оценок хЬ, Ь = 1, ..., т по £-му предмету со средними оценками (1) можно оценивать с помощью оценки коэффициента корреляции:

1 т Г 1 т ^ \

X хтуъ - “ X хьи

— т

Г - —

и -1

т

и -1

т

т XУи

ти-1

а,

ти-

и - 1

ти-

и - 1

2

1т / 1 т '

= -Ху!- -ХУи

т

и-1

т

и-1

Чем ближе коэффициент корреляции к 1, тем выше согласованность. В табл. 2 приведены коэффициенты корреляции предметов одного потока студентов. Некоторые предметы, показавшие плохую согласованность по распределению оценок (например, «Проектирование информационных систем»), оказались ближе к ряду средних оценок. Дополнительно в табл. 2 приведена оценка б среднеквадратического отклонения, характеризующая точность оценки коэффициентов корреляции. Эта оценка вычислялась на основе дисперсии коэффициента корреляции [3]:

2

У

О

бГ2 ^ В]г]=

М*40 +Ц0£ + _ 2Д

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

22

■ + -

4^22 4^;

М-20 ^02 ^20^02

22

^1

31

13

М-иМ-20 М-11^02

где ^ = М [(X - М[Х]У (У — М[У ])j ] — смешанные центральные

мо-

менты.

Таблица 2

Значения оценок коэффициента корреляции рядов оценок различных предметов с рядом средних оценок

2

Г

Название строки Г б Г

Математика 0,864 0,033

Математическая экономика 0,850 0,035

Численные методы 0,826 0,050

Проектирование информационных систем 0,757 0,062

Лингвистическое обеспечение информационных систем 0,694 0,106

Предметно-ориентированные экономические информационные системы 0,624 0,116

Философия 0,405 0,150

Экономическая теория (микроэкономика 1) 0,399 0,129

«К1

2нё Яч > нД НА

ОЙ"

^ 1

5к 1

«Л*

^1

I

8Н! й§ о

ЕнО а

*МЦ МО I £И4

нее

И

н

н

о

н

м

со

Н

Для оценки дискриминативности тестов применяется метод контрастных групп. Из общей совокупности испытуемых выделяют две подгруппы — лучшую и худшую. Тогда индекс дискриминативности может быть определен как разность между долями испытуемых, правильно выполнивших задание в этих двух подгруппах. Индекс дискриминативнос-ти изменяется от -1 (в лучшей группе никто не справился, в худшей — все справились) до +1 (в лучшей все справились, в худшей не справился никто).

В применении к традиционным оценкам высшей школы можно для определения индекса II дискриминативности £-го предмета воспользоваться разностью I = (х- — X') / 2 средней оценки

i - 1 V

х- = т X хи

т 1 е Г 1

множества J/ оценок лучших студентов в количестве т и средней оценки

Х""=-1 X ХН

1 т" ^ 11

т 1 е J"

множества J" оценок худших студентов в количестве т . Деление на два не принципиально. В данном случае оно выполнено для приведения коэффициента дискриминативности к интервалу от -1 до 1, так как средние оценки лежат в интервале от 3 до 5. Результаты вычислений приведены в табл. 3. Группы лучших и худших студентов определялись по средним оценкам студентов. Таблицы 2 и 3 достаточно близки по содержанию, по крайней мере в отношении наиболее «проблемных» предметов.

со

%

Таблица 3

Значения оценок коэффициента дискриминативности различных предметов

Предмет Іі

Математическая экономика 0,954 545

Математика 0,909 091

Численные методы 0,772 727

Лингвистическое обеспечение информационных систем 0,681 818

Проектирование информационных систем 0,681 818

Предметно-ориентированные экономические информационные системы 0,590 909

Философия 0,227 273

Экономическая теория (микроэкономика 1) 0,227 273

«К1

ЯЧ г

МнЗ|

нйе

«31

І

Ой"

^ 1

1

«Л*

^1

I

8Н| й§ о

ЕнО а

£м§|

ЙО I &ЙІ

нее

И

н

н

о

н

м

со

Н

Для измерения надежности тестов часто используют показатель альфа Кронбаха. Этот показатель можно вычислять и по оценкам преподавателей:

п

-2

а

п

п -1

а2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

* -Xа і

і - 1

а2

_2 2____2

В альфа Кронбаха сравниваются дисперсия а * - п а у суммы бал-

лов студентов

*и -X хіи - пУи, и -1,

і - 1

=2

т

и сумма дисперсий оценок б- . В случае совпадения оценок студента по каждому предмету со средней по студенту (максимальная согласованность оценок по разным предметам) альфа Кронбаха будет равна 1. Когда никакой согласованности нет, оценка студента по предмету является случайной величиной, независимой от других его оценок, дисперсия суммы будет равна сумме дисперсий и альфа Кронбаха будет равна 0. В классической статистической теории тестирования тест считается надежным, если а > 0,8. Для оценок потока студентов, рассмотренного в этой статье, а = 0,969.

Результаты вычислений демонстрируют применимость предложенных методик для изучения валидности, дискриминативности и надежности экзаменационных оценок. Однако любые статистические выводы не допускают чисто механического применения в силу своей стохастической природы. Тем более это справедливо в отношении оценок преподавателей. Статистические показатели оценок преподавателей следует использовать для выявления экзаменов с «плохими» характеристиками, а исследование недостатков преподавания и оценивания знаний нужно выполнять другими методами.

О

(N

SS1

2нё Яч >

g|l'

«31

НА оК %<s ^ 1

5s 1

^ Л £ ё§|

« V I

8s! й§ о

ЕнО а

*МЦ МО I £И4

нее

К

н

н

о н

PQ

со

Н

Список использованной литературы

1. Аванесов В.С. Композиция тестовых заданий / В.С. Аванесов. — М.: АДЕПТ, 1998. — 216 с.

2. Дисперсионный анализ: Предположения и последствия их нарушения. — URL: http://www.statsoft.ru/home/textbook/modules/ stanman#assumptions.

3. Крамер Г. Математические методы статистики / Г. Крамер. — М.: Мир, 1975. — 648 с.

4. Хьютсон А. Дисперсионный анализ / А. Хьютсон; пер с англ. А.Г. Кругликова. — М.: Статистика, 1971. — 88 с.

Referenses

1. Avanesov V.S. Kompozitsiya testovykh zadanii / V.S. Avanesov. — M.: ADEPT, 1998. — 216 s.

2. Dispersionnyi analiz: Predpolozheniya i posledstviya ikh narusheniya. — URL: http://www.statsoft.ru/home/textbook/modules/ stanman#assumptions.

3. Kramer G. Matematicheskie metody statistiki / G. Kramer. — M.: Mir, 1975. — 648 s.

4. Kh’yutson A. Dispersionnyi analiz / A. Kh’yutson; per s angl. A.G. Kruglikova. — M.: Statistika, 1971. — 88 c.

Информация об авторе

Братищенко Владимир Владимирович — кандидат физико-математических наук, доцент, начальник информационного управления, Байкальский государственный университет экономики и права, г. Иркутск, e-mail: [email protected].

Author

Bratishenko Vladimir Vladimirovich — PhD in Physical and Mathematical Sciences, Associate Professor, Head of Information Office, Baikal State University of Economics and Law, Irkutsk, e-mail: [email protected].

i Надоели баннеры? Вы всегда можете отключить рекламу.