Научная статья на тему 'Применение программы RUMM–2020 для разработки педагогического теста'

Применение программы RUMM–2020 для разработки педагогического теста Текст научной статьи по специальности «Науки об образовании»

CC BY
77
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
модель Раша / экстремальные задания / совместимость те стовых заданий / дистракторный анализ заданий / равномерность возраста ния меры трудности задания / соответствие меры трудности разрабатывае мого теста уровню подготовленности испытуемых / достаточность вариации и размаха заданий по уровню трудности.

Аннотация научной статьи по наукам об образовании, автор научной работы — Галина Смирнова

Приведён анализ двух матриц результатов тестирования. Первая матA рица имеет размер 13×10 и является известным примером учебной матрицы В.С. Аванесова. Вторая матрица имеет размер 52×50, предA ставлена им же; она получена по результатам пробной проверки задаA ний в тестовой форме по русскому языку, разработанных для ЦентраA лизованного тестирования в РФ в 1998 г. Матрица использована для отражения алгоритма разработки педагогического теста. Обе матриA цы анализировались на основе модели Раша посредством программы RUMM–2020 (Rasch Unidimentional Measurement Models).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Применение программы RUMM–2020 для разработки педагогического теста»



нп

измерения

ПРИМЕНЕНИЕ ПРОГРАММЫ RUMM-2020 ДЛЯ РАЗРАБОТКИ ПЕДАГОГИЧЕСКОГО ТЕСТА

Галина Смирнова

Славянский-на-Кубани государственный педагогический институт smirnova_g_i@mail.ru

Приведён анализ двух матриц результатов тестирования. Первая матрица имеет размер 13x10 и является известным примером учебной матрицы В.С. Аванесова. Вторая матрица имеет размер 52x50, представлена им же; она получена по результатам пробной проверки заданий в тестовой форме по русскому языку, разработанных для Централизованного тестирования в РФ в 1998 г. Матрица использована для отражения алгоритма разработки педагогического теста. Обе матрицы анализировались на основе модели Раша посредством программы RUMM-2020 (Rasch Unidimentional Measurement Models).

Ключевые слова: модель Раша, экстремальные задания, совместимость тестовых заданий, дистракторный анализ заданий, равномерность возрастания меры трудности задания, соответствие меры трудности разрабатываемого теста уровню подготовленности испытуемых, достаточность вариации и размаха заданий по уровню трудности.

Анализ качества заданий и теста

Математико-статистическое обоснование меры пригодности каждого отдельного задания и теста в целом проходило по следующим критериям:

1. Экстремальные задания. Экстремальными называются задания, на которые все испытуемые отвечали либо правильно, либо неправильно. Такие задания в тест не включаются, они считаются не тестовыми, потому что невозможно точно определить меру их трудности. Считается, что уровень трудности таких заданий выходит за пределы проводимых измерений на данной выборке испытуемых, а потому результаты, полученные по таким заданиям, необходимо исключить из матрицы данных тестирования. В исследу-

емых матрицах экстремальных заданий не оказалось.

2. Совместимость заданий. Совместимость заданий является необходимым условием использования модели Раша для измерения латентных качеств, в частности, для измерения уровня подготовленности. Совместимость заданий проверяется на разных уровнях: для всей матрицы результатов тестирования; для каждого задания (по результатам тестирования для задания); для каждого испытуемого (по результатам тестирования для испытуемого); для каждого элемента матрицы тестирования.

Во всех четырёх случаях совместимость определяется на основе критерия хи-квадрат — результаты тестирования сопоставляются с ожидаемыми значениями на основе модели Раша. Критерий хи-квадрат Пирсона — наиболее простой критерий проверки значимости связи между заданиями. Критерий Пирсона основывается на том, что в таблице ожидаемые частоты при гипотезе «между переменными нет зависимости» можно вычислить непосредственно.

В первой матрице тестовых заданий размером 13x10 совместимость всех заданий матрицы результатов тестирования на основе критерия хи-квадрат составила 0,789050. Полученные значения говорят о том, что степень соответствия данных тестирования модели Раша доста-

точно высокая. Чем ближе данное значение к единице, тем выше степень соответствия.

Для анализа второй матрицы тестовых результатов было проведено шесть этапов, на каждом из которых проверялось соответствие модели Раша как всей матрицы, так и каждого задания. Поэтапное значение совместимости всех заданий матрицы результатов тестирования отражено в табл. 1.

Таблица 1 Значение Хи-квадрат для всех заданий матрицы на каждом из этапов исследования

Этап Значение Хи-квадрат для всей матрицы

1 0,000

2 0,081064

3 0,079946

4 0,068934

5 0,14492

6 0,222138

Как видно из табл. 1, совместимость всех заданий матрицы результатов тестирования постепенно возрастала с нулевого значения на первом этапе до значения 0,222138 на последнем этапе. Данный положительный результат достигнут за счёт удаления из матрицы тестирования некачественных заданий, значение которых не достигало критического, равного 0,05.

Анализ мер совместимости для каждого задания показал,

r"n

измерения

-e-

что все задания в первом наборе соответствуют модели Раша, так как экспериментальное значение статистики Хи-квадрат для них соответствует табличному значению, при критическом уровне 0,05. Анализ совместимости для каждого задания второй матрицы на каждом из этапов исследования отражён в табл. 2.

Таблица 2 Значения Хи-квадрат для заданий, не соответствующих модели Раша

№ задания Значение Хи-квадрат

первый этап

1 0,032165

10 0,036121

11 0,08717

12 0,013648

13 0,008812

14 0,01339

32 0,000002

33 0,003148

38 0,007126

40 0,005486

46 0,012621

второй этап

27 0,047780

29 0,011943

третий этап

8 0,044027

четвертый этап

33 0,038807

34 0,039249

пятый эпап

25 0,033286

шестой этап

- -

Анализ совместимости для каждого задания на последнем этапе показал, что все задания соответствуют модели Раша.

Графики заданий, исключённых из матрицы тестирования и описанных в табл. 2, можно объединить в четыре группы (типа). Первую, самую многочисленную группу составляют задания №№ 1, 8, 10, 33 (1-й этап), 33 (4-й этап), 40 и 46. Приведём пример графика, типичного для данной группы (рис. 1).

Из рис. 1 видно, что данное тестовое задание можно отнести к заданиям с «неупорядоченными ответами». Испытуемые с низким и высоким уровнем подготовленности имеют большую вероятность правильно ответить на это задание, чем испытуемые, имеющие средний уровень подготовленности. Такое задание не вписывается в требования к тестовым заданиям, что подтверждено данными табл. 2. Это задание нарушает основное положение (assumption) Item Response Theory — чем выше уровень подготовленности испытуемых, тем выше должна быть вероятность правильных ответов. Здесь наблюдается явное нарушение этого положения.

По оси абсцисс отложены значения латентной переменной «уровень знаний по изучаемой дисциплине». В данном случае латентная переменная варьирует от -3 логит до +4 ло-

-e-

Рис. 1. График задания № 1

гит. По оси ординат откладывается ожидаемый ответ индивида. Ожидаемый результат (Expected Score) варьирует от 0 до 1. В верхней части рисунка расположена следующая информация:

• код тестового задания (I0001);

• название тестового задания, здесь названия задания выбраны по умолчанию. В данном случае это (Descriptor for Item 1);

• трудность тестового задания (Location = -0,166);

• суммарное отклонение ответов индивидов на данное задание от ожидаемых на основе модели Раша (Residual = 1,880);

• степень соответствия данных модели Раша (Chi Sq Prob = 0,032);

• наклон графика (Slope = 0,25).

Вторую группу составляют задания №№ 25, 27, 29, 34 и 38.

Рис. 2. График задания № 25

а

измерения |

Рис. 3. График задания № 34

Приведём примеры графиков, типичных для данный группы (рис. 2 и 3).

Из рис. 2 и 3 видно, что данные задания относятся к заданиям, которые не обладают способностью дифференцировать испытуемых по уровню их подготовленности. Испытуе-

мые с низким уровнем подготовленности имеют приблизительно такую же вероятность ответить правильно на данные задания, как и испытуемые с высоким уровнем подготовленности. Такие задания исключаются из состава проектируемого теста.

Рис. 4. График задания № 11

В третью группу вошли задания №№ 11-14. Приведем пример графика, типичного для данной группы (рис. 4).

Из рис. 4 видно, что данное задание можно отнести к заданиям со «сверхвысокой дифференцирующей способностью». Испытуемые с низким уровнем подготовленности вообще не отвечают на данное задание, испытуемые со среднем уровнем отвечают соответственно модели, а испытуемые с высоким уровнем подготовленности практически все отвечают верно.

К последней группе отнесено задание № 32. Приведём его график (рис. 5).

Согласно рис. 5, данное задание характеризуется как задание с «обратной дифференцирующей способностью». Испытуемые с низким и средним уровнем знаний имеют большую ве-

роятность правильно ответить на это задание, чем испытуемые с высоким уровнем знаний. Такое задание необходимо исключить.

Таким образом, во втором наборе тестовых заданий будут исследоваться данные, состоящие из 33 тестовых заданий, так как в ходе шести этапов было исключено 17 заданий.

3. Дистракторный анализ заданий. Дистрактором называется неверный, но правдоподобный ответ, отвлекающий незнающих испытуемых от правильного ответа. То есть дистрак-тор — это готовый вариант ответа на задание в тестовой форме, похожий на правильный ответ, но таковым не являющийся. «Слабыми» в заданиях с выбором одного или нескольких правильных ответов называют дис-тракторы, которые выбирают очень мало испытуемых, «силь-

Рис. 5. График задания № 32

а

измерения

Рис. 6. Дистракторы для первой матрицы

ными» — те дистракторы, которые выбирают многие.

Хорошие дистракторы похожи на правильный ответ, они позволяют проверить уровень знаний испытуемого. Если ни один из испытуемых не выбирает какой-либо дистрактор, то встаёт вопрос о целесообразности использования такого дис-трактора.

Программа ИИММ даёт возможность увидеть работу дистракторов наглядно. Для первого набора тестовых заданий работа дистракторов представлена на рис. 6.

По рис. 6 можно определить, какие из заданий имеют правильный/неправильный профиль. В анализируемом наборе тестовых заданий на задания №№ 4-9 и 10 большинство тестируемых ответили правильно. А на задания №№ 1-3 — больше неправильных ответов. Следовательно, в данных заданиях следует обратить внима-

ние на формулировку дистрак-торов.

Для второго набора тестовых заданий работа дистракто-ров представлена на рис. 7.

По рис. 7 видно, что на задания №№ 3, 12, 15, 30 и 31 большинство испытуемых ответили правильно. А на задания №№ 2, 5, 6, 8, 18, 19, 21, 25 и 26 было дано много неправильных ответов. Аналогично, в данных заданиях следует обратить внимание на формулировку дистракторов.

4. Равномерность возрастания меры трудности задания. Трудность соседних заданий в тесте не должна отличаться более чем на 0,5 логита. Значение 0,5 выбрано на том основании, что в хорошем тесте ошибка измерений уровня знаний испытуемых находится в пределах 0,25 логитов. Если это условие не выполняется, то тест не является эффективным измерительным инструментом. Это объясняется тем, что испытуе-

Рис. 7. Дистракторы для второй матрицы

мые внутри расширенного диапазона не дифференцируются.

Согласно рис. 8 и 9 критерий распределения заданий по трудности для первого и второго наборов данных соблюдается, то есть трудность соседних заданий не превышает порог в 0,5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

логитов. Таким образом, оба набора тестовых заданий могут являться эффективным измерительным инструментом.

5. Соответствие меры трудности разрабатываемого теста уровню подготовленности испытуемых. Средняя трудность

^^тч^Чоллоггияя

измерения

заданий не должна отличаться от среднего уровня подготовленности испытуемых более чем на 0,5 логита. Напомним, что при анализе результатов тестирования на основе модели Раша уровень подготовленности испытуемых и трудность тестовых заданий измеряются на одной и той же интервальной шкале. Поэтому если средняя трудность заданий будет отличаться от среднего уровня подготовленности испытуемых более чем на 0,5 логита, то это означает, что уровень подготовленности некоторых испытуемых (в нижней или верхней части шкалы) плохо дифференцируется.

Для исследуемых наборов тестовых заданий (рис. 8 и 9) данный критерий не соблюдается. Было получено следующее соответствие между уровнями подготовленности испытуемых и трудностью заданий (рис. 8 и 9).

Данный рисунок является гистограммой. По оси абсцисс откладывается значение латентной переменной, по оси ординат — число индивидов (вверху) и заданий (внизу). Причём с левой стороны указаны абсолютные значения для индивидов/заданий, а с правой — относительные значения в процентах от общего числа индивидов/заданий.

В верхней части гистограммы первой матрицы указано, что число испытуемых в ней равно 13 (во второй матрице —

52). Средний уровень подготовленности испытуемых первой матрицы на 0,04 логита ниже среднего уровня трудности заданий. Уровень трудности заданий в процессе шкалирования выбирается равным нулю, что делается для удобства интерпретации. Для второй матрицы средний уровень подготовленности испытуемых оказался на 0,83 логита выше среднего уровня трудности заданий. Это означает, что в анализируемых данных обнаружено явное несоответствие уровня подготовленности и трудности заданий. В этой ситуации уровень подготовленности некоторых испытуемых дифференцируется недостаточно. В первой матрице необходимо уменьшить трудность некоторых заданий, а во второй матрице — увеличить трудность заданий. Этот критерий анализа уникален.

Среднеквадратическое отклонение для оценок уровней знаний в первом случае равно 1,53 (во втором 1, 08). Кроме того, в верхней части гистограммы указано, что цена деления на оси абсцисс равна 0,25 (0,20) логита, в результате в интервале от -3 до +3 логит рассматриваются 24 (35) групп с различными значениями латентной переменной.

В идеальном случае гистограмма распределения ответов испытуемых (верхняя часть рисунка) должна быть близка к

-e-

Person-Hem Location Distribution

(Grouping Set lo Interval Length of D.25 making 24 Groups)

..........................-.......................-.........................т 76,9%

No. Hbszl SB Total [13| -0,04 1,S3

I

.3 .1 0 1 2 3

кЧЧЧ и

0,0% 3 Locrilon [luyts; аръ

a

oopt,

Рис. 8. Соответствие между уровнями подготовленности испытуемых и трудностью заданий первого набора данных

Person-Hera Location Distribution

(Grouping Set lo Interval Length of 0.20 making 35 Groups)

Ып. HBUL S.L.

TobrLL I ,-'< l,OB

^W т -га-

4 Locrtlon HuIJtSj

15,2% 30^51

Рис. 9. Соответствие между уровнями подготовленности испытуемых и трудностью заданий второго набора данных

нормальному закону распределения: относительно небольшое число испытуемых с низким и высоким уровнем знаний и относительно много — со средним уровнем знаний. Гистограмма распределения меры трудности заданий (нижняя часть рисунка) должна быть близка к равномерному закону распределения: трудность заданий должна возрастать не скачкообразно, а равномерно.

Здесь уместно напомнить определение качественного теста, состоящего из системы заданий равномерно возрастающей трудности и позволяющего получать педагогически целесообразные результаты, отвечающие критериям надёжности, валид-ности, объективности и эффективности1. В этом определении курсивом выделены основные термины, позволяющие отграничить педагогические измере-

-е-

—1— Аванесов В.С. Понятие и методы математической теории педагогических измерений (Item Response Theory): статья третья // Педагогические измерения. 2009. № 4. С. 5.

а

измерения |

-e-

Аванесов В.С. Метрическая система Георга Раша — Rasch Measurement (RM) // Педагогические измерения. №2. 2010. С. 57-80.

ния от прочих методов — научных, псевдонаучных и ненауч-ных2. Задания теста должны быть равномерно распределены по шкале логитов . Это означает, что разработанный набор заданий позволяет качественно оценивать уровень знаний.

В первом наборе тестовых заданий уровни знаний испытуемых распределены по нормальному закону распределения. Уровни трудности заданий распределены по шкале логитов примерно равномерно. Во втором случае этот критерий не соблюдается. На гистограмме

видны явные резкие скачки столбцов, что снова говорит о разнице уровней знаний испытуемых и трудности заданий.

6. Достаточность вариации и размаха заданий по уровню их трудности. Данный критерий должен иметь значение больше трёх логитов. Если размах не достигает данного значения, то необходимо добавлять в тест задания всех уровней трудности.

Согласно рис. 8 и 9, диапазон значений первого набора тестовых заданий находится на отрезке от -2 до +2,8 (второго —

LOCATION PERSONS ITETiS [uncerrtrali ted thresholds.]

3,0 X

2,0 X I0001-1 10002.1

1,0 X XX 10003.1

0,0 XXX 10006.1 10004.1 iOOOS.l

-1,0 XX X 10007.1 I000S.1

-2,0 X 10009.1 I0010.1

-3,0 X

X = 1 Parsons

Рис. 10. Значения верхних столбцов гистограммы для первой матрицы

юсапом

¡■снхиих

и,а

2,9

-1,(1

-2.9

1ТЕРБ [итеп1га115е0 *1(ге51н1Х(15]

ххх тл 1

XXX

X

хххх

[ПП24 1

XX [001? 1

XX 10006 1

ххххххххх !003Е 1 I 0И1П 1

XXX

XXX 1ВВВ? 1

XX [ЙЙ1? 1 I 001 1 ] 0020 1

XX [(КПЗ 1 [00М 1

X юагз 1 [982 2 1 10032 1

ххххх [0073 1 [ОТ2Ц 1 10011 1

хххххХ

X [0011 1 1

X шгг 1 ювээ 1 ]60№ 1

X 1ИИИ1 1

X 1001? 1

X [0031 1

[!Н15 1

10009.1 16665.1 [6В1В.1

1МШ.1

)0003-1 I ии;| 0.1

X = 1 Рвгьопь

Рис. 11. Значения верхних столбцов гистограммы для второй

матрицы

от -2,6 до +2,8) по шкале логи-тов, следовательно, размах варьирования заданий составляет 4,8 (5,4) логита. Данные значения удовлетворяют выдвинутому критерию; наборы тестовых заданий не следует усложнять.

Программа ИИММ позволяет расшифровать значения верхних столбцов гистограммы. Для первого набора заданий эти данные представлены на рис. 10.

Из рис. 10 видно, что на задания № 4 и № 6 ответили правильно больше испытуемых, чем на задания № 9 и 10. Следовательно, первая группа заданий обладает меньшей трудностью, нежели вторая. Данные рис. 10 подтверждают выводы, сделанные по рис. 6.

Для второго набора тестовых заданий значения верхних столбцов гистограммы представлены на рис. 11.

нп

измерения

Из рис. 8 видно, что на задания №№ 28, 22, 32, 9, 5 и 10 ответили правильно больше респондентов, чем на задания №№ 21, 26, 19, 6, 2, 1, 12, 31, 15, 3 и 30. Следовательно, первая группа заданий обладает меньшей трудностью, нежели вторая. Данные рис. 11 подтверждают выводы, сделанные по рис. 7.

7. Определение уровня подготовленности испытуемых. Программа ИИММ-2020 позволяет оценить уровень подготовленности испытуемых. Среди испытуемых легко выделяются те, кто обладает высо-

ким, средним и низким уровнем подготовленности. Эти данные позволяют скорректировать процесс преподавания для конкретных испытуемых, применив тем самым индивидуальный подход в обучении.

Приведённые критерии являются важным средством повышения эффективности и качества тестов. Учёт этих критериев позволяет разрабатывать педагогические тесты, которые достаточно объективно измеряют уровень подготовленности испытуемых и меру трудности заданий.

i Надоели баннеры? Вы всегда можете отключить рекламу.