Теория
МОДЕЛЬ ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ В ШКАЛЕ ОТНОШЕНИЙ
Юрий Каргин
Ноябрьский колледж профессиональных и информационных технологий [email protected]
Работа посвящена решению задач теории педагогических измерений. В первой части при сопоставлении с моделью Раша, предлагается альтернативная модель, выделяются её свойства и достоинства в практике применения. Вторая часть носит одновременно гипотетический и прикладной характер. Здесь предпринимается попытка измерять основные показатели педагогического теста интервалами времени.
Ключевые слова: измерительная шкала, модель Раша, интерпретация показателей модели педагогических измерений
Одной из основных моделей педагогических измерений является математическая модель Раша (G. Rasch). Предлагаемую нами модель можно рассматривать как альтернативу модели Раша, сопоставлению этих моделей посвящена первая часть данной работы. Интерпретация значений основных показателей в альтернативной модели позволяет предложить использовать в качестве меры их измерения интервалы времени. Эти вопросы обсуждаются во второй части работы.
Основная задача теории педагогического теста состоит в разработке такого нормированного по времени и содержанию набора тестовых заданий различного уровня трудности, который позволит максимально объективно дифференцировать и оценить уровень подготовленности испытуемых. Отсюда и обязательное включение в математическую модель двух переменных величин, отражающих уровень трудности тестового задания и уровень подготовленности испытуемого к содержанию теста.
Исходным эмпирическим материалом для построения модели педагогического теста является таблица тестовых результатов Хц(обычно, Х^ = 1 — задание выполнено правильно, Хц = 0 — неправильно), т столбцов которой нумеруют тестовые задания, а п строк — испытуемых. Тогда подсчитанные доли
1 т
правильных ответов = —V X-
т 1
на задания теста для отдельных испытуемых и доли правильных
1 п
ответов всех х , = — V X- испы-1 пТ=1 1
туемых на отдельное задание теста являются исходными референтами как для определения параметров модели, так и для оценки её адекватности.
Математические модели
Математически наиболее простыми являются однопа-раметрические модели. Т.к. в педагогическом тесте присутствуют два основных множества его участников, набор тестовых заданий и группа испытуемых, то существует два простейших математических способа группировки числовых характеристик этих множеств в единый параметр: аддитивный (в виде суммы или разности) и мультипликативный (в виде произведения или частного). Если характеризовать анализируемые в работе модели с этих позиций, то модель Раша — аддитивная, а предлагаемая нами альтернативная модель — мультипликативная. Эти различия определяют и измерительные шкалы для численной оценки исследуемых качеств участников теста — в модели Раша уровни трудности тестовых заданий и подготовленности испытуемых измеряются в интервальной шкале, в нашей модели используется более совершенная шкала отношений.
Вероятность ^правильного ответа г-м испытуемым на 1-е задание теста задаётся параметром Уу, выражённым через две
Нп
измерения
-1 -
Каргин Ю.Н. Экспоненциальный спад в задачах дидакти-ки//Научное творчество XXI века: Материалы II Всероссийской научной конференции, март 2010 г. Красноярск. Научно-информационный издательский центр, редакция журнала «В мире научных открытий», НЭБ, (www.nkras.ru)
латентные переменные: вi — уровень подготовленности испытуемого и в — уровень трудности тестового задания. Вероятности правильных ответов отдельных испытуемых на все задания теста и всех испытуемых на отдельные задания теста рассчитываются по формулам:
1 m 1 п
Pi = ~ X Р, pJ = - х р.
ш ~=
1=1
п 1=7
Тогда основным критерием адекватности модели может служить мера различий между теоретическими вероятностями и эмпирическими долями правильных ответов, выражённая, например, в виде: Я = Яп + Яш =
п ш
= XIРг - Хг I + XIР, - Х\ ^ т1п.
'=1 1=1
Представим сами модели. Для записи модели и далее, где нет необходимости, индексы, нумерующие тестовое задание и испытуемого, будем опускать.
Модель Раша (ИМ):
Р = -+ХрУ-, у = в-р. (1)
1 + ехр у
Переменные в ив после специальной процедуры шкалирования измеряются в логи-тах, значения которых практически (более 99% случаев) находятся в интервале от -5 до +5 с нейтральным нулём для средних уровней трудности задания и подготовленности испытуемого. Для понимания смысла значений этих единиц измере-
ния приводятся вероятностные толкования: «Например, испытуемый с подготовкой в =5 имеет вероятность правильного ответа на задание средней трудности 0,99».
В теории Раша оценку теоретических значений в и и можно получить из таблицы тестовых результатов по формулам:
х 1 - х. в = 1п-—, в = 1п-'-,
' 1 - х 1 х
' 1
где х^ — эмпирические доли правильного ответа на тестовые задания г-м испытуемым, х, — эмпирические доли правильного ответа группой испытуемых на ,-е тестовое задание.
Предлагаемую нами модель обозначим аббревиатурой ЕМ, отражая этим её «экспоненциальную» (показательную) осно-
ву
1:
р = 0,5Г, у = в/в. (2)
Если для исходных переменных в и и ввести вероятностные переменные V = 0,5, и = 0,51 /в', то закон (2) можно переписать в виде:
1п Р ■ 1п 0,5 = 1п V ■ 1п и. (2а)
Здесь переменные в и в изменяются в полуинтервале от нуля до бесконечности с нейтральной единицей для опорных уровней, а вероятностные переменные и и V — в интервале от нуля до единицы со значением 0,5 для опорных уровней. Вероятностные переменные и и V
можно интерпретировать следующим образом: и — вероятность правильного ответа испытуемым на опорное задание теста; V — вероятность правильного ответа на задание теста опорным испытуемым. Введение новых переменных не только позволяет предложить разные формулировки самой модели, но и даёт дополнительные преимущества при её анализе и интерпретации свойств.
В частности, для ЕМ возможны достаточно внятные сравнения. Например, первый испытуемый подготовлен к тесту в два раза лучше второго, если он с той же совместной вероятностью выполняет два опорных задания теста, что и второй, выполняющий только одно опорное задание. Аналогичные рассуждения можно привести и для сравнения уровней трудности тестовых заданий.
Оценку теоретических значений в и в по таблице тестовых результатов можно проводить различными способами, где эмпирические доли хг и х^ определены выше:
а) по опорным показателям:
в = 1/1о8о,5 х,, в = 1о8О,5 хi;
б) предполагая равномерное распределение участников теста относительно вероятностных переменных и и V:
1 - х
^ в, =-
1-х
в) предполагая квадратичное распределение участников теста относительно вероятностных переменных и и V:
5х. (. Г 24(1 - х.)4
в
12(1 - х 1)
/
в, = 2,5
1 +. 1 +
1+-1
25 х
25 х.
\
Расчётные формулы, приведённые в пунктах б), в), следуют из цепочки предположений и математических преобразований, выписанных, например, для 1-го тестового задания:
х," р1 = - V Р" ¡р(и)р^и =
п г=1 0
1
= ^ р(и)ив ¿и.
0
Вычисление последнего интеграла и даёт расчётные формулы. Плотность распределения р(и) испытуемых равна:
б) р(и) = 1, для равномерного распределение участников теста относительно вероятностной переменной и;
в) р(и) = 6-(и - и2), для квадратичного распределения участников теста относительно вероятностной переменной и.
Аналогичные рассуждения и расчёты можно провести и для -го испытуемого.
Приведённые распределения участников теста по уровню подготовленности и можно прокомментировать на примере.
Пять участников теста равномерно распределены по уровню
ПЕД 1
1 измерения |
подготовленности к тесту, если: и1 = 0,1; и2 = 0,3; из = 0,5; и4 = 0,7; и5 = 0,9. Пять участников теста по уровню подготовленности группируются ближе к опорному уровню и распределены по квадратичному закону, если: и^ ~ 0,18; и2 ~ 0,36; из ~ 0,5; и4 ~ 0,64; и5 ~ 0,82. Два рассмотренных простейших вида распределения проиллюстрированы на рис. 1.
Сопоставим «работу» моделей на примере данных небольшой матрицы тестовых результатов, приведённых в работе В.С. Аванесова2. Результаты расчётов выпишем в табл. 1, 2 отдельно для 13 испытуемых и для 10 тестовых заданий.
В приведённых таблицах следует обратить особое внимание на последний столбец. Критерий Я, отражающий адекватность моде-
Таблица 1
Показатели 13 испытуемых
0
1 1 2 3 4 5 6 7 8 9 10 11 12 13 к п
Х. 1 0,9 0,8 0,7 0,6 0,6 0,5 0,5 0,5 0,4 0,4 0,3 0,2 0,1 -
ИМ в г 2,20 1,39 0,85 0,41 0,41 0 0 0 -0,4 -0,4 -0,8 -1,4 -2,2 -
Рг 0,86 0,75 0,66 0,58 0,58 0,5 0,5 0,5 0,42 0,42 0,35 0,26 0,16 0,38
ЕМа) в г 6,58 3,11 1,94 1,36 1,36 1 1 1 0,76 0,76 0,58 0,48 0,3 -
Р1 0,89 0,78 0,68 0,59 0,59 0,5 0,5 0,5 0,42 0,42 0,34 0,27 0,2 0,34
ЕМб) в г 9 4 2,33 1,5 1,5 1 1 1 0,67 0,67 0,43 0,25 0,11 -
Р1 0,89 0,78 0,67 0,57 0,57 0,47 0,47 0,47 0,37 0,37 0,28 0,19 0,1 0,34
ЕМв) в г 7,69 3,52 2,13 1,43 1,43 1 1 1 0,71 0,71 0,5 0,33 0,19 -
Р1 0,89 0,78 0,68 0,58 0,58 0,48 0,48 0,48 0,39 0,39 0,31 0,22 0,14 0,25
0
Аванесов В. Проблема объективности педагогических измерение/Педагогические измерения. 2008. № 3.
С. 3-39.
48
Рис. 1. Распределения участников теста
2' 20 10
Таблица 2.
Теория
Показатели 10 заданий теста
3 1 2 3 4 5 6 7 8 9 10 я т
х. 1 0,92 0,85 0,69 0,54 0,46 0,46 0,38 0,31 0,23 0,15 -
ИМ в, -2,5 -1,7 -0,8 -0,2 0,15 0,15 0,47 0,81 1,2 1,7 -
0,89 0,8 0,66 0,53 0,47 0,47 0,41 0,34 0,27 0,2 0,28
ЕМа) в 0,12 0,24 0,53 0,89 1,12 1,12 1,38 1,7 2,12 2,7 -
0,91 0,83 0,67 0,53 0,47 0,47 0,4 0,34 0,28 0,22 0,24
ЕМб) Р, 0,08 0,18 0,44 0,86 1,17 1,17 1,6 2,25 3,33 5,5 -
0,91 0,82 0,67 0,52 0,44 0,44 0,36 0,28 0,19 0,11 0,26
ЕМв) в 0,1 0,21 0,49 0,88 1,14 1,14 1,48 1,94 2,62 3,76 -
0,91 0,83 0,67 0,52 0,45 0,45 0,38 0,31 0,23 0,16 0,1
ли экспериментальным данным, для правильного применения ЕМ примерно в два раза ниже, чем в ИМ, т.е. аналитические решения ЕМ адекватней описывают рассматриваемое явление.
Свойства моделей
Сопоставим два наиболее важных свойства моделей: графики и дифференцирующие характеристики.
Графики вероятности правильного ответа в зависимости от уровня подготовленности испытуемых для рассматриваемых моделей представлены на рис. 2.
Внешние различия графиков ИМ и ЕМ связаны с различием осей ординат. В обоих случаях средняя линия отражает вероятность правильного отве-
та испытуемым уровня подготовки и или и на среднее (опорное) задание теста. Левее расположена линия вероятности правильного ответа на задание, которое легче опорного, а правее — на более трудное задание. В терминологии ИМ лёгкое задание соответствует уровню трудности минус один логит, в= -1 , а трудное — плюс один логит, в = 1. В терминологии ЕМ лёгкое задание в два раза легче опорного, т.е. в = а трудное задание в два раза труднее опорного, т.е. в = 2. На наш взгляд, второе толкование не просто более внятное, но и несёт в себе конкретный смысл (см. выше).
Иллюстрация моделей графиками ещё раз подчёркивает их аддитивный и мультипликативный характер. Изменение уровня трудности задания «па-
е
ПЕД 1
1 измерения
50
Рис. 2. Графики Р(0) и Р(u) для трёх заданий различного уровня
трудности
раллельно переносит» график вероятности правильного ответа в ИМ и «деформирует» его в ЕМ.
Графическое сопоставление самих моделей проиллюстрировано на рис. 3 в виде зависимо-
стей Р'(Х'), построенных для трёх испытуемых (по данным 1): а) г = 1— самый высокий уровень подготовленности испытуемого, который и на самые трудные задания правильно отвечает с вероятностью более чем 0,5;
Рис. 3. Графическое сопоставление моделей (— RM; — ЕМ)
е
2' 20 10
б) г = 7 — средний уровень подготовленности;
в) г = 13 — самый слабый испытуемый, который с вероятностью около 0,5 отвечает лишь на самые лёгкие задания теста.
Существенные различия графиков в области параметров теста «низкий уровень подготовленности испытуемого — высокий уровень трудности тестового задания» не столько ставят под сомнения какую-либо модель, сколько указывают на существование области их эффективного применения. В теории педагогических измерений показано, что равно как трудные задания бессмысленно предлагать слабо подготовленным испытуемым, так и очень лёгкие задания не оценивают знания у хорошо подготовленных учащихся. Те области параметров теста, в которых тестовое задание соответствует уровню подготовленности испытуемого, называют областями высокого разрешения или высокой дифференцирующей способности. Существование и выявление таких областей является второй задачей теории педагогических измерений, наряду с задачей оценки значений основных параметров теста.
С геометрической точки зрения вероятность правильного ответа Р(в; в) можно рассматривать как поверхность, заданную на множестве значений переменных в и в. Некоторые се-
чения этой поверхности представлены на рис. 2. В общих чертах свойства этой поверхности достаточно понятны. Максимальные значения точек поверхности расположены в области «очень лёгкие задания теста — очень высокий уровень подготовленности испытуемых». В этой области вероятность правильного ответа Р близка к единице и результат решения тестового задания не очень зависит от параметров теста.
По мере усложнения заданий и снижения уровня подготовленности испытуемых вероятность правильного ответа на задание теста всё стремительней убывает, поверхность Р становится круче, и уже в области «низкий уровень подготовленности испытуемого — высокий уровень трудности тестового задания» вероятность правильного ответа асимптотически стремиться к нулю. В самой нижней части, как и самой её верхней части, поверхность Р практически горизонтальная, и результат решения тестового задания вновь слабо зависит от значений переменных в и в. Таким образом, в поверхности Р можно выделить как «почти горизонтальные» области низкой дифференциации участников теста (низкого разрешения), так и «крутые» области с высоким разрешением. Математической величиной, отражающей ско-
Нп
измерения
рость изменения уровня поверхности Р, является градиент этой функции.
Обозначим градиент функции Р(в; в) через G(в ; в) и в качестве опорного примем его значение в нейтральной точке, где разрешение теста оптимальное. Для модели Раша такой нейтральной точкой являются значения переменных в = 0, в =0.
В этом случае G0 = G(0;0)= —.
4
В современной теории теста близкой по смыслу к функции G является информационная функция I, значение которой в нейтральной точке равно 1(0) = 1/4, а сама информационная функция отражает скорость изменения уровня поверхности Р, но только в направлении изменения переменной трудности тестового задания в.
Для ЕМ нейтральной точкой являются значения в = 1, в= 1, или для вероятностных переменных — V = 0,5, в = 0,5. В этой точке G(0)= G(0,5;0,5)=
= Л
Область изменения переменных теста будем называть хорошо разрешённой, если вы-
G
полняется условие: G(в;в)>—^.
Т.е., в хорошо разрешённой области дифференцирующая способность теста пусть и не оптимальная, но меньше её не более чем в
раз. Математически, в
ИМ разрешённая область определяется приближённым неравенством |в -в| < 1, 21, когда значения переменных отличаются на более чем на 1,21 логит. В ЕМ область хорошего разрешения определяется двумя приближёнными неравенствами, первое из которых исключает область «трудное задание — слабая подготовка», второе неравенство исключает область «лёгкое задание — сильная подготовка»: V1'35 +ии5 < 0,51,35,
(1 -V)179 +(1 - и)179 < 0,5й9.
Наглядно эти области представлены на рис. 4.
Теперь можно отметить, что на рис. 2 жирной линией выделены те участки графика, на которых тестовые задания обладают хорошим разрешением в том понимании, как указано выше.
Завершая сопоставление моделей, отметим, математически важное свойство модели Ра-ша — её аддитивную симметрию относительно значения у= 0. Это свойство проявляется на рис. 2 и 4, это свойство отражается и в математическом законе (1), и в его следствии для двух взаимно обратных событий: Р(у) + Р(-у) = 1. Это следствие можно толковать примерно следующим высказыванием: «С какой вероятностью хорошо подготовленный учащийся может совершить ошибку в очень лёгком тестовом задании, с той же вероятностью слабо подготов-
е
Рис. 4. Область хорошего разрешения теста
ленный учащимся вдруг выполнит очёнь трудное тестовое задание».
ЕМ — несимметричная модель относительно у это свойство также отражено на рис. 2 и 4. Для двух взаимно обратных событий справедливо неравенство Р(у) + Р(1/у) < 1, и знак равенства выполняется только при у = 1. Для ЕМ справедливо другое высказывание, которое нам представляется более правдоподобным: «Вероятность того, что хорошо подготовленный учащийся совершит ошибку в очень лёгком тестовом задании, больше вероятности правильного решения очень трудного задания слабо подготовленным учеником».
Переходя ко второй части работы, отметим, сама модель Раша не предполагает какого-либо учёта времени и оценки количества тестовых заданий. Эти вопросы обсуждаются лишь с позиций статистической
надёжности результатов тестирования и здоровьесберегаю-щих технологий в образовании в виде рекомендаций: «Допустимая надёжность результатов тестирования может быть обеспечена при количестве тестовых заданий не менее 30, время выполнения теста не должно превышать 40 мин. для исключения эффекта утомления испытуемых». ЕМ позволяет рассматривать и вопросы, связанные с нормированием времени.
Е-Т модель
педагогического
теста
В основе Е—Т модели лежит закон экспоненциального спада интенсивности мыслительных действий с течением времени: Р ~ ехр(-Т). Если этот закон приложить к педагогическому тесту, то формулу (2) можно переписать в виде:
2' 20 10
ео^рияя
е
г"п
измерения
-з-
Каргин Ю.Н., Каргина Н.Ю. Мультипликативная модель анализа педагогического текста [Текст]/Ю.Н. Каргин, Н.Ю. Каргина//Фунда-ментальные науки и образование: Материалы III Всероссийской науч.-практ. конф. (Бийск, 31 января — 3 февраля 2010 г.). Бийск: БПГУ им. В.М. Шукшина, 2010. С. 219-225.
Р = 0,5Т/То, Т = т■ в, Т0 = тв. (3)
Прокомментируем новые обозначения. Масштабный множитель т имеет размерность интервалов времени (удобно минуты), а его значение равно времени, которое затратит опорный испытуемый, чтобы правильно выполнить опорное задание с вероятность 0,5. Переменные в и в определяются в ЕМ. Переменные Т и То можно интерпретировать следующим образом: задание уровня трудности Т означает такое задание, которое за это время правильно с вероятностью 0,5 решит опорный испытуемый; испытуемый уровня подготовки Т0 — это такой испытуемый, который за это время с совместной вероятностью 0,5 правильно выполнит То/т опорных заданий.
Оценка трудности тестового задания или уровня подготовленности испытуемого интервалами времени достаточно широко применяется и в работе практикующего учителя. Например, характеризуя контрольную работу, учитель оценивает меру её трудности фразой «примерно на 30 мин.», или, пытаясь подчеркнуть хорошую подготовку к ней одного из учеников, учитель считает, что он способен выполнить её за 10 минут. Эти, взятые из опыта, субъективно-интуитивные оценки принимают вполне конкретный и измеряемый смысл,
если использовать нашу трактовку. Тридцать минут на контрольную работу означает, что за это время опорным учащимся будут выполнены все её задания с вероятностью 0,5 каждое, а хорошо подготовленный ученик (в три раза лучше, чем опорный) за отведённое время выполнит каждое задание с вероятностью 0,51/3 ~ 0,8 .
Прямая связь показателя уровня трудности задания и времени его выполнения не только предполагается из соображений здравого смысла, но и проявляется в экспериментальных исследованиях. В работе3 приведён пример анализа данных демо-версии ЕГЭ по математике 2010 на основе ЕМ: доли правильных ответов на задания В1 — В12 взяты из статистики сайта (http://live.mephist.ru), по этим данным несложно оценить уровень трудности заданий в, ориентиры времени Т (мин) выполнения каждого из заданий приведены в сопровождающих экзаменационных материалах. Коэффициент корреляции между значениями в и Т примерно равен 0,87, а уравнение линейной регрессии имеет вид: Т = 2,66- в (И2 = 0,74).
В этом примере предполагаемая линейная связь между показателями в и Т статистически достаточно обоснована. В общем случае подобные выводы делать пока преждевременно, но наличие такой связи и воз-
-e-
можности непосредственной оценки латентных показателей мы рассматриваем в качестве исследовательской гипотезы.
Любая теория оценивается широкой практикой использования её следствий. Попытаемся и мы предложить учителю вариант формирования нормированного по времени педагогического теста с хорошей разрешающей способностью.
1 шаг. Предположить некоторого опорного испытуемого, принять для него уровень подготовленности в0 = 1. Это может быть как реальный испытуемый, так и вымышленный, как удобно учителю. Важно только то, что он делит группу испытуемых, ранжированных по уровню их подготовленности к материалу теста, на две примерно равные части.
2 шаг состоит в предварительном определении времени т. В практике это время изменяется от 0,5 до 5 минут. Значение т зависит от количества и уровня трудности тестовых заданий. После выполнения последнего шага, возможно, придётся подкорректировать это значение.
3 шаг. Составить предварительно опорное тестовое задание с уровнем трудности в0 = 1, которое опорный испытуемый должен правильно выполнить за время т с вероятностью 0,5.
4 шаг. Выделить самого подготовленного испытуемого (ре-
ального или вымышленного) и оценить уровень его подготовленности 0max из следующих соображений: 0max равно количеству опорных заданий, которые выполнит этот испытуемый за время тс вероятность 0,5. Т.е. он в $max раз лучше подготовлен к тесту, чем опорный испытуемый.
5 шаг. Составляем самое трудное тестовое задание. Его самый подготовленный испытуемый с вероятностью 0,5 должен выполнить за время т. Уровень трудности этого задания ßmax = 0max. Условие для проверки — это задание опорный испытуемый должен выполнить с вероятностью 0,5 за время
Т = в ■ т
Jmax ^max
Повторяем 4 и 5 шаги для самого слабо подготовленного испытуемого, оцениваем уровень его подготовленности иmin (он меньше единицы, отражает долю опорного задания, выполненного с вероятностью 0,5 за время т), составляем самое лёгкое задание ßmin = em;nn и рассчитываем время его выполнения опорным испытуемым Т ■ = в ■ Т
1 min ^min
Составляем группу тестовых заданий так, что бы они располагались в диапазоне от самого лёгкого до самого трудного и само их распределение по уровню трудности было подобно распределению испытуемых по уровню подготовленности (например, равномерно или с большим
г"п
измерения
количеством среднего уровня). Рассчитываем время правильного выполнения с вероятностью 0,5 каждого задания опорным испытуемым.
Последний шаг. Суммируем время выполнения всех заданий опорным испытуемым, это и есть расчётное время выполнения всего теста. Если это время устраивает, то тест готов для применения. Если нет, то требуется или изменять количество тестовых заданий или изменять масштабный множитель ти трудность опорного задания, и опять переходить к шагу 2.
После апробирования теста на группе испытуемых можно оценить его качество из следующих соображений: чем ближе предварительные оценки уровней трудности тестовых зада-
ний к уровням, рассчитанным по тестовым результатам, тем лучше разработан тест, тем лучше ранжированы и оценены участники тестирования.
В рамках этой работы не обсуждаются вопросы надёжности и валидности тестовых испытаний. Эти вопросы разработаны в рамках классической теории педагогического теста и вполне применимы для нашего теста.
Громоздкий, на первый взгляд, алгоритм составления теста после двух-трёх кратного применения становится, тем не менее, естественным и эффективным педагогическим инструментом разработки и использования в практике специфически объективного измерителя качества знаний учащихся.