Теория
ПОСТРОЕНИЕ АЛЬТЕРНАТИВНОЙ МОДЕЛИ ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ ПО СИСТЕМЕ Г. РАША
Каргин Юрий Николаевич,
Ноябрьский колледж профессиональных и информационных технологий
kargin04@yandex.ru
В работе представлены исходные положения и процесс построения модели педагогических измерений, основанной на формальных определениях теории Георга Раша. Такой подход позволяет теоретически обосновать и проанализировать некоторые основные этой теории, глубже осмыслить используемые в ней понятия и привести более осмысленную интерпретацию её результатов.
Ключевые слова: теория педагогических измерений по модели Г. Раша, интерпретация свойств модели педагогических измерений.
Три этапа педагогических измерений по модели Г. Раша
Первый этап — обобщение эмпирических результатов. Графическое представление эмпирических результатов позволило выйти на более совершенный математический язык описания процессов тестирования. На рисунке 1 показан пример графического представ-
ления ответов испытуемых на некоторые тестовые задания. Ответы каждого испытуемого оцениваются по дихотомической шкале (1 — ответ правильный; 0 — ошибка). Каждой точке графика соответствует усреднённая по подгруппе испытуемых (или по группе заданий одного уровня трудности) доля правильных ответов. Эти точки аппроксимируются функцией:
<( х) =
1+вх
Второй этап можно охарактеризовать как этап построения математической модели. На этом этапе, во-первых, определяется содержательный смысл латентных показателей уровня трудности тестового задания в и уровня подготовленности испытуемого в. Далее, по виду функции <р (х), записываются математические формулы для расчёта вероятности Р правильного ответа усреднённых групп на
тестовые задания в зависимости от значений латентных показателей:
Р (в)=^. Р (в)=т+гв-в
(1)
И, наконец, сформулирована сама математическая модель педагогических измерений, как «объединение» формул (1) в единую взаимодействующую систему испытуемых и заданий
теста: (в-в)
Р..= —-, (2)
' 1 + в(в> где Ру — вероятность правильного ответа г-го испытуемого на ]-е задание теста. Отметим, что вероятность Р является также ненаблюдаемой величиной как и показатели в и в, и в законе (2) имеет уже локальный (точечный) характер.
Третий этап — адаптационный. На этом этапе определяются условия и обосновываются правила применения модели в практике.
Рис. 1. Аналитическая аппроксимация эмпирических данных
измерения
Именно на этом этапе разрешаются две достаточно важные и очевидные проблемы.
Первая. Прямой переход от формул (1) к обобщению (2) с математической точки зрения неправомерен. Другими словами, математические закономерности для усреднённых (интегральных) вероятностей необязательно выполняются для их локальных (дифференциальных) составляющих. Вторая проблема ещё более глубокая. Показатели в и в входят в модель (2), предполагая единую меру их измерения, т.е. в модели сопоставляются ранее несопоставимые свойства — трудность тестового задания и уровень подготовленности испытуемого.
Безусловно, математик Г. Раш понимал эти проблемы. И именно ему приписывают способы их разрешения посредством введения дополнительных стандартизирующих методов шкалирования: пересчёт наблюдаемых значений к общей средней арифметической, равной нулю, и общему показателю вариации, равному единице. Такая корректировка исходных тестовых данных существенно снижает влияние первой проблемы на тестовое измерение и предлагает разрешение второй проблемы выбором общих единиц измерения — логитов, отражающих степень вариации наблюдаемых значений от сред-
него значения, принимаемого равным нулю.
Таким образом, процесс тестового измерения заключается:
• в подсчёте долей правильных ответов р, всеми испытуемыми на у-е задание теста и правильных ответов г-м испытуемым на все задания теста р.;
• в расчёте исходных потенци-
1 - Р, Р. алов--, —■— и показателей
Р, 1 - Р ■ 1 1 - Р, 1 Р.
1п--, 1п—'■— трудности тес-
Р, 1 - Р.
товых заданий и подготовленности испытуемых;
• в пересчёте процедурами шкалирования исходных показателей в латентные в, и в с едиными единицами измерения — логитами.
Исходные положения и вывод альтернативного закона
Процесс построения модели педагогических измерений можно провести и в «обратной» логике, не от практики к теоретической модели, а от постулирования теоретических положений к подтверждению их выводов на практике. Именно такой подход демонстрируется далее.
Определение 1. Испытуемый А во столько раз лучше подготовлен к тестовому заданию, чем испытуемый В, во
сколько раз он с тем же успехом и в тех же условиях правильно выполнит больше заданий этого уровня, чем испытуемый В.
Определение 2. Тестовое задание А во столько раз легче, чем задание В, во сколько раз больше заданий этого уровня правильно выполнит испытуемый с тем же успехом и в тех же условиях, чем задание В.
Фразу «с тем же успехом» на математический язык можно перефразировать как «с той же совместной вероятностью». Под фразой «в тех же условиях» можно понимать комплекс всех как внешних, так и внутренних условий, например мотивацию. Однако в практике приходится учитывать только наблюдаемые факторы, среди которых наиболее важным, на наш взгляд, является промежуток времени выполнения задания. Тогда эту фразу можно воспринимать как «за один и тот же промежуток времени».
Дополнительно прокомментируем эти определения на двух примерах.
Допустим, испытуемый В за некоторое время правильно выполняет тестовое задание с вероятностью 0,25. Тогда студент А в два раза лучше подготовлен к выполнению тестового задания, если он за это же время с совместной вероятностью 0,25 правильно выполнит два таких задания. Иными словами, испытуемый А одно задание правиль-
но выполнит с вероятностью 0,5 за время в два раза быстрее, чем испытуемый В.
Допустим, испытуемый за некоторое время правильно выполняет задание В с вероятностью 0,25. Тогда задание А в два раза легче, чем задание В, если испытуемый правильно выполнит его с вероятностью 0,5 за время в два раза быстрее. Иными словами, два таких задания он правильно выполнит за то же время, с той же совместной вероятностью 0,52 =0,25.
Этих определений достаточно, чтобы построить модель педагогических измерений1.
Пусть дано некоторое ,-е задание теста, которое назовём опорным2. Того испытуемого (пусть даже вымышленного), который с вероятностью 0,5 правильно выполняет опорное задание теста, так же назовём опорным. Выбор опорного испытуемого определяется выбором опорного задания.
Чем выше уровень подготовленности испытуемого, тем больше вероятность его правильного ответа на это задание. Вероятность правильного ответа на опорное задание '-м испытуемым обозначим через и.. Этот показатель отражает уровень подготовленности испытуемого, который так и назовём — вероятностный уровень подготовленности испытуемого. Допустим '-й испытуемый в в.0 раз лучше подготовлен опорно-
-1-
Каргин Ю.Н. Свойства мультипликативной модели педагогического теста — http://www.uni-a1tai.ru/ т(о/|оигпа1/уе8й^к/ 3365-nomer-1-2010.html
В теории педагогического тестирования выделяют нормативно-ориентированные и критериально-ориентированные подходы при интерпретации тестовых результатов. Если показатели альтернативной модели нормировать на опорное тестовое задание, т.е. на содержание теста, как это делается в данной статье, то в указанной классификации результаты теста можно интерпретировать как критериально-ориентированные. Если же результаты тестового измерения нормировать на выделенного опорного испытуемого, например среднего в ранжированном списке, то их следует отнести к нормативно-ориентирован-ному виду интерпретации.
Hn
измерения
го испытуемого, т.е. он, с учётом определения 1, выполнит с той же вероятностью 0,5 в в.0 раз больше подобных заданий. Тогда можно записать ы.в.0 = 0,5 или ы. = 0 , 5 1/в: Показатель в.0 назовём относительным уровнем подготовленности испытуемого.
Пусть дано ]-е задание теста, которое в в® раз труднее опорного задания, правильно выполняемого .-м испытуемым с вероятностью ы., т.е. в® — относительный уровень трудности тестового задания. Тогда из определения 2 следует, что ]-е задание теста он выполнит с вероятностью ы.вг°. Окончательно имеем искомый математический закон для расчёта вероятности правильного ответа на задание теста: в? /
" (3)
Pj= 0,5/
Если ввести вероятностный уровень трудности тестового задания V ^ = 0,5в' , то закон (3) можно записать как в смешан-
ных показателях Pj = так и вероятностных:
'-UP = V:
1°§0,5 Pj= l°g0,5 Vj"logo,5 U- (4)
В законе (3) показатели ff° и в0 измеряются в более совершенной шкале отношений с выбранной единицей для опорного уровня, в законе (4) показатели и и v имеют вероятностную трактовку. В IRT показатели модели (2) измеряются в интервальной шкале логитов. Пере-
ход к интервальным показателям можно осуществить и в нашей модели натуральным логарифмированием относительных показателей: в = 1пв°, в = 1пв0.
В качестве комментариев приведём некоторые следствия из закона (3).
1. Значение относительного показателя уровня трудности опорного задания равно единице, значение вероятностного показателя уровня трудности опорного задания равно 0,5.
2. Значение относительного показателя уровня подготовленности опорного испытуемого равно единице, значение вероятностного показателя уровня подготовленности опорного испытуемого равно 0,5.
3. Опорный испытуемый с вероятностью 0,5 правильно выполняет опорное задание теста.
4. Испытуемый с относительным уровнем подготовленности б правильно выполняет с вероятностью 0,5 тестовое задание уровня трудности б.
5. Относительные показатели принимают только положительные значения, которые изменяются в полуинтервале от нуля до бесконечности.
6. Значения относительных показателей показывают, во сколько раз данное свойство ярче выражено (значительней проявляется) относительно опорного.
7. Вероятностные показатели могут принимать значения из интервала (0, 1).
-e-
8. Значения вероятностных показателей дают вероятность правильного ответа для опорного уровня.
9. Чем сложнее тестовое задание, тем выше значение относительного показателя и тем ниже значение вероятностного показателя.
10. Чем лучше подготовлен испытуемый, тем выше значения относительного и вероятностного показателей.
При построении математической модели педагогических измерений, закон (3, 4) мы представляем как альтернативный по отношению к (2).
Эмпирическое обоснование альтернативного закона
В современном понимании педагогического теста3 есть требование относительно равномерно возрастающей трудности тестовых заданий. Как отмечает В.С. Аванесов, раньше этот уточняющий момент в определении теста не делался. В итоге задания некоторых т.н. тестов подбирались иногда с заметными «провалами» между заданиями, что сильно ухудшало метрические свойства метода; заметно снижалась точность измерений и дифференцирующая способность тестовых результатов. Можно с сожалением отметить, что ряд российских прак-
тиков и авторов этот критерий либо не признают, либо обходят стороной как несущественный. Например, вместо понятия «система заданий» используют словосочетание «совокупность» или «множество заданий», как будто между ними нет разницы4.
Именно от этой мысли и оттолкнёмся в этом разделе.
Определение 3. Системой из т равномерно возрастающей трудности заданий будем называть такую совокупность заданий, уровень трудности которых определяется по закону:
2т - 2& +1
V =-»->
2т
где & — номер заданий возрастающей трудности, & = 1, ... т.
Несколько подробнее остановимся на этом определении. Оно даёт правило равномерного распределения тестовых заданий по вероятностному показателю трудности заданий. Например, для т = 5 тестовых заданий равномерно возрастающей трудности имеем значения V равные 0,9; 0,7; 0,5; 0,3; 0,1. Любопытно вычислить соответствующие им значения относительного показателя трудности тестовых заданий: в0 примерно равно 0,152; 0,515; 1; 1,74; 3,32. Отсюда, в частности, самое сложное задание теста примерно в 22 раза труднее самого простого задания.
-е-
Аванесов В.С. Метрическая система Георга Раша — Rasch Measurement (RM). ПИ. 2010. №2. С. 59.
Там же. С. 72.
г"п
измерения
Каргин Ю. Модель педагогических измерений в шкале отношений // Педагогические измерения. 2010. №2. С. 44-56.
Если перейти к интервальным показателям, то получим значения в примерно равные -1,88; -0,66; 0; 0,55; 1,20. В ШТ расстояние между соседними уровнями должно быть примерно одинаковым, желательно менее 0,5 или даже 0,25 логит. В данном подходе расстояние между соседними уровнями одинаковое, если оно измерено в вероятностных показателях. В этом случае расстояния между соседними уровнями, измеренные в относительных и интервальных показателях, увеличиваются по мере удаления уровней от опорного.
Обращает на себя внимание и асимметрия значений показателей в и в0 при симметрии показателей ы для равномерного распределения тестовых заданий. Опора на вероятностные показатели не случайна. На наш взгляд, именно показатели ы, V и их вероятностная трактовка наиболее адекватно вписываются в вероятностную модель педагогических измерений. Далее акцентируем внимание ещё на одно отличие моделей. В ШТ модель Раша (2) симметрична относительно параметров модели в и в, а симметричность теста определяется симметричным распределением этих значений, и как следствие средним значением вероятности правильного ответа равным 0,5. Альтернативная модель симметрична относительно параметров ы и V
(4), асимметрична относительно параметров в0 и в0 (3) со средним значением вероятности правильного ответа примерно равной 0,525. Т.е. в симметричном тесте доля правильных ответов несколько выше, чем неправильных. Выяснение причин такой асимметрии может служить проблемой отдельного исследования, разрешение которой лежит не в математической, а скорее педагогической или даже психологической области.
Рассмотрим тест с системой равномерно возрастающей трудности заданий и равномерным распределением испытуемых по уровню подготовленности ы. В работе5 решаются задачи вычисления средней вероятности Р(в) правильного ответа испытуемого с уровнем подготовленности и на все задания такого теста и вычисления средней вероятности Р(в) правильного ответа всех испытуемых на тестовое задание уровня трудности в:
л т
Р (в) = -1
т
I
р(в) = - £ р,
,=1
V /Гв0 ёV = —— = -в-
1+в0 1 + вв'
■,=1
(5)
>| ыв ёы = ■
1
-в
0 1 + в° 1 + вв Полученные результаты совпадают с эмпирическими за-
кономерностями (1). На наш взгляд, это серьёзный аргумент в пользу закона (3). Формулы (5) дают и правила оценки значений мер трудности заданий и уровня подготовленности испытуемых по наблюдаемым долям правильных ответов для ]-го задания pj и ¿-го испытуемого p■:
• для относительных показателей в0 соответственно имеем оценки (1 - Pj)/Pj и Р./(1 - Р.). В ШТ эти показатели называют «неопределённым» потенциалом. Здесь они имеют однозначно определённый смысл (см. определения 1 и 2);
• для вероятностных показателей V и и соответственно имеем оценки, рассчитанные по формулам V = 0,5ви и = 0,5А В ШТ иллюстративно обсуждаются вероятности правильных ответов в зависимости от значений параметра (в - в). Здесь вероятностные показатели несут однозначно определённый смысл (см. следствие 8).
Совершенно очевидно, что данный подход полностью снимает и указанные выше две проблемы «Раша». Во-первых, сам переход из (3) к (1) строг и точен для предельного случая бесконечно большого числа равномерно распределённых по уровню трудности тестовых заданий и равномерно распределённых по уровню подготовленности испытуемых. Во-вторых, вероятностные и относительные единицы измерения показате-
лей альтернативной модели, снимают проблему «сопоставления несопоставимых свойств». В конечном итоге дополнительные процедуры шкалирования (или искусственного статистического выравнивания) совершенно исключаются в данном подходе. На наш взгляд, и этот факт в пользу альтернативной модели.
В работе6 проводилась сравнительная оценка погрешностей аналитических расчётов по законам (2) и (3) с экспериментальными данными. Модель Раша уступает и по этому признаку.
Визуализация
альтернативного
закона
Визуализация аналитически выражённых законов является дополнительным способом лучшего их осмысления. Именно для этого приведём два рисунка, относящихся к альтернативному закону (3, 4), и ограничимся кратким комментарием к ним.
На рис. 2 представлена поверхность Р(и, V). Центральная, самая тёмная полоса, соответствует оптимальному режиму работы теста. В этой области изменения параметров модели и и V вероятность правильного ответа на тестовые задания изменяется в интервале (0,4; 0,6). Именно в этой области уровень трудности тестовых заданий
Каргин Ю.
Модель педагогических измерений в шкале отношений //
Педагогические измерения. 2010. №2. С. 44-56.
Нп
измерения
лучше всего соответствует уровню подготовленности испытуемых, именно в этой области разрешения тестовых заданий самые высокие, что отражается в наибольшей «крутизне» поверхности. Области хорошего режима работы теста представлены двумя менее тёмными полосами поверхности. Нижняя полоса отражает изменения вероятности правильного ответа Р в интервале (0,2; 0,4), а верхняя в интервале (0,6; 0,8). Самые светлые области поверхности Р, особенно её крайние практически горизонтальные части, обладают низким разрешающим потенциалом. Нижнее плато поверхности отражает область «трудные задания — слабая подготовка испытуемых»,
где вероятность правильного ответа всех испытуемых близка к нулю, независимо от задания, и смысла в таких заданиях нет. Верхнее плато поверхности отражает противоположную область «лёгкие задания — сильная подготовка испытуемых». Здесь все испытуемые легко отвечают на любое задание теста и их дифференциация весьма затруднительна.
Сплошными линиями мы выделили сечения поверхности Р(ы^) плоскостями опорного испытуемого ы = 0,5 и опорного тестового задания V = 0,5. В этом случае вероятность правильного ответа определяется предельно простыми соотношениями Р^) = V и Р(ы) = ы, а графики этих функций — прямые
Рис. 2. Поверхность Р(ц,у)
-e-
Рис. 3. Проекция поверхности P(u,v) на плоскость изменения параметров модели
линии. Пунктиром выделены сечения u, v = 0,1 и u, v = 0,9. Даже непосредственный визуальный анализ этих сечений даёт представление о характере изменения вероятности правильного ответа Р для этих значений параметров модели.
На рис. 3 представлен «вид сверху» на поверхность P(u, v). Тон выделенных участков прежний. Узкие центральные полосы ещё раз отражают области хорошего разрешения тестовых заданий. Более подробно, с аналитическими расчётами, вопросы разрешения тестовых заданий обсуждались в ра-боте7.
На наш взгляд, как в теории представленной модели, так и в практике её применения есть дискуссионные и даже проблемные моменты. На некоторые из них мы уже обращали внимание. Например, асимметрия теоретических положений и практика оценки латентных показателей для неравномерного теста. Однако сам переход от статистического нормирования эмпирических данных, реализованного в модели Раша, к аналитическому обобщению через постулирование ключевых понятий в данном подходе может дать более адекватные решения проблемы педагогических измерений.
-е-
Каргин Ю.
Модель педагогических измерений в шкале отношений //
Педагогические измерения. 2010. №2. С. 44-56.