Теория
АНАЛИТИЧЕСКИЙ МЕТОД РЕШЕНИЯ ОСНОВНОЙ ЗАДАЧИ ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ
Юрий Каргин
Ноябрьский колледж профессиональных и информационных технологий
kargin04@yandex.ru
В работе представлен аналитический метод решения основной задачи педагогических измерений — измерение уровня подготовленности испытуемых и уровня трудности тестовых заданий. Подробно представлен алгоритм и приведён пример решения поставленной задачи.
Ключевые слова: теория педагогических измерений, модель Раша, функция распределения, аналитический метод решения основной задачи педагогических измерений.
Введение
Основная задача теории педагогических измерений состоит в разработке методов измерения уровня подготовленности испытуемых и уровня трудности заданий. Классическим примером решения этой задачи является преобразование эмпирических тестовых дан-
-e-
ных в интервальную шкалу ло-гитов на основе однопараметри-ческой модели педагогических измерений Г. Раша.
В предыдущей работе автора1 была предложена альтернативная однопараметрическая модель педагогических измерений, с идеей измерения уровня подготовленности испытуемых и уровня трудности заданий в шкале отношений. Сама технология проведения таких измерений только разрабатывается, и её возможности ещё подлежат исследованию. Поиску альтернативных путей решения основной задачи МТИ и посвящена данная работа.
Две логики построения математической модели педагогических измерений (МТИ)
МТИ разворачивается из обсуждения латентной природы и эмпирически-интуитивного толкования трудности тестового задания и подготовленности испытуемого, через понятие шанс правильного ответа на тестовое задание. Однако эти толкования могут быть различными. Различные толкования исходных понятий приводят и к различным моделям теории педагогических измерений, и к различным методикам их применения.
Сначала остановимся на модели Г. Раша, в рамках которой
приводится четыре меры трудности тестового задания и аналогичные четыре меры подготовленности испытуемого к заданиям теста2.
Первая пара этих мер достаточно очевидна и легко интерпретируется: доля неправильных ответов испытуемых на ]-е задание проектируемого теста ц-у доля правильных ответов г-м испытуемым на тестовые задания р;. Однако это не метрические показатели. Их значения есть результат счета, а не измерения.
Вторая пара мер — соответствующие долям ответов шан-сы3. Именно эти меры были предложены Г. Рашем для оценки результативности тестовых испытаний, которые и легли в основу его математико-статис-тической теории педагогических измерений. Зная доли ответов, шансы вычисляются по формулам: — шанс (потенциал) трудности тестового задания; — шанс (потенциал) подготовленности испытуемого. Следует отметить, что в левой части этих выражений стоят оцениваемые латентные показатели, а в правой — наблюдаемые значения. Остановимся подробнее на интерпретации этих показателей. Именно на этом этапе логика построения нашей альтернативной модели отклонилась от схемы Г. Раша.
Зададимся вопросом — как количественно выразить выска-
-1-
Каргин Ю.
Построение альтернативной модели педагогических измерений по системе Г. Раша //Педагогические измерения. 2010. №4. С. 62-71.
Аванесов В. Item Response Theory: основные понятия и положения // Педагогические измерения. 2007. № 2. С. 3-28.
В некоторых прикладных вопросах теории вероятностей вместо значения вероятность некоторого события используют величину «шанс». Шанс Ь есть отношение вероятности благоприятного события р к вероятности того, что это событие не произойдёт: Ь - р/(1 - р), или обратно р - Ь/(1 + Ь). Иногда значение этой величины удобнее интерпретировать и вычислять прямым подсчётом количества равнозначных конфликтующих факторов. Например, при бросании игральной кости шанс выпадения благоприятной цифры «6» равен один к пяти, Ь - 1/5, т.е. один благоприятный фактор «6» против пяти противоположных факторов
измерения
«не 6». Отсюда вероятность благоприятного события равна
Р = (1/5)/(1 + 1/5)=1/б, а вероятность противоположного — q - 1/(1 + Ь) - 5/б.
Убедимся в этом непосредственными расчётами. Пусть даны два испытуемых и два тестовых задания с известными количествами конфликтующих факторов: У1 = 2, У2 = 1 — для испытуемых, Zl - 2, Z2 = 1 — для тестовых заданий. Тогда можно рассчитать шансы и вероятности правильных ответов первым испытуемым на отдельные задания теста и усреднённую вероятность правильных ответов на весь тест: 2/2 и 2/1 — соответствующие шансы; 1/2 и 2/з — соответствующие вероятности; 7/12 — усреднённую вероятность. Отсюда рассчитанный шанс (потенциал подготовленности) первого испытуемого для всего теста равен ^/5. Аналогично для второго испытуемого получим: 1/2, 1/1 и 5/7 — соответствующие шансы для отдельных заданий и всего теста. Тогда отношение шансов подготовленности для отдельных заданий действительно равно 2, а для всего теста 49/25 = 2.
зывание «первый испытуемый в два раза лучше второго подготовлен к тестовому заданию»? В логике Г. Раша ответ следующий — у первого испытуемого потенциал подготовленности (шанс выполнения задания) в два раза больше, т.е. ©1/©2 - 2. Причём это отношение не зависит от тестового задания и справедливо не только для любого из них, но и (внимание, логическая ошибка!4) для всего теста.
Далее, по схеме Раша, переходя от мультипликативных потенциалов В и 0 к их аддитивным эквивалентам в - 1пВ и в = 1п0, имеем третью пару оценок латентных показателей по исходным тестовым баллам:
в, = 1п-
q,
исходный уро-
1 - qJ
вень трудности тестового задания; Рг
в = 1п-
1 - Рг
исходный уро-
вень подготовленности испытуемого. Эти рассуждения приводят и к самой математической модели Г. Раша. Так как вероятность правильного ответа на тестовое задание выражается через отношение шансов по фор-0
муле Р = —в0, то при В - ехрв
1 + 0 В
и 0 - ехрв, окончательно имеем
Р-
ехр(в-в) 1+ ехр(в-в)"
Логическая ошибка, о которой говорилось выше, искажает исходные оценки. Если распределения близки к равномерным, то этот недостаток хорошо корректируются статистическим выравниванием — шкалированием. Такая процедура пересчёта исходных оценок в симметричные относительно нуля метрические значения в ив и даёт окончательную, четвёртую пару мер трудности тестовых заданий и подготовленности испытуемых при педагогическом измерении. Правда, в этом случае теряется их исходная интерпретация, но относительное распределение участников теста в интервальной метрической шкале логитов вполне обосновано.
Когда распределения оценок носят явно нелинейный вид, то и стандартные процедуры шкалирования исходных тестовых баллов не позволяют получить качественные оценки латентных показателей на шкале логитов. В этом случае желаемый эффект может дать переход к известным модификациям модели Раша — двухпараме-трической или трёхпараметри-ческой модели Бирнбаума. Действительно, добавление в математическую модель корректирующих параметров обычно улучшает статистические показатели оценок, хотя и усложняет процесс их получения. Но даже и в этом случае эмпирические данные после обработки ме-
тодами IRT не всегда приводят к пригодным для практических целей результатам.
Вернёмся к вопросу — как можно количественно выразить высказывание «первый испытуемый в два раза лучше подготовлен к ответу на тестовое задание, чем второй»? Предложим альтернативный вариант — первый испытуемый в два раза лучше второго подготовлен к выполнению тестового задания, если он выполнит два таких задания с тем же шансом, что и второй выполнит только одно. Этот посыл приводит к следующей математической модели педагогических измерений:
B
P = 0,50. Здесь применены те же обозначения В и 0, но их содержательный смысл не эквивалентен строгому понятию шанс. В альтернативной модели они формулируются как относительные показатели уровня трудности тестового задания и уровня подготовленности испытуемого.
Существенным преимуществом этой модели является её относительная математическая простота. Это преимущество позволяет более строго оценивать искомые показатели. В частности, при равномерном распределении участников теста искомые показатели можно оценить по уже известным соотношениям:
Б =-%-
' 1 - Я,
и 0 =
Рг
1 - Рг
. Только
в этом частном случае относительные показатели трудности тестовых заданий и подготовленности испытуемых можно интерпретировать как соответствующий шанс. В общем случае соотношения для оценки искомых показателей по наблюдаемым долям я, и рг такой интерпретации не имеют.
И, наконец, если в модели Раша основными показателями результатов анализа теста и их интерпретацией служат измеряемые в логитах уровни трудности тестовых заданий в и уровни подготовленности испытуемых в, то в альтернативном подходе эти функции выполняют вероятностные показатели уровня трудности тестовых заданий V - 0,5Б и уровня подготовленности испытуемых и - О,51/0. Введение вероятностных показателей позволяет записать и саму модель педагогических измерений в других видах: Р - иБ или Р - V 1/0 . Методы измерения именно этих показателей (в и в — в схеме Раша, V и и — в альтернативной схеме) анализируются и сопоставляются в следующем подразделе работы.
Обратная задача педагогического тестирования
Выше были приведены две мысли, которые попытаемся обосновать в этой части работы. Повторим их:
измерения
• не всегда обработка эмпирических данных методами ШТ приводит к пригодным для практических целей результатам;
• относительная математическая простота альтернативной модели позволяет находить оценки искомых показателей аналитическими методами.
Если оценка уровня подготовленности испытуемых и уровня трудности заданий по эмпирическим данным формулируется как прямая и основная задача теории педагогических измерений, то обратную задачу педагогического тестирования можно сформулировать следующим образом: по известным значениям показателей уровня подготовленности испытуемых и уровня трудности заданий, в ходе тестирования получить, а затем и проанализировать совокупность эмпирических данных.
Конкретизируем и упростим эту задачу в следующем виде. Пусть дана группа испытуемых с известными уровнями подготовленности к тестовым заданиям — это входные значения. Проведём с этой группой тестовые испытания, и уже к наблюдаемым данным применим исследуемый метод их обработки. Получим выходные значения показателей уровня подготовленности испытуемых. По тому, насколько выходные значения соответствуют входным, можно не только оценить каче-
ство самих методов обработки эмпирических данных, но и области их применения. Именно эту задачу и попытаемся решить здесь, выделив в ней четыре этапа:
1. Определить входные значения характеристических показателей педагогического тестирования.
2. Провести имитационные тестирования и получить наборы эмпирических данных.
3. По наблюдаемым данным провести оценки характеризующих показателей.
4. Сопоставить полученные оценки с заданными на входе значениями.
1 этап. Количественный состав виртуальных участников теста определим следующим образом — 100 испытуемых и 100 тестовых заданий.
На входе в имитационное тестирование испытуемые всегда распределены в 10 равновеликих групп с определённым значением подготовленности к тестовым испытаниям (табл. 1). Для схемы Раша уровни подготовленности изменяются в диапазоне от -5 логит до +5 логит с шириной интервала для каждой группы 1 ло-гит. Для альтернативной схемы вероятностные уровни подготовленности испытуемых изменяются во всей области определения от 0 до 1 с шириной интервала 0,1. Чем выше порядковый номер группы, тем выше подготовленность испытуемых.
Таблица 1
Теория
Равномерное распределение испытуемых
Номер группы 1 2 3 4 5 6 7 8 9 10
в, уровень подготовленности, логит -4,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 4,5
и, вероятностный уровень подготовленности 0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95
Количество испытуемых 10 10 10 10 10 10 10 10 10 10
Три набора тестовых заданий так же распределены по трудности в 10 групп. Количество заданий в каждой группе определяется в зависимости от выбора вида распределения (табл. 2, рис. 1): равномерное, линейное, нелинейное. Отметим, что в рассматриваемом примере, при линейном распределении тестовых заданий, количество заданий в каждой группе обратно пропорционально уровню трудности этих заданий, а при нелинейном распределении самые трудные задания вообще исключаются из теста.
2-й этап — имитационное тестирование. На этом этапе в подготовленную таблицу размером 100x100 «случайно вбрасываются» двоичные результаты ответов 0/1 на тестовые задания по формуле: X = ШТ(Р + Кий), где Р — рассчитанная по исследуемой модели вероятность правильного ответа, Яий — случайное число из интервала от 0 до 1. Полученную таблицу наблюдаемых данных можно использовать для расчёта оценок показателей подготовленности испытуемого по соответствующей схеме — Раша или альтернативной.
Таблица 2
Распределения тестовых заданий
Номер группы 1 2 3 4 5 6 7 8 9 10
в, уровень трудности, логит -4,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 4,5
V, вероятностный уровень трудности 0,95 0,85 0,75 0,65 0,55 0,45 0,35 0,25 0,15 0,05
Равномерное 10 10 10 10 10 10 10 10 10 10
Линейное 19 17 15 13 11 9 7 5 3 1
Нелинейное 22 34 24 13 5 2 0 0 0 0
г"п
измерения
Рис. 1. Распределения тестовых заданий
3-й этап. Результаты таких расчётов представлены в табл. 3, 4. Они проиллюстрированы графически на рис. 2, 3. В первой строке таблиц указаны номера групп испытуемых, во второй — их истинные (входные) значения уровня подготовленности. На всех рисунках по оси абсцисс отложены входные (истинные) значения уровней подготовленности испытуемых, а по оси ординат — их вычисленные оценки. Прямая линия отражает «идеальное» расположение оценок. Чем ближе оценки к этой линии, тем адекватней процедура их получения.
Исходные значения уровня подготовленности по схеме Раша рассчитывались по наблюдаемым долям правильных ответов каждым испытуемым
вг = 1п-
Рг
1 - Рг
и последующем вну-
тригрупповом усреднением результатов. На рисунках эти значения обозначены серыми маркерами ■.
Корректировка исходных значений проводилась их линейным преобразованием к статистическим характеристикам истинных значений (среднему и дисперсии). На рисунках эти значения обозначены чёрными маркерами ■. Геометрически такая корректировка равносильна параллельному переносу исходных значений к нулевому среднему и одновременному повороту всех исходных значений в направлении линии расположения истинных показателей.
В альтернативной схеме исходные значения вероятностного уровня подготовленности рассчитывались по наблюдаемым долям правильных ответов каждым испытуемым по форму-
Таблица 3
Оценки уровня подготовленности испытуемых по схеме Раша
Номер группы 1 2 3 4 5 6 7 8 9 10
в ист., логит -4,5 -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5 4,5
равномерн. в исх. -2,34 -1,61 -1,11 -0,58 -0,19 0,26 0,75 1,10 1,55 2,19
в кор. -4,92 -3,38 -2,34 -1,22 -0,39 0,54 1,57 2,30 3,24 4,60
линейное в исх. -1,75 -0,92 -0,27 0,21 0,67 1,23 1,64 2,13 3,01 3,83
в кор. -4,73 -3,30 -2,17 -1,33 -0,54 0,43 1,16 2,00 3,52 4,96
нелинейн. в исх. -1,06 -0,27 0,49 1,25 1,85 2,83 3,74 4,17 4,42 4,60
в кор. -4,81 -3,64 -2,53 -1,40 -0,51 0,93 2,27 2,90 3,27 3,52
Рис. 2а. Шкалирование по схеме Раша: равномерное распределение тестовых заданий
ле из следующих преобразова-
ний: т.к.
Рг
0
1+0
отсюда
± (1-р.) и = 0,501 = 0,5 Рг . Усреднённые внутри группы значения и
приведены в таблице. На рис. 3 эти значения обозначены серыми маркерами ■. В данном методе такие оценки справедливы лишь при равномерно распределённых тестовых заданиях (рис. 3а). В других случаях эти
Нп
измерения
Рис. 2б. Шкалирование по схеме Раша: линейное распределение тестовых заданий
Рис. 2в. Шкалирование по схеме Раша: нелинейное распределение
тестовых заданий
оценки неадекватны, что и отражено на рис. 3б,в.
Для линейного распределения тестовых заданий р(у) = 2-у расчёты дают:
1 1
Рг = .(РО) • V
2-в г
1 + 2-0 г
Отсюда выражаем 0 и находим 2—Р-
и = 0,5 Рг . Именно по этим формулам вычислялись корректированные оценки вероятностных показателей и которые на рис. 3б обозначены чёрными маркерами ■. Аналогичные расчёты и иллюстрации проведены и при нелинейном распределении тестовых заданий.
Даже визуальный анализ графиков, отражающих истинные и оценочные значения подготовленности испытуемых, позволяет сделать следующие выводы:
• распределение тестовых заданий по уровню трудности учитывается как в методе получе-
ния искомых оценок в схеме Ра-ша, так и альтернативном подходе;
• в схеме Раша линейные преобразования исходных показателей (шкалирование) достаточно эффективно при линейном распределении тестовых заданий по уровню трудности на всём множестве возможных значений.
Если задания распределены нелинейно, т.е. в наборе тестовых заданий есть количественно выраженные группы заданий близкого уровня трудности с «провалами» между ними, то расчётные процедуры схемы Раша перестают эффективно работать на всём множестве возможных значений. В частности, из данных на рис. 2в следует, что отсутствие в наборе тестовых заданий высокого уровня трудности существенно искажает оценки испытуемых высокого уровня подготовленности. Этот вывод хорошо известен в
Таблица 4
Оценки вероятностного уровня подготовленности испытуемых по альтернативной схеме
Номер группы 1 2 3 4 5 6 7 8 9 10
и истинное 0,05 0,15 0,25 0,35 0,45 0,55 0,65 0,75 0,85 0,95
Равномерн. и исх. 0,04 0,12 0,26 0,36 0,44 0,53 0,63 0,73 0,85 0,96
и кор.
Линейное и исх. 0,22 0,39 0,49 0,58 0,66 0,75 0,81 0,87 0,92 0,97
и кор. 0,05 0,16 0,25 0,34 0,44 0,56 0,67 0,75 0,85 0,94
Нелинейн. и исх. 0,42 0,60 0,68 0,75 0,80 0,86 0,90 0,92 0,96 0,99
и кор. 0,06 0,16 0,25 0,33 0,43 0,55 0,67 0,73 0,86 0,95
г"п
измерения
Рис. 3а. Расчёт по альтернативной схеме: равномерное распределение тестовых заданий
Рис. 3б. Расчёт по альтернативной схеме: линейное распределение
тестовых заданий
Рис. 3в. Расчёт по альтернативной схеме: нелинейное распределение тестовых заданий
ШХ как требование соответствия тестовых заданий группе испытуемых;
• аналитические методы оценивания показателей уровня подготовленности испытуемых в альтернативном подходе достаточно надёжны на всём множестве значений. Аналитический вид распределения тестовых заданий по уровню трудности позволяет получить адекватные этому распределению формулы для расчёта оцениваемых показателей.
В заключение следует выделить одно важное замечание. Может показаться, что в альтернативном подходе распределение тестовых заданий влияет на
оценки уровня подготовленности испытуемых. Это не так. Правильней будет сказать, что учёт распределения тестовых заданий влияет на надёжность формул для расчёта этих оценок. Можно провести аналогию — рост человека не зависит от измерительной линейки, но измеренное значение роста зависит и от качества линейки и от умения правильно её применить.
Функция распределения
В IRT учёт распределений тестовых заданий и испытуемых
Нп
измерения
В математическом разделе специальных функций достаточно подробно изучена определённая в виде интеграла бета-функция (интеграл Эйлера первого рода): 1
В(х, у) = |их-1 (1 - и) 1 ¿и.
Свойства и методы вычисления этой функции достаточно хорошо изучены. Укажем лишь те из них, которые полезны в анализе тестовых данных альтернативными методами: 1. Бета-функция сходится при положительных х и у. 2. Бета-функция не изменяется при перестановке параметров В(х, у) - В (у, х). 3. При натуральных значениях у - п интеграл непосредственно вычисляется и равен:
В( х, п) =
(п -1)!
х(х + 1)(х + 2)...
...(х + п -1)' В частности: 1
В( х,1) = -
В(х,2)=
2
г(х +1)
носит качественный характер и проявляется в терминах соответствия эмпирических данных теории или соответствия тестовых заданий испытуемым. Разработаны статистические процедуры выявления этого соответствия, и как следствие, возможности применения самой технологии педагогического измерения. В альтернативном подходе учёт этих распределений уже носит количественный характер, а сама функция распределения имеет строгий математический вид и непосредственно участвует в обработке тестовых результатов.
Для задания функции распределения мы исходили из следующих положений: математический вид этой функции должен позволять проводить необходимые аналитические расчёты и преобразования; математический вид этой функции должен адекватно отображать эмпирические данные; параметры этой функции должны нести предметную интерпретацию. Учитывая эти обстоятельства, мы пришли к следующему функциональному виду (для группы испытуемых):
р(и) = к ■ ит-1 (1 - и)п-1, где к — нормирующий множитель, т, п — параметры распределения. Множитель к определяется из условия нормировки
1 1
|р(и)йи = к |ит-1 (1 - и)п 1 ¿и.
Интеграл вида
1
|ит-1 (1 - и) ¿и хорошо извес-
0
тен в математике, и в некоторых случаях непосредственно вычисляется5. В частности, для натуральных т, п нормирующий множитель равен
(т + п -1)
к = --г—;-—. Тогда функ-
(т - 1)!-(т -1)! ^
ция распределения принимает вид:
(т + п -1)!
р(и )=-
(т - 1)!(п -1)!
•ит-1 (1 - и)п-1. Явный вид функции распределения позволяет получить и некоторые основные числовые характеристики: математическое
ожидание М (и)=
персия Б (и )=
т
т + п
тп
-; дис-
(т + п ) (т + п +1)
точка экстремума т -1
т + п = 2
Для иллюстрации приведём и проанализируем графики функции распределения р(и) для некоторых наборов параметров (т;п) (рис. 4). Даже беглый взгляд показывает, что варьированием параметров т, п можно получить достаточно разнообразный набор аппроксимирую-
и
Рис. 4. Примеры функций распределения р^)
щих функций для описания распределения эмпирических данных.
Интерпретацию введённой функции распределения можно провести, опираясь на описанное выше понятие шанса как отношения двух конфликтующих тенденций — правильно выполнить опорное (т.е. характерное для всего набора тестовых заданий) тестовое задание с вероятностью и, и неправильно выполнить это задание с вероятностью (1 - ы). Если параметры m, и интерпретировать как интенсивности проявления этих тенденций, то отношение ш/п даёт шанс правильно ответить на опорное задание, отсюда среднее значение этой вероятности
для всей группы испытуемых
m
совпадает
m + п
матическим ожиданием M(u). Прокомментируем приведённые примеры с этих позиций.
1. Распределение (1;1). Равномерное распределение испытуемых при m = 1, п =1 принимает самый простой вид р^) = 1. В этом случае интенсивности тенденций правильно — неправильно выполнить задание единичные или нейтральные, шанс правильно выполнить задание равен один к одному, среднее значение уровня подготовленности к тесту равно 0,5.
2. Распределение (1;4), т.е. интенсивность тенденции вы-
с мате-
измерения
полнить правильно задание равна 1, а тенденция выполнить задание неправильно равна 4. Функция распределения имеет вид р{м) = 4(1 -u) , шанс правильно выполнить тест группой испытуемых равен один к четырём, среднее значение уровня подготовленности к тесту равно 0,2. Эта группа слабо подготовлена к тестовым заданиям, в ней могут быть и испытуемые, которые ни на одно задание теста не отвечает правильно, т.е. с нулевым уровнем подготовленности u = 0.
3. Распределение (4;4) напоминает нормальный закон. Тенденции правильно и неправильно выполнить тест заметно выражены, и их интенсивности равны по 4. Функция распределения имеет вид р(и) = 20u3 (1 -u), шанс правильно выполнить тест группой испытуемых равен четыре к четырём, среднее значение уровня подготовленности к тесту равно 0,5.
4. Распределение (8;2) с явно выражённой тенденцией хорошо выполнить тест. Функция распределения имеет вид р(u> = 72^ (1 - u ),шанс правильно выполнить опорное задание группой испытуемых равен восемь к двум, среднее значение уровня подготовленности к тесту равно 0,8. Эта группа испытуемых очень хорошо подготовлена к тесту, но на все его задания никто правильно не отвечает. Нет испытуемых
с уровнем подготовленности u =1.
Если в этой логике интерпретировать распределения тестовых заданий, то в качестве конфликтующих тенденций можно рассматривать способности выполнить тест опорным испытуемым. Например, распределение вида (8;2) характеризует набор достаточно лёгких тестовых заданий с шансом правильно выполнить его опорным испытуемым, равным 8 к 2, и средним вероятностным уровнем трудности теста vср = 0,8.
Таким образом, введение функции распределения для участников тестирования даёт не только возможность привести задачу педагогических измерений к аналитическим процедурам. Приведённая выше интерпретация значений её параметров m и п даёт новые групповые характеристики участников педагогического тестирования.
Аналитическое решение задач IRT
Введение функции распределения и математический закон альтернативной модели педагогических измерений дают возможность записать формулы для расчёта доли правильных ответов группой испытуемых с распределением ^^п) на тестовое задание уровня трудности
В} — р1 = к\ит-1+В (1 - и)"•-1 ¿и,
0
и для расчёта доли правильных ответов испытуемым с уровнем подготовленности 0г на распределённый с параметрами (ть;пх) набор тестовых заданий —
11
1 т„ -1+----,
р. = к\ V 0 (1 - V)п-1 ¿V.
0
Если удаётся непосредственно вычислить приведённые определённые интегралы, то задача педагогических измерений принимает аналитический вид. Итерационный алгоритм решения такой задачи можно представить следующим образом:
1 шаг. По наблюдаемым долям правильных ответов г-м испытуемым рг и долям неправильных ответов на ]-е задание теста qj определяем исходные значения относительных показателей и.
2 шаг. Рассчитываем исходные значения вероятностных
р.
показателей 0,=-
ти =^2(и(1 - и ) -
1 - и (щ (1 - щ ) - 5„2)
и
и тТ), ^ для функции р(v) распределения тестовых заданий
тV = -¿-(й (1 - V) - 52), 1 - v (V (1 - V) - 52).
52
5 шаг. Уточняем параметры т, п. Для этого можно использовать графические иллюстрации и/или аналитические методы оптимизации, но удобными для дальнейших аналитических расчётов являются такие комбинации параметров, при которых параметр п является натуральным числом (1, 2, ...).
6 шаг. Записываем в явном виде уточнённые выражения для средней вероятности:
Р(0) =
т (т+1)...
1 - Рг
В = qj
В=^ ■
3 шаг. По эмпирическим распределениям показателей щ и Vj определяем соответствующие выборочные средние значения и дисперсии и, БЩ , V. Б2.
4 шаг. Рассчитываем отдельно параметры ти, пи для функции р(и) распределения испытуемых
— + тг, |[ — + тг, +1 |...
0 г А0 г
...(тг + пг -1)
( 1 , ...I —+ т + п -1
и
V V
Р(В) =
ти (ти + 1)...
(В + ти )(В + ти +1)...
...(ти + пи - 1)
...(В + тщ + пщ - 1)
Следует отметить, что в эти выражения для средней вероятности правильного ответа испы-
измерения
туемых входят параметры распределения тестовых заданий, а в выражения для тестовых заданий — параметры распределения испытуемых.
7 шаг. Из последних уравнений выражаем и вычисляем по наблюдаемым долям уточнённые относительные показатели уровня подготовленности испытуемых 0г и уровня трудности тестовых заданий В.
Если на шаге 5 удаётся подобрать функции распределения с параметром п = 1 или п = 2, то задача вычисления уточнённых оценок на шаге 6 сводится к элементарным расчётам. Для других натуральных значений п процесс вычисления искомых оценок сводится к численному решению достаточно простого алгебраического уравнения с единственным корнем.
Возможность аналитической обработки тестовых результатов позволяет получить и выражения для оценки погрешности наблюдаемых долей правильного ответа. Для дихотомического теста случайная величина «балл за правильный ответ на задание» распределена по закону Бернулли с дисперсией р-(1 - р). Используя этот результат, несложно получить расчётные формулы для дисперсии средней вероятности правильного ответа испытуемым на М заданий теста
Ц(0) =
Р(0) - Р|0
дисперсии средней вероятности правильного ответа N испытуемых на тестовое задание Ц(В) = [Р (В) - Р (2В)]/ N.
В частности, при ответе на задание уровня трудности В группой равномерно распределённых испытуемых р(u> = 1 имеем выражения для средней вероятности правильного ответа
1
и для дисперсии
Р = -
(1 + В) Ц(В) =
В
(1 + В)(1 + 2 В) N
Р(1 - Р) "(2 - Р ^'
Максимальное значение дис-
(л/2 -1)2
персии равно Цтах = -
N
0,17
, которое относится к те-
стовому заданию с уровнем 1
трудности В = —= ~ 0,71, со сред-\2
ней вероятностью правильного ответа на это задание Р = 2 -у[2 ~ 0,59. Эти расчёты можно использовать для оценки верхней границы ошибки наблюдаемой доли правильного
ответа на задание АР <
0,41
/ М и для
у/ы'
Аналогичные оценки справедливы и для доли правильных ответов испытуемым на тестовые задания.
Оценки погрешности позволяют сформулировать требо-
вания по количеству участников теста. Например, если предполагается выделить среди испытуемых 5 групп, различимых по уровню подготовленности на основании доли правильных ответов, то погрешность таких измерений должна удовлетворять условию АР < 0,1. Отсюда рекомендуемое число равномерно распределённых по уровню трудности тестовых заданий не менее 16.
Аналитический анализ результатов педагогического теста
Отличительной особенностью альтернативного подхода к решению основной задачи МТИ является возможность её аналитического решения. Для проверки этих идей на практике нами разработаны и проведены серии тестовых испытаний с условным названием «Устный счёт», а затем по представленной выше методике обработаны результаты тестирования.
Общая характеристика теста. Вариативный тест содержит 10 заданий6 возрастающей трудности. Задания проверяют умения быстро и правильно выполнять арифметические действия с целыми числами в уме. Действия в каждом из четырёх вариантов задаются детермини-рованно, вариант и числа, с ко-
торыми производятся действия, задаются случайным образом. Для наглядности можно привести возможный вариант последовательности тестовых заданий: 6 + 8= ;7-4-5 = ;28:4 + 9- 6 = ; и т.д. Последнее, десятое, задание проверяет умение выполнить в уме десять арифметических действий. Задания предлагаются на персональном компьютере, в автоматизированном режиме фиксируется вариант, результат и время выполнения каждого из них.
Относительная простота содержания экспериментального теста имеет ряд преимуществ. Во-первых, при этом не возникает проблема валидности измерений. Во-вторых, достаточно очевидна и контролируема независимая от применяемого метода мера трудности тестовых заданий, например, по числу арифметических действий в нём, что соответствует порядковому номеру заданий. И, наконец, с таким тестом можно достаточно быстро набрать большой массив тестовых результатов для последующей их обработки.
Испытуемые. Тестовые испытания проводились среди студентов колледжа в форме студенческой олимпиады. Сорок участников провели более чем 700 сеансов тестовых испытаний, после отбрасывания незавершённых сеансов испытаний осталось 616 строк по 10 элементов 1/д в каждой. Неко-
Педагогический тест обычно содержит 30 ± 10 заданий. Здесь используется схема экспериментального тестирования с меньшим числом заданий.
Hn
измерения
торые участники проводили десятки сеансов тестирования.
Приведём результаты анализа для трёх групп данных. В «смешанную» группу I мы включили результаты испытуемых, каждый из которых тестировался менее 12 раз. Таких испытуемых оказалось 29, общее число проведённых ими сеансов тестовых испытаний 194.
В группу II мы включили результаты тестирования «сильного» испытуемого А.Г., который не только показал самый высокий средний балл, но и провел 105 сеансов тестирования.
В группу III включили данные относительно «слабого» испытуемого У.А., который провёл 24 сеанса тестирования.
Анализ результатов тестирования проводился по алгоритму, приведённому выше. Цель анализа — отдельно для каждой из выделенных трёх групп оценить показатели уровня трудности тестовых заданий.
По наблюдаемым долям правильных ответов г-м испытуемым pi и долям неправильных ответов на j-е задание теста qj определяем исходные значе-
ния относительных B . = ——
исх. j Ä
j 1 - q
j
и вероятностных показателей Vj = 0,5 j. Результаты расчётов представлены в табл. 5. В первой строке каждой группы —
доли неправильных ответов; во второй строке — относительные показатели; в третьей строке — вероятностные показатели (рис. 5).
Для испытуемых, по наблюдаемым долям правильных ответов последовательно рассчитываем исходные относительные и вероятностные показатели уровня подготовленности и, по полученным рядам и для каждой группы рассчитываем выборочные средние значения и дисперсии. И, наконец, рассчитываем и уточняем (упрощаем для аналитических расчётов) параметры ти, пи функций распределения исходных показателей по группам. Результаты этих процедур представлены в табл. 6.
Следует отметить, что полученные распределения исходных значений показателя подготовленности испытуемых для всех групп далеки от линейных. В этом случае стандартные процедуры шкалирования исходных тестовых баллов могут дать заметные искажения. В аналитическом методе распределение исходных баллов испытуемых непосредственно учитывается в расчётных формулах.
С учётом исходных распределений для испытуемых корректируем формулы для расчёта относительных показателей трудности тестовых заданий по исходным показателям:
I группа — 3
P =-
В + 3
B = 3 • B ;
кор. j исх. j '
Таблица 5
Исходные значения показателя трудности тестовых заданий
Номер задания 1 2 3 4 5 6 7 8 9 10
I группа Ч 0,06 0,11 0,18 0,19 0,23 0,31 0,35 0,36 0,40 0,46
В исх. 0,07 0,13 0,22 0,24 0,30 0,45 0,54 0,56 0,66 0,85
V исх. 0,96 0,92 0,86 0,85 0,81 0,73 0,69 0,68 0,63 0,56
II группа Ч 0,08 0,10 0,10 0,10 0,17 0,21 0,28 0,29 0,29 0,35
В исх. 0,08 0,11 0,11 0,12 0,21 0,27 0,38 0,40 0,40 0,544
V исх. 0,94 0,93 0,93 0,92 0,87 0,83 0,77 0,76 0,76 0,69
III группа Ч 0,13 0,25 0,33 0,46 0,58 0,63 0,75 0,83 0,88 0,92
В исх. 0,14 0,33 0,50 0,85 1,40 1,67 3,00 5,00 7,00 11,00
V исх. 0,91 0,79 0,71 0,56 0,38 0,31 0,13 0,03 0,008 0,0005
Рис. 5. Исходные значения показателя v
Р =
II группа — 4 9
В = 49 • В ;
В + 4 9 коР'' ' исх'.'
10,56 11,56
= 1,7 • (,/1 + Вих, -1).
Р =
III группа — 1,2 • 2,2
(В +1,2) •( В + 2,2)
■ В
Получили таблицу корректированных оценок (табл. 7) и соответствующую геометрическую иллюстрацию (рис. 6).
измерения
Таблица 6
Распределения исходных значений вероятностного показателя подготовленности испытуемых
Характеристики распределения Среднее значение Дисперсия Рассчитанные Уточнённые
т п т п
I группа 0,75 0,043 2,47 0,81 3,0 1
II группа 0,83 0,022 4,40 0,90 4,9 1
III группа 0,38 0,064 1,00 1,65 1,2 2
Штруппа
Рис. 6. Корректированные значения показателя V
Можно провести уточняющую корректировку искомых оценок. Для этого достаточно пересчитать (корректировать) исходные показатели подготовленности испытуемых по корректированным значениям показателя трудности тестовых заданий, определить функции распределения этих показателей, и уже по более точному распределению провести более уточняющую корректировку
показателей трудности тестовых заданий. Однако наш опыт обработки результатов аналитическими методами показывает, что уже первая корректировка даёт оценки в пределах погрешности измерений и вторая корректировка может оказаться излишней.
В нашем эксперименте вторая корректировка привела к незначительным изменениям в показателях трудности тестово-
Таблица 7
Корректированные значения показателя трудности тестовых заданий
Номер задания 1 2 3 4 5 6 7 8 9 10
I группа В кор. 0,20 0,38 0,66 0,71 0,90 1,35 1,62 1,69 1,97 2,54
V кор. 0,87 0,77 0,63 0,61 0,54 0,39 0,33 0,31 0,25 0,17
В кор. 0,40 0,52 0,52 0,57 1,01 1,30 1,87 1,96 1,96 2,67
II группа V кор. 0,756 0,699 0,699 0,672 0,495 0,406 0,274 0,257 0,257 0,158
V кор2. 0,751 0,694 0,694 0,667 0,488 0,399 0,266 0,250 0,250 0,152
III группа В кор. 0,11 0,24 0,35 0,56 0,87 1,00 1,59 2,31 2,92 3,95
V кор. 0,93 0,85 0,78 0,68 0,55 0,50 0,33 0,20 0,13 0,06
го задания только для группы II. Её влияние отражено в дополнительной строке табл. 7. Для других групп эти изменения ещё менее значимы.
Любые измерения желательно дополнить оценкой погрешности результатов. Для групп I и II (для этих групп п = 1) дисперсия средней вероятности неправильного ответа Я на тестовое задание определя-
ется по формуле Б =
6(1 - Я) (1 + Я) N ■
Для группы III расчётная формула для дисперсии не приводится. Для п > 1 она несколько усложняется, но её можно получить из общей формулы для дисперсии, приведённой выше.
Если эти формулы применить для вычисления среднеквадратичного отклонения наблюдаемой доли неправильного ответа и пересчитать эти отклонения для измеряемых значений показателя трудности тестовых заданий, то получим следующие интервалы (табл. 8).
Таблица 8
Интервальные оценки значений показателя трудности тестовых заданий
Номер задания 1 2 3 4 5 6 7 8 9 10
I группа V 0,84 0,72 0,58 0,56 0,49 0,34 0,28 0,26 0,21 0,14
0,91 0,81 0,68 0,66 0,59 0,44 0,37 0,36 0,30 0,21
II группа V 0,68 0,62 0,62 0,59 0,41 0,32 0,20 0,19 0,19 0,11
0,83 0,78 0,78 0,75 0,58 0,48 0,34 0,32 0,32 0,21
III группа V 0,89 0,78 0,71 0,59 0,44 0,39 0,21 0,09 0,04 0,01
0,97 0,90 0,85 0,76 0,64 0,60 0,44 0,30 0,23 0,14
измерения
Графически эти результаты отличается от рис. 6 изображением представлены на рис. 6а, который планок погрешности измерений.
Рис. 6а. Корректированные значения показателя V с погрешностью
измерений
Достаточно хорошее совпадение результатов измерения по трём независимым исследуемым группам позволяет говорить о надёжности и объективности самой процедуры их измерения.
Заключение. Аналитический метод решения основной задачи IRT можно рассматривать как альтернативный подход к обработке результатов пе-
дагогического тестирования, который даёт возможность:
• получать независимые от классического метода оценки, что усиливает надёжность педа-готических измерений;
• давать дополнительные интерпретации измеряемым показателям;
• получать дополнительные характеристики распределений участников теста.