ПРОБЛЕМЫ ВЫСШЕЙ ШКОЛЫ
УДК 519.85:004.421
ПРОБЛЕМА ОЦЕНКИ ТРУДНОСТИ ТЕСТОВЫХ ЗАДАНИЙ
© 2012 г. А.П. Попов
Южный федеральный университет, г. Ростов-на-Дону
Southern Federal University Rostov-on-Don
Обсуждаются возможные подходы к проблеме определения трудности тестовых заданий. Описываются методы и процедуры оценки трудности тестовых заданий по данным компьютерного тестирования, используемые в различных моделях тестирования.
Ключевые слова: трудность тестовых заданий; новый подход к решению проблемы.
The possible approaches to problem of test tasks hardness determination are discussed. The methods and procedures of estimation of test task hardness on the computer testing data, used in different testing model, are described.
Keywords: hardness of test tasks; new approach to the problem solving.
В последнее время компьютерное тестирование вне зависимости от конкретной формы обучения рассматривается как эффективное средство объективного определения рейтинга учащихся и оценки качества образовательного процесса в целом.
Основой определения рейтинга учащихся, как правило, служит суммарная трудность верно решенных тестовых заданий. В связи с этим возникает проблема корректной оценки трудности тестовых заданий. Существуют различные, часто противоречащие друг другу, подходы к решению этой проблемы. Однако в любом случае, трудность тестовых заданий должна удовлетворять требованию аддитивности, которое означает, что трудность составного задания складывается из трудностей составляющих его частей
В большинстве моделей тестирования трудность тестового задания увязывают с вероятностью его верного решения. Поскольку вероятность решения тестовых заданий сложного задания равна произведению вероятностей решения составляющих его частей p = p1 p2, то имеется, по сути, единственный
способ увязать трудность тестового задания с вероятностью решения, не нарушающий требование аддитивности:
а = ln 1 — 1.
I p J
Однако в теории IRT (Item Response Theory) для трудности тестовых заданий выбирается иное выражение:
а = ln|q
(1)
Идеи IRT реализуются в параметрических моделях тестирования, среди которых наибольшую популярность приобрели модели Раша [1] и Бирнбаума [2]. В модели Раша вероятность решения тестового задания зависит от разности трудно сти задания и уровня подготовленности испытуемого:
p (0, а) =
ex
p (0 -а)
exp (0-а) +1
(2)
В модели Раша трудность заданий и уровень подготовленности испытуемых измеряются в единой шкале логитов и могут принимать любые, в том числе и отрицательные значения.
Исходя из (2), можно получить для трудности тестовых заданий выражение, сходное с общей формулой
а = а1 +а 2
а = in ^q |+е.
Сторонники IRT продолжают пользоваться определением (1) и его модификациями, одновременно предпринимая попытки либо обосновать его, либо усовершенствовать и развить общую теорию [3 - 6].
Излишне говорить, что свойство аддитивности для трудности тестовых заданий в моделях Раша и Бирнбаума также не выполняется. Кроме того, как показано в [7, 8], оценка уровня подготовленности испытуемого в модели Раша зависит от общего числа верно решенных заданий, а в модели Бирнбаума определяется их суммарной дифференцирующей способностью, но никак не связана с их трудностью. Видимо, это заставило организаторов ЕГЭ перейти к классическим статистическим методам обработки данных тестирования, полностью отказавшись от модели Раша
[9].
Чтобы избежать всех неприятностей, связанных с попытками найти способ корректного определения трудности тестовых заданий по данным тестирования, создатели так называемой адаптивной системы тестирования (АСТ) [10] используют метод экспертных оценок трудности тестовых заданий. Несмотря на присущие методу экспертных оценок недостатки (грубость шкалы оценок, сложности с согласованием мнения экспертов), система АСТ показала свою жизнеспособность. Тем не менее, принципиальный вопрос о выполнении требования аддитивности трудности тестовых заданий авторами системы АСТ нигде и никогда не рассматривался и не обсуждался.
Принципиально иной подход к определению трудности тестовых заданий используется в новой модели тестирования, предложенной в работах А.П. Попова [11 - 14]. В этой модели поиск решения тестового задания предполагается однородным во времени стохастическим процессом. Из этого предположения почти однозначно следует, что время поиска решения тестового задания является случайной величиной, подчиняющейся хорошо известному Г-распределению, плотность вероятности которого зависит от времени и содержит два параметра - безразмерный параметр а и параметр X, имеющий размерность обратного времени:
f (а, X,t) = e~xtX . (3)
V ' Г(а)
При фиксированном значении параметра X класс случайных величин, подчиняющихся Г-распреде-лению, замкнут относительно сложения
t1 ~ Г(—1, X), t2 ~ Г(—2, X) ^ t1 +12 ~ Г(—1 +—2, X),
что позволяет интерпретировать а как трудность тестового задания, обладающую к тому же свойством аддитивности. Параметр X ассоциируется при этом с уровнем подготовленности испытуемого и является аналогом быстродействия ЭВМ.
Согласно (3), среднее время поиска решения тестового задания и его среднеквадратичное отклонение равны:
— а
t =—, ст = —.
X X
В отличие от параметрических моделей, новая модель тестирования допускает всестороннюю проверку на адекватность. В частности, возможно непосредственное сравнение эмпирического и теоретического распределения времени решения тестовых заданий.
Ниже приведены результаты тестирования по линейной алгебре, в котором участвовали более 50 студентов факультета МИиФ ПИ ЮФУ. Индивидуальные тесты случайно выбирались из разбитой на тематические блоки базы тестовых заданий и содержали 20 заданий.
На рис. 1 для двух наугад взятых заданий показаны гистограммы эмпирического распределения времени поиска верного решения вместе с графиками теоретической зависимости (3). В подписи к графику указан номер тестового задания, вероятность его верного решения, а также среднее время решения и его среднеквадратичное отклонение.
Процедура обработки данных компьютерного тестирования, подробно описанная в [11 - 15], позволяет получить наиболее правдоподобные оценки трудности тестовых заданий и уровня подготовленности испытуемых. Эти значения использованы при построении теоретической зависимости на рис. 1 (параметр X приравнивался к среднему уровню подготовленности испытуемых, верно решивших данное задание). Для тестовых заданий № 5 и № 12 эти значения равны а = 2,23, X = 0,025 с-1 и а = 3,24, X = 0,022 с-1 соответственно. Заметим, что в данном случае вероятность верного решения более трудного задания № 12 оказывается выше, чем вероятность верного решения более легкого задания № 5.
Для проверки аддитивности трудности тестовых заданий был создан метод виртуального тестирования [16, 17], использующий результаты уже проведенного реального тестирования. Для каждой пары тестовых заданий составляется виртуальное сложное задание: оно считается выполненным, если выполнены оба составляющих его простых задания, а время выполнения получается сложением времени решения простых заданий. Трудность составных заданий оценивается двумя способами: 1) непосредственным суммированием трудности составляющих их простых заданий; 2) путем обработки данных виртуального тестирования.
Для иллюстрации приведем результаты тестирования по методам анализа и обработки данных, в котором приняли участие 75 студентов вечернего отделения Института экономики ЮФУ. Индивидуальные тесты формировались случайной выборкой заданий из разбитой на тематические блоки базы тестовых заданий и содержали 14 заданий.
0,012 0,010 0,008 0,006 0,004 0,002 0
( X
т
V \
1 ч Гт Тт
50 100 150 200 250 300 350 400 450 500 №5 p = 0,48 t = 89,4 c <s = 59,8 c
0,012 0,010 0,008 0,006
0,004
0,002
50 100 150 200 250 300 350 400 450 500 №12 p = 0,56 Г = 153,5 с ст = 82,8 с
б
Рис. 1. Распределение времени поиска верного решения тестовых заданий
Каноническое уравнение регрессии двух оценок трудности составных заданий имеет следующий вид:
* - 3'017 = 0,902 * - 3'168
0,800
0,746
(4)
Регрессионную зависимость (4) можно представить также в форме стандартного линейного уравнения
у = ax + b .
(5)
Стандартными методами были рассчитаны доверительные интервалы для коэффициентов уравнения (5) при уровне надежности 1 -а = 0,95 :
а = 0,968 + 0,090; Ь = -0,051 + 0,240.
Поскольку значения коэффициентов а = 1 и Ь = 0 попадают в данный интервал, гипотезу об аддитивности трудности составных заданий можно считать статистически обоснованной с надежностью не ниже 1 -а = 0,95.
На рис. 2 показана не только сама регрессия двух оценок трудности составных заданий, но указаны также теоретические границы регрессионной зависимости, отвечающие выбранному уровню надежности.
Зависимость у = х лежит в этих границах, что служит дополнительным аргументом в пользу того, что гипотеза аддитивности трудности тестовых заданий статистически обоснована с надежностью не ниже 1-а = 0,95.
6
«
я я
й
«
« 3
о
я
«
a н
1 2 3 4 5
Сумма трудностей простых заданий
Рис. 2. Регрессия двух оценок составных тестовых заданий
Таким образом, на основании вышеизложенного можно сделать однозначный вывод о том, что лишь новая модель тестирования дает внутренне непротиворечивое и согласующееся с интуитивными представлениями определение трудности тестовых заданий. Не менее важно, что при этом из самого определения следует, что в новой модели трудность тестовых заданий обладает свойством аддитивности, выполнение которого подтверждается и эмпирически.
Литература
Lord F.M. Applications of item response theory to practical testing problems. Hillsdale, 1980. 274 p. Wright B.D., Masters G.N. Rating scale analysis: Rasch measurements. Chicago, 1982. 206 p.
Stocking M.L., Lord F.M. Developing a common metric in item response theory // Applied Psychological Measurement. 1983. Vol. 7. P. 201.
Lord F.M., Wingersky M.S. Comparison of IRT true-score and equipercentile observed-score equating // Applied Psychological Measurement. 1983. Vol. 8. P. 453. Harris D. Comparison of 1-, 2- and 3-parameter IRT models // Educational Measurement: Issues and Practice. 1989. Vol. 8(1). P. 35.
Челышкова М.Б. Теория и практика конструирования педагогических тестов: учеб. пособие. М., 2002. 432 с. Попов А.П. Критический анализ параметрических моделей Раша и Бирнбаума // Материалы 4-й НМК ИМСОКО. Москва, 24-26 апреля 2006 г. М., 2006. С. 231 - 235.
8. Попов А.П. Критический анализ параметрических моделей тестирования // Мат. моделирование и информационные технологии: сб. науч. статей / ЮРГТУ (НПИ). Новочеркасск, 2007. С. 197.
2
3
4
5
6
7
5
4
а
2
9. Нейман Ю.М., Хлебников В.А. Как оценивается уровень подготовленности учащихся по результатам ЕГЭ. М., 2003. 169 с.
10. Васильев В.И. Культура компьютерного тестирования. Программно-дидактическое тестовое задание. Ч. 2. М., 2005. 81 с.
11. Попов А.П., Богомолов А.А., Попова Л.А. Новая математическая модель тестирования // Наука и образование. 2005. № 3. С. 221.
12. Попов А.П., Богомолов А.А. Новая математическая модель в теории тестирования // сб. трудов НПК ИТ0-2006. Ростов-на-Дону, 17-19 октября 2006 г. Ростов н/Д., 2006. С. 69 - 70.
13. Попов А.П. Новое направление в компьютерном тестировании // Мат. моделирование и информационные технологии : сб. науч. статей / ЮРГТУ (НПИ). Новочеркасск, 2007. С. 179.
14. Попов А.П. Новое направление в теории тестирования // Изв. ЮФУ. Педагогические науки. 2008. № 1-2. С. 24.
15. Попов А.П., Попова Т.Ю. Адекватность новой модели тестирования. Проверка гипотезы о распределении времени решения тестовых заданий // Материалы НМК СИТО-2009. Ростов-на-Дону, 17-18 апреля 2009 г. Ростов н/Д., 2009. С. 234 - 235.
16. Попов А.П., Акулов С.Ю., Попова Т.Ю. Адекватность новой модели тестирования. Проверка гипотезы об аддитивности трудности тестовых заданий // Материалы НМК СИТ0-2009. Ростов-на-Дону, 17-18 апреля 2009 г. Ростов н/Д., 2009. С. 25 - 27.
17. Попов А.П., Попова Т.Ю., Акулов С.Ю. О принципиально новом направлении в теории тестирования // Грани познания: электронный журнал ВГПУ. 2009. №4(5). URL: // http: www.grani.vspu.ru
Поступила в редакцию 3 ноября 2011 г.
Попов Александр Петрович - канд. физ.-мат. наук, доцент, начальник отдела контроля качества образования, Южный федеральный университет. Тел. (8863) 2507874. E-mail: [email protected]
Popov Alexander Petrovich - Candidate of Physics and Mathematics Science, assistant professor, chief of department of education quality control. Southern Federal University. Ph. (8863) 2507874. E-mail: [email protected]
Наши поправки
В содержании журнала № 3, 2012 г., первая колонка, 23 - 25 строки снизу, следует читать:
Большенко А.В. Определение параметров процесса микроплазменного оксидирования в системе с регулятором тока...................................................................................32
Первая колонка, 16 - 18 строки снизу: Исаков В.С., Балашов В.Б. Перспективные механизмы для резки техногенных отходов.........41
Редакция приносит извинения авторам за технические погрешности, допущенные при компьютерной верстке журнала.