r"n
измерения
МОДЕЛЬ СИСТЕМЫ КОМПЬЮТЕРИЗИРОВАННОГО АДАПТИВНОГО ТЕСТИРОВАНИЯ
Печенежский Н.А., Маслов А.А.
Харьковский национальный университет радиоэлектроники,
Харьков, Украина
The majority of present day testing systems are static by their nature in a sense of test battery structure, and therefore the provided tests are not personalized to an examinee. In this paper Item Response Theory based model for computerized adaptive testing is considered, and its advantages and limitations are discussed. Then we present an idea of integration of IRT based model with the methodology of expert system design.
Постановка проблемы
Образование в целом, как и высшее образование, — это саморазвивающаяся система, имеющая внутренние механизмы непрерывного развития. Одним из самых важных механизмов такого развития является деятельность по педагогическому контролю качества образования.
Тестовый контроль — один из перспективных методов объективной оценки знаний и способностей учащихся. Однако необходимо признать, что тестирование всё ещё не играет значительной роли в совершенствовании системы образования. Хотя его потенциальные возможности осознаны, а прогресс в вычислительной технике и телекоммуникациях за прошедшие 10 лет дал качественно новые технические возможности для его применения в учебном процессе.
Исследователи выделили целый ряд как организационных, так и технических причин тому, что на сегодняшний день тестирование не оправдывает в полной мере надежды, связываемые с автоматизированным обучением и контролем знаний.
В данной работе мы фокусируемся на проблеме статичности большинства существующих систем компьютеризированного тес-
тирования. В этом контексте под статичностью подразумевается жёсткая фиксированная структура тестовых вопросов или заданий в батарее, предлагаемой испытуемому.
Главный недостаток таких систем заключается в том, что ни информация о текущем уровне знаний экзаменуемого, ни получаемые в ходе тестирования ответы не учитываются для определения следующего «наилучшего» вопроса, который бы был оптимальным по трудности и наиболее информативен, а весь тест — наиболее дифференцирующим испытуемых. Ниже приведены определения информативности конкретного вопроса, дифференцирующей способности теста, а также другие концепции, связанные с вопросами адаптивного тестирования.
Основы адаптивного тестирования
Адаптивное тестирование — разновидность тестирования, при котором порядок предъявления заданий (или, как правило, трудность заданий) зависит от ответов испытуемого на предыдущие задания.
Дифференцирующая (или различающая) способность теста в целом или отдельного тестового задания указывает на их способность разделять отдель-
ных испытуемых по уровню выполнения. Если все испытуемые дают на тестовое задание один и тот же ответ, то это означает, что данное задание не обладает этой способностью. Функциональным синонимом дифференцирующей способности является информативность — разнообразие ответов испытуемых на данное тестовое задание: если почти все испытуемые дают одинаковый ответ, задание считается малоинформативным, то есть недиагностичным, не различающим испытуемых между собой.
Системы адаптивного тестирования, базирующиеся на статистических моделях, используют ранжирование заданий по ряду критериев, основным из которых является трудность тестовых заданий — параметр, под величиной которого обычно понимается монотонно убывающая функция от процента испытуемых, давших правильных ответ на данный вопрос: чем меньше испытуемых справились с заданием, тем выше уровень его трудности.
Слишком лёгкие и слишком трудные задания автоматически оказываются малоинформативными. Поэтому для большинства тестов оптимальными (соответствующие уровню трудности тестовых заданий, при котором правильный ответ даёт примерно половина из той популяции испытуемых, на которой должен быть использован тест)
О
r"n
измерения
-e-
считаются пункты среднего уровня трудности.
Трудность задания оценивают экспериментально — определение процента испытуемых, способных дать правильный ответ на задания, в ходе предварительных (пилотажных) экспериментов.
Для классических систем тестирования характерны два критерия качества — надёжность и валидность. Для адаптивного тестирования необходим новый критерий — эффективность, которую можно определить как дифференцированную точность измерения испытуемых различного уровня подготовленности.
Если сравнить понятие «эффективность» с понятиями «надёжность» и «валидность», то самое существенное отличие нового понятия от двух традиционных заключается в переходе от усреднённого показателя к дифференцированному.
Эффективный тест предполагает отход от усреднения и от фиксированного для всех испытуемых числа заданий. Число выбираемых заданий меняется в процессе тестирования, в зависимости от ответа каждого испытуемого. Таким образом, эффективное тестирование обеспечивается за счёт индивидуализированного измерения знаний каждого испытуемого с помощью оптимального по трудности и ми-
нимального по количеству набора заданий.
Модели Item Response Theory (IRT)
IRT — статистически обоснованная модель, в которой испытуемые могут быть описаны с математической точки зрения набором числовых характеристик, которые можно рассчитывать и прогнозировать, опираясь на математические модели, связывающие сложность заданий со способностями экзаменуемого. Наиболее широко распространена IRT-модель, определяемая тремя параметрами.
Согласно данной модели вероятность правильного ответа на заданный вопрос есть функция от действительного уровня способности (знаний) в и трёх параметров, характеризующих задаваемый г-й вопрос, а именно: a — дифференцирующий параметр bj — параметр, определяющий сложность задания Cj — параметр, определяющий, насколько легко угадать правильный ответ, в действительности не зная его.
Каждое задание имеет свой набор значений данных параметров, которые обычно задаются на основе результатов пробной проверки заданий.
Итак, модель формулирует вероятность правильного отве-
та экзаменуемого на задание г как функцию, зависящую от действительного уровня способности в и трёх параметров, и имеющую следующий вид:
р (е)= с+-I-с— .
4 ' 1 + ехр(-а(е- Ь))
Логика компьютерного адаптивного тестирования, базирующегося на ШТ-модели, может быть описана как итеративный процесс, состоящий из следующих шагов:
1. Все вопросы, которые ещё не задавались, анализируются, и определяется наиболее информативный из них, для чего рассчитывается информативность для каждого вопроса по следующей формуле:
Р Те)2
где
1г (е)=
р '(е)=
рг (е)(1 - рг (е))'
= (1 - С)-
а ехр( —а(е — Ь))
значение уровня способности в, при этом учитываются все предыдущие ответы экзаменуемого.
Предполагается, что тестирование начинается при инициализированном априорно известном и. Далее, рассчитав все Ц, на которые уже был дан ответ, пересчитывается значение уровня способности по формуле:
е 5+1 е 5 + 11г (е.+1)'
где (е) = (ыг - Рг)-
Р'
'(1 + ехр(-а(е- Ь)))2'
Экспериментально было доказано, что данная формула может быть упрощена и представлена как:
2,89аг2(1 - с-)
1г (е) =
2. «Лучший», т.е. наиболее информативный вопрос для конкретного экзаменуемого, предлагается для ответа.
3. После ответа на вопрос пересчитывается и обновляется
Р (1 - Р )
4. Шаги 1-3 повторяются до момента срабатывания одного из правил останова. Одним из таких правил может служить сравнение значения стандартной ошибки с заранее установленным порогом.
Основным преимуществом компьютеризированных адаптивных тестов, построенных на ШТ-модели, является значительно меньшее количество времени, необходимое, чтобы определить настоящий уровень экзаменуемого с точностью, сравнимой со значением, получаемым при тра-
(сг + ехр(1,7аг (е - Ьг )))(1 + ехр( -1,7 аг( е - Ьг)))2 дицион-
ном тестировании, когда испытуемый должен ответить на все вопросы. За счёт этого также уменьшается усталость экзаменуемого, что также является важным человеческим фактором, кото-
О
Нп
измерения
рый непосредственно влияет на результаты тестирования. При этом характерно обеспечение точности уровня знаний для широкого круга экзаменуемых, в то время как традиционные тестирования обычно наиболее точны для экзаменующихся со средними способностями.
К наиболее серьёзному недостатку данного подхода следует отнести ограниченность применения рассмотренной методики для многих областей. Особенно принимая во внимание тот факт, что данная модель может иметь дело с анализом правильности-неправильности ответа либо степенью его правильности, однако не способна проанализировать качественные ответы, в том смысле, что бывает интересен вариант ответа, а не его «правильность».
Интеграция методологии проектирования экспертных систем и IRT модели
С целью преодоления вышеуказанного недостатка Ш^моде-ли, а именно перехода от анализа правильности-неправильности либо уровня правильности предыдущих ответов для принятия решения о наилучшей информативности следующего задания к качественному анализу ответов, оставляя при этом
возможность количественного анализа, нами предлагается использование методологии построения экспертных систем продукционного типа и её интегрирование с IRT-моделью. Под экспертной системой (ЭС) подразумевается вычислительная система, в которую включены знания специалистов о некоторой проблемной области и которая в пределах этой области способна принимать экспертные решения.
Ключевой идеей является предоставление возможности тестологу легко создать адаптивный сценарий тестовых заданий. Для этого можно использовать интуитивный графический пользовательский интерфейс, позволяющий накладывать набор правил типа «ЕСЛИ-ТО» на исходную Ш^модель для определения «лучшего» следующего вопроса. При этом задаваемые правила будут иметь абсолютный приоритет над IRT-моделью. Также возможно задание дополнительных правил останова теста.
Следует отметить, что процесс интеграции потенциально возможен как на макроиспользование ЭС для определения более узкой предметной области, в которой необходимо проводить тестирование, так и на микроуровнях (гибкое переключение между критерием информативности Ш^модели и
продукционными правилами ЭС для определения «лучшего» следующего вопроса).
Предлагаемая технология может дать начало новой организации как тестового контроля знаний, так и учебного про-
цесса в целом, на более высоком научном уровне, а в условиях массового образования — предоставить возможность эффективной практической реализации принципа индивидуализации обучения.