Educational Technology & Society 10(1) 2007
ISSN 1436-4522
Нечисловой подход к моделям тестирования и оцениванию параметров тестов
Д. А. Кинцель, А.В. Кузнецов кафедра прикладных информационных технологий Саратовский государственный технический университет, Саратов, Россия. kuznecov@aptechsar. com
АННОТАЦИЯ
Рассмотрены вопросы оценки уровня сложности заданий с использованием методов нечисловой статистики. Предложена нечисловая модель тестирования знаний на основе классической модели с учетом уровня сложности заданий. Рассмотрены вопросы анализа дискриминативности тестовых заданий по результатам пробного тестирования.
Введение
Современное образование практически невозможно себе представить без использования тех или иных форм тестирования. Тесты широко применяются в дистанционном образовании, а также на различных этапах очного и заочного обучения.
В настоящее время существует два основных подхода к вопросам тестирования: CTT - Classical Test Theory (классическая или традиционная система тестирования) и IRT - Item Response Theory, или Rasch Measurement (измерения на основе модели Раша) [1]. Первый из них считается устаревшим, но, тем не менее, широко применяется во многих тестовых системах, второй - активно используется в новейших разработках, но требует для получения достоверных результатов накопления и обработки больших объемов статистической информации. И в том и в другом подходе, как правило, используются модели тестирования с учетом уровня сложности заданий.
Понятие уровня сложности задания неотделимо от конкретного испытуемого. Сложность задания зависит от качества преподавания, степени подготовленности испытуемого, наличия у него навыков выполнения заданий, сходных по типу с рассматриваемым, а также ряда других факторов. Все эти факторы, равно как и сам уровень сложности задания, не могут быть выражены количественно. Речь может идти только о примерной, качественной оценке.
На данный момент практически не представляется возможным построение модели, которая позволяла бы учитывать все перечисленные факторы и определять точный уровень сложности задания для каждого конкретного испытуемого, поэтому на практике применяются приближенные методы. В данной статье рассматривается подход, использующий элементы нечисловой статистики. Для упрощения выкладок используются положения классической теории тестирования. Аналогичные выкладки для IRT будут произведены позднее.
Оценивание уровня сложности тестовых заданий
При проведении экспертизы задается шкала гиперпорядка с N степенями различия, характеризующая уровень сложности задания. Группа экспертов (как правило, в их роли выступают преподаватели, проводящие занятия по дисциплине, по которой проходит тестирование) определяет сложность, ставя в соответствие г-му заданию ранг х{. е [1..Ж ], где у - номер эксперта. В табл. 1 представлена экспертная
оценка уровня сложности для 10 заданий, выраженная в шкале с пятью степенями различия: 1 - легкое задание, 2 - задание с пониженной сложностью, 3 - задание с
нормальной сложностью, 4 - задание с повышенной сложностью, 5 - сложное задание. Так как данные об уровне сложности выражены в порядковой шкале, для получения средней величины используется медиана [2].
Для примера (см. табл.) одно задание (первое) является сложным, два задание (с номерами 8 и 10) имеют повышенную сложность, три (2, 5 и 7) - обычную сложность, еще три (4, 6 и 9) - пониженную сложность и одно задание (3) относится к категории легких.
Таблица 1. Результат экспертиз уровней сложности заданий.
Номер задания
1 2 3 4 5 6 7 8 9 10
эксперт 1 4 3 1 2 3 1 3 4 2 4
2 5 3 1 2 3 3 3 3 2 4
3 5 4 2 2 3 2 3 4 3 5
4 5 2 1 2 2 2 3 4 2 4
5 5 2 1 2 3 2 3 4 2 4
медиана (Р) 5 3 1 2 3 2 3 4 2 4
Так как в роли экспертов обычно выступают преподаватели, экспертиза позволяет оценить уровень сложности задания с точки зрения его составителей.
Для оценки уровня сложности заданий с точки зрения испытуемых проводится анализ результатов тестирования контрольной группы. При этом в качестве меры сложности обычно используют отношение количества испытуемых, неверно ответивших на данное задание к общему числу испытуемых в контрольной группе:
, Ж
Р = —. (1)
N
Большое различие между величинами р и, р’ после перевода последней в порядковую шкалу, может служить признаком некорректности формулировки задания, либо ответов на него.
Нечисловая модель тестирования знаний на основе классической модели с учетом сложности заданий.
При разработке нечисловой модели тестирования с учетом уровня сложности необходимо принимать во внимание тот факт, что уровень сложности одного трудного задания не равен уровню сложности двух, трех, или большего числа легких заданий. Можно говорить лишь о факте различия уровней сложности, но никак не о величине этого различия.
Введем обозначения:
X - база заданий, совокупность всех заданий теста;
ЩХ) - количество заданий в базе X;
х{ - элемент множества X (/ е [1..Ж(X)]), отдельное заданий;
X’ - множество заданий, предъявляемых испытуемому в ходе тестирования;
N(X') - количество предъявленных испытуемому заданий; х' - элемент множестваX’ (/ е [1..Ж(X')]);
£ - упорядоченное по возрастанию множество уровней сложности заданий;
N(8) - количество уровней сложности;
- уровень сложности, элемент множества 8 (/ е [1..N(8)]);
Б(х) - сложность задания х1;
X и X’ - подмножества множеств X и X’, состоящие из элементов
уровня сложности і'і.
• у1 - результат выполнения испытуемым задания х { ;
• У - результат выполнения испытуемым теста;
Для перечисленных сущностей должны выполняться следующие требования:
X ' с X, (2)
откуда следует, что
V 3 (х; = х}), (3)
1е[1.М(X')] (X)] 1 1
и
N(X') < N(X). (4)
Кроме того, представляется достаточно очевидным требование
V (1 * 1 ^ хг * х ), (5)
то есть, требование отсутствия в множестве заданий, предъявляемых испытуемому в ходе тестирования, одинаковых заданий. Данное требование, при всей его очевидности, далеко не всегда реализуется в тестовых системах.
Для корректного учета уровня сложности заданий также необходимо, чтобы выполнялись условия:
V 3 (8 (х.) = 5.), (6)
ге[1.^ ( X')] 1е[1.. N ( 8 )] 1 1
N ( 8 )
и X,, = X, (7)
1=1 N ( 8 )
и x;J=X ■, (8)
1=1
причем
V (г * 1 ^ Xsп X, =0) (9)
i,]е[1..N(S)Г J ; 51
и
V (г * 1 ^ X; п X; =0). (10)
1,М1.^(8)Г ;. ;. '
При выполнении этих условий оценка результатов тестирования может проводиться следующим образом:
1. Для каждого уровня сложности 81 задается пара натуральных чисел (N., Р1), отвечающих за число заданий данного уровня сложности и
порог выполнения уровня, так, что:
N (8)
X Nl = N (X ;)
1 = 1
V (Ni > 0)
ге[1.. N (8)] 1 ,
V (N1 > Р)
;е[1.^ (8)]
V (; > ^ ^ N(XSi) > N(X ))
;1 ,;1 1 1
(11)
(12)
(13)
. (14)
Условие (11) налагает достаточно очевидное требование равенства
суммы заданий по каждому из уровней сложности общему числу заданий, предъявляемых испытуемому в ходе тестирования. В соответствии с условием (12), в тесте должны присутствовать задания всех уровней сложности, причем (см. (14)), с ростом уровня сложности число заданий не может увеличиваться. Условие (13) задает ограничение на количество заданий, которые необходимо выполнить верно, для того, чтобы уровень сложности считался пройденным.
2. В ходе тестирования задания предъявляются испытуемому так, чтобы
V (1 > 1 ^ 8 (х;) > 8(х ;)), (15)
1, М1.^ (X ' )Г и 1"’
то есть, в порядке возрастания уровня сложности.
3. После выполнения заданий, относящихся к уровню сложности ;1 ,
подсчитывается количество Д правильных выполнений заданий данного уровня сложности.
4. Если
Д > Р , (16)
то уровень сложности считается пройденным, и испытуемому предъявляются задания более сложного уровня. Если условие (16) не выполняется, то тестирование прекращается, а результатом У теста будет считаться последний уровень сложности заданий, пройденный испытуемым, то есть:
У = ;_,. (17)
Построенная модель позволяет более эффективно оценивать уровень подготовки испытуемых. Сравнительный анализ показал, что результаты, полученные с помощью данной модели примерно на 15% ближе к результатам независимой экспертной оценки, чем результаты, полученные с помощью классической модели с учетом уровня сложности заданий.
Выбраковка недискриминативных заданий
Для выбраковки недискриминативных заданий из базы X можно использовать два принципиально различных подхода. Первый из них подразумевает предварительную экспертную оценку уровня сложности заданий с последующей проверкой полученных результатов. Второй предполагает, что классификация заданий по уровню сложности производится по результатам предварительного тестирования. Каждому из этих методов соответствуют свои алгоритмы исключения некорректных заданий.
Метод экспертной оценки
Проведем экспертизу, на основании Проведем серию тестов Т так, чтобы
N (Т )
которой зададим величины 8(х1).
(18)
где N(T) -выполнялось условие:
число тестов. Для минимизации N(Т) необходимо, чтобы
V (і Ф ] ^ X о X' *0).
(19)
і, М1.^ (Т)]'
знаний контрольной группы испытуемых, используя
Проведем проверку сформированные наборы тестовых заданий.
Для каждой из групп заданий определим медианную кривую М, определяемую как набор медиан значений числа испытуемых четырех основных подгрупп («отличников», «хорошистов», «троечников» и «двоечников»), правильно
ответивших на тестовые задания. На основании полученных кривых (см. рис. 1) можно делать вывод о корректности экспертной оценки.
і=1
Рис 1. Медианные кривые для различных уровней сложности.
Экспертная оценка признается корректной, если:
1. для любой пары (М., М) медианных графиков, для которых Si > Sj выполняется условие
М1к ^Щк, (20)
где ■,е [1..S], к е [1.К ], К - количество подгрупп по уровням
знаний в контрольной группе;
2. для каждой пары медианных кривых расстояние между ними, измеряемое при помощи коэффициента взаимной конкордации [3], рассчитываемого по формуле
с = 1
к=1
К -м А
К (Мк -1)
(21)
не превосходит порогового значения. В отдельных случаях возможно применение более жесткого правила:
V
ке[1..К ]
Мк - м к
Мк -1
< сп
л
у
(22)
Если экспертная оценка корректна, проводится выбраковка заданий. Для этого при заданном уровне значимости отбрасываются задания, для которых расстояние С выходит за границы доверительного интервала.
Метод непосредственной классификации
Пусть на основании результатов предварительного тестирования получена медианная кривая М. Зададим шаг разделения ё и построим множество кривых М' так, чтобы
М■ + п * ё, еслиМ1 + п * ё е [0..1]
М’ = <0, еслиMi + п * ё < 0 , (23)
1, если М. + п * ё > 1
где
п = 0+1+2,...+
(24)
Каждый элемент множества М' соответствует одному из уровней сложности заданий теста.
После получения множества М’ задания теста проверяются на принадлежность различным уровням сложности, для чего по формулам (23), или (24) определяют коэффициент конкордации между кривой ответов на задание и очередным элементом множества М’. При этом значение Оюр полагается равным й/2. Задания, кривые ответов которых не попадают ни в одно из перечисленных множеств, считаются некорректными.
номер группы
Рис 2. Множество медианных кривых M’.
Заключение
Рассмотрены вопросы оценки уровня сложности заданий с использованием методов нечисловой статистики. Предложена нечисловая модель тестирования знаний на основе классической модели с учетом уровня сложности заданий. Показано, что данная модель дает лучшие результаты, чем аналогичная классическая модель. Рассмотрены вопросы анализа дискриминативности тестовых заданий по результатам пробного тестирования.
ЛИТЕРАТУРА
[Челышкова М.Б., 2002] Челышкова М.Б. Теория и практика конструирования педагогических тестов. / Челышкова М.Б.// М.: Логос, 2002 - 432с. ISBN: 5-94010143-7
[Орлов А.И., 2004] Орлов А.И. Нечисловая статистика. /А.И. Орлов //М.:МЗ-Пресс, 2004г., 513с.
[Кузнецов А.В., 2005] Кузнецов А.В. Модифицированный коэффициент корреляции и его использование в нечисловой статистике / А.В. Кузнецов // Materials of final international scientifically-practical conference "The science: theory & practice". Vol. 12. Matematician. Publishing house "Education & Science", Prague, 2005 год. стр 13-15. ISBN 966-7191-99-0, 5-98674-003-3