Совершенствование компьютерного контроля знаний на основе теории вероятностей и математической статистики

Деменчёнок Олег Гениевич

...................................................................................................................................................................ЭШШША,.......ШМ1Ш,......ДШОСТШ

Совершенствование компьютерного контроля знаний на основе теории вероятностей и математической статистики

Олег Гениевич Деменчёнок,

заведующий кафедрой математики и информатики Восточно-Сибирского института МВД России

СРЕДСТВАМИ ТЕОРИИ ВЕРОЯТНОСТИ РАССМОТРЕНА ПРОБЛЕМА СЛУЧАЙНОГО УГАДЫВАНИЯ ПРАВИЛЬНЫХ ОТВЕТОВ. ПОКАЗАНА ВОЗМОЖНОСТЬ СНИЖЕНИЯ ВЛИЯНИЯ УГАДЫВАНИЯ ДО ДОПУСТИМОГО УРОВНЯ. ПРОВЕДЁН АНАЛИЗ СЛУЧАЙНОЙ ПОГРЕШНОСТИ РЕЗУЛЬТАТА ТЕСТИРОВАНИЯ. ДЛЯ КОМПЬЮТЕРНОГО ТЕСТИРОВАНИЯ ПРЕДЛОЖЕН АЛГОРИТМ ПЕРЕВОДА ДОЛИ ПРАВИЛЬНЫХ ОТВЕТОВ В ПЕДАГОГИЧЕСКУЮ ОЦЕНКУ. ПОКАЗАНО, ЧТО НАКОПИТЕЛЬНЫЙ СТАТИСТИЧЕСКИЙ АНАЛИЗ РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ МОЖЕТ СЛУЖИТЬ ОСНОВОЙ ДЛЯ АВТОМАТИЗИРОВАННОЙ КОРРЕКЦИИ ЗНАЧЕНИЙ ВЕСОВЫХ КОЭФФИЦИЕНТОВ ТЕСТОВЫХ ЗАДАНИЙ. ПОЛУЧЕННЫЕ РЕЗУЛЬТАТЫ РЕАЛИЗОВАНЫ В ВИДЕ КОМПЬЮТЕРНОЙ ПРОГРАММЫ.

Устраняя субъективизм оценивания, тесты не гарантируют объективной оценки знаний. Среди факторов, снижающих точность педагогических измерений, достаточно значимыми представляются:

• случайное угадывание правильных ответов;

• жёсткость алгоритмов оценивания: несущественное различие результатов выполнения теста может привести к существенно разным оценкам. Например, 59 баллов — «неудовлетворительно», а 60 баллов — «удовлетворительно»;

• необоснованность значений весовых коэффициентов заданий: обычно вес заданий или принимается равным (за каждое задание — одинаковое количество баллов), или назначается разработчиком теста на основе интуиции. При этом значения весовых коэффициентов могут быть далеки от оптимальных.

Ввиду изложенного, представляется актуальным совершенствование компьютерного контроля знаний на основе теории вероятности и математической статистики.

Автором разработана автоматизированная система Assistent, позволяющая создавать тесты и проводить тестирование (сайт программы www.asksystem.narod.ru). Данное исследование направлено на совершенствование этого программного продукта.

Анализ влияния случайного угадывания правильных ответов

Тестирование часто критикуют за возможность случайного угадывания испытуемыми правильных ответов. Ответ засчитывается как верный, независимо от того, был ли он угадан или выбран на основе знаний. Такая практика искажает тестовый балл, снижает точность педагогического измерения.

Действительно, для задания с выбором одного правильного ответа вероятность случайного угадывания обратно пропорциональна числу предложенных вариантов k

Насколько существенно влияние случайного угадывания на результат теста? Для ответа на этот вопрос рассмотрим тест из т заданий с выбором одного правильного ответа. Предположим, что студент на все задания выбирает ответы случайным образом. Тогда по формуле Бернулли1 вероятность угадывания а правильных ответов:

рм)=сатР: (1-ау

(2)

где

С! =■

т\

т(т -1 )...(т -(а-1))

а\{т — а)\ число сочетаний.

а\

Результаты расчётов при т = 10 и р1 = 0,25 (рис. 1) показывают, что с вероятностью 0,056 не будет угадано ни одного ответа, вероятность угадывания 2-3 ответов равна 0,25-0,28. Получить положительную оценку,

о

10

Рис. 1. Вероятность случайного угадывания а правильных ответов в 10 заданиях с выбором одного правильного ответа из 4-х вариантов

10

Рис. 2. Вероятность случайного угадывания а правильных ответов в 10 заданиях с выбором одного правильного ответа для различных значений т

для которой обычно

1 Вентцель Е.С. Теория вероятностей. М.: требуется набрать Высшая ; школа, 2001. 576 с. более половины

правильных ответов, исключительно за счёт угадывания маловероятно — вероятность угадать 6 или более ответов менее 0,02 (2%). Вместе с тем вероятность завышения оценки высока — 0,944; а тестовый балл будет «улучшен» за счёт угадывания на 25%.

Однако в реальных ситуациях студент способен решить часть заданий (обозначим эту часть заданий ш), а ответы на остальные пытается угадать (результаты расчётов приведены на рис. 2.).

Нетрудно заметить: с увеличением ш возрастает вероятность того, что не будет угадано ни одного ответа (т.е. угадывание никак не повлияет на результат тестирования). Однако влияние случайного угадывания остаётся существенным: для ш = 0,2...0,8 вероятность случайного угадывания одного ответа составляет 0,26.0,42, а двух ответов — 0,06.0,31.

Разумеется, на угадывание влияет и количество дистракторов (приводимых в задании неправильных ответов). На рис. 3 представлены результаты расчётов для различных значений к.

Анализ свидетельствует, что увеличение числа дистракторов несколько снижает актуальность проблемы угадывания, но устранить её полностью не в состоянии. Так, для к = 6.8 вероятность угадать не менее одного правильного ответа выше 0,73; не менее двух ответов — 0,36; не менее трёх — 0,11. Дальнейшее увеличение числа дистракто-ров нецелесообразно: кроме увеличения трудоёмкости составления теста, оно приведёт к нарушению известного из эргономики правила, гласящего, что человек может удерживать в кратковременной памяти 7 ± 2 элемента.

Если учесть, что часть заданий студент способен решить, то при к = 8 и ш = 0,2.0,8 получим вероятность случайного угадывания не менее одного ответа 0,23.0,65, а двух и более ответов — 0,02.0,26.

Осталось проверить воздействие на угадывание количества заданий в тесте. На рис. 4 даны графики вероятности случайного угадывания а правильных ответов в 50 заданиях с выбором одного правильного ответа для различных значений к.

а

ЭШРШЛ, ИЭП1Л1Ш, ЖНЕГЖГ

Вероятность не угадать ни одного ответа исчезающе мала — она равна 0,001; для к=4.. .8 вероятность случайного угадывания не менее 5 ответов составляет 0,76.0,99, а 10 и более ответов — 0,09.0,84.

Проведённый анализ показывает, что влияние случайного угадывания правильного ответа уменьшается с увеличением числа дистракторов и доли тестовых заданий, которые студент выполняет, не прибегая к угадыванию. Влияние различается количественно в зависимости от параметров рассматриваемой ситуации, и не проявляется только в одном случае — когда студент самостоятельно решает все задания. Во всех остальных случаях влияние угадывания на результат выполнения теста с заданиями на выбор одного правильного ответа не может быть признано пренебрежимо малым.

Снижение влияния угадывания путём рационального применения различных форм тестовых заданий

ю

Рис. 3. Вероятность случайного угадывания a правильных ответов в 10 заданиях с выбором одного правильного ответа для различных значений k

0,2

0,15

0,1

0,05

P

Устранению проблемы угадывания поможет изменение формы тестовых заданий. В.С. Аванесов рекомендует переходить от заданий с выбором одного правильного ответа к заданиям с выбором нескольких правильных ответов2, которые благодаря своей форме устойчивы к угадыванию правильного ответа.

Рассмотрим формы тестовых заданий с точки зрения снижения вероятности случайного угадывания ответа. Начнём с заданий с выбором одного правильного ответа. Устранить угадывание невозможно в принципе; снизить вероятность угадывания можно только увеличением числа дистракторов. Рекомендуемое число дистракторов — от четырёх до семи. Если дистракторов меньше четырёх, то слишком высока вероятность угадывания; если больше семи, то существенно усложняется анализ вариантов ответа при тестировании, а также повышается трудоёмкость разработки задания. При соблюдении этой рекомендации вероятность угадывания составит 0,125.0,2.

Следующая форма тестовых заданий — задания с выбором нескольких правильных ответов. Пример:

Рис. 4. Вероятность случайного угадывания a правильных ответов в 50 заданиях с выбором одного правильного ответа для различных значений k

1. КАРЛ И КЛАРА УКРАЛИ ДРУГ У ДРУГА

1) крекер

2) кораллы

3) крем-брюле

4) кредитную карту

5) кларнет

В этом случае каждый из элементов выбирается независимо от остальных. Вероятность случайно сделать правильный выбор для любого из элементов равна 0,5, так как нужно угадать, какой из двух возможных вариантов правильный: «выбрано» или «не выбрано». По теореме умножения вероятностей независимых событий вероятность угадывания правильного ответа задания определяется произведением вероятностей угадывания для всех к элементов:

При к = 4 вероятность угадывания равна

0,06, при к = 6 веро- _|_

ятность °,°16, при 1 Аванесов В.С. Применение тестовых к = 10 вероятность форм в Rasch Measurement // Педагоги-менее 0,001. СлуЧай- ческие измерения. 2005. № 4. CJ 3-20.

но полностью правильно угадать ответ при к > 4 нереально, однако иногда учитываются частично правильные ответы, что ослабляет стойкость к угадыванию. В этом случае могут использоваться различные индикаторы меры близости ответа тестируемого и полностью правильного ответа, например коэффициент Джекарда:

S =

d

(4)

где d — количество выбранных тестируемым правильных ответов; b — число правильных ответов в задании; c — количество несовпадений (число невыбранных правильных ответов плюс количество выбранных дистракторов).

К сожалению, практика показала неприемлемость подобных подходов для целей педагогической диагностики. Тестируемый, не зная ответа, выбирает все варианты и гарантированно получает весомую прибавку к тестовому баллу. Так, при k = 6 и двух дистракторах в случае выбора всех вариантов d = b = 4, с = 2:

Более приемлемым представляется предложение В.С. Аванесова при двухбалльной оценке за правильное выполнение задание снимать один балл за одну допущенную ошибку и снимать два балла за вторую допущенную ошибку. Используя формулу Бер-нулли, несложно получить выражение для вероятности угадывания с одной ошибкой

р;=скк-]рк-\1-р)] =

к\

(

1 !(*-!)

к-1

где р = 0,5 — вероятность угадывания при выборе одного из элементов ответа.

Вероятность случайно угадать ответ, допустив не более одной ошибки

(6)

Формулу (5) легко модифицировать для расчёта вероятности угадывания с а ошибками (0 < а < к):

P2a=Ckk-apk-a(l-p)a =

к\

a\(k-a)\\2) \ 2

(7)

Рассмотрим задание на установление правильной последовательности. Студенту предоставляется набор готовых элементов (например, технологических операций). В его задачу входит расстановка этих элементов в правильной последовательности. Задания такой формы результативны в тех предметных областях, где требуется чёткое знание последовательности операций, порядка действий или взаимного расположения объектов. Пример:

Установить правильную последовательность:

2. ЦВЕТА ПОЛОТЕН ФЛАГА РОССИИ, НАЧИНАЯ С НИЖНЕГО

1) белый

2) красный

3)синий

Если все к элементов входят в ответ, то вероятность угадывания обратно пропорциональна числу перестановок:

р3=-=—±—. 3 к\ 1-2 ...(к-1)к

(8)

a\(k-a)\2к

Так, вероятность случайно расставить в правильном порядке три цвета 0,17. С увеличением числа элементов вероятность угадывания быстро снижается. Так, при к = 5 вероятность угадывания равна 0,008.

Ещё одна форма заданий предлагает восстановить соответствия между элементами двух списков. Например:

Установите соответствие:

3. ПИСАТЕЛИ

1) Л.Н. Толстой

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2) А.С. Пушкин

3) М.Ю. Лермонтов

ПРОИЗВЕДЕНИЯ

A) Евгений Онегин

Б) Герой нашего времени

B) Война и мир Г) Дубровский

Д) Анна Каренина

Ответы: 1_2_3_

Так как каждому из элементов одного списка может соответствовать один или несколько элементов другого списка, то вероятность угадывания

Э»таь.......шштт,.......иш-саи-ш

р.; =

(9)

где к1 и к2 — количество элементов первого и второго списка.

Если за одну ошибку снижать балл на половину

р1 _ , 14

а

где р = 0,5 — вероятность угадывания при восстановлении одного из возможных соответствий.

Тогда вероятность случайно угадать ответ, допустив не более одной ошибки

}___.л с к \'к2 _ 5/с, • к2 +1

Вероятность угадывания очень низкая: при к1 = к2 = 3 вероятность безошибочного угадывания 0,002, а с одной ошибкой — 0,011.

Нельзя обойти вниманием и задания открытой формы, где ответ испытуемый дописывает сам. Например:

КУЛИКОВСКАЯ БИТВА СОСТОЯЛАСЬ _ГОДУ.

Вероятность угадывания минимальна, в первом приближении равна нулю. Целесообразно ограничиться заданиями с кратким свободным ответом, на которые тестируемый должен записать ответ словом, словосочетанием или числом. В отличие от заданий открытой формы с развёрнутым ответом, задания с кратким свободным ответом относительно технологичны.

Для неоднородного по числу дистракторов или форме заданий теста средняя вероятность угадывания определяется как средняя арифметическая:

- ЪР Р =—^ N

(11)

где РI _ вероятность угадывания правильного ответа для /-того задания.

Очевидно, что для уменьшения влияния угадывания следует увеличивать количество дистракторов и снижать долю заданий с выбором одного правильного ответа.

В ходе пробных расчётов установлено, что влияние угадывания снижается до допустимого уровня при значениях средней вероятности угадывания меньших 0,1. Результаты расчётов для Р = 0,096 и N = 50 приведены на рис. 5.

0,4

0,05

/ \ ъ>=0,8

\ ъ>=0,2

Рис. 5. Вероятность угадывания а правильных ответов в 50 заданиях при Р = 0,096

Анализ показывает, что в этом случае влияние угадывания, на тестовый балл пренебрежимо мало:

• очень слабому студенту (ш = 0,2) угадывание не поможет. Вероятность угадать 15 и более ответов (и в сумме с честно решёнными 50 • ш = 10 заданиями набрать хотя бы половину правильных ответов) не превышает 10-6;

• слабому студенту (ш = 0,4) угадывание также не поможет. Вероятность угадать 5 и более ответов (и в сумме с решёнными 50 • ш = 20 заданиями набрать половину правильных ответов) равна 0,15. Однако если установить порог для положительной оценки в 60% правильных ответов, то вероятность его преодоления всего 0,003;

• средний студент (ш = 0,6) к честно набранным 30 ответам с вероятностью 0,57 угадает 1-2 ответа, с вероятностью 0,2 — 3-4, с вероятностью 0,036 — более 4 ответов. Это позволит ему улучшить тестовый балл на 3-13%;

• сильный студент (ш = 0,8) мало выиграет за счёт угадывания: с вероятностью 0,39 он угадает 1 ответ, с вероятностью 0,18 — 2, с вероятностью 0,06 — более 3 ответов. Увеличение тестового балла — до 5%.

Число дистракторов и доля заданий каждой формы и могут варьироваться в широких

р

а

3

пределах. Главное — добиться того, чтобы средняя величина вероятности угадывания была менее 0,1. Тогда влияние угадывания на тестовый балл будет сведено до приемлемого уровня.

Полученные теоретические результаты реализованы в рамках системы автоматизированного обучения и контроля знаний Assistent:

Рис. 6. Анализ влияния случайного угадывания

Анализ влияния угадывания

V

Средняя вероятность случайного угадывания правильного ответа равна 0,0858

Очень слабый студент (решает 2 задания из 10) может угадать примерно 0,8*0,0858=0,06864 и в результате набрать 26,864% правильных ответов.

Слабый студент (решает 4 задания из 10) может угадать примерно 0,6*0,0858=0,05148 и в результате набрать 45,148% правильных ответов.

Средний студент (решает 6 заданий из 10) может угадать примерно 0,4*0,0858=0,03432 и в результате набрать 63,432% правильных ответов.

Сильный студент (решает 8 заданий из 10) может угадать примерно 0,2*0,0858=0,01716 и в результате набрать 81,716% правильных ответов.

Влиянием угадывания можно пренебречь

ОК

Рис. 7. Полная информация по влиянию случайного угадывания

• увеличено с 6 до 12 количество вариантов ответа, что позволяет создавать тестовые задания, более защищённые от случайного угадывания правильного ответа;

• в среду разработки тестов добавлена возможность анализа влияния угадывания.

Редактор тестов постоянно рассчитывает среднюю вероятность случайного угадывания (её значение индицируется в строке состояния).

Так, для теста на рис. 6 средняя вероятность угадывания равна 0,0858. Очевидно, что при стремлении этой величины к нулю влияние случайного угадывания на результат тестирования также снижается до нулевой отметки. Поэтому желательно, чтобы эта величина была возможно более низкой. Для получения более полной информации и рекомендаций можно щёлкнуть поле со значением средней вероятности (рис. 7).

Если влияние угадывания более существенно, то программа выдаёт рекомендации по его снижению.

Анализ жёсткости алгоритмов оценивания

Тестовый балл, как правило, не используется непосредственно. Часто он переводится в педагогическую оценку, для чего сравнивается с пороговыми значениями некой общепринятой шкалы оценок: зачтено — не зачтено; неудовлетворительно — удовлетворительно — хорошо — отлично и т.д. При этом некоторые считают, например, что за 75% правильных ответов может быть выставлена оценка «хорошо», а за 74,5% — «удовлетворительно». Т.е. за почти одинаковые результаты выполнения теста могут быть выставлены существенно различающиеся оценки, что представляется недостаточно обоснованным. Именно оценка является информацией об успехе или неуспехе, на основе оценки принимается решение о ходе процесса обучения. По оценке студенты судят об уровне своих знаний, а также об объективности педагога. Известно, что оценка приводит к благоприятному воспитательному эффекту только тогда, когда обучаемый внутренне согласен с ней. Ощущение несправедливости полученной оценки ослабляет мотивацию обучения, может

ЭШШУЗА,.......1ШМ1Ш,......ДШОСТШ

привести к возникновению конфликтных ситуаций. Поэтому повышение обоснованности оценки представляется практически значимой задачей.

Важнейшей причиной неточности педагогической оценки является неоднозначность критериев оценивания. Например, оценка «неудовлетворительно» обычно рекомендуется в случае, если обучаемый не знает значительной части программного материала, допускает существенные ошибки, с большими затруднениями выполняет практические задания. Поскольку каждый из преподавателей имеет своё собственное представление о «значительной части», «существенных ошибках» и «больших затруднениях», то один и тот же ответ разными преподавателями совершенно добросовестно может быть оценен по-разному.

Результат тестового контроля определяется по заранее установленным правилам и независим от личности преподавателя. Устраняя субъективизм процедуры оценивания, тестовый контроль знаний всё же не гарантирует точность оценки. Необходимо понимать, что тестирование позволяет достичь высокой степени объективности оценки, не гарантируя этого автоматически.

Анализ случайной погрешности результатов тестирования

Погрешность — неизбежная часть любого измерения, и педагогические измерения не являются исключением. В статистике различают три основных вида ошибок: систематические, грубые и случайные.

Систематические ошибки однонаправлено либо преувеличивают, либо преуменьшают результаты измерений. При тестировании причинами систематической погрешности могут стать ошибки в разработке и применении теста. Например, если использовать тест по высшей математике, разработанный для технической специальности, при тестировании студентов гуманитарного вуза, то получим систематическое занижение оценки. Случайное угадывание правильных ответов и недостаточный контроль за испытуемыми (соответственно, использование запрещённых справочных материалов, помощь других лиц и даже подмена

тестируемого) увеличивают, по сравнению с истинным, значение тестового балла. Универсальных методов устранения систематических ошибок не существует, общая рекомендация — минимизировать влияние вызывающих систематические ошибки факторов.

Грубые ошибки возникают вследствие просчёта при вычислении тестового балла или неправильной регистрации результата (например, запись оценки в строку экзаменационной ведомости, не соответствующую фамилии тестируемого).

Случайными можно считать ошибки ввода данных; ошибки, вызванные неверным истолкованием условия задания и т.п. Единственно возможный способ объективного учёта случайных погрешностей состоит в определении их статистических закономерностей. Случайные ошибки происходят от различных случайных причин, действующих при каждом из отдельных измерений непредвиденным образом, то в сторону уменьшения, то в сторону увеличения результатов.

Каковы источники случайных ошибок в случае тестового контроля? Основная причина — ограниченность числа заданий. Понятно, что чем больше заданий выполняет студент, тем полнее может быть представление о его знаниях. Проведение тестирования основано на формировании ограниченного набора тестовых заданий, что даёт возможность лучше организовать тестирование, обеспечивает быстроту проведения контроля знаний, приводит к экономии затрат труда на получение и обработку информации. Однако ограниченный набор заданий не всегда достаточен для полной проверки структуры и глубины знаний. Возникающие ошибки репрезентативности в сочетании с фрагментарностью знаний части обучаемых могут привести к зависимости тестового балла от того, какие именно задания предложены конкретному студенту («счастливый» и «несчастливый» билет).

Анализ влияния системы оценки правильности ответа

Определённое влияние оказывает широкое распространение двоичной системы оцен-

ки правильности ответа на каждое задание (правильно или неправильно, 1 или 0). Ввиду малого объёма отдельного задания сложно различать степень правильности ответов. В результате неполные или неточные ответы квалифицируются как незнание ответа, что не всегда оправдано. Вместе с тем, правильный ответ, оцениваемый максимальным баллом, не всегда соответствует известным критериям оценки «отлично» — точное и прочное знание материала в заданном объёме; исчерпывающее и логически стройное его изложение; умение обосновывать принятые решения, обобщать материал3 и др.

Педагогическое тестирование можно сравнить с определением площади некоторой фигуры по методу Монте-Карло. Для применения этого метода фигуру вписывают в другую, известной площади (например, в квадрат), и случайным образом «бросают» точки, подсчитывая число попаданий в фигуру. При достаточно большом числе испытаний отношение числа точек, попавших внутрь фигуры, к общему числу точек, стремится к отношению их площадей. Тогда квадрат — это область, в которой проверяются знания; фигура неизвестной формы и площади — структура и глубина знаний тестируемого, а точки — тестовые задания. При достаточно большом числе заданий доля правильных ответов р приближается к истинной величине относительного объёма знаний тестируемого.

В таком случае нужно рассматривать доверительный интервал доли правильных ответов — интервал, который с заданной вероятностью а накроет неизвестное значение. Например, доверительный интервал доли правильных ответов р = 0,75 ± 0,05 при вероятности 0,9 означает, что с вероятностью 90% истинное значение р находится в интервале 0,7...0,8.

При обработке данных будем исходить из того, что погрешности имеют нормальное распределение. Если считать, что погрешность измерения определяется в результате совокупного действия многих малых факторов, действующих аддитивно и независимо друг от друга, то в силу Центральной Пре-

_ дельной Теоремы

3 Буланова-Топоркова М.В. и др. Педа- те°рии вер°ятн°-

психология высшей школы. Рос- стей погрешность Феникс, 2002. 544 с. измерения хорошо

приближается (по распределению) нормальной случайной величиной.

Аналитически доверительный интервал доли правильных ответов записывается в виде г_

2

р + Ар = р + е-

(12)

фп(т -1)

где Ар — погрешность определения доли правильных ответов, вызванная действием случайных факторов; а — среднее квадратичное отклонение результатов выполнения /'-го задания х от среднего значения х ; т — число заданий; б р — среднее квадратичное отклонение доли правильных ответов от истинного значения; в — табличный коэффициент для заданного значения вероятности а (а = 0,68 соответствует в = 1,0; а = 0,90 соответствует в = 1,65; а = 0,997 соответствует в = 3,0).

Простой анализ выражения (12) показывает, что случайная погрешность зависит от однородности результатов выполнения отдельных заданий и количества заданий т. Нетрудно заметить, что если все ответы правильны (х = х , а = 0), то случайная погрешность равна нулю. Аналогично Ар = 0 в случае, когда ответы полностью неверны (х = X = а = 0). Это означает, что случайная погрешность отсутствует только в этих двух крайних случаях.

Очевидно, что максимальное значение Ар принимает в случае использования двоичной системы оценивания правильности ответа (правильно или неправильно) при условии равенства количества правильных и неправильных ответов (ху = 0; 1; 0; 1; 0; 1.):

гогика и тов на/Д

(13)

Например, случайная погрешность доли правильных ответов для теста с т = 20 заданиями при доверительной вероятности 0,68 не превышает Артах = 0,11 (или 11%), при т = 50 Артах = 0,07, при т = 200 - 0,035. Из этого уравнения легко получить зависимость для расчёта количества заданий, гарантирующего, что случайная погрешность не превысит заданного значения:

ЭЖОШиЗО,........Ш'-Р-НД дыягшстиия

(14)

Так, для обеспечения случайной погрешности не более 0,05 (5%) при указанной доверительной вероятности требуется 101 задание. Графически зависимость т = ( (Ар, е) представлена на рис. 8.

Алгоритм уточнения оценки при компьютерном тестировании

Вернёмся к задаче перевода результата тестирования в качественные показатели типа «хорошо», «удовлетворительно» и т.п. При таком переводе статистически неразличимые результаты могут привести к разным оценкам. Так, например, доли правильных ответов р = 0,59 и р = 0,61 при ошибке Ар = 0,05 соответствуют практически одинаковым интервалам 0,54...0,64 и 0,56...0,66. Однако при пороговом значении для удовлетворительной оценки Я3 = 0,6 оценки будут кардинально отличаться — первый обучаемый получит «неудовлетворительно», а второй — «удовлетворительно». Реально же данная ситуация означает, что оценка лежит в пределах от «неудовлетворительно» до «удовлетворительно». Что делает в таких случаях опытный преподаватель? Для уточнения оценки задаёт дополнительные задания. Если при бланковом тестировании подобное организовать сложно, то при компьютерном тестировании вполне возможно реализовать выдачу дополнительных заданий для уточнения оценки.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На рис. 9 схематично показано сопоставление результата тестирования в виде доверительного интервала р со шкалой оценивания (0...Я3 — «неудовлетворительно», Я3..Я4 — «удовлетворительно», Я4..Я5 — «хорошо», свыше Я5 — «отлично»).

В случае, когда доверительный интервал полностью помещается между двумя соседними значениями шкалы оценивания, можно утверждать, что с вероятностью не меньшей а результат соответствует оценке Я. Так, на рис. 9а доверительный интервал доли правильных ответов располагается между значениями Я3 и Я4. Следовательно, результат выполнения теста оценивается на «удовлетворительно».

300

250

200

150

100

50

0,1

0,2

0,3

0,4

Рис. 8. Зависимость количества заданий теста от максимально допустимой величины случайной погрешности \

Рис. 9. Сравнение доверительного интервала доли правильных ответов с пороговыми значениями шкалы оценивания

Возможен также вариант, когда значение шкалы оценивания окажется внутри доверительного интервала (рис. 9б). Возникает неоднозначность: с вероятностью Р1 = Р(р - Ар < р < Я3) результат соответствует оценке «удовлетворительно», а с вероятностью Р2 = Р(Я3 < р < р + Ар) результат соответствует оценке «хорошо».

Очевидно, что при близких значениях р и Я! вероятности примерно равны Р1 « Р2. Следовательно, в таком случае равновероятны две разные оценки, что существенно затрудняет оценивание ответа.

т

0

Вероятность попадания результата тестирования p в промежуток [р1, p2] в предположении нормального распределения4:

,(15)

где F — функция нормированного и централизованного нормального распределения (функция Лапласа).

Принимая доверительную вероятность равной 0,68, получим:

Ар = £(7-=(7

fj = Р(р -Ap<p<R.) = F

р2 = p(R. <p<p + Ap) = F

= F / \

\ ) \ J { J

' р-(р + Ар)Л -FÍ*-' | = F(1)-F -

{ аР ) { ,

(16) + F(1),

(17)

р J (18)

та студента Петрова 0,71...0,89 попадает пороговое значение R4 = 0,75. Вероятности P1 и P2 в этом случае:

Рх = Р(0,708 < р < 0,75) = F ( I + F(l) = ОД 3

0,092

Рассмотрим пример. В таблице представлены результаты тестирования трёх студентов (расчёты проведены для а = 0,68; результаты выполнения заданий х1 для простоты представлены целыми числами).

Р2 = Р(0,75 < р < 0,892) = F(l)-F

0,75-0,8 0,092 у

= 0,55

Это означает, что с вероятностью 0,55 результат тестирования соответствует оценке «хорошо», а с вероятностью 0,13 — «удовлетворительно».

Ещё менее точно определена оценка Сидорова. На середину доверительного интервала его результата приходится пороговое значение Я3 = 0,6. Поэтому практически с равной вероятностью результат тестирования может быть интерпретирован как «удовлетворительно», так и «неудовлетворительно», что не позволяет определить оценку с приемлемой точностью.

В этих условиях представляется разумным в качестве критерия обоснованности оценки принять вероятность её соответствия данному результату выполнения теста. Если зна-

Таблица 1

Результаты тестирования

Фамилия Результаты выполнения заданий x¡ Р а Ap = s, Р ± Ap

Иванов 1;1;1;1;1;1;1;1;1;0;1;1;1;1; 1;1; 1;1;1;1 0,95 0,224 0,050 0,9...1,0

Петров 1;1;0;0;1;1;1;1;1;0;1;1;1;1; 1;1; 1;1;1;0 0,80 0,410 0,092 0,71.0,89

Сидоров 1;1;1;0;0;1;0;0;0;0;1;1;1;1;1;0; 1;1;0;1 0,60 0,503 0,112 0,49...0,71

Предположим, заданы пороговые значения для четырёхбальной шкалы И3 = 0,6; = 0,75 и Я5 = 0,9 (иными словами до 60% правильных ответов — «неудовлетворительно», 60-75% — «удовлетворительно», 75-90% — «хорошо» и свыше 90% — «отлично»). Тогда доверительный интервал результата тестирования испытуемого Иванова (см. табл. 1) р ± Ар = 0,9... 1,0 с вероятностью 0,68 превышает Я5 = 0,9 и, следовательно, соответствует оценке «отлично». В табл 1 приводится пример оценок, полученных тре-

- мя студентами.

4 Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 1022 с.

В доверительный интервал результа-

чение шкалы оценивания окажется внутри доверительного интервала, рекомендуется найти разность вероятностей двух оценок. При значении разности меньшей заданной следует выдавать дополнительные задания до тех пор, пока вероятность одной из оценок не окажется существенно большей.

Тогда в основу процедуры оценивания при компьютерном тестировании может быть положен предлагаемый ниже алгоритм.

1. Задаём количество заданий т, максимальное количество заданий с учётом дополнительных ттах и минимальную величину разности вероятностей оценок,

ЭШШУЗА,.......1ШМ1Ш,......Д Ufl Tfl О CTUHfl

при которой оценка считается найденной APmjn = 1Р2 - Р1 I » 0,3.. .0,4. Значение доверительной вероятности можно принять постоянным и в настройках теста не задавать.

Для включения этого режима работы в редакторе тестов Аээ^ег^ВшИег следует нажать кнопку Параметры теста, выбрать пункт Уточнение оценки и задать параметры системы оценивания:

2. Предлагаем тест из m заданий.

3. После получения ответов на задания теста определяем доверительный интервал доли правильных ответов, который сравниваем с пороговыми значениями R шкалы оценок:

а) если доверительный интервал полностью помещается между двумя соседними значениями шкалы оценивания, то оценку можно считать найденной, тестирование окончено;

б) если значение шкалы оценивания окажется внутри доверительного интервала и IP2- P1I > APm/n, то в качестве итоговой принимаем оценку, вероятность которой больше; тестирование окончено;

в) если значение шкалы оценивания окажется внутри доверительного интервала и IP2 - P1l < APmjn, то оценка определена с недостаточной точностью, переходим к пункту 4.

4. Если общее количество выполненных заданий меньше mmax, то предлагаем дополнительное задание и переходим к пункту 3. В противном случае в качестве итоговой принимаем оценку, вероятность которой больше; тестирование окончено.

Если тестовые задания оцениваются разным количеством баллов, то долю правильных ответов можно заменить отношением индивидуального тестового балла к сумме баллов за все задания. Особенностью изложенного алгоритма является учёт не столько погрешности результата тестирования, сколько вероятности его соответствия той или иной оценке. Кроме того, методы математической статистики применены для обработки результатов ответа одного обучаемого, а не группы. Такой подход даёт возможность повысить обоснованность каждой конкретной оценки.

Алгоритм уточнения оценки реализован в программе Assistent. Программа моделирует алгоритм работы преподавателя и в спорных случаях автоматически выдаёт дополнительные задания для уточнения оценки.

• желаемое количество заданий для тестирования;

• максимальное количество заданий при тестировании с учётом дополнительных — предельное количество задаваемых вопросов;

• минимальная величина разности вероятностей оценок, при которой оценка считается найденной. Assistent будет задавать дополнительные задания до тех пор, пока разность вероятностей оценок не станет больше указанной величины или число выполненных заданий не превысит максимальное количество.

Параметры системы оценивания

[ЙГ

25

|ЙГ

Желаемое количество заданий при тестировании (например, 20)

Максимальное количество заданий при тестировании с учётом дополнительных (например, 30]

Минимальная величина разности вероятностей оценок, при которой оценка считается найденной (например, 0,3)

Использовать процедуру уточнения оценки

ОК

Справка

Рис.10. Параметры уточнения оценки

Определение значений весовых коэффициентов тестовых заданий

Обычно вес тестовых заданий или принимается равным (за каждое задание — одинаковое количество баллов), или назначается разработчиком теста на основе интуиции. Очевидно, что такие значения весовых коэффициентов могут быть далеки от оптимальных.

К сожалению, классическая теория тестов не имеет общепринятого механизма задания значений весовых коэффициентов тестовых заданий5. При определении веса тестового задания (т.е. количества баллов, которое можно получить за правильный ответ) преобладает эмпирический подход, основанный на экспертном оценивании

6

При определении весовых коэффициентов тестовых заданий может учитываться:

5 Челышкова М.Б. Теория и Практика конструирования педагогических тестов: Учеб. пособ. М.: Логос, 2002.

6 Майоров А.Н. Теория и практика создания тестов для системы образования. М.: Интеллект-центр, 2002.

• только сложность тестового задания,

• сложность и важность тестового задания.

Очевидно, что объективно сложность тестового задания может быть измерена только статистически — по результатам выполнения этого задания достаточно представительной группой испытуемых, уровень подготовленности которых соответствует уровню подготовленности тех лиц, для контроля знаний которых предназначен тест.

Анализируя статистику ответов, в качестве показателя сложности тестового задания целесообразно принять долю правильных ответов р. Чем сложнее тестовое задание (т.е. меньше р), тем выше должен быть его удельный вес.

Важность тестового задания для усвоения учебного материала, к сожалению, не поддаётся объективному измерению. Поэтому этот показатель может определить составитель теста или эксперт только на основе собственного опыта.

С учётом изложенного, для определения значений весовых коэффициентов тестовых заданий предложена формула:

(19)

где а — весовой коэффициент тестового задания, а0 — начальное значение весового коэффициента тестового задания, N — число испытуемых, выполнивших задание.

Если число испытуемых, выполнивших задание, меньше 30, то возможны существенные ошибки репрезентативности (т.е. опрошенные выполняют данное задание заметно лучше или хуже, чем в целом по всей генеральной совокупности). Для уменьшения влияния ошибок репрезентативности при N < 30 введён понижающий коэффициент, равный отношению N / 30.

Формула (19) достаточно универсальна, так как позволяет реализовать оба известных подхода к определению весовых коэффициентов:

• может учитываться только сложность тестового задания (для этого начальные значения весовых коэффициентов всех заданий следует задать одинаковыми). Например, для всех заданий принять а0 = 1;

• может учитываться сложность и важность тестового задания — сложность будет автоматически определяться по стати-стике ответов, а важность каждого задания разработчик теста задаёт самостоятельно. Например, для первого задания а0 = 1, для второго задания принять а0 = 3 и так далее.

Таким образом, накопительный статистический анализ результатов тестирования может служить основой для выбора значений весовых коэффициентов. Данный механизм задания значений весовых коэффициентов тестовых заданий реализован в рамках системы автоматизированного обучения и контроля знаний Assistant путём включения подпрограммы, выполняющей перерасчёт весовых коэффициентов по результатам статистики ответов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для включения автоматической коррекции весовых коэффициентов тестовых заданий в AssistentBuilder следует нажать кнопку Параметры теста и отметить пункт Коррекция баллов (рис. 11).

Полученные результаты реализованы в рамках программе Assistent (свидетельство о государственной регистрации № 2008610441). Программа отмечена сертификатом корпорации Microsoft, используется в 30 учебных заведениях России, Украины и Беларуси, в том числе:

• в Иркутском государственном университете, Винницком государственном педагогическом университете, Полоцком государственном университете, Государственном техническом университете МАИ, Российском государственном торгово-экономическом университете, Восточно-Сибирском институте МВД России, МВД, Ярославской государственной медицинской академии, Байкальском поисково-спасательном отряде МЧС России;

• в ГОУ СОШ № 120 г. Санкт-Петербурга, МОУ лицее № 10 г. Батайска, МОУ лицее № 36 г. Иркутска, МОУ СОШ № 1 г. Брянска, МОУ СОШ №№ 6, 15, 55 г. Иркутска,

ЭШШУЗА,.......1ШМ1Ш,......Д Ufl Tfl О CTUHfl

Рис.11. Вид окна редактора тестов AssistentBuilder (курсором отмечен пункт Коррекция баллов)

Общеобразовательной школе № 23 г. Симферополя.

Программа Assistent доступна на сайте www. asksystem.narod.ru, регистрация программы

для учебных заведений бесплатна. Автор выражает готовность ответить на вопросы по использованию программы по электронной почте AskSystem@ya.ru. □

Журнал для педагогов учреждений дополнительного образования. Цель издания — с помощью поддержки и распространения творческих практик способствовать развитию способностей воспитанников, формированию у них нравственных, эстетических понятий, воспитанию всесторонне развитой личности.

Одна из самы1х сложные проблем — работа с одарёнными детьми. Как вытвить одарённость?; Как создать условия для её развития? Мы будем вместе с вами искать ответы на эти вопросы. В журнале публикуются творческие работы детей (литературное, техническое, прикладное и другое творчество). Педагоги делятся своим опытом в «мастер-классе», что обогащает копилку знаний и умений наших читателей. Мы надеемся, что журнал станет другом и советчиком и для педагогов, и для воспитанников.

Главный редактор Ерегина Т.Н.

Подписка на журнал ««Детское творчество» в каталоге «Роспечать». Подписные индексы 71980 — для индивидуальных подписчиков

71981 — для организаций

Аннотация научной статьи по наукам об образовании, автор научной работы — Деменчёнок Олег Гениевич

Похожие темы научных работ по наукам об образовании , автор научной работы — Деменчёнок Олег Гениевич

Текст научной работы на тему «Совершенствование компьютерного контроля знаний на основе теории вероятностей и математической статистики»