Научная статья на тему 'Проблема повышения качества компьютерного тестирования'

Проблема повышения качества компьютерного тестирования Текст научной статьи по специальности «Науки об образовании»

CC BY
74
22
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по наукам об образовании, автор научной работы — Олег Деменчёнок

Рассмотрены вопросы математикоAвероятностного обоснования проA блемы повышения качества компьютерного тестирования. Показана возA можность снижения влияния угадывания до допустимого уровня. ПредA ложены методы противодействия угадыванию правильных ответов. Проведён теоретический анализ случайной погрешности результатов тестирования. Для компьютерного тестирования предложен алгоритм перевода доли правильных ответов в педагогическую оценку. Показано, что накопительный статистический анализ результатов тестирования может служить основой для автоматизированной коррекции значений весовых коэффициентов тестовых заданий. Полученные результаты реализованы в виде эффективно работающей компьютерной программы автоматизированного тестирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Проблема повышения качества компьютерного тестирования»

Методология

ПРОБЛЕМА ПОВЫШЕНИЯ КАЧЕСТВА КОМПЬЮТЕРНОГО ТЕСТИРОВАНИЯ

Олег Деменчёнок

Восточно-Сибирский институт МВД России AskSystem@yandex.ru

Рассмотрены вопросы математико-вероятностного обоснования проблемы повышения качества компьютерного тестирования. Показана возможность снижения влияния угадывания до допустимого уровня. Предложены методы противодействия угадыванию правильных ответов. Проведён теоретический анализ случайной погрешности результатов тестирования. Для компьютерного тестирования предложен алгоритм перевода доли правильных ответов в педагогическую оценку. Показано, что накопительный статистический анализ результатов тестирования может служить основой для автоматизированной коррекции значений весовых коэффициентов тестовых заданий.

Полученные результаты реализованы в виде эффективно работающей компьютерной программы автоматизированного тестирования.

Среди факторов, снижающих точность педагогических измерений, достаточно значимыми представляются:

• угадывание правильных ответов;

• «жёсткость» алгоритмов оценивания: несущественное различие результатов выполнения теста может привести к существенно разным оценкам. Например, 9 баллов — «неудовлетворительно», а 10 баллов — «удовлетворительно»;

измерения

-1 -

Вентцель Е.С. Теория вероятностей. М.: Высшая школа, 2001. 576 с.

• необоснованность значений весовых коэффициентов заданий: нередко веса заданий или принимаются равными, или назначаются разработчиком теста на основе интуиции. При этом значения весовых коэффициентов могут быть далеки от оптимальных.

Представляется актуальным исследование указанных вопросов с целью повышения качества компьютерного контроля знаний.

Теоретический анализ влияния случайного угадывания на исходный тестовый балл испытуемых

Тестирование часто критикуют за возможность случайного угадывания испытуемыми правильных ответов. Ответ засчи-тывается как верный независимо от того, был ли он угадан или выбран на основе знаний. Такая практика искажает тестовый балл, заметно снижает точность педагогического измерения.

Действительно, для задания с выбором одного правильного ответа вероятность случайного угадывания обратно пропорциональна числу предложенных вариантов &

1 = 1 •

ния на результат теста? Для ответа на этот вопрос рассмотрим тест из т заданий с выбором одного правильного ответа. Предположим для начала, что студент выбирает ответы на все задания случайным образом. Тогда по формуле Бернулли1 вероятность угадывания а правильных ответов:

Рт(а) = ад (1 - Р1)т-а, (2)

т!

где Ст =

(1)

Насколько существенно влияние случайного угадыва-

а!(т - а)! = т(т -1)...(т - (а -1)) _ число а!

сочетаний.

Результаты расчётов при т = 10 и Р1 = 0,25 (рис. 1) показывают, что с вероятностью 0,056 не будет угадано ни одного ответа, вероятность угадывания 2-3 ответов равна 0,25-0,28. Получить положительную оценку, для которой обычно требуется набрать более половины правильных ответов, исключительно за счёт угадывания маловероятно; вероятность угадать 6 или более ответов _ менее 0,02 (2%). Вместе с тем вероятность завышения оценки высока _ 0,944; а тестовый балл будет «улучшен» за счёт угадывания на 25%.

Однако в реальных ситуациях студент способен решить часть заданий (обозначим эту часть заданий т), а ответы на остальные пытается угадать (результаты расчётов приведены на рис. 2).

01 23456789 10

Рис. 1. Вероятность случайного угадывания a правильных ответов в 10 заданиях с выбором одного правильного ответа из 4 вариантов

01 23456789 10

Рис. 2. Вероятность случайного угадывания a правильных ответов в 10 заданиях с выбором одного правильного ответа для различных

значений ^

Нетрудно заметить: с увеличением т возрастает вероятность того, что не будет угадано ни одного ответа (т.е. угадывание никак не повлияет на результат тестирования). Однако влияние случайного угадывания остаётся существенным:

для т = 0,2...0,8 вероятность случайного угадывания одного ответа составляет 0,26.0,42, а двух ответов — 0,06.0,31.

На угадывание влияет и количество дистракторов — приводимых в задании правдоподобных, но неправильных отве-

а

измерения |

e

Деменчёнок О.Г. Влияние угадывания на значение тестового балла: корректировать или устранять?// Педагогические измерения, 2007, № 1.

Аванесов В.С. Применение тестовых форм в Rasch Measurement // Педагогическая информация, 2005. № 4.

Рис. 3. Вероятность случайного угадывания a правильных ответов в 10 заданиях с выбором одного правильного ответа для различных значений к

тов. На рис. 3 представлены результаты расчётов для различных значений к.

Увеличение числа дистрак-торов несколько снижает актуальность вопроса угадывания, но устранить его полностью не в состоянии.

Проведённый анализ показывает, что влияние случайного угадывания правильного ответа уменьшается с увеличением числа дистракторов и доли тестовых заданий, которые студент выполняет, не прибегая к угадыванию. Влияние различается количественно, в зависимости от параметров рассматриваемой ситуации, и не проявляется только в одном случае _ когда студент самостоятельно решает все задания. Во всех остальных случаях влияние угадывания на результат выполнения теста с заданиями на выбор одного

правильного ответа не может быть признано пренебрежимо

г2

малым"

Методика снижения количества угадываемых ответов

Устранению угадывания помогает изменение форм тестовых заданий. В.С. Аванесов рекомендует переходить от заданий с выбором одного правильного ответа к заданиям с выбором нескольких правильных ответов3, которые, благодаря своей форме, более устойчивы к угадыванию правильных ответов.

Рассмотрим пример задания с выбором нескольких правильных ответов, представленный здесь в виде, удобном для компьютерного тестирования:

1. ТРИГОНОМЕТРИЧЕСКИЕ ФУНКЦИИ

И синус

□ логарифм

И тангенс

□ дисперсия

□ экспонента

В данном задании каждый ответ выбирается независимо от остальных. Вероятность случайно сделать правильный выбор для любого из ответов равна 0,5, так как нужно угадать, какой из двух возможных вариантов правильный. По теореме умножения вероятностей независимых событий вероятность угадывания правильного ответа задания определяется произведением вероятностей угадывания для всех к элементов:

1111

Используя формулу Бернулли, несложно получить выражение для вероятности угадывания с одной ошибкой

p1=Ck-1 pk-1(1 - p)1 =

k!

1

(4)

(3)

P2 = - = k • 2 2 2 2 2k

При k = 4 вероятность угадывания равна 0,06, при k = 6 вероятность 0,016, при k =10 вероятность менее 0,001. Случайно полностью правильно угадать ответ при k > 4 нереально, однако иногда учитываются частично правильные ответы, что ослабляет стойкость к угадыванию.

Вполне приемлемым представляется и другое предложение В.С. Аванесова — при двухбалльной оценке за правильное выполнение задания снимать один балл за одну допущенную ошибку и снимать два балла за вторую допущенную ошибку.

1!(к -1) 1.2 ) I,1 2) 2k,

где p = 0,5 — вероятность угадывания при выборе одного из элементов ответа.

Вероятность случайно угадать ответ, допустив не более одной ошибки:

* = ^ + 0,5± = ^^рг1 <5)

Рассмотрим задание на установление правильной последовательности. Студенту предоставляется набор готовых элементов (например, технологических операций). В его задачу входит расстановка этих элементов в правильной последовательности. Пример:

Установить правильную последовательность: 2. ЦВЕТА ПОЛОТЕН ФЛАГА РОССИИ, НАЧИНАЯ С НИЖНЕГО

□ белый

□ красный

□ синий

Если все к элементов входят в ответ, то вероятность угадывания обратно пропорциональна числу перестановок:

1 1

P3 = — =---

3 k! 1 • 2...(k - 1)k

. (6)

Pn

измерения

-е-

Так, вероятность случайно расставить в правильном порядке три цвета — 0,17. С увеличением числа элементов вероятность угадывания быстро снижается. Так, при k = 5 веро-

Установите соответствие: 3. ПИСАТЕЛИ (ПОЭТЫ)

1. Л.Н. Толстой

2. А.С. Пушкин

3. М.Ю. Лермонтов

Ответы: 1_2_3_

Так как каждому из элементов одного списка может соответствовать один или несколько элементов другого списка, то вероятность угадывания можно рассчитать по формуле

1

P =■

4 2^2 '

(7)

где к1 и к2 _ количество элементов первого и второго списка.

Если за одну ошибку снижать балл наполовину

= С^-1 pkl■k2-1(1 - p)1 = ^

где Р = 0,5 _ вероятность угадывания при восстановлении одного из возможных соответствий.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Тогда вероятность случайно угадать ответ, допустив не более одной ошибки, вычисляется по формуле

p =J_

4 2^2

+ 0,5

ki ' k2 0,5k * k2 + 1

(8)

ятность угадывания равна 0,008.

Ещё одна форма заданий предлагает восстановить соответствие между элементами двух списков. Например:

ИХ ПРОИЗВЕДЕНИЯ

A) Евгений Онегин

Б) Герой нашего времени

B) Война и мир Г) Дубровский Д) Анна Каренина

Вероятность угадывания очень низкая: при к1 = к2 = 3 вероятность безошибочного угадывания 0,002, а с одной ошибкой — 0,011.

Нельзя обойти вниманием и задания открытой формы. Например:

4. БОРОДИНСКАЯ БИТВА СОСТОЯЛАСЬ В_ГОДУ

Вероятность угадывания минимальна, в первом приближении равна нулю.

Для неоднородного по числу дистракторов или форме заданий теста средняя вероятность угадывания определяется как средняя арифметическая.

Очевидно, что для уменьшения влияния угадывания следует увеличивать количество дистракторов и снижать долю заданий с выбором одного правильного ответа.

В ходе пробных расчётов установлено, что влияние уга-

е

дывания снижается до допустимого уровня при значениях средней вероятности угадывания меньших_0,1. Результаты расчётов для Р = 0,096 и N = 50 приведены на рис. 4.

Анализ показывает, что в этом случае влияние угадывания на тестовый балл пренебрежимо мало:

• очень слабому студенту (т = 0,2) угадывание не поможет. Вероятность угадать 15 и более ответов (и в сумме с честно решенными 50т = 10 заданиями набрать хотя бы половину правильных ответов) не превышает 10-6;

• слабому студенту (т = 0,4) угадывание также не поможет. Вероятность угадать 5 и более ответов (и в сумме с решёнными 50 т = 20 заданиями набрать

половину правильных ответов) равна 0,15. Однако если установить порог для положительной оценки в 60% правильных ответов, то вероятность его преодоления всего 0,003;

• средний студент (т = 0,6) к честно набранным 30 ответам с вероятностью 0,57 угадает 1-2 ответа, с вероятностью 0,26 — 3-4, с вероятностью 0,036 — более 4 ответов. Это позволит ему улучшить тестовый балл на 3-13%;

• сильный студент (т = 0,8) мало выиграет за счёт угадывания: с вероятностью 0,39 он угадает 1 ответ, с вероятностью 0,18 — 2, с вероятностью 0,06 — более 3 ответов. Увеличение тестового балла — до 5%.

Число дистракторов и доля заданий каждой формы могут

Рис. 4. Вероятность угадывания_а правильных ответов в 50 заданиях при Р = 0,096

20 10

Мет%одоллогиияя

е

9

а

измерения |

варьироваться в широких пределах. Главное — добиться того, чтобы средняя величина вероятности угадывания была менее 0,1. Тогда влияние угадывания на тестовый балл будет сведено до приемлемого уровня.

Результаты, изложенные в данное статье, нашли практическое применение в разработанной автором автоматизированной системе Assistent. Эта программа позволяет организовать процесс автоматизированного тестирования на научной основе, проверять качество педагогических заданий, создавать педагогические тесты и проводить тестирование в автоматизированном режиме. Программа представлена на сайте www.asksystem.narod.ru.

В обновлённом варианте программы:

• увеличено с 6 до 12 количество вариантов ответа, что позволяет создавать тестовые задания, более защищённые от случайного угадывания правильного ответа;

• в компьютерную среду разработки тестов добавлена возможность учёта влияния фактора угадывания.

Редактор тестов постоянно рассчитывает среднюю вероятность случайного угадывания (её значение индицируется в строке состояния).

Так, для теста, представленного для примера на рис. 5, средняя вероятность угадывания равна 0,0858. Очевидно, что

Рис. 5. Анализ влияния случайного угадывания

Анализ влияния угадывания

Средняя вероятность случайного угадывания правильного ответа равна 0,0856

Очень слабый студент (решает 2 задания из 10) может угадать примерно 0(8*0,0358=0,06864 и а результате набрать 26,864% правильных ответов,

Слабый студент (решает 4 задания из 10) может угадать примерно 0,6*0,0858 =0,05148 и в результате набрать 45,148% правильны/ ответов.

Средний студент (решает 6 заданий из 10) может угадать примерно 0,4*0,0858 =0,03432 и в результате набрать 63,432% правильных ответов,

Сильный студент (решает 8 заданий из 10) может угадать примерно 0,2*0,0855=0,01716 и в результате набрать В 1,716% правильных етветов.

Влиянием угадывания можно пренебречь

ок

Рис. 6. Полная информация о влиянии случайного угадывания

-е-

при стремлении этой величины к нулю влияние случайного угадывания на результат тестирования также снижается до нулевой отметки. Поэтому желательно, чтобы эта величина была возможно более низкой. Это важный показатель качества педагогического тестирования. Для получения более полной информации и рекомендаций можно щёлкнуть в поле со значением средней вероятности (рис. 6).

Если влияние угадывания более существенно, то программа выдаёт рекомендации по

снижению вероятности угадывания.

Анализ алгоритмов оценивания

Тестовый балл, как правило, не используется непосредственно для интерпретации результатов. Часто он переводится в педагогическую оценку, для чего сравнивается с пороговыми значениями некой общепринятой шкалы оценок: зачтено — не зачтено; неудовлетворительно — удовлетворительно — хорошо —

измерения

Буланова-Топоркова М.В. и др. Педагогика и психология высшей школы. Ростов-на-Дону: Феникс, 2002. 544 с.

отлично и т.д. Пусть границей между «хорошо» и «удовлетворительно» принято 75% правильных ответов. Тогда за 75,5% правильных ответов будет выставлена оценка «хорошо», а за 74,5% — «удовлетворительно». Т.е. за почти одинаковые результаты выполнения теста могут быть выставлены существенно различающиеся оценки, что представляется недостаточно обоснованным. Именно оценка является информаций об успехе или неуспехе, на основе оценки принимается решение о ходе процесса обучения. Поэтому повышение обоснованности оценки представляется практически значимой задачей.

Анализ случайной погрешности результатов тестирования

Каковы источники случайных ошибок в случае тестового контроля? Основная причина — ограниченность числа заданий. Понятно, что чем больше заданий выполняет студент, тем полнее может быть представление о его знаниях. Проведение тестирования основано на формировании ограниченного набора тестовых заданий, что даёт возможность лучше организовать тестирование, обеспечивает быстроту проведения кон-

троля знаний, приводит к экономии затрат труда на получение и обработку информации. Однако ограниченный набор заданий не всегда достаточен для полной проверки структуры и глубины знаний. Возникающие ошибки репрезентативности в сочетании с фрагментарностью знаний части обучаемых могут привести к зависимости тестового балла от того, какие именно задания предложены конкретному студенту («счастливый» и «несчастливый» билет).

Определённое влияние оказывает широкое распространение двоичной системы оценки правильности ответа на каждое задание (правильно или неправильно, 1 или 0). Ввиду малого объёма отдельного задания сложно различать степень правильности ответов. В результате неполные или неточные ответы квалифицируются как незнание ответа, что не всегда оправдано. Вместе с тем правильный ответ, оцениваемый максимальным баллом, не всегда соответствует известным критериям оценки «отлично» — точное и прочное знание материала в заданном объёме; исчерпывающее и логически стройное его изложение; умение обосновывать принятые решения, обобщать материал4 и др.

Автор этой статьи полагает, что результат тестирования нужно рассматривать в виде доверительного интервала доли

правильных ответов р. Например, доверительный интервал доли правильных ответов р = 0,75±0,05 при вероятности 0,9 означает, что с вероятностью 90% истинное значение р находится в интервале 0,7-0,8.

При обработке данных будем исходить из того, что погрешности имеют нормальное распределение. Если считать, что погрешность измерения определяется в результате совокупного действия многих малозначимых факторов, действующих аддитивно и независимо друг от друга, то в силу Центральной предельной теоремы теории вероятностей погрешность измерения хорошо приближается (по распределению) к нормальной случайной величиной.

Аналитически доверительный интервал доли правильных ответов записывается в виде

р ±Др = р ±е

I(х - X)2

(9)

.у/т(т -1)

где Др — погрешность определения доли правильных ответов, вызванная действием случайных факторов; О — среднее квадратичное отклонение результатов выполнения г-го задания х^ от среднего значения X ; т — число заданий; Ор — среднее квадратичное отклонение доли правильных ответов от истинного значения; е — аргумент функции Лапласа, при котором

она равна половине заданного значения вероятности а (например: а = 0,68 соответствует е= 1,0; а = 0,90 соответствует е = 1,65; а = 0,997 соответствует е = 3,0 и т.д.).

Простой анализ выражения (9) показывает, что случайная погрешность зависит от однородности результатов выполнения отдельных заданий и количества заданий т. Нетрудно заметить, что если все ответы правильны (хг = X , о= 0), то случайная погрешность равна нулю. Аналогично Др = 0 в случае, когда ответы полностью неверны (х = x = о = 0). Это означает, что случайная погрешность отсутствует только в этих двух крайних случаях.

Алгоритм уточнения оценки при компьютерном тестировании

Вернёмся к задаче перевода результата тестирования в качественные показатели типа «хорошо», «удовлетворительно» и т.п. При таком переводе статистически неразличимые результаты могут привести к разным оценкам. Так, например, доли правильных ответов р = 0,59 и р = 0,61 при ошибке Др = 0,05 соответствуют практически одинаковым интервалам 0,54...0,64 и 0,56...0,66.

г=1

ПЕД

измерения |

14

Однако при пороговом значении для удовлетворительной оценки Я3 = 0,6 оценки будут кардинально отличаться: первый обучаемый получит «неудовлетворительно», а второй — «удовлетворительно». Реально же данная ситуация означает, что оценка лежит в пределах от «неудовлетворительно» до «удовлетворительно». Что делает в таких случаях опытный преподаватель? Для уточнения оценки задаёт дополнительные задания. Если при бланковом тестировании подобное организовать сложно, то при компьютерном тестировании вполне возможно реализовать выдачу дополнительных заданий для уточнения оценки.

На рис. 7 схематично показано сопоставление результата тестирования в виде доверительного интервала р со шкалой оценивания (О...Я3 — «неудовлетворительно», Я3...Я4 — «удовлетворительно», Я4...Я5 — «хорошо», свыше Я5 — «отлично»).

В случае, когда доверительный интервал полностью помещается между двумя соседними значениями шкалы оценивания, можно утверждать, что с вероятностью, не меньшей а, результат соответствует оценке Я;. Так, на рис. 7а доверительный интервал доли правильных ответов располагается между значениями Я3 и Я4. Следовательно, результат выполнения теста оценивается на «удовлетворительно».

Рис. 7. Сравнение доверительного интервала доли правильных ответов с пороговыми значениями шкалы оценивания

3 ' 20 10

-e-

Возможен также вариант, когда значение шкалы оценивания окажется внутри доверительного интервала (рис. 7б). Возникает неоднозначность: с вероятностью р = Р(р - Ар<р< Я3) результат соответствует оценке «удовлетворительно», а с вероятностью Р2 = Р(Яз < р < р + Ар) результат соответствует оценке «хорошо».

Очевидно, что при близких значениях р и Л вероятности примерно равны Р^ ~ Р2. Следовательно, в таком случае равновероятны две разные оценки, что существенно затрудняет оценивание ответа.

Вероятность попадания результата тестирования р в промежуток [р1, р2] в предположении нормального распределе-

ния5:

-( p - py /( 2 а

) dp =

/ \ p2 - pi - F / \ f p-1 - p

1 а 1 а J

= F

R - Р

к а

- F

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

( p -Др) - p

а

= F

' Кг-p 4

v ap /

+ F (1),

(17)

P2 = P(R < p < p + Дp ) =

= F

p - ( p + Дp)

а

- F

R - p

v а- /

= F (1) - F

4 - p4

ap

(18)

(15)

2

p=J

= F

где ¥ — функция нормированного и централизованного нормального распределения (функция Лапласа).

Принимая доверительную вероятность равной 0,68, получим:

ар = Е-Ср = Ор, (16) Р1 = Р (р -Ар < р < Яг) =

В этих условиях разумным представляется в качестве критерия обоснованности оценки принять вероятность её соответствия данному результату выполнения теста. Если значение шкалы оценивания окажется внутри доверительного интервала, рекомендуется найти разность вероятностей двух оценок. При значении разности меньшей заданной следует выдавать дополнительные задания до тех пор, пока вероятность одной из оценок не окажется существенно большей.

Тогда в основу процедуры оценивания при компьютерном тестировании может быть положен предлагаемый ниже алго-ритм6.

1. Задаём количество заданий т, максимальное количество заданий с учётом дополнительных ттах и минимальную величину разности вероятностей оценок, при которой оценка считается найденной: АРт^п = |Р2 - Р1 | ~ 0,3...0,4. Значение доверительной вероятности можно принять постоянным и в настройках теста не задавать.

-е-

Айвазян СА, Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998. 1022 с.

Деменчёнок О.Г. Алгоритм уточнения оценки при компьютерном тестировании// Педагогические измерения, 2007, № 2.

Pn

измерения

2. Предлагаем тест из m заданий.

3. После получения ответов на задания теста определяем доверительный интервал доли правильных ответов, который сравниваем с пороговыми значениями Ri шкалы оценок:

а) если доверительный интервал полностью помещается между двумя соседними значениями шкалы оценивания, то оценку можно считать найденной, тестирование окончено;

б) если значение шкалы оценивания окажется внутри доверительного интервала и P2 - Pil ^ APmin, то в качестве итоговой принимаем оценку, вероятность которой больше; тестирование окончено;

в) если значение шкалы оценивания окажется внутри доверительного интервала и P2 - Pil < APmin, то оценка определена с недостаточной точностью, переходим к пункту 4.

4. Если общее количество выполненных заданий меньше mmax, то предлагаем дополнительное задание и переходим к пункту 3. В противном случае в качестве итоговой принимаем оценку, вероятность которой больше; тестирование окончено.

Если тестовые задания оцениваются разным количеством баллов, то долю правильных ответов можно заменить отношением индивидуального тестового балла к сумме баллов за все задания. Особенностью изложенного

алгоритма является учет не столько погрешности результата тестирования, сколько вероятности его соответствия той или иной оценке. Кроме того, методы математической статистики применены для обработки результатов ответа одного обучаемого, а не группы. Такой подход дает возможность повысить обоснованность каждой конкретной оценки.

Алгоритм уточнения оценки реализован в программе Assistent. Программа моделирует алгоритм работы преподавателя и в спорных случаях автоматически выдает дополнительные задания для уточнения оценки.

Для включения этого режима работы в редакторе тестов AssistentBuilder следует нажать кнопку Параметры теста, выбрать пункт Уточнение оценки и задать параметры системы оценивания:

• желаемое количество заданий для тестирования;

• максимальное количество заданий при тестировании, с учетом дополнительных — предельное количество предлагаемых заданий;

• минимальная величина разности вероятностей оценок, при которой оценка считается найденной. Assistent будет задавать дополнительные задания до тех пор, пока разность вероятностей оценок не станет больше указанной величины или число выполненных заданий не превысит максимальное количество.

Параметры системы оценивания

20

25

0,3

Желаемое количество заданий ори тестировании (наоример, 20)

Максимальное количество заданий при тестировании с учётом дополнительные (например, 30]

Минимальная величина разности вероятностей оценок., при которой оценка считается найденной (например, 0,3]

Использовать процедуру [{точнения оценки

ОК

Справка

Рис. 8. Параметры уточнения оценки

Определение значений весовых коэффициентов тестовых заданий

Нередко веса тестовых заданий или принимаются равными (за каждое задание — одинаковое количество баллов), или назначаются разработчиком теста на основе интуиции. Очевидно, что такие значения весовых коэффициентов могут быть далеки от оптимальных.

При определении веса тестового задания (т.е. количества баллов, которое можно получить за правильный ответ) преобладает эмпирический подход, основанный на экспертном оце-нивании7.

При определении весовых коэффициентов тестовых заданий могут учитываться:

• только трудность тестового задания,

• трудность и важность тестового задания8.

Очевидно, что объективно трудность тестового задания

может быть измерена только статистически — по результатам выполнения этого задания достаточно представительной группой испытуемых, уровень подготовленности которых соответствует уровню подготовленности тех лиц, для контроля знаний которых предназначен тест.

Анализируя статистику ответов, в качестве показателя трудности тестового задания целесообразно принять долю правильных ответов р. Чем труднее тестовое задание (т.е., чем меньше р), тем выше должен быть его вес.

Важность тестового задания для усвоения учебного материала, к сожалению, не поддаётся объективному измерению. Поэтому этот показатель может определить разработчик теста или эксперт на основе собственного опыта.

С учётом изложенного, для определения значений весовых коэффициентов тестовых заданий предложена формула:

Майоров А.Н. Теория и практика создания тестов для системы образования. М.: Интеллект-центр, 2002.

Рудинский И.Д. Принципы интеллектуального автоматизированного тестирования знаний // Калининградский государственный технический университет (КГТУ), г. Калининград.

http://www.ito.su/2001/ йо/У1/У1-0-16.кш1

а

измерения |

а =

а0(1 - 0,9р) при N > 30 а0(1 -при N < 30

30

(19)

где а — весовой коэффициент тестового задания, а° — начальное значение весового коэффициента тестового задания, N — число испытуемых, выполнивших задание.

Если число испытуемых, выполнивших задание, меньше 30, то возможны существенные ошибки репрезентативности (т.е. опрошенные выполняют данное задание заметно лучше или хуже, чем в целом по всей генеральной совокупности). Для уменьшения влияния ошибок репрезентативности при N < 30 введён понижающий коэффициент, равный отношению N/30.

Формула (19) достаточно универсальна, так как позволя-

ет реализовать оба известных подхода к определению весовых коэффициентов:

• может учитываться только трудность тестового задания (для этого начальные значения весовых коэффициентов всех заданий следует задать одинаковыми). Например, для всех заданий принять а0 = 1;

• может учитываться трудность и важность тестового задания — трудность будет автоматически определяться по статистике ответов, а важность каждого задания разработчик теста задаёт самостоятельно. Например, для первого задания а0 = 1, для второго задания принять а0 = 3 и так далее.

Таким образом, накопительный статистический анализ результатов тестирования может служить основой для выбора значений весовых коэффициентов. Данный механизм задания

Рис. 9. Вид окна редактора тестов AssistentBuilder (курсором отмечен пункт Коррекция баллов)

-e-

значений весовых коэффициентов тестовых заданий реализован в рамках системы автоматизированного обучения и контроля знаний Assistent путём включения подпрограммы, выполняющей перерасчёт весовых коэффициентов по результатам статистики ответов.

Для включения автоматической коррекции весовых коэффициентов тестовых заданий в AssistentBuilder следует нажать кнопку Параметры теста и отметить пункт Коррекция баллов (рис. 9).

Полученные результаты реализованы в рамках программы Assistent (свидетельство о государственной регистрации №2008610441). Программа отмечена сертификатом корпорации Microsoft, внедрена в практику образовательного процесса 35 учебных заведений России, Украины и Беларуси, в том числе:

• в Иркутском государственном университете, Винницком государственном педагогиче-

ском университете, Полоцком государственном университете, Государственном техническом университете МАИ, Российском государственном торгово-экономическом университете, Волгоградской и Омской академиях МВД России, Ярославской государственной медицинской академии, Байкальском поисково-спасательном отряде МЧС России; • в ГОУ СОШ № 120 г. Санкт-Петербурга; МОУ лицей № 10 г. Батайска; МОУ лицей № 36 г. Иркутска; МОУ СОШ № 1 г. Брянска; МОУ СОШ №№ 6, 15, 55 г. Иркутска; общеобразовательной школе № 23 г. Симферополя.

Программа Assistent доступна на сайте www.asksys-tem.narod.ru, регистрация программы для учебных заведений бесплатна. Автор выражает готовность ответить на вопросы по использованию программы по электронной почте asksystem@ya.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.