Научная статья на тему 'СТАТИСТИЧЕСКИЙ АНАЛИЗ РЕЗУЛЬТАТОВ КОМПЬЮТЕРНОГО ТЕСТИРОВАНИЯ'

СТАТИСТИЧЕСКИЙ АНАЛИЗ РЕЗУЛЬТАТОВ КОМПЬЮТЕРНОГО ТЕСТИРОВАНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
244
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПЬЮТЕРНОЕ ТЕСТИРОВАНИЕ / ТЕОРИЯ ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ / ТОЧНОСТЬ И ДОСТОВЕРНОСТЬ РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ / МОДЕЛЬ РАША / МОДЕЛЬ БИРНБАУМА / ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ / ВЕДЕНИЕ БАНКОВ ТЕСТОВЫХ ЗАДАНИЙ / СOMPUTER-BASED TESTING / PEDAGOGICAL MEASUREMENTS THEORY / ACCURACY AND RELIABILITY OF TEST RESULTS / RASCH MODEL / BIRNBAUM MODEL / SIMULATION / MONITORING THE DATABASES OF TEST TASKS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Безруков Алексей Иосифович, Гулевич Наталья Анатольевна, Пчелинцева Елена Германовна

В статье обсуждаются цели, задачи и методы статистического анализа результатов компьютерного тестирования. Предлагается использовать методы статистического анализа для некорректных заданий; оценки фактической трудности тестовых заданий; выявления случаев «взлома» банков тестовых заданий. На основании численных экспериментов с имитационной моделью тестирования проводится сравнение достоверности и точности различных методов обработки результатов тестирования. Предлагаются методы, повышающие точность и достоверность результатов тестирования. Делается вывод о необходимости применения статистического анализа при ведении банков тестовых заданий.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Безруков Алексей Иосифович, Гулевич Наталья Анатольевна, Пчелинцева Елена Германовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STATISTICAL ANALYSIS FOR COMPUTER-BASED ASSESSMENT

The article discusses the aims, objectives and methodology of statistical analysis applied to computer-administered test results. The statistical analysis methodology is proposed for the cases with ill-posed problems, assessment of difficulties relating the test tasks, and hacking the test assignment databases. The methods for processing the test results are compared in terms of their reliability and accuracy. The comparison is performed using numerical experiments for simulation the test models. The proposed methodology is aimed to upgrade the test accuracy and reliability. The statistical analysis is assumed as an effective means in monitoring the test task databases.

Текст научной работы на тему «СТАТИСТИЧЕСКИЙ АНАЛИЗ РЕЗУЛЬТАТОВ КОМПЬЮТЕРНОГО ТЕСТИРОВАНИЯ»

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

УДК 004.942, 378.146

А.И. Безруков, Н.А. Гулевич, Е.Г. Пчелинцева

СТАТИСТИЧЕСКИЙ АНАЛИЗ РЕЗУЛЬТАТОВ КОМПЬЮТЕРНОГО ТЕСТИРОВАНИЯ

Аннотация- В статье обсужОаются tie ли, задачи и метоОы статистического анализа результатов компьютерного тестирования. ПреОлагается использовать методы статистического анализа для некорректных заданий; оценки фактической трудности тестовых заданий; выявления случаев «взлома» банков тестовых заданий. На основании численных экспериментов с имитационной моделью тестирования проводится сравнение достоверности и точности различных методов обработки результатов тестирования. Предлагаются методы, повышающие точность и достоверность результатов тестирования. ){елается вывод о необходимости применения статистического анализа при ведении банков тестовых заданий.

Ключевые слова: компьютерное тестирование, теория педагогических измерений, точность и достоверность результатов тестирования, модель Рама, модель Нирибаума, имитационное моделирование, ведение банков тестовых заданий

A. Bezrukov, N. Gulevich, Е. Pchelintseva

STATISTICAL ANALYSIS FOR COMPUTER-BASED ASSESSMENT

Abstract The article discusses the aims, objectives and methodology of statistical analysis emptied to computer-administered test results. The statistical analysis methodology is proposed for the cases with ill-posed problems, assessment of difficulties relating the test tasks, and hacking the test assignment databases. The methods for processing the test results eve compared in tenns of their reliability and accuracy. 7 he comparison is performed using numerical experiments for simulation the test models. The proposed me theology is aimed to upgrade the test accuracy and reliability. The statistical analysis is assumed as an effective means in monitoring the test task databases.

Keywords: com ¡niter-based testing, pedagogical measurements theory, accuracy and reliability of test results, the Rasch model, the Bimbaum model, simulation, monitoring the databases of test tasks

ВВЕДЕНИЕ

Компьютерное тестирование является одним из самых популярных методов проверки знаний студентов. В качестве преимуществ компьютерного тестирования обычно называют: объективность оценки, оперативность и относительно низкую трудоемкость проведения контроля. Однако, и у преподавателей и у студентов имеется ряд претензий к этому эффективному методу. Большинство претензий преподавателей сводится к неприятию самого прин-6

ципа тестирования - выбору правильного ответа из нескольких предложенных. Проверяется не умение думать, а умение угадывать правильный ответ. Претензия обоснованная, но из этого нужно сделать вывод, что при контроле знаний нельзя ограничиться только тестированием. Решение кейсов, публичная защита курсовых работ, выступления на семинарах и т.д. вместе с компьютерным тестированием вполне обеспечивают объективность оценки компетенций студентов.

Студенты часто сравнивают тестирование с лотереей: знающий студент может не пройти тест, а удачливый бездельник легко угадывает правильные ответы. Это более серьезное обвинение. Компьютерный тест, как и любое измерение, является случайным процессом. И как при любом измерении, мы должны оценивать погрешность (доверительный интервал) и достоверность (доверительную вероятность) результатов тестирования и применять методы, оптимизирующие эти характеристики.

ТЕОРЕТИЧЕСКИЕ ИССЛЕДОВАНИЯ

Наиболее признанной теорией, рассматривающей тестирование, как случайный процесс, является теория педагогических измерений (Item response theory, IRT) [1 - 3]. Согласно этой теории, тестирование - статистический метод оценки латентной характеристики студента 0 (уровня его подготовленности) по результатам выполнения этим студентом нескольких заданий, каждое из которых имеет определенный уровень трудности 5[.

Статистически характеристику 0 можно интерпретировать как логарифм отношения шансов пройти или не пройти тест. В статистике единица измерения такой величины называется логит. Обозначим Р - вероятность того, что студент успешно пройдет тест. Тогда:

в = In логит (1)

Трудность задания Si будем интерпретировать, как логарифм отношения шансов не справится и справится с этим заданием. Пусть QL - вероятность того, что студент не справится с заданием i. Тогда:

^ =гп(11^)логит w

Отметим, что обе характеристики выражены в одинаковых единицах измерения. Нетрудно показать, что дисперсия логарифма отношения шансов близка к единице.

В 1RT предполагается, что вероятность того, что студент с уровнем подготовки 0 успешно справится с заданием трудности б[ зависит от разности этих характеристик. Раш предложил следующую формулу для оценки этой вероятности [4-5]:

a-te-Si)

P(9'SJ = 1+e*V-st) (3>

где а - чувствительность задания.

При а « 1,71 распределение Раша практически совпадает с нормальным распределением с единичной дисперсией, поэтому, в дальнейшем мы будем использовать это значение для а.

В модели Раша вероятность успеха зависит только от сложности вопроса и подготовленности испытуемого. Однако в реальном тесте существует вероятность угадывания правильного ответа без выполнения задания. Например, если в задании предлагается выбрать один из четырех ответов, такая вероятность равна 25%. Чтобы учесть эту вероятность, Бирн-баум [6] предложил уточнить модель Раша:

ea<e~s0

P(e,8i) = ci + (l-ci)-i+eaie_Si) (4)

где Cj - вероятность угадывания без выполнения тестового задания /.

Модель Раша-Бирнбаума позволяет применять хорошо разработанные статистические методы для оценки в и 8t, правильно конструировать тесты; отслеживать и корректировать наполнение банков тестовых заданий.

Как бы ни хороша была теория, как бы не были убедительны ее положения, окончательный вердикт об адекватности теории молено вынести только после применения ее положений к реальным данным. Система адаптивного тестирования (ACT) [7] накапливает результаты тестирования в своей базе данных. До недавнего времени эта база не была защищена паролем, поэтому накопленные в ней данные можно использовать для статистического анализа результатов тестирования.

Для проверки положений теории на реальных данных о результатах тестирования была применена следующая методика [8].

1. Выбирается тестовое задание для исследования.

2. Из базы данных ACT выбираются результаты тестирования, студентов, выполнявших это задание. Предполагается, что записанный в БД результат прохождения теста является объективной оценкой в уровня подготовленности каждого студента.

3. Результаты группируются по 0. В каждой группе рассчитывается частота успешного выполнения исследуемого задания.

4. Строится график зависимости частоты успешных ответов от уровня подготовленности студентов (рис. 1).

Частота правильных ответов

— /

/ J /

■ Вопрос N«39 Бирнбаум

Уровень подготовленности

Рис. 1. Зависимость частоты правильных ответов от уровня подготовленности студентов для корректного задания

В тех же координатах строится кривая, соответствующая модели Раша-Бирнбаума (В(в(,б). Чтобы оценить масштаб отклонения фактических результатов от теоретической кривой, в каждой группе рассчитывается стандартное отклонение (разброс) результатов <J[.

°t = VnrPr(l-Pi) (5)

где: rii - число студентов в группе i;

Pi - частота правильных ответов в группе i.

Интервал B(9i,S) + oL (помечен пунктирными линиями) является двух-сигмовым доверительным интервалом нашей оценки. Для построения подобных графиков была разработана программа для ЭВМ ASTRA [9].

Анализ зависимостей показал, что в подавляющем большинстве случаев фактическое распределение частоты правильных ответов соответствует распределению Раша-Бирнбаума. Однако для небольшого количества заданий эта зависимость существенно отличалась от теоретической. Содержательный анализ таких заданий показал, что их формулировки некорректны.

Частота правильных ответов

-1 -С,5 О

Уровень подготовленности

—^—Вопрос №/05 — Бирнбаум

Рис. 2. Зависимость частоты правильных ответов от уровня подготовленности студентов для некорректного задания

Таким образом, описываемый метод может быть использован для выявления некорректных заданий. С этой целью для всех ранее используемых заданий, хранящихся в банке тестовых заданий, строятся графики зависимости частоты правильных ответов от 8. Задания, графики которых существенно выходят за доверительный интервал (например, рис. 2), подвергаются содержательному анализу, исправляются или, если это не возможно, удаляются из банка. Регулярное применение описанного метода позволит своевременно выявлять некорректные задания и повышать качество банка тестовых заданий в процессе его использования.

Следующая проблема - объективная оценка трудности тестовых заданий. Разрабатывая тест, преподаватель задает трудности заданий из своих представлений. Однако для студентов представление о трудности задания могут существенно отличаться. Это может быть вызвано недостаточно глубоким усвоением материала, отличием стиля и терминологии в формулировке задания от привычного студентам, а также многими другими факторами. Вместе с тем, трудность заданий учитывается при оценке подготовленности студентов. Следовательно, некорректное назначение трудности снижает достоверность результатов тестирования.

Модель Раша-Бирнбаума позволяет объективно оценить трудности заданий по результатам тестирования. С точки зрения статистики, формула (4) задает параметрическое распределение успешности выполнения заданий. Если параметр в известен (например, принимается равным оценке уровня подготовленности студента, полученной в результате тестирования), то второй параметр может быть оценен статистическими методами (например, методом максимального правдоподобия) из статистики многократного использования данного задания.

Согласно теории педагогических измерений, наиболее надежной оценка уровня подготовленности в будет при условии, что задания в тесте равнодистантны по трудности. Однако если фактическая трудность заданий не контролируется, распределение заданий в банке будет близко к нормальному. На рис. 3 приведено распределение заданий по фактической трудности, рассчитанной методом максимального правдоподобия.

Дефицит заданий низкой и высокой трудности снижает достоверность оценок соответственно слабых и сильных студентов (тест хорошо оценивает только студентов среднего уровня). Постоянный контроль распределения заданий по трудности и целенаправленное пополнение банков тестовых заданий заданиями дефицитной трудности повысит достоверность и точность результатов тестирования. Отметим, что существенное отклонение уровня трудности, задаваемого преподавателе от фактической трудности заданий должно насторожить авторов теста и заставить их разобраться в причинах такого несоответствия.

Рис. 3. Распределение заданий по фактической трудности

Результаты компьютерного тестирования используются для принятия важных решений об успеваемости студентов, целесообразности продолжения обучения, формировании групп наиболее способных студентов и т.д. Чтобы осознано пользоваться тестами мы должны знать их метрологические характеристики. Теоретической основой оценок точности и достоверности результатов тестирования является модель Раша-Бирнбаума. Однако, несмотря на достаточно простой вид, исследовать эту модель аналитически достаточно трудно. Например, согласно этой модели количества правильных и ошибочных ответов ]\]п, полученных студентом при тестировании, имеют биноминальное распределение Пуассона. Если мы хотим подсчитать вероятность того, что в тесте, состоящим из п заданий студент справился с к заданиями, нам придется подсчитывать выражение,

п! 20

состоящее из ---— элементов. При п = 30 это число составляет порядка 10 элементов.

(п-к)!-к!

Существуют достаточно изощренные методы вычисления подобных сумм, использующие, например, дискретное преобразование Фурье и выражающие результат в виде комплексного числа с малой мнимой частью [11], но для практического применения такой подход вряд ли можно считать полезным.

Для получения практических результатов нами была построена имитационная модель компьютерного тестирования [12]. Транзактами модели являются виртуальные студенты, проходящие тестирование. Для каждого «студента» указывается уровень его подготовленности. Тест моделируется набором тестовых заданий, для каждого из которых задается уровень трудности. Процесс тестирования моделируется с использованием распределения Раша-Бирнбаума: вероятность выполнение задания рассчитывается по формуле (4).

Имитационная модель позволяет сопоставить различные методы обработки результатов тестирования и оценить зависимости качества тестирования от характеристик тесовых заданий. Назовем ошибкой тестирования разницу между «истинным» (заданным в модели значением 6 и оценкой этой величины по результатам тестирования. На рис. 4 приведены зависимости ошибки тестирования двух различных методов от вероятности угадывания.

Как видно из графика, метод максимального правдоподобия гораздо более устойчив к возрастанию вероятности угадывания. Проведенные нами численные эксперименты показывают неоспоримые преимущества этого метода перед другими методами обработки результатов тестирования.

Отказ от априорного задания трудностей тестовых заданий в пользу статистической оценки их значений порождает проблему: Мы оцениваем уровни подготовленности 9, используя априорные трудности заданий, а потом пересчитываем эти трудности с использованием найденных 0. Если мы проведем расчет снова, то получим уже другие значения 0.

1,60 -1

0

к- 1,40

1

ю 1,20

о ' о.

Ь 1,00 0)

пз а: Ю з: 3 О

0,80 ■

0,60 -

0,40

»Доля правильных ответов

■ Метод

максимального правдоподоб.

I Г

0% 5% 10% 15% 20% 25% 30% Вероятность угадывания

Рис. 4. Зависимости ошибки тестирования от вероятности угадывания

А.Ю. Митрофанов1 предложил использовать итерационный алгоритм пересчета 0 и 6( и предсказал сходимость этой процедуры. Проведенные нами численные эксперименты показали, что итерации достаточно быстро (за 2-3 шага) сходятся, сокращая ошибку на 7-10%. Дальнейшие итерации практически не меняют результат.

Одно из распространенных возражений по применению компьютерного тестирования звучит так: «Тестовые задания достаточно быстро «взламываются». Студенты узнают номера ответов, которые в тесте считаются правильными и успешно проходят тестирование вне зависимости от их уровня подготовленности». Чтобы проверить соответствует ли это нарекание действительности, нами был проведен статистический анализ результатов тестирования, накопленных в системе адаптивного тестирования АСТ в Саратовском социально-экономическом институте на апрель 2010 г.

Анализ зависимостей частоты удачных ответов от времени показал, что при нечастом применении задания успешность его выполнения является случайной величиной, практически не зависящей от времени.

Однако, при достаточно длительном применении (например, в тестах ФЭПО) может наблюдаться «взлом» задания. На графике это может проявляться как резкое увеличение числа удачных ответов. На рис. 5 представлен график зависимости частоты выполнения задания от продолжительности его использования при тестировании. Несколько первых использований задания дали частоту выполнения ~ 85%. Однако, после 18.12.08 в трех применениях задание выполнялось с частотой 100%. Это, скорее всего, свидетельствует о взломе задания.

Для выявления взлома можно применить инструмент проверки статистических гипотез. Для каждого нового применения задания уточняется значение параметра с. Оценивается дисперсия такой оценки и строится доверительный интервал для следующей оценки. Если следующая оценка статистически значимо выше накопленной2, это может свидетельствовать о взломе задания. Такое задание лучше некоторое время не использовать («поместить в карантин»).

1 Доцент Саратовского социально-экономического института.

- Термин «статистически значимо» подразумевает, что заданы доверительная вероятность Р и величина доверительного интервала (X,,. X,). Т.Е. с вероятностью Р оценка с должна быть меньше Хь Если следующая оценка с правее границы доверительного интервала, это значит, что с вероятностью Р произошел взлом.

Зависимость ответов от времени (БТЗ=Информатика ФЭПО Вопрос №44)

Рис. 5. Зависимость частоты выполнения задания от времени его использования

ВЫВОДЫ

Рассмотренные в статье методы статистического анализа результатов тестирования позволяют решить ряд практических задач компьютерного тестирования, оценить метрологические характеристики этого инструмента оценки знаний обучающихся. Комплексное применение предложенных методов в системах компьютерного тестирования позволит повысить достоверность и точность оценок уровня подготовленности студентов.

На основании результатов, изложенных в статье можно сформулировать несколько практических рекомендаций:

1. Методы статистического анализа должны стать обязательной частью функциональности современных систем компьютерного тестирования.

2. Следует вести банки данных тестовых заданий, своевременно выявлять некорректные тесты, выявлять и бороться с угрозой «взлома», а также пополнять банки тестами требуемой трудности.

3. Так как метод максимального правдоподобия по большинству характеристик превосходит остальные методы подведения итогов тестирования, он должен стать основным методом в системах компьютерного тестирования.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. При конструировании тестов для определенной цели, учитывающих существующие характеристики банка тестовых заданий и контингента тестируемых студентов следует использовать имитационную модель тестирования, позволяющую подобрать оптимальные характеристики теста.

СПИСОК ЛИТЕРАТУРЫ

1. Аванесов В. Item response theory: Основные понятия и положения. [Электронный ресурс] / В. Аванесов - Режим доступа: http://testolog.narod.ru/Theory59.html.

2. Аванесов B.C. Применение тестовых форм в Rasch Measurement [Текст] / B.C. Аванесов//Педагогические измерения, 2005, №4. - С. 3-20.

3. Михеев О.В. Математические модели педагогических измерений [Текст] / О.В. Михеев // Педагогические измерения, 2004, №2. - С. 75-88.

4. Rasch Probabilistic models for some intelligence and attainment tests. - Chicago, 1L, USA: University of Chicago Press, 1980. 224 p.

5. Lord F.M. (1980). Applications of item response theory to practical testing problems. Mahwah, NJ: Erlbaum.

6. Birnbaum A. Some Latent Trait Models and Their Use in Inferring and Examinee's Ability. In Lord F.M., Novick M. Statistical Theories of Mental Test Scores. Addison-Wesley Publ. Co. Reading, Mass, 1968. - P. 397-479.

7. Система компьютерного адаптивного тестирования АСТ-ТЕСТ [Электронный ресурс]. -Режим доступа:/ http://www.ast-centre.ru/testirovanie/ast_test/

8. Безруков А.И. Алгоритм визуализации статистики результатов выполнения тестовых заданий, накопленных в системе ACT [Текст] / А.И. Безруков, Г.Т. Погожильская // Известия Российского экономического университета им. Г.В. Плеханова. 2015. № 4 (22). С. 178-188.

9. Свидетельство о государственно регистрации программы для ЭВМ №2016615495 «Программа анализа качества банков тестовых заданий на основе модели Раша-Бирнбаума. Дата государственной регистрации в Реестре программ для ЭВМ 25.05.2016.

10. Википедия на английском языке [Электронный ресурс]. - Режим доступа: https://en.wikipedia.org/wiki/Poisson_binomial_distribution

11. Fernandez М; S. Williams (2010). «Closed-Form Expression for the Poisson-Binomial Probability Density Function». IEEE Transactions on Aerospace Electronic Systems. 46(2): 803-817. doi: 10.1 109/TAES.2010.5461658.

12. Безруков А.И. Имитационная модель для оценки достоверности и точности результатов тестирования [Текст] / А.И. Безруков, С.А. Акимова, Г.Г. Погожильская //Математическое моделирование и информационные технологии в исследованиях по физике и педагогике: сб. - Саратов, 2017. С. 8-15.

13. Мельникова М.Б. Теория и практика конструирования педагогических тестов. [Текст] /М.Б. Челышкова. -М„ 2002 г.;

14. Использование модели гамма-распределения в задачеформирования ограниченного по времени тестав системе дистанционного обучения / А.В. Босов, Т.А. Мхитарян, А.В. Наумов, А.П. Сапунова // Информатика и ее применение, 2019. т. 13. Вып. 4. с 11-17.

СВЕДЕНИЯ ОБ АВТОРАХ

Безруков Алексей Иосифович - Alexander A. Bezrukov -

кандидат социологических наук, PhD (Economics), Associate Professor

доцент кафедры «Информационно- Department of Information and Communica-

коммуникационные системы и программная tion Systems and Software Engineering, Yuri

инженерия» Саратовского государственного Gagarin State Technical University of Saratov технического университета имени Гагарина Ю.А.

Гулевич Наталья Анатольевна - Natalia A. Gulevich -

кандидат технических наук, PhD (Technical Science), Associate Professor

доцент кафедры «Информационно- Department of Information and Communica-

коммуникационные системы tion Systems and Software Engineering, Yuri

и программная инженерия» Саратовского Gagarin State Technical University of Saratov государственного технического университета имени Гагарина Ю.А.

П челипцева Елена Германовна - Elena G. Pchelintseva -

кандидат социологических наук, PhD (Sociology), Associate Professor

доцент кафедры «Информационно- Department of Information and Communica-

коммуникационные системы и программная tion Systems and Software Engineering, Yuri

инженерия» Саратовского Gagarin State Technical University of Saratov государственного технического университета имени Гагарина Ю.А.

Статья поступила в редакцию 20.02.20. принята к опубликованию 15.03.20

i Надоели баннеры? Вы всегда можете отключить рекламу.