Оценка дифференцирующей способности компьютерного теста методами имитационного моделирования

Саяпин Александр Владимирович; Сафонов Константин Владимирович

ОПЕНКА АИФФЕРЕНИИРУЮШЕЙ СПОСОБНОСТИ КОМПЬЮТЕРНОГО ТЕСТА МЕТОДАМИ ИМИТАЦИОННОГО МОДЕЛИРОВАНИЯ

Тестирование, дифференцирующая способность, объективная оценка, имитационное моделирование.

В настоящее время мера сложности и дифференцирующая способность теста оцениваются двумя способами: методом экспертной оценки и экспериментальным путем, путем апробации задания, то есть с использованием субъективных методов. В данной работе предлагается объективный метод оценки качества теста, основанный на имитационном моделировании и статистической обработке результатов, при этом выделяется объективная и субъективная сложность теста.

В связи с внедрением государственных образовательных стандартов третьего поколения возрастает роль непрерывного контроля уровня знаний студентов. Изучение отдельных модулей дисциплины предполагает проверку уровня знаний студентов непосредственно в процессе обучения.

Одним из признанных способов проверки текущих знаний является тестирование. К его достоинствам можно отнести простоту проведения теста, его массовость, документальность, большие возможности по автоматизации проведения и проверки тестов, а также невысокие требования к квалификации сотрудников, непосредственно проводящих тест [Бершадский и др., 2005; Зорин].

Принято выделять тест как систему заданий, служащую для оценки знаний, умений, способностей и навыков тестируемого, и контрольно-измерительный материал, представляющий собой одно задание теста. Для дальнейшего использования необходимо ввести еще одно понятие — пул элементов теста. Под пулом мы будем понимать совокупность тестовых заданий, из которых формируется отдельный контрольно-измерительный материал. В том случае, если отдельный тест состоит из нескольких контрольно-измерительных материалов, для каждого из них должен быть сформирован собственный пул тестовых заданий [Саяпин, 2011].

Использование пула заданий позволяет формировать индивидуальное тестовое задание для каждого тестируемого. В условиях когда тестируемые могут общаться между собой при проведении теста, это позволяет оценивать знания, умения и навыки каждого из тестируемых более объективно. (Далее тестируемых мы будем называть респондентами.)

Рассмотрим тесты, состоящие из одного контрольно-измерительного материала, более подробно, как используемые наиболее часто. Тем не менее все изложенное далее может быть применено и к тестам, включающим в себя несколько КИМов.

Согласно общепринятым представлениям, все тестовые задания могут быть отнесены к одному из следующих видов.

— закрытое задание с выбором одного ответа из предложенных;

— закрытое задание с выбором нескольких ответов из предложенных;

— закрытое задание, в котором необходимо установить порядок элементов;

— закрытое задание с необходимостью установления взаимосвязей между элементами;

— открытое задание с кратким ответом (в котором необходимо записать ответ словом, словосочетанием или числом);

— открытое задание с развернутым ответом (в котором необходимо записать развернутый ответ в виде текста и / или последовательности формул) [Мо либоженко].

В большинстве случаев без ущерба для качества самого теста все типы закрытых заданий могут быть заменены закрытым заданием с выбором нескольких ответов из предложенных. Кроме того, следует учитывать, что автоматизированной проверке могут быть подвергнуты все типы тестовых заданий, за исключением открытого задания с развернутым ответом [Саяпин, 2011].

Отдельно следует отметить, что ценность обоих типов открытых заданий может быть поставлена под сомнение, поскольку снижение уровня владения русским языком и культурой письменной речи может приводить к неправильной оценке компетенций, знаний, умений и навыков респондента. Это вызвано тем, что ошибка в написании ответа для открытого теста будет воспринята как ошибочный ответ.

Таким образом, использование контрольно-измерительных материалов, содержащих только закрытые задания, является не просто допустимым, но в большинстве случаев и предпочтительным. Как будет показано далее, тесты, содержащие такие типы заданий, могут быть оценены объективно.

В настоящее время профессиональными тестологами выделяются следующие критерии, характеризующие как тест, так и КИМ:

- валидность;

- мера трудности задания;

- дифференцирующая способность;

- надежность теста [Шашкина, 2001, с. 97-101].

Под валидностью принято понимать соответствие тестового задания оцениваемым способностям. Валидность теста определяется на этапе создания пула тестовых заданий и не может быть изменена непосредственно при формировании теста или контрольно-измерительного материала из пула заданий. Валидность теста может быть оценена только при условии глубокого владения материалом. Единственным способом оценки валидности теста является экспертная оценка.

Мера трудности задания фактически определяет возможность прохождения теста всеми респондентами. Принято считать, что при слишком малой трудности задания его проходит большинство (либо все) респондентов, при слишком высокой сложности — меньшинство респондентов (либо вообще никто). Такое определение показывает относительную природу этого показателя.

На практике меру трудности задания чаще всего определяют умозрительно (экспертная трудность) либо экспериментально, путем апробации тестового задания.

В то же время государственные стандарты высшего профессионального образования подразумевают совершенно определенный минимальный уровень компетенций, знаний, умений и навыков выпускника. Таким образом, при использовании тестирования для оценки знаний студентов возникает проблема оценки не относительного, а абсолютного уровня знаний.

Кроме того, при внедрении новых стандартов может возникнуть ситуация, когда тест будет использован для проверки знаний и умений студентов без возможности его предварительной апробации. Авторы отмечают, что в таких условиях особую важность приобретают возможности оценки характеристик теста без его апробации на реальных респондентах. Вопрос объективной оценки меры трудности тестового задания рассмотрен более подробно в работе [Саяпин, 2011].

Дифференцирующая способность теста понимается как способность тестового задания дифференцировать сильных (способных) респондентов от слабых [Баршадский и др., 2005; Шашкина, 2001]. В частности, наиболее удобным способом дифференциации респондентов является использование числовых оценок в определенной шкале. Авторами предлагается использование для сравнительной оценки респондентов (именно это и предполагает дифференцирующая способность) как минимум интервальной шкалы оценок. Наиболее естественным выглядит использование числовой шкалы в заданном диапазоне, например шкалы целых или вещественных чисел в пределах от 0 до 100. В настоящее время дифференцирующую способность теста чаще всего оценивают в той или иной мере в зависимости от дисперсионных показателей результатов теста для большого числа респондентов [Одинцова;

Молибоженко]. Однако такая оценка дифференцирующей способности обладает двумя недостатками: необходимость апробации теста на возможно большем числе респондентов перед началом его реального использования и относительный, а не абсолютный характер этой оценки. Вопрос формирования объективной абсолютной дифференцирующей способности теста и будет рассмотрен далее в этой статье.

В настоящее время для проверки выполнения тестового задания в основном используются информационные технологии [Бершадский и др., 2005; Зорин; Сту-пин,Ташкин; Саяпин, 2011]. Это позволяет существенно ускорить обработку результатов теста, а также свести к минимуму или полностью исключить субъективность оценки результатов теста. В то же время использование информационных технологий открывает новые возможности по анализу характеристик теста, в том числе возможность оценивать объективную меру трудности теста, дифференцирующую способность теста и его надежность.

Рассмотрим оценку меры сложности и дифференцирующей способности теста.

Мера сложности теста, в общем случае, определяет, какое количество респондентов способны пройти данное тестовое задание [Одинцова]. Это означает, что мера сложности теста зависит от респондентов, проходящих тест. Таким образом, одно и то же тестовое задание для разной аудитории будет иметь разную сложность.

Такая оценка сложности теста является неудовлетворительной в случае, если мы говорим о тесте как средстве проверки соответствия респондента некоторому заранее заданному уровню знаний, умений и навыков.

Следовательно, необходим объективный критерий, позволяющий оценить сложность теста вне зависимости от респондентов, а также отделить респондентов, обладающих необходимыми знаниями, навыками и умениями от тех респондентов, кто не обладает ими в полном объеме.

В качестве такого показателя авторы предлагают использовать процент правильных ответов респондента, который может быть получен случайно.

Таким образом, задача определения того, пройден ли тест респондентом, сводится к проверке статистической гипотезы. Нулевая гипотеза может быть сформулирована следующим образом: процент правильных ответов, данных респондентом, не превышает процент правильных ответов, который может быть получен случайно, с заданной доверительной вероятностью а. Принятие альтернативной гипотезы означает, что уровень знаний студента существенно превышает уровень случайных знаний по материалу КИМ.

Рассмотрим процедуру определения оценки, полученной студентом в ходе прохождение теста.

Процент правильности ответа студента на вопросы тестового задания определяется следующей формулой:

К = тт

(1)

(М^

М

где Мз — количество пунктов ответов, которые студент пометил как правильные; М — количество пунктов ответов, которые студент должен был пометить как правильные; Ив — количество пунктов ответов, которые студент не пометил; и — количество пунктов ответов, которые студент не должен был пометить.

Следует отметить, что величина И не является непрерывной, а представляет собой конечное множество фиксированных значений, свое для каждого тестового задания. Кроме того, распределение величины В, не является нормальным.

Определим, выполнил ли тестируемый тестовое задание, следующим образом: определим верхнюю границу Л при заданном уровне значимости Иа. При значениях Е>Еа будем считать, что тестируемый выполнил тестовое задание. Определение Ка осуществляется при помощи имитационного моделирования, то есть путем выполнения группы испытаний, при которых некая функция имитирует ответы студента на вопросы тестового задания случайным образом. При этом учитывается, что часть вопросов требует выбора одного из вариантов ответа, а часть вопросов — выбора нескольких вариантов ответов. В результате проведения серии испытаний будет построена функция распределения величины И. В результате можно определить величину Ка как наибольшее значение И, частота встречаемости которого выше величины ос. Например, для распределения В, показанного на рис., и доверительного интервала а=0,05 величина Б/х составит 75 %.

Рис. Распределение величины Я. При а=0,05 в качестве Ра выбрано значение Р-75

Помимо этого, величина Ла может выступать также в качестве показателя сложности тестового задания. Сложность теста тем выше, чем меньше значение Ка и, соответственно, чем меньший процент правильных ответов может быть дан случайным образом.

Следует учитывать, что величина Иа не может служить заменой традиционной меры сложности теста, поскольку никоим образом не связана с содержанием вопросов тестового задания. Она лишь оценивает, насколько вероятно прохождение теста респондентом в случае, если он отвечает на вопросы теста случайным образом.

Использование величины Ra в качестве сложности теста позволяет выделить две компоненты сложности теста — относительную и абсолютную, или субъективную и объективную компоненты сложности теста.

Субъективная сложность теста является относительной величиной, поскольку зависит от респондентов, проходящих тестирование. Она по-прежнему может оцениваться методом экспертной оценки либо апробации теста на большом числе респондентов.

Объективная сложность теста показывает возможность успешного прохождения теста респондентом, не обладающим знаниями, умениями и навыками в предметной области теста.

Для выставления оценки респонденту в диапазоне 0—100 используется разность R-Ra, нормированная для интервала 0-100.

Собственно дифференцирующая способность теста может быть определена как количество уровней знаний, потенциально выявляемых тестом. Учитывая, что величина R может принимать только строго определенные значения, их количество и собственно величины определяют количество выявляемых уровней знаний. Например, рассматривая рис. и принимая во внимание, что Ra=75, видим, что количество выявляемых данным тестом уровней знаний составляет 5 шт.: 75 и менее (что соответствует незначимым отличиям между уровнем знаний студента и его отсутствием), 83.3, 87.5, 90 и 100. Необходимо учитывать, что для каждого контрольноизмерительного материала значение уровня Ra и набор возможных уровней, превышающих это значение, являются индивидуальными.

Таким образом, числовым показателем дифференцирующей способности теста является количество выявляемых контрольно-измерительным материалом уровней знаний.

Для проверки данного подхода была реализована автономная библиотека для среды.NET на языке С#. Данная библиотека используется для проведения текущего тестирования студентов Сибирского государственного аэрокосмического университета. Для использования библиотеки были разработаны два приложения на языке С#. Одно из приложений представляет собой выполняемую программу для среды.Net Framework 2 и используется для генерации наборов тестовых заданий и проверки ответов студентов.

Второе приложение представляет собой web-приложение, предназначенное для проведения тестирования в локальной сети. Приложение реализовано как ASP.NET MVC приложение, работает в среде Net Framework 3.

Использование разработанных приложений позволило значительно сократить время разработки тестовых заданий, повысить скорость обработки ответов студентов, сократить время на проведение теста за счет одновременной работы всех студентов группы (потока); показало высокую степень релевантности оценок, полученных респондентами в результате тестирования, и оценок, выставленных преподавателем. Таким образом, подтверждается эффективность использования показателя Ra в качестве меры сложности теста.

Библиографический список

1. Бершадский А.М., Белов А.А., Вергазов Р.И., Кревский И.Г. Актуальные проблемы

компьютерного контроля знаний. URL: http://www.masters.donntu.edu.ua/2005/fvti/

changli/library/prob lems.htm

2. Зорин С.Ф. Разработка автоматизированной системы контроля знаний. URL: http: //www. socr ate s. ru/p df/Te sting .p df

3. Молибоженко В.В. Математические оценки качества педагогических тестов. URL: http://pedsovet.org/component/ option,com_mtree/ task,viewlink/link_id,4409/1temid,88/

4. Надежность психологического теста. URL: http://ru.wikipedia.org/ wiki/

5. Одинцова В. Усовершенствование психодиагностической методики на примере теста «ТИПС» (Тест Интеллектуального Потенциала Стандартизированный). URL: http:// www.ht.ru/ press/articles/print/ artl5.htm

6. Саяпин A.B. Оценка объективной меры сложности компьютерного теста методами имитационного моделирования // Материалы международной научно-практической конференции «Инновационная интегрированная система профессионального образования. Проблемы и пути развития - 2011». Красноярск: СибГАУ, 2011.

7. A.A. Ступин, В.Е. Ташкин. Анализ тестовых заданий в системе управления обучением MOODLE. URL: http://ftip.nspu.net/ joo/index.php?option=com_content&view=article&id= 178: - moodle&catid=32:-25-&Itemid=53

8. Шашкина М.Б. Критерии качества педагогического теста по математике // Современное образование. 2001. № 3.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Саяпин Александр Владимирович, Сафонов Константин Владимирович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Саяпин Александр Владимирович, Сафонов Константин Владимирович

MEASURING OF DIFFERENTIATION ABILITY OF COMPUTER TESTING BY METHODS OF IMITATION MODELLING

Текст научной работы на тему «Оценка дифференцирующей способности компьютерного теста методами имитационного моделирования»