Научная статья на тему 'Контроль качества тестовых заданий как фактор эффективной самоподготовки студентов'

Контроль качества тестовых заданий как фактор эффективной самоподготовки студентов Текст научной статьи по специальности «Науки об образовании»

CC BY
69
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕСТИРОВАНИЕ / ПЕДАГОГИЧЕСКОЕ ИЗМЕРЕНИЕ / КАЧЕСТВО ТЕСТОВЫХ ЗАДАНИЙ / САМОСТОЯТЕЛЬНАЯ РАБОТА / СТАТИСТИЧЕСКИЕ ПОКАЗАТЕЛИ КАЧЕСТВА / TESTING / PEDAGOGICAL DIMENSION / THE QUALITY OF TESTS / STUDENTS SELF-STUDY / STATISTICAL INDICATORS OF QUALITY

Аннотация научной статьи по наукам об образовании, автор научной работы — Пашнин Сергей Владимирович

Освещается необходимость контроля качества тестовых материалов с целью повышения эффективности самоподготовки студентов и обеспечения качественной подготовки выпускников. Описаны методы контроля тестовых заданий, предложены наиболее эффективные статистические показатели качества.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Quality control of tests as a factor in effective students self-study

The need for quality control of test materials to improve students' homework and ensure quality training for graduates is discussed. The methods of control tests are described and the most efficient statistical indicators of quality are proposed.

Текст научной работы на тему «Контроль качества тестовых заданий как фактор эффективной самоподготовки студентов»

УДК 37.01 ББК 74.58

С.В. Пашнин

КОНТРОЛЬ КАЧЕСТВА ТЕСТОВЫХ ЗАДАНИЙ КАК ФАКТОР ЭФФЕКТИВНОЙ САМОПОДГОТОВКИ СТУДЕНТОВ

Освещается необходимость контроля качества тестовых материалов с целью повышения эффективности самоподготовки студентов и обеспечения качественной подготовки выпускников. Описаны методы контроля тестовых заданий, предложены наиболее эффективные статистические показатели качества.

Ключевые слова: тестирование, педагогическое измерение, качество тестовых заданий, самостоятельная работа, статистические показатели качества.

Педагогические измерения - это научная теория, сформировавшаяся в течение последнего века на стыке педагогики, психологии, общей теории измерений, статистики, математики, логики и философии. Педагогические измерения следует также рассматривать как практическую

образовательную деятельность, нацеленную на получение объективированных оценок уровня текущей и итоговой подготовленности студентов, так и один из стимулов повышения эффективности самоподготовки студентов, особенно в режиме репетиционного тестирования

при наличии возможностей удаленного доступа. Результаты измерений в обязательном порядке должны подвергаться оценке на точность, эффективность и на адекватность поставленным целям. Основной предмет педагогической теории измерений - разработка качественных тестов для измерения уровня и структуры подготовленности, а также эффективных и качественных показателей образовательной деятельности.

Сформулированное преподавателем задание, сданное им в информационную службу для конвертации в оболочку тестирования, достаточно часто еще не является полноценным тестовым заданием. Оно даже называется во многих источниках «претестовым» заданием, т.к. такое задание не прошло такой важный этап обработки, как определение его качества. Для анализа качества тестовых заданий должна использоваться научная методология экспертизы, направленная на обнаружение и сокращение ошибок.

Отметим сразу, что ошибки педагогического измерения могут иметь систематический или случайный характер.

Случайные ошибки могут быть вызваны состоянием тестируемого, случайным изменением условий тестирования, и, что более важно, искажением содержания тестовых заданий при переносе информации в оболочку тестирования. Подобное искажение может возникнуть при переводе информации из рукописной формы в электронную, например, в формат MS Word, при «ручной» конвертации тестовых заданий в оболочку тестирования. Также такие ошибки можно назвать техническими. Обнаружить и корректно исправить их, чаще всего, может только разработчик. Для этого ему может потребоваться лично вычитать весь набор тестовых заданий или выборку, предъявляемую студенту, и при необходимости внести соответствующие коррективы. В случае автоматизированной конвертации качественно подготовленных тесто-

вых заданий в оболочку тестирования количество технических ошибок может быть минимизировано до нуля. Но, в любом случае, прохождение разработчиком собственного теста в роли студента позволит ему лучше понять специфику компьютерного предъявления заданий и, при необходимости, изменить содержание тестовых заданий с целью повышения читабельности и понятности заданий.

Следует также отметить что, ошибки случайного характера могут быть сведены к минимуму за счет повышения квалификации разработчиков тестовых заданий и работников информационной службы. Систематическая ошибка называется типовой потому, что она присутствует в результатах тестирования всегда, систематически, при наступлении определенных условий. Она не является случайной, вызванной неконтролируемыми изменениями внешних параметров. Это - характеристика теста, которую можно контролировать и учитывать.

Для обнаружения систематических ошибок в педагогических измерениях существуют два основных подхода:

1) проведение субъективной экспертизы качества тестовых заданий;

2) оценка статистических показателей после получения определенного объема результатов тестирования.

Методы статистического анализа качества заданий основаны на классической или на современной тестовой теории (IRT - Item Response Theory).

Ошибка измерения может быть описана следующим уравнением:

Истинный балл = Наблюдаемый балл ±

± Ошибка измерения, (1)

где: Истинный балл - это тестовый балл, который бы получил тестируемый, если бы не присутствовала никакая ошибка; Наблюдаемый балл - это тестовый балл, фактически полученный им в процессе тестирования;

Ошибка измерения - совокупность сис-тематических или случайных ошибок.

Заметим, что ошибка измерения может быть как положительной (тестируемый получил балл ниже своего потенциала, например, из-за опечатки в задании и, как следствие, непонимания сути задания), так и отрицательной (балл получился завышенным, например, из-за наличия неявкой подсказки в задании).

Истинный балл - основная концепция классической тестовой теории. Гипотетически под истинным баллом понимается средний балл, который получил бы тестируемый, отвечая на бесконечное ко -личество качественно подготовленных тестовых заданий.

Задача разработчиков тестовых заданий заключается в том, чтобы минимизировать ошибку измерения, применяя научно обоснованную методику создания заданий и всего педагогического теста. Задача администрации учебного заведения как организаторов тестирования заключается в проведении постоянного анализа качества тестовых заданий.

Анализ качества тестовых заданий -это процесс критического исследования «претестовых» заданий, после которого лучшая часть из них становится полноценными элементами педагогического теста или банка тестовых заданий для формирования достаточно большого количества вариантов теста. Работа по анализу качества тестовых заданий сводится, в общем случае, к отказу от заданий, имеющих существенные недостатки, доработке заданий, которые могут быть улучшены, и накоплению тестовых заданий, соответствующих установленным критериям качества.

Для экспертизы содержания заданий требуется формирование группы экспертов, которые будут оценивать соответствие задания с измеряемым содержанием согласно некоторым установленным критериям, т.е. валидности тестовых заданий. В большинстве случаев трех-че-тырех экспертов достаточно для проведения полноценной оценки валидности заданий. Но ни при каких обстоятельс-

твах не следует только одного человека привлекать в качестве эксперта, особенно, если он является и автором заданий. Ошибки могут остаться просто незамеченными, когда человек сам оценивает свою собственную работу.

Оценка валидности тестовых заданий включает в себя рассмотрение двух основных характеристик задания [1]:

1) конгруэнтность тестового задания элементу содержания. Происходит оценка того, в какой степени оно действительно измеряет тот элемент или аспект содержания, который включен в спецификацию или план теста. Основной метод определения конгруэнтности тестового задания элементу содержания - экспертный. При этом в роли экспертов должны выступать специалисты тестируемой учебной дисциплины. Для целей итоговой и этапной аттестации студентов в теории тестологии наработаны эффективные и достаточно простые методы определения конгруэнтности тестового задания элементу содержания или целям тестирования. Качество тестового задания фиксируется в специально подготовленных таблицах как степень отражения элемента содержания, на базе которого они были составлены;

2) технологическое качество тестового задания. Оно определяется с точки зрения его соответствия требованиям, установленным к формам, структуре и содержательной валидности [2] тестовых заданий. Для аттестационного педагогического теста технологическое качество заданий должно соответствовать всем научно обоснованным критериям, разработанным как зарубежными, так и отечественными учеными. Научная организация анализа технологического качества заданий рекомендует использование экспертных форм-анкет, содержащих набор достаточно простых типовых вопросов. Пример вопроса для определения содержательной валидности: используются ли

в тексте задания слова, которые могут быть ключом к правильному ответу, такие как «всегда», «может», «ни один», «никогда», «иногда», «обычно», «все вышеперечисленные»? Провести технологическое качество, включая начальную оценку содержательной валидности, может и эксперт, не являющийся специалистом-предметником. Оценка статистических показателей результатов теста заключается в расчете статистических показателей качества тестовых заданий. В тестовой теории и практике существует целый ряд статистических показателей для оценки специфических особенностей и качества тестовых заданий.

Среди них наиболее часто используются следующие показатели: уровень трудности заданий (р), дисперсия тестовых баллов и уровня трудности заданий, целый ряд показателей дифференцирующей способности заданий типа коэффициента дискриминативности, то-чечно-бисериального коэффициента корреляции, бисериального коэффициента корреляции, фи-коэффициента корреляции. Каждый из этих статистических показателей важен для определенной цели при анализе задания.

В классической тестовой теории показатель уровня трудности р заданий для дихотомически оцениваемых заданий -это доля тестируемых, которые ответили правильно на данное задание. Значение показателя р изменяется от 0 до 1 и равно среднему баллу, полученному за данное задание группой тестируемых.

Нормативно-ориентированный тест должен быть наиболее чувствительным к индивидуальным различиям испытуемых по уровню подготовки, т.е. иметь достаточно большую дисперсию индивидуальных тестовых баллов. Это означает, что тестовые задания должны обладать широким диапазоном уровня трудности.

Зависимость между трудностью задания и дисперсией данного задания выражается формулой:

и-г РЛ, (2)

где я=1-р1,

р. - уровень трудности j-ого тестового задания,

Я2. - дисперсия j-ого задания.

Из этого уравнения следует, что максимальная дисперсия равна 0,25 и достигается при р. = 0,5.

При применении тестовых заданий закрытой формы (как наиболее используемой формы тестовых заданий) в нормативно-ориентированных тестах уровень трудности обычно составляет от 0,4 до

0,7. Это позволяет достичь максимальной дисперсии индивидуальных баллов и повысить надежность тестирования. В случае критериально-ориентированного теста максимизировать дисперсию индивидуальных баллов не обязательно.

Основным недостатком показателя р в классической тестовой теории является его зависимость от выборки испытуемых. Поэтому, создатели современной тестовой теории(ГОГ), основанной на более сложных математических моделях, определяют уровень трудности задания в так называемых логитах в°..

Р°=1п р/ qf ' (3)

Фактически значения параметра трудности задания в логитах может иметь значение от минус до плюс бесконечности, однако на практике этот параметр изменяется в интервале от -6 до +6.

Показатель уровня трудности некоторого задания сам по себе не указывает на его качество, хорошо ли оно или плохо; скорее, это просто оценка трудности выполнения данного задания в специфической выборке тестируемых.

Отметим, что в современной тестовой теории ГОГ существуют модели, которые позволяют определить уровень трудности задания, независимо от специфической выборки.

Статистический анализ дистракто-ров (дистрактор - вариант ответа на тестовое задание закрытого типа, похожий на правильный, но не являющийся таковым) является следующим этапом в

выявлении недостатков данного задания. Когда доля тестируемых, выбравших правильный ответ на задание, значительно меньше, чем доля тестируемых, выбравших некоторый дистрактор, следует проанализировать его содержание. В этом случае возможна ошибка с указанием правильного ответа или серьезный дефект в формулировке задания. В тестовой теории и практике существуют и другие, более сложные для расчета показатели качества работы дист-ракторов. Для этого применяется метод «контрастных групп». Так, если некоторый дистрактор более привлекателен для «лучшей» группы испытуемых, чем для «слабой» группы, то задание следует тщательно проанализировать на предмет скрытых дефектов.

Дифференцирующая способность тестового задания - важное понятие в оценке его качества, которое определяет, насколько хорошо данное задание различает «лучших» и «слабых» испытуемых. Понятие дифференцирующей способности строится на фундаментальном предположении, что тестируемые, которые показывают высокий уровень подготовки по данному предмету, как предполагается, более вероятно правильно ответят на любое задание о том предмете, чем те, которые обладают низким уровнем подготовки. Наоборот, задания, на которые или все экзаменующиеся ответили правильно или все ответили неверно, не обладают дифференцирующей способностью, т.е. не различают сильных и слабых испытуемых. Задания, которые не обладают дифференцирующей способностью, не дают никакой информации о различиях между индивидуумами.

Вообще говоря, высокая и положительная дифференцирующая способность задания - необходимый элемент его качества, однако для разных целей тестирования выбор оптимальных показателей различается. Например, для заданий критериально-ориентированных тестов

необходимо обладать высокой различающей способностью только на одном уровне подготовки - вблизи критериального балла. В других диапазонах шкалы уровня подготовки задания для таких тестов могут иметь меньшие значения показателей дифференцирующей способности. Этот показатель чрезвычайно полезен в анализе качества заданий, потому что указывают на конкретные задания, нуждающиеся в усовершенствовании.

В классической тестовой теории для оценки качества тестовых заданий широко применяется коэффициент дискри-минативности - О. Этот коэффициент рассчитывается по результатам тестирования путем выделения двух «контрастных» групп испытуемых - успешной и менее успешной. Значение коэффициента О. может изменяться от -1 до +1. Если значение О. близко к +1, то данное задание обладает высокой различающей

способностью. Если значение О близко к

1

нулю, то данное задание фактически не обладает различающей способностью. И, наконец, если значение О. близко к минус единице, то данное задание весьма странно дифференцирует испытуемых. Такое задание следует тщательно проанализировать, так как оно имеет какой-то недостаток. Чаще всего - это либо неправильная формулировка, либо ошибка в содержании основной части или в вариантах ответов.

В классической тестовой теории су щес -твует и другой коэффициент дифференцирующей способности задания, который выражает связь между результатами ответов на данное задание с индивидуальными баллами выборки испытуемых. В случае, когда результат ответа на задание в тесте оценивается дихотомической переменной (например: 0 - неправильно, 1-правильно), за коэффициент дискриминации принимают точечно-бисериаль-ный коэффициент корреляции Г

Этот широко распространенный показатель дифференцирующей способности

задания оценивает степень статистической связи между двумя переменными: профилем ответа на конкретное задание и результирующим тестовым баллом. Часто это единственная мера уровня подготовки для проведения анализа качества теста. Для j-ro задания точечно-бисериальный коэффициент корреляции г вычисляется по формуле:

Г =

pbis

Б,

Рі

Чі

(4)

где Хср. - среднее значение индивидуальных баллов тех тестируемых, которые ответили на j-ое задание правильно; Хср - среднее значение индивидуальных баллов всей выборки всех тестируемых;

- стандартное отклонение индивидуальных баллов всей выборки тестируемых.

Согласно тестовой теории значение то-чечно-бисериального коэффициент корреляции равное или большее 0,3 является приемлемым показателем его качества. Задания с отрицательным показателем точечно-бисериального коэффициента корреляции или удаляются из банка заданий, или полностью пересматриваются.

Другой статистический показатель, который может использоваться для анализа дифференцирующей способности заданий - это бисериальный коэффициент корреляции, рассчитываемый по более сложной формуле в предположении нормального распределения выборки и лишенный определенных недостатков точечно-бисериального коэффициента.

ф-коэффициент корреляции - еще одна важная статистическая оценка корреляционных отношений, которая может использоваться для анализа функционирования тестовых заданий. Основная функция ф-коэффициента корреляции -это определение степени ассоциации (связи) между заданием и некоторым другим дихотомическим критерием, например, результатом критериальноориентированного тестирования, при-

надлежностью испытуемых к некоторой группе (например, аттестованных и не-аттестованных). Для критериально-ориентированных тестов вводится еще один показатель качества тестового задания, а именно ф-коэффициент корреляции задания с тестовым. Этот показатель оценивает «чувствительность» данного задания к критериальному баллу, т.е. чем он больше, тем больше аттестованных тестируемых правильно его выполнили.

Статистические исследования показателей качества заданий должны быть проведены на достаточно больших выборках испытуемых. Минимальная выборка, достаточная для оценки уровня трудности и коэффициентов дифференцирующей способности, должна состоять из 200-300 студентов. Часто некоторое приближение оценки статистических показателей задания можно достичь, если выборка тестируемых, по крайней мере, превышает в пять раз количество заданий в тесте.

Следует признать, что ошибка принципиально свойственна измерению образовательных достижений. Задача разработчиков и организаторов проведения теста - знать методы для того, чтобы обнаружить ее присутствие и сократить источники ее возникновения. Только в этом случае можно говорить о компьютерном тестировании как о важном инструменте повышения эффективности самоподготовки студентов и высокого качества подготовки выпускников. Для определения объективных показателей качества тестовых заданий необходимо формировать базу данных результатов тестирования с целью ее последующей математической обработки и совершенствования качества тестов.

Библиографический список

1. Переверзев В.Ю. Технология разработки тестовых заданий: Справочное руководство. М.: Е-Медиа, 2005. 265 с.

2. Аванесов В.С. Проблема качества педагогических измерений // Журнал «Педагогические измерения». 2008. № 2.

i Надоели баннеры? Вы всегда можете отключить рекламу.