Изучение валидности компьютерного тестирования приобретенных навыков

Зубец В.В.

г?[

СТАНДАРТ

СПЕЦИАЛЬНОСТИ

ЭКСПЕРТНЫЕ

ОЦЕНКИ

БАНК

ЗНАНИЙ

О О О О; О О О О’

—-4г ~

о о о о о

©

Иерархически упорядоченная структура содержания

ФАЙЛ: Идентификатор темы; лредш. темы

Г'

С

$

д

Оптимальная последовательность изучения учебного материала

Рис. 1. Модель построения содержания обучения

рованной шкалы. При этом темы представляются точками некоторого координатного пространства, а расстояние между ними выражает близость их содержания. Данный метод позволяет сжать большой объем данных, которыми владеет эксперт, до числовых значений (координат объектов), имеющих смысл лишь в совокупности.

Далее необходимо отразить характер существующих связей между темами и их весовые значения. Для реализации данного шага применяется метод неоднородных семантических сетей, который основан на высказываниях эксперта представленных в виде: Т, К 7}, где Т, и /у — имена тем, Н - бинарное о тношение со значением из диапазона от «Л‘ неотъемлемая часть )’» до «X полностью исключает)'».

Наконец, имеется возможность задать направление обхода тем, дополнив каждую тему тезаурусом - понятийной базой, в которой представлены основные смысловые единицы ТОМЫ.

Используя метод многомерного шкалирования, мы как бы расставляем все темы по своим местам в координатном пространстве, затем, определяя характер связей между темами, осуществляем сортировку и, наконец, определяя понятия на входе и выходе, мы указываем направление движения при обходе тем. Описания, полученные с помощью данных методов, всесторонне характеризуют темы в необходимом минимуме, достаточном для формирования базы знаний и построения на ее основе иерархически упорядоченной структуры содержания обучения. Данный подход к анализу содержания и структуры учебного материала позволяет получить мапшшюе представление ноля знаний, реализующее представление эксперта о предметной области.

Следующий шаг предполагает упорядочение поля знаний. Условно алгоритм решения этой задачи разбивается на две части: поиск независимых тем и построение на их основе иерархической структуры. Все независимые темы (зависящие от псевдотемы нулевого псевдоуровня) объединяются в одну группу, единственную на первом уровне иерархии. По завершении сканирования базы знаний и построения первой группы тем осуществляется переход к построению следующей группы, но с другим предшествованием в группе. Всякий раз і гри переходе с уровня на уровень осуществляется проверка наличия элементов в массиве тем. Отсутствие элементов означает, 1тто темы базы знаний исчерпаны и иерархическая структура построена.

Из полученной древовидной структуры строится линейная структура содержания обучения: процесс представляет собой пошагово-вертикальное наращивание тем в двумерном массиве до полного построения линии. Затем в соответствии с заданными критериями из возможных вариантов выбирается оптимальная последовательность изучения учебного материала. По-этапная реализация технологии показана на рисунке I.

ИЗУЧЕНИЕ ВАЛИДНОСТИ КОМПЬЮТЕРНОГО ТЕСТИРОВАНИЯ ПРИОБРЕТЕННЫХ НАВЫКОВ © В. В. Зубец

Одной из важнейших проблем оценки качества педагогических тестов является проблема измерения валидности тестов. Связано эго с тем, что валидность характеризует латентные, скрытые свойства теста, и поэтому измеряется, как правило, косвенно. Кроме того, измерения валидности часто связаны с большими трудозатратами 11.2).

В данной работе исследовались способы повышения качества педагогических тестов. В качестве исследования были выбраны навыки, которые приобретали студенты филологического факультета Тамбовского государственного университета им. Г І’ Державина на занятиях по информатике. В течение 3-4 занятий сту-денты практически осваивали в компьютерном классе работу с файлами и каталогами и приобретали опреде-

ленные навыки. Для проверки приобретенных на занятиях навыков были выбраны 13 команд операционной системы. Был составлен компьютерный тест, включающий по два задания на каждую из команд. Одно из заданий было на выбор правильного вариант (тип а), а другое на установление правильной последовательности действий (тип в). Сразу же после тестирования проводились экспертные оценки. В опросных листах проставлялись оценки по принципу «умеет - не умеет» (О или 1). Объем выборки составил 100 испытуемых Тестирование ііроводилоеь дважды: перед обучением и спустя 3-4 занятия.

Результат обучения обычно характеризуется изменением меры трудности в результате обучения Обработка результатов тестирования показала, что если

перед обучением средняя мера трудности равна 0,8, то после занятий она погагжаегся до 0,3, то есть почти в три раза. Таким образом, тестирование четко фиксирует результат обучения.

Важной характеристикой теста является его надежность, характеризующая повторяемость результатов. Оценка надежности дает значение 0,7, что является вполне приемлемым.

И, наконец, важнеіішей характеристикой теста является его валидность, то есть уверенность в том, что тест измеряет именно ту характеристику, которую планировалось измеряп. при его создании. Понятно, что умение практически выполнит!, команду и описать тгот процесс словами не одно и то же. Поэтому оценка валидности для теста на проверку приобретенных навыков очень важна. Для определения валидности можно сравнить результаты тестирования и экспертной оценки В данном случае экспертная оценка очень точна, гак как определить однозначно, умеет студент нынолшгп. команд)' или нет, несложно при очной проверке. Если принял» валидность экспертной оценки за 1, то коэффициент корреляции результатов тестирования с эксперлюй оценкой будет характеризовать валидность теста.

Определим теперь корреляционную связь между столбцами матрицы результатов тестирования, содержащими суммарный балл студента, полученный в результате тестирования, и суммарный экспертный балл. ' )та связь должна бьгп» сильной, так как тестовый балл студента, показавшего хорошую подготовку эксперту, должен быть выше, чем у студен та с плохой подготовкой. Однако расчет коэффициента корреляции дает очень низкое значение - 0,14.

Анализ результатов показывает, что тест очень неоднороден. характеристики заданий различаются очень сильно. Так, мера трудности колеблется от 0,1 до 0,8; значения валидности отдельных заданий низки для отдельных заданий. Разница между характеристиками •заданий различных типов невелика.

Следует отметить, что мера трудности большинства заданий оказалась явно заниженной: 0,1-0,3, тогда как тестологи считают оптимальным значение 0,5 [2, 3]. Из анализа данных можно предположить, что неоднородность характеристик теста связана с неоднородностью заданий. Поэтому когда усреднение производится по большой выборке (100 студетлов), то характеристики более качественных заданий теста выявляются, что проявилось в достаточно высоком коэффициенте корреляции меду мерой трудности заданий и экспертными оценками. Если же усреднение происходит но небольшому количеству заданий (25) при расчете ва-

лидности, то эл! характеристики теряются в шуме от ((плохих» заданий.

Ч тобы проверить эту гипотезу, была составлена таблица измерений, из которой были убраны самые «плохие» 'идои [ия, то есть задаш!я с минимальными значениями валидности и меры трудности. После этого были вновь рассчитаны коэффициенты корреляции заданий Валидность заданий значительно выросла. Валидность всего теста составила 0,6 для «улучшенного теста» против 0,14 для исходного. Таким образом, валидность «улучшенного» теста значительно выше, чем у исходного, то есть «улучшенный» тест лучше моделирует экспертную проверку навыков.

На основе проведс!шых исследований можно сделать следующие выводы.

1. Возможна разработка компьютерных тестов на проверку приобретенных навыков с достаточно высокими значениями валидности.

2. Необходимо тщательно проверял, характеристики педагогического теста, в частности, полезно рассмотреть матрицу коэффициентов корреляции между тестовыми заданиями, суммарным!! баллами испытуемых и экспертными оценками Анализ полученных данных позволит исключить «плохие» задания.

3. Для того чтобы создал, качественный тест, необходимо заменил, «плохие» задания на более качественные. Иногда для этого необходимо изменить форму задания |4|. После обновления теста следует вновь провести изучение его характеристик.

Таким образом, для создания тестов с высокими значениями валидности автор предлагает метод последовательного приближения к «идеальной» модели. Вначале создается тест на основе априорных знаний, затем проводится эксперимент по тестированию и экспертным оценкам, статистический анализ результатов эксперимента, «улучшение» заданий, новый эксперимент и так далее. Применение качественных тестов должно повышать эффективность учебного процесса.

ЛИТЕРАТУРА

I /1а а не aw B.C. Научные основы тестового контроля знаний. М : Исследовательский центр. 1994. 135 с

2. Авансам B.C. Композиция тестовых заданий М Адент. 1998 217 с

3. Клайн П. Справочное руководство по конструированию тсстов. Киев, 1994.

4 Зубец И.П., Ильин АЛ. Изучение некоторых свойств компьютерных тестов h Актуальны^ проблемы информатики и информационных технологий: Материалы IV-ой Тамбовской межвузовской научной конкуренции Сентябрь. 2000 Тамбов, 2000 С 22-23

Формирование обучающей последовательности, основанное на предварительном построении ее элементов в упорядоченную иерархическую систему, не отвечает, в настоящее время, всем критериям, которые предъявляются стремительным развитием науч-

ио-технического прогресса и темпом общественной жизни в целом.

В государственном образовательном стандарте даются наименования дисциплин и их основные разделы, которые в дальнейшем, при создании рабочих программ,

Изучение валидности компьютерного тестирования приобретенных навыков Текст научной статьи по специальности «Науки об образовании»

Похожие темы научных работ по наукам об образовании , автор научной работы — Зубец В. В.

Текст научной работы на тему «Изучение валидности компьютерного тестирования приобретенных навыков»