Научная статья на тему 'Модель генерации адаптивных тестов по уровню их сложности'

Модель генерации адаптивных тестов по уровню их сложности Текст научной статьи по специальности «Науки об образовании»

CC BY
773
103
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕСТИРОВАНИЕ / АДАПТИВНОЕ ТЕСТИРОВАНИЕ / ВАЛИДНОСТЬ ТЕСТА / НАДЕЖНОСТЬ ТЕСТА / TESTING / ADAPTIVE TESTING / VALIDITY OF A TEST / SAFETY OF A TEST

Аннотация научной статьи по наукам об образовании, автор научной работы — Лихтенвальд Эдуард Константинович

В статье рассматривается идея адаптивного тестирования, представлена разработанная модель генерации адаптивных тестов по уровню их сложности. На основе апробации опытно-экспериментальным путем предложенной модели проведен сравнительный анализ и рассмотрена эффективность адаптивного тестирования. Представлены понятия валидности и надежности теста.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по наукам об образовании , автор научной работы — Лихтенвальд Эдуард Константинович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODEL OF GENERATION OF ADAPTIVE TESTS BY LEVEL OF THEIR COMPLEXITY

In this article the idea of adaptive testing is considered a developed model of generation of adaptive tests by the level of their complexity is presented. On the basis of approbation of the offered model by an experience-experimental method the comparative analysis is carried out and the effectiveness of adaptive testing is considered. The concepts of validity and safety of a test are presented.

Текст научной работы на тему «Модель генерации адаптивных тестов по уровню их сложности»

МОДЕЛЬ ГЕНЕРАЦИИ АДАПТИВНЫХ ТЕСТОВ ПО УРОВНЮ ИХ СЛОЖНОСТИ

Тестирование, адаптивное тестирование, валидность теста, надежность теста.

Педагогический тест — это инструмент, предназначенный для измерения обученности учащегося, состоящий из системы тестовых заданий, стандартизованной процедуры проведения, обработки и анализа результатов. В наше время тестирование как раздел диагностики знаний становится наиболее популярным. Выделяют два основных вида теста: адаптивный и традиционный. Традиционный тест представляет собой фиксированное количество заданий с некоторым количеством ответов, итоговая оценка формируется исходя из числа правильных ответов с учетом весовых коэффициентов. Недостатком такого тестирования может быть ситуация, когда слабому студенту по одному из разделов теста предоставляется задание, а может, даже и ряд заданий высокой сложности, с которыми он не справляется. Соответственно, обучаемый по данному разделу получит неудовлетворительную оценку, что, по сути, не описывает его реального знания. С другой стороны, сильный студент может получить легкий тест и не реализовать свои способности. Для обеспечения максимальной информативности результатов контроля диагностики знаний необходимо, чтобы средняя сложность предъявляемого обучаемому теста соответствовала его гипотетическому уровню знаний.

Адаптивное тестирование — это широкий класс методик тестирования, предусматривающих изменение последовательности, содержания и сложности предлагаемых заданий в самом процессе тестирования с учетом ответов испытуемого. Основным смыслом адаптивного тестирования является приспособление сложности тестовых заданий к уровню знаний тестируемого. Практически это можно осуществить с помощью методов адаптивного тестирования, при использовании которых оценка сложности каждого задания получается путем обработки статистической информации знаний испытуемого, что исключает субъективность конечной оценки. Сам процесс такого тестирования позволяет адаптировать тестовый контроль к уровню знаний тестируемого, что снижает время, затрачиваемое испытуемым на прохождение контрольных испытаний. Надо сказать, что центральная идея адаптивного тестирования давно была интуитивно понята педагогами и продолжает использоваться ими, особенно в практике проведения устных экзаменов и других контрольных процедур. Педагог обычно начинает экзамен, задавая студенту вопрос средней сложности. В случае если студент успешно с ним справляется, следующий вопрос оказывается более сложным, и так далее, пока педагог не увидит максимальный доступный для студента уровень.

Цель настоящей работы — представить реализованную модель автоматической генерации тестов с внешней и внутренней адаптацией заданий по уровню их сложности.

В разработанном АУеЬ-приложении предлагается несколько вариантов реализации адаптивного тестирования. Условно адаптивные тесты были разбиты на тесты с внешней адаптацией уровня сложности заданий и внутренней адаптацией. Под внешним адаптивным тестом понимается тест, имеющей многоуровневую по слож-

ности базу данных тестовых заданий, а алгоритм отбора и предъявления задания строится по принципу обратной связи. При правильном ответе испытуемого на текущее задание следующее выбирается более сложным, и наоборот, неверный ответ влечет за собой предъявление более легкого задания.

Модель внутренней адаптации предполагает создание базы данных тестовых заданий, каждое из которых имеет несколько подсказок с разным уровнем ценности. В этом случае реализуется внутренняя адаптация, заключающаяся в возможности для тестируемого снижать уровень сложности задания, используя подсказки, тем самым обеспечивая поиск правильного ответа на задания, соответствующие своему уровню подготовленности.

В \¥еЬ-приложении реализовано несколько модификаций как для внешнего адаптивного тестирования, так и для внутреннего адаптивного тестирования. Эффективность адаптивного тестирования исследуется на примере апробированной опытно-экспериментальным путем модели внешнего адаптивного теста.

Исходя из приведенного выше определения внешнего адаптивного тестирования, были определены основные направления создания модели.

1. Для полной и достоверной диагностики знаний по определенному учебному курсу, состоящему из нескольких непересекающихся разделов (тем), необходимо определить подготовленность обучаемого по каждому разделу.

2. На основе дифференциации банка вопросов определение последующей сложности представляемых заданий производить методом дихотомии.

Отметим, что в силу большей необходимости дифференциация банка заданий состоит в разбиении на три класса сложности («удовлетворительно», «хорошо», «отлично»).

Тестирование по первому разделу

Переход на следующий раздел

Класс 1 \_ + ? —► Сг Класс 1

11 / + + . Сз

Класс 3 ^ + ? . С6 Класс 3

11 У + + ^ С7

Рис. Схема тестирования с входным параметром среднего класса сложности:

(л, Сг, Сз, С4, Сб, Сб, С7 - выходные параметры по пройденному разделу. В случае необходимости данные параметры также могут описывать весовой коэффициент данного раздела

Итак, суть рассматриваемой модели адаптивного тестирования состоит в коротком адаптивном тестировании по каждому разделу учебного курса с итоговым подсчетом средней оценки по всему курсу.

Производится адаптивное тестирование по каждому разделу, на каждой итерации тестирующемуся предлагаются два вопроса из одного класса сложности с целью уменьшения вероятности угадывания правильного ответа на вопрос. Начальным уровнем сложности является средний класс сложности. Схема адаптивного тестирования по некоторому разделу с входным параметром среднего класса сложности, приведена на рис.

При переходе на задания следующего раздела класс сложности заданий определяется конечным классом сложности предыдущего раздела.

Использовалась разработанная база тестовых заданий по курсу «Информатика» для студентов I курса института экономики и управления СФУ.

Учебный курс «Информатика» для студентов I курса института экономики и управления СФУ состоит из 6 основных тем:

— теория информации;

— вычислительные системы;

— программное обеспечение и информационные технологии;

— информационные системы;

— алгоритмизация и программирование;

— искусственный интеллект и компьютерное моделирование.

База данных адаптивной системы диагностики знаний по учебному курсу «Информатика» для студентов I курса института экономики и управления разделена на 6 разделов. Каждый раздел состоит из заданий одной из тем, приведенных выше. В свою очередь, задания каждого раздела разбиваются на три класса сложности: первому классу сложности соответствуют задания, оценивающиеся на «удовлетворительно»; второму классу — задания, оценивающиеся на «хорошо»; третьему классу — на «отлично».

Задания составлялись по следующим источникам: Пак Н.И. Информатика: учебное пособие: лекционный материал по курсу «Информатика».

Одним из ключевых моментов диагностики знаний является необходимость не только оценивать уровень знаний испытуемых, но и анализировать качество диагностических материалов, что необходимо для адекватной оценки знаний.

Понятие качества диагностических материалов включает в себя оценку их надежности и валидность, являющихся одними из важнейших характеристик педагогических измерений.

Валидность теста - комплексная характеристика, определяющая, насколько методика соответствует поставленным задачам. Различают содержательную и функциональную валидность: первая — это соответствие теста содержанию контролируемого учебного материала, вторая — соответствие теста оцениваемому уровню деятельности. Определить коэффициент функциональной валидности теста — значит определить, как выполнение теста соотносится с другими, независимо сделанными оценками знаний испытуемых. Для определения функциональной валидности требуется независимый внешний критерий, то есть оценка эксперта (преподавателя). За коэффициент валидности принимают коэффициент корреляции результатов тестовых измерений и критерия. Если экспертная оценка знаний испытуемых, полученная независимо от процедуры тестирования, представлена числовой последовательностью У1,У2,...,Уп (у1,у2,--;Уп — числовая последовательность соответ-

ствующих тестовых оценок), то коэффициент валидности теста может быть рассчитан по формуле:

—---------Уху

т 7 п П

У =---------------X-----,

8у х8у п-1

где - стандартное отклонение экспертных оценок, 8у — стандартное отклонение тестовых оценок, У — средняя арифметическая экспертных оценок, у — средняя арифметическая тестовых оценок, п — количество испытуемых.

Надежность — это устойчивость результатов теста к действию случайных посторонних факторов при проведении повторного тестирования, то есть устойчивость результатов повторного тестирования одного и того же испытуемого. При этом необходимо, чтобы сами испытуемые не изменяли свой уровень подготовки перед повторным тестированием. Надежность теста связана с понятием стандартной ошибки, чем выше надежность, тем меньше стандартная ошибка измерений. Существует несколько различных понятий надежности диагностического теста и, соответственно, методов ее определения:

— ретестовая надежность;

— надежность расщепленных частей теста;

— надежность параллельных форм.

Надежность параллельных форм - характеристика, получаемая с помощью параллельных форм (вариантов) теста, проведенных на одной и той же выборке испытуемых. Корреляция результатов обоих тестов является показателем надежности.

Если величина коэффициента надежности Р составляет от 0,90 до 0,99, то тест имеет отличную оценку надежности, если от 0,80 до 0,89 - хорошую, от 0,70 до

0,79 — удовлетворительную и менее 0,69 — неудовлетворительную надежность.

Проведенный сравнительный анализ классического и внешнего адаптивного тестирования по курсу «Информатика» показал.

Коэффициент «валидность»:

— V = 0,8593 — адаптивное тестирование (выборка из 54 тестирующихся);

— V = 0,749 — классическое тестирование (выборка из 52 тестирующихся).

Для вычисления коэффициента надежности было проведено два последовательных тестирования на группе студентов из 52 человек. На данной выборке коэффициент надежности составил Р = 0,9155 .

Рассмотренная модель внешнего адаптивного тестирования обладает хорошей степенью валидности, и, как предполагалось, валидность адаптивного тестирования превышает валидность рассмотренной модели классического тестирования. Также внешнее адаптивное тестирование обладает высокой степенью надежности результатов к действию случайных посторонних факторов.

Для создания тестов, использующих модель внутренней адаптации, был разработан модуль, позволяющий создавать задания с некоторым количеством подсказок. Содержание подсказок должно быть направлено на уменьшение сложности предоставляемого задания. Предполагается, что создатель теста сам определяет количество «штрафных баллов» при использовании той или иной подсказки. Таким образом, тестирующий отвечает на фиксированное количество заданий, сохраняя за собой возможность уменьшения сложности задания при необходимости.

Создание заданий с подсказками представляет сложную, слабо проработанную дидактическую проблему. База заданий подобного типа в настоящее время находится в стадии наполнения. В этой связи провести исследование их эффективности не представилось возможным.

Приглашаем всех желающих поучаствовать в разработке и использовании заданий для автоматизированного адаптивного тестового контроля (http://sde.sfu-kras.ru).

Библиографический список

1. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 1997. 480 с.

2. Челышкова М.Б. Адаптивное тестирование в образовании (теория, методология, технология). М.: Исследовательский центр проблем качества подготовки специалистов, 2001. 165 с.

3. Челышкова М.Б. Теория и практика конструирования педагогических тестов. М.: Логос, 2002. 410 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.