Булгаков Олег Митрофанович Ладыга Антон Игоревич Черненко Александра Александровна
Особенности целеполагания контроля учебных достижений обучающихся и его реализации в разработке дидактических тестов
Рассмотрены характерные ошибки методического характера, допускаемые разработчиками тестов для оценивания учебных достижений обучающихся. Представлены рекомендации по разработке тестов и тестовых заданий с выбором единственного верного ответа, призванные обеспечить повышение достоверности оценок знаний и умений обучающихся компьютерными тестами за счет направленности тестирования на минимизацию вероятности ошибок оценивания учебных достижений целевой категории испытуемых.
Ключевые слова: контроль учебных достижений обучающихся, дидактические тесты, компьютерное тестирование, ошибки оценивания, модель обучающегося.
Features of goal-setting control of educational achievements of students and its implementation in the development of didactic tests
The characteristic errors of a methodological nature, made by the developers of tests for evaluating the educational achievements of students, are considered. Recommendations are presented on the development of tests and test tasks with the choice of a single correct answer, designed to increase the reliability of assessments of knowledge and skills of students by computer tests by focusing testing on minimizing the likelihood of errors in assessing educational achievements of the target category of examinees.
Keywords: control of educational achievements of students, didactic tests, computer testing, assessment errors, student model.
Компьютерное тестирование учебных достижений обучающихся (КТУДО) стало распространенным инструментом современной дидактики и педагогической квалиметрии, а сами тесты, как правило, являются важным компонентом фондов оценочных средств различных образовательных программ. Принципы и методики построения тестов, отбора содержания, формирования алгоритмов оценивания и интерпретации результатов тестирования, обеспечивающие достижение наилучших показателей характеристик тестов, достаточно полно и всесторонне исследованы [1-6]. Тем не менее в практике КТУДО нередко возникают инциденты, ставящие под сомнение как объективность оценок, полученных испытуемыми, так и их верифицируемость другими способами оценивания знаний и умений контролируемого контингента обучающихся.
Проблемы достоверности оценок КТУДО могут быть сведены к ошибкам оценивания выполнения тестовых заданий (ТЗ) первого
рода (расценивание ответа как неверного при реальном знании верного ответа испытуемым) и ошибкам второго рода (засчитывание ответа как верного при его незнании) [7; 8]. Причинами ошибок первого рода являются методические и технические ошибки разработчика теста, невнимательность испытуемых при прочтении заданий и вводе ответов и их низкая мотивация к решению тестов, например, при контроле остаточных знаний в ходе контрольных мероприятий, выходящих за рамки учебного плана (внешнего аудита образовательной организации, мониторинга реализации образовательных программ в вузовских системах управления качеством образования и др.).
Характерными методическими недостатками тестов, приводящими к ошибкам первого рода, являются [1; 9; 10; 11]:
- избыточное видовое многообразие ТЗ, требующее постоянного переключения внимания испытуемых на изменяющийся порядок их выполнения;
87
- незначительность или малозаметность отличий дистракторов от верного ответа (замена термина равнозначным эквивалентом, относительно малые количественные несовпадения и т.п. (примеры 1, 2);
- избыточное количество дистракторов в ТЗ с выбором единственного верного ответа или нескольких верных ответов (пример 1);
- громоздкие формулировки вопросов и вариантов ответов, требующие дополнительных усилий и времени на их внимательное прочтение и осмысление;
- избыточная сложность ТЗ, несоизмеримая со временем их выполнения;
- относительно большое количество ТЗ, направленных на проверку малозначительных знаний, частностей, второстепенных деталей (пример 2);
- некорректное начисление баллов и штрафов при частично верном решении в ТЗ с множественным выбором, на установление соответствий, с градацией ответов, на установление последовательности, с упорядочиванием дистракторов;
- неоднозначность выбора верного ответа из предлагаемых вариантов, причиной которой могут быть частично верные дистракторы, спорность верного ответа (пример 1);
- опора на субъективные суждения или субъективное восприятие каких-либо событий и явлений (пример 3).
Пример 1. Первая Гаагская конференция завершилась...
11 июня 1899 года; 23 июня 1899 года; 5 июля 1899 года; 17 июля 1899 года; 29 июля 1899 года; 10 августа 1899 года.
Пример 2. Применение химических снарядов запрещено.
конвенцией, принятой Первой Гаагской конференцией;
декларацией, принятой Первой Гаагской конференцией;
манифестом, принятым Первой Гаагской конференцией; хартией Первой Гаагской конференции; итоговым протоколом Первой Гаагской конференции.
Пример 3. Какое сражение Наполеон назвал «самым страшным» из всех, в которых он принимал участие? под Бородином; под Лейпцигом; под Аустерлицем; под Берлином.
Ошибки второго рода, приводящие к завышению оценок реальных знаний обучающихся, чаще всего проявляются при контроле текущей успеваемости, предварительной и промежуточной аттестации. Их основные причины - знание испытуемыми части верных ответов заранее (например, при многократном применении теста, когда информация о вопросах и формулировках предположительно верных ответов может передаваться от прошедших тестирование обучающихся к тем, чьи знания еще не подвергались проверке) и недостаточная устойчивость ТЗ к угадыванию верных ответов, в свою очередь, порожденная методическими просчетами составителя теста. Наиболее типичные из них [1; 3; 7; 11]:
- недостаточное количество дистракторов в ТЗ с выбором единственного верного ответа, что повышает вероятность случайного угадывания (пример 4);
- скрытые подсказки в виде явных отличий (фразеологических, синтаксических, лексических) верных ответов от дистракторов (пример 5);
- скрытые подсказки в виде абсурдности отдельных дистракторов или тривиальности их распознавания и исключения из рассмотрения испытуемым (пример 6);
- скрытые подсказки в формулировках вопросов (пример 7);
- взаимосвязь содержания ТЗ, когда какой-либо вопрос является ответом (или наводит на ответ) на другой вопрос (пример 8);
- относительно большое количество тривиальных вопросов и заданий, а также вопросов, ответы на которые не требуют понимания изученного материала или могут быть даны на основе общей эрудиции (пример 4).
Пример 4. Какие угрозы безопасности информации являются преднамеренными?
несанкционированный доступ;
ошибки персонала;
открытие электронного письма, содержащего вредоносную программу.
Пример 5. Обоснованность отнесения сведений к государственной тайне и их засекречивание заключается в.
установлении путем экспертной оценки целесообразности засекречивания конкретных сведений, вероятных экономических и иных последствий этого акта, исходя из баланса жизненно важных интересов государства, общества и граждан;
решении руководителя органа внутренних дел;
проверке соответствия сведений пункту перечня сведений, подлежащих засекречиванию;
88
проставлении в установленном порядке соответствующего грифа секретности.
Пример 6. Командир татарского отряда, ответственный за сбор дани на Руси и контролирующий князей, назывался... баскак; пристав; ярлык; барокко.
Пример 7. Поражение под Нарвой, победа под Полтавой, победа в Гангутском сражении относятся к событиям.
русско-польской войны 1654-1667 гг.; Северной войны;
русско-турецкой войны 1768-1774 гг.; Семилетней войны.
Пример 8. Вопрос 1. Основное содержание деклараций Первой Гаагской конференции:
о запрещении применения отдельных видов боеприпасов;
о пересмотре Женевских конвенций 1864 г.; о законах и обычаях сухопутных войн; о правах и обязанностях нейтральных государств;
о статусе и правах военнопленных. Вопрос 2. Боевое применение пуль со смещенным центром тяжести запрещено декларацией Первой Гаагской конференции. накануне англо-бурской войны; после русско-японской войны; по окончании Первой Мировой войны; накануне Балканских войн; по окончании Крымской войны. Требования к разработке тестов и ТЗ, направленные на минимизацию ошибок оценивания первого и второго рода, довольно противоречивы. Так, минимизация ошибок второго рода за счет обеспечения приемлемой дифференцирующей способности теста требует увеличения количества ТЗ и дифференциации их сложности, что является фактором снижения надежности теста, приводит к увеличению времени выполнения теста и тем самым к повышению вероятности ошибок первого рода. Снижению ошибок первого рода способствует видовая однородность ТЗ, однако составление теста из заданий одного вида создает трудности в обеспечении его дифференцирующей способности при ограниченном количестве заданий. Воспроизводимость результатов тестирования снижается с повышением вариативности выборки ТЗ, т.е. увеличением и редактированием их базы, которые, в свою очередь, обеспечивают уменьшение вероятности ошибок второго рода за счет деградации теста. Необходимо отметить, что воспроизводимость результатов
и устойчивость к деградации являются факторами обеспечения надежности теста. Повышение порога положительной оценки, с одной стороны, приводит к снижению вероятности ошибок второго рода, с другой стороны, за счет сужения диапазонов положительных оценок -к уменьшению дифференцирующей способности теста, также обеспечивающей минимизацию ошибок второго рода.
Таким образом, разработчик теста, оперируя механизмами достижения искомых показателей подчас противоречивых характеристик тестов, по сути, решает задачу многомерной оптимизации. Оптимизируемыми параметрами являются количество ТЗ, их сложность, время тестирования, количество начисляемых баллов за ответы (в том числе частично верные) на задания различной сложности и величина штрафов за неверные ответы, диапазоны правил перевода баллов в оценки. Критерии оптимальности и алгоритмы оптимизации, как правило, носят эвристический характер, а достижение приемлемой достоверности оценок тестирования определяется квалификацией разработчика теста, зависящей от его практического опыта.
Как показывает экспертиза тестов и баз ТЗ, основой и первопричиной недостоверного оценивания учебных достижений обучающихся является неопределенность целеполагания при разработке тестов, что довольно характерно и в целом для формирования фондов оценочных средств. Неопределенность целеполагания может проявляться:
- в неопределенности целевой аудитории (отсутствии «привязки» содержания и сложности теста по учебной дисциплине к специальности и специализации тестируемых);
- в отсутствии или неправильном учете приоритетов наиболее важных дидактических единиц содержания обучения (ДЕСО) в объеме ТЗ;
- в несоответствии содержания ТЗ и их сложности виду контроля учебных достижений: предварительной или промежуточной аттестации, контролю остаточных знаний (с учетом сроков завершения изучения контролируемого содержания), оцениванию уровня сформированное™ компетенции и др.;
- в отсутствии априорного моделирования тестирования учебных достижений обучающихся, основанного на модели обученности тестируемых, необходимого для корректировки дифференцирующей способности теста и оценки его надежности.
Иными словами, разработчики тестов контроля учебных достижений обучающихся зачастую создают их «на все случаи жизни», ориентируясь
89
главным образом на охват контролируемого содержания безотносительно целевой аудитории и особенностей целеполагания, способных через сложность теста, его дифференцирующую способность и другие характеристики существенно повлиять на выбор видов ТЗ, распределение их сложности, объем и вариативность выборки и иные компоненты структуры теста.
Отправной точкой конкретизации задач разработки теста контроля учебных достижений, на наш взгляд, следует считать модель испытуемого. Разработчику теста необходимо не только ориентироваться на предполагаемый уровень обученности (в том числе с учетом времени, прошедшего с момента окончания изучения контролируемого содержания), но и количественно определить для себя модельные параметры той части контингента обучающихся, которая должна остаться за чертой удовлетворительной оценки. Модель аутсайдера должна учитывать не только приемлемый уровень знаний, выраженный в количестве набранных баллов или проценте правильных ответов, но и тактику выполнения ТЗ с неизвестным ответом и наиболее вероятный сценарий решения теста в целом.
Примерная классификация учебных достижений и когнитивных способностей обучающихся, которая с учетом перспектив ее детализации может быть положена в основу построения моделей испытуемых, включает в себя укрупненные категории:
1) «знает, соображает» - обучающийся не только освоил содержание обучения, но и умеет применить его для решения задач, в том числе комплексного характера;
2) «знает, не соображает» - обучающийся освоил содержание обучения формально («вызубрил»), затрудняется с применением знаний, особенно при видоизменении заданий, допускает ошибки в интерпретации полученных решений, не в полной мере ориентируется в причинно-следственных и логико-структурных взаимосвязях отдельных ДЕСО;
3) «не знает, соображает» - обучающийся не освоил содержание обучения или его большую часть, однако за счет общих знаний и эрудиции, профессионального кругозора, знаний смежных дисциплин, жизненного опыта и интеллекта способен истолковать отдельные термины и понятия, сориентироваться в отдельных темах и ДЕСО, в особенности с помощью наводящих вопросов и подсказок;
4) «не знает, не соображает» - обучающийся не освоил содержание обучения или его большую часть, включая тезаурус, и при этом не об-
ладает достаточным интеллектом и знаниями в смежных областях, чтобы применять их в совокупности с фрагментарными, обрывочными, бессистемными знаниями контролируемого материала для успешного прохождения соответствующих аттестационных испытаний.
Очевидно, проектирование тестов должно быть нацелено на безусловное положительное оценивание знаний испытуемых первой из приведенных выше категорий и оценивание как неудовлетворительных знаний испытуемых четвертой категории, а также сведение к минимуму вероятности получения положительной оценки испытуемыми второй и третьей категорий. Для повышения объективности оценивания учебных достижений испытуемых второй категории ТЗ, помимо проверки знаний, должны выявлять их глубину и системность. Здесь инструментальным подспорьем разработчика тестов могут стать ТЗ усложненной структуры: на градацию верных ответов, на упорядочивание дистракторов [2; 3; 7]. Напротив, объективность оценивания учебных достижений испытуемых третьей категории должна основываться на конкретике проверяемых знаний, основу соответствующего теста могут составлять относительно простые разновидности ТЗ: с выбором единственного верного ответа и множественным выбором.
Уместно отметить, что разные авторы [1; 2; 12; 13], исходя из целеполагания разработки оценочных средств, помимо диагностических тестов, подразделяющихся на тесты общих и специальных способностей и тесты обучен-ности и учебных достижений, выделяют в отдельный класс дидактические тесты с особым отбором содержания ТЗ, предназначенные не только выявлять знание или незнание изученного материала, но и оценивать прочность знаний, их полноту, глубину, системность, актуальность, конкретность и общность.
К особенностям разработки дидактических тестов, по нашему мнению, следует отнести:
- системность выборки ТЗ, которая обеспечивается как системным характером формирования базы заданий, так и алгоритмом формирования выборки;
- детализацию оценивания наиболее важных, ключевых ДЕСО;
- неявное (в том числе с использованием ТЗ различных видов и различной сложности, с формулировками «тезис - антитезис» и др.) дублирование проверяемых ДЕСО в одной тестовой выборке;
- применение ТЗ, ориентированных на проверку понимания, а не формального знания материала;
90
- применение различного рода терминологических и смысловых «ловушек», способных выявить «зазубривание» материала без глубокого понимания его смысла;
- применение проверочных «закладок», способных выявить угадывание правильных ответов при их реальном незнании или деградацию базы ТЗ [7];
- штрафование за попытки угадать верный ответ в алгоритмах начисления баллов за выполнение ТЗ (например, вычитание баллов за неверный ответ и начисление ноля баллов за отказ от выбора ответа (пропуск задания);
- начисление большего количества баллов за верное решение заданий, требующих системного понимания изученного материала.
Очевидно, что воспроизведение всех перечисленных выше признаков в одном тесте приведет к увеличению его объема (за счет дублирования проверки одних и тех же ДЕСО, увеличения количества ТЗ для проверки наиболее важных ДЕСО и диагностики деградации теста), сложности алгоритма оценивания и разработки теста в целом. Проектирование диагностических тестов требует высокой квалификации разработчика, опыта применения им ТЗ различных видов, владения методиками априорного оценивания надежности теста, его сложности и дифференцирующей способности, а также статистического анализа эмпирических данных для корректировки и доработки теста.
Следует отметить, что несмотря на высокий диагностический потенциал ТЗ на установление соответствий, установление последовательности, с градацией ответов, с упорядочиванием дистракторов, подавляющее большинство разработчиков тестов в качестве основной структурной единицы теста отдают предпочтение ТЗ с выбором единственного верного ответа [9]. В связи с этим сформулируем требования к тестам из ТЗ с выбором единственного верного ответа, которые призваны придать диагностическому тесту дидактическую направленность:
- однородность - стилистическая, терминологическая, смысловая - предлагаемых вариантов ответа каждого ТЗ в отдельности [3; 9; 14] (пример 9);
- применение ТЗ с удвоенным противопоставлением [2; 6; 14] (пример 10);
- применение в ТЗ сочетаний одинаковых или близких по смыслу слов, знаков, терминов (пример 11);
- формулирование ТЗ на основе импликации, т.е. проверки знаний причинно-следственных отношений объективного характера
с использованием в явном или неявном виде логической связки «если ..., то ...». [2; 4; 14] (пример 12);
- использование в части ТЗ вариантов ответа «все ответы верные» или «все ответы неверные» в качестве как дистрактора, так и верного ответа;
- комплексный характер формулирования ТЗ, обеспечивающий проверку взаимосвязанных знаний, понятий (вопрос 2 примера 8);
- применение в качестве дистракторов слов, созвучных верному ответу (пример 6а);
- сочетание ТЗ с короткими (на знание, узнавание - пример 6а) и развернутыми (на знание, понимание, рассуждение - пример 4а) дистракторами.
Пример 9. Аттестация объектов информатизации по требованиям безопасности не проводится в отношении.
автоматизированных систем, средств связи, обработки и передачи информации;
помещений, предназначенных для ведения секретных и конфиденциальных переговоров;
технических средств, установленных в выделенных помещениях;
физических лиц, имеющих доступ к объекту информатизации;
стационарных устройств хранения информации.
Пример 10. В битве на Куликовом поле в 1380 г. сошлись войска. Чингисхана и Тамерлана; Тохтамыша и Дмитрия Донского; Мамая и Тохтамыша; Александра Невского и Батыя; Дмитрия Донского и Мамая. Пример 11. К способам защиты информации относятся:
правовой, криптографический, технический, физический;
организационный, правовой, технический, тактический;
физический, технический, аналитический, программный;
индивидуальный, объектный, коллективный, всеобщий;
программно-технический, организационно-правовой, структурно-логический.
Пример 12. Снижение процентной ставки по кредитам приводит к. росту инфляции;
активизации предпринимательской деятельности;
увеличению объемов банковских вкладов; снижению потребительского спроса; притоку банковского капитала.
91
Пример 4а. Какие угрозы безопасности информации являются преднамеренными? несанкционированный доступ; халатное отношение администратора системы информационной безопасности к своим обязанностям;
открытие электронного письма, содержащего вредоносную программу;
разглашение паролей и кодов доступа третьим лицам;
работа с несертифицированным оборудованием и программным обеспечением.
Пример 6а. Командир татарского отряда, ответственный за сбор дани на Руси и контролирующий князей, назывался. баскак; ясак;
басурман;
басмач;
бурсак.
Конкретизация и детализация целей КТУ-ДО неизбежно приводит к увеличению объемов тестов, в особенности с учетом различных моделей решения отдельных ТЗ и тестов в целом, характерных для разных категорий
1. Аванесов В. С. Теория и практика педагогических измерений (материалы публикаций в открытых источниках и Интернет). Екатеринбург, 2005.
2. Крокер Л., Алгина Дж. Введение в классическую и современную теорию тестов: учебник / пер. с англ. Н.Н. Найденовой, В.Н. Симкина, М.Б. Челышковой; под общ. ред. В.И. Звонникова, М.Б. Челышковой. М., 2010.
3. Ким В. С. Тестирование учебных достижений. Уссурийск, 2007.
4. Маслак А.А. Теория и практика измерения латентных переменных в образовании. М, 2016.
5. Звонников В. И. Современные средства оценивания результатов обучения: учеб. пособие. М, 2008.
6. Ефремова Н. Ф. Тестовый контроль в образовании: учеб. пособие. М., 2005.
7. Булгаков О.М., Старостенко И.Н., Хромых А.А., Дедикова А.О. Модели оценки качества тестов для контроля знаний. Краснодар, 2021.
8. Острейковский В.А. Теория надежности: учеб. для вузов. 2-е изд., испр. М., 2008.
9. Булгаков О.М., Ладыга А. И. Тестирование остаточных знаний обучающихся. Краснодар, 2021.
10. Лопаткина Е.В. Современные средства оценивания результатов обучения: учеб. пособие. Владимир, 2012.
испытуемых. В связи с этим разработчик тестов, опираясь на собственный опыт преподавания и знание контингента испытуемых, может ориентировать КТУДО на минимизацию ошибок оценивания второго рода наиболее многочисленной категории испытуемых. Направленность КТУДО на определенную модель обучающегося, реализованная в недостижимости порога удовлетворительной оценки для соответствующей целевой категории или группы испытуемых, призвана не столько предъявить обучающимся объективные результаты освоения ими образовательных программ, сколько продемонстрировать и конкретизировать им проблемы в обучении, порождающие пробелы в знаниях и умениях. Тем самым результаты КТУДО с применением дидактических тестов и их анализ могут стать отправной точкой для осознанного выбора обучающимися наиболее эффективных дидактических средств образовательной организации, перехода на интерактивные модели обучения с возрастанием ролевого статуса обучающихся в образовательном процессе.
1. Avanesov US. Theory and practice of pedagogical measurements (materials of publications in open sources and the Internet). Yekaterinburg, 2005.
2. Croker L., Algina J. Introduction to the classical and modern theory of tests: textbook / transl. from English. by N.N. Naydenova, V.N. Simkina, M.B. Chelyshkova; under total ed. by V.I. Zvonnikov, M.B. Chelyshkova. Moscow, 2010.
3. Kim V.S. Testing of educational achievements. Ussuriysk, 2007.
4. Maslak A.A. Theory and practice of measuring latent variables in education. Moscow, 2016.
5. Zvonnikov V.I. Modern means of evaluating learning outcomes: study aid. Moscow, 2008.
6. Efremova N.F. Test control in education: study aid. Moscow, 2005.
7. BulgakovO.M., Starostenko I.N., KhromykhA.A., Dedikova A.O. Models for assessing the quality of tests for knowledge control. Krasnodar, 2021.
8. Ostreykovsky V.A. Reliability theory: textbook for universities. 2nd ed., rev. Moscow, 2008.
9. Bulgakov O.M., Ladyga A.I. Testing the residual knowledge of students. Krasnodar, 2021.
10. Lopatkina E.V. Modern means of evaluating learning outcomes: study aid. Vladimir, 2012.
11. Bespalko V.P. Pedagogy and progressive learning technologies. Moscow, 2013.
12. Avanesov US. Fundamentals of the pedagogical theory of measurements // Pedagogical measurements. 2004. No. 1. P. 15-21.
92
11. Беспалько В.П. Педагогика и прогрессивные технологии обучения. М., 2013.
12. Аванесов В. С. Основы педагогической теории измерений // Педагогические измерения. 2004. № 1. С. 15-21.
13. Балыхина Т.М. Словарь терминов и понятий тестологии. М., 2000.
14. Аванесов В.С. Научные проблемы тестового контроля знаний. М., 1994.
13. Balykhina T.M. Dictionary of terms and concepts of testology. Moscow, 2000.
14. Avanesov US. Scientific problems of test control of knowledge. Moscow, 1994.
СВЕДЕНИЯ ОБ АВТОРАХ
Булгаков Олег Митрофанович, доктор технических наук, профессор, первый заместитель начальника Краснодарского университета МВД России; e-mail: ombfrier@yandex.ru;
Ладыга Антон Игоревич, кандидат экономических наук, начальник управления учебно-методической работы Краснодарского университета МВД России; e-mail: evan-evans@yandex.ru;
Черненко Александра Александровна, кандидат экономических наук, заместитель начальника управления - начальник отдела организации учебного процесса Краснодарского университета МВД России; e-mail: a_chernaya23@rambler.ru
INFORMATION ABOUT AUTHORS
O.M. Bulgakov, Doctor of Technics, Professor, First Deputy Head of the Krasnodar University of the Ministry of the Interior of Russia; e-mail: ombfrier@yandex.ru;
A.I. Ladyga, Candidate of Economics, Head of the Department of Educational and Methodical Work of the Krasnodar University of the Ministry of the Interior of Russia; e-mail: evan-evans@yandex.ru;
A.A. Chernenko, Candidate of Economics, Deputy Head of Department - Head of the Department for Organization of the Educational Process of the Krasnodar University of the Ministry of the Interior of Russia; e-mail: a_chernaya23@rambler.ru
93