УДК 372.851
Из опыта конструирования тестов по математическим дисциплинам © Гефан Григорий Давыдович
кандидат физико-математических наук, доцент кафедры математики Иркутского государственного университета путей сообщения
Россия, 664074, г. Иркутск, Чернышевского, 15 E-mail: grigef@rambler.ru
© Кузьмин Олег Викторович
доктор физико-математических наук, профессор, заведующий кафедрой теории вероятностей и дискретной математики Иркутского государственного университета Россия, 664003, г. Иркутск, ул. Карла Маркса, 1 E-mail: quzminov@mail.ru
В статье проанализированы достоинства и особенности применения тестовой системы оценки знаний. Рассмотрены аргументы противников тестовых технологий. По мнению авторов, следует выступать не против тестов вообще, а лишь против плохих тестов. Фактически речь идет о вполне преодолимых проблемах, которые стоят перед разработчиками и пользователями тестов. Рассмотрены основные этапы конструирования теста. Даны рекомендации, как сделать тесты эффективным инструментом измерения и обучения. Эти рекомендации касаются количественных характеристик теста (размер тестовой базы, число предъявляемых заданий и время на выполнение); типологии тестовых заданий; характера заданий (задания должны быть идейно емкими, но технически несложными, ориентированными на логику, а не на зазубривание). Весьма желательно, чтобы по завершении теста студент мог просмотреть протокол с перечислением совершенных ошибок. Особое внимание следует уделять экспертизе (в том числе статистической) тестовых заданий.
Ключевые слова: тестирование, критика тестовых технологий, этапы конструирования теста, количественные и качественные характеристики теста, алгоритм тестирования, первичная и статистическая экспертиза тестовых заданий, показатели качества тестовых заданий.
From the experience of constructing tests in mathematics
Grigoriy D. Gefan
PhD in Physics and Mathematics, A/Professor, Department of Mathematics, Irkutsk State Railway University 15 Chernyshevskogo St, Irkutsk, 664074 Russia
Oleg V. Kuzmin
DSc in Physics and Mathematics, Professor, Head of the Department of the Theory of Probability and Discrete Mathematics, Irkutsk State University 15 Chernyshevskogo St, Irkutsk, 664074 Russia
The paper analyzes the advantages and application features of the test system of knowledge evaluation. The arguments of the opponents of test technologies are discussed. According to the authors, one should not argue against the tests in general, but only against bad tests. The main stages of constructing tests are considered. Recommendations are given how to construct effective tests. These recommendations concern: the quantitative characteristics of the test (size of the test base, the number of tasks and time for performing); typology of tests; nature of tasks (tasks have to be sophisticated, but technically simple, focused on logic rather than memorization). It is highly desirable that on completion the test a student can view the log with a list of errors made. Particular attention should be paid to the expertise (including statistical) test tasks.
Keywords: testing, criticism of test technologies, stages of constructing the test, the quantitative and qualitative characteristics of the test, the testing algorithm, the primary and statistical examination of test tasks, indicators of quality of tests.
В последние десятилетия использование тестов в образовании, с одной стороны, стало нормой, с другой — было подвергнуто жесткой критике (см., например, статью известного математика И. Ф. Шарыгина [1]). Критика тестирования часто сводится к высмеиванию неудачных тестовых заданий, что не дает никаких оснований говорить о дискредитации тестовой системы как таковой. К сожалению, истинная причина неприятия тестов субъектами образовательного процесса (учащимися и их родителями, преподавателями, руководителями педагогических коллективов) во многих случаях прозаична: в тестовой процедуре оценка выставляется без участия человека (с которым можно было бы договориться и/или как-то на него воздействовать).
Привлечение тестовой системы к проведению ЕГЭ, без сомнения, было продиктовано желанием исключить предвзятость преподавателей, сделать невозможным завышение или занижение оценки.
Удалось ли этого добиться? К сожалению, лишь частично. Имеются многочисленные факты «рассекречивания» тестовых заданий, когда ответы можно заранее найти в Интернете, случаи нечестности учителей, помогающих сдавать тесты, совершенно неправдоподобное количество «стобалльных» абитуриентов в некоторых республиках, краях и областях и т. д.
Означает ли это, что именно тестовая система себя скомпрометировала и от нее следует полностью отказаться? Перечисленные нарушения при проведении экзаменов (предвзятость и нечестность педагогов и т. п.) в не меньшей, если не в большей степени присущи любым устно-письменным испытаниям старого образца, что, собственно, и явилось, как сказано ранее, побудительным мотивом использования тестов в ЕГЭ. Если же говорить не об организационной, а о сущностной стороне дела, то разве именно тесты виноваты в том, что многие учащиеся ориентированы не на добывание знаний, а на зазубривание? До тех пор, пока преподаватели не будут учить думать, не будут поощрять стремление иметь собственное мнение, всякая система экзаменов будет плохой.
В данной статье проанализирована специфика тестовой системы оценки знаний и даны рекомендации, как сделать тесты эффективным инструментом измерения и обучения. Мы опираемся как на имеющуюся литературу по данному вопросу [2-4], так и на собственный опыт.
1. О недостатках и достоинствах тестовой системы оценивания знаний
Рассмотрим два популярных аргумента противников тестовых технологий.
Аргумент первый. Тесты — это игра в «угадайку», в «повезет — не повезет». Утверждение основывается на том факте, что самой популярной формой тестового задания является выбор ответа из предложенных вариантов. Однако, во-первых, тестовые задания в компьютерном исполнении могут иметь разнообразную форму, что сводит вероятность угадывания практически к нулю. Во-вторых, когда тест содержит несколько десятков заданий, элемент случайности в силу закона больших чисел играет как раз минимальную роль, в отличие от ситуации вытягивания обычного экзаменационного билета.
Аргумент второй. Тесты — это «поверхностный» инструмент контроля. Подготовка к тесту не стимулирует учащегося к накоплению знаний. С помощью теста можно проверить только элементарную информированность и простейшие навыки, но не глубокое понимание материала. Это гораздо более серьезный аргумент. Но не против тестов вообще, а лишь против плохих тестов. Фактически речь идет о тех проблемах, которые стоят перед разработчиками и пользователями тестов. Рассмотрим эти проблемы подробнее в порядке возрастания их сложности.
1. Ошибки в тестовых заданиях, в ответах к ним. Роль ошибок составителей тестов важна из-за того, что оценка выводится автоматически, без участия преподавателя. Для минимизации возможности ошибок тесты должны проходить тщательную экспертизу, в том числе и статистическую. Следует обращать самое серьезное внимание и на замечания самих тестируемых («вопрос непонятен», «не вижу правильного ответа среди предложенных», «с какой точностью требуется результат?» и т. п.), что позволяет выверить тестовую базу в течение короткого периода ее эксплуатации.
2. Возможность угадывания правильного ответа. Об этой проблеме и ее решении уже сказано ранее («аргумент первый»).
3. Запоминание учащимися правильных ответов. Это иногда действительно происходит при неоднократном тестировании или в том случае, если тестовая база открыта для изучения. Если речь идет о заданиях с числовыми ответами, то следует просто увеличить тестовую базу заданий: запомнить ответы, скажем, десяти однотипных вариантов некоторого задания невозможно, его можно только решить. Если же говорить о заданиях другого свойства — на определения, на порядок действий и т. п., то, возможно, что в этих случаях в запоминании есть определенный прок, поскольку должное понимание иногда приходит позже. Собственно, в этом отношении тесты ничем не отличаются, скажем, от устного экзамена, в ходе которого учащийся иногда механически «воспроизводит» те или иные истины или приемы без глубокого их понимания.
4. Сложность разработки хороших тестов. Обычный недостаток тестов по математическим дисциплинам: задание является идейно «плоским», но технически сложным, так что испытуемый в условиях дефицита времени просто погрязает в деталях и случайная ошибка в вычислениях сводит его усилия к нулю. Тестовое задание должно быть идейно емким, но технически несложным (разумеется, для человека, освоившего эту технику ранее). В идеале тестовое задание должно потребовать от человека всего две вещи: извлечь из памяти необходимую информацию о предмете; совершить необходимое усилие — вычислительное или логическое, классифицирующее и перерабатывающее эту информацию в контексте заданного вопроса. Изготавливать такие тесты далеко не просто, это требует
много времени и, главное, фантазии.
5. Какими бы хорошими ни были тесты, они действительно не дают возможности проверить оригинальность и глубину мышления испытуемого. Это может сделать только квалифицированный педагог в диалоге с учащимся или при проверке решения серьезной задачи. Но это уже проблема другого порядка. В любом случае тест, рассчитанный на обычных, стандартных студентов, не будет сложным для более одаренных молодых людей. Практика показывает, что они просто справляются с ним за меньшее время и без видимых усилий.
Серьезные преимущества, которые дает использование тестовых технологий, подробно проанализированы в работе [5]. Здесь лишь перечислим основные из них: объективность оценки; комплексный, объемный характер проверки знаний; высокая оперативность; удобные критерии оценивания знаний; современность, мультимедийность, внешняя привлекательность; возможность разработки программных комплексов для обучения и последующего тестирования. Прокомментируем только последний пункт этого списка. Если снабдить тест комментариями, наводящими вопросами и подсказками, разрешить переход от простых вопросов (шагов) к более сложным лишь при выполнении некоторого критерия и т. д., то получится не что иное, как обучающая программа, например, такая, как КОРТ [6, 7].
2. Основные этапы конструирования теста
Если разработка тестов поручается людям, внутренне не склонным к такой деятельности и потому сориентированным только на количественные показатели, а сами тесты разрабатываются в спешке, без должного понимания целей и задач тестирования, и не проходят должную экспертизу, то рассчитывать на хороший результат не стоит.
Для изготовления высококачественных и эффективных тестов должны быть пройдены следующие этапы.
1. В первую очередь необходимо четко определить задачу тестирования (в контексте учебного процесса). Такими задачами могут быть входной контроль, промежуточный контроль, рубежный контроль, итоговый аттестационный контроль и др. В зависимости от задачи тестирования выбираются различные параметры: численность банка заданий, разнообразие типов и т. п.
2. Большое значение имеет типология тестовых заданий. Конечно, самый простой и потому популярный тип — это задание на выбор единственного правильного ответа из числа предложенных вариантов. Этот тип заданий имеет определенные недостатки, о которых уже говорилось. В первую очередь это высокая вероятность угадывания. Типичный студент, получив такое задание и не зная правильного ответа, чаще всего просто выбирает тот вариант, который кажется ему более «правдоподобным». Таким образом, обучающая функция теста в данном случае часто не работает. Иначе обстоит дело с другими типами заданий: когда правильных ответов может быть несколько (и неизвестно, сколько); когда надо вписать правильный ответ самому; когда надо установить соответствие элементов двух групп; когда надо определить правильный порядок действий, величин и т. п. В этих случаях как бы принудительно «включается» логика, а интуитивные поиски «правдоподобия» отходят на второй план. Поэтому, на наш взгляд, задания на выбор единственного правильного ответа из числа предложенных вариантов не должны составлять более 40-50 % от общего числа заданий в тестовой базе.
Если говорить о тестах по математическим дисциплинам, то существует и другая крайность: тест состоит только из заданий, построенных по схеме «подставил в формулу и подсчитал», то есть тестовые задания походят на стандартные примеры из задачника. Такие задания могут и должны присутствовать в тесте, но если они преобладают, то тест выглядит бедно и непривлекательно, его обучающая функция снижена. На наш взгляд, наиболее ценными, развивающими являются задания причинно-следственные (почему? что следует?), инструментальные (каким образом?), логические, на восстановление последовательности, на соответствия и т. д.
Итак, проработка типологии тестовых заданий призвана сделать тест разнообразным, сбалансированным с точки зрения присутствия в нем различных по форме и содержанию вопросов, проверяющих и развивающих не только вычислительные навыки и механическую память, но и логику, представления о взаимосвязи основных понятий, знание методологии.
3. На следующем этапе выбирается техническое решение. Это может быть тестирование на бумажных носителях, на локальных компьютерах, сетевое тестирование, онлайн-тестирование в удаленном режиме и др. Тестирование на бумажных носителях имеет некоторые плюсы, но также и очень существенные недостатки:
- наборы тестовых заданий не генерируются случайным образом, а раз и навсегда зафиксированы на бланках, что резко снижает защиту;
- исключена или затруднена формулировка заданий в интересной форме, побуждающей к размышлению (как правило, можно реализовать только задания с выбором ответа из предложенных вариантов);
- требуется проверка работ (преподаватель работает со специальным ключом).
При тестировании в удаленном режиме главной проблемой является аутентификация личности тестируемого.
Дискуссионным является вопрос: надо ли, чтобы тестируемый после каждого своего ответа получал информацию о его правильности или неправильности? Казалось бы, с точки зрения обучающей функции теста, это является необходимым. Более того, на этапе обучения желательным является получение комментариев и разъяснений к совершенным ошибкам. Однако следует учесть, что в условиях тестирования многие студенты психологически способны только на эмоциональную реакцию: узнав, что ответ оказался неправильным, студент огорчается неудачей, но на ее причине не концентрируется, никаких выводов не делает. Обучающая функция теста в этом случае весьма сомнительна. Поэтому мы считаем, что лучше, чтобы во время тестирования студент не получал информации о правильности своих ответов, но по завершении теста, в спокойных условиях, мог просмотреть протокол с перечислением совершенных ошибок. Многие тестовые системы это позволяют.
4. Задание алгоритма тестирования включает в себя определение количества и способа отбора вопросов (случайный выбор, последовательный выбор, по мере возрастания сложности т. д.), определение шкалы оценивания, задание ограничений по времени и тому подобные вопросы. От предполагаемого алгоритма тестирования зависит необходимый объем тестовой базы.
Считается, что соотношение численности заданий в базе и в варианте теста должно составлять при тестировании на бланках минимум 20:1. При компьютерном тестировании оптимальным нам представляется соотношение 10:1. Таким образом, если мы собираемся предъявить студенту 25 заданий (на наш взгляд, в тесте по математическим дисциплинам больше давать не следует), то нам нужна база, состоящая примерно из 250 заданий. Однако дело осложняется тем, что при последующей экспертизе часть заданий (по нашему опыту — около 20 %) выбраковывается. Поэтому в общей сложности придется сделать, скажем, 300 заданий, из которых останется 240-250.
Оптимальное время, даваемое (в среднем) для выполнения одного задания, — 2 минуты (реально для различных заданий оно будет составлять 1-3 минуты). Это время необходимо для того, чтобы внимательно прочесть само задание, логически его осмыслить и, наконец, выбрать или получить правильный ответ. Задания, требующие значительно больше времени (например, 10 минут), по сути тестовыми не являются, это уже полноценные задачи, уместные в контрольной работе, но не в тесте. Таким образом, на тест из 25 заданий будет дано 50 минут. Это позволит, не перенапрягая участников, провести тестирование, а время, оставшееся до конца учебной «пары», потратить на просмотр протоколов и анализ результатов мероприятия.
Шкала оценивания тестируемых может быть разной. «Умеренно жесткий» вариант выглядит так: до 50 % правильных ответов — «неудовлетворительно»; от 50 до 70 % — «удовлетворительно»; от 70 до 85 % — «хорошо»; от 85 до 100 % — отлично.
5. На следующем, наиболее трудоемком, этапе происходит формирование тестовой базы.
6. На этапе первичной экспертизы с тестовой базой работают эксперты. Необходимо особо подчеркнуть, что экспертам рекомендуется оценивать задания в реальном режиме компьютерного тестирования. Одно дело — почитать задания, покритиковать неточные формулировки, и совсем другое — побыть в роли испытуемого. Тогда и становится понятным, каким должен быть тест — по сложности, по продолжительности и т. д.
7. Статистическая экспертиза. На этом этапе качество тестовых заданий оценивается объективно. Задание признается эффективным, годным, если оно реально выполняет свое назначение, то есть правильно отделяет «знающих» от «незнающих». В противном случае тестовое задание не только не проясняет реальную картину, но даже может искажать ее. Два наиболее популярных показателя качества тестового задания — коэффициент оптимальной трудности (КОТ) и коэффициент дискримина-тивности (КД). Остановимся на этом несколько подробнее. Рассмотрим таблицу 1. По накопленной статистике подсчитывается число правильных и число неправильных ответов на данное задание (М и N соответственно). Если М > Ы, то КОТ = Ы/ (М+п), и, наоборот, если М < Ы, то КОТ = М /(М+Ы).
Считается оптимальным, если правильно решает тестовое задание половина испытуемых. В этом случае КОТ = 0,5. Во всех остальных случаях КОТ имеет значение меньшее, чем 0,5. Далее, среди всех испытуемых, которым предлагалось выполнить данное задание, выделяют две 30-процентные группы, выполнившие тест в целом лучше и хуже остальных. Подсчитывается число испытуемых, давших правильный ответ на данное задание, в верхней и нижней группах (А и В соответственно), а также число испытуемых, давших неправильный ответ (С и В соответственно). После этого вычисляется коэффициент дискриминативности по формуле КД = А/(А+С) - В(В+В). В идеальной ситуации, когда все представители верхней группы («знающие») правильно решили данное задание, а все представители нижней группы («незнающие») — неправильно, С = 0, В = 0, КД = 1.
Таблица 1
Все испытуемые Верхняя группа испытуемых — 30 %, выполнивших тест лучше других Нижняя группа испытуемых — 30 %, выполнивших тест хуже других
Дали верный ответ на тестовое задание М А В
Дали неверный ответ на тестовое задание N С В
Рассмотрим пример. Прошли тестирование 1000 человек. Из них данное задание получили 100 человек, из которых правильно выполнили задание М = 55 и ошиблись N = 45. Среди этих 100 человек выделены 30 лучших и 30 худших по результатам тестирования в целом. Из 30 лучших дали правильный ответ на данное задание А = 25 человек, а из 30 худших — В = 10 человек. Соответственно С = 5, В = 20. Тогда КОТ = 45/100 = 0,45,
КД =-21-= 15 = 0.5 25 + 5 10 + 20 30 .
Приемлемыми можно считать значения КОТ более 0,25. Также считается, что удачные задания дают КВ > 0,3. Это задания, которые сильные студенты выполняют значительно лучше, чем слабые. Если 0 < КД < 0,1, то тестовое задание неудачно: сильные и слабые студенты отвечают на него одинаково хорошо (или одинаково плохо). Если КД < 0, то оно, скорее всего, содержит ошибку в ответе, так как сильные студенты отвечают на него «хуже» слабых.
Коэффициенты оптимальной трудности и дискриминативности сложным образом связаны между собой. Не вдаваясь в детали, отметим, что при трудности, близкой к оптимальной, задание может оказаться как высоко-, так и низкодискриминативным. Вместе с тем если КОТ мал, т. е. трудность задания далека от оптимальной, то его дискриминативность также будет низкой.
8. После накопления достаточной статистики неудачные и ошибочные задания надо исключить или исправить. Для повышения КОТ следует снизить вероятность слепого угадывания и исключить явную неоднородность предлагаемых вариантов ответа. Целесообразно применять в заданиях легко читаемые графики и иллюстрации, что позволяет, избегая сложных формулировок, проверять знание сразу нескольких понятий, свойств, положений. Как уже сказано, обычно задания с низким значением КОТ имеют и низкую дискриминативность. Однако если у легкого задания КД все-таки устойчиво положителен (на уровне 0,1-0,2), то такое задание можно оставить в тесте, рассматривая его как некий минимальный барьер для тестируемых.
3. Выводы
В заключение приведем рекомендации по конструированию и использованию тестов. Они имеют достаточно общий характер, но в большей степени относятся к тестам по математическим дисциплинам.
1. Не стоит использовать заданий, требующих большого числа действий. Тестовое задание должно быть идейно емким, но технически несложным.
2. Следует избегать заданий, требующих не логического мышления, а лишь зазубривания определений и формул.
3. Неправильные ответы в заданиях должны быть продуманы и сформулированы столь же тщательно и аккуратно, сколь и правильные ответы.
4. Важным является типологическое разнообразие тестовых заданий.
5. На наш взгляд, лучше, чтобы по ходу тестирования студент не получал информации о правильности своих ответов, но по завершении теста мог просмотреть протокол с перечислением совершенных ошибок.
6. Соотношение численности заданий в базе и в варианте теста должно быть не меньше, чем 10:1.
7. Оптимальное среднее время для выполнения одного задания — 2 минуты, полное время тестирования — 50 минут.
8. Обязательна не только первичная, но и статистическая экспертиза тестов с использованием характеристик качества отдельных тестовых заданий — коэффициента оптимальной трудности и коэффициента дискриминативности.
Литература
1. URL: http://www.mccme.ru/edu/index.php?ikey=shar_4_min (дата обращения: 19.09.2015).
2. Михайлычев Е. А. Дидактическая тестология. — М.: Народное образование, 2001. — 432 с.
3. Челышкова М. Б. Теория и практика конструирования педагогических тестов. — М.: Логос, 2002. — 432 с.
4. Равен Дж. Педагогическое тестирование: проблемы, заблуждения, перспективы. — М.: Когито-Центр, 1999. — 144 с.
5. Гефан Г. Д. Тест как составляющая экзамена: из опыта работы // Проблемы учебного процесса в инновационных школах. — Иркутск : Изд-во ИГУ, 2012. — Вып. 17. — С. 61-68.
6. Гефан Г. Д., Кузьмин О. В. Методика построения обучающих программ и их использование в преподавании математических дисциплин. // Вестник Бурятского государственного университета. — 2013. — Вып. 15. — С. 23-28.
7. Оболочка контрольно-обучающей программы «Комплекс Обучения, Репетиций, Тестирования» (КОРТ). Свидетельство о государственной регистрации программ для ЭВМ № 2012612992. Зарегистрировано в реестре программ для ЭВМ 27.03.2012. ФГБОУ ВПО «Иркутский государственный университет путей сообщения» / Г. Д. Гефан, О. В. Бутырин.
References
1. http://www.mccme.ru/edu/index.php?ikey=shar_4_min (accessed September 19, 2015).
2. Mikhailychev E. A. Didakticheskaya testologiya [Didactic Testing]. Moscow: Narodnoe obrazovanie, 2001. 432 p.
3. Chelyshkova M. B. Teoriya i praktika konstruirovaniya pedagogicheskikh testov [Theory and Practice of Constructing Educational Tests]. Moscow: Logos, 2002. 432 p.
4. Raven J. The Tragic Illusion: Educational Testing. Oxford: Oxford Psychologists Press, 1991.
5. Gefan G. D. Test kak sostavlyayushchaya ekzamena: iz opyta raboty [Test as a Part of Exam: Application Experience]. Prob-lemy uchebnogo protsessa v innovatsionnykh shkolakh - Problems of Educational Process in Innovative Schools. Irkutsk: Irkutsk State University Publ., 2012. V. 17. Pp. 61-68.
6. Gefan G. D., Kuz'min O. V. Metodika postroeniya obuchayushchikh programm i ikh ispol'zovanie v prepodavanii mate-maticheskikh distsiplin [The Method for Constructing Educational Programs and Their Application in Teaching Mathematical Disciplines]. Vestnik Buryatskogo gosudarstvennogo universiteta. Teoriya i metodika obucheniya - Bulletin of Buryat State University. Theory and Methods of Teaching. 2013. No. 15. Pp. 23-28.
7. Gefan G. D., Butyrin O. V. Obolochka kontrol'no-obuchayushchei programmy «Kompleks Obucheniya, Repetitsii, Testiro-vaniya» (KORT) [Shell of Online Tutorial "Complex of Learning, Rehearsals, Tests"]. Certificate of Computer Programs State Registration No. 2012612992 of March 27, 2013. Irkutsk State University of Railways.