И. И. Соколова
(Санкт-Петербург)
ДИДАКТИЧЕСКИЙ ПОТЕНЦИАЛ И РИСКИ ТЕСТИРОВАНИЯ DIDACTIC RESOURCES AND RISKS OF TESTING
В статье анализируется место тестирования в дидактических системах оценивания достижений различных категорий учащихся, возможности использования тестирования для мониторинга, дидактические особенности и ограничения (риски) тестирования как метода оценивания образовательных результатов
Ключевые слова: тестирование, мониторинг, оценивание, образовательные результаты
The article discusses the role of testing in didactic systems evaluating different categories of students. It also presents the potential of using testing for monitoring. Didactic aspects and risks of testing as a method of education results evaluation are also discussed Key words: testing, monitoring, evaluation, education results
Тестирование как метод диагностики образовательных результатов уже более двадцати пяти лет занимает значительное место в системе оценивания в России, применяется педагогами в дидактических процедурах текущего и итогового оценивания, в аттестационных процедурах, в мониторингах, однако все еще вызывает споры, имея сторонников и противников. При этом нужно признать, что дидактические возможности и ограничения этого метода, а также его специфические особенности, установленные более чем столетней историей тестологии, не часто обсуждаются в педагогической печати.
Тестирование объявляется ответственным за недостатки ЕГЭ, отождествляется с «угадайкой», не предназначенной для выявления глубоких осмысленных знаний. За этим чаще всего стоит отсутствие культуры тестирования и тестологических знаний у участников образовательного процесса, а также переоценка дидактических возможностей тестирования, слабые представления о его особенностях и ограничениях как метода. В статье в компаративном контексте рассматриваются дидактические особенности тестирования, его роль в системе управления образовательными системами и результатами образования.
Оценивание в образовательном процессе все чаще рассматривается в широком смысле
в связи с результатами образования - индивидуальными, коллективными, институциональными - и принципиально может преследовать несколько разных, иногда противоречивых целей: образовательного или профессионального отбора, мониторинга качества образовательного процесса или его результатов, проверки усвоения знаний, умений, освоения компетенций и др.
Отбор (селекция] при переходе на следующие уровни обучения в результате оценивания с применением тестирования остается важным рычагом управления образованием и формирования образовательных систем разного уровня во многих, если не в большинстве, странах мира, главным источником проблем в образовании, в том числе социального неравенства, если отсев при таком отборе слишком велик (доля переходящих из начальной школы в среднюю колеблется от 99-100% в развитых странах до 34%, например, в Танзании].
Таким образом, сдача экзамена является для индивида жизненно важным этапом, к которому приходится готовиться целенаправленно и особо. Эту ответственность чувствует и учитель: его труд оценивается с учетом успешности учеников, часто - по результатам поступления в вузы.
Еще одна роль оценивания - сертификация. Во многих странах мира, в том числе и в
России, решения об отборе принимаются в связи с результатами оценивания на предыдущем уровне или цикле обучения. Все это приводит к вымыванию из учебного процесса педагогических задач, связанных с личностным развитием, общей образованностью, воспитанностью в пользу рутинных задач «натаскивания на экзамен».
Мониторинг и менеджмент в сфере образования также предполагают применение оценочных процедур. Массовые оценивания по единым методикам призваны предоставить информацию для улучшения управления образованием и качества образования, являются инструментом наблюдения за реформированием системы, выработки политики в сфере образования и определения причин различий в образовательных результатах, обеспечивают оценку отдельных образовательных программ и мониторинг тенденций учебных достижений с течением времени, а также поддержку ответственности образовательных учреждений за образовательные результаты.
К такого рода процедурам относят международные тестирования PISA, TIMS, исследование SIMSE в Чили, ряд исследований ЮНЕСКО и ЮНИСЕФ и др. По итогам принимаются судьбоносные для образовательных учреждений и участников образовательного процесса решения. Однако не следует забывать, что в сравнительный анализ результатов необходимо включать переменные, описывающие различия образовательных систем. Характеристики сравнивающихся систем, как правило, имеют специфику. Их понимание и выводы по совершенствованию зависят от особенностей истории развития национальной системы и сложившейся системы ценностей.
Исследователи отмечают, что прямой перенос систем оценивания или образовательных систем из одной страны в другую редко дает однозначно положительный результат, да и сама перенесенная система приживается в редких случаях. В то же время сравнение оказывается полезным для выявления латентных характеристик системы. Еще одним важным обстоятельством, которое необходимо учитывать в международных тестированиях, являются трудность и часто встречающаяся неполная адекватность перевода текстов заданий, затрудняющие сравнение результатов.
Ориентация на экзамен и форму, в которой он проводится, или на оценочные требования мониторингов вступает в противоречие в деятельности учителя с решением иных образовательных задач - повышение качества образования, развитие творческого потенциала обучающихся, энциклопедических знаний, поддержка познавательной активности учащихся и т.п. Не удивительно, что учитель вынужден делать выбор, перестраивая образовательный процесс в угоду этим обстоятельствам. Собственно дидактическое, образовательное оценивание с целью повышения качества обучения на основе систематического диагностирования и информирования обучающихся, их родителей об образовательных успехах или проблемах, присущее классической деятельности учителя и выполняющее ориентационную, коррекцион-ную, мотивационную, обучающую функции, к сожалению, уходит на второй план или вступает в противоречие с «внешними» задачами оценивания.
Тестирование изначально было методом оценивания педагогом учащегося, развивалось в начале XX века как психометрическое тестирование, оценивание развитости интеллекта и т.п. Педагогические дидактические тесты изначально использовались как основа для консультирования по совершенствованию «усвоения стратегий обучения» (США] и профессионального консультирования. Они по целям, построению и содержанию отличаются от тестов, которые применяются в мониторингах и при аттестации, от тестов для отбора. Кроме того, при сравнении различных оценочных методов не следует забывать, что все они имеют позитивные и негативные влияния на учеников, имеют определенные ограничения в применении. Еще в XI веке Фан Жонг Яан указывал на негативное влияние экзаменов на развитие воображения, закрепление с их помощью пренебрежительного отношения к практическим занятиям [1].
Цель оценивания связана с его форматом. Многие исследователи подчеркивают, что «соответствие цели» - важное требование к построению тестирования [2, с. 46-62]. Так, Х. Голдштейн показал, что дидактическая система диагностики индивидуальных достижений, которая предполагает выявление и обсуждение с преподавателем слабых мест в обучении, должна предполагать обязатель-
ную «открытость и честность», чего трудно требовать от мониторинговых испытаний, которые не обязательно нацелены на выявление лучших учеников или преподавателей или на выявление причин проблем и средств коррекции результатов обучения [3]. Вообще говоря, общественные дискуссии об оценивании образовательных результатов часто разводят по разные стороны баррикад учителей, учеников, их родителей, администрацию, чиновников образовательных структур. Какие именно роли оценивания превалируют в том или другом исследовании, в той или другой стране, в ту или иную историческую эпоху - зависит от конкретных экономических, социальных, политических факторов. Когда обучение превращается в наработку квалификации, школа становится, по мнению Дора [4], антиобразовательной. Этот автор указывает на периоды в Великобритании, Индии, России, Венесуэле, когда «обучение, ориентированное на сдачу экзаменов, осуществлялось за счет истинного образования» [4, с.72]. Отсюда - обсуждение проблем «образовательной инфляции», «болезни дипломов», «сертифицита» [5].
Такого рода проблема существует и при ориентации оценивания на метод тестирования: поскольку чаще всего тестовые компьютерные среды поддерживают, да и сама практика педагогической диагностики тестовым методом тяготеет к закрытым формам заданий, предполагает проверку знания фактов, определений, теоретических выводов, а не оценку применения методов открытия нового, тренинг исследовательских и творческих навыков, развитие способности наблюдать и рассуждать и т.д. Эти задачи в обучении решаются в последнюю очередь.
Левин [6, с. 135-139] указывает в своем исследовании: 70% учителей в разработке тестов используют только закрытую форму теста (множественный выбор], 66% никогда не составляли тесты на оценку практических навыков. Такая же картина наблюдается и в практике работы наших российских преподавателей. В конечном итоге поощряется репродукция, а не производство знания, осуществляется обучение, мотивированное оцениванием, а не интересом к предмету.
Среди других рисков злоупотребления оцениванием с помощью тестов: - ориентация большинства используемых при проверках заданий на проверку зна-
ний, а не умений и компетенций;
- сильная, установленная практикой тестирования во время массовых мероприятий по аккредитации вузов и в ходе ЕГЭ зависимость результатов тестирования от наличия самого опыта тестирования как мощного фактора, влияющего на результат (установлено, что сам по себе опыт тестирования может обеспечить результат на 20-25% выше тем, кто этот опыт имеет, по сравнению с так же подготовившимися по программе, но не имеющими большого опыта тестирования обучающимися];
- заложенная в технологии тестирования возможность угадывания ответа (в зависимости от вида тестового задания - до 50% по заданию], и следовательно, риск превращения тестирования в определенную игру на сообразительность;
- в силу ограничения по времени на выполнение задания теста, вносимого требованиями тестологии, ограничение на представление в тесте творческих комплексных задач;
- сведение тестирования к письменной работе, редукция речевой деятельности, что приводит к существенному сужению поля предъявляемых образовательных результатов.
Тем не менее педагогическое тестирование предоставляет множество преимуществ как метод диагностики. Современный педагог школы, колледжа, вуза должен их понимать и использовать. Так, например, можно говорить о высоком дидактическом потенциале тестирования с применением компьютера, который заключается в возможности:
- использования стандартизованного диагностического материала в одинаковых для всех тестируемых условиях и в работе с «дружественным интерфейсом»;
- индивидуализации опроса путем выбора темпа и порядка работы с тестовой базой в условиях уникального порядка предъявления тестовых заданий и, как правило, общего ограничения времени на выполнение теста;
- применения в современных компьютерных средах заданий, включающих видеоматериалы, работу с моделями, конструкторами, тренажерами;
- работы с большими потоками тестируемых, позволяющей получать одномо-
ментно результаты оценивания;
- хранения и обработки результатов тестирований - для получения обратной связи о качестве процесса обучения, поскольку современные среды позволяют быстро выполнить срез по дисциплине, теме - по большой группе испытуемых для того, чтобы оценить успешность и пробелы в знаниях, осуществлять образовательный мониторинг для принятия управленческих решений;
- выполнения обучающей функции оценивания, поскольку работа с тестами позволяет обучающимся самим обнаружить и устранить пробелы в знаниях.
Современные компьютерные среды должны позволять поддерживать экспертизу тестовых заданий, устанавливать гибкую шкалу «линейки» оценивания для выставления баллов или определения рангов тестируемым, адаптироваться к процессу тестирования, предъявляя тестовые задания в зависимости от качества предыдущих ответов при работе с заданиями разной сложности. Создание баз тестовых заданий трудоемко, но является большим подспорьем в оценочной работе преподавателя. Однако тестология требует выполнения довольно жестких правил при составлении баз тестовых заданий, реализации процедуры тестирования и грамотной статистической обработки его результатов. Невыполнение этих правил сводит на нет усилия, направленные на объективацию результатов, полученных с помощью этого наукоемкого метода современной диагностики.
Первая группа правил нацелена на выполнение дидактических задач тестирования. Тестовая база должна равномерно отражать содержание образовательной программы курса, оформлена в соответствии с его разделами. Тестовое задание должно быть четко ориентировано на так называемую дидактическую единицу (проверяемое знание, умение, навык], а в совокупности - тест должен оценивать определенные образовательные результаты, компетенции, которые необходимо диагностировать на конкретном этапе обучения. Смысл тестового задания должен быть ясен, конструкция соответствовать нормам языка, варианты ответов не содержать явных подсказок, сложность задания определяться экспертными и статистически-
ми методами. Выработаны рекомендации по оформлению заданий разного типа: задание закрытого типа должно содержать 4-5 вариантов ответа примерно одинаковой длины, в заданиях открытого типа желательно пропускать дополнение, стоящее ближе к концу фразы, задание на соответствие должно содержать разновеликие столбики сопоставляемых характеристик объектов и др.
Вторая группа правил содержит рекомендации по стандартизации процедуры тестирования: она должна проводиться в специально созданной спокойной обстановке, предоставляющей возможность индивидуальной работы, не требовать использования каких-либо пособий или сложных вычислений. Инструкции по выполнению задания должны быть предельно ясны. Время тестирования ограничивается физиологическими требованиями: для студентов рекомендуется время тестирования около 45 минут, но не более 80 минут (не должны сказываться усталость, понижение внимания], для более младших испытуемых - не более 45-60 минут. Считается, что время выполнения одного задания в среднем не должно превышать 2-х минут. Испытуемым рекомендуется ответить на все вопросы, подключив интуицию (догадаться, выбрать наиболее вероятный ответ].
Третья группа правил касается статистической обработки результатов тестирования и выставления балльных оценок. При больших выборках в дидактическом тестировании применяют правила обработки для нормального распределения. Однако в общем случае речь должна идти о специальной статистике для объектов нечисловой природы
[7].
Объективность и достоверность результатов тестирования во многом определяются качеством тестовых баз и тестов, такими их характеристиками, как валидность, надежность, дифференцирующая способность, то-чечно-бисериальная корреляция и др., которые можно определить, исследуя результаты выполнения теста статистически значимым количеством респондентов. Предварительно необходима экспертиза теста, составленного преподавателями, независимыми экспертами-специалистами. Отдельная методика обработки требуется для решения о результатах выполнения нормативных тестов, которые, в отличие от критериально
-ориентированных, как правило, и используются в образовательной практике.
В испытаниях в рамках выпускных экзаменов в школах, экзаменов в вузах часто применяются не только тестовые задания, но и письменные работы - эссе, решения задач, кейсы и другой инструментарий, компенсирующий недостатки тестирования. Диагностика образовательных результатов должна содержать и устные формы испытаний, отражать творческую деятельность обучающихся (портфолио, творческие, ис-
следовательские работы и др.] в соответствии с образовательными задачами, заявленными в программах. Дидактический потенциал тестирования требует дальнейших исследований, в том числе экспериментальных. Важным направлением могут стать лонгитюдные исследования, выявляющие потенциал тестирования в рамках образовательной прогностики - выявление факторов, определяющих успехи учащихся и возможные причинно-следственные механизмы.
Литература
1. Cleverley J. The Schooling of China. Sydney George Allen and Unwin, 1985.
2. Локхед М. Новое в оценке образовательных результатов: международный аспект/ [А.Литтл, М.Э.Локхед, В.Чайнапа и др.; пер. М.С. Добряковой]; под ред. А.Литтл, Э.Вулф; Моск. выс. шк. социал. и экон. наук. - М.: Просвещение, 2007.367 с. - (Образование: мировой бестселлер).
3. Goldstein H. Assessment in Schools: an alternative framework. Education and Training Paper No. 5. L.: Institute for Public Policy Research, 1991.
4. Dore R.P. (1976). The Diploma Disease: Education, Qualification and Development. London: George Alien and Unwin.
5. Milner М. (1972). The Illusion of Equality, the Effects of education jn Opportunity, Inequality and Social Conflict. San Francisco: Jossey-Bass.
6. Lewin K. M. and Little A. W. (1984). Examination reform and educational change in Sri Lanka 1972-1982: modernization or dependent underdevelopment? In Watson, K. Dependence and Interdependence in Education. London: Croom Helm.
7. Васильев В. И., Красильников В. В., Плаксий С. И., Тягунова Т. Н. Статистический анализ многомерных объектов произвольной природы. - М.: Изд-во ИКАР, 2014.