Обратное влияние тестирования на обучение (washback) как проблема современной тестологии (по материалам англоязычной методической литературы)

Большакова Ирина Георгиевна

УДК 371.263

Вестник СПбГУ. Сер. 9. 2014. Вып. 1

И. Г. Большакова

ОБРАТНОЕ ВЛИЯНИЕ ТЕСТИРОВАНИЯ НА ОБУЧЕНИЕ (WASHBACK)

КАК ПРОБЛЕМА СОВРЕМЕННОЙ ТЕСТОЛОГИИ

(ПО МАТЕРИАЛАМ АНГЛОЯЗЫЧНОЙ МЕТОДИЧЕСКОЙ ЛИТЕРАТУРЫ)

Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7/9

В работе рассматривается обратное влияние тестирования на обучение, основные принципы воздействия тестирования на учебные планы и методику преподавания. Анализируется проблема «натаскивания на тест» и ее негативное влияние на процесс обучения, а также негативные эффекты применения стандартизированных тестов, и предлагаются способы нивелировать их отрицательное влияние на процессы обучения. Библиогр. 14 назв.

Ключевые слова: обратное влияние тестирования, стандартизованные тесты, обучение, учебные планы, оценивание.

WASHBACK AS A PROBLEM OF MODERN TESTOLOGY (BASED ON ENGLISH-SPEAKING TEACHING LITERATURE)

I. G. Bolshakova

St. Petersburg State University, 7/9, Universitetskaya nab., St. Petersburg, 199034, Russian Federation

The article looks at the phenomenon of washback (or backwash) and basic principles of impact that high-stakes tests have on curricula and teaching methods. The problem of "teaching to the test" is under consideration as well as its negative influence on learning process and devastating effects of inappropriate use of high-stakes tests. The author describes possible ways to decrease their negative influence on learning process. Refs 14.

Keywords: Washback, testing, high-stakes tests, education, curriculum, assessment, teaching, learning.

Термин «обратное влияние», или «обратный эффект», в тестировании обычно означает то влияние, которое тесты или экзаменационные испытания способны оказывать на академические учебные планы и методы преподавания.

В английском языке для обозначения обратного влияния тестирования на обучение равнозначно используются термины «Washback» и «Backwash», выбор того или другого из них зависит главным образом от симпатий исследователя. Вместо термина Washback в качестве синонимов могут употребляться и другие, такие как test impact, systemic validity, consequentional validity, test feedback, curriculum alignment (подстра-ивание учебного плана под тест, в терминологии Шоухами) или measurement-driven instruction. Браун [1] отмечает, что обратное воздействие тестирования на обучение может быть как позитивным, так и негативным, и следовательно, может быть и благом, и угрозой для целей изучения языка. Посредством обратного эффекта тест может направлять учебный план в то или иное русло, как по желанию, так и против желания администраторов системы образования, педагогов, учащихся и их родителей.

Рассуждения об обратном влиянии тестов закономерно подводят к рассмотрению проблем тестовой валидности в терминах социальных последствий использования тестов и значимости правильных интерпретаций результатов теста [1].

Таким образом, об обратном эффекте тестирования можно говорить в двух плоскостях: в более узком смысле, на микроуровне, затрагивающем эффект обучения

в классе и влияние на учащихся и педагогов, и в более широком смысле (часто — test impact) — на макроуровне, относящемся к выработке политических решений, администрированию в сфере учебных заведений, издательской деятельности, ожиданиям, которые родители связывают со своими детьми, а также в целом к уровню общих возможностей для человека в данном обществе [1]. Следовательно, на макроуровне обратный эффект тестирования способен выходить за границы отдельно взятого учебного класса и проявляться в рамках всей образовательной системы или даже общества в целом.

По мнению Цатуровой и Балуян [2, с. 32], на тестируемых могут влиять три аспекта процедуры тестирования:

1. Опыт участия в тестировании и подготовки к нему.

2. Оценка их знаний, умений, навыков.

3. Решения, которые могут быть приняты на основании этой оценки.

С. Gipps в своей работе "Beyond testing: Towards a theory of educational assessment" [3] подробно анализирует различные взгляды на обратное влияние (washback). Так, первоначально внимание исследователей было привлечено к влиянию, оказываемому тестами на то, чему учат (what is taught), то есть на содержание обучения, а также на то, как учить, то есть на методику преподавания. Фредериксен [4] писал, что любой тест, вероятно, влияет на поведение учащихся и учителей, при условии, что они знают о нем заранее. Он объяснял это тем, что учащиеся стремятся хорошо выполнить тест, но и учителя также заинтересованы в том, чтобы их ученики успешно его выполнили. Поэтому существует тенденция к возрастанию времени и усилий, затрачиваемых на обучение тому, что измеряют тесты. Но так как время обучения ограничено, усилия по изучению материала, не измеряемого тестом, сокращаются. В итоге знания и навыки, проверяемые тестами в силу того, что их можно измерить легко и с минимумом затрат, становятся единственными, которым вообще обучают, они как бы выступают в роли магнита для учебного плана — curricular magnet (термин из работы Попхэм [5]). Тогда как важные навыки, которые не измеряются тестом, выпадают из содержания обучения.

Пример того, какие причины могут заставлять целые организации подстраивать свои учебные планы под методы итогового оценивания, можно найти, например, у Фредериксена [4] и Фелпса [6].

Однако не все исследователи полагали, что обратное влияние тестов (washback) имеет исключительно негативное значение. Так, Попхэм [5] описал его позитивное воздействие в своей концепции Measurement-Driven Instruction (MDI), что можно перевести как «обучение в соответствии с требованиями методики контроля результатов». MDI подразумевало воздействие хай-стейкс теста на программу подготовки обучаемых, разработанную с тем, чтобы помочь им успешно выполнить этот тест. Попхэм считал, что преподаватели, вне зависимости от движущих ими факторов (будь то собственная самооценка или благополучие и перспективы учащихся), определенно стремятся к тому, чтобы их ученики успешно выполняли итоговый тест. Это заставляет их концентрировать программу подготовки вокруг требований итогового теста, который и выступает в качестве curriculum magnet — своеобразного магнита для учебного плана. Попхэм приводит свидетельства в пользу того, что введение MDI во многих американских штатах привело к значительному улучшению базовых навыков у учащихся. Однако Попхэм столкнулся с критикой, связанной с тем, что

его аргументы относятся лишь к навыкам низшего уровня. Действительно, не приводится никаких свидетельств в пользу положительного влияния MDI на когнитивные навыки высшего порядка.

Можно было бы предположить, что в этом случае использование MDI являлось бы полезным, к примеру, на уровне начальной школы, где как раз существенным представляется усвоение базовых навыков. Однако, с нашей точки зрения, стоит заметить, что базовыми навыками обучение не должно ограничиваться даже в младших классах. В противном случае, если рассчитывать на то, что можно начинать обучение сложным когнитивным навыкам (например, креативному мышлению) в более позднем возрасте, есть вероятность, что в средней школе этим навыкам обучать будет уже некого. Действительно, при натаскивании учеников младших классов в течение нескольких лет на развитие лишь базовых навыков предпосылки к прогрессу на более сложных когнитивных уровнях у них могут быть существенно заторможены или попросту уничтожены.

Мадо [7] постулирует несколько принципов, которые представляются весьма существенными и касаются воздействия тестирования на учебные планы и методику преподавания:

Принцип 1. Способность тестов воздействовать на индивидов, институты, учебные программы и процесс обучения является феноменом восприятия. Если учащиеся, преподаватели и представители администрации верят, что результаты экзамена важны, то не играет никакой роли, является это на самом деле правдой или нет. Эффект достигается тем, во что люди верят.

Принцип 2. Чем больше любой количественный социальный индикатор используется для принятия социальных решений, тем с большей вероятностью он будет разрушать и разлагать тот социальный процесс, который призван контролировать.

Принцип 3. Если по результатам теста предполагается принимать важные решения, то учителя будут заниматься натаскиванием на выполнение теста.

Принцип 4. В любой обстановке, где применяются хай-стейкс тесты, развиваются традиции сдаваемых экзаменов, которые в конечном итоге и определяют учебные программы.

Принцип 5. Главное внимание учителя уделяют форме вопросов в хай-стейкс тестах (например, вопросы с множественным выбором и т. д.) и строят свое обучение, ориентируясь на них.

Проблема состоит в том, что сама форма вопроса способна сужать границы обучения, действуя в ущерб другим навыкам.

Принцип 6. Когда тестовые результаты являются единственным судьей будущих возможностей выбора в образовании или других сферах жизни, общество начинает трактовать эти результаты как главную цель обучения, а не как подверженный ошибкам индикатор достижений.

Принцип 7. Хай-стейкс тесты передают контроль над программой обучения учреждению, которое проводит или контролирует экзамен.

Государство может делегировать эти полномочия, дающие реальную власть над сферой образования, коммерческим организациям (например, производящим тестовые материалы), для которых финансовые интересы являются первичными, а образовательные — вторичными.

Вопросы воздействия способов оценивания на феномены обучения описаны достаточно подробно и в работе Крукса [8], который привлекает внимание читателя к проблемам не только стандартизованных тестов, но и не менее значимых процедур оценивания учеников во время работы на занятиях в классе (classroom evaluating practices).

Крукс делает вывод, что необходимо способствовать развитию углубленных стратегий обучения с раннего школьного возраста, и этому мог бы способствовать акцент на оценивании когнитивных навыков высшего порядка (которые, как упоминалось выше, очень сложно оценивать с помощью стандартизованных тестов).

Помимо интереса к обратному влиянию тестов на учебные планы, методику преподавания и содержание обучения, более поздние исследователи затронули и вопрос об их влиянии на мотивацию обучаемого. В этой связи рассматривались вопросы каузальной атрибуции (приписывания каким-либо обстоятельствам причин своих успехов и неудач) и их связь с когнитивными стратегиями обучаемых и со способностью формировать внутреннюю мотивацию, источником которой являются личностные потребности, а не внешние вознаграждения [3, с. 41]. Так, Браун считает, что тесты, в особенности полноразмерные стандартизованные тесты (которые обычно выполняются однократно, в условиях ограниченного времени, являются деконтекстуализированными, нормативно ориентированными и содержат значительное количество вопросов в формате множественного выбора) стимулируют внешнюю мотивацию [9, с. 252]. С другой стороны, такие задания, как портфолио, дневниковые записи, самооценочные методики, по всей вероятности, усиливают внутреннюю мотивацию.

По мнению Крукса, если рассматривать оценивание и мотивацию, то лучшей из всех возможных систем является такая, когда программа обучения индивидуализирована, и акцент при оценивании делается на прогрессе, который показывает в обучении каждый отдельный студент (речь идет об ипсативной оценке, когда измерения человеческих качеств проводятся относительно самих себя, а не в сопоставлении со среднестатистическими нормами).

Серьезной проблемой для ряда исследователей представляется ситуация, когда стратегией обучения становится «натаскивание на тест» (teaching to the test), то есть когда программа обучения превращается в подготовку к стандартизованному тесту.

Критики хай-стейкс тестов, то есть тестов, имеющих большое значение для дальнейшей жизни тестируемого, обычно выделяют 4 вида негативного воздействия тестирования на обучение, связанного с «натаскиванием на тест» вместо преследования более широких учебных целей:

1. Сужение учебной программы в ущерб нетестируемым предметам (например, связанным с преподаванием истории, рисования, музыки, физкультуры и т. д. В российских школах это может касаться, например, русской словесности, второго иностранного языка, астрономии).

2. При изучении тестируемых предметов — удаление или сужение тех разделов и навыков, которые не проверяются в тесте.

3. Сведение учебных планов и обучения к запоминанию отдельных порций фактической информации.

4. Выделение слишком большого объема учебного времени для подготовки к тесту (то есть конкретным приемам и стратегиям выполнения теста, например, тренировке заполнения тестового бланка) вместо реального обучения.

Р. Фелпс, будучи сторонником хай-стейкс тестов, замечает, однако, что с введением стандартизованных тестов усиливается процесс унификации в образовании. Это касается как стандартов учебного плана, так и тестов, и самого процесса обучения. Каждый учитель должен проходить с классами одного и того же уровня одинаковый материал. Это воспринимается как проклятие многими преподавателями, сохранившими романтичные взгляды на обучение и полагающими, что каждый учитель — это опытный мастер, творец, который разрабатывает уникальные планы обучения для уникальных классов [6, с. 40].

В настоящее время многие исследователи считают, что использования данных стандартизованного теста недостаточно для оценивания и принятия решений. Представители демократического направления в оценивании настаивают, что пришло время подвергнуть критическому пересмотру применение тестов, особенно в терминах их неадекватного использования (например, в целях, позволяющих осуществлять контроль или применять власть), причем пересмотру в интересах испытуемого [10]. Необходимо разрабатывать и внедрять альтернативные методы вместо традиционной, ориентированной на данные одного теста, системы, использовать многомерное оценивание, переходить от тестов к различным типам оценочной процедуры, использующим как количественную, так и качественную информацию. Возможно, с применением многомерного подхода к оцениванию языковых навыков удастся сгладить воздействие факторов, приводящих к искажению тестовых результатов, и нивелировать негативное обратное влияние тестовой оценки на процессы обучения и функционирование образовательных систем в нашем обществе.

Как уже отмечалось в наших исследованиях, «учитывая ряд неоспоримых достоинств тестовых методов, следует признать, что система образования вряд ли когда-нибудь полностью откажется от их применения» [11, с. 157]. Поэтому есть, вероятно, единственная возможность избавиться от негативного эффекта washback — лишить хай-стейкс тесты ореола социальной значимости и власти, который они имеют при принятии социально важных решений, то есть «понизить ставки» этих тестов (в процессе чего само определение «хай-стейкс» утратит смысл). Это возможно, например, в ситуации, когда тестирование станет добровольным, при этом обязательные формы оценивания будут проводиться не в тестовой форме. Такое решение уже начинает находить понимание у отдельных представителей государственной власти [12].

Это могло бы стать одним из вариантов решения проблемы. Но в этом случае тесты утратят свою функцию accountability, то есть возможность поставлять численную информацию о совокупности испытуемых и выступать в качестве источника статистических данных, а значит, и в качестве основы для отчетности, для чего их всегда с большим успехом использовали. На основе добровольной выборки нельзя будет сделать выводы, характеризующие генеральную совокупность испытуемых.

Определенное статистическое представление о текущем положении дел мы сможем получать, если сохраним применение стандартизованных тестов, но не в качестве решающего экзаменационного испытания, имеющего важные последствия в жизни испытуемого. Этот способ, последний в приведенном выше списке, подраз-

умевает применение тестов в качестве средств текущего и промежуточного (периодического) контроля в том контексте, в котором проводились, например, школьные контрольные работы, в том числе полугодовые и годовые. При этом «текущий контроль выполняет систематическую, контрольно-корригирующую функцию проверки» [13, с. 65]; он, в отличие от итогового, не связан «с какими-либо учебными циклами, блоками материала» [14, с. 35] и служит для получения обратной связи, применяясь 6-8 раз в течение семестра, а «промежуточный (периодический) контроль проводится с целью проверки овладения материалом по завершении отдельных этапов обучения (не более двух за семестр)» и помогает выявлять общее состояние успеваемости учащихся [13, с. 65].

При таком решении проблемы оценивания наиболее важные испытания (например, вступительные или выпускные экзамены) целесообразно проводить в традиционном, нетестовом формате. При этом тесты не будут наносить урон качеству обучения посредством обратного влияния, но в то же время смогут служить хорошим подспорьем работникам сферы образования, давая им богатую обратную связь и пищу для анализа педагогического процесса в его непосредственном развитии.

Литература

1. Brown J. D. Extraneous variables and the washback effect. URL: http://jalt.org/test/bro_14.htm (дата обращения: 13.12.2013).

2. Цатурова И. А., Балуян С. Р. Тестирование устной коммуникации: Учебно-методическое пособие. M.: Высш. шк., 2004. 127 с.

3. Gipps C. V. Beyond Testing: Towards a theory of Educational Assessment. London, Washington, D. C.: The Falmer Press, 1994. 199 p.

4. Frederiksen N. The real test bias // American Psychologist. 1984. Vol. 39. P. 193-202.

5. Popham J. The merits of measurement-driven instruction // Phi Delta Kappa. May. 1987. P. 679-682.

6. Phelps R. Teach to the test? // The Wilson Quarterly. Vol. 35 (4). Autumn. 2011. Washington. P. 38-42.

7. Madaus G. The influence of testing on the curriculum // Tanner (Ed) Critical Issues in Curriculum, 1988, 87th Yearbook of NSSE Part 1. Chicago, IL: University of Chicago Press, 1988. 289 p.

8. Crooks T. J. The impact of classroom evaluation practices on students // Review of Educational Research. 1988. Vol. 58. P. 438-481.

9. Brown H. D. Language Assessment: Principles and Classroom Practices. NY, Longman: Pearson Education, 2008. 324 p.

10. Chalak A., Tavacoli M. Sources of Test Score Pollution: State of the Art // Curriculum Planning Knowledge & Research in Educational Sciences Fall. 2010. Vol. 7(26). P. 13-34.

11. Большакова И. Г. О социальной роли метода тестов в истории человечества и в современном обществе // Вестник Ленинградского Государственного университета имени А. С. Пушкина. Серия: Филология. 2011. Т. 7, № 3. C. 149-158.

12. Коммунисты внесли в Госдуму законопроект о добровольной сдаче ЕГЭ. URL: http://news.mail. ru/politics/14478930/ (дата обращения 13.12.2013).

13. Павловская И. Ю., Башмакова Н. И. Основы методологии обучения иностранным языкам: те-стология. СПб.: Филологический факультет СПбГУ, 2007. 224 c.

14. Балыхина Т. М. Словарь терминов и понятий тестологии. 2-е изд. стер. М.: Рус. яз. курсы, 2006. 160 с.

Статья поступила в редакцию 18 декабря 2013 г.

Контактная информация

Большакова Ирина Георгиевна — соискатель; [email protected]

Bolshakova Irina G. — post-graduate student; [email protected]

Аннотация научной статьи по наукам об образовании, автор научной работы — Большакова Ирина Георгиевна

Похожие темы научных работ по наукам об образовании , автор научной работы — Большакова Ирина Георгиевна

WASHBACK AS A PROBLEM OF MODERN TESTOLOGY (BASED ON ENGLISH-SPEAKING TEACHING LITERATURE)