О социальной роли метода тестов в истории человечества и в современном обществе

Большакова И.Г.

ЛИНГВОДИДАКТИКА И МЕТОДИКА ОБУЧЕНИЯ ЯЗЫКУ THEORY AND METHODOLOGY OF TEACHING LANGUAGES

УДК 371.263

И. Г. Большакова I. G. Bolshakova

О социальной роли метода тестов в истории человечества и в современном обществе

Social role of test method in human history and in modern society

Статья посвящена проблеме лингводидактических тестов, рассматриваемых в контексте психологических измерений. Автор анализирует социальную роль различных подходов к педагогическому оцениванию и описывает смену парадигмы, сопровождающую кардинальные изменения во взглядах на обучение в современном обществе.

The article is devoted to the problem of language tests in the broad context of psychological measurement. The author analyses the social role of different approaches to educational assessment and describes the shift of paradigm following crucial changes in the views on learning and teaching in modern society.

Ключевые слова: оценивание, педагогическое измерение, психометрия, тест, обучение, иностранные языки, шибболет-тест, нормативно-ориентированный тест, критериально-ориентированный тест, альтернативное оценивание.

Key words: assessment, educational measurement, psychometrics, test, teaching, foreign languages, shibboleth test, norm-referenced testing, criterion-referenced testing, alternative assessment.

Чтобы проследить истоки применения методов дидактического оценивания в человеческой культуре, понадобилось бы обратиться ко всей истории развития человеческого общества, начиная с самых древних времен. С началом общественной самоорганизации, с выделением общественно значимых ролей, для исполнения которых нужно обладать определенными умениями или знаниями, возникает необходимость отбора кандидатов на такие роли или контроля их деятельности. Для этого, что вполне логично, разрабатывается некая система испытаний, которую нужно пройти, чтобы доказать свою компетентность.

Возникновение педагогического контроля «совпадает с началом культуры, в становлении которой решающую роль играли различные формы образования, в том числе и самые примитивные. Уже в самых

древних формах существования человеческих общностей была осмыслена важная роль различных заданий, служивших средством диагностики уровня развития интересующих свойств личности» [3]. Так, еще в III тысячелетии до н. э. в Древнем Вавилоне проверяли квалификацию профессиональных писцов, предлагая им испытания, чтобы оценить умения разбираться в тканях, металлах и растениях, а также грамотно оперировать числами. В Древнем Египте серьезным процедурам отбора подвергали будущих жрецов, в Китае - правительственных чиновников. Среди применяемых методов оценки были - в современной терминологии - собеседование, анализ внешних данных, сбор биографических сведений, оценка коммуникативных способностей, определенных качеств характера, творческих способностей и, естественно, необходимых компетенций.

В Древней Спарте существовала система суровых испытаний для воинов, в Риме - для гладиаторов. Были аналогичные испытания и у племен индейцев Северной Америки. В средневековом Вьетнамском государстве всего за два года (с 1370 по 1372) «удалось провести переаттестацию всех гражданских чиновников и военнослужащих, что позволило организовать проверку государственного аппарата по всей стране» [1]. В странах Востока для таких испытаний и проверок не считалось чем-то из ряда вон выходящим использование методов, которые можно было бы назвать экзаменами, письменными контрольными работами.

В Европе дольше господствовали традиционные устные формы контроля. Но в конце 19 века здесь выделились две основные тенденции в контроле знаний. В соответствии с одной, требовалось дать устный ответ на 1-2 относительно объемных вопроса, на основании которого комиссия из двух или более человек делала заключение об общем уровне знаний претендента. В рамках другой традиции экзамен проходил в письменной форме. Задания, предлагаемые испытуемым, были короче, но число их было значительно больше (10-12) и, соответственно, затрагивало больше изучаемых тем [2]. В России того времени большее распространение получил первый вариант.

Традиционно в западной педагогике и методологии экзамен, зачет, любую другую дидактическую проверку знаний называют тестом, что в сочетании с неоднозначностью перевода английского слова «test» (испытание, эксперимент, проверка, проба) способно порождать путаницу при описании методов оценивания. В отечественной педагогической практике под тестом обычно понимается «только такое задание, где правильность теста определяется по заранее подготовленному ключу и задание составлено так, что требует однозначного ответа». [8, с. 83].

Первые попытки использования тестов как метода количественного измерения способностей человека можно отнести к концу 19 века. Они были связаны с экспериментальными исследованиями англичанина Фрэнсиса Гальтона, который стремился охватить «измерением и числом операции ума». Революционный подход Галь-тона состоял в том, что оценка физиологических и психологических параметров человека впервые была поставлена на научную основу. Экспериментальный подход пришел на смену интуитивной оценке, господствовавшей в этой сфере в течение тысячелетий [11].

Представления Гальтона о природе умственных способностей человека получили продолжение в работе американского психолога Джеймса Кэттелла [10], который, собственно, и ввел в 1890 году понятие «тест» как способ психологического эксперимента [5, c. 326].

Таким образом, в конце XIX - начале XX века намечаются основания для расхождения между научным толкованием понятия «тест» и его обыденным использованием. В дальнейшем это рассогласование будет усиливаться и служить причиной многочисленных дискуссий. Научное определение теста будет все более усложняться, в соответствии с увеличением требований, которые будут предъявляться к процедуре разработки и применения теста.

С именем Джеймса Кэттелла, ставшего первым профессором психологии в США, связывают начало нового этапа в развитии тестирования, который В.А. Коккота называет периодом преимущественного развития психологических тестов [6, с. 50]. В этот период появляются и первые педагогические тесты (работы Дж. Райса, Р. Торндайка, под руководством которого создается первый стандартизированный педагогический тест). Однако, в силу различных причин, развитие этого направления происходит значительно медленнее, чем разработка психологических тестов. К концу третьего десятилетия XX века в целом завершается создание психометрической теории [4].

Говоря о начальном периоде использования тестов в сфере изучения иностранных языков, обычно упоминают 20-е годы прошлого столетия, когда Бен Вуд проводит свои исследования в Колумбийском университете и предлагает первый лингвистический тест, а также выходит в свет книга В. Хенмона (Henmon V. Achievement Tests in the Modern Foreign Language. N.Y., 1929). Б. Спольски называет отрезок времени с 1925 по примерно 1955 год донаучным периодом в развитии лингводидактических тестов на том основании, что качеству тестов (в частности, их валидности и надежности) уделялось мало внимания [6, с. 51].

Хотя лингводидактические тесты того времени и не вполне соответствуют современным требованиям, их форма и структура уже

вполне близка и понятна тестологам наших дней. Так, в тестах Б. Вуда присутствуют лексический и грамматический разделы, а также раздел для проверки понимания прочитанного. Причем в тестах на словарь и на понимание прочитанного применяется прием, который станет впоследствии столь же излюбленным у разработчиков тестов, сколь и популярным у критиков этого вида педагогического оценивания, - multiple choice, или множественный выбор, когда испытуемому предлагается выбрать ответ из нескольких готовых вариантов, лишь один из которых является верным.

Однако, если вслед за Б. Спольски называть именно этот период донаучным, то может возникнуть иллюзия, что только в это время в обществе и начинают заниматься оценкой лингвистических параметров, тогда как эта проблема была актуальна в истории задолго до XX века. И здесь речь идет совсем не только об оценке профессиональной квалификации всевозможных переводчиков и толмачей.

С древних времен в обстановке межгрупповых или межнациональных конфликтов у представителей тех или иных социальных групп возникала необходимость идентификации людей по принципу «свой - чужой» на основе общности/различий языковых явлений. И в этих случаях в качестве средства для идентификации в качестве «пробного камня» часто использовался один и тот же прием - требование произнести определенное слово или фразу, которые сразу выдавали «чужака». Этот прием получил название «шибболет-теста» (shibboleth test). (Слово «тест» здесь используется в своем первоначальном, широком значении, как испытание, проверка).

Этимология понятия «shibboleth test» такова. В Библии приводится описание двух враждующих групп, в языке которых было небольшое, но легко обнаруживаемое различие в способе произношения определенного согласного звука: в одном случае sh произносилось как палато-альвеолярный фрикативный звук /¡I, в другом - приближалось по звучанию к /sI. Чтобы обнаружить вражеских солдат, от всех подозрительных чужаков требовали произнести слово «shibboleth», и по тому, произносилось ли оно как shibboleth или sibboleth, определяли «своих». Если обнаруживалось, что слово произносится «неправильно», врага убивали. Таким образом, лингвистический тест служил критерием социальной идентификации, на основании которого принималось решение о праве человека на жизнь.

Этот пример далеко не единичен. Шибболет-тесты использовались в разные времена и в разных культурах. McNamara и Roever [14, с. 149-159] описывают примеры из истории Англии времен крестьянского восстания под предводительством Уота Тайлера, события в Йемене в 1060 году, подавление восстания в Египте в 1302

году. Во всех упомянутых исторических коллизиях наказанием для не прошедших лингвистический тест оказывалось лишение жизни. В Японии пусковым механизмом трагических событий послужило землетрясение 1923 года, в котором погибли более 100 000 человек. Среди тех, кто погиб, было около 6000 корейцев, проживавших в Токио, включая тех, кто выжил в землетрясении, но был впоследствии обвинен в отравлении запасов воды и других преступлениях. Чтобы избежать обвинений, многие из них пытались выдать себя за японцев, но их выдал шибболет-тест: фразу jyugoen gojyussen (15 йен 50 сен) корейцы произносили как «^идо еп kochussen». В итоге сотни, а возможно, и тысячи людей были убиты.

Нельзя сказать, что все аналогичные ситуации относятся к далекому прошлому. Можно привести примеры относительно недавних событий на острове Шри-Ланка и в Ливане, которые говорят о том, что шибболет-тесты - это не достояние прошлого, а инструмент, который регулярно извлекается на свет в случае межнациональных и межэтнических конфликтов. Однако необратимые последствия его применения - проблема не инструмента, а того, кто им пользуется.

Это относится и к современным, стандартизованным и формализованным лингводидактическим тестам, последствия применения которых не столь фатальны, но все же могут быть достаточно драматичными, когда по их результатам принимаются важные решения, касающиеся конкретного человека. «Чтобы тест использовался на благо испытуемому, необходимо иметь в виду границы его возможностей и не пытаться получить от него большего, чем он может дать. Подобно многим научным достижениям, злом могут быть не тесты, а их неправильное использование» [8, с. 92].

Первоначально современные лингводидактические тесты разрабатывались по примеру психологических, но затем для составления тестов начинают использовать структурный подход в лингвистике и достижения психометрической теории. Наступает период, который Б. Спольски назвал структурно-психометрическим и отнес к отрезку с 1955 по примерно 1970 год.

Однако впоследствии критики тестологического подхода стали указывать на то, что только лишь правильного представления о функционировании системы языка еще недостаточно, чтобы успешно общаться в реальных жизненных ситуациях. На первый план выходит прагматический аспект, и создатели тестов задумываются о том, как можно оценивать знание языка в контексте речевой деятельности испытуемых, учитывая социолингвистические аспекты общения. Поэтому этот период развития Б. Спольски называет пси-холингвистически - социолингвистическим. В тестах все больше

стараются сочетать грамматику и контекст, сделать их более коммуникативно-ориентированными и аутентичными.

Значительное влияние на проблему оценивания уровня знаний иностранного языка оказала подготовка Советом Европы документа «The Common European Framework of Reference: Learning, Teaching, Assessment», изданного в 2001 году. Одна из его важных целей -обеспечение надежной базы для сопоставления результатов различных языковых тестов. Однако не все исследователи восприняли его однозначно, и периодически появляются публикации с критическими замечаниями в его адрес [13].

В настоящее время в образовательной сфере многих развитых стран совершается смена парадигмы во взглядах на проблему оценивания, психометрический подход заменяется более общей моделью педагогической оценки, происходит сдвиг от культуры тестирования и экзамена (testing and examination culture) к культуре оценивания (assessment culture). Сейчас используется более широкий спектр методов оценивания, чем три - четыре десятилетия назад: аттестация преподавателя, стандартные задания, курсовые работы, оценка результатов деятельности используются наряду с устным оцениванием, письменными экзаменами и стандартизованными тестами. Критериально-ориентированное оценивание сосуществует с нормативно-ориентированным, формирующее оценивание (formative assessment) и анализ продуктов деятельности - с самооценкой и оценкой с помощью других учащихся. От процедуры оценивания требуется удовлетворять множеству целей: способствовать эффективности обучения, обеспечивать информацию об учащихся, преподавателях и учебных заведениях, выступать в качестве инструмента для сертификации и отбора, поставлять статистические данные, влиять на учебные планы и программы [12]. Это означает, что психометрический подход, долгое время господствовавший в теории оценивания, больше не является адекватным. Тесты множественного выбора, в основе которых лежит бихевиористская модель научения, также не справляются с задачами, возложенными на оценивание в современном образовании.

Традиционный психометрический подход к оцениванию изначально создавался на основе представлений о врожденном интеллекте, который считался таким же наследуемым свойством, как, к примеру, цвет глаз, и, следовательно, оставался неизменным на протяжении жизни. [12, с. 5]. Это означало, что, измерив однажды интеллект у детей, их можно распределить по группам и школам, в соответствии с их способностями, считая, что положение дел в будущем останется неизменным. Сейчас все больше утверждаются взгляды, согласно которым педагогическое оценивание должно не ог-

раничивать человека в выборе, а, наоборот, помогать ему развиваться и совершенствовать свои способности к обучению. (Кстати говоря, действенность этого подхода давно подтвердила на практике педагогика Монтессори). Другим недостатком психометрического подхода называют интерпретацию оценок измерения в терминах групповых норм, а не в абсолютных величинах. Считается, что, поскольку учащиеся не способны влиять на деятельность остальных учащихся, то они не могут влиять и на свои собственные оценки, что несправедливо. (Аргумент, вообще говоря, спорный: да, на чужие оценки повлиять нельзя, но можно повлиять на положение своей оценки в ряду остальных, если приложить к этому достаточно усилий).

С психометрическим подходом к оцениванию связывают и ту доминирующую роль, которая отводится техническим вопросам - стандартизации, надежности и требованию измерять ограниченное число параметров (limited dimensionality). Эти требования, сами по себе вполне разумные и обоснованные, могут негативно влиять на конст-руктную валидность тестов и - в конечном итоге - на учебные планы, поскольку лишь определенный учебный материал и задачи определенного характера можно включить в рамки тестовой проверки.

Еще одно замечание к психометрической модели оценивания заключается в неправомерном обобщении значения тестовых оценок, которое происходит в обыденном сознании и становится общепринятым, искажая смысл проведенных измерений. Так, при оценке навыков чтения сам конструкт «чтение» будет подразумевать правильность и беглость чтения как вслух, так и про себя, понимание прочитанного, интерес к чтению и т.д. Очевидно, тест по чтению, имеющий высокую конструктную валидность, должен оценивать каждый из аспектов этого навыка. Но многие стандартизованные тесты по чтению на самом деле оценивают какую-то одну характеристику, например, понимание простых предложений, а вовсе не способность тестируемого читать - в широком смысле. Тем не менее, в общепринятом мнении оценка по чтению за этот тест будет восприниматься именно как оценка способности читать - в целом. [12, с. 5-6].

В отличие от психометрической модели, педагогическое оценивание является критериально-ориентированным, а не ориентируется на соотношение индивидуальных и групповых показателей. При нормативно-ориентированном тестировании оценка выводится на основании ранжирования группы испытуемых в соответствии с полученными баллами, при этом одно и то же значение оцениваемого параметра может означать высокий результат в одной группе,

WW W п

но средний или даже низкий результат в другой. В то же время критериально-ориентированное оценивание опирается на явно сфор-

мулированные цели и задачи изучения учебного материала и позволяет понять, в какой степени испытуемые овладели идентифицированными компонентами. Некоторые исследователи считают это отличие критическим. Правда, результаты критериально-ориентированного оценивания тоже можно использовать для сопоставления с групповыми нормами, и наоборот - нормы часто используются, чтобы установить критерий деятельности. И все же в основе этих подходов заложена разная философия.

Педагогическое измерение является личностно-ориентированным и выдает суждение о результатах деятельности человека безотносительно к деятельности других людей, утверждая тем самым самодостаточность каждого тестируемого (что, добавим в скобках, должно быть особенно важно в обществах с ярко выраженной психологией индивидуализма; вероятно, еще и поэтому переход к критериально-ориентированному тестированию в развитых западных странах встречает такую дружную поддержку). Кроме того, педагогическое измерение позволяет не просто констатировать уровень достижений, но определять сильные и слабые места обучаемого, чтобы оптимизировать образовательный процесс [15]. Поэтому нужно, чтобы оно проводилось не только по окончании процесса учебы (summative assessment), как нечто обособленное, оторванное от учебного процесса, но стало неотъемлемой частью самого процесса преподавания и обучения (ongoing assessment).

Такое альтернативное, или инновационное оценивание предполагает применение различных техник оценивания, а не только традиционных экзаменов и курсовых работ. «В отличие от традиционного оценивания инновационное оценивание опирается не на экзамены, измеряющие степень осведомленности студентов, а предполагает целый диапазон методов и множество форм организации работы: эссе, семинары, проекты, ролевые игры, симуляции, групповая работа, презентации, работа в реальных условиях, порт-фолио, рефлексивные дневники и т.д.» [7, с. 36], [9, с. 251-280].

Грант Виггинс (G.P. Wiggins) замечает, что не только создатели тестов, но и некоторые педагоги, привыкшие активно использовать тестовые методики с компьютерным подсчетом баллов, считают суждение человека ненужной причудой для качественного оценивания (unnecessary extravagance in sound assessment). Он задается вопросом, почему, например, ни дирижер, ни театральный режиссер, ни тренер волейбольной команды не поддается соблазну думать так же. И отвечает: потому, что они понимают, что настоящий «тест» деятельности - это сам процесс ее, а не нечто, что происходит после нее; что и валидность, и надежность оценки сложной деятельности зависит от множества порций информации, извлекаемой из

множества актов деятельности. И если практике нашего легкомысленного оценивания суждено измениться, то мы должны не просто заменить традиционные формы «теста» (с множественным выбором) новыми формами проверки («оценки деятельности» или «портфолио»), а должны изменить в корне отношения тестирующего и тестируемого [16, с. 3-4].

Учитывая ряд неоспоримых достоинств тестовых методов, следует признать, что система образования вряд ли когда-нибудь полностью откажется от их применения. Но нужно отчетливо понимать, что «в учебном процессе тестовая методика - не единственная форма контроля. Ее функция, по нашему мнению, состоит в дополнении к традиционным формам контроля, в частичной их замене там, где это необходимо, чтобы сэкономить время и интенсифицировать процесс опроса на объективной основе. Поэтому возможные неточности показаний тестов могут быть быстро обнаружены преподавателем в процессе его повседневной работы со студентами» [8, с. 146].

История использования тестов в педагогике знает немало примеров крайностей в отношении к ним - от абсолютизации тестового оценивания до попыток их полного запрещения. Задача тех, кто разрабатывает и применяет тесты для образовательных целей -осознать происходящие в обществе перемены и найти достойное место методам тестирования в ряду других методов педагогического оценивания.

Список литературы

1. Аванесов В.С. Тесты: история и теория. Статья 1. Из глубины веков.// Управление школой. № 12, март 1999 г.

2. Аванесов В.С. Тесты: история и теория. Статья 2. Конец XIX века. //Управление школой. № 14, апрель 1999 г.

3. Аванесов В.С. Диссертация на соискание ученой степени доктора педагогических наук. [электронный ресурс]. URL: http://testolog.narod.ru/index. html (дата обращения: 20.07.2011).

4. Анастази А., Урбина С. Психологическое тестирование. СПб.: Питер, 2001.

5. Бурлачук Л.Ф., Морозов С.М. Словарь - справочник по психодиагностике. СПб: Питер Ком, 1999.

6. Коккота В.А. Лингводидактическое тестирование. Москва, Высшая школа, 1989.

7. Моул Г., Макдауэлл Л., Браун С. Инновационное оценивание. В сб.: Оценивание: образовательные возможности: сб. науч.-метод. статей. Вып. 4. Под общ. ред. М. А. Гусаковского. Мн.: БГУ, 2006.

8. Павловская И.Ю., Башмакова Н.И. Основы методологии обучения иностранным языкам: тестология. СПб.: Филологический факультет СПбГУ, 2007.

9. Brown H.D. Language Assessment: Principles and Classroom Practices. NY, Longman : Pearson Education, 2008.

10. Cattell J. McK. Mental Tests and Measurements. Mind, 1890.

11. Galton F. Inquiries into human faculty and its development. London: McMillan, 1883.

12. Gipps C. V. Beyond Testing: Towards a theory of Educational Assessment. London, Washington, D.C.: The Falmer Press, 1994.

13. Fulcher G. Are Europe's tests being built on an 'unsafe' framework? Guardian Weekly. 18 March 2004 12.40 GMT.

14. McNamara T., Roever C. Language_testing: The_Social_Dimension. Language Lerning Research Club, University of Michigan, 2006.

15. Watanabe Y. J., Curtis A. Washback in Language Testing: Research Contexts and Methods. Ed. by Liying Cheng. Mahwah, New Jersey, London: Lawrence Erlbaum Associates, Publishers, 2004.

16. Wiggins G. P. Assessing Student Performance: Exploring the Purpose and Limits of Testing. San Francisco: Jossey-Bass Publishers, 1993.

О социальной роли метода тестов в истории человечества и в современном обществе Текст научной статьи по специальности «Науки об образовании»

Аннотация научной статьи по наукам об образовании, автор научной работы — Большакова И.Г.

Похожие темы научных работ по наукам об образовании , автор научной работы — Большакова И.Г.

Social role of test method in human history and in modern society

Текст научной работы на тему «О социальной роли метода тестов в истории человечества и в современном обществе»