УДК 372.881.111.1 Вестник СПбГУ. Сер. 9. 2012. Вып. 3
Е. В. Заруцкая
ВАЛИДНОСТЬ УСТНЫХ ТЕСТОВ ПО ИНОСТРАННОМУ ЯЗЫКУ
Л. Ф. Бахман (L. F. Bachman) и А. С. Палмер (A. S. Palmer) выдвинули концепцию, согласно которой эффективность тестов наилучшим образом обеспечивают шесть характеристик: конструктивная валидность, надежность, аутентичность, интерактивность, воздействие и практичность [1, с. 24]. Необходимо отметить, что последние четыре характеристики релевантны как для заданий тестового контроля, так и для заданий, используемых при обучении иностранному языку, однако валидность и надежность относятся именно к измерительным характеристикам. В данной статье остановимся подробнее на вопросе валидности устных тестов в целом, а также методических действий, способствующих ее повышению. В первую очередь определимся с самим термином.
Традиционно валидность понимается как комплексная характеристика теста, отражающая обоснованность, значимость его результатов, его адекватность целям измерения [1, с. 9]. То есть тест должен давать ответ на вопрос о том, измеряют ли задания то, что хотели его составители. Вне зависимости от того, насколько надежны результаты теста, если они не соответствуют конструкту, который запланировано проверить, тест не будет считаться валидным.
Существует четыре основных метода определения валидности теста: 1) метод, основанный на изучении содержания теста; 2) метод, основанный на корреляционном анализе; 3) метод, базирующийся на различных экспериментальных процедурах; 4) метод, основанный на серии теоретико-экспериментальных исследований [2, с. 10]. Выделение одновременно четырех методов определения валидности теста обусловлено существованием двух глобальных подходов к рассмотрению данного вопроса: квантитативного и квалитативного. Сторонники первого подхода (J. C. Alderson, C. Clapham, D. Wall) придерживаются мнения, что валидность возможно измерить путем статистической обработки полученных результатов теста: корреляционного анализа, факторного анализа и т. д. [3]. Однако ряд исследователей (L. F. Bachman, A. Cumming, B. K. Lynch и др.) отмечает, что традиционный подход хотя и убедителен, все же ограничен [4, p. 115], и, следовательно, выступают за комбинирование квантитативных и квалитативных методов. М. Миланович (M. Milanovic) и Н. Сэвилл (N. Saville), в частности, объясняют свою позицию тем, что выполнение любого тестового задания строится на взаимоотношении таких факторов, как экзаменаторы-собеседники, кандидаты, рейтеры, тестовое задание и т. д., что соответственно подразумевает под собой привлечение самых разнообразных методов их исследования (как количественных, так и качественных) [4, p. 115].
В вышеупомянутом определении эффективности теста Л. Ф. Бахман и А. С. Палмер используют термин «конструктивная» валидность, что не случайно, поскольку данные исследователи включали в его содержание все другие виды валидности. В современной методической науке ряд зарубежных (D. Douglas) и отечественных (С. Р. Балуян) тесто-логов придерживаются иного взгляда и полагают, что различные виды валидности не могут замещать друг друга [5, с. 9]. В этой связи принято выделять следующие ее виды:
© Е. В. Заруцкая, 2012
сопоставительная, прогностическая, содержательная, конструктивная (конструктная) или концептуальная, внешняя валидности. Содержание каждой из них подробнее представлено в таблице.
Таблица. Виды валидности [6, с. 217]
Сопоставительная Насколько хорошо измеряет данный тест то, что хочет тестолог по сравнению с другим тестом или оценкой
Конструктивная Насколько объекты тестирования и характер задания учитывают психолингвистическую модель усвоения рассматриваемого языкового материала или заданную модель коммуникативной компетенции
Содержательная Представлены ли в данном тесте все важнейшие элементы содержания программы, учебника и т. д.
Прогностическая Насколько хорошо результаты данного теста предсказывают успешность будущей работы
Внешняя Насколько привлекательными, прагматичными считаются задания теста тестируемыми, преподавателями, администрацией
Отметим, что при попытке разграничения содержательной и конструктивной валидностей часть исследователей, занимавшихся вопросами устного тестирования (R. Kelly, A. D. Moller, A. Davies), пришла к выводу о том, что оба этих термина «почти повторяют» друг друга [7], ввиду чего содержательная валидность «переходит» в конструктивную [7]. Связано это с тем, что при попытке дескриптивного описания конструкта задания тестолог неизбежно сталкивается с необходимостью определения релевантности его содержания [7]. Наряду с этим в методической науке функционирует еще один термин — контекстуальная (context) валидность [8, 9], — появившийся под влиянием социокогнитивного подхода и зачастую использующийся как синонимичный по отношению к содержательной валидности.
Б. О'Салливан (B. O'Sullivan) доказал, что валидность устного тестового задания в целом обеспечивают такие ее виды, как контекстуальная, когнитивная и критериальная валидности [9]. Их сочетание он назвал «золотым треугольником» (см. схему).
Контекстуальная (содержательная) валидность основывается на использовании единой при разработке всех заданий и критериев оценивания модели устного обще-
ния, которая выстраивается в результате анализа теоретических данных, программных документов и, при необходимости, изучения потребностей студентов. С. Вейр (C. Weir) подчеркивал, что определение контекстуальной валидности теста должно идти одновременно в двух направлениях: на предтестовом (apriori validity) и посттестовом (apos-teriori validity) этапах [8]. При этом основное внимание должно уделяться именно предтестовому этапу, так как «чем полнее будет описан конструкт задания, который планируется измерить, тем большее значение будет иметь процедура статистической обработки результатов» [8, p. 18].
Определению контекстуальной валидности на предтестовом этапе способствует уточнение цели тестового задания, объектов контроля, формата ответа тестируемых, типа информации (абстрактная — конкретная), характеристики ожидаемого устного текста (жанр, риторическая структура и т. д.), тематики, порядка выполнения заданий, времени на выполнение, распределения баллов за каждое задание, характеристики преподавателя-собеседника (акцент, скорость речи, знакомство/незнакомство с ним) [8]. Как правило, все эти данные находят свое отражение в спецификации теста. Контекстуальная валидность устных тестов может уточняться и на посттестовом этапе посредством анализа ответов тестируемых, предварительно записанных на аудио- или видеоноситель, с целью определить проявляются ли те навыки и умения, которые составляют конструкт задания, при решении коммуникативной задачи того или иного тестового задания. Важно отметить, что тестологи сосредоточивают усилия главным образом на макролингвистическом описании, так как предвидеть, как будут использованы языковые единицы (лексика и грамматика), на микролингвистическом уровне довольно трудно. Примеры такого анализа описаны в исследованиях С. Вейра [8] и Б. O'Салливана [9] и доказывают, что обоим исследователям удалось получить довольно точное описание конструкта тестовых заданий.
Повышению контекстуальной валидности теста также способствует разработка инструкций для экзаменаторов-собеседников (interlocutor frame), позволяющих стандартизировать поведение экзаменаторов в процессе тестирования и получить от испытуемых примерно одинаковые речевые фрагменты.
Перейдем к рассмотрению когнитивной валидности, призванной определить, насколько когнитивные процессы, задействованные при выполнении тестового задания, соответствуют тем, что используются при выполнении сходных заданий вне тестовых условий, т. е. в реальной ситуации общения. Повышению когнитивной валидности способствует целый ряд действий. В первую очередь отметим использование так называемых прямых тестов, основанных на естественном взаимодействии собеседников, где реплика говорящего — это, как правило, реакция на предыдущую реплику коммуниканта. Известны и другие виды тестов, такие как односторонние, записанные на ау-дионоситель тесты. Некоторые исследования (C. W. Stransfield, D. M. Kenyon) показали, что в ходе контроля одних и тех же студентов двумя видами тестов они продемонстрировали по ним примерно одинаковые результаты [10, p. 45]. Тем не менее возможность использования в односторонних тестах единственного канала передачи информации, устного, приводит к тому, что речь испытуемых становится более книжной, менее похожей на разговорный стиль [10, p. 45].
Кроме того, повышению когнитивной валидности может способствовать использование в процессе контроля заданий, основанных на разных типах взаимодействия. Известно, что контроль умений устной речи может осуществляться в рамках трех
моделей: индивидуального (формат 1 + 1 + 1), парного (2+1 + 1) и группового тестирований, — и следующих форм: интервью, обсуждение/беседа, вопросно-ответная форма, ролевая игра, восстановление недостающей информации. Выбор той или иной модели и формы задания во многом обусловлен уровнем сформированности языковых навыков и речевых умений студентов. Учащиеся менее продвинутого уровня обученности во многом направляются экзаменатором-собеседником, поэтому им зачастую предлагается индивидуальный формат тестирования, в то время как на более продвинутых этапах используются задания со свободно конструируемым ответом, в том числе в режиме парного тестирования.
Не меньшее значение имеет и время, необходимое на выполнение задания и на планирование речевого ответа. В целом время речевого контакта студентов при решении ими речевой задачи должно увеличиваться от уровня к уровню. Экзаменационным департаментом Кембриджского университета, например, оно постепенно увеличивается от 10 (экзамен KET) до 19 минут (экзамен CPE) [11]. Время на планирование речевого ответа, как правило, не предоставляется, так как задача любого устного тестового задания — проверить незапланированную, спонтанную речь. В то же время необходимо отметить, что в условиях реального общения всегда предусматривается время на подготовку, обдумывание и структурирование монологического высказывания (например, презентаций). Следовательно, когнитивные процессы, задействованные при выполнении тестовых заданий, не должны отличаться от тех, что необходимы в реальной ситуации общения.
Снижению когнитивного напряжения, возникающего при осмыслении информации, представленной в задании, и одновременно предречевой ориентировке собеседника способствует детализированное описание компонентов задания. Так, эксплицирование условий общения, речевых задач, коммуникативных ролей участников взаимодействия приводит к формированию конкретной речевой интенции, а также стратегий и тактик, необходимых для ее реализации, использованию языкового материала, запланированного контролирующим субъектом и соответствующего речевой ситуации в целом. Экспликация представленных компонентов задания также позволяет избежать такого явления, как оценивание воображения вместо оценивания языковых навыков и речевых умений студентов.
В целом необходимо отметить, что коэффициент трудности тестового задания может варьироваться. Известны исследования (P. Skehan), подтверждающие, что изменение психолингвистических параметров может влиять на производимый тестируемыми дискурс следующим образом:
• знакомство/незнакомство с информацией: если информация, оперирование которой осуществляется в ходе выполнения задания, знакома коммуникантам, то повышается их темп речи;
• структурированность задания: если выполнение задания основывается на строго структурированной последовательности действий, то выше будут темп речи и языковая корректность;
• количество и сложность выполняемых операций: чем большее количество операций необходимо для выполнения задания, тем выше его уровень сложности, что также способствует повышению языковой сложности и снижению темпа речи и языковой корректности;
• аргументированность речи: чем более обоснованным будет ответ испытуемого,
тем выше будет языковая сложность использованных им речевых единиц [12, p. 324].
Помимо психолингвистических на результат речи испытуемых могут оказывать влияние и прагматические факторы. Исследования Н. Тагучи (N. Taguchi), например, показали, что социальная дистанция между собеседниками (возраст, опыт, социальное положение), а также дистанция власти вне зависимости от уровня обученности испытуемых оказывают влияние на их речевую деятельность. Ситуации более официального общения (с большей дистанцией власти) имеют более высокий коэффициент сложности, что обусловлено необходимостью соблюдения коммуникантами конвенциональных ограничений и использования формул вежливости [13]. Таким образом, в соответствии с описанными выше факторами контрольное задание может быть более или менее сложным для студентов и, соответственно, отрывки речи могут отличаться по таким количественным и качественным параметрам, как языковая правильность, темп речи, сложность используемых в речи языковых единиц и речевых структур.
Критериальная валидность определяется целым рядом факторов, таких как рейтинговая шкала и критерии оценивания, процедура оценивания, условия оценивания, индивидуальная характеристика рейтеров, подготовка рейтеров, посттестовые вычисления [8, p. 46]. Следовательно, повышение критериальной валидности не сводится только к количественным измерениям, как, например, к вычислению коэффициента межрейтерской стабильности, но обеспечивается также квалитативными методами исследования.
Литература
1. Цатурова И. А., Балуян С. Р. Тестирование устной коммуникации: учеб.-метод. пос. М.: Высш. шк., 2004. 127 с.
2. Балыхина Т. М. Словарь терминов и понятий тестологии. М.: Рус. яз. Курсы, 2006. 160 с.
3. Alderson J. C., Clapham C., Wall D. Language Test Construction and Evaluation. Cambridge: Cambridge university Press, 1995. 310 p.
4. Lazaraton A. A qualitative approach to the validation of oral language tests // Studies in language testing / ed. by C. J. Weir. Cambridge: Cambridge University Press. 2002. Vol. 14. 223 p.
5. Балуян С. Р. Тестирование коммуникативной компетенции в устной речи абитуриентов специальности лингвистика и межкультурная коммуникация: автореф. дис. ... канд. пед. наук / Таганрог. гос. радиотехн. ун-т. Таганрог, 1999. 24 с.
6. Павловская И. Ю., Башмакова Н. И. Основы методологии обучения иностранным языкам: тестология. СПб.: Филологический факультет СПбГУ, 2007. 224 с.
7. O'Sullivan B., Weir C. J., Saville N. Using observation checklists to validate speaking-test tasks // Language Testing. 2002. Vol. 19 (1). P. 33-56.
8. Weir C. J. Language Testing and Validation. An evidence-based approach. Oxford: Palgrave Mac-millan, 2005. 301 p.
9. O'Sullivan B. Notes on Assessing Speaking. 2008. URL: http://www.lrc.cornell.edu/events/ past/2008-2009/papers08/osull1.pdf (дата обращения: 15.05.2012).
10. Luoma S. Assessing Speaking. Cambridge: Cambridge University Press, 2004. 212 p.
11. Field J. Cognitive validity // Studies in language testing / ed. by C. J. Weir. Cambridge: Cambridge University Press. 2011. Vol. 30. P. 65-111.
12. Fulcher G., Reiter R. M. Task Difficulty in Speaking Tests // Language Testing. 2003. Vol. 20 (3). P. 321-344.
13. Taguchi N. Task Difficulty in Oral Speech Act Production // Applied Linguistics. 2007. Vol. 28 (1). P. 113-135.
Статья поступила в редакцию 18 июня 2012 г.