102
ВЕСН1К МДПУ імя I. П. ШАМЯКІНА
УДК 811.111: 004.9
ОСНОВНЫЕ ПРИНЦИПЫ ОРГАНИЗАЦИИ ЯЗЫКОВОГО ТЕСТА КАК ФОРМЫ КОНТРОЛЯ ЗНАНИЙ ПО ИНОСТРАННОМУ ЯЗЫКУ
М. В. Макарич
кандидат филологических наук, доцент кафедры английского языка № 2 Белорусского национального технического университета
Статья посвящена рассмотрению основных принципов и подходов к организации процесса языкового тестирования с учетом применения их при разработке современных программных средств для оценки качества тестовых задании. В статье дается краткая история тестов с точки зрения анализа их психолого-педагогических особенностей, описываются основные положения классической теории тестов и одна из ее современных моделей -однопараметрическая теория Георга Раша. Рассматриваются основные лингводидактические принципы организации языкового теста с точки зрения его системности.
Введение
Потребность в создании общегосударственной системы контроля знаний осознавалась представителями всех народов мира со времен древнейших цивилизаций до наших дней. Еще в III тысячелетии до н. э. в Древнем Вавилоне проводились испытания выпускников в школах, осуществлявших подготовку писцов. Являясь центральной фигурой месопотамской цивилизации, профессиональный писец должен был обладать целым комплексом знаний и навыков: писать, владеть основными арифметическими действиями, способностью делить имущество, измерять общественные земельные наделы, а также разбираться в тканях, металлах и растениях [1]. Нередко испытания интеллектуальных способностей тестируемых проводились в поединках-диалогах с использованием вопросов-парадоксов и загадок. Так, в Древнем Китае Сюнь-Цзы, основоположник доциньской философии, создавал ситуацию психологического стресса, не давая ученикам ни секунды на обдумывания ответа на поставленный вопрос. Таким образом опытный наставник определял уровень знаний ученика и меры, необходимые для углубления его «философских изысканий» [2, 142].
Однако было бы ошибкой на основании приведенных данных говорить о раннем историческом периоде возникновения тестов. Настоящие тесты появились позже, в конце XIX -начале XX века. Родоначальником тестового движения считается известный английский ученый Френсис Гальтон. Хотя не все испытания Гальтона можно назвать тестами с позиции сегодняшнего дня, но он сделал первый шаг на пути создания объективных методов оценки способностей и свойств личности [3].
Основоположником современной тестологии принято считать Дж. Кеттела. Он впервые ввел термин «умственные тесты» и сформулировал фундаментальные принципы, положенные в основу стандартизации процедуры проведения тестирования [4, 27]:
• одинаковость условий для всех испытуемых;
• ограничение времени тестирования приблизительно одним часом;
• отсутствие посторонних в лаборатории, где проводится эксперимент;
• наличие специальных инструкций, обеспечивающих четкое и однозначное понимание испытуемыми, что нужно делать;
• обработка результатов тестирования методом статистического анализа для получения минимального, максимального и среднего результата.
Рассматривая использование тестов в процессе обучения иностранным языкам, следует отметить, что сам термин «лингводидактический тест» был введен В. А. Коккотой [5, 8], который соотносит лингводидактический тест со следующим комплексом заданий:
• задания, подготовленные в соответствии с определенными лингвистическими требованиями;
• задания, прошедшие предварительную апробацию с целью выявления показателей качества;
ФІЛАЛАГІЧНЫЯ НАВУКІ
103
• задания, позволяющие определить у тестируемых степень их языковой (лингвистической) и/или речевой (коммуникативной) компетенции;
• задания, результаты которых поддаются определенной оценке по заранее установленным критериям.
Данные дидактические принципы и сегодня являются основополагающими в процессе создания, апробации и оценки языковых тестов.
Результаты исследования и их обсуждение
На современном этапе языковое тестирование является одним из разделов прикладной лингвистики и занимается определением уровня владения родным либо иностранным языком не только в учебных заведениях, но и при приёме на работу и получении гражданства. Фундаментальные основы данного научного направления, сконцентрированного на систематизации эмпирических данных, были заложены создателем классической теории тестов (Classical Theory of mental tests) известным британским психологом Чарльзом Эдвардом Спирменом (1863-1945). Данная теория основывается на следующих пяти основных положениях [6]:
1. Эмпирически полученный результат измерения (X) представляет собой сумму истинного результата измерения (Т) и ошибки измерения (Е):
X = Т + Е.
2. Истинный результат измерения можно выразить как математическое ожидание Е(Х):
Т = Е(Х).
3. Корреляция истинных и ошибочных компонентов по множеству испытуемых равна нулю, то есть рТЕ = 0.
4. Ошибочные компоненты двух любых тестов не коррелируют:
pEl, Е2 = 0.
5. Ошибочные компоненты одного теста не коррелируют с истинными компонентами любого другого теста:
pEl, Т2 = 0.
Кроме этого, основу классической теории тестов составляют два определения -
параллельных и эквивалентных тестов.
Параллельные тесты должны соответствовать требованиям (1-5), то есть истинные компоненты одного параллельного теста Т1 должны быть равны истинным компонентам другого -Т2 в каждой выборке испытуемых, отвечающих на оба теста. Предполагается, что Т1 = Т2.
Эквивалентные тесты должны соответствовать всем требованием параллельных тестов за исключением одного: истинные компоненты одного теста не обязательно должны равняться истинным компонентам другого параллельного теста, но отличаться они должны на одну и туже константу с.
Т1 =Т2 + с12,
где с12 - константа различий результатов первого и второго тестов.
В классической теории тестов важнейшей проблемой является определение истинного тестового балла испытуемого (Т). Эмпирический тестовый балл (X) зависит от многих условий -уровня трудности заданий, уровня подготовленности испытуемых, количества заданий, условий проведения тестирования и т. д. В группе сильных, хорошо подготовленных испытуемых, результаты тестирования будут, как правило, лучше, чем в группе слабо подготовленных испытуемых. В этой связи возникает вопрос о величине меры трудности заданий. Необходимость четкого разделения заданий теста по степени их трудности является проявлением системного качества теста. Следовательно, первый принцип построения теста - строгое распределение заданий по степени трудности. С учетом данного принципа, тест строится как система заданий возрастающей трудности. В него входят легкие задания, с которыми должны справиться большинство учащихся (до 20% заданий от всех заданий теста), задания средней трудности (до 60% заданий теста) и трудные задания, с которыми справятся только наиболее подготовленные учащиеся (до 20% заданий теста) [7].
Вторым важным системообразующим принципом является время тестирования. Особое внимание этому вопросу уделяется по той причине, что неверно установленное время тестирования не позволяет тестовым заданиям достичь своей цели - проверить, знает ли испытуемый тот или иной элемент проверяемой дидактической единицы. Для определения оптимального времени тестирования необходимо следовать практическим рекомендациям.
104
ВЕСШК МДПУ імя I. П. ШАМЯКША
В среднем на одно задание принято отводить 30-60 секунд. Если задания соответствуют простому «узнаванию» (первый уровень таксономии Блума), то вполне достаточно 5-10 секунд. По мере продвижения на верхние уровни таксономии Блума, это время должно увеличиваться в десятки раз. Имея опыт, еще на этапе разработки тестового задания можно грубо оценить время его выполнения. Суммарное время по всем заданиям даст общее время тестирования [8].
Длина теста (количество заданий) и время тестирования - тесно связанные и, в определенном смысле, эквивалентные характеристики, но определяющим является именно время тестирования, поскольку оно задает порог утомления, за которым тест начинает терять свои измерительные свойства. Теоретически рассчитать это время невозможно, поэтому рекомендуется использовать эмпирические данные по результатам первичной апробации теста.
Третий принцип организации языкового теста - его надежность, определяющая точность воспроизводимости результатов тестирования. Допустим, у нас есть группа испытуемых, которые немедленно забывают содержание теста по его завершении. Тогда, в случае надежного теста, повторяя тестирование многократно, мы должны получать одни и те же индивидуальные баллы. Для малонадежного теста результаты будут меняться каждый раз. Для определения надежности реальных тестов можно использовать коэффициент корреляции Пирсона для индивидуальных баллов разных сеансов тестирования [9, 179]. Для организации разных сеансов тестирования можно использовать либо параллельные тесты, либо повторное тестирование через определенный промежуток времени. Можно также использовать результаты одного сеанса тестирования. При этом выполняют расщепление теста, например, на четные и нечетные задания и затем находят корреляцию между этими двумя половинами.
Четвертый принцип, закладываемый в основу процесса разработки теста, - обеспечение его валидности. Соответствие теста измеряемому психическому свойству называется валидностью теста. Это, без преувеличения, важнейшее психометрическое свойство теста. Если высокая надежность теста говорит нам о том, что тест действительно что-то измеряет, то высокая валидность указывает на то, что тест измеряет именно то, что мы хотим. Конечно, на валидность теста также негативно влияют случайные факторы. Поэтому в психометрике принято следующее основное психометрическое неравенство:
ВАЛИДНОСТЬ < НАДЕЖНОСТЬ, что означает, что валидность не может превышать надежность теста.
Но в отличие от надежности, помимо случайных факторов, на валидность теста влияют систематические факторы. Они привносят систематические искажения в результаты. Этими факторами могут выступать другие психические свойства, которые мешают проявиться в результатах теста тому свойству, на которое тест направлен. Например, мы хотим измерить потенциал обучаемости (важнейший компонент общих интеллектуальных способностей человека), но даем испытуемому тест с жестким ограничением времени исполнения и отсутствием возможности вернуться и исправить допущенную ошибку. Совершенно очевидно, что искомое психическое свойство оказывается смешанным в тесте с ложным психическим свойством -стрессоустойчивостью: испытуемые с высокими показателями стрессоустойчивости будут лучше выполнять тест. В этом проявится эффект систематического искажения.
В теории тестирования различаются следующие типы валидности языкового теста:
• внешняя (face validity)
• содержательная (content validity)
• конструктная (construct validity)
• критериальная валидность (criterion-related validity)
• внутренняя (intemal/consistency validity) [10].
Внешняя валидность теста определяется той мерой доверия, которую формат теста вызывает у пользователей. Некоторые тесты в силу искусственности процедуры (например, cloze procedure) вначале обладали невысокой внешней валидностью, но позже полезность этого теста была подтверждена многочисленными исследованиями [11, 59]. Внешняя валидность во многом определяется отношением общества к языковому тестированию, которое пока еще остается неоднозначным. Это снижает внешнюю валидность языкового тестирования в целом.
Содержательная валидность теста заключается в том, что валидный тест соответствует заявленному объекту тестирования. Содержательная валидность тестов определяется использованием в них соответствующего языкового материала - лексических единиц, входящих в
ФІЛАЛАГІЧНЫЯ НАВУКІ
105
словарный минимум, и грамматического материала, предусмотренного действующей программой по иностранному языку.
Конструктная валидность - измерение только заявленного объекта тестирования. Определение конструктной валидности языковых тестов следует начинать с установления конструкта - объекта планируемого измерения. Так, в методике обучения иностранным языкам таковыми являются виды речевой деятельности, которые, в свою очередь, могут быть разложены на более дробные конструкты, также доступные измерениям.
Для определения качественности тестов важное значение имеет так называемая критериальная валидность, иногда называемая статистической, которая показывает, насколько точно результаты по данному тесту могут быть использованы для определения существующего состояния или же прогноза эффективности деятельности испытуемых в той или иной области. Для определения данного вида валидности вычисляется, как известно, коэффициент корреляции между тестовыми баллами студентов и результатами прямых или косвенных измерений по какому-нибудь внешнему измерению для этой же выборки испытуемых.
Внутренняя валидность языкового теста является привычной характеристикой многих тестовых заданий и означает согласованность между собой заданий по уровню их сложности. В этой связи требует внимательного изучения “многоуровневый языковой тест”. Анализ показывает, что многоуровневый тест “теряет” внутреннее постоянство, но приобретает свои преимущества. Многоуровневый языковой тест позволяет определить уровень достижений студентов с использованием оценочных критериев по отношению к более сложным заданиям. Тест дает ощущение успеха от выполнения хотя бы некоторой части теста и стимулирует дальнейшие познавательные усилия. Многоуровневые тесты позволяют более точно диагностировать сильные и слабые стороны познавательной деятельности студентов. Такое тестирование дает возможность проследить за постепенным повышением уровня сложности успешно выполненных заданий.
Все виды валидности в целом обеспечивают информативную валидность (learning validity) языкового теста, то есть конструктивность и полезность получаемой с помощью теста информации о ходе, эффективности, результативности и качестве учебного процесса. Информативная валидность языкового теста позволяет повысить “функцию успеха”, то есть вероятность правильного выполнения задания с учетом характеристик этого задания и познавательных возможностей студентов.
Таким образом, принципы надежности и валидности педагогического языкового теста чрезвычайно важны, поскольку именно они характеризуют тест как измерительный инструмент. Тест с неизвестными надежностью и валидностью непригоден для измерения. Когда преподаватель, разработав тест, проводит тестирование, то полученные результаты следует интерпретировать (например, для ранжирования испытуемых) очень осторожно, так как неизвестны надежность и валидность вновь составленного теста. Следовательно, научно обоснованным тестом может считаться метод, соответствующий установленным стандартам надежности и валидности [12]. Однако даже научно обоснованный тест может дать недостоверный результат в случае его некорректного применения. На протяжении всей истории их применения тесты рассматривались главным образом как одна из форм оценки знаний, наряду с такими, как, например, зачет, экзамен. Что было не совсем верно, поскольку тест - это еще и метод научного исследования, включающий в себя ряд требований измерения. Игнорирование этого диалектического момента нередко приводило к упрощенчеству в оценках тестов и результатов их применения.
Соблюдение всех вышеописанных принципов в процессе разработки, конструирования, дизайна и применения языковых тестов является обязательным, но не достаточным условием для обеспечения успешного контроля знаний по иностранному языку. Пятый принцип, связанный с заключительной фазой процесса - адекватная интерпретация результатов тестирования. В современной практике тестирования анализ результатов проводится на основе “Кеш Response Theory” (IRT). Она является частью более общей теории латентно-структурного анализа Георга Раша (G. Rasch) - Rasch measurement [13]. На русский язык название “Кеш Response Theory” переводится различным образом. Ю. Нейман и В. Хлебников предлагают называть ее “Теория моделирования и параметризации педагогических тестов” (ТМППТ) [14]. В. Аванесов -“Математико-статистическая теория оценки латентных параметров заданий теста и уровня подготовленности испытуемых” [3].
106
ВЕСНІК МДПУ імя I. П. ШАМЯКІНА
Теория IRT обладает рядом преимуществ перед классической теорией тестов [15]:
• превращает измерения, выполненные в дихотомических и порядковых шкалах, в линейные измерения, в результате чего качественные данные анализируются с помощью количественных методов;
• мера измерения параметров является линейной, что позволяет использовать широкий спектр статистических процедур для анализа результатов измерений;
• оценка трудности тестовых заданий не зависит от выборки испытуемых, на которых она была получена;
• оценка уровня подготовленности испытуемых не зависит от используемого набора тестовых заданий;
• неполнота данных (пропуск некоторых комбинаций: испытуемый - тестовое задание) не является критичным.
Полный перечень преимуществ модели IRT приведен в работе “Constructing Measures: An Item Response Modeling Approach” [16]. По результатам тестирования с помощью данной методики составляется корреляционная матрица. Строгое разграничение единиц и нулей диагональю данной матрицы показывает, как испытуемый справился с определенным заданием. Результатом дальнейших расчетов являются логистические модели исследуемых тестов. Далее полученные модели эмпирических данных сравниваются с моделями Раша, и если экспериментальные данные не соответствуют модели Раша, то необходимо переработать тестовые задания и повторно провести эксперимент, добиваясь лучшего согласия с теорией, как указывалось выше. Таким образом, с применением данной технологии решается важная проблема оценки качества вновь разработанных тестовых заданий. На основе данного подхода создано современное программное средство RUMM (Rasch Unidimcnsional Measurement Model), разработанное под руководством профессора D. Andrich [17]. Программное средство RUMM успешно используется для оценки качества тестовых заданий во многих странах мира.
Выводы
Все вышесказанное означает, что современный языковой тест можно рассматривать не только как средство педагогического контроля, но и как средство измерений, представляющее собой систему тестовых заданий возрастающей трудности, специфической формы, позволяющей надежно и объективно определить уровень усвоения знаний, сформированности навыков и умений испытуемых и выразить результат в числовом эквиваленте. Подход к организации процесса языкового тестирования должен быть системным и соответствовать всем пяти рассмотренным в данной работе принципам: обеспечение надежности и валидности теста, строгое распределение заданий по степени трудности, выбор оптимального времени тестирования и адекватная интерпретация результатов тестирования.
Литература
1. Дандамаев, М. А. Вавилонские писцы / М. А. Дандамаев. - М. : Наука, 1983. - 245 с.
2. История китайской философии / общ. ред. и послесл. д-ра философ, наук М. Л. Титаренко ; пер. с кит. - М. : Прогресс, 1989. - 552 с.
3. Аванесов, В. С. Проблема психологических тестов / В. С. Аванесов // Вопросы психологии. -1978. -№ 5. -С. 97-107.
4. Ким, В. С. Тестирование учебных достижений : монография / В. С. Ким. - Уссурийск : изд. УГПИ, 2007.-214 с.
5. Коккота, В. А. Лингводидакгическое тестирование / В. А. Коккота. - М. : Высш. шк., 1989. -
130 с.
6. Crocker, L. Introduction to Classical and Modem Test Theory / L. Crocker, J. Algina. - New-York : Holt, Rinehart and Wilson, 1986. - 527 p.
7. Фоменко, T. M. Французский язык. Тесты как форма контроля / Т. М. Фоменко: [Электронный ресурс] - Режим доступа: http://www.prosv.ru/ebooks/Fomenko Testi franc/2.html - Дата доступа : 02.04.2013.
8. Bloom, В. S. Handbook on Formative and Summative Evaluation of Student Learning / B. S. Bloom, J. T. Hasting. - NewYork : McGraw-Hill, 1971. - 923 p.
9. Гмурман, В. E. Теория вероятностей и математическая статистика: учеб, пособие для вузов / В. Е. Емурман. - 10-е изд. - М. : Высш. шк., 2004. - 479 с.
10. Тихонова, Т. В. О проблемах языкового тестирования / Т. В. Тихонова // Вестник КАСУ. - № 2. -2008. [Электронный ресурс]. - Режим доступа : http://www.vestnik-kafu.info/ioumal/14/540 - Дата доступа : 20.03.2013.
ФІЛАЛАГІЧНЫЯ НАВУКІ
107
11. Конышева, А. В. Теория и методика организации контроля знаний по иностранному языку / А. В. Конышева. - Минск : БИТУ, 2012. -228 с.
12. Челышкова, М. Б. Теория и практика конструирования педагогических тестов : учеб, пособие / М. Б. Челышкова. - М. : Логос, 2002. - 432 с.
13. Rasch, G. Probabilistic Models for Some Intelligence and Attainment Tests / G. Rash. - Copenhagen : Danish Institute of Educational Research, 1960 (Expanded edition, Chicago, 1980, The University of Chicago Press).
14. Нейман, Ю. M. Введение в теорию моделирования и параметризации педагогических тестов / Ю. М. Нейман, В. А. Хлебников. -М. : Прометей, 2000 - 169 с.
15. Маслак, А. А. Измерение латентных переменных в социально-экономических системах: монография. - Славянск-на-Кубани : изд. центр СЕПИ, 2006. - 333 с.
16. Wilson, М. Constructing Measures: An Item Response Modeling Approach / M. Wilson. - Mahwah, New Jersey: Lawrence Erlbaum associates, 2005. - 228 p.
17. Andrich, D. RUMM: A windows-based item analysis program employing Rasch unidimensional measurement models / D. Andrish, B. Sheridan. - Perth : Murdoch University, 2000. - [Electronic resource], - Mode of access : http://www.rummlab.com - Date of access : 29.03.2013.
Summary
The paper considers main principles and approaches to the process of language testing with a matter to use them for creating computer programs that could be applied for estimating the validity of test exercises. A brief history of tests is given in the article; psychology-pedagogical aspects of tests are analyzed in it; Rasch Unidimensional Measurement Model is also described in the work. The author considers a language test as a system object in the process of development main didactic test principles.
Поступила в редакцию 05.09.13