Научная статья на тему 'Применение Item Response Theory для оценки языкового теста'

Применение Item Response Theory для оценки языкового теста Текст научной статьи по специальности «Науки об образовании»

CC BY
512
70
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЯЗЫКОВОЙ ТЕСТ / КЛАССИЧЕСКАЯ ТЕОРИЯ ТЕСТОВ / ITEM RESPONSE THEORY (IRT) / ПАРАЛЛЕЛЬНЫЕ И ЭКВИВАЛЕНТНЫЕ ТЕСТЫ

Аннотация научной статьи по наукам об образовании, автор научной работы — Макарич М.В.

На современном этапе языковое тестирование является одним из разделов прикладной лингвистики и занимается определением уровня владения родным либо иностранным языком не только в учебных заведениях, но и при приёме на работу и получении гражданства. Целью предлагаемой работы является апробация Item Response Theory (IRT) для оценки языкового теста. В статье дается краткий исторический обзор методов оценки способностей и свойств личности. Приводятся фундаментальные принципы, положенные в основу стандартизации процедуры проведения тестирования, разработанные основоположником современной тестологии Дж. Кеттелом. Авторы дают подробное описание основных принципов классической теории тестов и ее современной интерпретации IRT, главной задачей которой является определение истинного тестового балла испытуемого, который зависит от многих условий уровня трудности заданий, уровня подготовленности испытуемых, количества заданий и условий проведения тестирования. В статье авторы предлагают вариант использования IRT для оценки качества языкового теста, используемого в процессе контроля лексико-грамматических навыков по английскому языку. «Лингводидактический тест» рассматривается как классический тест, соответствующий четырем основным принципам, описанным В.А. Коккотой. В работе подробно описывается методика оценки качества языкового теста с использованием IRT.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ITEM RESPONSE THEORY AS A TOOL FOR THE ESTIMATION OF A LANGUAGE TEST

Being a part of applied linguistics a language test plays an important role in a modern society. It is used for evaluating person’s language skills not only at educational establishments but also while acquiring citizenship or getting a job. The purpose of the article is the development of a special technique for language test estimation using Item Response Theory (IRT). Short historical review of methods for learning ability estimation is represented. Fundamental principles of Classical and Modern Test Theory is described. The author considers a linguodidactical test as a classical test that patterns four main principles by Kockota V. A. The methodology for the evaluation process of English linguodidactical test with the help of IRT is described in details. Such a linguodidactical test will take into account the level of tasks difficulty, the total amount of tasks, the level of person’s knowledge and testing conditions. This methodology helps to create a test that can assess the real grade of a person being tested.

Текст научной работы на тему «Применение Item Response Theory для оценки языкового теста»

УДК 808.2: 159.937

М. В. МАКАРИЧ

ПРИМЕНЕНИЕ ITEM RESPONSE THEORY ДЛЯ ОЦЕНКИ ЯЗЫКОВОГО ТЕСТА

Белорусский национальный технический университет

На современном этапе языковое тестирование является одним из разделов прикладной лингвистики и занимается определением уровня владения родным либо иностранным языком не только в учебных заведениях, но и при приёме на работу и получении гражданства. Целью предлагаемой работы является апробация Item Response Theory (IRT) для оценки языкового теста. В статье дается краткий исторический обзор методов оценки способностей и свойств личности. Приводятся фундаментальные принципы, положенные в основу стандартизации процедуры проведения тестирования, разработанные основоположником современной те-стологии Дж. Кеттелом. Авторы дают подробное описание основных принципов классической теории тестов и ее современной интерпретации IRT, главной задачей которой является определение истинного тестового балла испытуемого, который зависит от многих условий - уровня трудности заданий, уровня подготовленности испытуемых, количества заданий и условий проведения тестирования. В статье авторы предлагают вариант использования IRT для оценки качества языкового теста, используемого в процессе контроля лексико-грамматических навыков по английскому языку. «Лингводидактический тест» рассматривается как классический тест, соответствующий четырем основным принципам, описанным В. А. Коккотой. В работе подробно описывается методика оценки качества языкового теста с использованием IRT.

Ключевые слова: языковой тест, классическая теория тестов, Item Response Theory (IRT), параллельные и эквивалентные тесты.

Введение

Появление первых тестов относится к концу XIX - началу XX века. Родоначальником тестового движения считается известный английский ученый Френсис Гальтон. Хотя не все испытания Гальтона можно назвать тестами с позиции сегодняшнего дня, он сделал первый шаг на пути создания объективных методов оценки способностей и свойств личности [1]. Основоположником современной тестоло-гии принято считать Дж. Кеттела. Он впервые ввел термин «умственные тесты» и сформулировал фундаментальные принципы, положенные в основу стандартизации процедуры проведения тестирования [2]. Рассматривая использование тестов в процессе обучения иностранным языкам, следует отметить, что сам термин «лингводидактический тест» был введен В. А. Коккотой, который соотносит лингводидактический тест со следующим комплексом заданий [3]:

1) задания, подготовленные в соответствии с определенными лингвистическими требованиями;

2) задания, прошедшие предварительную апробацию с целью выявления показателей качества;

3) задания, позволяющие определить у тестируемых степень их языковой (лингвистической) и/или речевой (коммуникативной) компетенции;

4) задания, результаты которых поддаются определенной оценке по заранее установленным критериям.

Данные дидактические принципы и сегодня являются основополагающими в процессе создания, апробации и оценки языковых тестов.

Постановка проблемы

На современном этапе языковое тестирование является одним из разделов прикладной лингвистики и занимается определением уровня владения родным либо иностранным языком не только в учебных заведениях, но и при приёме на работу и получении гражданства. Фундаментальные основы данного научного направления, сконцентрированного на систематизации эмпирических данных, были заложены

создателем классической теории тестов (Classical Theory of mental tests) известным британским психологом Чарльзом Эдвардом Спирме-ном (1863-1945). Данная теория основывается на следующих пяти основных положениях [4]:

1. Эмпирически полученный результат измерения (X) представляет собой сумму истинного результата измерения (T) и ошибки измерения (E):

X = T + E.

2. Истинный результат измерения можно выразить как математическое ожидание E(X):

T = E(X).

3. Корреляция истинных и ошибочных компонентов по множеству испытуемых равна нулю, то есть pTE = 0.

4. Ошибочные компоненты двух любых тестов не коррелируют:

pEi, E2 = 0.

5. Ошибочные компоненты одного теста не коррелируют с истинными компонентами любого другого теста:

pEi, T2 = 0.

Кроме этого, основу классической теории тестов составляют два определения - параллельных и эквивалентных тестов. Параллельные тесты должны соответствовать требованиям (1-4), то есть истинные компоненты одного параллельного теста T должны быть равны истинным компонентам другого - T2 в каждой выборке испытуемых, отвечающих на оба теста. Предполагается, что T = T2. Эквивалентные тесты должны соответствовать всем требованием параллельных тестов за исключением одного: истинные компоненты одного теста не обязательно должны равняться истинным компонентам другого параллельного теста, но отличаться они должны на одну и туже константу с:

T1 = T2 + c12 где c12 - константа различий результатов первого и второго тестов.

В классической теории тестов важнейшей проблемой является определение истинного тестового балла испытуемого (T). Эмпирический тестовый балл (X) зависит от многих условий - уровня трудности заданий, уровня подготовленности испытуемых, количества за-

даний, условий проведения тестирования и т. д. В этой связи возникает вопрос о возможности создания такого языкового теста, который можно было бы рассматривать не только как средство педагогического контроля, но и как средство измерений, представляющее собой систему тестовых заданий возрастающей трудности и специфической формы, который позволит надежно и объективно определить уровень усвоения знаний, сформированности языковых навыков и умений испытуемых и выразить результат в числовом эквиваленте. Другими словами возможность интерпретации числового результата теста позволяет адекватно оценить информативную валидность теста с тем, чтобы при необходимости произвести необходимую доработку тестовых заданий.

В современной практике тестирования анализ результатов теста проводится на основе «Item Response Theory» (IRT), современной интерпретации классической теории тестов. IRT является частью более общей теории латентно-структурного анализа Георга Раша - Rasch measurement [5]. На русский язык название «Item Response Theory» переводится различным образом. Ю. Нейман и В. Хлебников предлагают называть ее «Теория моделирования и параметризации педагогических тестов» (ТМППТ) [6]. Теория IRT обладает рядом преимуществ перед классической теорией тестов [7]:

1) превращает измерения, выполненные в дихотомических и порядковых шкалах, в линейные измерения, в результате чего качественные данные анализируются с помощью количественных методов;

2) мера измерения параметров является линейной, что позволяет использовать широкий спектр статистических процедур для анализа результатов измерений;

3) оценка трудности тестовых заданий не зависит от выборки испытуемых, на которых она была получена;

4) оценка уровня подготовленности испытуемых не зависит от используемого набора тестовых заданий;

5) неполнота данных (пропуск некоторых комбинаций: испытуемый - тестовое задание) не является критичным.

Полный перечень преимуществ модели IRT приведен в работе «Constructing Measures: An Item Response Modeling Approach» [8].

Результаты исследования и их обсуждение

В настоящей работе приводится методика применения IRT для оценки качества тестовых заданий по английскому языку. Эксперимент проводился на кафедре английского языка № 2 БНТУ. Участники эксперимента - студенты 1 курса факультета энергетического строительства. Материалом для исследования послужили тесты для контроля лекиско-грам-матических навыков, созданные в соответствии с учебной программой УО РБ [9].

На начальном этапе строится бинарная матрица результатов тестирования (табл. 1).

Таблица 1. Бинарная матрица (11x9)

1 2 3 4 5 6 7 8 9

1. Шкурко 0 0 1 0 1 0 1 1 1

2. Скобялко 1 0 0 1 1 0 0 1 1

3. Руль 0 0 0 0 0 1 0 1 0

4. Сергейчик 0 0 0 0 1 0 1 1

5. Косько 1 0 0 0 1 0 0 1 0

6. Шнягина 1 1 1 0 0 0 1 1 1

7. Чулада 1 1 1 1 1 1 1 1 1

8. Ивашкевич 1 0 1 1 0 1 1 1 1

9. Толстикова 0 0 0 0 0 0 1 1 0

10. Кайрович 1 0 1 0 1 1 1 1 1

11. Федкович 1 1 1 0 1 1 1 1 1

Матрица состоит векторов-строк, содержащих значения индикатора для испытуемого. Профиль испытуемого - это последовательность значений индикатора в упорядоченной матрице тестовых результатов. В дихотомическом случае ответы испытуемого характеризуется двумя символами (цифрами) - 0 и 1. Нулю соответствует неверный ответ, единице - верный ответ.

Для дальнейшего анализа, нам потребуются значения Х7 - индивидуального балла 7-го испытуемого, количество верных ответов Я- на --е задание. В табл. 2 приведены вычисленные значения Х7 и Я-.

Таблица 2. Бинарная матрица (11x9) с индивидуальными тестовыми баллами испытуемых

1 2 3 4 5 6 7 8 9 X

1. Шкурко 0 0 1 0 1 0 1 1 1 5

2. Скобялко 1 0 0 1 1 0 0 1 1 4

3. Руль 0 0 0 0 0 1 0 1 0 2

4. Сергейчик 0 0 0 0 1 0 1 0 1 4

5. Косько 1 0 0 0 1 0 0 1 0 3

Окончание табл. 2

1 2 3 4 5 6 7 8 9 X

6. Шнягина 1 1 1 0 0 0 1 1 1 6

7. Чулада 1 1 1 1 1 1 1 1 1 9

8. Ивашкев. 1 0 1 1 0 1 1 1 1 7

9. Толстиков 0 0 0 0 0 1 1 0 2

10. Кайрович 1 0 1 0 1 1 1 1 1 7

11. Федков 1 1 1 0 1 1 1 1 1 8

6 3 6 2 7 5 8 9 8 55

Следует отметить, что если какое-либо задание успешно выполнили все испытуемые, его необходимо удалить из теста, так как оно не позволяет дифференцировать студентов и тест не может считаться нормативно-ориентированным. Соответственно, если бы на какое-то задание не ответил ни один испытуемый (Я- = 0), то это задание тоже должно быть удалено из теста.

Далее рассчитываем количество неверных ответов Ж- на --е задание, долю верных ответов р- и долю неверных ответов q]■.

м

Х1 = Е/

У=1

В нашем случае (М = 9) индивидуальный тестовый балл, например, для второго испытуемого (7 = 2) равен:

9

Х2 = Еа2 у = а21 + а22 + а23 + ... + а29 = У-1

= 1 + 0 + 0 + 1 + 0 + 0 + 0 + 1 + 1 = 4,

N

Я = Еау,

I=1

Жу = N - Яу.

В нашем случае (Ы = 11) для третьего задания (] = 3) получаем: 11

Я3 = = а13 + а23 + ... + а113 =

I-1

= 1 + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 0 + 1 + 1 = 6, Ж3 = 11 - Я3 = 11 - 6 = 5.

Доля верных ответов на р- на ]-е задание равна:

Я

р] = N,

где р- - мера трудности задания. Доля неверных ответов равна:

^ = 1 - Р'г

В нашем случае для третьего задания получим:

Рз = ^ = 1 = 0,545, N 11

д3 = 1 - р3 = 1 - 0,545 = 0,455.

В табл. 3 приведены расчетные значения, р^ qJ■. Для удобства визуального анализа фамилии испытуемых заменены номерами.

Таблица 3. Показатели меры трудности заданий теста

1 2 3 4 5 6 7 8 9 Х

1 0 0 1 0 1 0 1 1 1 5

2 1 0 0 1 1 0 0 1 1 4

3 0 0 0 0 0 1 0 1 0 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4 0 0 0 0 1 0 1 1 4

5 1 0 0 0 1 0 0 1 0 3

6 1 1 1 0 0 0 1 1 1 6

7 1 1 1 1 1 1 1 1 1 9

8 1 0 1 1 0 1 1 1 1 7

9 0 0 0 0 0 0 1 1 0 2

10 1 0 1 0 1 1 1 1 1 7

11 1 1 1 0 1 1 1 1 1 8

R, 6 3 4 2 7 5 8 9 8 55

W, 3 3 5 5 3 5 2 2 2

р, 0,6 0,3 0,4 0,2 0,7 0,5 0,8 0,9 0,8

q, 0,3 0,3 0,5 0,5 0,3 0,5 0,2 0,2 0,2

0,18 0,09 0,2 0,1 0,21 0,25 0,16 0,18 0,16

Важным параметром тестового задания является вариация (дисперсия) тестовых баллов Рр qJ. Чем больше вариация, тем лучше задание дифференцирует испытуемых. В табл. 3 последняя строка отражает зависимость вариации тестовых баллов от трудности задания. На рис. 1 приведен график зависимости вариации тестовых баллов от трудности задания. Видно, что максимальное значение, равное 0,25 достигается при pJ = 0,5. При pJ = 0 и pJ = 1 дисперсия задания равна нулю. Таким образом, если на задание не ответил ни один испытуемый или успешно ответили все, то задание не может их дифференцировать по уровню подготовленности.

Результаты нормативно-ориентированного тестирования при больших выборках обычно имеют распределение, близкое к нормальному

доля верных ответов

Рис. 1. Зависимость вариации тестовых баллов от трудности задания

(закон Гаусса). Другими словами эмпирическая кривая, полученная нами по результатам эксперимента соответствует нормальному закону распределения, что позволяет считать рассматриваемый языковой тест нормативно-ориентированным: тест хорошо дифференцирует испытуемых и их индивидуальные тестовые баллы в достаточной степени отличаются друг от друга. В случае отклонения полученной кривой от кривой Гаусса, задания исследуемого теста подлежат доработке.

Заключение

Предложенная нами методика оценки качества языкового теста основана на классической теории тестов и может быть использована преподавателями иностранных языков для создания нормативно-ориентированных тестов с тем, чтобы объективно оценить уровень лек-сико-грамматических навыков обучаемых. Основные этапы данной методики: построение бинарной матрицы результатов тестирования исследуемого теста, отражающей профили испытуемых; вычисление значений Х, - индивидуального балла каждого испытуемого, ^ - количества верных ответов на каждое задание, Ж - количества неверных ответов, pJ - доли верных ответов, qJ - доли неверных ответов; построение графика зависимости вариации тестовых баллов от трудности задания для сопоставления его с кривой Гаусса.

Литература

1. Аванесов, В. С. Проблема психологических тестов / В. С. Аванесов // Вопросы психологии, 1978. - № 5. -С. 97-107.

2. Drevdahl, J. E. Personality and Creativity in Artists and Writers / J. E. Drevdahl, R. B. Cattell // Journ. of Clinical Psychology, 1958. - vol. XIV. - N 2.

3. Коккота, В. А. Лингводидактическое тестирование / В. А. Коккота.- М.: Высш. шк., 1989. - 130 с.

4. Crocker, L. Introduction to Classical and Modem Test Theory / L. Crocker, J. Algina. - New-York: Holt, Rinehart and Wilson, 1986. - 527 p.

5. Rasch, G. Probabilistic Models for Some Intelligence and Attainment Tests / G. Rash. - Copenhagen, 1960, Danish Institute of Educational Research. (Expanded edition, Chicago, 1980, The University of Chicago Press).

6. Нейман, Ю. М. Введение в теорию моделирования и параметризации педагогических тестов / Ю. М. Нейман, В. А. Хлебников. - М.: Прометей,2000. - 169 с.

7. Маслак, А. А. Измерение латентных переменных в социально-экономических системах: Монография. -Славянск-на-Кубани: Изд. центр СГПИ, 2006. - 333 с.

8. Wilson, M. Constructing Measures: An Item Response Modeling Approach / M. Wilson. - Mahwah, New Jersey: Lawrence Erlbaum associates, 2005. - 228 p.

9. Мартысюк, Н. П. Английский язык: пособие-репетитор для подготовки к централизованному тестированию / Н. П. Мартысюк, Т. Н. Руденко. - 2-е изд. - Минск: Аверсэв, 2012. - 415 с.

References

1. Avanesov, V. S. The problem of psychological tests В. С. / V. S. Avanesov // The issues of psychology, 1978. - № 5. -P. 97-107.

2. Drevdahl J. E., Cattell R. B. Personality and Creativity in Artists and Writers. - Journ. of Clinical Psychology; April, 1958, vol. XIV, N 2.

3. Kockota V. A. Language testing / V. A. Kockota. - М.: Vys. shk., 1989. - 130 p.

4. Crocker, L. Introduction to Classical and Modern Test Theory / L. Crocker, J. Algina. - New-York: Holt, Rinehart and Wilson, 1986. - 527 p.

5. Rasch, G. Probabilistic Models for Some Intelligence and Attainment Tests / G. Rash. - Co-penhagen, 1960, Danish Institute of Educational Research. (Expanded edition, Chicago, 1980, The University of Chicago Press).

6. Neiman, Y. M. Preamble for modeling test theory and test parameterization in pedagogy / Y. M. Neiman, V. A. Chleb-nikov. - М.: Prometey,2000. - 169 p.

7. Maslak, A. A. Measuring of latent variables in social economic systems: Monograph / A. A. Maslak. - Slavyansk-na-Kubany: Publishing centre SGPI, 2006. - 333 p.

8. Wilson, M. Constructing Measures: An Item Response Modeling Approach / M. Wilson. - Mahwah, New Jersey: Lawrence Erlbaum associates, 2005. - 228 p.

9. Martyssyk, N. P. English language: special training for testing / N. P. Martyssyk, T. N. Rudenko. - 2-nd edit. - Winsk: Aversev, 2012. - 415p.

Поступила После доработки Принята к печати

18.12.2017 20.12.2017 15.03.2018

Makarych M. V.

ITEM RESPONSE THEORY AS A TOOL FOR THE ESTIMATION

OF A LANGUAGE TEST

Belarusian National Technical University

Being a part of applied linguistics a language test plays an important role in a modern society. It is used for evaluating person's language skills not only at educational establishments but also while acquiring citizenship or getting a job. The purpose of the article is the development of a special technique for language test estimation using Item Response Theory (IRT). Short historical review of methods for learning ability estimation is represented. Fundamental principles of Classical and Modern Test Theory is described. The author considers a linguodidactical test as a classical test that patterns four main principles by Kockota V. A. The methodology for the evaluation process ofEnglish linguodidactical test with the help of IRT is described in details. Such a linguodidactical test will take into account the level of tasks difficulty, the total amount of tasks, the level of person's knowledge and testing conditions. This methodology helps to create a test that can assess the real grade of a person being tested.

Keywords: a language test, Item Response Theory, Classical and Modern Test Theory.

Макарич Марина Васильевна

Минский р-н, п. Валерьяново, ул. Янтарная, д. 13. Тел. дом. (017) 510 92 28, тел. моб. + 37529 634 99 29. E-mail: 2348843@tut.by.

Доцент кафедры английского языка № 2 БНТУ, кандидат филологических наук (специальность 10.02.21 - прикладная и математическая лингвистика), доцент. Также имеет диплом БНТУ (БПИ, факультет роботов) по специальности - автоматизация и комплексная механизация машиностроения. Научные интересы: педагогический аспект технического образования и лингвистическое обеспечение информационных систем.

Makarych Marina, Associate Professor of the 2nd English Department of the Belarusian National Technical University, PhD in Applied and mathematical linguistics. In addition she has B. Sc. in robotics. E-mail: 2348843@tut.by.

Her scientific interests focus on engineering education and interdisciplinary education that combines linguistics and computer science.

i Надоели баннеры? Вы всегда можете отключить рекламу.