Научная статья на тему 'Использование бинарной логистической регрессии для оценки качества адаптивного теста'

Использование бинарной логистической регрессии для оценки качества адаптивного теста Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1514
595
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АДАПТИВНЫЙ ТЕСТ / ОЦЕНКА КАЧЕСТВА / ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ / ADAPTIVE TEST / QUALITY ESTIMATION / LOGISTICAL REGRESS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Жилина Елена Викторовна

Приводится обоснование использования метода бинарной логистической регрессии для оценки качества адаптивного теста; приведен пример адаптивного тестирования, рассчитаны вероятности получения правильных ответов тестируемыми на каждом уровне знания.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Жилина Елена Викторовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

World and domestic experience testifies to efficiency of application of tests for certification of experts in various fields of knowledge and activity. Tests are used for self-training and self-checking; they allow receiving estimation of level of knowledge and abilities, objective enough to reveal gaps in training. In high schools and other educational institutions tests are used for introductory assessment, current control of knowledge, reception of offsets and examinations at any forms of training. With the test monitoring system of knowledge, the reliability of a given mark increases considerably. According to experts, the test system of knowledge monitoring increases the probability of objective assessment of students' knowledge by 80-95%. In the existing system of oral final examination it makes 15-18%. In educational institutions computer testing, which provides individual control of knowledge, regularity of its performing full and objective check of knowledge of the learnt material, unity of requirements, conformity to standards, decrease in operating time for the teacher to control the students' knowledge, is widely used. Experts say obligatory quality check of the test, including its reliability on the statistics basis, is not carried out, the definition of its difficulty and an independent expert review is not done. At the best, the structure and the content of questions is reviewed and discussed without an empirical check. The object of research is adaptive tests. The purpose of research is the processes of adaptive testing connected with their quality estimation. Research objective is to work out models of binary logistical regress and a technique of its construction for correct estimation of quality of adaptive tests applied in educational process. To achieve it the following problems must be solved: to consider indicators of quality of the adaptive test; to study features of the method of binary logistical regress and its realisation in package STATISTICA 6.0; to apply the method of binary logistical regress to estimation of quality of the adaptive test and to analyse the received results. The theoretical base of research is the works by domestic scientists devoted to research of the method of binary logistical regress, approved in scoring and medicine. The scientific novelty consists in the following: the method of binary logistical regress for estimation of quality of the adaptive test, calculating probabilities of occurrence of the right answer at all levels of knowledge is adapted, allowing to estimate the tested for a minimum quantity of test tasks more precisely; such criteria of quality of logistical models as reliability, a xi-square and disagreement relations prove the importance of the constructed models; it is offered to interpret the results of classification of supervision for establishing the quantity of guessed answers and the quantity of random errors.

Текст научной работы на тему «Использование бинарной логистической регрессии для оценки качества адаптивного теста»

ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА № 334 Май 2010

ЭКОНОМИКА

УДК 378.146

Е.В. Жилина

ИСПОЛЬЗОВАНИЕ БИНАРНОЙ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ ДЛЯ ОЦЕНКИ КАЧЕСТВА АДАПТИВНОГО ТЕСТА

Приводится обоснование использования метода бинарной логистической регрессии для оценки качества адаптивного теста; приведен пример адаптивного тестирования, рассчитаны вероятности получения правильных ответов тестируемыми на каждом уровне знания.

Ключевые слова: адаптивный тест; оценка качества; логистическая регрессия.

Адаптивный тест - это один из видов проверки знаний учащихся, предусматривающий изменение последовательности выдачи вопросов в процессе прохождения теста, учитывающий ответы тестируемого на предыдущие вопросы для определения трудности последующих вопросов [1]. Адаптивность сочетается с принципом «алгоритма-цепочки»: предъявление заданий с систематическим изменением уровня трудности.

Адаптивный тест как система обладает составом, целостностью и структурой. Тест состоит из заданий, правил их применения, оценок за выполнение каждого задания и рекомендаций по интерпретации тестовых результатов. Система означает, что в тесте собраны такие задания, которые обладают системообразующими свойствами. Хотя любой тест состоит из тестовых заданий, последние представляют не совокупность произвольно объединенных заданий, а именно систему. Время выделяют в качестве другого системообразующего фактора. Действительно, одно из соображений, положенных в основу создания адаптивных тестов, - иметь инструмент быстрого и относительно точного оценивания большого числа испытуемых. Требование экономии времени становится естественным в массовых процессах, каковым и стало образование. Одно из актуальных направлений современной организации тестового контроля - это индивидуализация контроля, приводящая к значительной экономии времени тестирования. От времени тестирования существенно зависит качество результатов. Каждый адаптивный тест имеет оптимальное время тестирования, необходимое для получения точной оценки тестируемого, уменьшение или превышение которого снижает качественные показатели теста.

Эффективным можно назвать тест, который лучше, чем другие тесты, измеряет знания студентов интересующего уровня подготовленности, с меньшим числом заданий, качественнее, быстрее, дешевле, и все это - по возможности в комплексе [2]. С понятием «эффективность» сопряжено и близкое к нему по содержанию понятие «оптимальность». Последнее трактуется как наилучшее из возможных вариантов, с точки зрения удовлетворения нескольким критериям, взятым поочередно или вместе. В определении эффективности теста учитываются два ключевых элемента: число заданий теста и уровень подготовленности студентов. Если из какого-либо теста с большим числом заданий сделать оптимальный выбор меньшего числа, то может образоваться система, не уступающая заметно по своим свойствам тесту со сравнительно большим числом заданий.

Тест с меньшим числом заданий в таком случае можно называть сравнительно более эффективным.

Помимо этого, эффективность теста можно оценить с точки зрения соответствия уровня его трудности уровню подготовленности тестируемых в данный момент студентов. Эту оценку в литературе нередко относят к валидности, имея в виду идею валидности теста, так сказать, по уровню. Легко понять практическую бесполезность того, чтобы давать слабым студентам трудные задания; большинство студентов, вероятнее всего, не сумеют правильно на них ответить. Так же обстоит дело и с легким тестом: его бесполезно (неэффективно) давать знающим студентам, потому что и здесь высока вероятность теперь уже правильных ответов, и потому практически все испытуемые получат по тесту одинаково высокий балл. И в том и в другом случае испытуемые не будут различаться между собой. Измерение, таким образом, не состоится по причине несоответствия уровня трудности теста уровню подготовленности. Из этих соображений легко вывести, что самый эффективный тест - это тест, точно соответствующий по трудности заданий уровню подготовленности испытуемых.

Эффективность теста зависит также и от принципа подбора заданий. Если подбирать задания для измерения на всем диапазоне изменения трудности, то снижается точность измерения на отдельном участке. И наоборот, если стремиться точно измерить знания испытуемых, например среднего уровня подготовленности, то это потребует иметь больше заданий именно данного уровня трудности. Поэтому тест не может быть эффективным вообще, на всем диапазоне подготовленности студентов. Он может быть более эффективен на одном уровне знаний и менее - на другом. Именно этот смысл вкладывается в понятие дифференциальной эффективности адаптивного теста.

С помощью метода бинарной логистической регрессии можно исследовать зависимость дихотомических переменных от независимых переменных, имеющих любой вид шкалы. Как правило, в случае с дихотомическими переменными речь идёт о некотором событии, которое может произойти или не произойти; бинарная логистическая регрессия в таком случае рассчитывает вероятность наступления события в зависимости от значений независимых переменных [3].

Как известно, все регрессионные модели могут быть записаны в виде формулы

У = ^(хь Х2,..., Хп). (1)

Например, в множественной линейной регрессии предполагается, что зависимая переменная является линейной функцией независимых переменных, т.е.

у = а + Ь1 х1 + Ь2х2 +... + Ьпхп, (2)

где х1 - значения независимых переменных, Ь1 - коэффициенты, расчёт которых является задачей бинарной логистической регрессии, а - некоторая константа.

Можно ли ее использовать для задачи оценки вероятности исхода события? Да, можно, вычислив стандартные коэффициенты регрессии. Например, если рассматривается исход по ответу на тестовое задание, задается переменная у со значениями 1 и 0, где 1 означает, что тестируемый правильно ответил на вопрос, а

0 - что неправильно. Однако здесь возникает проблема: множественная регрессия не «знает», что переменная отклика бинарна по своей природе. Это неизбежно приведет к модели с предсказываемыми значениями большими 1 и меньшими 0. Но такие значения не допустимы для первоначальной задачи. Таким образом, множественная регрессия просто игнорирует ограничения на диапазон значений для у.

Для решения проблемы задача регрессии может быть сформулирована иначе: вместо предсказания бинарной переменной мы предсказываем непрерывную переменную со значениями на отрезке [0,1] при любых значениях независимых переменных. Это достигается применением следующего регрессионного уравнения (логит-преобразование):

P = ■

1

1 + в~

(3)

где Р - вероятность того, что произойдет интересующее событие; е - основание натуральных логарифмов 2,71...; у - стандартное уравнение регрессии [4].

Если для P получится значение меньшее 0,5, то можно предположить, что событие не наступит; в противном случае предполагается наступление события.

Поясним необходимость преобразования. Предположим, что мы рассуждаем о нашей зависимой переменной в терминах основной вероятности P, лежащей между 0 и 1. Тогда преобразуем эту вероятность P:

P= loge, (P /(1- P)). (4)

Это преобразование обычно называют логистическим или логит-преобразованием. Теоретически P’ может принимать любое значение. Поскольку логистическое преобразование решает проблему об ограничении на 0-1 границы для первоначальной зависимой переменной (вероятности), то эти преобразованные значения можно использовать в обычном линейном регрессионном уравнении. А именно: если произвести логистическое преобразование обеих частей описанного выше уравнения, мы получим стандартную модель линейной регрессии [4].

Существует несколько способов нахождения коэффициентов логистической регрессии. На практике часто используют метод максимального правдоподобия.

Нами предлагается использовать метод бинарной логистической регрессии для оценки вероятностей получения правильного ответа на задание по каждому уровню знания как один из критериев качества адаптивного теста, уменьшающий время его прохождения, число заданий и увеличивающий точность оценки.

Предположим, что испытуемый начал тестирование с вопроса, соответствующего уровню 3, шаг контрольной точки равен 5, максимальное количество шагов тестирования равно 6, на первом шаге адаптации были получены следующие результаты (рис. 1, шаг 1; «+» отмечен правильный ответ, «-» - неправильный) (на основе метода, предложенного в (5)).

вопрос уровень^^ <;л <:>жн о cti 1 2 3 4 5 6 7 8 10 11 12 13 14 15 16 17 18 10 20 Ru

7 0,00

6 - 0.00

5 + - - L 0,25

4 + + - - - + - 0,43

3 ‘ + * - -t- 0,07

2 + + 1,00

1 0,00

шаг 1

шаг 2

шаг 3

шаг 4

Рис. 1. Пример адаптивного теста

«Промежуточные уровни знания» используются во избежание случайности ответов (как положительных, так и отрицательных). Поэтому под термином «промежуточные уровни знания» понимаем логическое распределение уточняющих вопросов на оценки 3, 4, 5 (уровни знания соответственно равны 3, 5, 7).

Используя программный продукт 8ТАТКТІСА 6.0, были обработаны результаты тестирования каждого шага адаптации. Исходные данные приведены на рис. 2.

Гипотеза Н(0) предполагает, что тестируемый ответит на вопрос правильно (1).

На первом шаге адаптации были получены следующие результаты логистической регрессии (см. рис. 3).

Далее, согласно формуле 3, вычисляем вероятности (Р1) того, что тестируемый на данном шаге адаптации ответить правильно на вопрос соответствующего уровня сложности (см. рис. 4). Р0 - начальное значение -принимаем равным 0,5 на каждом уровне сложности. Рассчитываем коэффициент изменения вероятности

АР : АР = Ри-Р,. (5)

Согласно алгоритму, предложенному в [5], шагов адаптации должно быть не менее двух, поэтому тестируемому предлагается продолжить тест далее (рис. 1, 2, шаг 2). На втором и третьем шаге адаптации были получены следующие результаты логистической регрес-

У

сии (рис. 5, а, б) и рассчитаны вероятности (Р2, Р3, АР) (рис. 4).

На данных этапах тестирования р-уровень более 5%, следовательно, модели незначимы, поэтому продолжаем тестирование. Далее приведены результаты четвертого шага адаптации (см. рис. 6).

Вычисляем вероятности (Р4, АР) (см. рис. 7).

Анализируем полученные результаты: р-уровень менее 5%, следовательно, модель значима; значение статистики хи-квадрат для разницы между текущей моделью и моделью, содержащей лишь свободный член, высоко значимо.

шаг 1

шаг 2

шаг 3

шаг 4

номер вопроса 1 Ответ 1 Ур_сл°жности 3

2 1 4

3 1 5

4 0 б

5 0 5

б 1 4

7 0 5

8 0 4

9 0 3

10 1 2

11 1 3

12 0 4

13 1 3

14 0 4

15 0 3

16 1 2

17 1 3

18 1 4

19 0 5

20 0 4

Рис. 2. Исходные данные для моделирования логистической регрессии

N=5 Model: Logistic regression (logit) N of0's:2 1's:3 (Spreadsheet2) Dep. var: Ответ Loss: Max likelihood Final loss: 1,386319092 Chi?(1)=3,9575 p= ,04667

Const. Ё0 У|>_СЛОЖНОСТИ

Estimate 92,90471 -16,5789

Odds ratio (unit ch) 0,0000

Odds r.itio (ганце) П.000ЇЇ

Рис. 3. Результаты логистической регрессии 1-го шага адаптации теста

ур_сложноста Po P1 ДР P2 tP P3 ДР

2 0,5 1 0,5 0,674364 -0,125616 0.622591 11 1 -0.0517931

3 0,5 1 0,5 0,735649 -0,264351 0,650010069 -0,065639

4 0,5 1 0,5 0,52664 -0,47336 0,426575933 -0,1000636

5 0,5 0,502462 0,0024624 0,307657 -0,194625 0,229567712 -0.0762696

і 0,5 9,1 2E-G9 -0.5І 0.150975 0.1509753 0.106626531 -0,0443406

1 0,5 6.24E-17 -0,5 0,066373 0,066373 0,045625432 -0,0207475

P (3.04 6 67 0.14699 0,1071

Chi-square 3,5575 2,1034 2,5967

Рис. 4. Рассчитанные вероятности наступления события «1» на 1-3-м шагах адаптации

N-15 Model: Logistic regression (logit) N ofO Dep. var Ответ Loss: Max likelihood Final loss: 9,065524176 Chi?(1 )=2,596;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Const. B0 Уp сложности

Estimate 3.37413 -0,917719И

Odds ratio (unit ch) 29.19902 G ,399429

Odds ratio (range) ■■«■■■іймшані ^■ 0.02545й знании

а

N=10 Model: Logistic regression (logit) N ofO's: Dep. var: Ответ Loss: Max likelihood Final loss: 5,879795618 Chi?(1)=2,1034 p

Const. B0 У|)_СЛОЖНОСТІІ

Esti in ate 3,78547 -0.9196221

Odds ratio (unit ch) 44,05653 0,398670'S

Odds ratio (range) 0,025261 1

б

Рис. 5. Результаты логистической регрессии 2-го (а) и 3-го (б) шагов адаптации теста

N=20 Model: Logistic regression (logit) N of0's:10 1‘s:10 (4.sta) Dep. var: Ответ Loss: Max likelihood Final loss: 11,224787155 Chi?(1)=5,2763 p= .02162

Const. BO У|>_сложнлсти

Estimate 4,52558 -1.19415И

Odds ratio (unit ch) 92,34928 0.30295 ■

Odds uitio (I'lnge) 0.00842І

Рис. 6. Результаты логистической регрессии четвертого шага адаптации теста

ур_сложности P4 ЛР

2 0.893857171 0,07126606

3 0,719151396 0,06914133

4 0,437762443 0,01118651

5 0.19142880 -0,0381386

6 0,067153695 -0,0394728

7 0,021420351 -0,0242051

P Chi-square 0,0216239 5,276313

-2"log(Likelihood) for this model = 22,44957 intercept only: 27,72589

Рис. 7. Рассчитанные вероятности наступления события «1» на 4-м шаге адаптации

Одним из критериев оценки качества логистической регрессии является отношение несогласия (Odds ratio) (рис. 8), полученное методом классификации наблюдений.

Отношение несогласия вычисляется как отношение произведения чисел правильно расклассифицированных наблюдений к произведению чисел неправильно расклассифицированных. Отношение несогласия больше 1 показывает, что построенная классификация лучше, чем если бы мы просто провели классификацию наугад.

Нами предлагается интерпретировать результаты классификации наблюдений для установления количества угаданных ответов и количества случайных ошибок (рис. 8).

В рассматриваемом нами примере адаптивного теста четвертый шаг адаптации является заключительным.

Pred.O Pned 1 Percent

0,000000 8 2 80,00000

■I ,000000 4 6 00,00000

Согласно алгоритму, предложенному в [5], на данном этапе тестируемый выходит на уровень знания 2 (коэффициент RLi = 1,00). Результаты логистической регрессии не противоречат этим данным: вероятность Р4 для уровня 2 максимальна, АР - положительна, р-уровень более 5%, Odds ratio более 1.

Далее переводим полученный результат в оценку (рис. 9).

Из вышесказанного можно сделать вывод: метод бинарной логистической регрессии рекомендуется применять для анализа качества адаптивного тестирования, при этом уменьшая время тестирования, число заданий и увеличивая точность оценки тестируемого; результаты моделирования показывают, что уровень сложности задания влияет на успехи тестируемого в выполнении адаптивного теста.

Odds ratio: 6.U000

у гад ь; заниє

случайная ошибка

Рис. 8. Отношение несогласия

Рис. 9. Шкала перевода уровня знания (уровня сложности) в оценку

ЛИТЕРАТУРА

1. Тестология в России: модели и методы тестологии. Режим доступа: http://www.testor.ru

2. Тягунова Т.Н. Философия и концепция компьютерного тестирования. М.: МГУП, 2003. 246 с.

3. Иллюстрированный самоучитель по SPSS. Режим доступа: http://lib.qrz.ru/node/11329

4. Паклин Н. Логистическая регрессия и ROC-анализ - математический аппарат. Режим доступа: http://www.basegroup.ru /library/analisys/ regression/logistic

5. Жилина Е.В. Линейная модель адаптивного тестирования // Проблемы создания и использования информационных систем и технологий:

Материалы III межрегион. конф. Ростов н/Д: РИНХ, 2009.

Статья представлена научной редакцией «Экономика» 1 марта 2010 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.