Научная статья на тему 'Анализ таблиц результатов педагогических измерений посредством программы Minister часть 1'

Анализ таблиц результатов педагогических измерений посредством программы Minister часть 1 Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
47
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТАБЛИЦЫ РЕЗУЛЬТАТОВ РАСЧЁТА (OUTPUT TABLES MENU) / ГРАДУИРОВАННАЯ ОЦЕНКА (RATING (PARTIAL CREDIT) SCALE) / УРОВЕНЬ ТРУДНОСТИ ОТВЕТА (STEP DIFFICULTY) / ПОРОГОВОЕ ЗНАЧЕНИЕ РАША-ЭНДРИЧА (RASCH-ANDRICH THRESHOLD) / ГРАДАЦИЯ ШКАЛЫ (STEP CALIBRATION) / ДИФФЕРЕНЦИРУЮЩАЯ СПОСОБНОСТЬ ЗАДАНИЯ (ITEM DISCRIMINATION) / ГРАФИК ВЕРОЯТНОСТИ ОТВЕТОВ ИСПЫТУЕМЫХ НА ЗАДАНИЯ ТЕСТА (THE PROBABILITY CURVES)

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Смирнова Галина, Смирнов Алексей

По результатам анализа определённого набора данных программа Ministep может построить 124 таблицы, которые скомпонованы в 34 группы. Наиболее значимые таблицы программа разбивает на шесть блоков. В данной статье начинается описание таблиц, представленных в первом из шести блоков. В частности, рассматривается таблица 3.2 под названием «Градуированная оценка» (Rating (partial credit) scale).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Смирнова Галина, Смирнов Алексей

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Анализ таблиц результатов педагогических измерений посредством программы Minister часть 1»



АНАЛИЗ ТАБЛИЦ РЕЗУЛЬТАТОВ ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ ПОСРЕДСТВОМ ПРОГРАММЫ MINISTEP. ЧАСТЬ 1

Галина Смирнова, Алексей Смирнов

Славянский-на-Кубани государственный педагогический институт

smirnova_g_i@mail.ru

-е-

По результатам анализа определённого набора данных программа Ministep может построить 124 таблицы, которые скомпонованы в 34 группы. Наиболее значимые таблицы программа разбивает на шесть блоков. В данной статье начинается описание таблиц, представленных в первом из шести блоков. В частности, рассматривается таблица 3.2 под названием «Градуированная оценка» (Rating (partial credit) scale).

Ключевые слова: таблицы результатов расчёта (Output Tables menu), градуированная оценка (Rating (partial credit) scale), уровень трудности ответа (step difficulty), пороговое значение Раша-Эндрича (Rasch-Andrich threshold), градация шкалы (step calibration), дифференцирующая способность задания (item discrimination), график вероятности ответов испытуемых на задания теста (the probability curves).

Таблицы программы MINISTEP

Перечень таблиц результатов расчёта программы Ministep описан в указателе (Index), ознакомиться с которым можно, обратившись к пункту меню «Помощь» — «Содержание» — «Таблицы результатов расчёта» («Help» — «Contents» — «Output Tables Index») (рис. 1).

При выборе соответствующей таблицы из пункта меню «Таблицы результатов расчёта» (рис. 2) создаётся временный файл, который автоматически вписывается в текущей отчёт анализа данных. Для этого в контрольном файле надо указать TABLES= или TFILE=*. Таблица 0 (Table 0), в которой указывается авторство и версия программы, всегда записывается в отчёт автоматически.

-е-

—1— Подробно см.: Г. Смирнова, А. Смирнов. Анализ данных в программе Ministep//Педа-гогические измерения. 2010. № 2. С. 81-93.

Hn

измерения

В качестве примера в статье, как и в предыдущих работах по данной теме, рассмотрены данные файла example0.txt, расположенного в Справке (Kelp) — Содержание (Content) — Примеры контрольных файлов и файлов данных (Examples of Control and Data files) — При-мер0^ (Example0.txt).

Jr WIN57LP5 MtLp

Фалл Правка Заклады Параметры Сграяка

£сДЧЗХЛ-Ив| ^К-ВМПЧПЬ-

Параметры I

Output Table Index

Tabie Description

1 flaps of person and Item measures. Show Rasch measures.

1.0 One page map withi names.

1.1 Map of distributions - persons and items

1.2 Item labels whh person ¡¡iairibiJlion (squeezed onto one page)

1.3 Person labels with item distribution (squeezed onto one page)

1.4 Rating scale cr partial credit map ¡>f distributions: persons with items at high, mean, low 1.10 One page map with person names by measure, item names by easiness.

1.12 Item labels, by easiness, with person distribution (squeezed unto one page)

2 Measures and resparses plots. Response categories for each item, lisled in measure order, plotted against person

measures, shown as modal categories, expected values and cumulative probabilities. Table 2 for multiple-choice items.

By observed categories

2,6 Observed average measures of persons (empirical averages)

By scored categories Illustrated by an observed category code for each score)

2.1 Modal categories (most probable)

2.2 Me-an categories (average or expected: Raaoh-hali-pciirit thresholds)

2J. Median categories (cumulative probabilities: Rasch-Thurstone thresholds)

2.A Structure calibrations (fiasch model pBfameters: rating scale, partial credit, "restricted", "unrestricted": Raech-Andrich thresholds)

2J5. Obeewed average measures of persons (empirical averages) 2.7 Expected averaae measures of oersons

Рис. 1. Меню пункта «Таблицы результатов расчёта» (Output Tables menu)

\W INS TEPStaxam p leslexampfcO, txl]

OUtput Titilss

Output Fltes Batch Help Spedftcetbn Hots SA5/5P55 Graphs delta Setup

Request SUbtabtas 3,2 Ramg (partial credit) scab 2.0 Measure forms (al)

10. A-rr(cdumn):Htcrdw

13. ACT: measure

14. АСГ! entry

15. АСГ: ДОаЬвЦса! 25. АСГ: dsplacernent

11. ACT: responses 9, ACTieutFtpiot

ACT! inft plct

12. ACT: map

23. ACT: pnnopal components

1, Variable maps 2,2 General rteyiom 2,5 Category Averages 3,1 Summary statistics

6, POD (row): fit order 17, Шз measure LB. Ш: entry

15. Ш: alphabetic«!

7,1 KED: responses S, KID: outfit plat KID: hflt plat

16. КЮ; map

24. Ш: prhefcwI components

20,. Sara table 291. Prcbablty cuves 29 . Empirical с Lives 22. 5Datagrams

Г.2.1 KIDKeyfarms: unexpected

17,3 КЮ KevFoimss rreasure

IS, 3 КЮ KeyFormsE entry

19,3 КЮ KeyFormsi at'F'^eticai

7.2 KID Keyforms! Fit cmler

30, ACT! D1F

33. KID:DPF

33. KIDs^CT: DDF & DPF

27, ACT; stiitdUfc

2S„ KID: subtotals

-e-

Рис. 2. Таблицы результатов расчёта

Как видно из рис. 2, меню содержит шесть блоков, в которых отображены названия доступных таблиц для обрабатываемых данных. Рассмотрим первую таблицу в первом блоке.

Таблица 3.2 «Градуированная оценка» (Rating (partial credit) scale)

Наведите курсор на данный пункт меню и нажмите его для того, чтобы данные2 были обра-

ботаны и сформированы во временный файл, который будет выведен на экран в виде таблицы (табл. 1). Имя этого файла 03-859ws.txt. Расшифруем название файла: «03» — означает порядковый номер таблицы в указателе (Index), «859» — уни-

кальныи номер для данного анализа, «ws.txt» расшифровывается как «Текстовый фаИл программы Winsteps»

(«Winsteps text file»).

Средние арифметические результатов измерения описывают градации ответов по уровню трудности.

Таблица 1

Таблица 3 2. Нфтшый предпочтения фЗ-859™ Исюднше данный :75ишыгу>емжк,25 заданий

Hzj.ipjiMbi д:нны : 75 ишьпу«мых, 12 заданийс тремяградапряпн стгЕетзЕпо уровню трудности. Краткая характеристика градщий ответа. Моде пь=-зК?-_

Метка Сугжа Найгаше % градации градации птое

знамена

0 0 667 33

1 1 757 37

2 2 609 30

Средке Ожидаем) QB3/D егнзмеше

-1.30 -.08 1.40

-1.30 -.09 1.41

ШИТ оитит

MNSQ MNSQ

.96 95

.90 7S

1JÜ9 133

Прокра Излкране стр^кп^рш градации

NQHE - .82 .82

(-2.04)

J00

(2.Q4)

00 dislike

01 rueutral

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

02 like

-е-

В оригинале таблица выглядит следующим образом:

-е-

TABLE 3.2 LIKING FOR SCIENCE (Wright £ Masters p. ZOU8 5 9wrs.txt Oct 9 10:54 ZD02

INPUT: 76 PUPILS, 25 ACTS MEASURED: 75 PUPILS, 12 ACTS, 3 CATS WINSTEPS 3.36 SUMMARY OF

CATEGORY STRUCTURE. Model = "R"

CATEGORY OBSERVED|OBSVD SAMPLE|INFIT OUTFIT||STRUCTURE|CATEGORY| LABEL SCORE COUNT S | AVRGE EXPECT| MNSQ MNSQ|| MEASURE | MEASURE|

6 67 757 609

33 37 30

-1.30 - .08 1.40

-1.30 I 1. 41 I

. 96 . 90 1.09

■ 95 I

■ 78 I 1.33 1

NONE - . 82 . 82

I ( -2.34) I 00 dislike

.00 I 01 neutral

I ( 2.04) I 02 like

AVERAGE MEASURE is mean of measures in category.

Создание таблицы контролируется кодами STEPT3=, STKEEP=, MRANGE=. «Средние арифметические результатов измерения» (average measure) и статистики адекватности данных модели (fit statistics) показывают, как отвечают испытуемые на ответы в данном задании.

Рассмотрим подробнее термин «средние арифметические

результатов измерения» (average measure). «Средние арифметические результатов измерения» для каждого из трёх ответов на тестовое задание являются средними значениями уровня подготовленности испытуемых при ответе на данное тестовое задание. Это эмпирическое понятие. Оно не принадлежит к параметрам модели Раша.

Hn

измерения

-е-

В оригинале формула выглядит следующим образом: Step difficulty - log ((count in lower category) / (count in higher category)) + (average of the measures across both categories) — normalizer

Каждый последующий уровень трудности («step difficulty»), пороговое значение Раша-Энд-рича (Rasch-Andrich threshold), шаг калибровки (step calibration) и другие отображают значения логитов каждой из последующих градаций. В этом заключается полезность и необходимость модели. И разность ло-гитов уровня подготовленности испытуемых, и трудности заданий образуют значения параметра модели Раша.

Теория Раша основана на положении, что испытуемые, отвечающие на более трудные ответы, должны иметь более высокий уровень подготовленности. В этой теории утверждается, что «каждая градация ответа должна быть наиболее предсказуемой на протяжении всей латентной переменной». Однако и противоположные теории имеют право на существование. Например, для того чтобы увеличить дифференцирующую способность задания (item discrimination), можно изменить шкалу измерений, хотя визуально такая шкала ничем не будет отличаться от прежней.

Отношение понятий «средние арифметические результатов измерения», «уровень трудности», «дифференцирующая способность задания» является комплексным. То есть:

Уровень трудности = log ((низшая градация) / (высшая градация)) + (среднее изме-

рение между двумя градациями) — нормализатор3.

Нормировано так, что Сумма (шаг шкалы) = 0.

Таким образом:

1) высшая градация с наибольшей частотой соотносится с низшей (наиболее низкой) на определённый уровень трудности (и/или дифференцирующей способности задания);

2) и наибольшее среднее значение данных измерений для обеих градаций — наибольшее (самое положительное) шага градации (и/или дифференцирующей способности задания);

3) поскольку уровень трудности заданий измеряется как составная градация (набор), взаимосвязь между этими двумя градациями подвержена влиянию связи с любой другой градацией. Из этого следует, что даже если градация явно не видна, её влияние отразится на величине шага всей шкалы измерения.

Для каждого шага градации k, где уровень подготовленности испытуемого — в j и уровень трудности задания — Pj, справедливо:

Среднее измерение = Z(ej -Pj)/число шагов для данной градации. Это не является оценкой параметра.

График вероятности ответов испытуемых на задания теста (the probability curves) показывает, как выбирается испыту-

-e-

емыми данный ответ, то есть график прогнозирует работу ответа, при условии, что для данного примера она удовлетворительна.

Логика подобных размышлений проста: если «средние арифметические результатов измерения» (average measure) и статистики адекватности (fit statistics) некорректны для одного примера, то почему они

должны быть таковыми для других примеров? Если же они выглядят достаточно хорошо для конкретного примера, тогда график задания сможет показать нам приемлемость для будущих примеров. Если они неверны на данном этапе, то, увидев это, можно предотвратить проблему в будущем.

А) Пример для дихотомических заданий:

Таблица 2

SUMMARY OF MEASURED STRUCTURE

FOR GROUPING "0", MODEL "R", ACT NUMBER:

12 GO TO MUSEUM

ACT MEASURE OF -1.07 ADDED TO MEASURES +--------------------------------------------------------+-----+

|CATEGORY OBSERVED|OB3UD SAMPLE|INFIT OUTFIT| COHERENCE | ESTIM |

I LABEL SCORE COUNT % |AVRGE EXPECT|

I-------------------+------------+_

111 13 IS I -.33 .oil

MNSQ

61 82 I 1.12 1.03|

. 33

. 78

MNSQI M->C C->MIDISCR|

-----+----------I-----+

.52| 75$ 23 % I 101 neutral

-e-

!5| 85!

| 2 2

+------------------------------------------------

AVERAGE MEASURE is mean of measures in category. M->C = Does Measure imply Category? C->M = Does Category imply Measure?

98 !

I 1.23|02 like +-----+

Метка градации (CATEGORY LABEL) — это число градаций в данных после подсчёта.

Сумма градации (CATEGORY SCORE) — это порядковое значение градации, которое используется компьютером для предварительных расчётов, а так же в таблице 2.

Наблюдаемое значение (OBSERVED COUNT) и % — показывает, сколько раз данная градация была включена в вычисления (к примеру, для тех

тестовых заданий и испытуемых, которые не являются экстремальными).

Среднее OBSVD (OBSVD AVERGE) — это среднее значение измерений, которое было смоделировано для правильного ответа в данной градации. Ожидаётся, что среднее значение будет увеличиваться с увеличением шага градации. Отклонения от данного утверждения помечаются «*». То есть это указание на описание примера,

г"п

измерения

-е-

Linacre J.M. Category Disordering vs. Step Disordering, Rasch Measurement Transactions. 1999. 13:1 p. 675, «FIM™ Level».

который не соответствует параметру Раша. Если для каждого шага градации k, существует испытуемый в j и тестовое задание Pi тогда:

Среднее значение = Цв- -Pi)/число шагов градации.

Отклонения шкалы измерений

Вернёмся к отклонениям. Среди специалистов нет единого мнения по поводу статуса рейтинговой шкалы (или доверительного интервала), которые позиционируются как «отклонения» («disorder»). Существует два вида отклонений:

1) Отклонения «средних арифметических результатов измерения» («average meas-ures») для градаций, которые могут быть вызваны неверной формулировкой (рис. 3).

В данном примере4 автор сознательно организовал неверный порядок данных в градаци-

ях. Это видно из неправдоподобных результатов «средние арифметические результатов измерения» («average measures») или «эмпирических средних» («observed averages»), где средний уровень подготовленности испытуемого вычисляется в каждой градации. На неверный порядок данных также указывают значение статистики адекватности (fit statistics). Общеизвестно, что такие понятия как «измерение структуры шкалы» («scale structure measures»), «шаг калибровки» («step calibrations»), «уровень трудности» («step difficulties»), «пороговое значение Раша-Андри-ча» («Rasch-Andrich thresh-olds»), «допустимые ошибки» («deltas») и другие требуют порядка в данных. А если данный порядок нарушен, то это сразу проявляется в их значениях.

2) Отклонения «шага шкалы» или «пороговой величины Раша-Эндрича» предполагает наиболее редкие промежуточ-

FJM COUNT AVERAGE IMFfT OUTFIT STEP

LEVEL MEASURE MNSQ MNSQ CAL1BRATN

1 0 68 -1,97 лат 1,41 NONE

2 m Е6 зла Si .69 -2.00

3 101 ^.Вб 1.05 1.02 -1.J9

А ies --2s ,91 ,99 -1,24

5 210 £0 97 .07 .па

6 Ш 2,14 .86 .75 1.07

7 1G1 3,02 S3 ,66 2ш

Рис. 3. Пример отклонения «средних арифметических результатов измерения» для градаций

0.9

1 0,7 О

a. 0.6 fc о *

U)

£ 0.5 О

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

U o.i

0.1

\ Step Disordering

l\

5 У

\ 4 6 /

\з/ /

JfW\|

-3 -2

Latent Variable

Рис. 4. Пример отклонения «шага калибровки» или «порогового значения Раша—Эндрича»

ные градации, т.е. они взаимодействуют друг с другом в узких интервалах на шкале латентной переменной (рис. 4).

В следующем примере FIM-градации5 организованы корректно, однако частота второго уровня уменьшена из-за некоторых действий в процессе получения данных (удаление экстремальных тестовых заданий, испытуемых). Несмотря на это, «средние арифметические результатов измерения» и «статистики адекватности» удовлетворительны. Беспорядок наблюдается в «шаге шкалы», он отразился на градации, близкой ко второй. Согласно значению, шаг шкалы очень редкий. Эта ред-

кость шага отразилась на графике, согласно которому градация 2 не является модальной для этих данных. Шаг шкалы не указывает, которое из этих двух значений должно быть исправлено: уровней 1 и 2, или уровней 2 и 3, и, соответственно, какие из них должны быть исключены из градации согласно их месторасположению (рис. 5).

Продолжение описания таблиц программы MINISTEP

Ожидаемое значение (SAMPLE EXPECT) — это ожидаемое значение среднего для данного

-е-

FIM (Functional Independence Measure) — мера функциональной независимости: Jamie Amundson, Amy Brunner, and Mary Ewers. FIM Scores as an Indicator of Length of Stay and Discharge Destination in CVA Patients: A Retroactive Outcomes Study. (http:// murphylibrary.uwlax.edu/ digital/jur/2000/ amundson-bru... )

Hn

измерения

-e-

Замечание: программа Winsteps всегда включает MNSQ-значения в таблицу № 3.2. Приближение (approximation) к их стандартным значениям можно получить, используя число шагов градации в качестве степеней свободы, и затем посмотреть результат на графике.

Напоминаем, что согласно табл. 2: M->C - Does Measure imply Category?

А так же C->M - Does Category imply Measure?

FIM COUNT AVERAGE INFIT OUTFIT STEP

LEVEL MEASURE MNSQ MNSQ CALIBRATN

1 96 •2.В1 .90 9G NONE

2 44 ♦1.3S .68 .92 -1.49

3 Ш1 -1.DQ 1.02 .SB -2.33

4 163 -.30 1.07 122 -1.29

5 210 .62 .96 .89 .05

В m 2.Э0 .75 .82 1.97

7 101 3.27 .87 .89 3.09

Рис. 5. Пример корректно организованных FIM-градаций

примера. Это значение всегда приближается к градации. Это снова описание примера, который не соответствует параметру Раша.

INFIT MNSQ — это среднее значение от квадрата INFIT, соотнесённое с ответами в каждой градации. Ожидаемое значение для всех градаций 1.0.

OUTFIT MNSQ — это среднее значение от квадрата OUTFIT, соотнесённое с ответами в каждой градации. Ожидаемое значение для всех градаций 1.0. Отметим, что данные показатели очень чувствительны к некорректно сформулированным тестовым заданиям6.

Связь (COHERENCE)

M->C7 — показывает процентное отношение, в котором ожидаемые результаты каждого шага градации оправдались. Соответствует ли измерение градации?

Коэффициент воспроизводимости результатов измерений Гутмана (Guttman's Coefficient of Reproducibility) — это среднее от M->C, т.е.

Воспроизводимость = 1(число *M->C)/X (число * 100).

C->M — показывает процентное отношение, в котором количество шагов в данной градации зависело от измерений, соответствующих градаций. Соответствует ли градация измерениям?

Дифференцирующая способность оценки (ESTIM DISCR) — это оценка различий, когда модель задана формой: log-odds = aj (6j — Pi — Fj).

Остаток (RESIDUAL) (если он отражен в таблице) — это разница между ожидаемыми и полученными результатами измерений для данной градации. Данное значение выражено в % для ожидаемых результатов, иначе полученные результаты = 0. Тогда остаток отражается в таблице. Его значение должно

-e-

быть >= 1.0. Является показателем недостаточной сходимости, нарушений в структуре данных или большого объёма данных.

Коды градаций и метки (CATEGORY CODES and LABELS) отражают верное описание данных в CODES=, CFILE= and CLFILE=.

Измерения, соответствующие дихотомическим градациям, не отображаются, но могут быть обработаны программой посредством таблицы «What is a Logit?» и LOWADJ=, а также HIADJ=.

Б) Пример для градуиро-

ванной шкалы:

Таблица 3

SUMMARY OF CATEGORY STRUCTURE. Model=r,R" FOR GROUPING "0" ITEM NUMBER: 1 A. EATING

ITEM DIFFICULTY MEASURE OF -. 61 ADDED TO MEASURES

| CATEGORY OB SERVED|OBSVD SAMPLE|INFIT OUTFIT||STRUCTURE|CATEGORY|

|LABEL SCORE COUNT %|AVRGE EXPECT| MNSQ MNSQ||CALIBRATN MEASURE|

| 5 5 5 14| -.51 -,42| .69 .66|| NONE

2.22)| 5 Supervision

|6 6 9 261 .39 ,04| 1.45 1.63|| -.18

.61 | 6 Device

|7 7 21 60 | .73 ,S6| 1.34 1.32|| .18

1.0 0) | 7 Independent

AVERAGE MEASURE is mean of measures in category.

| CATEGORY STRUCTURE | SCORE-TO-MEASURE | 50% CUM. COHERENCE|ESTIM| OBSERVED-EXPECTED |

| LABEL MEASURE S.E. | AT CAT.----ZONE----| PROBABLTY

>C C->M|DISCR|RESIDUAL DIFFERENCE!

| 5 NONE | ( -2.22) -INF -1.50 |

□ % 0% | | -1.4% -.1 | 5 Supervision

| 6 -.79 .52 | -.61 -1.50 ,28| -1.18

31% 66%| 1.22| .2% ,0| 6 Device

| 7 -.43 .39 |( 1.00) .28 +INF | -.04

31% 61%| ,59| .2% .0 | 7 Independent ------------------------------+

M->C = Does Measure imply Category? C->M = Does Category imply Measure?

Hn

измерения

-е-

Группа может состоять из одного тестового задания при ISGROUPS-O. Подробнее см.: Г. Смирнова, А. Смирнов. Редактирование данных в программе Ministep //Педагогические измерения. 2010.

№ 4.

Значение уровня трудности задания -0,61 добавлено. Это происходит, когда группа состоит из одного тестового задания (the Partial Credit model) и в отчёт добавляется значение уровня трудности этого задания8.

Метка градации (CATEGORY LABEL), Сумма значений по градации (CATEGORY SCORE), Наблюдаемое значение (OBSERVED COUNT) и %, Среднее OBSVD (OBSVD AVERGE), Ожидаемое значение (SAMPLE EXPECT), INFIT MNSQ, OUTFIT MNSQ аналогичны таблице 2.

Проверка структуры (STRUCTURE CALIBRATN) — мера перехода от одной градации к другой по нисходящей. Это и есть оценка параметра модели Раша, так называемое Fj (это относится к F--в выражении Д + F' при оценивании параметров «Рейтинговой шкалы», и подобным образом к Fij-в выражении Aj= в i + Fij-для «Доверительного интервала»).

Нижняя градация не является важным связующим звеном и поэтому измерения считаются несостоявшимися (NONE). Этот параметр иногда называют «уровень трудности» (Step Difficulty), «шаг калибровки» (Step Calibration), «пороговое значение Раша-Эндрича» (RaschAndrich threshold), которые наглядно показывают, на-

сколько это трудно — оценить градацию, вести научное наблюдение за ней. Некоторый беспорядок в данных оценках (то, что они не поднимаются по шкале измерений с увеличением их значения) иногда называют «неупорядоченной ошибкой» («disordered deltas), которая показывает, что градация относительно редко исследуется, т.е. занимает узкий интервал на шкале латентной переменной и в связи с этим возникают проблемы с рейтингом градации и её определением на шкале. Эти значения аналогичны парным оценкам переходов между градациями. Они являются своеобразными точками, в которых пересекаются смежные градации. Наглядно это представлено на рис. 7.

Оценка градации (CATEGORY MEASURE) — соответствующее значение градации. Скобки ( ) указывают на большое значение градации. Величина в данной графе, равная значению «.25» (или LOWADJ-и HIADJ-), не является экстремальной. То есть можно сделать следующее заключение: «коэффициент усредненного х предполагает измерение у» («ratings averaging x imply measures of y») или «измерение у предполагает усреднение коэффициента х» («measures of y imply ratings averaging x»). Это вытекает из параметров модели Раша.

-e-

Структура измерений (STRUCTURE MEASURE) — здесь к уровню трудности тестового задания прибавляется значение перехода его градаций к последующей нижней градации. Для структуры с одним тестовым заданием — это оценка параметра модели Раша Pij = fii + Fij(это относится к параметру вцмодели «Доверительного интервала» («Partial Credit»). Нижняя градация не имеет предшествующего перехода, поэтому измерения считаются несостоявшимися (NONE). Градация повышается с увеличением её значения, но это может быть ложным утверждением. «pgi + Fg» расположено в графике таблицы №2.4, где «g» относится к ISGROUPS- распределению.

STRUCTURE S.E. — это приближенная стандартная ошибка в измерениях с переходами.

Значение SCORE-TO-MEASURE описано в таблице 21 в разделе распределение «Ожидаемых данных». Эти данные необходимы для определения градации измерения, что является следствием параметра модели Раша.

Компьютерная томография (AT CAT — сокращённое от Computer-Aided Tomography») — это измерения (для тестовых заданий с 0-ми логитами) ожидаемых значений (меток градации), на которые

будет получен правильный ответ с наибольшей вероятностью. Подробнее смотрите на рис. 7.

Скобки () указываются там, где значение шкалы бесконечно большое. Значение, равное .25 (или LOWADJ= и HIADJ=), не является экстремальным.

Область ограничений (ZONE) — это диапазон ожидаемых значений от точки V2 под градацией до точки ^ над ней. Измерения в данном диапазоне должны совпадать, в среднем, с наблюдаемыми значениями. Подробнее смотрите на рис. 7.

50%-ная интегральная вероятность (50% CUMULATIVE PROBABILITY) определяет местоположение медианного значения вероятности, то есть является пороговым значением для шкалы Раша-Терстоуна (Rasch-Thurstone), аналогичной оценкам в таких моделях, как «Градуированные ответы» («Graded Response») или «Пропорциональные неравенства» («Proportional odds»). Согласно данным шкалирования заданий, вероятность правильного ответа на градацию, расположенную ниже, равняется вероятности правильного ответа на градации равные или выше данной. Значение 0,5 или 50% общей вероятности является точкой на переменной, от которой начинается интервал. Это утверждение вытекает из параметров модели Раша.

-е-

Hn

измерения

-e-

При этих калибровках вероятность наблюдения категорий ниже равняется вероятности наблюдения равных категорий или выше..5 или 50%-ная совокупная вероятность — пункт на переменной, в которой начинается интервал категории. Это подразумевается параметрами модели Rasch.

Связь (COHERENCE) аналогична табл. 2.

Дифференцирующая способность оценки (когда DIS-CRIM=Y) (ESTIM DISCR (when DISCRIM=Y)) — это оценка различий, когда модель задана формой:

log-odds = aj (0j — Pj — Fj). Разность между наблюдаемым и ожидаемым значением (если указано) (OBSERVED — EXPECTED RESIDUAL DIFFERENCE) — это значение разности между наблюдаемым и ожидаемым значением в процессе наблюдения за градацией.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Значение разницы в % = (наблюдаемое значение — ожидаемое значение) * 100 / (ожидаемое значение)

Разность = наблюдаемое значение — ожидаемое значение Это значение отображается в таблице, если оно больше или равно 1%. Это показывает, что оценки по модели Раша не стремятся к их максимальному правдоподобию из-за того, что они не сходятся, зависают или имеют очень большой объём данных. К примеру:

1) пошаговое выполнение программы было прекращено раньше, чем Вы нажали Ctrl+F или соответствующую опцию в меню;

2) пошаговое выполнение программы было прекращено, когда максимальное число итераций достигло порогового для MJMLE=;

3) критерий сходимости в LCONV= и RCONV= имеют недостаточно малое значение для этого набора данных;

4) закреплённые значения (anchor values) (PAFILE=, IAFILE= и/или SAFILE=) не позволяет достигнуть максимально правдоподобных оценок.

Измерение уровня трудности задания суммируется ко всем заданиям? (ITEM MEASURE ADDED TO MEASURES) — это отображается в таблице в том случае, когда рейтинговая шкала (или доверительный интервал) используется для одного тестового задания, то есть когда ISGROUPS=0. Тогда все измерения данной таблицы корректируются для измеряемого тестового задания.

Кривые на рис. 6 показывают, как будут вести себя градации относительно измерений уровня трудности тестового задания. Обычно 0 логитов на графике совпадают с началом измерений уровня трудности тестового задания и являются точкой, в которой измерение

САТЕСОКУ РКОВАВ1ЫТ1ЕЗ: МООЕЗ - ЗЪгисЪи!: е теазигез аЪ хп-ЬегзесЪхопз

Я 1.0 +

о 22 |

| 0000

2222

I Ь I Т

У

о г

к в

3 р

о

N

•В + ООО 2 22

| 000 222 | 00 22 | 00 22 . 6 + 00 22

I 00 1111111 22

.3 + О 1111 1111 2

| 1*- ++1 .4 + 11 00 22 11

I 111 00 22 111

I 11 оо гг 11

I 111 0*2 111

.г + 111 гг □□ 111

I Ш1 ггг оса ии

1111 гггг оооо 111

I ггггггг ооооооо

з .о +гггггггггггггг

0000 00 00000000 +

-3-2-10123

рипь [мшиВ] АСТ МЕАЗШЕ

Рис. 6. Градации относительно измерений уровня трудности тестового задания

Рис. 7. Расположение градаций на интервальной шкале

г"п

измерения

-е-

самой высокой и самой низкой градации равновозможны. График должен выглядеть как цепь холмов. Градации, которые не появляются на графике в качестве одного из холмов, являются неупорядоченными для перехода к калибровке. Это противоречие обычно ин-

терпретируется для градации как наиболее вероятный результат.

Ноль (Null, Zero), ненаблюдаемые градации (Unobserved Categories). Используйте код STKEEP=YES и градация 2 будет ненаблюдаемой (no observations) (табл. 4).

Таблица 4

CATEGORY OBSERVED|OBSVD SAMPLE|INFIT OUTFIT| | STRUCTURE|CATEGORY| LABEL SCORE COUNT S|AVRGE EXPECT| MNSQ MNSQ||CALIBRATN| MEASURE|

0 0 373 20 |

1 1 620 34 |

2 2 0 0 1

3 3 852 46 |

■ . 67

■ .11

- .73 I -.06| I

1.34 1.33|

. 96 .81 .00 1.00

,16|| ,57|| .ООП ■ 64 I I

NONE

- . 89 NULL . 89

I ( -2

I (

01) I 23 I 63 I 49) I

Градация 2 является частичным (sampling) нулем. Градация 2 поддержана в структуре ответа. Используйте код

STKEEP=NO и градация 2 станет ненаблюдаемой (no observations) (табл. 5).

Таблица 5

I CATEGORY OBSERVED|OBSVD SAMPLE|INFIT OUTFIT| | STRUCTURE|CATEGORY| |LABEL SCORE COUNT S|AVRGE EXPECT| MNSQ MNSQ||CALIBRATN| MEASURE|

| 0 0 3 78 20| -.87 -1.03| 1.08 1.20|| NONE |( -2.07) |

| 1 1 620 34 | .13 .33| .85 .69|| -.86 | .00 |

| 3 2 852 46| 2.24 2.16| 1.00 1.47|| .86 |( 2.07) |

-e-

Градация 2 является неразличимым (unobservable) нулем. Градация устранена из структуры ответа.

На этом описание таблицы 3.2 Градуированная оценка (Rating (partial credit) scale) заканчивается.

i Надоели баннеры? Вы всегда можете отключить рекламу.