ОЦЕНКА АДЕКВАТНОСТИ МНОГОМЕРНОЙ ЛАТЕНТНОЙ МОДЕЛИ ПРОМЕЖУТОЧНОЙ И ИТОГОВОЙ УСПЕВАЕМОСТИ

Дядькин Юрий Алексеевич

Оценка адекватности многомерной латентной модели промежуточной и итоговой успеваемости

Дядькин Юрий Алексеевич,

старший преподаватель, кафедра информатики и методики обучения информатике, ФГБОУ ВО «Иркутский государственный университет» E-mail: dyadkin_ua@inbox.ru

Статья посвящена многомерной латентной модели оценки компетенций обучающихся образовательных организаций профессионального образования, учитывающей результаты промежуточной и итоговой успеваемости студентов. Данная модель разработана на основе многомерной модели частичного оценивания - Multidimensional Within-Item Partial Credit Model, являющейся расширением модели теории IRT. Ключевым вопросом, рассматриваемом в статье, становится адекватность приведенной модели. В качестве инструментария оценки ее адекватности предложено выбрать критерии fit-статистики, а именно, статистики варианта INFIT и варианта OUTFIT. Каждый из этих вариантов разделяется на статистики с математическим ожиданием, равным единице (MNSQ), и статистики с математическим ожиданием, равным нулю (ZSTD). В статье описана возможность этих статистических методов для выявления тех наборов исходных данных, которые не соответствуют модели. Приведены расчетные формулы для определения этого несоответствия на основе выделенных диапазонов допустимых значений статистик. Наборы данных, которые не соответствуют модели, исключаются из процесса оценки компетенций как фактор, потенциально снижающий получение адекватного результата. Таким образом, адекватность предлагаемой модели обеспечивается улучшением качества набора исходных данных за счет удаления различного рода ошибок и несоответствий.

Ключевые слова: современная теория тестирования, компетенции, оценка компетенций, IRT, MIRT, Multidimensional Within-Item Partial Credit Model, оценка адекватности модели.

о с

CJ

см см

Для оценки компетенций выпускников образовательных учреждений профессионального образования предлагается использование многомерной латентной модели промежуточной и итоговой успеваемости, которая имеет вид:

¿-tr=0

Обоснование применения данной модели, а также описание ее параметров представлено в работах [3, 2].

Проверка адекватности математической модели теории MIRT понятие многофакторное и включает в себя следующие задачи:

- на основе реальных первичных баллов обучающихся составим матрицу первичных баллов;

- получение оценок латентных параметров модели на основе матрицы первичных баллов;

- анализ и интерпретация результатов применения модели и получение выводов об адекватности применения модели для задачи оценки компетенций.

При этом необходимо отметить, что в теории IRT и ее развитии - теории MIRT принято соглашение о том, что набор эмпирических данных должен отвечать используемой модели, а не наоборот [4]. Таким образом, для оценки латентных параметров модели можно использовать только те задания, которые соответствуют модели измерения. Если в наборе присутствуют задания неудовлетворяющие модели - они отбрасываются, как непригодные для проведения исследования, либо подвергаются анализу с целью их корректировки [1]. Для проверки соответствия исходной матрицы первичных баллов той или иной модели были разработаны model-data fit-статистики: INFIT (взвешенная статистика) и OUTFIT (невзвешен-ная статистика) [6].

Данные статистические критерии позволяют выделить из общего набора матрицы первичных баллов задания, не отвечающие этой модели. Задания неудовлетворяющие статистическим критериям требуют дальнейшего анализа с целью их возможной модификации.

Применение model-data fit-статистики связано с вычислением остатков, которые находятся по формуле:

% = Yij - Eij, (2)

где Yj - ответ /-го студента нау-ое задание, а E j - ожидаемый ответ /-го студента на у-ое задание в соответствии с моделью MIRT.

Тогда ожидаемый ответ в случае применения заданий с несколькими категориями будет вычислен по формуле:

Eij - VkPjr,

(3)

r-0

где Рци - вероятность получения у-м студентом по /-му

заданию определенной оценки (достижение категории и).

Тогда дисперсия для заданий с несколькими категориями будет представлена формулой:

D[Ujr] = Z(Г - Ejf j

(4)

r-0

где К/ - максимально возможный балл по /-му заданию (количество категорий).

Тогда стандартизированные остатки будут выражены формулой:

zij =

x/j Eij

(5)

Традиционно применяются два варианта статистик INFIT и OUTFIT [6]:

- MNSQ - статистика с математическим ожиданием равным единице;

- ZSTD - стандартизированная статистика с математическим ожиданием равным нулю. Среднее значение среднеквадратической

ошибки оценки задания является статистикой OUTFIT MNSQ и рассчитывается по формуле:

1 N

OM: - - V-1 N 4-f

I-1

£2 ij

ZlL

N '

(6)

Ч> ^ J /=1

Диапазон значений данной статистики [0,да),

а ее среднеквадратическое отклонение выражается формулой:

и--/-1 d

1

Uj

- 4N

Статистика по формуле:

OUTFIT

N

ZSTD

(7)

рассчитывается

0Zj -(зрм~ -1)

CTI

V I /

3

(8)

Диапазон значений данной статистики (-да;да).

Статистика позволяет эффективно распознавать аномальные ответы, то есть такие ситуации, в которых студенты в высокой оценкой компетенции демонстрируют низкие результаты и наоборот, студенты с низкой оценкой компетенции показывают высокий результат.

Для уменьшения проявления этого эффекта была разработана статистика MNSQ, которая рассчитывается по формуле:

IMj -

VND U ]

(9)

Диапазон значений данной статистики [[0,да) ,

а ее среднеквадратическое отклонение выражается формулой:

V N-D [uj ]-4V N-i(d [uj ])2

V N-D [uj ]

(10)

Статистика INFIT ZSTD имеет диапазон значений (-да; да) и рассчитывается по формуле:

IZj=

3IMj -1)

3

(11)

Значения статистик и их разъяснение дается

исследователем John M. Linacre [5]. Для статистик MNSQ INFIT/OUTFIT:

- если значение статистики меньше 0.5 - задание малопродуктивно и может привести к ошибочно высоким коэффициентам надежности заданий;

- если значение статистики находится в диапазоне [0.5-1.5] - задание является продуктивным для проведения измерений;

- если значение статистики находится в диапазоне (1.5-2.0] - задание является малопродуктивным, но может быть использовано для проведения измерений;

- если значение статистики больше 2 - задание ухудшает или искажает систему измерений. Для статистик ZSTD INFIT/OUTFIT:

- если значение статистики меньше -2 - данные являются слишком предсказуемыми;

- если значение статистики находится в диапазоне [-1.9-1.9] - данные имеют разумную предсказуемость;

- если значение статистики находится в диапазоне [2.0-2.9] - данные малопредсказуемы;

- если значение статистики больше 3 - данные не соответствуют модели.

В табл. 2.1 представлены оптимальные и допустимые значения статистик.

Таблица 1. Оптимальные (*) и допустимые значения статистик

Взвешенная статистика (weighted fit) Невзвешенная статистика (unweighted fit)

MNSQ ZSTD MNSQ ZSTD

0.4-1.4* -2.5-2.5* 0.4-1.4* -2.5-2.5*

0.3-1.7 -3-2.5 0.3-1.7 -3-2.5

сз о со "О

Таким образом, можно судить о соответствии эмпирических данных данной модели. Иными словами, есть нарушения в самих данных, что говорит о некорректности предлагаемых обучающимся заданий, неточности в формулировках заданий либо были допущены ошибки при процедуре выставления первичного балла за выполнение этого задания.

сз т; о m О от

З

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ы о со

Литература

1. Андерсен Э.Б. Тест на пригодность для модели Раша / Э.Б. Андерсен // Психометрика - 1973. -Т. 38 - № 1. - С. 123-140.

2. Дядькин Ю.А. Модель оценки компетенций обучающихся в условиях цифровизации образования / Ю.А. Дядькин // Современное педагогическое образование. - 2021. - № 11. - С. 8083.

3. Дядькин Ю.А. Сравнение моделей теорий IRT и MIRT для оценки компетенций студентов / Ю.А. Дядькин // Современная наука: Актуальные проблемы теории и практики. - 2019. -№ 5. - С. 49-53.

4. Ким В.С. Тестирование учебных достижений / В.С. Ким / под ред. Издательство УГПИ. - Уссурийск, 2007.

5. Линакрэ Дж.М. Структура и стабильность функциональной независимости измерений / ДжЖ Линакрэ, А.В. Хэйнеман, Б.Д. Райт, К.В Гранджер, Б.Б. Гамильтон // Архивы физической медицины и реабилитации. - 1994. -Т. 75 - № 2. - С. 127-132.

6. Эймс А. Дж., Пенфилд Р.Д. Инструктивный модуль NCME fit-статистики современной теории тестирования / А. Дж. Эймс, Р.Д. Пенфилд // Измерение в образовании: Вопросы и практика. - 2015. -Т. 34/ - № 3. - С. 39-48.

ASSESSMENT OF THE ADEQUACY OF THE

MULTIDIMENSIONAL LATENT MODEL OF

INTERMEDIATE AND SUMMARY ACHIEVEMENT

Dyadkin YuA

Irkutsk State University

The article is devoted to the multidimensional latent model for assessing the competences of students in educational institutions of

vocational education, which takes into account the results of intermediate and summary achievement of students. This model is developed on the basis of Multidimensional Within-Item Partial Credit Model, which is an extension of IRT theory model. The key question considered in the article becomes the adequacy of the model given. It is suggested to choose fit-statistics criteria, namely statistics of INFIT and OUTFIT variants, as a tool to assess its adequacy. Each of these variants is divided into statistics with mathematical expectation equal to one (MNSQ) and statistics with mathematical expectation equal to zero (ZSTD). The article describes the ability of these statistical methods to identify those sets of raw data that do not fit the model. Calculation formulas for determining this discrepancy based on the identified ranges of acceptable statistic values are given. The data sets that do not correspond to the model are excluded from the process of competences assessment as the factor that potentially reduces the receipt of the adequate result. Thus, the adequacy of the proposed model is ensured by improving the quality of the initial data set by removing various kinds of errors and inconsistencies.

Keywords: Item Responce Theory, competencies, competency assessment, IRT, MIRT, Multidimensional Within-Item Partial Credit Model, model adequacy assessment.

References

1. Andersen E.B. A goodness of fit test for the Rasch model / E.B. Andersen // Psychometrika - 1973. - T. 38 - № 1. -P. 123-140.

2. Dyadkin Yu.A. Model of students' competencies evaluation in the context of digitalization of education / Yu.A. Dyadkin // Modern Pedagogical Education. - 2021. - № 11. - P. 80-83.

3. Dyadkin Yu.A. Comparison of IRT and MIRT theory models in graduate competences estimation / Yu.A. Dyadkin // Modern science: actual problems of theory and practice. - 2019. -№ 5. - P. 49-53.

4. Kim V.S. Testing Educational Achievements / V.S. Kim / edited by UGPI Publishing House. - Ussuriysk, 2007.

5. Linacre J.M. The structure and stability of the Functional Independence Measure. / J.M. Linacre, A.W. Heinemann, B.D. Wright, C.V Granger, B.B. Hamilton // Arch. Phys. Med. Rehabil. - 1994. - Vol. 75 - № 2. - P. 127-132.

6. Ames A.J. An NCME Instructional Module on Item-Fit Statistics for Item Response Theory Models / A.J. Ames, R.D. Penfield // Educational Measurement: Issues and Practice. - 2015. -Vol. 34/ - № 3. - P. 39-48.

о с

u

CM CM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дядькин Юрий Алексеевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дядькин Юрий Алексеевич

ASSESSMENT OF THE ADEQUACY OF THE MULTIDIMENSIONAL LATENT MODEL OF INTERMEDIATE AND SUMMARY ACHIEVEMENT

Текст научной работы на тему «ОЦЕНКА АДЕКВАТНОСТИ МНОГОМЕРНОЙ ЛАТЕНТНОЙ МОДЕЛИ ПРОМЕЖУТОЧНОЙ И ИТОГОВОЙ УСПЕВАЕМОСТИ»