Научная статья на тему 'СПОСОБЫ СВЯЗЫВАНИЯ ШКАЛ ДЛЯ ИЗМЕРЕНИЯ ОБРАЗОВАТЕЛЬНОГО ПРОГРЕССА В РАЗНЫХ ПАРАДИГМАХ АНАЛИЗА ДАННЫХ ОБРАЗОВАТЕЛЬНОГО ТЕСТИРОВАНИЯ'

СПОСОБЫ СВЯЗЫВАНИЯ ШКАЛ ДЛЯ ИЗМЕРЕНИЯ ОБРАЗОВАТЕЛЬНОГО ПРОГРЕССА В РАЗНЫХ ПАРАДИГМАХ АНАЛИЗА ДАННЫХ ОБРАЗОВАТЕЛЬНОГО ТЕСТИРОВАНИЯ Текст научной статьи по специальности «Науки об образовании»

CC BY
176
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
академические достижения / образовательный прогресс / измерение прогресса / связывание шкал тестов / психометрика / современная теория тестирования / academic achievement / educational progress / measuring progress / linking test scales / psychometrics / item response theory

Аннотация научной статьи по наукам об образовании, автор научной работы — Саляхутдинова Д. Р., Федерякин Д. А.

Мониторинги образовательного прогресса могут давать чрезвычайно полезные данные всем пользователям результатов — от самих тестируемых до органов управления системой образования. Это связано с огромным количеством психометрической работы, устанавливающей сопоставимость шкал из разных раундов измерения. Сопоставимость означает, что одна оценка уровня способности соответствует только одному и тому же уровню способности (т.е. может быть состоятельно проинтерпретирована сквозь разные измерения). Современная психометрика предлагает огромный перечень различных процедур, позволяющих установить сопоставимость шкал в случае, если тесты основаны на одной и той же операционализации (меняющегося) конструкта. В данной статье мы предлагаем классификацию методологических подходов к измерению образовательного прогресса, вводя класс мониторингов тенденций и мониторингов индивидуального прогресса. В то время как мониторинги первого класса ориентированы на предоставление стратегической информации на уровне всей образовательной системы (например, NAEP), мониторинги второго класса ориентированы на предоставление тактической информации на индивидуальном уровне (как PMS), из которой потом может быть агрегирована стратегическая информация. Затем мы описываем различные подходы к концептуализации образовательного прогресса — как количественного прироста и как качественного перехода в новое когнитивное состояние. В рамках каждого из этих подходов мы описываем наиболее популярные способы связывания шкал, обеспечивающих единую интерпретацию, на основе которой может проводиться измерение образовательного прогресса. Так, как частные случаи количественного подхода к пониманию образовательного прогресса мы описываем методы вертикального выравнивания тестов и лонгитюдные модели современной теории тестирования. В качестве способов связывания шкал, основанных на качественном подходе к пониманию прогресса, мы описываем методы установления вертикальных порогов, анализ латентных переходов и модели когнитивной диагностики.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS OF LINKING SCALES FOR MEASURING EDUCATIONAL PROGRESS IN DIFFERENT PARADIGMS OF EDUCATIONAL TESTING DATA ANALYSIS

Educational progress monitoring programs can provide valuable data to all users of test results, from test-takers to educational authorities. This is due to the enormous amount of psychometric work needed to establish comparability of scales from different measurement occasions. Comparability means that a single test score is assigned precisely to the same ability level. Then, it can be interpreted consistently across different measurement occasions. Contemporary psychometrics offers a vast list of different procedures allowing to establish comparability of scales. However, they only can be applied if the tests are developed using the same operationalization of the (changing) construct. This paper proposes a classification of methodological approaches for measuring educational progress. We introduce two types of programs for educational progress monitoring: (i) educational trends monitoring (that provide group-level information like NAEP) and (ii) individual educational progress monitoring (that provide individual-level information like Pupil Monitoring System). Then, we describe different approaches to conceptualizing educational progress — as a quantitative gain and as a qualitative transition to a new cognitive state. Finally, we review the most popular procedures for linking scales that provide a common interpretation against which educational progress can be measured within each of these approaches. Among special cases of quantitative progress understanding, we describe vertical equating and longitudinal item response theory modeling. Among methods based on understanding educational progress as quantitative transition, we describe the vertically moderated standard-setting, latent transition analysis, and cognitive diagnostic modeling.

Текст научной работы на тему «СПОСОБЫ СВЯЗЫВАНИЯ ШКАЛ ДЛЯ ИЗМЕРЕНИЯ ОБРАЗОВАТЕЛЬНОГО ПРОГРЕССА В РАЗНЫХ ПАРАДИГМАХ АНАЛИЗА ДАННЫХ ОБРАЗОВАТЕЛЬНОГО ТЕСТИРОВАНИЯ»

ДИДАКТИКА И МЕТОДИКА ОБУЧЕНИЯ

Д. Р. Саляхутдинова

Отечественная и зарубежная педагогика. 2022. Т. 1, № 3. С. 98-111. Domestic and foreign pedagogy. 2022. Vol. 1, no. 3. P. 98-111.

Научная статья УДК 37.02

doi: 10.24412/2224-0772-2022-84-98-111

СПОСОБЫ СВЯЗЫВАНИЯ ШКАЛ ДЛЯ ИЗМЕРЕНИЯ ОБРАЗОВАТЕЛЬНОГО ПРОГРЕССА В РАЗНЫХ ПАРАДИГМАХ АНАЛИЗА ДАННЫХ ОБРАЗОВАТЕЛЬНОГО ТЕСТИРОВАНИЯ

Д.А. Федерякин

Диана Расимовна Саляхутдинова1, Денис Александрович Федерякин2

1 2 Центр психометрики и измерений в образовании Института образования, Национальный исследовательский университет «Высшая школа экономики», Москва, Россия

1 dsalyahutdinova@hse.ru

2 dafederiakin@hse.ru

Аннотация. Мониторинги образовательного прогресса могут давать чрезвычайно полезные данные всем пользователям результатов — от самих тестируемых до органов управления системой образования. Это связано с огромным количеством психометрической работы, устанавливающей сопоставимость шкал из разных раундов измерения. Сопоставимость означает, что одна оценка уровня способности соответствует только одному и тому же уровню способности (т.е. может быть состоятельно проинтерпретирована сквозь разные измерения). Современная психометрика предлагает огромный перечень различных процедур, позволяющих установить сопоставимость шкал в случае, если тесты основаны на одной и той же операционализации (меняющегося) конструкта. В данной статье мы предлагаем классификацию

© Саляхутдинова Д. Р., 2022 Федерякин Д. А., 2022

методологических подходов к измерению образовательного прогресса, вводя класс мониторингов тенденций и мониторингов индивидуального прогресса. В то время как мониторинги первого класса ориентированы на предоставление стратегической информации на уровне всей образовательной системы (например, NAEP), мониторинги второго класса ориентированы на предоставление тактической информации на индивидуальном уровне (как PMS), из которой потом может быть агрегирована стратегическая информация. Затем мы описываем различные подходы к концептуализации образовательного прогресса — как количественного прироста и как качественного перехода в новое когнитивное состояние. В рамках каждого из этих подходов мы описываем наиболее популярные способы связывания шкал, обеспечивающих единую интерпретацию, на основе которой может проводиться измерение образовательного прогресса. Так, как частные случаи количественного подхода к пониманию образовательного прогресса мы описываем методы вертикального выравнивания тестов и лонгитюдные модели современной теории тестирования. В качестве способов связывания шкал, основанных на качественном подходе к пониманию прогресса, мы описываем методы установления вертикальных порогов, анализ латентных переходов и модели когнитивной диагностики.

Ключевые слова: академические достижения, образовательный прогресс, измерение прогресса, связывание шкал тестов, психометрика, современная теория тестирования

Благодарности. Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 19-29-14110.

Для цитирования: Саляхутдинова Д. Р., Федерякин Д. А. Способы связывания шкал для измерения образовательного прогресса в разных парадигмах анализа данных образовательного тестирования // Отечественная и зарубежная педагогика. 2022. Т. 1, № 3 (84). С. 98-111. doi: 10.24412/2224-0772-2022-84-98-111.

Original article

Methods of Linking Scales for Measuring Educational Progress in Different Paradigms of Educational Testing Data Analysis

Diana R. Salyakhutdinova1, Denis A. Federyakin2

1 2 Center for Psychometrics and Measurement in Education, HSE University, Moscow, Russia

1 dsalyahutdinova@hse.ru

2 dafederiakin@hse.ru

Abstract. Educational progress monitoring programs can provide valuable

data to all users of test results, from test-takers to educational authorities. This is due to the enormous amount of psychometric work needed to establish comparability of scales from different measurement occasions. Comparability means that a single test score is assigned precisely to the same ability level. Then, it can be interpreted consistently across different measurement occasions. Contemporary psychometrics offers a vast list of different procedures allowing to establish comparability of scales. However, they only can be applied if the tests are developed using the same operationalization of the (changing) construct. This paper proposes a classification of methodological approaches for measuring educational progress. We introduce two types of programs for educational progress monitoring: (i) educational trends monitoring (that provide group-level information like NAEP) and (ii) individual educational progress monitoring (that provide individual-level information like Pupil Monitoring System). Then, we describe different approaches to conceptualizing educational progress — as a quantitative gain and as a qualitative transition to a new cognitive state. Finally, we review the most popular procedures for linking scales that provide a common interpretation against which educational progress can be measured within each of these approaches. Among special cases of quantitative progress understanding, we describe vertical equating and longitudinal item response theory modeling. Among methods based on understanding educational progress as quantitative transition, we describe the vertically moderated standard-setting, latent transition analysis, and cognitive diagnostic modeling.

Keywords: academic achievement, educational progress, measuring progress, linking test scales, psychometrics, item response theory

Acknowledgments. The research was supported by the Russian Foundation for Basic Research under research project no. 19-29-14110.

For citation: Salyakhutdinova D. R., Federyakin D. A. Methods of linking scales for measuring educational progress in different paradigms of educational testing data analysis. Domestic and Foreign Pedagogy. 2022;1(3):98-111. (In Russ.). https://doi.org/ 10.24412/2224-0772-2022-84-98-111.

Введение

В современном образовании большую роль играют различные образовательные мониторинги, которые позволяют получать объективную информацию об учебных достижениях учащихся. Например, мониторинги могут проводиться с целью оценки хода выполнения каких-либо реформ, внедрения инноваций, отслеживания изменений и т.д. [22]

Для того чтобы доказательно говорить о наблюдении каких-либо тенденций, необходимо использовать специализированные методы анализа результатов тестирования, основанные на специальном психо-

метрическом моделировании. Эти методы основаны на использовании ключевого свойства современной теории тестирования — разделении параметров испытуемых и заданий. Оно проистекает из допущения о том, что как каждый из испытуемых, так и каждое из заданий характеризуется отдельным(-и) латентным(-и) параметром(-ами), взаимодействие которых определяет вероятность правильного ответа на каждое задание каждым из испытуемых [27]. Фиксация параметров одних и тех же заданий в разных точках измерения приводит к возможности сохранить интерпретацию оценки способности из разных замеров как одной переменной, а также вычислить, насколько эта способность испытуемого вырастает от одной точки измерения к другой [12].

Такое моделирование очень важно в случае попытки мониторинга образовательного прогресса выборки испытуемых на длинной дистанции (например, от начала учебного года к его концу), когда необходимо изменять содержание тестов, чтобы отразить изменение в содержании образования и образовательного прогресса. Это приводит к изменению содержания шкалы тестов, что делает сырые тестовые баллы несопоставимыми. В результате наблюдается «разрыв» шкалы. Иными словами, становится невозможно говорить об образовательном прогрессе в терминах сырых тестовых баллов [6].

Целью данной статьи является описание различных подходов к измерению прогресса в обучении в разрезе как методов психометрического моделирования результатов измерения, так и методов облегчения интерпретации оценок модели. Данная работа структурирована следующим образом. Сначала мы выделяем и описываем возможные подходы к мониторинговым исследованиям. Среди этих подходов мы описываем два основных типа: мониторинг образовательных тенденций и мониторинг индивидуального образовательного прогресса. Затем фокусируемся на методах измерения индивидуального образовательного прогресса. Мы описываем различные методы моделирования и интерпретации результатов, пытаясь подчеркнуть их глубокую связь. Среди этих методов мы выделяем класс, основанный на определении образовательного прогресса как количественного развития по одной шкале, а также как качественного перехода из одного латентного когнитивного состояния в другое. После этого мы завершаем работу обсуждением ключевых идей и описанием современного состояния дел в измерении образовательного прогресса в Российской Федерации.

1. Два типа мониторинговых исследований образовательного прогресса

Среди мониторингов образовательного прогресса можно выделить два основных типа: мониторинг тенденций и мониторинг индивидуального прогресса. Различие между ними заключается в том, что мониторинг тенденций подразумевает отслеживание общего состояния выборки, а мониторинг индивидуального прогресса относится к области индивидуального оценивания.

1.1 Мониторинг образовательных тенденций

Мониторинг тенденций может не подразумевать, что все испытуемые отвечают на все задания. Такая процедура сбора данных называется «буклетный дизайн» и подразумевает использование специальных методов обработки данных [20; 24].

Примером такого рода мониторинга является мониторинг NAEP (National Assessment of Education Progress). Он проводится один раз в 2-4 года во всех штатах США, и его цель — отслеживание тенденций в учебных достижениях обучающихся в четвертых, восьмых и двенадцатых классах в дисциплинах естественно-научного цикла, чтении и письме. Он проводится на репрезентативной национальной выборке школ, а также на репрезентативных выборках отдельных штатов. Важно отметить, что NAEP не дает информации относительно результатов отдельных учащихся и школ, а только предоставляет общую картину на национальном уровне и на уровне штата [23].

1.2 Мониторинг индивидуального образовательного прогресса

Другой тип мониторингов предназначен для отслеживания индивидуального прогресса испытуемых в обучении. Измерение прогресса испытуемых может быть полезно при сравнении результатов, полученных испытуемыми с течением времени, для улучшения понимания процесса обучения, для построения индивидуальных предсказаний с целью построения превентивной работы и т.д. Данный тип мониторингов предъявляет более высокие требования к качеству тестовых материалов и надежности измерений. В конечном счете измерение индивидуального прогресса сосредоточено на образовательном развитии отдельных испытуемых, а не класса (хотя прогресс класса может быть агрегирован из индивидуального).

Примером мониторинга индивидуального прогресса является мониторинг PMS (Pupil Monitoring System) в Нидерландах [21]. Целью данного мониторинга является формирующая оценка образовательных достижений учащихся, по итогам которой учитель получает представление о развитии учеников как на индивидуальном уровне, так и на групповом. PMS использует лонгитюдную оценку образовательных достижений учащихся по математике, языку, чтению и другим предметам [14].

Измерения в данном мониторинге обычно проводятся 1-2 раза в год в виде компьютерного адаптивного тестирования. Результаты тестирований преобразуются на единую шкалу для каждого предмета, по которой отслеживается прогресс ученика за несколько лет. PMS позволяет отслеживать и оценивать развитие учащихся и вовремя диагностировать проблемы в обучении [14].

Оба типа мониторингов отличаются как целями проведения, так и процедурами, интерпретацией и использованием результатов. В обоих случаях важным аспектом является качество используемого измерительного инструментария. Использование ненадежного и невалидного инструментария может привести к ошибочным выводам и неправильным управленческим решениям. Однако высокая точность измерения на индивидуальном уровне достигается гораздо труднее, чем на групповом. При этом мониторинг индивидуального образовательного прогресса можно использовать как для конкретных тактических решений касательно образовательного процесса каждого отдельного испытуемого, так и для стратегических решений, касающихся всей системы управления образованием.

В то же время мониторинг тенденций можно использовать только на стратегическом уровне. В соответствии с этим в дальнейшем в нашей работе мы концентрируемся именно на анализе методологии мониторинговых исследований индивидуального образовательного прогресса.

2. Подходы к построению единой шкалы между разными замерами

Для заявления о том, что комплекс измерительных инструментов измеряет образовательный прогресс, необходимо использовать не только специальные схемы предъявления заданий, но и специальные методы обработки данных. Эти методы гарантируют возможность сравнения результатов между разными измерениями за счет сохранения интерпретации одной и той же способности [6].

Проведение любого мониторинга связано с методологическими вызовами и проблемами. Несмотря на то, что ключевой вопрос любого образовательного мониторинга заключается в том, чтобы доказательно установить единую шкалу, конкретные методологические решения этого вопроса могут отличаться радикально.

2.1. Подходы, концептуализирующие прогресс как количественный прирост способности

2.1.1 Вертикальное выравнивание

Вертикальное выравнивание — это процесс связывания результатов тестирования из расставленных во времени измерений с использованием специального инструментария и специальных технологий вычисления оценок. Результатом выравнивания является единая шкала оценок, предназначенная для того, чтобы делать вывод относительно прогресса испытуемого в течение длительного промежутка времени. По результатам выполнения тестов одним испытуемым в течение нескольких лет для него можно выстроить траекторию роста знаний от одного класса к другому [18]. На практике основная задача выравнивания в данных случаях заключается в том, чтобы баллы по итоговым тестам могли лечь на единую шкалу результатов, на которой один и тот же уровень способности обозначается одним и тем же числом среди всех испытуемых.

Успешное выравнивание тестов между классами обязательно включает тщательную разработку теста каждого класса с общими заданиями для смежных классов. Например, тест ITBS (Iowa Test of Basic Skills) по математике охватывает третьи-восьмые классы. Начиная с четвертого класса тест в каждом следующем классе имеет блок заданий, общих с предыдущим [16; 18].

Конкретных процедур выравнивания в современной теории тестирования множество, но они в основном являются производными трех основных процедур [18]:

1. Выравнивание по общим заданиям между тестами. В данном случае проходит связывание двух вариантов тестов с помощью части заданий, которая является общей для них [18].

2. Выравнивание с использованием общих испытуемых. Здесь одной и той же выборке испытуемых предъявляются два разных теста в одной сессии тестирования, а потом выстраивается соответствие

между оценками способности по разным тестам.

3. Выравнивание с использованием общих заданий и общих испытуемых. В этом подходе, как и в предыдущем, тест, предназначенный для оценки уровня знаний в одном классе, имеет общие задания с тестами соседних классов. Однако испытуемые делают задания как для своего класса, так и для класса выше и ниже. Такой подход увеличивает силу связи шкал между собой [18].

2.1.2 Модели латентного роста современной теории тестирования

Современная теория тестирования (Item Response Theory, IRT) — это группа теоретических положений и вытекающих из них математических моделей, позволяющих концептуализировать результаты образовательного тестирования как результат взаимодействия испытуемых и заданий. Ключевой характеристикой современной теории тестирования является разделение латентных параметров испытуемых и заданий, взаимодействие которых (определяемое математической моделью) задает вероятность правильного ответа на задания [8]. Модели латентного роста представляют собой модели IRT, позволяющие разместить на одной и той же шкале параметры одних и тех же испытуемых в разные моменты времени.

Первыми моделями в этой области являлись модели Андерсена и Эмбретсон [3; 12]. Модель Андерсена является просто более мощной методологической реализацией вертикального выравнивания, потому что выстраивание единой шкалы происходит внутри одной модели. Она моделирует положение испытуемых на одной и той же шкале в разные моменты времени. В свою очередь, модель Эмбретсон является модификацией этой модели для оценки именно прироста способности испытуемых от одного момента измерения к следующему (именно разница в уровне способности).

Позднее на основе модели Эмбретсон была разработана эксплана-торная модель роста, которая способна учитывать резкие скачки и замедления в скорости развития респондента. Достоинством этой модели является то, что, несмотря на структуру, очень похожую на модель Эмбретсон, эта модель позволяет генерировать предсказание об уровне изменения способности испытуемого в момент будущего измерения. Кроме того, она изначально позволяет вводить в свою структуру различные контекстные переменные и выяснять их взаимосвязь с размером

прогресса [26]. Эта логика соответствует моделированию коллатеральной информации о респондентах [2]. Однако общий список моделей латентного роста далеко не исчерпывается только этими моделями [11].

2.2 Подходы, концептуализирующие прогресс как качественный переход из одной категории в другую

2.2.1 Подходы установления вертикально интерпретируемых баллов

Помимо классического подхода к вертикальному выравниванию, существуют подходы установления вертикальных порогов (Vertically Moderated Standard Setting, VMSS) [5].

Пороговые баллы делят испытуемых на несколько групп — на тех, кто ниже, и тех, кто выше каждого порога. Они устанавливаются путем определения балла, связанного с минимальным уровнем навыков или знаний, необходимых для достижения определенного качественного уровня владения дисциплиной. Установление пороговых баллов является важной частью обеспечения качества образования и экзаменов. Если установленные баллы будут неправильными, то это может понести за собой негативные последствия, особенно в экзаменах и тестах с высокими ставками [27].

Установление вертикальных порогов начинается с того, что в каждом классе определяются пороговые баллы отдельно на шкале этого класса. Затем на основе этих пороговых баллов выстраивается качественная вертикальная шкала для результатов за несколько временных отрезков. Таким образом, методы установления вертикальных порогов основаны не на выравнивании самом по себе, а на создании очень глубокой, теоретически обоснованной интерпретации тестовых баллов, которая связывает шкалы разных классов. При этом часто используются следующие методы установления пороговых баллов, центрированные на заданиях: метод «закладок» (Bookmark), метод Ангоффа (Angoff), метод анализа содержания работ (Body-of-Work) [27]. Полное описание этих методов лежит за пределами этой работы, оно подробно изложено в специализированной литературе [См.: 4; 9; 27].

В качестве примера реализации VMSS можно рассмотреть мониторинг English Language Development Assessment, проводящийся с третьего по двенадцатый класс в 16 штатах США. Данный тест оценивает четыре компонента владения английским языком: чтение, письмо, аудирова-

ние и говорение. Тест разделен на три блока с едиными тестами для третьих-пятых, шестых-восьмых и девятых-двенадцатых классов. Тест оценивает пять уровней владения языком, которые и обеспечивают связь шкал разных блоков [13]. Эти уровни устанавливаются с помощью метода «закладок».

Одно из главных основных правил для установления пороговых баллов в English Language Development Assessment состоит в том, что любое изменение любого порогового балла должно быть обосновано через содержание теста и уровни владения языком. Таким образом, недопустимо повышать или понижать пороговый балл просто для сглаживания линии прогресса; новый пороговый балл должен быть строго и полностью обоснован.

Использование VMSS возможно, пожалуй, только в английском языке и математике в силу накопленного опыта изучения содержания этих предметов. Для других предметов использование этого процесса кажется чрезвычайно трудным в силу отсутствия общепризнанных представлений о структуре контента.

2.2.3 Анализ латентных переходов

В отличие от моделей современной теории тестирования, направленных на ранжирование испытуемых на единой шкале, анализ латентных классов направлен на выделение качественных групп испытуемых на основе профилей их наблюдаемых ответов. Латентные классы не предполагают того, что один класс имеет более или менее высокий уровень способности, чем другой,— классификация является реализацией номинальной шкалы [15].

В последние годы наблюдается рост популярности лонгитюдной модификации анализа латентных классов — анализа латентных переходов (Latent Transition Analysis). Он направлен на то, чтобы кроме наиболее вероятного класса, в котором находится испытуемый, оценивать также так называемую вероятность перехода (transition probability) — вероятность того, что, находясь в одном классе в один замер, испытуемый перейдет в каждый из остальных классов в следующий замер [19]. Однако сам по себе анализ латентных переходов относительно труден в качественной интерпретации (особенно в случае использования относительно длинных тестов), поскольку классы (и вероятности решения заданий при нахождении в каждом из них) оцениваются свободно. Вероятно,

поэтому большую популярность анализ латентных переходов набрал в психологических исследованиях на коротких шкалах.

2.2.4 Лонгитюдные модели когнитивной диагностики

Для преодоления трудности интерпретации свободно выделяемых латентных классов в образовательном оценивании часто используют структурирование этого анализа на основе спецификации теста. Эти подходы получили название моделей когнитивной диагностики (Cognitive Diagnostic Models, CDM) — они классифицируют испытуемых в терминах освоения или неосвоения каждого из сегментов (темы, навыка или субкомпетенции) — любого содержательно-осмысленного признака различия заданий, отраженного в спецификации теста. Подобные результаты выполняют важную функцию в образовательном оценивании и отчетности и предоставляют много диагностической информации, которая может быть использована для улучшения или исправления ситуации (в отличие от простого положения испытуемого на какой-либо шкале) [7].

CDM моделируют дискретные латентные переменные [25] — мелко-уровневые (но потенциально обобщаемые) навыки [10]. Соответственно, результатом оценки в CDM является классификация испытуемых в латентные классы, сформулированные в терминах профилей освоения навыков. Эта классификация позволяет учителям лучше понимать, какие конкретные комбинации навыков были освоены каждым испытуемым. Учителя могут использовать эту информацию для адаптации обучения под нужды конкретного ученика, обеспечивая выгоду в обучении и максимизируя эффективность учебного времени в классе [10; 17].

Заключение

Рассмотрев различные подходы к измерению прогресса в обучении, мы пришли к четырем основным выводам:

1. Для того чтобы говорить об измерении образовательного прогресса, необходимо обеспечить единство интерпретации тестового балла (или иной оценки способности) на протяжении нескольких замеров. В противном случае полный цикл измерений разваливается на отдельные замеры, которые не соотносятся друг с другом, и разница в тестовых баллах становится неинтерпретируемой, потому что каждый замер имеет свою содержательную интерпретацию.

2. Чтобы обеспечить целостность интерпретации единой шкалы, необходимо использовать соответствующие методы обработки результатов тестирования. Они основаны на отслеживании вероятности решения одного и того же задания сквозь разные измерения. Технически это реализуется через фиксацию параметров одного и того же задания в смежных замерах.

3. Однако установление вертикальных порогов также позволяет обеспечить целостность интерпретации шкал из разных замеров. Оно выделяет группы испытуемых на шкалах разных классов независимо друг от друга, насыщает их преемственной интерпретацией и сравнивает переходы испытуемых из одной группы в другую. Тем не менее, несмотря на то, что, на первый взгляд, реализация этого способа обеспечения измерения прогресса не требует применения сложных психометрических моделей, он не является более простым. Дороговизна комплекса процедур экспертной работы, требуемых для установления пороговых баллов, гарантирует, что в практике проще применять методы, основанные на психометрическом моделировании.

4. Прогресс не обязательно должен концептуализироваться как количественный прирост способности. Он может рассматриваться как качественный переход испытуемого в новое когнитивное состояние, что позволяет сообщать испытуемым и другим группам пользователей результатов более обширную их интерпретацию. Это не только облегчает выбор мер по исправлению или улучшению сложившейся ситуации, но и снижает риски неверного использования результатов.

К сожалению, в России нет примеров национальных мониторинговых инициатив измерения образовательного прогресса. Одной из самых близких является Национальное исследование качества образования (НИКО) [1]. В частности, в рамках данной программы проводился мониторинг качества математического образования в пятых-седьмых классах в национальном масштабе — от каждого участвовавшего субъекта РФ участвовали 15 образовательных организаций. Однако НИКО не подразумевал использования методов выстраивания единой шкалы образовательного прогресса, а являлся серией изолированных замеров. Соответственно, результаты НИКО подразумевают критериально-ориентированную интерпретацию, где сравнение каждого замера с соседними невозможно. Тем не менее эти результаты предоставляют важную информацию для тактического анализа образовательной ситуации [1],

хоть и не позволяют отслеживать образовательные тенденции или индивидуальный образовательный прогресс.

Список источников / References

1. Кравцов С. С., Музаев А. А. Основные подходы к анализу результатов национальных исследований качества образования // Педагогические измерения. 2018. № 1. С. 9-15.

2. Федерякин Д. А., Угланова И. Л., Скрябин М. А. Новые источники информации в компьютерном тестировании // Вестник Томского государственного университета. 2021. № 465. С. 179-187.

3. Andersen E. B. Estimating latent correlations between repeated testings // Psychometrika. 1985. Vol. 50, No. 1. С. 3-16.

4. Buckendahl C. W., R. W. Smith, J. C. Impara. et al. A comparison of Angoff and Bookmark standard setting methods // Journal of educational measurement. 2002. Vol. 39, No. 3. P. 253-263.

5. Cizek G. J. Vertically moderated standard setting: A special issue of applied measurement in education. Routledge, 2013. P 1-24.

6. Cook L. L., Eignor D. R. IRT equating methods // Educational measurement: Issues and practice. 1991. Vol. 10, No. 3. P. 37-45.

7. Davier M. von, Lee Y. S. Handbook of diagnostic classification models. Cham: Springer International Publishing. 2019. P. 1-17.

8. DavierM. von. Linden W. J. van der (ed.). Handbook of item response theory: Volume 1: Models // CRC press. 2016. P. 31-51.

9. De Champlain A. F. Standard setting methods in medical education: High-stakes assessment // Understanding medical education: Evidence, theory, and practice. 2018. S. 347-359.

10. De La Torre J., Minchen N. Cognitively diagnostic assessments and the cognitive diagnosis model framework // Psicología Educativa. 2014. Vol. 20, No. 2. P. 89-97.

11. Duncan T. E., Duncan S. C. An introduction to latent growth curve modeling // Behavior therapy. 2004. No. 35 (2). P. 333-363.

12. Embretson S. E. A multidimensional latent trait model for measuring learning and change // Psychometrika. 1991. Vol. 56, No. 3. P. 495-515.

13. Ferrara S. Design and psychometric considerations for assessments of speaking proficiency: The English Language Development Assessment (ELDA) as illustration // Educational Assessment. 2008. Vol. 13, No. 2-3. P. 132-169.

14. Glas C. A. W., Geerlings H. Psychometric aspects of pupil monitoring systems // Studies in educational evaluation. 2009. Vol. 35, No. 2-3. P. 83-88.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

15. Hagenaars J. A., McCutcheon A. L. (ed.). Applied latent class analysis. Cambridge University Press, 2002. P. 3-55

16. Hoover, H. D., Dunbar, S. B., Frisbie, D. A. et al. Iowa Test of Basic Skills guide to research and development. 2003. // Itasca, IL: Riverside. P. 4-10.

17. Kaya Y., Leite W. L. Assessing change in latent skills across time with longitudinal cognitive diagnosis modeling: An evaluation of model performance // Educational and psychological measurement. 2017. Vol. 77, No. 3. P. 369-388.

18. Kolen M. J., Brennan R. L., Kolen M. J. Test equating, scaling, and linking: Methods and practices // Springer. 2014. P. 425-428

19. Lanza S. T., Patrick M. E., Maggs J. L. Latent transition analysis: Benefits of a latent variable approach to modeling transitions in substance use // Journal of drug issues. 2010. Vol. 40, No. 1. P. 93-120.

20. Laukaityte I., Wiberg M. Using plausible values in secondary analysis in large-scale assessments // Communications in statistics-theory and methods. 2017. Vol. 46, No. 22. P. 11341-11357.

21. Lubbe M., van der. Pupil Monitoring System (PMS) for Primary Education. [Электронный ресурс]. URL: http://www.iaea.info/documents/paper_4d727d8b. (дата обращения: 17.10.2021)

22. Mtetesha N. Monitoring and Evaluation in Education [Электронный ресурс]. URL: https:// www.academia.edu/4942025/Monitoring_and_Evaluation_in_Education. (дата обращения: 10.10.2021)

23. National Center for Education Statistics (2021). National Assessment of Educational Progress (NAEP). [Электронный ресурс]. URL: https://nces.ed.gov/nationsreportcard/ (дата обращения: 15.10.2021)

24. PISA 2018 assessment and analytical framework. // OECD publishing, Paris,. 2019. [Электронный ресурс]. URL: https://doi.org/10.1787/b25efab8-en (дата обращения: 20.10.2021)

25. Ravand H., Baghaei P., Doebler P. Examining parameter invariance in a general diagnostic classification model // Frontiers in Psychology. 2020. Vol. 10. P. 2930.

26. Wilson M., Zheng X., McGuire L. Formulating latent growth using an explanatory item response model approach // Journal of applied measurement. 2012. Vol. 13, No. 1. P. 1.

27. Zieky M., Perie M., Livingston S. A primer on setting cut scores on tests of educational achievement. Princeton, NJ: Educational Testing Service, 2006. P. 1-24.

Информация об авторах

Д. Р. Саляхутдинова — стажер-исследователь Д. А. Федерякин — научный сотрудник

Information about the authors

D. R. Salyakhutdinova — trainee researcher D. A. Federyakin — trainee researcher

Статья поступила в редакцию 15.02.2022; одобрена после рецензирования 04.03.2022; принята к публикации 04.05.2022. The article was submitted 15.02.2022; approved after reviewing 04.03.2022; accepted for publication 04.05.2022.

i Надоели баннеры? Вы всегда можете отключить рекламу.