Научная статья на тему 'Аналитический инструментарий для оценки и моделирования компетенций и успеваемости учащихся на примере ЕГЭ'

Аналитический инструментарий для оценки и моделирования компетенций и успеваемости учащихся на примере ЕГЭ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
55
8
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СОВРЕМЕННАЯ ТЕОРИЯ ТЕСТОВ / ITEM RESPONSE THEORY / ЛОГИТ / LOGIT / ХАРАКТЕРИСТИЧЕСКАЯ КРИВАЯ ЗАДАНИЯ (ЛОГИСТИЧЕСКАЯ КРИВАЯ) / ITEM CHARACTERISTIC CURVE (LOGISTIC CURVE) / КОМПЕТЕНЦИЯ / COMPETENCY / МОДЕЛИРОВАНИЕ / MODELLING / ТАЛАНТ / TALENT / КОНФЛИКТ / CONFLICT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пашков А.А.

Современная теория тестов (Item Response Theory IRT) позволяет использовать подходы имитационного моделирования в среде MatLab&Simulink, что дает возможность по моделированию талантливости обучающихся, снижению конфликтности при рейтинговании и ранжировании прогресса и успеваемости, а также позволяет произвести моделирование сложности и компетентности тестовых заданий и наглядную кластеризацию групп обучающихся. В статье проиллюстрированы возможности визуальной интерпретации решения управленческих задач для учителей и администраторов школы, показана технология построения IRT-матрицы, ее визуализация, анализа возникающих конфликтов, анализа текущих средств вычисления рейтинга испытуемых, а также создания инструментария отладки средств ранжирования с помощью имитационного компьютерного моделирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ANALYTICAL TOOLS FOR ASSESSMENT AND MODELLING OF THE STUDENTS’ COMPENTENCIES AND ACHIEVEMENTS BASED ON THE COMMON NATIONAL EXAMINATION

The modern theory of tests (Item Response Theory IRT), as a tool of simulation modelling in the MatLab&Simulink, has analytical capabilities of modeling the students’ talents, reducing the conflicts during rating and ranking of their progress and achievements, and it also allows the simulation of the complexity and competence of the test tasks and visual clustering of the students’ groups. The paper shows the possibility of visual interpretation of the administrative problem solutions for teachers and school administrators, it also illustrates the technology of the IRT-matrix construction and its visualization, the analysis of conflicts that appear, the analysis of the current rating of computing subjects, as well as creating a tool of ranking by means of imitational computer modelling.

Текст научной работы на тему «Аналитический инструментарий для оценки и моделирования компетенций и успеваемости учащихся на примере ЕГЭ»

АНАЛИТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ ДЛЯ ОЦЕНКИ И МОДЕЛИРОВАНИЯ КОМПЕТЕНЦИЙ И УСПЕВАЕМОСТИ УЧАЩИХСЯ НА ПРИМЕРЕ ЕГЭ

ANALYTICAL TOOLS FOR ASSESSMENT AND MODELLING OF THE STUDENTS' COMPENTENCIES AND ACHIEVEMENTS BASED ON THE COMMON NATIONAL EXAMINATION

Пашков A.A. - директор школы ГОУ СОШ № 1367, учитель математики и информатики, учитель высшей квалификационной категории, почетный работник общего образования Российской Федерации, аспирант

Pashkov A.A. - Head of school #1367, Maths and Informatics teacher, Teacher of the highest qualification category, Honored Worker of the general education of the Russian Federation, Postgraduate

Аннотация

Современная теория тестов (Item Response Theory - IRT) позволяет использовать подходы имитационного моделирования в среде MatLab&Simulink, что дает возможность по моделированию талантливости обучающихся, снижению конфликтности при рейтинговании и ранжировании прогресса и успеваемости, а также позволяет произвести моделирование сложности и компетентности тестовых заданий и наглядную кластеризацию групп обучающихся. В статье проиллюстрированы возможности визуальной интерпретации решения управленческих задач для учителей и администраторов школы, показана технология построения IRT-матрицы, ее визуализация, анализа возникающих конфликтов, анализа текущих средств вычисления рейтинга испытуемых, а также создания инструментария отладки средств ранжирования с помощью имитационного компьютерного моделирования.

Abstract

The modern theory of tests (Item Response Theory - IRT), as a tool of simulation modelling in the MatLab&Simulink, has analytical capabilities of modeling the students' talents, reducing the conflicts during rating and ranking of their progress and achievements, and it also allows the simulation of the complexity and competence of the test tasks and visual

clustering of the students' groups. The paper shows the possibility of visual interpretation of the administrative problem solutions for teachers and school administrators, it also illustrates the technology of the IRT-matrix construction and its visualization, the analysis of conflicts that appear, the analysis of the current rating of computing subjects, as well as creating a tool of ranking by means of imitational computer modelling.

Ключевые слова: современная теория тестов; логит; характеристическая кривая задания (логистическая кривая); компетенция; моделирование; талант; конфликт.

Key words: Item Response Theory; logit; Item characteristic curve (logistic curve); competency; modelling; talent; conflict.

В московской школе № 1367 создана информационно-аналитическая среда, которая позволяет провести оценивание учебно-воспитательной деятельности, занести итоги в портфолио учащегося/учителя, составить отчеты для всех заинтересованных сторон (вышестоящие органы, родители), а также получить рейтинг достижений/успехов учащихся как в разрезе классов, так по школе в целом. Однако существующая научно-педагогическая проблема информационной системы мониторинга и анализа успехов/достижений учащихся состоит в том, что за «средними баллами» по классу или школе можно не распознать талантливого в какой-то области учащегося и одновременно невозможно применить стратегию адаптивного обучения к тем, кто в ней нуждается. Традиционные методы оценки компетенций такие как, скажем, выставление оценок по пятибалльной шкале имеют ряд недостатков:

субъективизм оценивания, который выражается в том, что разные учителя могут различным образом оценить уровень знаний одного и того же обучаемого;

локальность выставленных оценок, т.к. оценки, так или иначе, относительны и применимы только к небольшой локальной группе; слабая дифференцирующая способность;

Для решения этой проблемы (в рамках проекта по гранту Департамента образования города Москвы) при школе создан Центр Компетенции по Технологиям Тестирования, задача которого внедрение сквозной системы диагностики знаний и компетенций учащихся, что позволит проводить независимую компетентную и регулярную оценку успеваемости учащихся.

Технологической платформой системы диагностики знаний и компетенция является программное обеспечение, позволяющее

моделировать ситуации тестирования с помощью имитационных подходов Монте-Карло (программное обеспечение от компании MathWorks [5]). Модель апробирована при анализе результатов ЕГЭ-2009 по математике ряда московских школ (выборка 2000 учащихся и 40 вопросов, в этом случае мы имеем матрицу ЮТ, в которую входит 2000*40=80000 ответов).

Описание предлагаемой модели системы учёта индивидуального прогресса обучающегося.

Существующая на данный момент система управления диагностикой характеризуется классической схемой с обратной связью. Применяя эту схему построения управляемой системы к вопросам тестирования, необходимо заметить, что объект управления в данном случае состоит из двух блоков. Первый блок - это непосредственно ответы на тесты, то есть этап получения ЮТ-матрицы группы. Второй блок обработки результатов - методика присвоения рейтингов, баллов и т.п., т.е. технология ранжирования испытуемых. На уровне моделирования мы можем оказывать влияние и изменять как на первый, так и на второй блок, в реальной же жизни, мы можем зафиксировать определенную часть параметров первого блока (например, количество вопросов), но не в состоянии контролировать успешность ответов испытуемых. Рис.1

ШТ Баллы

План-факт параметров матрица догиты,

конфликты

Цели тестирования

Набор параметров тестирования

Контроллер (регулятор)

Тестиро- Анализ

вание КТ

Фактические параметры

I

Измеритель (датчик)

Изменение структуры анализа

Рис. 1. Система управления процессом тестирования

Основная цель тестирования по ЮТ - это формирование подхода для оценки знаний учащихся, а также самого качества тестирования и анализа отдельных вопросов внутри теста. Этот подход [1] обладает гибкостью, позволяет реализовывать адаптивные подходы и дает возможность получить более полную информацию о вопросах теста и группе тестируемых. Методология ЮТ [2] основывается на предположении, что наблюдаемое явление (например, ответы испытуемых на задания теста) представляет собой внешнее

проявление некоторой латентной (т.е. скрытой от непосредственного наблюдения) характеристики, присущей испытуемым. В ГЯТ такими

характеристиками являются латентные параметры: - параметр подготовленности г -го испытуемого и (5 ■ - параметр трудности ] -го

задания. Значения уровня подготовленности испытуемых и трудности заданий теста получают путем преобразования наблюдаемых результатов в единую непрерывную шкалу и измеряют в одних и тех же единицах - логитах. Вся процедура сводится к получению оценок параметров трудности задания и к измерению "способностей" испытуемых и образованию "характеристических кривых". Первичной моделью в 1КТ стала модель латентной дистанции - разность уровня

способности и трудности теста — (3 у, где - положение г-го

испытуемого на шкале, а (3 у - положение у-го задания на той же шкале [3].

Предполагается, что данные тестирования и значения латентных переменных характеризуются нормальным распределением. Уровень "способности" испытуемого в "логитах" определяется на шкале интервалов с помощью формулы:

где pi - доля правильных ответов г-го испытуемого на задания

теста, величина 1 — pi представляет собой, соответственно, долю

неправильных ответов г-го испытуемого. Для первичного определения трудности задания в логитах используют похожую оценку

где р^ - доля правильных ответов в группе испытуемых на у-е

задание. Полученные значения логитов для заданий и испытуемых принято преобразовывать в единую шкалу с помощью соотношений (1.3) путем элиминирования как влияния трудности задания на результат индивидов, так и влияния индивидуальностей на трудность задания.

в° = \п—, г = 1,2,..., N _ реор!в,

1" Рг

(1.1

)

(1.2)

(1.3

- }

р, =в+л 1+—ро, 1 V 2.89

где [3 - среднее значение логитов ¡30 ,6 - среднее значение логитов уровней способностей , Ж - стандартное отклонение для логитов Р0, V - стандартное отклонение для логитов , предполагается, что г и у принимают все доступные значения. Эмпирические оценки (1.3) используются в качестве окончательных характеристик измеряемого свойства и заданий теста. Данная модель дополняется различными параметрами для масштабирования, изменения крутизны и смещения логистической кривой, что формирует целую серию многопараметрических моделей данного класса. Современные вычислительные средства дают возможность «разыгрывать» случайные величины с заранее определенными параметрами, что и позволяет строить имитационные модели ответов группы испытуемых на определенную группу вопросов. Проиллюстрируем возможности визуальной интерпретации решения управленческих задач для учителей и администраторов образовательных учреждений.

Моделирование талантливости учащихся.

На рисунке 2 наглядно видны три зоны сложности математических заданий по ЕГЭ-2009 - части теста А, В и С. Красный цвет означает высокую вероятность правильного ответа на вопрос, синий цвет означает низкую вероятность правильного ответа. Это очень наглядно показывает ситуацию с результатами тестирования, и могут использоваться для предварительных выводов и суждений. Чтобы принять во внимание наличие в группе испытуемых, которые отвечают гораздо лучше, чем в среднем, модель снабжена специальной переменной, отвечающая за коэффициент таланта испытуемого

На рисунке 3 приведены коэффициенты таланта для группы в 1000 учащихся. В увеличенном масштабе можно хорошо видеть характеристики основной части группы.

На гистограмме мы отчетливо видим, что основная масса группы имеет небольшой коэффициент таланта. В то, время как коэффициент, превышающий 0.25, имеет порядка 10% в группе. Иллюстрацией учета таланта в модели отвечает переменная ta.la.nt, которая является реализацией равномерно распределенной на [0,1] случайной величины после квантильного преобразования (возведение в степень). Возведение в степень выбрано не случайно, т.к. это преобразование

значительно уменьшает величины, которые меньше единицы, а первичная случайная величина как раз и проявляет себя на интервале от 0 до 1.

Рис. 2. Визуализация матрицы ГОТ в виде сеточного пространственного изображения

-= 7ЛО|

15 Е ^ Э> £ ^

— Г \ ^ДСТРТ

О 1 0.2 О 3

Р 5 ОБ 0.7 ОЭ 09

Интервал коэффициента таланта

Рис. 3. Гистограмма коэффициента таланта

Снижение конфликтности при рейтингов ании и ранжировании прогресса учащихся.

Внедрение систем оценки, особенно в большом масштабе, довольно болезненный вопрос, результаты которого мы сейчас наблюдаем в виде многочисленных общественных дискуссий на тему необходимости использования этой системы и неадекватности полученных оценок. Во многом дискуссия имеет место из-за высокой конфликтности системы оценивания. Под конфликтом мы понимаем невозможность или неопределенность выбора, когда для

осуществления процедуры выбора, принимаются не данные оценок компетенций и знаний, а другие статусные характеристики (деньги, связи и т.д.). С точки зрения методов анализа конфликтность зависит от методологии анализа данных, которые используются при подсчете рейтинга тестируемого. В России при оценивании знаний выпускников средних школ, используется 100-бальная шкала. Формула перевода логитов в баллы этой шкалы известна и опубликована федеральной службой по надзору в сфере образования и науки [4]

о, 0<0т1„; (1.4)

г

ГОПЫ I 88 в_~ 94 ^ I, бт, * в < ^ах

^ тяу ^ ггип

100 , в > бтах ;

где г - тестовый балл, 6 - оценка уровня подготовленности участника ЕГЭ в логитах, дтт - оценка в логитах, соответствующая одному первичному баллу, 0тах - оценка в логитах, соответствующая первичному баллу, на единицу меньшему максимального количества баллов (т.е. 99 баллов). Сам алгоритм вычисления логитов не раскрывается, что, конечно, формирует вопросы, касающиеся его надежности и конфликтности.

Рассмотрим данные тестирования 2000 школьников, для простоты будем анализировать вопросы групп сложности А и В, всего имеем 20 вопросов, 10 вопросов группы А и 10 вопросов группы В. Импортировав данные баллов, вычисленных с помощью текущей системы вычисления рейтинга, используемой в ЕГЭ, получаем общие представления о том, что баллы распределяются во всем диапазоне выбранной шкалы, т.е. от 0 до 100 и носят достаточно случайный характер. Дополнительную информацию нам может дать гистограмма распределения баллов, приведенная на рисунке 4.

На гистрограмме видно, что некоторые уровни ранжирования пусты. Несмотря на то, что несколько человек, которые набрали максимум, т.е. 100 баллов, уровень между 100 баллами и 90 баллами пустой. Таким образом, мы наблюдаем некоторую проблему - либо уровень обученности в группе не соответствует высшим 10% шкалы (однако есть обученные, которые набрали максимум), либо тестовые задания не достаточно проработаны, позволяя строить такие распределения, где участок 90-100 баллов оказывается незаполненным. Отсортируем данные, приведенные на рисунке 5 в порядке возрастания и построим логистическую кривую.

160 140 120 100 80 60 40 20 0

О 10 20 30 40 50 60 70 80 90 100

Рис. 4. Гистограмма распределения баллов

100 90 80 70 60 50 40 30 20 10 О

О 200 400 600 800 1000 1200 1400 1600 1800 2000

Рис. 5. Баллы, отсортированные в порядке возрастания

На рисунке 5 явно видно ступенчатый характер полученной кривой. Количество конфликтов на 2000 человек - 1962, т.е. 981 конфликт на 1000 человек, таким образом, конфликтность принятых методов ранжирования очень высока.

Результат визуализации IRT матрицы, построенной из ответов реальных испытуемых, приведен на рисунке 6. Предлагаемый способ визуализации позволяет выявить диспропорции, существующие в системе тестирования либо внутри групп самих тестируемых, что может быть достаточно для принятия тех или иных управленческих решений.

Слишком простой вопрос? Преобладание красного цвета

Рис. 6. ГОТ матрица и пример качественного анализа

Одной из особенностей предлагаемого подхода является наличие имитационной модели, которая позволяет работать с задачами тестирования. Применение процедур идентификации параметров к этой модели позволяет получить достаточные совпадения между оценками в логитах реальных школьников и имитационных моделей. Пример совпадения соответствующих логистических кривых приведен на рисунке 7.

Сравнение количества конфликтов в пространстве логитов обнаруживает 565 конфликта при обработке реальной выборки данных и 505 конфликтов при обработке имитационных данных, таким образом погрешность моделирования количества конфликтов составляет порядка 10% на уровне логитов. Если логиты пересчитываются в баллы, то эта разница в любом случае уменьшается, т.к. преобразование в баллы значительным образом огрубляет результат оценки. Становится понятен общий смысл подхода к управлению конфликтом. В случае с ЕГЭ, мы ожидаем, что параметры распределения вероятностей правильных ответов не сильно изменяются год от года и из имеющейся статистики их можно определить, т.е. подобрать такие параметры модели, которые будут давать похожие на реальные результаты. Исходя из этого, возможно разыгрывание конфликтных ситуаций еще до проведения ЕГЭ, а также внесение превентивных изменений, как в механизм вычисления рейтинга, так и в параметры тестирования.

ü

6 4

2 О

-4

О 200 400 600 S00 1000 "1200 1400 1600 1S00 2000

Рису. 7. Логистические кривые, полученные при обработке реальных и имитационных данных

Таким образом, показан подход и инструментарий работы с тестами, который может включать в себя компьютерное имитационное моделирование результатов проведения теста еще до его физического проведения. Это позволяет оценить используемую методику проведения теста и принять соответствующие управленческие решения, улучшающие работу системы в целом.

Библиографический список

1. Линда Крокер, Джеймс Алгина. Введение в классическую и современную теорию тестов. Учебник. М., Логос, 2010. - 668 с.

2. Кабанова Т. А. Новиков В. А. Тестовые технологии в дистанционном обучении. - М.Изд. дом «Обучение-Сервис», 2008, 320с.

3. Rasch. G. Probabilistic models for some intelligence and attainment tests. Copenhagen, Danish Institute for Educational Research, expanded edition, 1980

4. Методика шкалирования результатов ЕГЭ в 2008 году [Электронный pecypc]//URL: http://www.omedu.ru/files/instr2009/metod_shkal.pdf

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Официальный сайт компании Math Works, [Электронный pecypc]//URL: www.mathworks.com

Контактная информация: E-mail: s1367@bk.ru

Contact links:

E-mail: s1367@bk.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.