Научная статья на тему 'Исследование качества тестов с использованием модели Раша'

Исследование качества тестов с использованием модели Раша Текст научной статьи по специальности «Науки об образовании»

CC BY
1316
278
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОНИТОРИНГ / МОДЕЛЬ ИЗМЕРЕНИЯ / СТРУКТУРА ТЕСТА / КАЧЕСТВО ТЕСТА / MONITORING / MEASUREMENT MODEL / TEXT STRUCTURE

Аннотация научной статьи по наукам об образовании, автор научной работы — Дроздов В. И., Бойцова Е. А., Новиков Ю. М.

В статье представлена методика исследования качества тестов на примере тестов Интернет-тестирования в сфере среднего образования, разработанного НИИ мониторинга качества образования (г. Йошкар-Ола) при подготовке выпускников общеобразовательных учреждений к ЕГЭ. В основу методики положена, широко применяемая за рубежом, теория латентно-структурного анализа, в частности, Item Response Theory (IRT). Рассмотрены статистические характеристики тестовых заданий и предложены рекомендации по совершенствованию тестов

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по наукам об образовании , автор научной работы — Дроздов В. И., Бойцова Е. А., Новиков Ю. М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE RESEARCH OF THE TESTS' QUALITY WITH THE HELP OF THE RASCH MODEL

In the article the method of the research of test quality on the example of the Internet tests in the field of secondary education worked out by the Scientific and Research Institute of edication quality monitoring (Yoshkar-Ola) when training students of secondary schools for the State Examinations is givin. The theory of latent and structural analisis, the Item Response Theory (IRT) in particular, widely used abroad, is in the basis of this method. The authors of the article analyze the statistic characteristics of test tasks and give their recommendations on the development of tests

Текст научной работы на тему «Исследование качества тестов с использованием модели Раша»

УДК 519. 257

ИССЛЕДОВАНИЕ КАЧЕСТВА ТЕСТОВ С ИСПОЛЬЗОВАНИЕМ МОДЕЛИ РАША

В.И. Дроздов, Е.А. Бойцова, Ю.М. Новиков

В статье представлена методика исследования качества тестов на примере тестов Интернет-тестирования в сфере среднего образования, разработанного НИИ мониторинга качества образования (г. Йошкар-Ола) при подготовке выпускников общеобразовательных учреждений к ЕГЭ. В основу методики положена, широко применяемая за рубежом, теория латентно-структурного анализа, в частности, Item Response Theory (IRT). Рассмотрены статистические характеристики тестовых заданий и предложены рекомендации по совершенствованию тестов

Ключевые слова: мониторинг, модель измерения, структура теста, качество теста

Совершенствование контроля и управления качеством образования в настоящий период - одно из направлений модернизации системы российского образования [1].

В настоящее время, как в средней школе, так и в высшей, широкое распространение получают тестовые технологии, позволяющие объективно оценить уровень подготовленности учащихся и студентов. В основе оценки и мониторинга уровня подготовленности обучаемых лежат тестовые технологии, предполагающие использование качественных измерительных материалов.

По измерительным материалам и методике НИИ мониторинга качества образования на базе Курского государственного технического университета было проведено пробное тестирование по математике. Тестирование проводилось в режиме on-line. Тест состоял из 21 задания. Структура теста представлена в табл. 1.

В табл.2. представлен интервальный вариационный ряд, в котором выделены диапазоны решаемости заданий и указано количество студентов (в процентах), принадлежащих данному интервалу.

Таблица 1

Структура теста

№ Зад Тема

1 Степень с рациональным показателем

2 Корень п-ой степени

3 Преобразование логарифмических выражений, нахождение их значений

4 Числовые функции и их свойства

5 Производная функции

б Множество значений функции

7 Связь между свойствами функции и ее графиком

8 Квадратные уравнения

9 Решение простейших тригонометрических уравнений

10 Показательные неравенства с одной переменной

11 Преобразования тригонометрических выражений

12 Геометрический смысл производной

13 Применение геометрических знаний для решения практических задач

14 Общие приемы решения уравнений. Метод замены переменной

15 Исследование функции по графику ее производной

16 Преобразования выражений, содержащих логарифмы, нахождение значений выражений

17 Решение неравенств с одной переменной

18 Уравнения с одной переменной, содержащие модуль; уравнения с параметром

19 Текстовые задачи

20 Решение стереометрических задач

21 Решение планиметрических задач

Дроздов Владимир Ильич - КурскГТУ, канд. техн. наук, доцент, тел.8 (4712) 57-82-14

Бойцова Елена Алексеевна - КурскГТУ, канд. техн. наук, доцент, тел. 8(4712) 57-82-17

Новиков Юрий Михайлович - КурскГТУ, аспирант, тел. 8(4712) 57-82-14

Интервальный ряд решаемости заданий

Таблица 2

Процент выполненных заданий Количество студентов Процент студентов

[80%; 100%] 1 2,00%

[60%; 80%) 1 2,00%

[40%; 60%) 10 20,00%

[0; 40%) 38 76,00%

На рис.1 представлена гистограмма распределения процента выполнения заданий.

Процент студентов 25

20

15

10

0

Л

□ □ □

Процент выполнения заданий Рис.1. Результаты диагностического тестирования учащихся. Дисциплина математика

На рис.2 представлена карта решаемости заданий, по которой можно определить уровень трудности заданий. Так очевидно, что наиболее

трудными являются задания под номерами 17, 20, 21, 19 и 13, а наиболее простыми - задания под номерами 2, 7 и 5.

Коэффициент решаемости

Номер задания

Рис.2 Карта коэффициентов решаемости заданий

В табл.3 приведены коэффициенты решаемости заданий

Таблица 3

Карта коэффициентов решаемости заданий

Коэффициенты решаемости заданий Количество заданий Процент заданий

[0,7 ; 1] 2 9,52%

[0,4 ; 0,7) 5 23,81%

[0 ; 0,4) 14 66,67%

5

Карта коэффициентов решаемости заданий показывает, что данным контингентом школьников на невысоком уровне выполнены задания по следующим темам:

№1 «Степень с рациональным показателем», №4 « Числовые функции и их свойства»,

№5 «Производная функции»,

№6 «Множество значений функции»,

№10 «Показательные неравенства с одной переменной»;

на очень низком уровне выполнены задания по следующим темам:

№3 «Преобразование логарифмических выражений, нахождение их значений»,

№8 «Квадратные уравнения»,

№9 «Решение простейших тригонометрических уравнений»,

№11 «Преобразования тригонометрических

выражений»,

№12 «Геометрический смысл производной»,

№13 «Применение геометрических знаний для решения практических задач»,

№14 «Общие приемы решения уравнений. Метод замены переменной»,

№15 «Исследование функции по графику ее производной»,

№16 «Преобразования выражений, содержащих логарифмы, нахождение значений выражений»,

№17 «Решение неравенств с одной переменной»,

№18 «Уравнения с одной переменной, содержащие модуль; уравнения с параметром»,

№19 «Текстовые задачи»,

№20 «Решение стереометрических задач ,

№21 «Решение планиметрических задач».

Наряду с классическим подходом исследования качества тестов, для оценки качества тестов предлагается алгоритм, в основе которого лежит «методика измерения на линейной шкале латентных переменных» [2].

Важными достоинствами этой методики являются следующие.

1. Отсутствует фактор субъективности, поскольку нет необходимости в использовании экспертных оценок.

2. Необходимой процедурой этой методики является оценка совместимости используемых показателей, т.е. действительно ли все показатели измеряют одну и ту же латентную переменную -эффективность деятельности объекта.

3. Латентные переменные (уровень подготовленности учащихся и уровень трудности тестовых заданий) измеряются на линейной шкале, что позволяет использовать широкий класс статистических процедур для решения задач исследования качества измерительных материалов.

Данная методика использует однопараметрическую модель Раша.

Обработка матрицы результатов тестирования для совокупности объектов ведется с использованием диалоговой системы RUMM (Rasch Unidimensional Measurement Model), разработанной под руководством профессора Мердокского университета (Австралия) Дэвида Эндрича [3].

Рассмотрим общие результаты оценки качества измерительных материалов.

Анализ качества заданий проводился по следующим аспектам:

• выявление и исключение из теста экстремальных заданий;

• совместимость набора тестовых заданий;

• оценка дифференцирующей способности теста;

• соответствие трудности предложенного теста уровню подготовленности студентов;

• равномерность распределения заданий по трудности;

• диапазон варьирования трудности тестовых заданий;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• соответствие каждого тестового задания модели измерения;

В исследуемом случае среди 21 задания экстремальных не оказалось: нет заданий, которые решили бы все студенты, и нет заданий, которые не решили все студенты.

Совместимость данных тестирования модели Раша определяется по критерию Пирсона. Результаты анализа, полученные с помощью диалоговой системы RUMM, показали высокую совместимость

результатов тестирования модели измерения. В

2

нашем случае расчетное критическое значение х равно 0,60, что значительно больше табличного значения х2, соответствующего доверительной вероятности равной 0,95 (х2табл=0,05). Это позволяет использовать результаты тестирования как для измерения уровня подготовленности учащихся, так и для измерения уровня трудности заданий.

С точки зрения дифференцирующей способности вся система заданий как измеритель уровня подготовленности оценивается на Good - хорошо по пятибалльной шкале (Excellent - превосходно,

Good - хорошо, Reasonable - разумно, Low - плохо, Too Low - очень плохо).

Заметим, что индекс сепарабельности (Separation Index), который характеризует степень дифференцирования школьников достаточно высокий, он равен 0,68.

Определим соответствие трудности измерительных материалов уровню подготовленности школьников.

На рис.3 представлены распределения уровня подготовленности школьников (вверху) и оценок трудности заданий (внизу).

Person-lten Location Distribution

persons №™AI™ (Grouping Set to Inteival Length of 0,50 making 14 Groups)

ms

:

к////г \\\\\ /////. \\\\\ ///// Л\\\ -4 -3 -2 -1 LUL Л\\У ! |Г////| \ШП 0 12 3

1 ■ ■ ■ ■ т \\\\\Т////А\\\\| ^У////,

1 ■ ■ ■ ■

3 Location (logits)

Рис.3. Соответствие между уровнем подготовленности школьников и трудностью тестовых заданий (шаг 0,5 логит)

На рис.3 по оси абсцисс откладываются значения латентных переменных (в логитах) уровня подготовленности школьников и уровня трудности тестовых заданий, т.е. на одной и той же шкале откладываются значения двух латентных переменных. В этом состоит особенность использования модели Раша. По оси ординат с левой стороны указывается число испытуемых (вверху) и число заданий (внизу). С правой стороны - соответствующие величины в процентах.

По рекомендациям гистограмма распределения трудностей заданий должна быть близка к равномерному закону распределения. Это обозначает, что представленный набор тестовых заданий позволяет оценить уровень подготовленности школьников на всем диапазоне изменения трудностей тестовых заданий. В нашем случае можно считать, что распределение трудностей заданий близко к равномерному закону. Однако, отметим тот факт, что значения трудностей заполняют не весь диапазон их изменений. Отсутствуют задания с трудностями в диапазонах от 1,5 до 2,0 логит. Кроме того, желательны задания с трудностями менее -2.5 логит.

Средняя трудность заданий не должна отличаться от среднего уровня подготовленности школьников более чем на 0,5 логит. В нашем случае средний уровень подготовленности школьников на 1,1 логит ниже среднего уровня трудности

заданий. Этот результат можно интерпретировать двояко: или школьники, проходившие тестирование, недостаточно хорошо подготовлены или набор заданий слишком сложный. На этот вопрос можно ответить, проведя исследования результатов по другим регионам России на большем объеме выборки.

Диапазон изменения уровня подготовленности школьников составил: от -3,34 до 2,84 логит. Таким образом, длина всего интервала составила 6,18 логит.

Уровень трудности заданий изменяется от -2,15 до 2,67 логит. Таким образом, длина всего интервала составила 4,82 логит. С этой позиции можно заключить, что измерительный материал позволяет хорошо дифференцировать школьников по уровню подготовленности. Исключение составляют лишь самые слабые школьники. С этой точки зрения, возможно, тест требует доработки, а именно, в тест должны быть включены задания с более низким уровнем трудности (для школьников гуманитарных классов).

Статистические характеристики тестовых заданий.

Замечание. На рис.3 наряду с гистограммами представлен график информационной функции. Очевидно, что информационная функция имеет один максимум. И можно утверждать, что с наибольшей точностью оценивается уровень подготовленности учащихся в диапазоне от -1 до 1 логит.

Исследуем соответствие каждого тестового задания модели измерения. Необходимость рассмотрения этого аспекта объясняется тем обстоятельством, что в целом тест (как система тестовых заданий) может соответствовать модели измерения, т. е. может служить измерителем уровня подготовленности школьников, но в этой системе могут оказаться тестовые задания, не соответствующие модели измерения. За счет этого и ухудшаются измерительные способности всего теста. Поэтому представляется необходимым исследовать каждое задание на предмет соответствия модели измерения и выбрать среди них те, которые необходимо подкорректировать.

В табл.4 представлены статистические характеристики тестовых заданий, ранжированные по уровню трудности.

Таблица 4

ранжированных по уровню их трудности

Номера заданий Уровень трудности (логит) Стандартная ошибка (логит) Уровень значимости статистики Хи-квадрат Точечно-бисериальный коэф. корреляции

16 2,669 0,789 0,576 0,352

20 2,606 0,771 0,587 0,352

21 2,189 0,665 0,567 0,072

19 1,327 0,495 0,594 0,382

13 1,245 0,482 0,044 0,562

18 0,94 0,439 0,976 0,494

3 0,563 0,394 0,590 0,42

14 0,363 0,375 0,019 0,66

11 0,243 0,365 0,487 0,262

12 -0,165 0,337 0,773 0,379

15 -0,409 0,325 0,800 0,436

17 -0,417 0,324 0,540 0,268

8 -0,469 0,322 0,802 0,5

9 -0,573 0,318 0,100 0,266

6 -0,693 0,315 0,480 0,378

10 -0,694 0,315 0,463 0,38

4 -1,281 0,309 0,393 0,252

1 -1,346 0,31 0,258 0,549

5 -1,856 0,322 0,660 0,254

7 -2,098 0,333 0,308 0,461

2 -2,145 0,336 0,963 0,377

В данной таблице задания ранжированы в порядке возрастания трудности задания. Можно выделить три группы тестовых заданий по уровню трудности.

К наиболее легким тестовым задания (трудность от -2,145 до -1,281 логит) относятся задания под номерами №№: 2, 7, 5, 1 и 4.

К заданиям средней трудности (трудность от -1,00 до 1,00 логит) относятся задания под номерами №№: 10, 6, 9, 8, 17, 15, 12, 11, 14, 3 и 18.

К наиболее трудным заданиям (трудность более 2,00 логит) относятся задания под номерами №№ 21, 20 и 16.

Эта информация позволяет определить, какие задания следует пересмотреть с точки зрения увеличения или уменьшения их трудности.

Если уровень значимости, представленный в последнем столбце табл.5 меньше 0,05 (доверительная вероятность 0,95), то данное задание плохо совместимо с остальными заданиями, входящими в тест. Такие задания мало пригодны для оценки уровня подготовленности студентов. В связи с этим их в первую очередь необходимо корректировать.

В табл.4 в последнем столбце приведены значения точечно-бисериального коэффициента корреляции. С точки зрения классической теории обработки результатов тестирования [4] выделяется задание № 21, для которого значение коэффициента очень низкое и равно 0,072. Это можно объяснить тем, что это задание относится к самым трудным заданиям.

В табл.5 тестовые задания ранжированы по критическому значению уровня значимости критерия Пирсона (Хи-квадрат).

Таблица 5

Статистические характеристики тестовых заданий (ранжирование по уровню соответствия модели измерения)

Номера заданий Уровень трудности (логит) Стандартная ошибка (логит) Уровень значимости статистики Хи-квадрат

18 0,94 0,439 0,976

2 -2,145 0,336 0,963

8 -0,469 0,322 0,802

15 -0,409 0,325 0,800

12 -0,165 0,337 0,773

5 -1,856 0,322 0,660

19 1,327 0,495 0,594

3 0,563 0,394 0,590

20 2,606 0,771 0,587

16 2,669 0,789 0,576

21 2,189 0,665 0,567

17 -0,417 0,324 0,540

11 0,243 0,365 0,487

6 -0,693 0,315 0,480

10 -0,694 0,315 0,463

4 -1,281 0,309 0,393

7 -2,098 0,333 0,308

1 -1,346 0,31 0,258

9 -0,573 0,318 0,100

13 1,245 0,482 0,044

14 0,363 0,375 0,019

Заливкой выделены тестовые задания, которые не соответствуют модели измерения. Как видно из табл.5 задания № 13 и 14 плохо соответствуют модели измерений.

Рассмотрим примеры характеристических кривых для некоторых заданий в порядке их ранжирования по уровню трудности.

На рис. 4 представлен пример характеристической кривой для трудных тестовых заданий.

10016 Descriptor for Item 1G Locn = 2,GG9 FitRes = -0,402 ChiSq[Pr] = 0,576 SampleN = 49 Stope

Рис.4. Характеристическая кривая для трудного задания (№ 16)

На рис.5 представлен пример характеристической кривой для тестовых заданий, которые можно считать заданиями средней трудности условно

I001S Descjiptot foi Item 1Э Locn = 1,327 FitRes =-0,461 ChiSq[Pr] = 0,594 SampleM = 4Э Slope

Person Location (logits|

Рис.5. Характеристическая кривая для задания средней трудности (№ 19)

На рис.6 представлен пример характеристической кривой для легких тестовых заданий.

0D04 Descnptoi fen Item 4 Locn=-1,281 FitFles = 0..GS7 ChiSq[Pr] = 0,393 Samplel'J = 4Э Slope

Person Location (logits)

Рис.6. Характеристическая кривая для легкого тестового задания (№ 4)

Рисунки с характеристическими кривыми имеют следующую структуру (на примере рис.4). По оси абсцисс откладываются значения уровня подготовленности (в логитах). По оси ординат откладывается вероятность ожидаемого ответа индивида (Expected Value). В верхней части рисунка расположена следующая информация: о код тестового задания (I0016); о название тестового задания (в нашем случае название задания по умолчанию Descriptor for Item 16); о уровень трудности задания (Locn= 2,669); о число, характеризующее отклонение ответов школьников от ожидаемых ответов на основании модели Раша (FitRes = - 0,402); о степень соответствия данного тестового задания модели Раша или системе остальных тестовых заданий по критерию Пирсона (ChiSq[Pr]=0,576);

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

о объем выборки тестируемых (число тестируемых студентов) (Sample N=49); о наклон кривой или тангенс угла наклона кривой при уровне подготовленности равном нулю логит (Slope 0,25); о точками указаны средний уровень подготовленности соответственно слабых, средних и сильных школьников; о штрихами на оси абсцисс отмечены средние значения уровня подготовленности этих групп.

По расположению точек относительно характеристической кривой так же определяют степень соответствия данного тестового задания модели или системе остальных тестовых заданий.

Таким образом, предлагаемая методика позволяет более детально проанализировать качество теста и тестовых заданий и наметить пути совершенствования качества теста в целом

Литература

1. Единый государственный экзамен. Выпуск.3. Теоретические предпосылки, методологические и организационные аспекты создания общероссийской системы оценки качества образования: Сборник статей. Под ред. В.А. Болотова. - М.: Логос, 2005. - 112 с.

2. Getting Started RUMM 2010. Rasch Unidimensional Measurement Models.- Pert: RUMM Laboratory Ltd. 2001. - 255 p.

3. Дроздов В.И., Маслак А.А. Исследование качества тестов по математике Интернет-экзамена в сфере профессионального образования. Курск. гос. техн. ун-т. Курск, 2007. -52 с.

4. Челышкова М.Б. Теория и практика конструирования педагогических тестов. Учебное пособие. -М.: Логос, 2002. -432 с.:ил.

5. http://www1.ege.edu.ru/content/yien/431/166.

Курский государственный технический университет

THE RESEARCH OF THE TESTS’ QUALITY WITH THE HELP OF THE RASCH MODEL V.I. Drozdov, E.A. Boytsova, U.M. Novikov

In the article the method of the research of test quality on the example of the Internet tests in the field of secondary education worked out by the Scientific and Research Institute of edication quality monitoring (Yoshkar-Ola) when training students of secondary schools for the State Examinations is givin. The theory of latent and structural analisis, the Item Response Theory (IRT) in particular, widely used abroad, is in the basis of this method. The authors of the article analyze the statistic characteristics of test tasks and give their recommendations on the development of tests

Key words: monitoring, measurement model, text structure

i Надоели баннеры? Вы всегда можете отключить рекламу.