Исследование качества теста ЕГЭ по математике с помощью модели Раша

Летова Линара

УДК 378.1 : 519.23

ИССЛЕДОВАНИЕ КАЧЕСТВА ТЕСТА ЕГЭ ПО МАТЕМАТИКЕ С ПОМОЩЬЮ

МОДЕЛИ РАША

Летова Линара, Омский ГТУ, E-mail: [email protected]

Аннотация.Статья раскрывает методические аспекты измерения и моделирования уровня учебных достижений с помощью модели Раша и исследует качество теста по математике единого государственного экзамена.

Ключевые слова: модель Раша; измерение латентных переменных; уровень ученых достижений.

RESEARCH OF THE QUALITY OF UNIFIED STATE EXAM IN MATHEMATICS

BY USING RACH MODEL

Linara V.Letova, Omsk State Technical University, Russia, E-mail: [email protected]

Abstract. ^e article discloses methodological aspects of measuring and modeling the level of educational achievements by using Rach model. ^e article conducts research quality test in mathematics of the Unified State Exam.

Keywords: Rach model; latent variables measurement; level of of educational achievements. 1. Постановка задачи

Общероссийская система оценки качества образования (ОСОКО) призвана обеспечить всех участников образовательного процесса и общества в целом объективной информацией о состоянии системы образования на различных уровнях и тенденциях ее развития. В рамках ОСОКО значительная роль отводится совершенствованию системы оценки образовательных достижений учащихся. В настоящее время в России оценка образовательных достижений учащихся осуществляется, в частности, в ходе государственной итоговой аттестации выпускников средней школы в форме единого государственного экзамена (ЕГЭ). ЕГЭ, как одна из подсистем ОСОКО, в основе своей базируется на тестовых технологиях. В связи с этим вопрос о качестве контрольно-измерительных материалов (КИМ) ЕГЭ является актуальным, т.к. только качественные тесты могут давать точную адекватную картину изучаемого процесса или явления. Данная статья рассматривает этот вопрос и исследует качество контрольно-измерительного материала ЕГЭ по математике.

Обоснование выбора методического инструмента для исследования качества контрольно-измерител ьного материала

Мировой опыт в теории и практике измерения латентных переменных преимущественно диктует использование модели Раша в силу возможности

проведения объективных измерений [1, 2]. Эта объективность выражена инвариантностью между уровнем подготовки испытуемых и трудностью контрольных заданий (КЗ), а также отсутствием внешних факторов, влияющих на результаты измерений [3]. Более того, модель Раша дает возможность применения широкого спектра аналитических процедур в силу использования линейной шкалы.

Но, не смотря на все достоинства модели Раша, не всякое содержание может быть описано с ее помощью. Первичным вопросом при использовании этой теории является соответствие экспериментальных данных логическому основанию модели: «Является ли конструкт - набор КЗ пригодным для описания уровня учебных достижений с помощью модели Раша?». В рамках предлагаемой теории качественное измерение возможно только тогда, когда имеется четко выраженная концепция измеряемого свойства: КЗ должны обладать дифференцирующей способностью, быть доступными для всех испытуемых, но в разной степени, а вероятность их выполнения должна коррелировать с уровнем подготовки испытуемых в целом. Априори будем считать, что общая картина уровня учебных достижений «ложится» на это логическое основание: у более подготовленных испытуемых вероятность правильного выполнения КЗ больше, чем у менее подготовленных. В этом случае, оценка качества модели учебных достижений будет тождественна оценке качества теста.

2. Оценка качества теста ЕГЭ по математике

Рассмотрим вопрос о пригодности теста ЕГЭ по математике с помощью модели Раша. Модель строилась на базе результатов ЕГЭ 2012 года города Омска и Омской области. В качестве измеряемой латентной величины рассматривался уровень подготовки выпускников средней школы по математике, в качестве индикаторов этой величины - КЗ теста. Количество КЗ в тесте - 20, испытуемых - 11893. Обработка результатов производилась с помощью программного обеспечения «Измерение латентных переменных», разработанного в лаборатории объективных измерений Кубанского государственного университета [4].

Обоснование вывода о качестве теста, а следовательно, и о пригодности предлагаемой системы КЗ для измерения уровня подготовленности испытуемых нуждается в эмпирических фактах. Рассмотрим их.

3.1. Оценка совместимости контрольных заданий модели

Учитывая, что методической основой оценки качества теста является теория Раша, первичной является оценка совместимости контрольных заданий модели как всего теста в целом, так и каждого КЗ в отдельности. Показателем совместимости

теоретических и экспериментальных данных является критерий согласия хи-квадрат, количественное значение вероятности которого не менее 0,05 [3]. В нашем случае критерий согласия хи-квадрат теста в целом соответствует значению 1 (рис. 1). Вне сомнения, этот показатель считается более чем удовлетворительным и свидетельствует о высокой точности измерения.

Индикаторы Среднее значение:

Ср. квадр. отклонение:

0,000

2,570

Показатели надежности Индекс сепарабельности объектов:

Альфа Кронбана:

20

Характеристики измерительного инструмента Число индикаторов:

Число объектов:

Число подгрупп объектов:

11893

10

0,829

0,908

Объекты

Среднее значение: Ср. квадр. отклонение:

Статистика Хи-квадрат: Степени свободы: Вероятность Хи-квадрат:

■0,504 1,708

92,811

180

1,000

Рис. 1 Суммарные статистики теста

«Работу» каждого КЗ наглядно демонстрируют характеристические кривые КЗ. Рассмотрим их (рис. 2). На характеристических кривых по оси абсцисс отложена измеряемая латентная величина «уровень учебных достижений выпускников средней школы по математике», по оси ординат - вероятность выполнения КЗ испытуемыми. На рис. 2 непрерывная кривая отражает теоретические значения, а точками обозначены экспериментальные.

В1

В2

В3

В4

В5

В6

В7

В8

В9

В10

В11

В12

ю

(JO

Номер: 20 Индикатор. С6 Оценка: 4.479 Хи-кв : 2.701 Р(Хи-кв.): 0.975 N-11893

/

п 9 •

-5.0 -4.0 -3.0 -2.0 -1.0 0.0 1.0 2.0 3.0 4.0 5.0 Местоположение объекта (логит)

Рис.2 Характеристические кривые КЗ

Степень согласия теоретических и экспериментальных данных КЗ показывает критерий хи-квадрат (табл.1). Из тал. 1 видно, что все КЗ имеют приемлемые показатели качества. КЗ В4 имеет наименьший показатель х , равный 0,116, что, тем не менее, выше критериального значения 0,05.Таким образом, все КЗ и тест в целом соответствуют модели, ее логическому основанию. Это дает основание исследовать качество теста с помощью модели Раша.

Таблица 1. Характеристики индикаторов

КЗ Оценка, логит Р(Хи-квадрат) КЗ Оценка, логит Р(Хи-квадрат)

В1 -3,12 0,37 В11 0,691 0,988

В2 -3,923 0,718 В12 -0,485 0,712

В3 -3,259 0,957 В13 0,04 0,938

В4 -1,571 0,116 В14 0,529 0,984

В5 -2,379 0,983 С1 1,118 0,605

В6 -1,758 0,998 С2 3,728 1

В7 -1,225 0,886 С3 2,813 0,924

В8 -0,242 0,923 С4 3,948 0,996

В9 -1,507 0,162 С5 4,17 0,999

В10

-2,047

0,962

С6

4,479

0,975

3.2. Оценка качества теста

Качественными характеристиками теста являются:

3.2.1. дифференцирующая способность КЗ,

3.2.2. распределение трудностей КЗ,

3.2.3. соответствие меры трудности теста уровню подготовки испытуемых,

3.2.4. надежность теста. Рассмотрим эти характеристики.

3.2.1. Дифференцирующая способность КЗ

Измерительными единицами теста являются КЗ, их качественные характеристики - показатели точности измерения. Одной из характеристик КЗ является его дифференцирующая способность. Дифференцирующей способностью задания называется его свойство различать испытуемых по уровню подготовленности. Чем выше дифференцирующая способность задания, тем лучше деление испытуемых на подготовленных и не подготовленных. В разработанной модели большинство КЗ обладают высокой дифференцирующей способностью (рис. 2).

3.2.2. Распределение трудностей КЗ

Другой характеристикой КЗ является его трудность. Трудность отражает решаемость КЗ, это числовая характеристика на абсциссе характеристической кривой КЗ (рис. 2), соответствующая вероятности 0,5 [3]. Самым легким КЗ является В2 (рис.2), практически все испытуемые справились с ним, вероятность успеха самых слабых 0,75%. Трудность КЗ В2 равна -3,921 логита. Самым трудным КЗ является С6 (рис. 2), даже лидеры выполняют это задание с вероятностью 6%. Трудность КЗ С6 равна 4,456 логита. Обращаем внимание, что качественный тест - это система КЗ равномерно возрастающей трудности [5], в тесте должны быть задания с различным уровнем трудности, но при этом большинство КЗ должны обладать «хорошей» дифференцирующей способностью. Все КЗ не могут иметь высокую дифференцирующую способность, т.к. трудные (С2-С6) и легкие (В1-В3) КЗ, как правило, имеют слабую дифференцирующую способность.

Рассмотрим распределение трудностей КЗ (рис. 3 нижняя диаграмма).

Рис. 3 Распределение уровня подготовки школьников (верхняя гистограмма) и трудностей КЗ (нижняя гистограмма) на одной шкале логитов

Аванесов В.С. отмечает [5], что «провалы» и слабый диапазон варьирования трудностей КЗ ухудшают метрические свойства теста, заметно снижают точность измерений и дифференцирующую способность тестовых результатов. Рассмотрим требования к распределению трудностей КЗ [5]. Разность между значениями самого трудного и самого лёгкого КЗ называют размахом. В качестве нормы принимают пределы варьирования размаха от -3 до +3 логитов . Соответственно приемлемая мера размаха равна шести логитам [5]. Трудность рядом стоящих заданий теста не должна отличаться более чем на 0,5 логита [5], иначе на шкале образуются «провалы». Это требование можно назвать условием достаточной плотности расположения заданий на шкале [5]. Это условие обеспечивает высокую точность измерения на всем диапазоне варьирования индикаторных переменных. Визуальный анализ качества теста ЕГЭ по математике показал (рис. 3):

•S широкий диапазон варьирования трудностей КЗ (7 логитов - это приемлемая мера размаха);

•S наличие неоднородности в распределении трудностей КЗ в районе 2-х логитов (условие достаточной плотности не соблюдается).

«Провалы» трудностей КЗ в районе 2-х логитов свидетельствуют о том, что тест слабо дифференцирует испытуемых с уровнем подготовки в этом интервале.

3.2.3. Соответствие меры трудности теста уровню подготовки испытуемых

Следующей характеристикой качества теста является соответствие трудности измерительного материала уровню подготовленности испытуемых. Мерой соответствия является симметричность распределений между измеряемой латентной величиной и трудностью КЗ, определяемая сдвигом их средних значений (рис.3). Считается, что наиболее информативный тест допускает сдвиг не более, чем на 0,5 логитов [3]. На рис. 3 показан результат взаимосвязи между двумя этими множествами: сдвиг -0,5 логитов. Этот показатель является приемлемой мерой симметричности.

3.2.4. Надежность измерения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Важной характеристикой качества теста является надежность. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутренняя согласованность [6]. Рассмотрим надёжность теста как устойчивость по отношению к погрешностям измерения, независимость его результатов измерения от действия всевозможных случайных факторов. В качестве случайных факторов можно рассматривать:

• внешние неблагоприятные условий тестирования,

• внутренние психологические факторы, по-разному действующие на разных испытуемых в ходе тестирования,

• информационно-технологические факторы.

Разнообразие и изменчивость этих факторов так велики, что они обуславливают появление у каждого испытуемого непрогнозируемого по размерам и направлению отклонения измеренной латентной величины от истинного значения (который можно было бы, в принципе, получить в идеальных условиях). Величина этого отклонения определяется как «стандартная ошибка измерения» ^е). В нашем случае значения стандартной ошибки измерения варьируют в интервале от 0,4 до 3,3 логитов, среднее значение Бе равно 0,7 (рис. 4).

3,5

О 1

0123456789 10 1112 13 14 15 16 17 18 19 20 2122 23 24 25 26 27 28 31

Первичный балл

Рис. 4 Стандартная ошибка измерения уровня подготовки испытуемых

На вопрос: «Насколько можно пренебречь стандартной ошибкой измерения?» отвечает индекс сепарабельности (рис.1), он равен 0,829. Считается, что качественный тест имеет надежность не менее 0,8 [7]. Таким образом, тест является надежным с точки зрения помехоустойчивости. Отметим, что индекс сепарабельности также является характеристикой дифференцирующей способности теста [3]. Диапазон варьирования измеряемой величины равен почти 7-ми логитам (рис. 3 верхняя диаграмма), что доказывает высокую степень дифференцирующей способности теста.

Надежность как внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент согласован с остальными, т.е. насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест [3, 5]. Ответ о степени согласованности КЗ дают статистики уровня значимости хи-квадрат теста вцелом и коэффициент надежности альфа Кронбаха (рис.1) [3, 5]. На вопрос: «Насколько можно пренебречь дисперсией каждого отдельного КЗ по сравнению с дисперсией итоговой шкалы?» отвечает коэффициент альфа Кронбаха, он равен 0,908. Степень согласованности индикаторных переменных определяется критерием хи-квадрат, он равен 1. Таким образом, набор индикаторов является согласованным и обеспечивает высокую точность измерения.

Заключение

В статье показано использование модели Раша как методического инструмента для анализа качества КИМ. Метод анализа, основанный на этой модели, дает объективные научно обоснованные знания о качестве измерительного инструмента. В целом, анализируя качество теста по количественным и качественным показателям,

можно сделать вывод о высокой точности измерения и о пригодности теста как измерительного инструмента. Учитывая, что качество модели корнями уходит в содержание теста, можно сделать вывод, что тест ЕГЭ по математике - 2012 имеет высокие показатели качества и может рассматриваться в качестве измерительного инструмента.

Список литературы

1. Masters N. G. The Key to Objective Measurement. Australian Council on Educational Research, 2001.

2. Wright B.D., Stone M.N. Best Test Design. Rasch Measurement Chicago, 1979, Mesa Press, 223 p.

3. Маслак A.A. Измерение латентных переменных в социальных системах. -Славянск-на-Кубани: Издательский центр СГПИ, 2012. -432 с.

4. Л.В.Летова, CA. Осипов Информационные технологии в измерении латентных величин // Телематика 2012: материалы XIX всероссийской научно-методической конференции. 2012. - С. 303-306.

5. Aванесов, В.С. Понятие и методы математической теории педагогических измерений (Item Response Theory): статья третья / В.С. Aванесов // Педагогические измерения. - 2009. - №4. - С. 5.

6. Бодалев A.A., Столин В.В., Aванесов В. С. Общая психодиагностика.-СПб.: Речь, 2000. - 440 с. URL: http://vash-psiholog.info/kollektiv/psihodiagnostika (дата обращения: 10.03.2013).

7. Челышкова М.Б. Теория и практика конструирования педагогических тестов: Учебное пособие. - М.: Логос, 2002. - 432 с.

Исследование качества теста ЕГЭ по математике с помощью модели Раша Текст научной статьи по специальности «Прочие социальные науки»

Аннотация научной статьи по прочим социальным наукам, автор научной работы — Летова Линара

Похожие темы научных работ по прочим социальным наукам , автор научной работы — Летова Линара

Текст научной работы на тему «Исследование качества теста ЕГЭ по математике с помощью модели Раша»