Научная статья на тему 'Методика оценки параллельности вариантов тематического теста на основе статистических методов'

Методика оценки параллельности вариантов тематического теста на основе статистических методов Текст научной статьи по специальности «Науки об образовании»

CC BY
334
56
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по наукам об образовании, автор научной работы — Марухина О. В., Берестнева О. Г., Рахматуллина Л. И.

Представлена методика оценки параллельности вариантов текущего теста по математике студентов всех факультетов Томского политехнического университета на основе математико-статистических методов. Проведен анализ результатов тестирования студентов в 2004 г. и сделаны соответствующие выводы о параллельности вариантов теста.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по наукам об образовании , автор научной работы — Марухина О. В., Берестнева О. Г., Рахматуллина Л. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методика оценки параллельности вариантов тематического теста на основе статистических методов»

лемный для данной группы раздел? Как быть, если прослушав выравнивающий курс, студент, тем не менее, не изменил свой уровень? Причем, все перечисленное, вероятно, не исчерпывает всех проблем.

Официально в задачи высшей школы не входит изучение элементарной математики. Однако, во многих университетах мира существует так называемый нулевой математический курс для студентов, не готовых изучать университетские курсы. Кроме того, Институт международного образования ТПУ решил эту проблему для своих студентов в пользу курса "элементарная математика", и этот опыт может быть использован для российских студентов.

Таким образом: 1. Проблема разнородности уровня математической подготовки первокурсников может быть решена путем введения выравнивающего курса.

СПИСОК ЛИТЕРАТУРЫ

1. http://www.ex.ac.uk/cimt/tests/

2. http://www.ed.gov.rU/d/ob-edu/noc/rub/standart/pp/08-1-s.doc

3. Подскребко Э.Н., Домбровская Т.В., Пермяков О.Е., Билало-ва А.Н. Анализ результатов ЕГЭ-2003 по математике в Томской

Критерием отбора должен служить диагностирующий тест либо на базе ЕГЭ, либо разработанный на соответствующих принципах для диагностирующих тестов. Разработанный преподавателями кафедры высшей математики ТПУ входной тест также не является идеальным для этой цели, но в качестве первого приближения может быть взят за основу.

2. Выравнивающие курсы потребуют достаточно больших материальных ресурсов, и в этом случае силами преподавателей математических кафедр не обойтись. Нужна поддержка учебного управления и руководства университета.

3. Для официального введения выравнивающего курса в учебный процесс необходима проработанная юридическая база - договоры со студентами, коррекция Устава университета или что-либо другое, регулирующее отношения с законодательством.

области: Методические рекомендации. — Томск: Дельтаплан, 2003. —58 с.

4. Математика. Контрольные измерительные материалы ЕГЭ в 2003 г. Министерство образования РФ. — М.: Центр тестирования Минобразования России, 2003. —63 с.

УДК 681.3.01

МЕТОДИКА ОЦЕНКИ ПАРАЛЛЕЛЬНОСТИ ВАРИАНТОВ ТЕМАТИЧЕСКОГО ТЕСТА НА ОСНОВЕ СТАТИСТИЧЕСКИХ МЕТОДОВ

О.В. Марухина, О.Г. Берестнева, Л.И. Рахматуллина

Томский политехнический университет Е-та1!:о!дт1<@ози.сфи.еСи.ги

Представлена методика оценки параллельности вариантов текущего теста по математике студентов всех факультетов Томского политехнического университета на основе математико-статистических методов. Проведен анализ результатов тестирования студентов в 2004 г. и сделаны соответствующие выводы о параллельности вариантов теста.

В современной системе образования независимая аттестация студентов является наиболее объективной оценкой их знаний, потенциала их умственных возможностей. Проведение реформы образования и современная стратегия Томского политехнического университета (ТПУ), а именно — интеграция в международное образовательное пространство и его конкурентоспособность сделало систему тестирования востребованной [1]. В связи с этим в Центре тестирования Томского политехнического университета разработана система независимой оценки качества знаний студентов по общеобразовательным дисциплинам. Контрольно-измерительные материалы по дисциплинам представлены в нескольких вариантах. Например, по математике, имеется двадцать один вариант тестовых заданий. Из этого вытекает проблема параллельности ("одинаковости") этих вариантов тестовых

заданий, и, как следствие, качество оценки знаний студентов, и ее объективность.

Таким образом, объектом исследования являются студенты ТПУ, участвующие в процессе текущего контроля и оценки качества знаний по математике, а предметом исследования обозначим варианты тестовых заданий (в данном исследовании — тест по высшей математике). Всего в тестировании принимали участие 1001 человек — студенты-первокурсники технических специальностей ТПУ.

В табл. 1 приведены результаты первичной обработки данных тестирования по двадцати одному варианту теста по математике. Оценка трудности каждого варианта 8 проводилась по алгоритму, описанному в [2]. В работе использовалось разработанное авторами программное обеспечение для оценки тестов LogitModels [3].

Таблица 1. Результаты первичной обработки данных тестирования

Вариант теста Количество испытуемых Не справились с тестом Справились со всеми заданиями теста Трудность теста, 5]

В.1 49 0 0 -0,01

В2 50 0 0 -0,04

В3 59 0 0 0,12

В4 52 0 0 0

В5 53 1 0 0,22

В6 42 0 0 0,15

В7 46 0 0 0,04

В8 41 2 0 0,23

В9 42 1 0 0,06

В00 48 1 0 0,10

В11 50 1 0 0,09

В12 38 0 0 0,10

В33 45 0 0 0,03

В44 48 0 0 0,39

В15 56 2 0 0,11

В6 43 0 0 -0,05

В7 45 1 0 0,24

В18 53 0 0 0,02

В19 43 0 0 0,38

В20 50 0 1 -0,12

В21 48 0 0 0,02

На рис. 1 приведен график изменения трудности вариантов теста по математике.

12 -0 05 -0 04 -0 01 0 0 02 0 02 0Д3 п П П

В1 В4 B1S В21 В13 В7 В9 В11 В10 В12 В15

В5 BS В17

СУ = ^ ■ 100 % = (0,099/0,132) -100 %=134 %.

X

Варьирование считается значительным при С„ 25 %, то есть изучаемая совокупность считается разнородной, следовательно, по трудности варианты теста непараллельны.

Оценка однородности вариантов

Для оценки связи между результатами выполнения двух заданий теста или вариантов теста была использована формулу коэффициента корреляции (2): Рц - Рл- Р'

Ь =

4P¡ • q¡

(2)

• p, • q

где ],1 - номера заданий теста, рц - доля испытуемых, выполнивших правильно оба задания теста, т.е. доля тех, кто получил один балл по обоим заданиям; р1 и р1 - доля испытуемых, правильно выполнивших _/-ое и 1-ое задание; д^ и д - доля испытуемых, неправильно выполнивших _/-ое и 1-ое задание; д=1-р; д;=1-р;.

Матрица стандартизированных значений трудности заданий теста по вариантам приведена в табл. 2.

Таблица 2. Стандартизированные значения трудности заданий теста А, по вариантам Б^)

Рис. 1. Геометрический профиль трудности вариантов теста по математике. По оси абсцисс — номера вариантов теста; по оси ординат—логиты трудности

Для оценки значимости разброса значений трудности вариантов теста был использован коэффициент вариации (1):

S

Cv =•loo %, (1)

х

где Sx — стандартное откло—ение распределения трудности вариантов теста, - — среднее значение трудности вариантов теста. Различные признаки характеризуются различными коэффициентами вариации. Но в отношении одного и того же признака значение этого показателя Cv остаётся более или менее устойчивым и при симметричных распределениях обычно не превышает 50 %. При сильно асимметричных рядах распределения коэффициент вариации может достигать 100 % и даже выше. Для рассматриваемого теста коэффициент составит:

A1 A2 A3 A4 A5 A6 A7 A8 A9 A0 A11

В1 -1,41 -1,53 0,18 0,38 -0,40 -0,21 1,55 0,18 0,38 0,71 0,60

В2 -1,32 0,97 -1,57 0,97 0,62 -0,89 0 -0,69 0,73 0,73 0,73

В3 -0,94 -1,18 -0,31 -0,31 -0,23 -0,39 -0,55 1,54 1,38 2,14 0,45

В4 -1,58 -1,70 0,36 0,68 0,36 -1,83 0,26 0,79 0,26 0,91 2,27

В5 -1,73 -1,07 -0,16 -0,25 -0,51 -0,25 1,28 -0,07 3,01 0,30 1,28

В6 -0,52 -1,65 -0,30 -0,30 -0,86 0,15 1,06 0,04 -0,41 2,32 1,79

В7 -0,88 0,61 0,03 -0,38 -0,38 -1,40 -0,18 -0,18 1,81 1,38 0,61

В8 -0,19 0,58 -0,06 0,44 0,18 -1,31 0,31 -1,04 1,80 0,06 1,02

В9 1,11 0,29 -1,87 -0,57 0,58 0,43 0,58 -1,36 1,57 -0,22 1,11

ВЮ -0,21 -0,01 -2,13 -0,88 0,31 0,31 0,67 0,54 -0,21 1,44 1,64

В11 0,12 -1,28 -0,64 -0,84 1,63 -0,07 0,52 0,22 0,32 0,41 0,32

В12 -1,72 -1,40 -1,89 1,18 0,27 1,37 -0,36 0,69 -0,11 0,27 3,00

В3 -0,40 0,23 -0,40 -1,15 0,34 -1,40 0,23 0,02 2,07 -0,30 1,43

В14 -2,49 -1,75 -0,05 0,77 0,77 -0,76 0,39 -0,15 4,07 0,39 2,03

В15 -2,18 -0,50 0,14 0,06 -0,42 0,23 0,81 0,14 -0,02 1,64 1,47

В66 1,07 -0,79 0,60 -0,25 0,33 -2,73 0,90 -0,47 0,46 0,75 0,90

В7 -1,62 2,60 -0,69 -0,49 0,88 -1,09 0,71 0,05 0,05 1,49 0,88

18 0,86 -0,55 0,16 -0,82 0,75 -2,18 0,16 -0,37 0,25 0,98 1,37

В19 -2,09 -1,46 -0,82 -0,22 2,76 -1,19 0,55 -0,10 1,00 3,30 1,00

В20 -2,14 -3,76 0,40 -0,07 1,03 -0,46 1,39 0,40 0,12 0,60 0,50

В21 0,43 -1,34 0,02 1,05 0,12 -0,64 1,73 -1,02 -0,36 0,12 0,54

Значения коэффициента корреляции Спирмена между результатами по отдельным вариантам теста сводятся в матрицу (табл. 3). В табл. 3 выделены значения коэффициентов корреляции, уровень значимости р для которых меньше 0,05 (эти значения коэффициентов корреляции оказались статистически значимыми на 5 % уровне. Все расчеты производились с использованием пакета ЙаИйка 6.0). Это означает, что для данных пар вариантов су-

0.5

0. 38 0. 39

0 4

0 3

0 2

0 1

0 1

0 2

Таблица 3. Матрица коэффициентов корреляции между вариантами теста

B1 B2 S3 B4 BS BS B7 BS ВЯ BIO Bll Bl 2 BIS B14 BIS BI6 В17 BIS B¡9 B20 B21

Ell 1,00

В2 0,20 1,00

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

вз 0,30 0,14 1,00

В4 0,58 0,24 0,76 1,00

В5 0,85 0,14 0,61 0,46 1,00

В6 0,81 -0,07 0,47 0,32 0,64 1,00

BZ 0,42 0,47 0,47 0,38 0,63 0,17 1,00

BS 0,31 0,76 0,0 J 0,18 0,40 -0,13 0,64 1,00

вя 0,04 0,12 -0,11 -0,24 0,19 -0,12 0,09 0,43 1,00

BIO 0,46 0,16 0,37 0,41 0,42 0,66 0,20 0,02 0,22 1,00

В11 0,48 -0,07 0,47 0,34 0,47 0,34 0,16 0,10 0,45 0,62 1,00

В12 0,30 0,33 0,44 0,41 0,26 0,30 -0,14 0,03 0,06 0,51 0,15 1,00

В13 0,20 0,38 0,30 0,23 0,49 -0,12 0,63 0,71 0,37 0,37 0,35 -0,01 1,00

В14 0,62 0,46 0,5B 0,33 0,63 0,24 0,43 0,60 0,32 0,17 0,49 0,40 0,58 1,00

В15 njtn -0,01 0,49 0,33 0,67 0,97 0,26 -0,07 -0,19 0,66 0,35 0,48 -0,04 0,31 1,00

В16 0,43 -0,22 0,04 0,30 0,27 0,28 0,18 0,18 0,43 0,20 0,46 -0,31 0,24 0,19 0,18 1,00

В17 0,20 0,67 0,24 0,34 0,22 0,07 0,62 0,53 0,04 0,56 0,33 0,10 0,62 0,30 0,22 -0,04 1,00

BIS 0,30 -0,01 0,40 0,30 0,29 0,23 0,41 0,26 0,4g 0,42 0,63 -0,08 0,52 0,35 0,18 0,80 0,30 1,00

BIS 0,64 0,33 0,79 0,66 0,64 0,43 0,49 0,33 0,17 0,53 0,80 0,36 0,56 0,78 0,51 0,22 0,56 0,54 1,00

В 20 0,67 -0,06 0,50 0,37 0,36 0,31 0,21 0,09 0,02 0,56 0,84 0,15 0,40 0,54 0,59 0,41 0,38 0,47 0,81 1,00

В21 0,58 0,07 -0,06 0,34 0,20 0,36 -0,17 0,24 0,26 0,15 0,38 0,11 0,00 0,40 0,27 0,70 -0,08 0,38 0,26 0,47 1,00

ществует сильная положительная связь, т.е. их можно считать параллельными. Однако, далеко не все варианты связаны такой связью. Это подтверждает вывод о непараллельности вариантов теста в целом.

Определение параллельности на основе кластерного анализа

Для определения однородных по трудности групп вариантов теста по математике был использован кластерный анализ (методы Варда и k-сред-них). Кластерный анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации (cluster (англ.) - гроздь, пучок, скопление, группа элементов, характеризуемых каким-либо общим свойством). Критерий качества классификации в той или иной мере отражает следующие неформальные требования:

1) внутри групп объекты должны быть тесно связаны между собой;

2) объекты разных групп должны быть далеки друг от друга;

3) при прочих равных условиях распределения объектов по группам должны быть равномерными.

Требования 1 и 2 выражают стандартную концепцию компактности классов разбиения; требование 3 состоит в том, чтобы критерий не навязывал объединения отдельных групп объектов.

Многие процедуры при кластеризации совершаются ступенчато. Это означает, что два наиболее близко расположенных объекта Xi и xj объединяются и рассматриваются как один кластер. Это приводит к тому, что число объектов уменьшается и становится равным и-1, причем один кластер будет содержать два объекта, а остальные по одному. Процесс можно повторять до тех пор, пока все объекты не сгруппируются в один кластер. Наиболее подходящее разбиение выбирает чаще всего сам исследователь, которому предоставляется дендрог-

рамма, отображающая результаты группирования объектов на всех шагах алгоритма кластеризации.

Традиционно различают классификации иерархические и неиерархические (называемые иногда структурными). Соответственно можно разделить алгоритмы получения этих классификаций.

Принцип работы иерархических алгоритмов состоит в последовательном объединении в кластер сначала самых близких, а затем и всё более отдалённых друг от друга элементов. Большинство из этих алгоритмов исходит из матрицы сходства (расстояний), и каждый отдельный элемент рассматривается вначале как отдельный кластер. Общая схема такой иерархической группировки может быть представлена как повторяющееся приложение трех операций к мерам расстояния объект (кластер) -объект (кластер):

1) найти наименьшее расстояние А между объектом (кластером) ^ и объектом (кластером) 52;

2) объединить и в один кластер, присвоив общий индекс

3) вычислить расстояние от кластера ¿\IJS2 до любого другого объекта (¡кластера) Результаты кластеризации вариантов теста по

трудности представлены на рис. 2 в виде иерархической дендрограммы. Как видно из рис. 2, все варианты теста можно разбить на три кластера. Для уточнения результата были проведена кластеризация по методу ^-средних.

Метод Варда, евклидово расстояние

Г 4

а

В12 В10 В21 В16 В8 В17 В14 В19 В4 В6 В1 В11 В9 В18 В13 В7 В2 В5 В20 В3 В15

Рис. 2. Иерархическая дендрограмма результатов кластеризации

12

10

е 8

В табл. 4 представлен результат кластеризации по методу ^-средних (группировка вариантов теста по трудности).

Таблица 4. Результат кластеризации по методу к-средних

Кластер 1 B2 B7 B8 B9 B11 B13 B16 B17 B18 B21

Расстояние

до центра 0,70 0,62 0,46 0,85 0,74 0,59 0,75 0,98 0,62 0,86

кластера_

Кластер 2 В1 В3 В6 В10 В12 В15

Расстояние

до центра 0,60 0,74 0,54 0,69 0,91 0,47

кластера_

Кластер 3 В4 В5 В14 В19 В20

Расстояние

до центра 0,69 0,75 0,82 0,96 0,84

кластера_

Число искомых кластеров задавалось равным 3. В первом столбце табл. 5 приведен список переменных (заданий теста), далее идут суммы квадратов (SS) и степени свободы (df), затем /-критерий Фишера и в последнем столбце -достигнутый уровень значимости р.

Таблица 5. Результаты дисперсионного анализа

Задания Сумма квадратов SS Степень свободы df Сумма квадратов SS Степень свободы df F- критерий Фишера Достигнутый уровень значимости p

А1 13,17 2 11,88 18 9,98 0,00

А2 15,42 2 19,24 18 7,22 0,00

A3 1,21 2 11,67 18 0,93 0,41

A4 0,54 2 8,80 18 0,55 0,59

А5 3,59 2 9,35 18 3,45 0,05

А6 7,36 2 11,17 18 5,93 0,01

А7 0,27 2 7,14 18 0,34 0,71

А8 4,09 2 4,78 18 7,71 0,00

А9 6,33 2 21,23 18 2,68 0,10

АЮ 3,11 2 13,06 18 2,14 0,15

А11 1,70 2 7,54 18 2,02 0,16

Табл. 5 дисперсионного анализа результатов кластеризации на три кластера показывает необходимость отклонения нулевой гипотезы о равенстве групповых средних по 5 заданиям из 11 (для которых достигнутый уровень значимости оказался более 5 %).

Ниже приведен график (рис. 3) средних значений всех переменных по отдельным кластерам. В табл. 6

Рис. 3. Графики средних значений каждого кластера по переменным (заданиям)

Таблица 6. Средние значения переменных в каждом кластере

Переменные Значение центроидов

Кластер 1 Кластер 2 Кластер 3

А1 -0,08 -1,16 -2,01

А2 0,13 -1,05 -1,95

А3 -0,44 -0,72 -0,05

А4 -0,20 0,02 0,18

А5 0,51 -0,22 0,88

А6 -1,13 0,24 -0,90

А7 0,50 0,53 0,77

А8 -0,48 0,52 0,17

А9 0,87 0,17 1,69

А10 0,54 1,42 1,10

А11 0,89 1,49 1,42

Результат проведения кластерного анализа указал на различие (непараллельность) вариантов теста по математике. Сравнивая средние значения трудности каждого кластера по заданиям, следует отметить, что задания А1, А2, А4, А5, А6 и А8 наиболее разнородны, что хорошо видно и на графике средних значений трудности каждого кластера.

Таким образом, кластерный анализ определил три кластера, где внутри каждого кластера варианты являются параллельными, а между собой эти группы по трудности непараллельны. Рекомендуется ввести две различные системы шкалирования результатов тестирования по математике для двух кластеров.

В результате проведенных исследований авторами статьи разработана методика оценки параллельности вариантов теста, которая включает в себя следующие этапы:

1. Расчет стандартных значений уровня трудности заданий по двадцати одному вариантам с использованием специализированного программного обеспечения LogitModels [3, 4];

2. Систематизацию результатов стандартных значений уровня трудности в виде матриц средних значений уровня трудности по заданиям тестов или по вариантам теста;

3. Проверку параллельности вариантов теста по критериям:

- коэффициент вариации средних стандартных значений уровня трудности вариантов, где сравнительным критерием является значение коэффициента вариации (должно быть С < 25 %);

- корреляционный анализ средних стандартных значений уровня трудности заданий и средних стандартных значений уровня трудности вариантов, где сравнительным критерием является коэффициент корреляции (должен быть г^1), что говорит о сильной положительной связи вариантов;

- кластерный анализ (должна быть одна группа вариантов).

4. Вывод о параллельности.

Структурная схема разработанной методики представлена на рис. 4.

Рис. 4. Структурная схема разработанной методики оценки параллельности вариантов теста

Проверка параллельности вариантов по критери- зала, что все три критерия указывают на принятие ну-ям, рассчитываемым в разработанной методике, пока- левой гипотезы о непараллельности вариантов теста.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Работа частично поддержана РФФИ (проект № 03-06-80128

СПИСОК ЛИТЕРАТУРЫ

1. Берестнева О.Г., Иванкина Л.И., Марухина О.В., Пермяков О.Е. Концепция качества образования в техническом вузе // Качество образования: системы управления, достижения, проблемы: Матер. V Междунар. научно-метод. конф. — Новосибирск: Изд-во НГТУ, 2003. —Т. 1. — С. 64—68.

2. Челышкова М.Б. Теория и практика конструирования педагогических тестов: Учебное пособие. — М.: Логос, 2002. — 432 с.

3. Марухина О.В. Алгоритмы обработки информации в задачах оценивания качества обучения студентов вуза на основе экспе-

ртно-статистических методов: Дис. ... канд. техн. наук: 05.13.01. -Томск, 2003. -165 с.

4. Берестнева О.Г., Марухина О.В. Методы многомерного анализа данных в задачах оценки качества образования // Радиоэлектроника. Информатика. Управление. — 2002. — № 1. -С. 15-26.

5. Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. - М.: Прометей, 2000. -168 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.