Научная статья на тему 'Спектральные характеристики педагогического теста'

Спектральные характеристики педагогического теста Текст научной статьи по специальности «Прочие социальные науки»

CC BY
138
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПЕДАГОГИЧЕСКИЙ ТЕСТ / РАЗРЕШАЮЩАЯ СПОСОБНОСТЬ / ДИСПЕРСИЯ / РАБОЧИЙ ДИАПАЗОН / ВЗАИМОСВЯЗЬ / ЧИСЛО ЗАДАНИЙ / СЛОЖНОСТЬ ЗАДАНИЙ / КОРРЕЛЯЦИЯ УСПЕХОВ / CORRELATION TO STUDENTS' SUCCESS / PEDAGOGICAL TEST / RESOLUTION RATIO / DISPERSION / WORKING RANGE / RELATIONSHIP / NUMBER OF TASKS / COMPLEXITY OF TASKS

Аннотация научной статьи по прочим социальным наукам, автор научной работы — Кирьяков Борис Сергеевич

Обсуждены проблемы введения спектральных характеристик педагогических тестов, определяющих возможность деления учащихся на отдельные группы по итогам тестирования. С количественной стороны вопрос о спектральных характеристиках изучен в рамках модели многократного тестирования на примере тестов однородного состава. Получены аналитические выражения, определяющие статистическую природу рабочего диапазона дисперсии и разрешающей способности теста среднего уровня сложности и их взаимосвязь с числом заданий, их сложностью и корреляционной взаимосвязью успехов учащихся. Рассмотрены возможные пути повышения разрешающей способности. Полученные результаты обсуждены на основе геометрических представлений и результатов реального тестирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article deals with a new approach to testing based on the spectrum analysis of a number of repeated homogeneous tests aiming at placing students into groups according to the results of their performance. The resolution ratio of every test is being worked out statistically regarding the number of tasks each test contains, their relative complexity, and correlation to the success of students performances. The fact that the tests were homogeneous gave the scholars an opportunity to consider the ways of raising the tests resolution ratio, find out the working range of dispersion, correlation between the number of the tasks, and their complexity. The received data were examined against the background of geometric representation and on-going testing.

Текст научной работы на тему «Спектральные характеристики педагогического теста»

Б.С. Кирьяков

СПЕКТРАЛЬНЫЕ ХАРАКТЕРИСТИКИ ПЕДАГОГИЧЕСКОГО ТЕСТА

Обсуждены проблемы введения спектральных характеристик педагогических тестов, определяющих возможность деления учащихся на отдельные группы по итогам тестирования. С количественной стороны вопрос о спектральных характеристиках изучен в рамках модели многократного тестирования на примере тестов однородного состава. Получены аналитические выражения, определяющие статистическую природу рабочего диапазона дисперсии и разрешающей способности теста среднего уровня сложности и их взаимосвязь с числом заданий, их сложностью и корреляционной взаимосвязью успехов учащихся. Рассмотрены возможные пути повышения разрешающей способности. Полученные результаты обсуждены на основе геометрических представлений и результатов реального тестирования.

педагогический тест, разрешающая способность, дисперсия, рабочий диапазон, взаимосвязь, число заданий, сложность заданий, корреляция успехов.

В настоящее время тестирование можно считать одним из наиболее распространенных способов оценки результатов обучения. В этой связи большую значимость приобретают спектральные характеристики тестирования. Необходимость их рассмотрения определяется тем, что по своей сути тестирование выявляет спектральный состав ансамбля испытуемых учащихся, задавая их распределение по уровням подготовки. Спектральные характеристики педагогических тестов особенно важны для школьников, поскольку полученные результаты используют для деления ансамбля учащихся на составные части. Результаты Единого государственного экзамена (ЕГЭ), например, приводят к школьной системе оценок «2», «3», «4», «5», подразделяя учащихся на четыре отдельные группы. Деление на «поступивших» и «не поступивших» осуществляется при зачислении абитуриентов в высшие учебные заведения по итогам ЕГЭ. В связи с этим школьникам важно знать, насколько достоверно подобное деление, ибо именно оно во многом определяет их судьбу после окончания школы. А оценить эту достоверность можно только с помощью соответствующих спектральных характеристик. К их числу в первую очередь следует отнести диапазон регистрируемых значений тестового балла (рабочий диапазон теста), дисперсию теста и его разрешающую способность.

Изобретать здесь нового ничего не надо, поскольку эти характеристики хорошо известны, например, в оптике. Достаточно лишь применить их к ситуации, когда анализируется не световое излучение, а итоги тестирования, представляющие спектральный состав ансамбля испытуемых учащихся. С общих позиций проблема введения разрешающей способности педагогического теста рассмотрена в работе Ю.М. Неймана и В.А. Хлебникова «Введе-

ние в теорию моделирования и параметризации педагогических тестов» ', однако это не позволило ответить в полной мере на вопрос, касающийся взаимосвязи разрешающей способности теста с педагогическими параметрами, определяющими режим испытания школьников. Одна из причин подобного положения заключается в латентном характере параметров моделей Г. Раша и А. Бирнбаума, лежащих в основе современной теории параметризации педагогических тестов (ЖТ).

Наиболее просто введение спектральных характеристик для педагогического теста можно провести в модели многократного тестирования 2. В этой модели под подготовленностью испытуемых понимают некоторый многомерный объект, параметры которого можно выявить в процессе многократного и разностороннего тестирования. По отношению к данному объекту отдельное тестирование является срезом частного характера. Тем не менее, его результаты могут быть использованы для реконструкции параметров самого многомерного объекта, отображающего подготовленность испытуемых.

В качестве реконструируемой характеристики многократного тестирования в модели 3 рассматривается суммарный балл t, а в качестве его количественной меры - тестовый балл tв. При этом под тестовым баллом понимают наиболее вероятное значение суммарного балла за серию тестов, которое реконструируется по известным результатам одного или нескольких тестирований, относящихся к данной серии.

Подобное определение тестового балла интересно тем, что изначально предполагает независимость тестовых оценок от вида теста, поскольку эти оценки соотносятся не с отдельным тестированием, а с самим многомерным объектом, отображающим результаты многократных испытаний. В этих условиях значения тестовых оценок не должны зависеть от того, по какому тесту проводится их реконструкция. Главное, чтобы она проходила корректно.

В дополнение к этому сама идея многократного тестирования позволяет разрешить возможное противоречие между структурой теста и структурой учебной дисциплины, по которой проходит тестирование. С одной стороны, разнородный состав ансамбля испытуемых предполагает организацию теста в виде последовательности заданий с равномерно нарастающим уровнем сложности для регистрации успехов учащихся с разным уровнем подготовки. С другой стороны, учебная дисциплина имеет собственную структуру, в которой всегда можно выделить какие-то информационные блоки самостоятельного значения.

1 Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. М. : Прометей, 2000. 169 с.

2 Кирьяков Б.С. Влияние структуры школьного курса физики на статистические параметры теста // Единство традиций и инноваций в системе непрерывного естественно-математического образования : тр. Междунар. науч.-метод. конф., посвящ. 105-летию со дня рождения А.В. Пе-рышкина / РГУ им. С.А. Есенина. Рязань, 2007. С. 56-71 ; Он же. Статистическая модель многократного тестирования учащихся // Вестник Рязанского государственного университета имени С.А. Есенина. 2008. № 1/18. С. 3-23.

3 Там же.

Подобная самостоятельность обусловливает равноправие учебной информации, содержащейся в выделенных блоках, и адекватное отражение этого равноправия в структуре теста.

В работах 4 показано, что разрешить указанное противоречие можно при блочной организации теста, когда увеличение уровня сложности заданий допускается только в пределах информационных блоков, а равноправие самих блоков обеспечивается их тождественной комплектацией. Подобная организация теста проиллюстрирована на рисунке 1а на примере школьного курса физики. В этом тесте уровень сложности заданий растет в пределах информационных блоков, а сами блоки равноправны, поскольку каждый из них обслуживается тождественным комплектом, состоящим из трех однобалльных заданий: простого, средней сложности и сложного.

На рисунке 1б изображен тот же тест с учетом уровня сложности заданий. Он получен перестановкой заданий в тесте на рисунке 1а. Из рисунков 1а и 1б видно, что равноправие информационных блоков определяет важную особенность тестов, отражающих структуру учебной дисциплины, - многократный характер тестирования учащихся. Для теста на рисунке 1б это тестирование будет троекратным. Оно предусматривает тестирование школьников по всему курсу физики с помощью теста 1, который составлен из простых заданий, кроме этого, с помощью теста 2, состоящего из заданий средней сложности, и в дополнение ко всему с помощью теста 3, состоящего из сложных заданий. Кратность тестирования обусловлена при этом числом разноуровневых заданий в каждом выделенном блоке, а количество заданий в тестах - числом самостоятельных дидактических единиц, выделяемых в учебной дисциплине.

В реальном случае, который нацелен на детальное обследование знаний испытуемых, число самостоятельных дидактических единиц m может быть очень большим. Например, в школьном курсе физики число этих единиц при самой скромной оценке должно находиться на уровне m = 40 - 60. Именно поэтому выпускные экзамены по физике включали в свое время около 20 билетов с одним практическим и двумя теоретическими вопросами.

Тест 1 Тест 2 Тест 3

д V ооо* ос &ч>оотюас>ооО'Ьоо АТ •>■♦»«***•»* ФФ

Рис. 1. Структура текста, выстроенная с ориентацией на разделы школьного курса физики (а) и на уровень сложности заданий (б):

О - простое задание,

© - задание средней сложности,

ф - сложное задание.

Более того, непрерывный характер изменения уровня подготовки испытуемых в ансамбле предопределяет большое число разноуровневых тестов п, необходимых для регистрации самой разной подготовки учащихся. С учетом всего этого многократное тестирование предстает в виде весьма громоздкой процедуры, предполагающей испытание учащихся с помощью теста, в котором общее число заданий исчисляется сотнями, если не тысячами. Подобное тестирование, во-первых, нельзя провести как разовую акцию. Во-вторых, оно противоречит педагогической науке, утверждающей неразрывную связь контроля знаний с обучением, в силу чего многократное тестирование будет сопровождаться изменением уровня подготовки испытуемых. Подобное влияние процедуры измерения на получаемые результаты исключить нельзя. Его можно лишь уменьшить, заменив многократное тестирование реконструкцией возможных итогов по результатам одного или нескольких тестирований, в пределах которых «эффектом обучения» можно пренебречь. Тем самым педагогические основания определяют в модели 5 не только саму идею многократного тестирования, но и необходимость реконструкции его итогов.

Важным моментом, определяющим в модели 6 реконструкцию итогов многократного тестирования, является положение о том, что результаты испытания учащихся для серии тестов нарастающего уровня сложности должны находить свое отражение на микроскопическом уровне (на уровне каждого испытуемого школьника) в виде ограничений

т > х1 > х2 > х3 > ... > хг >... > хп > 0, (1)

где xi - баллы, получаемые школьником за тест с номером г из серии тестов нарастающей сложности, п - число тестов нарастающей сложности в серии, т -число однобалльных заданий в каждом разноуровневом тесте.

Соотношения (1) обусловлены нарастанием уровня сложности тестов с ростом их номера г и носят статистический характер. При большом числе заданий т фактор случайности, определяющий такую возможность, при которой испытуемый справится со сложным тестом под номером г + 1 лучше, чем с более простым тестом под номером г, если не исключается полностью, то в значительной степени снижен. Знак «=» в соотношениях (1) необходим. Он позволяет учесть разные успехи учащихся, причем последние могут справиться (частично или полностью) со всеми тестами, а могут не справиться ни с одним из заданий.

Ограничения (1) служат основанием для геометрического описания итогов многократного разноуровнего тестирования. В роли объекта, отображающего возможные результаты подобных испытаний, выступает решетчатая п-мерная пирамида с ребром т. Выход на эту пирамиду можно осуществить в координатном представлении, откладывая балльные оценки для тестов с номерами г = = 1, 2, ..., п вдоль осей 0х1, 0x2,..., 0хп в некотором ортонормированном базисе. Решетчатый характер рассматриваемой структуры определяется при этом дискретным изменением балльных оценок хг = 0, 1, 2, ..., т, а ее пирамидальный вид - ограничениями (1).

В качестве примера на рисунке 2 изображена трехмерная (п = 3) решетчатая пирамида с ребром т = 15. Ее точки с целочисленными координатами хь х2, х3 отображают возможные итоги тестирования учащихся для трех тестов нарастающей сложности, представленных на рисунке 1б. На рисунке 2 распределение точек пирамиды по плоскостям, перпендикулярным оси 0хг (г = 1, 2, 3), задает распределение возможных комбинаций оценок хь х2, х3 для отдельно взятого теста Ах?). При этом распределение точек по плоскостям, перпендикулярным диагонали куба, определяет распределение комбинаций оценок хь х2, х3 по отношению к суммарному баллу t = XI + х2 + х3. Для преобразования диагонали в ось 0t достаточно ее длину нормировать на пт.

Рис. 2. Координатное представление возможных комбинаций оценок хь х2, х3 для теста, изображенного на рисунке 1б (п = 3, т = 15)

Свойства решетчатых пирамид известны. Используя данные работ 7, нетрудно задаться характеристиками тестов и тестовых заданий, пригодных для многократного тестирования. Выражения, определяющие взаимосвязь этих характеристик с числом заданий т в тестах, числом этих тестов п в серии тестов нарастающей сложности и их номером г, приведены в таблице 1.

Таблица 1

Статистические характеристики тестов и тестовых заданий для многократного тестирования учащихся согласно модели 8

№ п/п Характеристика Взаимосвязь с параметрами тестирования: числом тестов в серии п, числом заданий в тесте т, номером теста г = 1, 2, ..., п

1 2 3

1. Доступность и недоступность заданий в ,-м тесте г г Рг = 1 , (1.1) Чг = (1.2) п +1 п + 1

2. Корреляция между балльными оценками в тесте II II 1 Ы = Гп = „ (1.3) 11 11 п + 2

3. Итоговое распределение /х,) для і-го теста £Хг _ ^т-Хг г/ \ / ■ \ хг + п - г т - хг + г-1 ,, .ч / (хг-) = п( х1, т, г, п) = г г (Ы) ст + п

7 Кирьяков Б.С. Простейшие решетчатые объекты: статистические свойства, связь с квантовыми статистиками, проектирование контрольных заданий // Вестник Рязанского государственного университета имени С.А. Есенина. 2007. № 1/14. С. 3-26 ; Он же. Педагогическая модель интеллектуального испытания школьников. Рязань : Русское слово, 2002. 208 с.

8 Кирьяков Б.С. Влияние структуры школьного курса физики на статистические параметры теста ; Он же. Статистическая модель многократного тестирования учащихся.

1 2

4. Средний балл и мода для распределения /(х) х, = т( 1 ] , (1.5) V п + 1) п - г £г = т (1.6) п -1

5. Дисперсия для распределения Ах,) п т(т + п +1) ( , Л г ' = v '|1 1 (1.7) хг п + 2 V п + 1) п +1

6. Корреляция между балльными оценками х, и Х/ для г-го и /-го тестов (/ > г) ГХ,Х/ = , п +1 - / Ь п +1 - г (1.8)

7. Общее число комбинаций оценок Х1, Х2, Хз, ..., хп Г7 = Сп = (п + т)! = (п + 2 - 1)! (19) т+п п!т! п!( 2 -1)! где 2 = т + 1 - число оцениваемых уровней решения тестов

8. Распределение комбинаций оценок Х1, Х2, Хз, ..., Хп по суммарному баллу t = Х1 + х2 + х3 + . + х п т 1 (—^)2 /^) = ^л(х, , т, г, п) .—— е 2' , (1.10) хг = 0 л]2.Л(Г( т(, -1) + х, (п +1) где 1в = }- ^, (1.11) 2 2 хг (п - г)(хг + п - г + 1) + (т - хг)(,-1)(т - хг +,) (1 12)

1 12

9. Средний балл, медиана и мода для распределения АО - „ тп t = ¿1/2 = £ = — (1.13)

10. Дисперсия, коэффициенты асимметрии и эксцесса для распределения /(() тп о2 = (т + п +1), (114) 12 а = 0, (1.15) 6 (11 1 Л 1= 1 + 1 (1.16) 5 V т п т + п +1/

11. Соотнесение распределения Ах) с г-м тестом из серии, образованной п тестами нарастающей сложности где < Р = ~ г = -т п = - - 2, г (1.17) 1 - Г г =(1 Р) , г с т.( '2 -11 “ п-1V тр(1 - р) )

Решетчатые пирамиды интересны тем, что позволяют вывести проблему интерпретации тестовой оценки знаний за рамки математической статистики и теории вероятности, что очень важно для школьников. Опираясь на геометрические представления, можно в доступной форме интерпретировать смысл тестового балла, независимость тестовых оценок от уровня сложности теста, порядок их приведения к 100-балльной шкале. Можно также в доказательном виде познакомить школьников с упрощенным вариантом введения и истолкования спектральных характеристик педагогического теста.

В отличие от этого данные таблицы 1 создают условия для статистического подхода к изложению модели многократного тестирования. В этой таблице по существу приведены свойства статистического веса для статистики Бозе - Эйнштейна, поскольку общее число точек в решетчатой пирамиде (1.9) определяется статистическим весом, характерным именно для этой статистики 9. Поэтому все соотношения в таблице 1 можно рассматривать как описание свойств этого веса при учете некоторых дополнительных условий.

Свойства статистического веса (1.9) определяют в модели 10 порядок реконструкции возможных значений суммарного балла для серии тестов нарастающей сложности. При однократном тестировании, когда известны итоги xi лишь для одного теста с номером i, относящегося к некоторой серии из n тестов нарастающей сложности, эта реконструкция сводится к выявлению комбинаций оценок xi, x2, x3, ..., x, ..., xn, удовлетворяющих ограничениям:

m > X1 > Х2 > хз > ... > Xi > ... > xn > 0, (2)

xi = const.

Важно также знать число этих комбинаций оценок AGX и их распределение ф(0 по значениям суммарного балла t = х1 + х2 + х3 + . + xi + . + xn.

Первое выражение в соотношениях (2) интересно тем, что задает общее число возможных комбинаций оценок для серии тестов нарастающей сложности, определяемое статистическим весом (1.9). При этом вторая строка выступает в качестве дополнительного условия, выделяющего особые комбинации оценок из их общего числа (1.9).

Данные таблицы 1 определяют решение поставленной задачи в виде

AGxi = C^ • С^, (3)

1 _ (t-t, )2

<p(t) = ~^ e 2ст2 , (4)

■42nat

9 Кирьяков Б.С. Простейшие решетчатые объекты: статистические свойства, связь с квантовыми статистиками, проектирование контрольных заданий.

10 Кирьяков Б.С. Влияние структуры школьного курса физики на статистические параметры теста ; Он же. Статистическая модель многократного тестирования учащихся.

где

і

т(і -1) + хі (п +1)

(5)

в

2

хі (п - і)(хі + п - і +1) + (т - хі )(і - 1)(т - хі + і)

12

(6)

Существо предлагаемой реконструкции можно проиллюстрировать на примере трехмерной решетчатой пирамиды (рис. 2), которая описывает возможные итоги для трех тестов на рисунке 1б. На рисунке 3а представлены итоги тестирования, которые можно поставить в соответствие тесту с номером i = 3. На нем также выделены школьники, набравшие по итогам рассматриваемого теста 7 баллов (х3 = 7). В соответствии с ограничениями (2) возможные успехи этих учащихся во всей серии тестов, состоящей из трех испытаний (с учетом тестов с номерами i = 1 и i = 2), будут удовлетворять условиям:

На рисунке 3б комбинации оценок хь х2, х3, удовлетворяющие условиям (7), соответствуют координатам точек, относящимся к срезу решетчатой пирамиды (п = 3, т = 15) плоскостью х3 = 7. Выражение (3) определяет число этих комбинаций, а выражения (4)-(6) - нормальный характер их распределения ф(0 по суммарному баллу t, что подтверждает гладкая кривая на рисунке 3в.

(7)

а)

0,2 /(-тз)

і = х1 + х2 + х3

15

30

45

Рис. 3. Реконструкция суммарного балла по результатам однократного тестирования

Из рисунка 3в видно, что в качестве количественной меры реконструируемого значения суммарного балла t следует рассматривать его наиболее вероятное значение tв, которое обеспечивается максимальным числом возможных комбинаций оценок. Именно это и делается в модели п, поскольку в статистической теории в качестве наиболее вероятных рассматриваются состояния, соответствующие максимальному значению статистического веса.

Координатное представление позволяет обосновать порядок приведения значений t, и ог к 100-балльной шкале. В модели 12 шкала 0t носит количественный характер. Значения t и tв равны возможному и наиболее вероятному числу однобалльных заданий (не важно каких), с которыми может справиться какая-то группа школьников в серии разноуровневых испытаний. Ноль шкалы 0t определен. Он соответствует отсутствию решенных заданий. В этих условиях (рис. 3в) приведение значений t, tв и о1 к 100-балльной шкале можно рассматривать как их выражение в процентах по отношению к тп.

В 100-балльной шкале соотношения, определяющие в модели 13 реконструкцию суммарного балла при однократном тестировании, имеют вид

~ ~ ± 2с~ , (8) ~ ^~т(/ -1) + х. (п +1)

~ = 50—-----^, (9)

тп

50 х/ (п - /)(х/ + п - / +1) + (т - х/)(/ - 1)(т - х/ + /)

тп V 3

(10)

_ (г-в )2

2 о?

<Р(г) = ^~е ' , (11)

ы2жо(

где знаком «~» отмечены величины, приведенные к 100-балльной шкале.

Соотношение (9) является формулой для пересчета первичных баллов х/ = 0, 1, 2, ..., т для /-го теста в тестовые баллы ^ . Тестовый балл ^ при этом выступает в качестве количественной меры возможных успехов учащихся во всей серии тестов нарастающей сложности, к которой относится и /-й тест. Согласно распределению (11), он является наиболее вероятным значением суммарного балла. Соотношение (10) определяет диапазон, в котором могут находиться возможные значения суммарного балла в зависимости от выбранной надежности. В выражении (8) этот диапазон положен равным ^ ± 2стг, что соответствует учету 95 процентов возможных комбинаций оценок.

11 Кирьяков Б.С. Влияние структуры школьного курса физики на статистические параметры теста ; Он же. Статистическая модель многократного тестирования учащихся.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

12 Там же.

13 Там же.

Из соотношений (8)—( 11) следует, что при реконструкции результатов однократного тестирования по отношению к серии тестов нарастающей сложности достаточно соотнести итоговое распределение испытуемых Дх) по набранным баллам х с определенным срезом соответствующей пирамиды. Простейший способ подобного соотнесения определяется в таблице 1 выражениями (1.17) и (1.18). Для его реализации достаточно знать средний балл х и выборочную дисперсию О итогового распределения Дх), а также число заданий в тесте т.

В рамках статистического подхода выражения (8)—( 11) интересны тем, что позволяют легко продемонстрировать соответствие модели многократного тестирования 14 моделям Г. Раша и А. Бирнбаума, лежащим в основе современной теории параметризации педагогических тестов (ЖТ). Достаточно обратиться к функции успеха. В соответствии с нормальным видом распределения (р(г ) (11) эта функция определяется в модели 15 выражением

(12)

г 1+е ^

которое с точностью до обозначений совпадает с функцией успеха в двухпараметрической модели А. Бирнбаума 16.

Особенность выражения (12) заключается в том, что его параметры в отличие от функции успеха в модели А. Бирнбаума не носят латентного характера. Они выражаются с помощью соотношений (9) и (10) через параметры тестирования т, п и /, значения которых связаны с педагогическими факторами: протяженностью теста, взаимосвязью успехов испытуемых и доступностью заданий. При этом функция успеха (12) выступает как следствие статистики Бозе - Эйнштейна, что может служить обоснованием как самой модели многократного тестирования, так и моделей Г. Раша и А. Бирнбаума. Обращение к статистике Бозе - Эйнштейна не должно вызывать возражений, поскольку вид статистики определяется порядком подведения итогов, а этот порядок может быть любым.

Явный вид выражений (3)-(6) и (8)-( 11), отражающих зависимость итогов тестирования от его параметров, позволяет выявить условия, при которых однократное тестирование будет эффективным. Из соотношений (8)-( 11), например, следует, что простые тесты больше пригодны для регистрации подготовки слабо успевающих школьников, которые по итогам тестирования характеризуются низкими значениями первичных баллов хг-. Неопределенность реконструкции суммарного балла ^ ± 2стг будет для них наименьшей. Сложные тесты лучше

использовать для регистрации успехов хорошо успевающих школьников, успехи которых характеризуются высокими значениями первичных баллов хг-. Что каса-

14 Кирьяков Б.С. Влияние структуры школьного курса физики на статистические параметры теста ; Он же. Статистическая модель многократного тестирования учащихся.

15 Там же.

16 Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов.

1

1,7

ется тестов среднего уровня сложности, у которых задания доступны для 50 процентов испытуемых, то они практически пригодны для оценки школьников с самым разным уровнем подготовки.

Отмеченные особенности однократного тестирования иллюстрируют рисунке 4а-4в на примере тестов, представленных на рисунке 1б (п = 3, / = 1, 2, 3, т = 15). Из рисунка 4б видно, что для теста среднего уровня сложности неопределенность реконструкции суммарного балла 1в ± 2о( действительно слабо зависит от первичных баллов х,. При больших значениях п это проявляется еще отчетливее.

В соответствии с этим для тестов средней сложности можно пренебречь зависимостью стандартного отклонения (10) от первичных баллов х, воспользовавшись его среднеквадратичным значением

=

50 3п )

(п -1) +

(13)

где

(14)

Выражение (13) приведено к 100-балльной шкале и является неплохим усреднением значений <у( (10) для теста средней сложности, характеризуемого в серии из п разноуровневых тестов номером і = 0,5(п + 1).

10075' 50' 25' 0 ■

а) р1 = 0,75

0

К - 2<~і . ■ 100 ■

.■'' 75 -

50 -25 -

і—і—і—гг—і—гг—п—і—п—і—і X, 0-5 10 15 0

б) рі = 0,5

Ґ - 2а

їм і і і і і і і і і і і іхі 0

5 10 15

в) р1 = 0,25 а - 2<г.

■ . . ■ ■ . ■ і . ■ . ■ ■ . . хі

0

5

10

15

Рис. 4. Реконструкция значений суммарного балла при однократном тестировании с помощью тестов разного уровня сложности

Необходимость введения спектральных характеристик педагогических тестов можно проиллюстрировать на примере реального тестирования, представленного на рисунке 5а-5г. На рисунке 5а изображено итоговое распределение Ах) для ЕГЭ по русскому языку за 2002 год (77 006 школьников, 62 задания в тесте), итоги которого хорошо соотносятся с распределением точек вдоль оси 0х3 в пирамиде с размерностью п = 7 и ребром т = 62. Найденные значения (т = 62, п = 7, і = 3) позволяют пересчитать первичные баллы хг в тестовые їв по соотношениям (8)—( 10), что представлено на рисунке 5б.

Рисунок 5в интересен тем, что на конкретном примере (п = 7) демонстрируются характерные особенности серии тестов, на которую в модели 17 экстраполируются результаты однократного тестирования. Эти особенности состоят в том, что каждая подобная серия из п тестов характеризуется равномерным падением доступности тестовых заданий pi (1.1) с ростом номера теста / (а соответственно и равномерным увеличением уровня их сложности) и делит диапазон возможных значений pi = 0 1 на п +1 равновеликий интервал. Объединяет

каждую серию тестов одинаковая корреляционная взаимосвязь успехов учащихся. Согласно данным таблицы 1 все тесты в пределах каждой отдельной серии характеризуются одинаковым корреляционным уширением гп своих распределений по отношению к биномиальным распределениям, взятым при тех же значениях т и pi.

Ях) ^

0,12 -і — □(*» т, І, п)

0,08-

0,04

0

0 10 20 30 40 50 60

1

0,5

б)

100 -80 -60 -40 -20 -0

t ± 25.

0 10 20 30 40 50 60

Хз

Рі г Рі (11) 1 0, 1 5 -0,1 -

- ' 0,5

Г„ (1.3) 0,05 -

1 1 1 1 1 1 1 І 0 -

<Р(0 х3 = 0

г)

х1 = 62

0 1 2 3 4 5 6 7 8 0 20 40 60 80 100

Рис. 5. Реконструкция значений суммарного балла 1 = 1 ± 2аі по результатам реального тестирования

На рисунке 5г изображены распределения комбинаций оценок р(7 )(11), соответствующие значениям х3 = 0, 1, 2, ..., 62. Видно, что распределения р(7 ) в силу своей конечной ширины могут взаимно перекрываться. В этих условиях говорить о различии уровней подготовки учащихся (даже при заметном отличии ) можно далеко не всегда. Очевидно, что исчерпывающий ответ на подобный

вопрос можно дать, лишь оценив разрешающую способность и другие спектральные характеристики теста.

Исходя из соображений наглядности, введение спектральных характеристик теста среднего уровня сложности целесообразно провести на примере рисунка 6. На нем изображены распределения (р(ї )(11), обусловливающие неопределенность реконструкции суммарного балла, для теста с параметрами: т = 60, п = 309, І = 155 и хІ = 0, 1, 2, ..., 60. По рисунку 6 нетрудно проследить прямую аналогию со спектром видимого света. Если в видимом свете выделяют семь основных цветов, то на рисунке 6 выделено семь групп учащихся с различными уровнями подготовки, для которых распределения (р(ї ) не перекрываются в пределах 95 процентов возможных комбинаций оценок. Распределения (р(ї ) для этих групп отмечены на рисунке 6 жирными линиями. Они соответствуют первичным баллам хі = 0, 10, 20, ..., 60. Для их выделения достаточно задать ширину распределений <р(ї ), равную 4о(

Рис. 6. Неопределенность реконструкции суммарного балла для теста среднего уровня сложности: п = 309, I = 155, т = 60

Рисунок 6 делает понятным введение следующих спектральных характеристик для теста среднего уровня сложности:

Д~ = (~ ) - (~ ) (15)

в \ в / Хі =т \в/Хі =0 ’ V /

в = £ (16)

ах,

8ів = 2КЛ 5?, (17)

5хг = ^, (18)

г в

R = 1 +

А~в

д~

(19)

где К - численный коэффициент, определяемый выбранной надежностью.

Из рисунка 6 видно, что величина Atв (15) определяет диапазон регистрируемых значений тестового балла ^ (рабочий диапазон теста). При этом производная D (16) соответствует дисперсии теста, которая имеет достаточно простой смысл. Она задает увеличение тестового балла по 100-балльной шкале при решении дополнительно еще одного задания стоимостью в 1 балл.

Величина (17) является мерой ширины распределений р(7 ). В то же

время (рис. 6) она равна минимальному различию тестовых баллов tв, которое

при выбранной надежности свидетельствует о принадлежности школьников к группам учащихся с отличающимися уровнями подготовки. В силу нормального характера распределений р(7 )(11) о начале их разрешения можно говорить при значении К = 1. Для этого случая (рис. 7) сравниваемые распределения р(7 ) (11) пересекаются в точках перегиба, поэтому их суммарное распределение имеет плоскую вершину. При К = 1,5 (рис. 7) разрешение распределений р(7 )(11) можно соотнести с известным критерием Рэлея 18. Более отчетливо разрешение распределений р(7 ) (11) проявляется при К = 2 и К = 3 (рис. 7), что соответствует учету 95,4 и 99,7 процента возможных комбинаций оценок.

<Р(П

0,2

0,1

0

Рис. 7. Разрешение распределений р(7 ) при различных значениях К

Если дtв (17) характеризует разрешение теста по шкале тестовых баллов tв, то величина дх1 (18) делает это по шкале первичных баллов xi. Для случая,

представленного на рисунке 6, 5х1 = 10.

Величина Я (19), как нетрудно видеть на рисунке 6, определяет максимальное число групп учащихся с разным уровнем подготовки, которые доступ-

18 Ландсберг Г.С. Оптика. М. : Наука, 1976. 928 с.

ны для регистрации по итогам тестирования. Эту величину целесообразно выбрать в качестве количественной меры разрешающей способности теста.

Для теста среднего уровня сложности (, = 0,5(п + 1)) зависимость характеристик (15)-(19) от параметров тестирования (п и т) можно выразить в аналитическом виде из соотношений (9) и (13). Соответствующие выражения приведены в таблице 2. Там же выделен предельный случай, когда успехи учащихся корреляционно независимы (гп ^ 0).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 2

Спектральные характеристики теста среднего уровня сложности: , = 0,5(п + 1), р, = 0,5, Гп = 1/(п + 2)

№ п/п Характеристики Взаимосвязь с параметрами тестирования Предельный случай: Гп ^ 0 (п ^ <х>)

1. Рабочий диапазон (по 100-балльной шкале) ~ п — 1 (~) ^0 = 25 — (11) п (~) = 253п +1 (2.2) V в!х=т у ' п ~ п + 1 Д~ = 50 1 (2.3) п 25 75 50

2. Дисперсия (по 100-балльной шкале) В - 50(п +1) (2.4) тп 5 - 50 т

3. Разрешение (по шкале тестовых баллов) ~ 100К / , 3п2 — 1 8,в - 3п Г — 1 + 4 т <23» 50К в - 43т

4. Разрешение (по шкале первичных баллов) , - 2Кт 1„ — 1 + 3 п2 — 1 (2.6) 3(п +1) V 4 т У ' ^ - к^т

5. Разрешающая способность (максимальное число регистрируемых групп учащихся с разным уровнем подготовки) 3 1 т Я-1+ (п+1) (2.7) К \4т(п—1)+3(п2 —1) > Я -1 + '/3т к

По таблице 2 можно спланировать тест среднего уровня сложности с заданным разрешением. Примером этого может служить тест на рисунке 6. Для него п = 309, т = 60, поэтому при К = 2 его разрешающая способность R = 7.

Данные таблицы 2 в соединении с выражениями (8)—(12) позволяют оценить «аппаратные» возможности однократного тестирования, проследить взаимосвязь его спектральных характеристик с параметрами тестирования 1, п и т, а также с педагогическими факторами, определяющими их значения: с протяженностью теста, доступностью его заданий и корреляционной взаимосвязью успехов учащихся.

Число заданий т, например, характеризует протяженность теста, которая обусловлена двумя факторами. С одной стороны, значение т определяется числом самостоятельных дидактических единиц, выделяемых в учебной дисциплине. Это число зависит от структуры самой дисциплины, по которой проходит тестирование, и от того, насколько тонко «препарируют» составители тестов учебную информацию. С другой стороны, величина т определяется соображениями педагогической целесообразности, поскольку число заданий в тесте не может быть большим. Тестирование не должно проходить в режиме перегрузки испытуемых.

Что касается параметра п, то при педагогической интерпретации следует исходить из его зависимости (1.3) от коэффициента гп, характеризующего корреляционную взаимосвязь успехов учащихся. Для теста однородного состава с одинаковой доступностью заданий и одинаковой корреляционной взаимосвязью успехов учащихся коэффициент гп совпадает с коэффициентом линейной корреляции. Если доступность заданий одинаковая, а корреляционная взаимосвязь успехов разная, то гп равно среднеарифметическому значению недиагональных элементов корреляционной матрицы. Согласно соотношениям (1.18) этот коэффициент характеризует также корреляционное уширение итоговых распределений Дх) по отношению к распределениям биномиального вида. При этом чем слабее корреляционная связь балльных оценок за задания, тем больше будет соответствующее значение п.

Для предметов естественно-математического цикла в роли тестовых заданий обычно выступают типовые задачи, для которых разработаны общие методы решения. По этой причине фактором, влияющим на корреляционную взаимосвязь успехов, может являться наличие общих методов решения типовых задач, используемых в качестве тестовых заданий. Чем меньше заданий в тесте будут решаться по единому алгоритму, тем слабее будет корреляционная взаимосвязь балльных оценок и больше значение параметра п.

Из соотношений (1.17) следует также, что при заданном значении п, зависящем от корреляционной взаимосвязи успехов, параметр , определяется доступностью тестовых заданий. Чем выше эта доступность, тем ниже соответствующее значение ,.

Анализируя с учетом всего изложенного соотношения (8)-(12) и данные таблицы 2, нетрудно выявить оптимальные условия, при которых однократное тестирование будет наиболее эффективным.

Первое условие уже отмечалось. Оно заключается в том, что однократное тестирование следует проводить с помощью теста средней сложности (, = 0,5 (п + 1)), который образован заданиями, доступными для 50 процентов испытуемых.

Что касается разрешающей способности теста, то по данным таблицы 2 для ее повышения необходимо уменьшать корреляционную взаимосвязь успехов учащихся за счет использования заданий с разным алгоритмом решения. Можно также идти по пути увеличения протяженности теста. Эти способы, однако, не так перспективны. Значения п и т нельзя увеличивать беспредельно по объективным причинам. Кроме этого, с ростом разрешающей способности будет уменьшаться рабочий диапазон теста среднего уровня сложности и он превратится в конечном итоге в то, для чего, собственно говоря, и предназначен, -в инструмент для регистрации среднего уровня подготовки испытуемых.

Отмеченные особенности тестов среднего уровня сложности иллюстрируют рисунки 8а и 8б, на которых в качестве таких тестов представлены тесты протяженностью т = 40. Все расчеты проведены по таблице 2 для значений К = 2 и п = 3, 5, 7, 11, 15, 21, 29, 45, 77, 199, да, что позволяет проследить влияние корреляционного фактора на разрешающую способность и рабочий диапазон теста при значениях гп (1.3) = 0 0,2. Из рисунка 8а видно, что разрешающую способность

теста среднего уровня сложности при т = 40 можно довести до значения R ~ 7, если исключить корреляционную взаимосвязь успехов учащихся.

Правда, при этом он будет пригоден лишь для регистрации среднего уровня подготовки учащихся в интервале = 25 ^ 75 (рис. 8б). Если попытаться

расширить рабочий диапазон теста (за счет увеличения корреляционной взаимосвязи успехов до значения гп = 0,2), то из рисунков 8а и 8б следует, что в этом случае придется довольствоваться разрешением R ~ 3.

а) К

0

1 4------------1------------'------------' Гп

0 0,07 0,14 0,21

в

0 0,07 0,14 0,21

Рис. 8. Влияние корреляционного фактора на спектральные характеристики теста среднего уровня сложности

Представленные количественные оценки говорят о том, что только за счет корреляционного фактора и протяженности теста нельзя существенным образом повысить разрешающую способность педагогического теста. Необходимы другие подходы. Модель многократного тестирования 19 интересна в данном случае тем, что указывает еще на одну возможность увеличения разрешающей способности педагогического теста, связанную с кратностью испытания. Эта возможность носит достаточно очевидный характер, поскольку из геометрических представлений ясно, что неопределенность реконструкции суммарного балла будет уменьшаться с ростом числа известных срезов решетчатой пирамиды.

В этой связи необходимо отметить, что кратность испытания учащихся можно выявить лишь по протоколу тестирования, отражающему успехи каждого школьника по каждому заданию. Итоговое распределение учащихсяАх) по набранным баллам х не характеризует кратность испытания. Любое заданное распределение АХ) можно реализовать очень большим числом способов, которые будут соответствовать самой разной кратности испытания учащихся. Это относится и к случаю, представленному, например, на рисунке 5. Сам факт описания итогов рассматриваемого ЕГЭ выражением (1.4) (при т = 62, п = 7, / = 3) свидетельствует только о том, что эти итоги лишь могут соотноситься с однократным испытанием школьников. По этой причине оценка разрешающей способности R ~ 3, которую можно дать по рисунку 5г, соответствует именно этому предположению. Реальное значение разрешающей способности для данного ЕГЭ нетрудно оценить, установив по итоговому протоколу кратность тестирования учащихся.

Подобную оценку можно провести, опираясь на представления модели многократного тестирования. Данная модель обеспечивает необходимую доказательную базу для установления не только качественной, но и количественной взаимосвязи спектральных характеристик педагогического теста с кратностью тестирования. С учетом «эффекта обучения» речь следует вести в первую очередь о двукратном и троекратном испытании учащихся.

СПИСОК ЛИТЕРАТУРЫ

1. Кирьяков, Б.С. Влияние структуры школьного курса физики на статистические параметры теста [Текст] / Б.С. Кирьяков // Единство традиций и инноваций в системе непрерывного естественно-математического образования : тр. Междунар. науч.-метод. конф., посвящ. 105-летию со дня рождения А.В. Перышкина / РГУ им. С.А. Есенина. -Рязань, 2007. - С. 56-71.

2. Кирьяков, Б.С. Статистическая модель многократного тестирования учащихся [Текст] / Б.С. Кирьяков // Вестник Рязанского государственного университета имени С.А. Есенина. - 2008. - № 1/18. - С. 3-23.

3. Кирьяков, Б.С. Простейшие решетчатые объекты: статистические свойства, связь с квантовыми статистиками, проектирование контрольных заданий [Текст] /

Б.С. Кирьяков // Вестник Рязанского государственного университета имени С.А. Есенина. - 2007. - № 1/14. - С. 3-26.

4. Кирьяков, Б.С. Педагогическая модель интеллектуального испытания школьников [Текст] / Б.С. Кирьяков. - Рязань : Русское слово, 2002. - 208 с.

5. Ландсберг, Г.С. Оптика [Текст] / Г.С. Ландсберг. - М. : Наука, 1976. - 928 с.

6. Нейман, Ю.М. Введение в теорию моделирования и параметризации педагогических тестов [Текст] / Ю.М. Нейман, В.А. Хлебников. - М. : Прометей, 2000. - 169 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.