Педагогические измерения в шкале отношений

Каргин Юрий

Методология

ПЕДАГОГИЧЕСКИЕ ИЗМЕРЕНИЯ В ШКАЛЕ ОТНОШЕНИЙ

Юрий Каргин, Ноябрьский колледж профессиональных и информационныъх технологий [email protected]

В данной работе обосновываются возможность и некоторые преимущества проведения педагогических измерений в шкале отношений, что может оказаться предпочтительней системы измерений Г. Раша (RM) в изложении Wright B.D., Stone M.H.1

Ключевые слова: педагогические измерения, измерительная шкала отношений, система Раша.

Математические модели педагогических измерений

Идею построения системы совместных социальных измерений на основе аксиоматизации процесса взаимодействия (наложения) исследуемых свойств связывают чаще других с работой Luce R.D, & Tukey J.W.2 Содержание этой идеи применительно к педагогическим измерениям состоит в математической аксиоматизации: а) правил взаимодействия абстрактных мер подготовленности испытуемых и трудности тестовых заданий; б) отклика на результат такого взаимодействия.

В системе Раша аксиома взаимодействия состоит в том, что латентные показатели уровней подготовленности испытуемого b и трудности тестового задания d входят в систему измерения аддитивно, в виде параметра g = b - d. Это условие предполагает введение единой интервальной шкалы с допустимыми правилами преобразования масштабов: сдвиг и деформацию. В частности, справедливо инвариантное преобразование — одновременное изменение значений b и d на произвольную величину не изменит значение параметра взаимодействия g, а значит, и отклик на результат этого взаимодействия. Отклик на результат взаимодействия искомых величин b и d определяется однопараме-

-1-

Wright B.D, Stone M.H. Measurement Essentials. WIDE RANGE, INC. Wilmington, Delaware, 1999. 221 p.

-2-

Luce R.D., Tukey J.W. Simultaneous conjoint measurement: A new type of fundamental measurement. Journal of Mathematical Psychology, 1, p. 1-27.

измерения

трическои математической моделью Раша, задающей вероятность правильного ответа испытуемым на тестовое задание в зависимости от параметра взаимодействия g (здесь и далее символом «Я» обозначаем фрагменты, относящиеся к системе измерений Раша, символ «А» — к альтернативной системе измерений в шкале отношений):

P =

exp g

1 + ехр g . (Я1)

Эмпирическое обоснование приведённых аксиом должно подкрепляться и определёнными теоретическими принципами измерений. Основной из них состоит в условии независимости результатов измерений. В частности, расстояние между измеренными уровнями подготовленности испытуемых А и В не должно зависеть от уровня трудности тестового задания. Для модели Раша последнее требование приводит к равенству:

bA - bB = in

Pa - PB)

(1 -Pa) pb

. (R2)

Здесь выражение в скобках под знаком логарифма задаёт отношение уровней подготовленности испытуемых.

Из уравнения (Я2) следует, что выражение в правой части не только не зависит от уровня трудности тестового задания ^ но оно должно и адекватно отражать различия в уровнях подготовленности испытуемых. Только в этом случае и именно в этом смысле предложенная модель идентифицирует и располагает значения

оцениваемых показателей на измерительной шкале.

В альтернативной системе латентные показатели относительных уровней подготовленности испытуемого в и трудности тестового задания в накладываются отношением у = в/в, а отклик задаётся следующим математическим законом для вероятности правильного ответа: Р = 0,51/Y. (А1)

Здесь, как и в модели Раша (R1), рост подготовленности испытуемых приводит к увеличению значений параметров взаимодействия g и у и далее — к монотонному росту вероятности правильного ответа испытуемым. В этой измерительной системе предполагается введение единой измерительной шкалы отношений с допустимой деформацией масштаба и нулевой точкой начала отсчёта, а также допустимы следующие инвариантные преобразования — одновременное изменение значений показателей в и в в определённое число раз не изменяет значения параметра взаимодействия у.

Требование независимости результатов измерения уровней подготовленности двух испытуемых от трудности тестового задания имеет вид:

вa = 1/log Pa = logP. вв 1/log PB log Pa . (А2)

Здесь мы не указали основание логарифма, в данном уравнении оно может быть любым (из области определения).

В отличие от системы Раша, где разность (расстояние) между значениями показателей определяется числом логитов и сравнивать

испытуемых можно в терминах типа «испытуемый А подготовлен на два логита лучше испытуемого В», в альтернативной системе при сравнении значений показателей модели корректно выражаться в относительных терминах типа «испытуемый А в два раза лучше подготовлен к тесту, чем испытуемый В». Выражение в правой части уравнения (А2) также не только не зависит от уровня трудности тестового задания в, но и должно адекватно характеризовать различия в уровнях подготовленности испытуемых.

Сравнения в измерительных системах

Рассмотрим, как в рассматриваемых измерительных системах различаются испытуемые. Начнём с системы Раша. Используем пример1 с прыгунами, комментирующий эти различия.

Пусть два прыгуна А и В преодолевают несколько раз определённую высоту. Моделируем количества удачных и неудачных прыжков в трёх ситуациях. Если в серии прыжков оба прыгуна показали одинаковый результат, т.е. одновременно взяли или не взяли высоту, то такие серии исключаются из рассмотрения. Такие числа «бесполезны для целей сравнения». Обозначим далее через К10 — количество серий, в которых прыгун А взял высоту, а прыгун В — нет, и К01 — наоборот. Количества таких чистых побед К10 и К01 являются «информативными для целей сравнения» в системе Раша, а их отношение отражает степень этого различия

^10 / ^01. Результаты такого сравнения представлены в таблице 1.

Таблица 1 Сравнение в системе Раша

\ Метоодоолооияя \

Статистика Ситуация

I II III

Кол-во чистых побед прыгуна А N10 9 90 54

Кол-во чистых побед прыгуна В N01 1 10 46

Отношения N,0 / N. 9 9 = 1,17

Переход к вероятностям успехов по формуле

N

(1 - Рв )

N01 (1 - РА)

позволяет рассматривать результаты последней строки таблицы как оценку показателей сравнения схемы Раша (Я2).

Приведём краткую характеристику моделируемых ситуаций. В первых двух ситуациях отношение количества чистых побед спортсмена А к количеству чистых побед спортсмена В одинаково и равно 9. В первой и третьей ситуациях разность количества чистых побед спортсмена А и количества чистых побед спортсмена В одинакова и равна 8. В первых двух ситуациях спортсмен А существенно лучше спортсмена В подготовлен к соревнованиям, в третьей ситуации различия в уровнях подготовленности спортсменов не так значимы.

Такая схема сравнения имеет свою логику, но и вызывает вопрос. По этой схеме результат сравнения подготовленности прыгунов определяется только отношением чистых побед и не зави-

1

Маслак А.А. Измерение латентных переменных в социально-экономических системах: теория и практика: Монография. Славянск-на-Кубани: Издательский центр СГПИ, 2007. 424 с.

измерения

сит от доли чистых побед в серии испытаний. Насколько это правомерно? Приведём контраргумент примером с игрой в шахматы. Рассмотрим две ситуации сравнения шахматистов в очном поединке. Если шахматисты будут играть с компьютером, результаты сравнения не изменятся.

В первой ситуации из трёх партий спортсмен А одержал победу 2 раза и потерпел поражение 1 раз. По схеме сравнения Раша спортсмен А в два раза лучше подготовлен спортсмена В. Такие заключения вполне можно принять.

Во второй ситуации из 100 партий количество чистых побед не изменилось, а 97 раз спортсмены разошлись ничьей. По схеме сравнения Раша и в этой ситуации спортсмен А подготовлен в два раза лучше спортсмена В. Но по шахматным правилам, да и, пожалуй, в соответствии со здравым смыслом, ситуация другая. Спортсмены получат соответственно 50,5 и 49,5 баллов, и даже если победа присуждается спортсмену А, уровни их подготовки

во второй ситуации скорее очень близки, нежели существенно различаются.

Проведём сравнения тех же прыгунов по правилу, вытекающему из альтернативной системы (А2). Для этого зафиксируем количества чистых побед прыгунами и восстановим недостающие данные. Такое восстановление потребует информации об общем числе серий испытаний N. Проведём два сравнения: для минимально возможного количества серий N = 200 и для десятикратного увеличения этого количества, для N = 2000 серий. Обозначим через ^ количество серий с удачными прыжками спортсменов, через количество неудачных серий для обоих спортсменов. Корректное решение поставленной задачи о нахождении ^ и приводит к двум вариантам решений. Используем вариант более сильной подготовки спортсменов. Именно он даёт возможность сопоставить рассматриваемые схемы. Результаты такого анализа представлены в таблицах 2 и 3.

Сравнение в альтернативной системе ^ = 200)

Таблица 2

Статистика Ситуация

I II III

Кол-во побед прыгунов А и В 190 90 54

Кол-во неудач прыгунов А и В N>0 0 10 46

Кол-во чистых побед прыгуна А N0 9 90 54

Кол-во чистых побед прыгуна В N,1 1 10 46

Доля побед прыгуна А (N11 + N10)/ N 0,995 0,9 0,54

Доля побед прыгуна В (N11 + N01)/ N 0,955 0,5 0,5

Отношения + ы.)/ы] + ы,)/ы] = 9,2 = 6,6 = 1,12

6 2 ' 20 12

Сравнение в альтернативной системе ^ = 2000)

Таблица 3

Методология

\ Методдологиия \

Статистика Ситуация

I II III

Кол-во побед прыгунов А и В 1990 1900 1899

Кол-во неудач прыгунов А и В 0 0 1

Кол-во чистых побед прыгуна А 9 90 54

Кол-во чистых побед прыгуна В 1 10 46

Доля побед прыгуна А N + N,0)/ N 0,9995 0,995 0,9765

Доля побед прыгуна В N + N0,)/ N 0,9955 0,955 0,9725

Отношения 1ов[ + N )/N ~ 9 = 9 = 1,17

ЬвК^ + N )/N

Первое отличие альтернативной схемы от схемы Раша состоит в том, что здесь при сравнении спортивных достижений прыгунов учитываются доли всех успешных исходов (а не только чистых побед), или в пределе большого числа серий испытаний — вероятности успеха. Например, для спортсмена А:

области хорошего согласия схем сравнения, так и области, приводящие к различающимся оценкам.

Чтобы определить область согласия схем сравнения, достаточно сравнить характерные выражения:

+ N10

N

Св

С =

(1 - Рв)

(1 - Ра ) 1п Рв

1п Р

Эти отличия сказываются и на результатах сравнения. Для достаточно большого числа серий (Таблица 3, N = 2000) результаты сравнения по альтернативной схеме совпадают с результатами схемы Раша. Отношения уровней подготовленности спортсменов не изменились. Для минимального числа серий (Таблица 2, N = 200) результаты несколько отличаются. Во второй ситуации спортсмен А сильнее спортсмена В примерно в 6,6 раз, в отличие от девятикратного преимущества по схеме Раша. Т.е., существуют как

Совершенно очевидно, что при РА = РВ эти выражения совпадают. Другую область согласия можно определить разложением логарифмов. Для значений РА и РВ ,близких к единице, можно получить примерное равенство:

РА (1 - Рв) 1п Рв

(1 - Ра )

1п Р„

Несложно убедиться в этих выводах простым сравнением выражений при РА ~ РВ и при значениях РА и РВ, больших 0,8.

измерения

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На рисунке 1 представлены графики выражений СЕ(РА) и СА(РА) при двух значениях параметра Р . Эти рисунки наглядно демонстрируют результаты

расчета отношений подготовленности двух испытуемых по схеме сравнения Раша (чёрная линия) и по альтернативной схеме сравнения (серая линия).

Рис. 1. Графики двух испытуемых

Анализ схем сравнения испытуемых в различных измерительных системах не только указывает на их качественное подобие, но и даёт некоторое преимущество альтернативной схемы, связанное с привычной логикой «здравого смысла» учёта общей доли удач.

Аксиомы измерительной системы Раша

Иногда заслуги Г. Раша представляют как удачный выбор вида функции ^1). Если учесть, что этот выбор следует из кропотливого перебора большого числа других статистических функций и массовым эмпирическим обоснованием именно этой закономерности, из анализа возможностей, достоинств и недостатков её применения, а под удачей понимать высокую продуктивность построенной на её основе

измерительной системы, то с этим мнением можно согласиться. Действительно, выбор логистической функции в качестве «преобразователя» наблюдаемых данных в значения латентных показателей, отложенных на интервальной шкале логитов, можно трактовать как аксиоматику измерительной системы Раша. И уже исходя из принятых положений, их следствий и результатов интерпретировать значения измеряемых показателей. Примерно в этой логике мы в предыдущем разделе выводили, что различия способностей прыгунов определяются отношением чистых побед.

Но можно идти по этой логике и в обратном порядке — от аксиоматизации различия способностей испытуемых к правилам преобразования наблюдаемых данных в измеряемые значения. Исходным для такого подхода яв-

ляется понятие шанса (odds) некоторого события как отношение числа факторов (интенсивности факторов), благоприятных этому событию, к числу неблагоприятных факторов. Если в качестве благоприятного события рассматривать правильный ответ на тестовое задание, то шанс правильного ответа h можно определить как отношение подготовленности испытуемого B к трудности тесто-

B

вого задания D: h = —.

D

Пока совершенно непонятно содержание понятий, значение величин, обозначенных символами B и D, но именно это и следует определить и использовать как исходные положения для измерительной системы. Однако предварительно следует сделать два важных замечания. Первое. Математическая теория измерений, а именно в этом направлении проводятся данные исследования, не связана с психолого-педагогическими аспектами педагогического тестирования. И в определениях «подготовленности испытуемого» и «трудности тестового задания» не следует ждать психолого-педагогического содержания. И второе. Развёртывание этих понятий проводится не в абсолютных категориях, а в относительных единицах. Их величины определяются относительно себе подобных величин внутри самого теста.

На первый взгляд может показаться, что такой подход теряет объективность, независимость и является только внутренним свойством тестовой системы. Относительно внутреннего свойства

системы это действительно так. Но на этом этапе мы и не ставим цели определить подготовленность испытуемого или трудность задания в универсальных единицах. Мы пытаемся определить только взаимные отношения этих латентных показателей внутри системы1.

Определение И1. Испытуемый А в к раз лучше испытуемого В подготовлен к тестовому зада-

ВА 1

нию, т.е. = к, если отношение Вв

шансов испытуемых правильно выполнить задание равно к:

^ = К

к .

Из определения следует, что отношение подготовленности испытуемых не зависит от трудности тестового задания, действи-

h

BA / D = Ba = k .

кв Вв / в Вв

Определение И2. Тестовое задание А в к раз труднее задания

вА

В, т.е. -= к , если отношение

Вв

шансов правильно выполнить эти задания испытуемым равно 1/к:

h h

1 k

Из определения следует, что отношение трудности заданий не зависит от подготовленности испытуемого, действитель-

h в / D.

D 1

- = — или

h в / D„ D. k

D=k D.

\ Методдологиия \

-1-

Эту мысль можно проиллюстрировать ситуацией из хорошо известного мультфильма, где размеры удава в «попугаях» заметно больше чем в «мартышках». Но даже в этих «эталонах», в этой измерительной системе, точнее, независимо от выбранного эталона, удав всегда и в определённое число раз длиннее слонёнка.

измерения

-1-

Формулы и Я2, выраженные через шанс правильного ответа, имеют более простой вид: Ь - ехр(Ь^), ЬА- Ьв -

- 1п(ЬА/Ьв).

Следствие И1. Одновременное изменение трудности тестового задания и подготовленности испытуемого в & раз не изменит шанс (и вероятность) правильного выполнения этого задания. Действительно, обозна-

чим В2 - &

'В1, Б2 - & •Б1 тогда

= ^ = к^ = ь

Б2 к ■ Б, п .

Следствие Я2. Увеличение трудности тестового задания в & раз эквивалентно уменьшению подготовленности испытуемого тоже в & раз. Доказательство аналогично.

Шанс правильного ответа к связан с вероятностью р отноше-

, Р п

нием: п =-или р =-. От-

1 - Р 1 + п

сюда, вероятность правильного ответа испытуемым с подготовленностью В на тестовое задание труд-

В / Б

ности Б равно: р = -— . Пере-1 + В / Б

ходя к аддитивным переменным, Ь - 1пВ — уровень подготовленности испытуемого и с1 - 1пБ — уровень трудности тестового задания, переходим к известной математической модели Раша И11.

Аксиомы альтернативной измерительной системы

Прежде чем привести аналогичные определения для альтернативной системы измерений, приведём рассуждения, которые к ней привели.

Представим, что учебное задание состоит из некоторых элементарных учебных единиц, усвоение которых и проверяется тестовым

заданием. Определение этих единиц и степень их дискретизации в данном рассуждении не имеют значения. Важно предположить только то, что все они равнозначны с точки зрения вероятности правильного выполнения испытуемым. Пусть испытуемый правильно выполняет одну элементарную единицу с вероятностью и. Тогда задание, содержащее п таких единиц, испытуемый правильно выполнит с вероятностью ип, а сам показатель степени можно рассматривать как характеристику трудности задания.

Поясним на примере. Требуется вычислить: 2 + 2 X 2. Для правильного решения задания испытуемый должен правильно выполнить три учебных действия: определить порядок арифметических действий, выполнить два арифметических действия. Ошибка хотя бы в одном из трёх действий приведёт и к ошибочному результату. Если вероятность правильного выполнения одного элемента равна и, то вероятность правильного выполнения задания из трёх элементов равна u X u X u = Т.е. трудность задания можно связать с числом включённых в него элементарных учебных единиц, и это число входит в показатель степени вероятности правильного выполнения одной такой единицы.

Аналогичные рассуждения можно привести и при сравнении уровня подготовленности испытуемых.

Такие представления о процессе тестирования, с одной стороны, ограничивают область применения разрабатываемой системы сферой педагогических из-

мерений или других областей с подобной логикой выполнения тестовых заданий. С другой стороны, дают основания для более внятной интерпретации результатов тестирования и к возможности проведения прогностических расчётов на основе более глубокого профессионального анализа природы педагогического тестирования. Если использовать терминологию С.А. Айвазяна1, то разработка альтернативного подхода основывается на «моделировании механизма явления», в отличие от «формальной статистической фотографии» в системе Раша.

Приведём исходные определения альтернативной системы измерений. Относительные уровни подготовленности испытуемого обозначаем через в, трудности тестового задания — через в.

Определение А1. Испытуемый А в & раз лучше испытуемого В подготовлен к произвольному

вА ,

тестовому заданию, т.е. — = к ,

если испытуемый А выполнит & заданий с тем же успехом (с той же совместной вероятностью), с каким испытуемый В выполнит только одно задание.

Иными словами, если рА и рв вероятности правильного выполнения некоторого задания испытуемыми А и В, а испытуемый А в & раз подготовлен лучше иск

пытуемого В, то РА = Рв .

Определение А2. Тестовое задание А в & раз труднее задания В,

т.е. в = К, если любой испытуе-в

мый выполнит к заданий трудно-

сти В с тем же успехом (с той же совместной вероятностью), с каким выполнит одно задание трудности А.

Иными словами, если рА и рв вероятности правильного выполнения некоторым испытуемым

заданий А и В, а задание А в к раз к

труднее задания В, то Рв = РА .

Вывод математической модели А1 из этих определений приведён в работе2. Там же даются определения вероятностных показателей уровня подготовленности испытуемого и = 0,51/е и уровня трудности тестового задания V = 0,5е. В вероятностных переменных математическая модель принимает вид:

1оёо,5Р = 1оёо,5и x 1оёо,5у. (А3)

Введение дополнительных вероятностных показателей и и V — не только удобный математический приём. Их введение снимает проблему единых единиц измерения латентных качеств приписывая им естественный в рамках математической теории вероятностный характер. В этом виде все основные переменные математической модели (А3) имеют единую вероятностную «меру», определённую на интервале (0; 1).

Математический закон (А3) также даёт удобную возможность интерпретировать значения показателей в и в как коэффициенты эластичности (чувствительности). Действительно, дифференцируя это равенство по и или V, имеем:

dP в с1ы ~Р = в Т (А4)

Отсюда, в частности, следует, что относительный рост вероят-

-1-

Айвазян С.А, Мхита-рян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТА, 1998.

-2-

Каргин Ю. Построение альтернативной модели педагогических измерений по системе Г. Раша // Педагогические измерения. 2010. № 4. С. 62-71.

измерения

ностного уровня подготовленности испытуемого и на 1% увеличивает относительную вероятность правильного ответа на тестовое задание с уровнем трудности 9 уменьшится на 1/9%.

В заключении подраздела несложно привести очевидные следствия альтернативной модели.

Следствие А1. Одновременное изменение трудности тестового задания и подготовленности испытуемого в к раз не изменит вероятность правильного выполнения этого задания. Действительно, обозначим в2 = в2 = к'в1, тогда

в к-в/ в/, ' = 0,5

= 0,5^ = р .

Следствие А2. Увеличение трудности тестового задания

Р2 = 0,5'

/к-0 _ ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

в к раз эквивалентно уменьшению подготовленности испытуемого тоже в к раз. Действительно, обозначим в2 = к'в1, тогда

вг/ к-в/ в/

Р = 0,5 м = 0,5 = 0,У°2,

где 0г =0/к ■

Графические иллюстрации математических моделей

Сопоставление измерительных систем можно провести и графи-

ческой иллюстрацией математических моделей (Я1) и (А1). Именно эти математические законы играют ключевую роль в преобразовании наблюдаемых значений счёта количества правильных ответов на метрические шкалы той или иной измерительной системы. Приведём графики в интервальной шкале и шкале отношений — рисунки 2 и 3 соответственно, чёрной линией изображена логистическая кривая, серой линией изображена альтернативная кривая. Для корректного сопоставления графиков и демонстрации их в стандартизированном виде в качестве аргументов Х выбраны следующие величины:

— для интервальной шкалы Хк = 1,7(Ь — а) и ХА= 1п(9/Р) = = 1п9 - 1пР;

— для шкалы отношений Хк = ехр(1,7-(Ь — а)) ~ В/Б и Ха= 9/р.

Коэффициент 1,7 в модели Раша приводит логистическую кривую (А1) к нормализованной функции нормального распределения (с нулевым средним значением и единичной дисперсией). В системе измерений Раша такие преобразования исходных данных осуществляются процедурой шкалирования.

Рис. 2. Графики Р(Х) в интервальной шкале

Рис. 3. Графики Р(Х) в шкале отношений

Проведём краткий анализ графиков. Качественно поведение графиков эквивалентно. Графики всегда монотонны, имеют единые области определения, единые асимптоты. В нейтральной точке, когда подготовленности испытуемого совпадают с трудностью тестового задания, вероятность правильного ответа равна 0,5. К качественным различиям можно отнести симметричность логистической кривой относительно линии Х = 0 в интервальной шкале и отсутствие подобной симметрии альтернативной кривой. Есть и некоторые количественные различия, наиболее заметные в области Х ~ 1 логит. Оценим эти различия. Если уровень подготовленности испытуемого Ь больше уровня трудности тестового задания d на один логит (что соответствует отношению 9/р = е ~ ~ 2,72), то вероятности правильного ответа соответственно равны: PR ~ 0,85, РА ~ 0,78.

В измерительной системе Ра-ша графические представления не просто иллюстрируют математическую модель измерительной системы, но и позволяют наглядно сопоставлять результаты обработки тестовых данных. В частно-

сти, графики различных заданий в измерительной системе Раша представляют собой набор т.н. параллельных логистических кривых. Проекция нейтральной точки каждого графика на единую ось логитов даёт уровень трудности каждого задания. В примере, изображённом на рисунке 4, задания а, б и в имеют соответственно уровни трудности 0, - 1 и - 1,5 логит.

\ Методдологиия \

Рис. 4. Графики трёх заданий в системе Раша

В альтернативной системе подобные графики удобно приводить для вероятностных показа-

измерения

-1 -

В данной работе не обсуждаются вопросы применения специализированных вычислительных программ решения задачи педагогических измерений, их достоинства и недостатки.

телей и и V участников теста. На рисунке 5 приведён аналогичный пример с графиками Р(и) для трёх заданий различного уровня трудности. Опорное задание «а» с уровнем трудности V = 0,5 (Р = 1). Задание «б» легче опорного почти в два раза с уровнем трудности V = 0,7 (Р ~ 0,51). Ещё более лёгкое задание «в», легче опорного почти в три раза, с уровнем трудности V = 0,8 (Р ~ 0,32). В зависимости от уровня трудности графики деформированы, но имеют общие граничные точки Р(0) = 0 и Р(1) =1. Уровень трудности каждого задания можно определить по графику как проекцию опорной точки при и = 0,5(9 = =1) на вертикальную ось ожидаемой вероятности правильного ответа Р, т.е. V = Р(0,5). Последнее равенство следует и из самой альтернативной модели.

Рис. 5. Графики трёх заданий в альтернативной системе

На рисунках 4 и 5 представлены графики тестовых заданий

в различных системах измерения, в различных единицах измерения, и непосредственно сравнивать уровни трудности заданий некорректно. Однако для более удобного сопоставления самих рисунков мы подобрали такие уровни трудности тестовых заданий а, б и в, которые дают близкие рассчитываемые доли правильных ответов нейтральным испытуемым. В этом смысле рисунки 4 и 5 демонстрируют единые свойства теста из разных измерительных систем.

Основная задача педагогических измерений:принятые обозначения

Основная задача педагогических измерений состоит в поиске оптимальных оценок показателей подготовленности испытуемых и трудности заданий по наблюдаемым результатам тестирования. Строгое аналитическое решение этой задачи в общем виде для любой из рассматриваемых моделей измерения имеет трудности1.

Сегодня выход из этой ситуации находят в поиске приближённых решений, основанных на тех или иных предположениях, допущениях и затем статистическом обосновании полученных решений.

Рассматривая некоторые простые алгоритмы приближённых решений, будем использовать следующие обозначения:

— X.. = 0; 1 — один из двух возможных вариантов ответа 1-м

испытуемым на |-ое тестовое задание. Матрица этих элементов, состоящая из N строк по количеству испытуемых и М столбцов по количеству тестовых заданий, представляет собой наблюдаемые данные результатов тестирования;

X = М У*

наблюдае-

задания,

мые доли правильных ответов 1-м испытуемым на все тестовые

X = — 'У X — наблюдаемые доли правильных ответов всеми испытуемыми на |-ое тестовое задание, X ■ =—1— У X„ = ■ N ■ му "

=—У X. =—У X. — наблюдае-

N. ' Му и

мая доля правильных ответов всей группы испытуемых на весь набор тестовых заданий (0 < Х < < 1). Эти результаты получаются счётом и усреднением значений элементов матрицы наблюдаемых данных. Значение общей доли правильных ответов Х является основной лаконичной характеристикой наблюдаемых результатов тестирования. Если Х ~ 0,5, то уровень трудности набора тестовых заданий соответствует подготовленности группы испытуемых. При Х близких к значению 1, когда группа испытуемых правильно отвечает на большинство тестовых заданий, можно говорить о несоответствии набора тестовых заданий контролируемой группе учащихся, о низком уровне трудности используемого набора тестовых заданий. При Х ~ 0 наоборот, только малая доля заданий выполнена правильно, уровень

трудности набора тестовых заданий несоразмерно высок для данной группы испытуемых;

— 0 < Р < 1 — ожидаемые (рассчитываемые) в соответствии с выбранной математической моделью вероятности правильного ответа 1-м испытуемым на |-е тестовое задание. Математические модели (Я1) и (А1) задают правила преобразования наблюдаемых данных в искомые оценки на измерительной шкале, задают метрические свойства измерительной системы;

р =—У р

■ му ■

ожидаемые

оценки доли правильных ответов 1-м испытуемым на все тестовые

задания

, р = - У р

и N , ■

— ожидае-

мые оценки доли правильных ответов всеми испытуемыми на |-е тестовое задание,

р=—У р=■

N ■ МУ 4

=17 У р=М Ур

— ожидаемая

оценка доли правильных ответов всей группы испытуемых на весь набор тестовых заданий.

Чем ближе рассчитываемые в рамках математической модели оценки Р к наблюдаемым значениям Х, тем точнее принятая математическая модель описывает результаты тестирования. Эту мысль можно приложить и к точечным показателям Р. ~ X.., к их ч ч

групповым усреднениям Р. ~ X. и Р| ~ Х|, так и общим показателям усреднения по всем участникам теста Р ~ X. Фактически

\ Методдологиия \

измерения

в этом высказывании заложены и направления в поиске методов решения задачи педагогических измерений и направления в выборе критериев оптимальности полученных оценок.

Для дальнейшего обсуждения приближённых методов решения задачи удобно ввести основное наблюдаемое значение параметра взаимодействия латентных показателей. Это то значение единственного параметра модели, около которого группируются комбинации взаимодействующих наборов латентных пар Ь и а или в и р. Это то значение параметра модели g или у, для которого ожидаемая вероятность правильного ответа Р равна наблюдаемой общей доле правильных ответов Х.

Для модели Раша (Я1) это значение рассчитывается по формуле

1 Х 0 1 - х . (Я3)

Значение этого показателя даёт ответ на вопрос, на сколько логитов в среднем уровень подготовленности группы испытуемых выше уровня трудности набора тестовых заданий. Если g0 ~ 0, то набор тестовых заданий соответствует группе испытуемых по среднему уровню трудности. Если g0 < -0,5 логит, когда испытуемые правильно отвечают менее чем на 38% тестовых заданий, то трудность набора тестовых заданий завышена для данной группы испытуемых. Для g0 > 0,5, наоборот, набор тестовых заданий достаточно лёгкий для выполнения данной группой испытуемых.

Для альтернативной модели (А1) этот показатель рассчитыва-

ется по формуле: У0 = 1/1о^Х, (А5) а его значение показывает, во сколько раз в среднем уровень подготовленности группы испытуемых выше уровня трудности набора тестовых заданий. Для у0 < л/2/2 ~ 0,7, когда испытуемые правильно отвечают менее чем на 38% тестовых заданий, трудность набора тестовых заданий заметно завышена, а для у0 > л/2/2 и 1,41 занижена для данной группы испытуемых.

Исходные решения задачи педагогических измерений

Как и прежде, поиск приближённых решений будем проводить в сопоставлении измерительных систем Раша и альтернативной.

В измерительной системе Ра-ша искомые показатели уровней подготовленности испытуемого Ь и трудности тестового задания а входят в систему измерения в виде разности g = Ь - а, и ожидаемые оценки доли правильных ответов определяются только значениями этой разности (Я1). Для начальной оценки уровня подготовленности испытуемых предполагается, что все тестовые задания имеют нейтральный (нулевой) уровень трудности а = 0. Тогда по долям правильных ответов .-м испытуемым на все задания теста Х. из приближённого урав-

^ п ехРЬ -нения X- ~ р =-1—-— и опре-

1+ехр Ь ,

деляются начальные (исходные) значения уровней подготовленности испытуемых как логарифмы соответствующих потенциалов:

Ь «1п

X

—!—. Аналогично пред-1 - X,. Р

полагается, что все испытуемые

имеют нейтральный (нулевой)

уровень подготовленности Ь = 0,

рассчитываются и начальные

уровни трудности _|'-х тестовых за-

1 - X1

даний: ~ 1п-.

Х1

В альтернативной системе измерений, как и в системе Раша, для начальной оценки уровня подготовленности испытуемых предполагается, что все тестовые задания имеют единичный (опорный) уровень трудности в = 1. Если Х — доли правильных ответов 1-м испытуемым на все задания теста, то из приближённого урав-1/

нения X, = р = 0, у 0 = ы1 следует, что начальной оценкой вероятностного показателя уровня подготовленности испытуемого является наблюдаемая доля правильных ответов. Аналогично: при в = 1 начальными оценками вероятностного показателя уровня трудности тестового задания являются доли правильных ответов

всеми испытуемыми V.

: X Пере-

Таблица тестовых данных

ход к относительным показателям осуществляется по формулам: в, = 1/10^ и; р} = log0,5 V.. (А6) Этот этап достаточно распространён и в педагогической практике. Иногда учителя, минимизируя усилия на расчётную часть, для оценивания знаний своих учеников опираются непосредственно на подсчитанные доли правильных ответов Х.. В этом случае они фактически опираются на начальные оценки и альтернативной измерительной системы и (скорее неосмысленно) предполагают, что используемый набор тестовых заданий в среднем имеет нейтральный уровень трудности. Если на этом этапе перейти по правилам (А6) к относительным показателям в,, то можно получить дополнительную и более конкретизированную информацию об отношении уровней подготовленности испытуемых.

Продемонстрируем алгоритм поиска исходных решений на небольшом примере. Пусть задана таблица наблюдаемых результатов тестирования N = 8 испытуемых по набору из М = 10 тестовых заданий (таблица 4).

Таблица 4

Методология

\ Методдологиия \

Задания Доли Х1

1 2 3 4 5 6 7 8 9 10

1 1 1 1 1 0 1 1 0 1 0 0,70

2 1 1 0 1 1 0 1 0 0 0 0,50

3 о 3 1 1 1 1 1 0 0 0 0 0 0,50

4 1 0 1 0 1 1 0 0 0 0 0,40

5 1 1 0 0 0 0 1 0 1 0,40

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

о N 6 1 1 1 0 0 0 0 0 0 0 0,30

7 1 1 0 0 0 0 0 0 0 0 0,20

8 1 0 0 0 0 0 0 0 0 0 0,10

Доли Х) 0,875 0,750 0,625 0,375 0,375 0,250 0,250 0,125 0,125 0,125 Х=0,3875

измерения

Первый результат можно привести для всей таблицы по наблюдаемой общей доле правильных ответов Х. Из (И3) и (А5) имеем следующие оценки значения основного параметра взаимодействия латентных качеств g0 ~ -0,459; уд ~ -0,731. Отсюда, по системе Раша, имеем завышенный уровень (на 0,459 ло-гит) трудности набора тестовых заданий для данной группы испытуемых. В альтернативной системе этот вывод обосновывается другими расчётами, и сам вывод делается в относительных единицах. Для данной группы испытуемых уровень трудности набора тестовых заданий завы-

шен примерно в 1/0,731 ~ 1,37 раза.

По приведённым выше расчётным формулам несложно получить исходные оценки Ь и d в системе Раша, и, в и V, в — в альтернативной системе. В таблицах 5 и 6 приведены результаты таких расчётов. В последних столбцах приведены средние арифметические значения для показателей Ь и d в интервальной шкале ло-гитов; средние арифметические значения вероятностных показателей подготовленности испытуемых и и V; средние геометрические значения для относительных показателей подготовленности в и в в шкале отношений.

Таблица 5

Результаты оценивания испытуемых (исходные оценки)

Показатели Испытуемые Средние значения

1 2 3 4 5 6 7 8

** II 0,847 0 0 -0,405 -0,405 -0,847 -1,386 -2,197 -0,549

А: ы,. = X,. 0,7 0,5 0,5 0,4 0,4 0,3 0,2 0,1 0,3875

в,= 1/1ов0,5 X , 1,943 1 1 0,756 0,756 0,576 0,431 0,301 0,733

Таблица 6

Результаты оценивания заданий (исходные оценки)

Показатели Тестовые задания Средние значения

1 2 3 4 5 6 7 8 9 10

1 - X, а, = 1п 1 1 -1,95 -1,10 -0,51 0,51 0,51 1,10 1,10 1,95 1,95 1,95 0,550

А: = х1 0,88 0,75 0,63 0,38 0,38 0,25 0,25 0,13 0,13 0,13 0,3875

в] = 1ово,5 х} 0,19 0,42 0,68 1,42 1,42 2 2 3 3 3 1,279

Полученные исходные оценки явно противоречат принятым для их расчёта исходным поло-

жениям. Действительно, изначально предполагая нейтральные уровни латентных показателей,

даже средние значения исходных оценок существенно отличаются от этих предположений. В нашем примере средний уровень подготовленности группы испытуемых более чем на 0,5 логита ниже нейтрального уровня для схемы Ра-ша и примерно в 1/0,733 ~ 1,36 раза ниже нейтральной единицы альтернативной схемы. Подобные существенные отклонения присутствуют и в оценках заданий. И очень ошибочны будут, казалось бы, очевидные выводы: в среднем уровень набора тестовых заданий примерно на 0,550 - (-0,549) ~ 1,1 логит завышен для данной группы испытуемых по системе Раша и примерно в 1,275/0,733 ~ 1,74 раза по альтернативной шкале отношений. На самом деле такие выводы преувеличены в два раза. Эти очевидные противоречия нивелируются лишь в том случае, когда в среднем уровень трудности набора тестовых заданий близок к уровню подготовленности испытуемых.

Попытаемся снять это ограничение о равенстве средних уровней и привести решения в большее соответствие с исходными положениями в следующем подразделе.

Первое приближение решения задачи педагогических измерений корректировкой средних оценок. Понятие системы отсчёта

Идея первого приближения состоит в «смещении» одного из исходных положений к наблюдаемой общей доле правильных вид XJ ~ Р] = у ответов Х, которое удобно прово-

дить введением понятия «система отсчёта». В основе этого метода решения служат допустимые инвариантные преобразования.

Понятие системы отсчёта обсуждалось в работе1. Здесь же первое приближение решения задачи ПИ для альтернативной системы измерений обозначается как элементарный метод. В данной работе в качестве примера будем отталкиваться лишь от системы отсчёта «нейтральный набор тестовых заданий».

Напомним, в схеме Раша исходные оценки получены из двух предположений — все уровни а и Ь нейтральные. Для оценки уровня подготовленности испытуемых в первом приближении первое предположение не меняем и считаем, что все тестовые задания имеют нейтральный (нулевой) уровень трудности а = 0. Это предположение фактически определяет выбор системы отсчёта с нейтральным набором тестовых заданий. Тогда имеем следующие оценки уровней подготовленности испытуемых:

X

Ь1 ~ 1п-'—. Предположим, что

1 - Xi

все испытуемые имеют такой уровень подготовленности, при котором они правильно отвечают на нейтральное тестовое задание с вероятностью равной общей доли правильных ответов Х. С учётом определения (Я3) уровень подготовленности этих испытуемых равен g0.

Тогда закон (Я1) принимает

ехр( ^ - <11) + ехР( go - <1)

- 1 -

Каргин Ю. Элементарное решение основной задачи педагогических измерений // Педагогические измерения. 2011. № 4. С. 50-67.

измерения

торого находим расчётную фор- татов теста о сниженном уровне мулу для оценки уровней труд- подготовленности испытуемых ности тестовых заданий в первом примерно на 0,5 логит относи-

1 - X

приближении: й. ~ 1п—-— X ■

тельно набора заданий справед-Яо. лив.

Среднее значение уровня В этой системе отсчёта оценки трудности набора тестовых зада-уровней подготовленности испы- ний не противоречит исходному туемых не изменяются (таблица предположению — значение сред-5), определяются только инди- него уровня трудности тестовых видуальной долей правильных заданий приближается к ней-ответов на все тестовые задания. тральному (таблица 7, последний Первый вывод анализа резуль- столбец в строке И).

Результаты оценивания заданий (нейтральный набор тестовых заданий)

Таблица 7

Показатели Тестовые задания Средние значения

1 2 3 4 5 6 7 8 9 10

И: 1-X, =1п „ + Яо -2,40 -1,56 -1,97 0,05 0,05 0,64 0,64 1,49 1,49 1,49 0,092

А: ^ = X,' 0,91 0,81 0,71 0,49 0,49 0,36 0,36 0,22 0,22 0,22 0,478

в = Уо • 1о8о,5 XJ 0,14 0,30 0,50 1,03 1,03 1,46 1,46 2,19 2,19 2,19 0,935

Без фактически дублирующих комментариев приведём расчётные формулы решения основной задачи ПИ в первом приближении относительно системы отсчёта «нейтральная группа

1 , X,. испытуемых»: о,. = 1п-

1 - X,. й: ~ 1п-

1 - X,.

X,.

Первое приближение в альтернативной системе измерений строится аналогично. В системе отсчёта с нейтральным набором тестовых заданий сначала предполагаем, что все тестовые задания имеют единичный уровень трудности в = 1. Тогда имеем следующие, совпадающие с исход-

ными, расчётные формулы для оценки уровней подготовленности испытуемых — и. ~ X. и в. ~ 1/

^ III'

^05Х. Предполагая далее, что все испытуемые имеют такой уровень подготовленности, при котором они правильно отвечают на нейтральное тестовое задание с вероятностью, равной общей доле правильных ответов Х, определяем уровень их подготовленности У0 ^5).

Тогда закон (А1) принимает

вид X, ~ Р. = 0,5 /Го из которого находим расчётные формулы для оценки уровней трудности тестовых заданий в пер-

вом приближении: V ) ~ X,

и

в - То • 1°§0,5 XI (таблица 7, строки А). Нетрудно убедиться в том, что в среднем полученные оценки не противоречат исходным предположениям.

Для системы отсчёта с нейтральной группой испытуемых расчётные формулы имеют вид: для вероятностных показателей — и { - Xf0, - XJ и для относительных показа-тел ей — 0{~ 1//о 1°ё0 5 X1 и

в - 1°§0,5 XJ .

Следует отметить, что переходы от одной системы отсчёта к другой не изменяют метрических свойств решений, а лишь дают основания для интерпретации результатов.

Первое приближение решения задачи ПИ обладает рядом достоинств. Первое. Оно снимает одно из основных ограничений к свойствам участников теста — примерное равенство среднего уровня трудности набора тестовых заданий уровню подготовленности группы испытуемых. Второе. Это решение с вычислительной стороны лишь незначительно сложнее исходного и легко находится вручную. Корректировка исходного решения слагаемым g0 в системе Раша и множителем у0 в альтернативной системе приводит к взаимному соответствию измерительные шкалы латентных показателей. И, наконец, третье. Выбор исследователем системы отсчёта, относительно которой строится решение, создаёт дополнительные возможности для внятной интерпретации результатов тестирования.

Второе приближение решения задачи педагогических измерений корректировкой средних оценок и их рассеяния. Качество решений

Если первое приближение решения основной задачи педагогических измерений направлено на разработку вычислительных алгоритмов оценки значений латентных показателей с контролем только средних значений, то второе приближение призвано уточнить его учётом распределений этих показателей. Удачным примером такого решения в системе Раша является алгоритм РИОХ1. Здесь, основываясь на предположении, что уровни подготовленности испытуемых и трудности заданий распределены по двух-параметрическому нормальному закону, исходные оценки согласованно преобразуются к стандартизированному виду. Эти более жёсткие требования к распределениям участников теста, с одной стороны, ограничивают область эффективного применения алгоритма, с другой стороны — приводят к заметному повышению качества обработки результатов тестирования при условии их выполнения.

Примером поиска решений задачи ПИ с учётом распределений искомых показателей в альтернативной схеме является предложенный в работе2 аналитический метод. В основе этого метода лежит возможность аналитического решения задачи с описанием распределения искомых показателей двухпараметрической фун-

\ Методдологиия \

- 1 -

Wright B.D., Stone M.H. Measurement Essentials. (Глава 16);

Деменчёнок О. Реализация алгоритма PROX в MS EXCEL // Педагогические измерения. 2008. № 3. С. 64-71.

- 2 -

Каргин Ю. Аналитический метод решения основной задачи педагогических измерений // Педагогические измерения. 2011. № 2. С. 54-76.

измерения

кцией распределения (бета рас- тического метода, мы приняли

пределение).

следующий закон распределения

В таблицах 8 и 9 приведены ре- р(т = 0,484; п = 1) для вероят-зультаты таких расчётов для рас- ностного показателя трудности сматриваемого в работе примера. тестовых заданий V. Учитывая рекомендации анали-

Таблица 8

Результаты оценивания испытуемых (второе приближение)

Показатели Испытуемые Средние значения

1 2 3 4 5 6 7 8

R: b. 1,755 0,550 0,550 -0,027 -0,027 -0,655 -1,422 -2,575 -0,231

А: и, = 0,5^ 0,866 0,715 0,715 0,604 0,604 0,457 0,261 0,049 0,534

4 = ' m • (1 -X,) 4,818 2,065 2,065 1,377 1,377 0,885 0,516 0,229 1,192

Таблица 9

Результаты оценивания заданий (второе приближение)

Показатели Тестовые задания Средние

1 2 3 4 5 6 7 8 9 10 значения

R: d. -2,98 -1,92 -1,19 0,09 0,09 0,83 0,83 1,89 1,89 1,89 0,139

v, = оУ-< 0,91 0,79 0,66 0,31 0,31 0,13 0,13 0,01 0,01 0,01 0,326

А: и X X 0,14 0,33 0,60 1,67 1,67 3 3 7 7 7 1,733

-1-

Wright B.D., Stone M.H. Measurement Essentials.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(Глава 18).

-2-

Деменчёнок О. Подбор параметров модели педагогических измерений // Педагогические измерения. 2008. № 1. С. 27-48.

22

Вычислительные процедуры второго приближения ещё более усложняются, по сравнению с первым приближением, но остаются ручными и прозрачными для исследователя. В этом смысле они удобны. Однако, важен и другой вопрос — вопрос качества решений.

Эту задачу для измерительной системы Раша на примере из цитируемой выше работы Б. Райта и М. Стоуна1 рассматривал О. Деменчёнок2. В подразделе «Анализ качества моделей» им проведены оценки показателей качества мо-

2 ' 20 12

делей по четырём независимым критериям и для нескольких методов расчёта параметров модели педагогических измерений. В частности, по его расчётам, метод РЯОХ улучшает качества решений от двух до более десяти процентов, исходя из выбранного критерия оценки этого качества. Проведём и мы подобный анализ качества полученных выше решений, выбрав в качестве критерия другой вариант.

В основу метода оценки качества полученных решений положим приближённые равенства:

Р ~ X и Р. ~ X.. Чем точнее выполняются эти равенства, т.е. чем ближе рассчитанные на основе полученных решений оценки долей правильных ответов каждым испытуемым на все задания теста Р. и всеми испытуемыми на каждое задание теста Р) наблюдаемым долям X. и X-, тем выше качество полученных решений. Точность выполнения этих приближённых равенств можно оценить значениями и надёжностью коэффициентов линейной регрессии к1 и к2 уравнений: Р. = к1 • X. и

' Ч

коэффициенты детерминации Я2 (мера адекватности уравнения регрессии) к единице, тем качественней построена параметрическая модель. При желании не сложно оценить и достоверность значений коэффициентов к и к . В пределе, при равенстве

V 1 I! 1^2 J J^tiUliUllllH. ±. 1

P = к2 • X. Чем ближе коэффи-

единицы коэффициентов регрессии и коэффициентов детерминации, приближённые равенства преобразуются в точные P ~ X

и P ~ X. ' '

) 1

Необходимые расчёты оценки качества решений несложно провести в среде табличного процессора Microsoft Excel. Первый шаг состоит в построении точечного графика Р(Х), который сам по себе достаточно наглядно отражает качество полученных решений. Затем по построенному ряду данных следует добавить линейную линию тренда с параметрами: пересечение кривой с осью Y в точке 0; показывать уравнение на диаграмме; поместить на диаграмму величину достоверности аппроксимации (R 2).

В таблице 10 приведены результаты таких расчётов для построенных в данной работе решений.

Показатели качества решений

Таблица 10

\ Методдологиия \

Метод расчёта Система Раша Альтернативная система

k, R,2 k, R 2 ц R.2 k2 R 2 2

Начальное приближение 0,792 0,980 0,827 0,992 0,806 0,966 0,856 0,981

Первое приближение 0,955 0,936 0,966 0,994 0,983 0,926 0,992 0,991

Второе приближение 1,102 0,986 1,083 0,983 0,978 0,995 1,022 0,989

Заметное повышение качества решений при переходе от начального к первому приближению для рассматриваемого примера вполне предсказуемо. Это следует из описанных выше противоречий в предположениях начального приближения, существенно проявляющихся с ростом различия в средних уровнях подготовленности группы испытуемых и труд-

ности набора заданий. Достаточно высокие показатели качества решений первого приближения, достаточно простые алгоритмы их построения и внятная интерпретация самих решений позволяют рекомендовать именно этот подход к широкому применению в педагогической практике.

Если обратиться к показателям качества решений второго

измерения

приближения, то следует отметить, что алгоритм РЯОХ не дал ожидаемого положительного эффекта. Более того, первое приближение может даже более удачное. Такой результат легко объясняется тем фактом, что распределения участников теста достаточно далеки от нормального. Т.е. сами исходные предположения применения алгоритма РЯОХ для рассматриваемого набора тестовых данных не выполняются. Если второе приближение альтернативной системы и даёт некоторый положительный результат, что отражается повышением коэффициентов детерминации, то и этот эффект связан только с тем, на сколько удачно выбрана функция распределения р(т; п).

Продолжая сопоставление измерительных систем, есть все основания утверждать о целесообразности проведения педагогических измерений в шкале отношений и в проблеме методов построения решений.

Некоторые особенности проведения педагогических измерений метрических шкалах

Отличительным признаком метрической шкалы является возможность установить единицу измерения. Обычно единицы измерения задаются исследователем, это условно принятые меры, в их выборе присутствует произвол. Иногда единицы измерения связывают с именем учёного (например, единицы измерения температуры — градус Цельсия и градус Кельвина), иногда они принимаются из соображений удобства

или совместного соглашения (например, единица измерения длины — метр, принятый эталон, примерная длина шага взрослого человека).

Другим признаком, уже различающим метрические шкалы на интервальную или пропорциональную, является существование естественного нулевого начала отсчёта. В интервальной шкале такой точки нет, и исследователь её должен сам определять; в пропорциональной шкале она есть и существует независимо от исследователя. Например, в интервальной шкале Цельсия нулевым началом отсчёта температур принята температура таяния льда. Эта температура не означает отсутствие у тела тепла или температуры. Это значение условное, оно не уникальное, оно лишь приписывается к температуре перехода «вода — лёд» привычного для человека вещества. В пропорциональной шкале Кельвина нулевое начало отсчёта задано естественным образом. В этой шкале существует точка абсолютного нуля температуры. Это такое недостижимое состояние вещества, при котором должно прекратиться всякое хаотическое движение молекул вещества.

Существование произвола в метрических шкалах проявляется и в допустимых правилах преобразований, которые не нарушают структуру шкалы. Для интервальной шкалы они сводятся к допустимым линейным преобразованиям (сдвиг и деформация или прибавление числа и умножение на число), для измерений в шкале отношений к преобразованию по-

добия (деформация, умножение на число).

Примером преобразований в интервальной шкале может служить правила преобразования значения температуры тела измеренного в шкале Цельсия в шкалу Фаренгейта, состоящие в умножении исходной цифры на 9/5 и прибавлении числа 32. Т.е. единица измерения в шкале Цельсия в 1,8 раза «шире», а нулевая точка в шкале Цельсия соответствует 32 градусам Фаренгейта. На бытовом уровне этой шкалой пользуются в США, и никаких неудобств при этом никто не испытывает, дело только в привычке.

В качестве примера преобразования результатов измерений в шкале отношений можно привести перевод значения массы тела, измеренного в килограммах, в фунты умножением исходного значения на число = 0,49. Т.е. единица измерения килограмм примерно в 2 раза «тяжелее» фунта.

В педагогических измерениях примером интервальной шкалы служит шкала логитов измерительной системы Раша. В этой системе единица измерения и нулевая точка отсчёта определяются по результатам обработки тестовых данных и не являются уникальными. Возможность проводить допустимые преобразования с измерениями в шкале логитов используются, в частности, при оптимизации исходных решений методом РЯОХ.

В альтернативную систему заложена пропорциональная шкала измерения относительных показателей с естественным нулём. Единица измерения, как и в си-

стеме Раша, определяется в процессе обработки наблюдаемых результатов теста и связывается с опорным участником теста, а допустимые преобразования деформации масштаба лежат в основе элементарного метода поиска решения задачи ПИ.

Свойства измерительной шкалы не ограничиваются её формальными метрическими характеристиками. С практической точки зрения важно убедиться в выполнении и понять смысл ещё одного важного свойства метрической шкалы — свойства равенства интервалов или отношений между измеряемыми величинами. Поясним это свойство на примере. Пусть первое тело нагрелось от 100С до 110С, а второе — от 200С до 210С. Одинаково ли нагрелись эти тела, одинаково ли они стали теплее? Предполагается что да, каждое из них стало теплее на одну сотую часть разности температур кипящей и замерзающей воды.

Подобные рассуждения справедливы и в пропорциональной шкале Кельвина. Нагревая первое тело с 10 К до 20 К, мы действительно в два раза его нагреваем. Этот вывод не изменится и при нагреве второго тела с любой начальной температуры, например от 100 К до 200 К. В обоих случаях средняя кинетическая энергия движения молекул увеличится в два раза.

Рассмотрим, как выполняются эти свойства в педагогических измерениях. Интервальная шкала логитов — статистическая шкала, градуированная по логистической функции, очень близкой к фун-

измерения

кции равномерного распределения. Факт расположения эмпирических точек подготовленности испытуемых вдоль нормальной кривой можно отнести к следствию предельной теоремы Ляпунова (действительно, можно считать, что случайная величина «уровень подготовленности испытуемого» формируется под влиянием множества случайных факторов).

Отметим, что подобием шкале логитов является широко известная шкала стенов Р.Б. Кеттела с единичным интервалом в 0,5 стандартного отклонения. Содержательная интерпретация свойства равенства интервалов в таких шкалах весьма затруднительна. Приведём пример. Пусть первый испытуемый повысил уровень своей подготовленности с 0 до 1 логита, а второй — с 3 логитов до 4 логитов. В этом случае вероятность правильного ответа на нейтральное задание увеличится для первого испытуемого на 0,23 (с 0,5 до 0,73), а для второго испытуемого — на 0,03 (с 0,95 до 0,98). Одинаково ли эти испытуемые повысили свой уровень подготовленности? Ответ «да», если исходить из формального определения «уровень подготовленности», и скорее «нет», если опереться на мнение педагога-практика.

В пропорциональной шкале измерения относительных показателей уровня подготовленности испытуемых и уровня трудности заданий содержание свойства равенства отношений интерпретируется достаточно наглядно. Если первый и второй испытуемые повысили свой уровень подготовленности в два раза, то это

означает, что теперь каждый из них с прежней совместной вероятностью правильно выполнит в два раза больше тестовых заданий. И не важно, на каком начальном уровне подготовки находились испытуемые.

И в заключение отметим: пропорциональная шкала более совершенная хотя бы потому, что её можно использовать как интервальную. Обратный переход если и возможен, то он потребует дополнительных обоснований. Другое дело, насколько удобно использовать интервальные единицы в шкале отношений. Приведём пример применения интервальных единиц к измерениям массы тел (в пропорциональной шкале). Если один пакет с яблоками тяжелее другого на килограмм, то содержание этой информации вполне понятно и может быть актуальным. Если один грузовик тяжелее другого на один килограмм, то эта информация совершенно не актуальна, даже если точность проведённых измерений позволяет делать такой вывод.

Однако если один пакет с яблоками тяжелее другого в два раза и один автомобиль тяжелее другого в два раза, то эти результаты измерений информативны и актуальны. Т.е. применение интервальных единиц в пропорционально шкале весьма ограничено, оно может быть целесообразным только в том случае, когда совокупность измеренных параметров находится в весьма ограниченной области, когда расстояние между измеренными величинами сопоставимо со значениями этих величин.

Педагогические измерения в шкале отношений Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Каргин Юрий

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Каргин Юрий

Текст научной работы на тему «Педагогические измерения в шкале отношений»