Научная статья на тему 'Модели тестирования знаний и методы оценки надежности полученных результатов'

Модели тестирования знаний и методы оценки надежности полученных результатов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
366
49
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕСТИРОВАНИЕ ЗНАНИЙ / KNOWLEDGE TESTING / МОДЕЛЬ ТЕСТА / TEST MODEL / КОЭФФИЦИЕНТ НАДЕЖНОСТИ / RELIABILITY COEFFICIENT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Чередниченко О.Ю., Ершова С.И., Янголенко О.В., Запорожец Т.Н.

Приведен сравнительный анализ существующих статистических методов оценки знаний. Рассмотрены различные модели тестов. Проанализированы основные методы и способы оценки надежности результатов тестированияThe comparative analysis of existing statistical methods of knowledge estimation is given. Different test models are considered. The basic methods and ways of test reliability estimation are analyzed

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модели тестирования знаний и методы оценки надежности полученных результатов»

УДК 001.891:65.011.56

МОДЕЛИ ТЕСТИРОВАНИЯ ЗНАНИЙ И МЕТОДЫ ОЦЕНКИ НАДЕЖНОСТИ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ

Наведено nopie^MbHuû aHaMÏ3 icную-чих статистичних Memodie оцшювання знань. Рoзглянуmi pi3Hi ModeMÏ mecmie. npoaHaMÏ3oeam основт методи та спосо-би ощнки надiйнocmiрeзульmаmiв тесту-вання

Ключoвi слова: тестування знань, модель тесту, коефщент надiйнocmi

Приведен сравнительный анализ существующих статистических методов оценки знаний. Рассмотрены различные модели тестов. Проанализированы основные методы и способы оценки надежности результатов тестирования Ключевые слова: тестирование знаний, модель теста, коэффициент надежности

The comparative analysis of existing statistical methods of knowledge estimation is given. Different test models are considered. The basic methods and ways of test reliability estimation are analyzed

Keywords: knowledge testing, test model, reliability coefficient

Введение

На сегодняшний день все высшие учебные заведения Украины вовлечены в процесс реформирования системы образования и приведения ее к европейским стандартам. На этом фоне растет роль педагогического контроля, который имеет целью выявление и оценивание результатов учебной деятельности студентов.

В отличие от традиционных субъективных оценок, выставляемых преподавателями (в 5-тибаль-ной, 12-тибальной шкале или от А до F), тестирование позволяет получить объективный результат измерения. Педагогическое измерение предполагает количественное сопоставление оцениваемых знаний, умений и навыков студента с некоторым эталоном этих свойств с помощью контрольных заданий по проверяемому содержанию предметной области. Тестирование дает возможность статистически анализировать результаты образования учащихся.

Актуальность тестирования обусловлена его преимуществами перед другими методами педагогического контроля. Помимо объективности измерения качества учебных достижений, речь идет и о точности измерений, наличии единых требований для всех студентов, совместимости тестирования

О.Ю. Чередниченко

Кандидат технических наук, доцент* Контактный тел.: (057) 707-64-74 Е-mail: marxx75@mail.ru С.И. Ершова Старший преподаватель* Контактный тел.: (057) 707-64-74 Е-mail: esi@kpi.kharkov.ua О.В. Янголенко Аспирантка* Контактный тел.: 098-438-11-14 Е-mail: olga_ya26@mail.ru Т.Н. Запорожец* Контактный тел.: 095-702-91-03 Е-mail: tatysya110589@mail.ru *Кафедра автоматизированных систем управления Национальный технический университет «Харьковский

политехнический институт» ул. Фрунзе, 21, г. Харьков, Украина, 61002

с другими современными образовательными технологиями, например, дистанционным образованием.

В основе моделирования и параметризации процесса тестирования лежит множество математических методов, основные из которых: теория вероятности, математическая статистика, дисперсионный и регрессионный анализ. Типичные задачи оценки знаний методом тестирования, их формализованное описание и классификация даны в работах Дж. Раша [1], А. Бирнбаума, Дж. Мастерса [2], B.C. Аванесова [3-5], М.Б. Челышковой [6], А.Н. Майорова [7], А.А. Маслака [8], Ю.М. Неймана и В.А. Хлебникова [9].

Целью данного исследования является системный анализ существующих моделей тестирования и методов оценки надежности тестов.

Как показал анализ, теоретическую основу для создания и использования тестов составляют две теории: классическая теория тестов (Classical Test Theory - СТТ) [6, 10] и современная теория измерений (Item Response Theory - IRT) [1]. Эти теории научно обосновывают способность теста быть измерительным инструментом качества подготовки учащихся, предоставляя математический аппарат для статистической обработки результатов тестирования.

у5

Модели классической теории тестов (СТТ)

Классическая теория тестов основывается на следующих базовых предположениях [10]:

1) + £ ;

2) £.) = 0;

3) Е(е,) = 0;

4) Var(Y1) = Var(тi) + Var(el);

с. _ , . Var(ei) Var(тi)

5) Яе1 = 1--или Яе1 =-.

Var(Yi) Var(Yi)

Предположение 1 утверждает, что эмпирически полученный результат измерения ( ^ ) представляет собой сумму истинного результата измерения ( т1 ) и ошибки измерения ( £ ). Величины т1 £ и обычно неизвестны. Из предположения 4 о том, что дисперсия полученных тестовых баллов равна сумме дисперсий истинных и ошибочных компонентов, вытекает предположение 5 об оценке надежности теста.

Надежность представляет собой важнейшую характеристику теста. Надежность отражает точность тестовых измерений и устойчивость тестовых результатов к действию случайных факторов [6]. Высокая надежность означает высокую повторяемость результатов тестирования в одинаковых условиях.

Чтобы определить надежность теста с помощью эмпирически оцененных параметров, основные постулаты должны быть дополнены предположениями, определяющими модель оценивания. Наиболее важными предположениями согласно [10] являются:

6) т-эквивалентность: т1 = т. ;

7) существенная т -эквивалентность: т1 = т. + А,., А^еЯ ;

8) т-однородность: т1 = Х . + А1Г1т., А,и0, А. > 0;

9) некоррелированные ошибки: Cov(ei,£j) = 0, 1Ф j;

10) равные дисперсии ошибок: Var(£i) = Var(£j) .

Предположения 1 и 2 разными путями устанавливают то, что два теста измеряют одну и ту же область знаний. Это предположение является чрезвычайно важным для того, чтобы сделать вывод о степени надежности из различий между двумя измерениями знаний в одной и той же предметной области одного человека.

Предположение 1 подразумевает идеальную идентичность двух переменных истинных результатов. Предположение 2 позволяет двум истинным результатам отличаться на значение положительной константы. Согласно предположению 3 два теста измеряют знания в одной и той же области, устанавливая, что между истинными результатами есть линейная зависимость. Предположение 4 допускает, что ошибки измерения, относящиеся к разным тестовым оценкам, не коррелируются. Предположение 5 о равных дисперсиях ошибок позволяет говорить о том, что два теста дают одинаково хорошие результаты измерений.

Комбинации данных предположений позволяют определить наиболее важные модели тестов [6, 7, 10, 11]:

- параллельные тесты (предположения 1, 4 и 5);

- существенно т-эквивалентные тесты (предположения 2 и 4);

- т-однородные тесты (предположения 3 и 4).

Наиболее простым набором предположений

определяется модель параллельных тестов. Два теста и Yj параллельны, если они т-эквивалентны, их ошибки не коррелируют и они имеют одинаковые дисперсии ошибок. Предположение 1 подразумевает, что существует однозначно определенная латентная переменная уровня знаний, идентичная для каждой истинной оценки.

Поэтому можно упустить индекс 1 и обозначить эту латентную переменную п. Тогда можно записать, что ^ =П+£1 .

Для параллельных тестов теоретические параметры могут быть рассчитаны по параметрам, характеризующим распределение хотя бы двух тестовых оценок, то есть теоретические параметры идентифицируются в данной модели при т > 2, т - количество имеющихся тестовых оценок. Математическое ожидание переменной п равно математическому ожиданию каждого из тестов, несмотря на то, что дисперсия п может быть рассчитана из ковариации двух разных тестов. Дисперсия Var(£i) ошибки измерения рассчитывается как разница Var(Yi) - 1Ф .ъ

Таким образом, модель параллельных тестов владеет следующими свойствами:

11) Е(п) = Е(^);

12) Var(n) = 1Ф .

13) Var(£i) = Var(Yi) - 1Ф .

Модель существенно т-эквивалентных тестов имеет меньше ограничений, чем модель параллельных тестов. Два теста Y1 и Yj существенно т -эквивалентны, если их истинные оценки разнятся на положительную константу и их ошибки не коррелируют. Предположение 2 подразумевает, что существует латентная переменная п, которая является преобразованием каждой истинной оценки: п=т1 + А 1, А 1 е^ . Латентная переменная п однозначно определена для преобразования, поэтому необходимо фиксировать шкалу ее измерения.

Можно фиксировать один из коэффициентов (например, Х1=0) или математическое ожидание п (например, Е(п) = 0).

Таким образом, свойства существенно т-эк-вивалентных тестов при фиксировании шкалы п Е(п) = 0 следующие:

14) Var(п) = Cov(Yi,Yj), 1 ф .

15) Var(£i) = Var(Yi) - 1Ф.

Два теста Y1 и Yj т-однородные, если их истинные оценки являются положительными линейными функциями друг друга и их ошибки не коррелируют. Предположение 3 подразумевает, что существует латентная переменная п такая, что каждая истинная оценка является положительной линейной функцией дру-

гой истинной оценки, то есть т = Х!0 + Хип, Х!0, X¡1 ей , Хц > 0 или ^ = Х!0 + X¡1П+ £;.

Латентная переменная п однозначно определена для положительных линейных функций. Поэтому для этой модели также необходимо фиксировать шкалу п. Этого можно достичь, фиксируя пару коэффициентов (например, Х!0 = 0 и Хц = 1) или математическое ожидание и дисперсию (например, Е(п) = 0 и Var(n) = 1 ).

Все параметры модели т-однородных тестов определяются, если есть хотя бы три разных теста, для которых предположения 3 и 4 выполняются. Следу-ющиесвойствасформулированыпредполагая,что Е(п) = 0 и Var(n) = 1. Другие способы фиксации шкалы п приведут к другим формулам.

Свойства т-однородных тестов при фиксировании шкалы п Е(п) = 0 и Var(n) = 1 выглядят следующим образом:

16) X, =

Cov(Yi,Yj)Cov(Yi,Yk) Cov(Yj,Yk)

, i*j,i*k,j*k;

17) Var(ei) = Var(Yi)-X^;

Таким образом, СТТ позволяет выразить уровень знаний с помощью вероятностных распределений соответствующих латентных переменных и является распространенным инструментом создания тестов.

Модели Item Response Theory (IRT)

СТТ имеет серьезный недостаток: измерение знаний испытуемых зависит от характеристик тестовых заданий. В этой ситуации сложно сравнить испытуемых, которые прошли тесты, отличающиеся хотя бы на одно задание, или сравнить задания, которые даются разным группам испытуемых. IRT была разработана для того, чтобы справиться с этим недостатком.

К тому же, IRT может быть использована для прогнозирования свойств всего теста с помощью свойств его заданий, а также для манипуляций с частями теста с целью достичь заданных свойств измерения [12].

IRT предлагает широкий выбор моделей для тестов с дихотомическими и многовариантными заданиями. В IRT устанавливается связь между двумя множествами значений латентных переменных [11]. Первое множество составляют значения латентной переменной, определяющей уровень подготовленности испытуемых 8i, где i - номер испытуемого ( i = 1,N, N - количество испытуемых). Второе множество составляют значения латентной переменной, характеризующей трудность j-го задания Pj ( j = 1,M , M - количество заданий в тесте).

Г. Раш предположил, что уровень подготовленности испытуемого 8i и уровень трудности задания Pj размещены на одной шкале и измеряются в одних и тех же единицах - логитах [1, 13]. Аргументом функции успеха испытуемого является разность (0i-Рj) . Поскольку модель Раша описывает вероятность успеха испытуемого как функцию одного

параметра (8i-Pj) , то иногда ее называют одно-параметрической моделью IRT [11]. Модель Раша определяет вероятность правильного ответа следующим образом [12]:

exp(6i-Pi)

P(X- 1|9i,Pj) = f(1,0i,Pj) = 1+ePxp(9i-Ppj) ,

где Xij - ответ испытуемого i на задание j (равен 1, если - верно, 0 - если неверно);

9i - латентная переменная подготовленности испытуемого i;

Pj - латентная переменная трудности задания j.

Если тест содержит задания с различной дифференцирующей способностью, то однопараметри-ческая модель Раша не может описать такие эмпирические данные. То есть задания отличаются не только трудностью, но и тем, насколько хорошо они оценивают латентную переменную подготовленности испытуемых. Для преодоления этой трудности А.Бирнбаум ввел еще один параметр дифференциации - a (item discrimination parameter) [11]. Этот параметр имеет эффект усиления важности разницы между подготовленностью испытуемого и сложностью задания. Согласно двухпараметрической модели Бирнбаума вероятность правильного ответа равна [13]:

р(хй = a j,p j) =

1

1+expaj(Pj -9i)

Изначально 1ЯТ была разработана для заданий, где не предполагались угадывания. Но если речь идет о возможности выбора между несколькими вариантами ответов в тестовых заданиях, можно ответить на какие-нибудь задания наугад правильно. Не имея никаких знаний в материале, человек может случайно угадать правильный ответ по крайней мере на 1% заданий.

Задания могут различаться тем, насколько они позволяют угадать ответ при низком уровне знаний материала. На основании этого в трехпараметриче-скую модель Бирнбаума вводится параметр угадывания у [13]:

Р(ХЙ = 1|9i, a j,p j, у) = Y +

1 -Y

1+exp a j(P j -9i)

Модели Раша и Бирнбаума относятся к тестам с дихотомическими заданиями. IRT гораздо легче адаптируется к переходу от дихотомических заданий к многовариантным, чем СТТ. К основным моделям IRT для тестов с многовариантными заданиями относят:

- Graded Model (GM);

- Nominal Model (NM);

- Partial Credit Model (PCM);

- Rating Scale Model (RSM).

В модели со ступенчатыми или упорядоченными ответами Graded Model [13] ответ может быть ранжирован на шкале баллов, например, от слабого (0) до отличного (9). В GM логистическая функция определяет вероятность того, что ответ будет получен в категории K или выше. Для упорядоченных

категорий ответов Х1.=к, к=1,2,...т, где т соотносится с наивысшим значением 8, вероятность правильного ответа равна:

P(X, = k|6) =

1

1

1 + exp(-ai(0- Pjk)) 1 + exp(-ai (6 - вjk+i))

P(Uj = x|6) =

eXP(ajx6 + Cjx)

£ exP(ajk6 + cjk) '

P(ui = x|6i) = -

£ (6i-Sjk)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

k=0_

£exp ££(6i-5jk)

-, x = 0,1,...,mj.

Кривая P (Xi=k|6) будет немонотонной, за исключением первой и последней категории ответов задания. Для первой категории k=1 характеристическая кривая будет монотонно убывающей

логистической функцией с нижним пороговым

1

значением P(Xi =116) =1 : tz ñ гт .Для

1+exp(-ai(6-Pj2))

последней категории k=m характеристическая кривая будет монотонно возрастающей логистической функцией с верхним пороговым значением 1

P(X,= m|6) =-.

V i 1 ' 1 + exp(-^(6-Pjm))

Nominal Model [13] является альтернативой GM для многовариантных заданий, не требуя заранее никакой зависимости порядка взаимоисключающих категорий и переменной подготовленности 6. NM характеристической кривой для категорий u = 1,2,...,mj задания j выглядит:

где ak - параметр дифференциации;

ck - пересечения.

Дополнительные ограничения вводятся для идентификации модели. Сумма каждого набора параме-

m-1 m-1

тров должна быть равной нулю: ¿ak =£ck =0 .

k=0 k=0

NM используется, когда между вариантами ответа может быть определен порядок. Другими словами, модель позволяет определить, какой порядок вариантов ответа ассоциируется с высоким уровнем латентной переменной подготовленности. Эта модель также используется для определения местонахождения нейтрального ответа на шкале Лайкерта среди упорядоченных ответов.

Partial Credit Model [2, 14, 15] предполагает, что из упорядоченных категорий задания 0<1<2,...,<m условная вероятность выбора в задании категории х, а не х-1, должна монотонно возрастать на области определения латентной переменной подготовленности.

В PCM вводится параметр задания Six, управляющий вероятностью выбрать категорию x, а не x -1. Параметр 8ix может рассматриваться как шаговая сложность задания, ассоциируемая с лежащей в основе характеристикой, где категории х-1 и х пересекаются.

Вероятность того, что человек i выберет категорию x с одним из возможных результатов 0, 1, 2,., m задания j может быть представлена в следующем виде:

Rating Scale Model [13] получена из модели PCM с ограничением на равные коэффициенты дифференциации для всех заданий. Отличие этой модели в том, что расстояние между шагами сложности от категории до категории внутри каждого задания одинаковы для всех заданий. Модель RSM включает дополнительный параметр Xj, который располагает задание j на шкале измерения. Функция ответа для безусловной вероятности того, что человек i выберет категорию x с одним из возможных результатов 0, 1, 2,., m задания j равна:

exp¿(9, -(V5k)) 0

P(Ui = x|9i) = ^-faSL-, £(9i -(Xj + Sk)) = 0.

¿¿exp ¿(9i - (Xj + Sk)) k=0

Данная модель требует, чтобы формат заданий был одинаковым на всей шкале (например, все задания имели бы четыре категории ответов).

Таким образом, теория 1ЯТ является альтернативой СТТ и позволяет измерять знания испытуемых с помощью линейной шкалы.

Методы измерения надежности в рамках классической теории тестов

Качество теста чаще всего характеризуется надежностью и валидностью. Тест считается надежным, если при повторном выполнении он дает близкие результаты при условии, что подготовка учащегося не изменилась. Надежность характеризует воспроизводимость результатов тестирования, а валидность - это характеристика адекватности теста поставленной цели его создания.

В рамках классической теории тестов были сформированы основные способы оценивания надежности результатов тестирования. Наиболее простым способом является оценка корреляции двух разных тестовых оценок, что соответствует модели параллельных тестов[10]: Яе1 = согг(^д.) .

Надежность суммарной оценки S = Y1 +... + Ym параллельных тестов считается по формуле Спирмена-Брауна:

R(S) =

m ■ Rel(Y) 1+(m-1)-Rel(Yi) ,

(1)

где т - количество параллельных тестов. Существует несколько основных методов получения данных, необходимых для расчета надежности тестов, соответствующих модели параллельных тестов [6]. Ретестовый метод основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения одного теста с интервалом времени в 2-3 недели.

h=0

k=0

h=0 k=0

k=1

Этот метод оценки надежности прост в вычислениях, но его недостатком является трудность определения временного интервала между проведениями двух тестирований. Близкое по времени повторное тестирование может дать высокую надежность, однако она не будет объективно характеризовать качество теста.

Метод параллельных форм более предпочтителен по сравнению с ретестовым, поскольку он снижает степень влияния свойств человеческой памяти запоминать задания и ответы предыдущего теста. Недостатком данного метода является сложность составления тестов и необходимость доказательства их параллельности.

Метод расщепления теста предполагает однократное проведение теста. Множество тестовых заданий делится на две половины, например, все четные и нечетные задания. Эти части теста могут рассматриваться как приближение к параллельным формам. Корреляция между результатами двух частей будет надежностью каждой из половин теста, но не всего теста. Для оценки надежности всего теста необходимо использовать формулу Спирме-на-Брауна (1), в которой т принимает значение количества частей теста, полученных в результате расщепления.

Недостаток метода расщепления заключается в том, что делить тест можно разными способами. Каждое деление будет давать немного отличающуюся корреляцию между частями теста. Таким образом, можно получить разные оценки надежности даже при выполнении одних и тех же заданий теми же людьми.

В отличие от параллельных тестов, надежность в модели существенно т-эквивалентных тестов не может быть определена как корреляция между двумя тестами. В этом случае надежность равна [10]: Яе1(^) = ^(^)^аг(^), 1 * .ъ

Для существенно т-эквивалентных тестов надежность их суммарной оценки S = Y1 +... + Ym может быть рассчитана с помощью коэффициента Крон-баха:

m -1

£ Var(Y)

1 --1-

Var(S)

(2)

где т - количество тестов.

Этот коэффициент является нижней границей надежности S, если речь идет только о некоррелируемых ошибках.

Также коэффициент Кронбаха используется, чтобы избежать деления теста или повторных тестирований. В этом случае речь идет о методах оценки надежности по внутренней согласованности теста [6, 7].

Тогда в формуле (2) Var(Yi) - это дисперсия каждого задания теста, Var(S) - дисперсия всего теста, т - количество заданий теста.

К достоинствам метода, основанного на расчете коэффициента Кронбаха, относится возможность оценить надежность теста, состоящего как из ди-

хотомических заданий, так и из многовариантных заданий, использование всей статистической информации, которую несут задания и легкость расчета. Частным случаем коэффициента Кронбаха для дихотомических заданий является коэффициент Кьюдера-Ричардсона KR20 [16].

Для оценки надежности тестов, реализованных с помощью моделей IRT, также рассчитывается коэффициент Separation Reliability (SR) [16] для испытуемых и заданий. Для испытуемых он отражает то, насколько хорошо множество заданий позволяет разделить уровни подготовленности испытуемых. Для заданий SR отражает, насколько множество испытуемых позволяет разделить уровни трудности заданий теста. SR рассчитывается путем вычитания из единицы отношения среднего квадрата ошибки MSE(n) рассматриваемой латентной переменной п к

w / ч гп a MSE(n)

дисперсии п Var(n), т.е. SR = 1--.

Var(n)

Таким образом, в основе различных методов расчета коэффициентов надежности лежат достижения СТТ.

Выбор метода оценки надежности, вообще говоря, определяется моделью теста.

Выводы

Ограничение СТТ состоит в том, что модели этой теории не совсем адекватны для моделирования ответов на отдельные задания теста. Эта задача лучше решается с помощью моделей IRT, которая определяет, как вероятность правильных ответов на одну категорию вопросов зависит от измеряемой латентной переменной.

Второе ограничение заключается в том, что СТТ сфокусирована исключительно на ошибках измерения. Преимущества IRT по сравнению с СТТ следующие [11]:

18) IRT превращает измерения, выполненные в дихотомических и порядковых шкалах, в линейные измерения, в результате качественные данные анализируются с помощью количественных методов;

19) мера измерения параметров модели Раша является линейной, что позволяет использовать широкий спектр статистических процедур для анализа результатов измерений;

20) оценка трудности тестовых заданий не зависит от выборки испытуемых, на которых она была получена;

21) оценка уровня подготовленности испытуемых не зависит от используемого набора тестовых заданий;

22) неполнота данных не является критичной.

Расчет надежности тестов производится на основе предположений, касающихся различных моделей СТТ.

В этом состоит главная заслуга данной теории. IRT для оценки надежности использует результаты классической теории тестов в этой области.

Наиболее гибкий подход к созданию и использованию тестов заключается в совместном использовании обеих теорий.

m

Классическая теория тестов обеспечивает этап создания теста, а также оценки его качества, а Item Response

Theory позволяет получить устойчивые оценки латентных параметров испытуемых и трудности заданий.

Литература

1. Rash G. On Objectivity and Specificity of the Probabilistic Basis for Testing // http://www.rasch.org/memo196x.pdf, 10.09.20-

11.

2. Masters G. N., Wright B. D. The Essential Process in the Family of Measurement Models [Электронный ресурс] / Режим до-

ступа : \www/ URL: / http://personal.psc.isr.umich.edu/yuxie-web/files/soc543-004/Masters_et_al1984.pdf - 01.09.2011 г. - Загл. с экрана.

3. Аванесов В. С. Item Response Theory: основные понятия и положения [Электронный ресурс] / Режим доступа : \www/

URL: http://testolog.narod.ru/Theory59.html/ — 10.10.2011 г. - Загл. с экрана.

4. Аванесов В. С. Проблема объективности педагогических измерений [Электронный ресурс] / Режим доступа : \www/

URL: http://testolog.narod.ru/Theory34.html/ - 25.09.2011 г. - Загл. с экрана.

5. Аванесов В. С. Метрическая система Георга Раша - Rasch Measurement (RM) [Электронный ресурс] / Режим доступа :

\www/ URL: http://testolog.narod.ru/Theory68.html/ - 16.10.2011 г. - Загл. с экрана.

6. Челышкова, М. Б. Теория и практика конструирования педагогических тестов: Учебное пособие [Текст] / М. Б. Челыш-

кова. - М. : Логос, 2002. - 432 с.

7. Майоров, А. Н. Теория и практика создания тестов для системы образования (Как выбирать, создавать и использовать

тесты для целей образования) [Текст] / А. Н. Майоров. - М. : Интеллект-центр, 2001. - 296 с.

8. Маслак, А. А. Измерение латентных переменных в социально-экономических системах: Монография [Текст] / А. А.

Маслак. - Славянск-на-Кубани : Изд. Центр СГПИ, 2006. - 333 с.

9. Нейман, Ю. М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов [Текст] /

Ю. М. Нейман, В. А. Хлебников. - М. : Прометей, 2000. — 168 с.

10. Steyer R. Classical (Psychometric) Test Theory [Электронный ресурс] / Режим доступа : \www/ URL: / http://metheval. uni-jena.de/materialien/ publikationen/ctt.pdf/ - 01.08.2011 г. - Загл. с экрана.

11. Ким, В. С. Тестирование учебных достижений. Монография. [Текст] / В. С. Ким. - Уссурийск : Издательство УГПИ, 2007. — 169 с.

12. Mislevy R. J., Wilson M. R., Ercikan K., Chudowsky N. Psychometric Principles in Student Assessment. International Handbook of Educational Evaluation [Электронный ресурс] / Режим доступа : \www/ URL: / http://citeseerx.ist.psu. edu/viewdoc/summary?doi=10.1.1.133.8477/ - 09.10.2011 г. - Загл. с экрана.

13. Reeve B. An Introduction to Modern Measurement Theory [Электронный ресурс] / Режим доступа : \www/ URL: / ht-tp://moaweb.nl/bibliotheek/materiaal-bijeenkomsten-1/2009/pretesten-van-vragenlijsten-23-juni/ - 19.08.2011 г. - Загл. с экрана.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. Masters, G. N. Partial Credit Model ^ext] / G. N. Masters ; Encyclopedia of Social Measurement. - Elsevier/Academic Press, 2005. - 3000 p.

15. Masters G. N. The Analysis of Partial Credit Scoring [Электронный ресурс] / Режим доступа : \www/ URL: / http://nccu. edu.tw/~mnyu/Study%20of%20Test%20Theory/The%20analysis%20of%20partial%20credit%20scoring.pdf - 11.10.2011 г. - Загл. с экрана.

16. Wright, B. Measurement Essentials. 2nd edition ^ext] / B. Wright, M. Stone. - Wilmington, Delaware : Wide Range, Inc., 1999. - 221 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.