Воспроизводимость результатов обработки данных в новой модели тестирования

Попов Александр Петрович

УДК 519.85:004.421

ВОСПРОИЗВОДИМОСТЬ РЕЗУЛЬТАТОВ ОБРАБОТКИ ДАННЫХ В НОВОЙ МОДЕЛИ ТЕСТИРОВАНИЯ

Южный федеральный университет, Southern Federal University,

г. Ростов-на-Дону Rostov-on-Don

Показана хорошая воспроизводимость результатов обработки данных компьютерного тестирования и устойчивость оценок латентных параметров в новой модели процесса тестирования. Этот факт очень важен с практической точки зрения, поскольку позволяет существенно упростить процедуру обработки данных компьютерного тестирования. Вполне достаточно выполнить полную процедуру обработки данных компьютерного тестирования по данной дисциплине только один раз; полученные значения трудности тестовых заданий затем могут быть использованы во всех сессиях компьютерного тестирования для расчета рейтинга студентов.

Ключевые слова: новая модель процесса тестирования; компьютерная форма тестирования; результаты обработки данных; воспроизводимость и устойчивость.

A good reproducing of the results of treatment of computer testing data and stability of estimations of latent parameters in new model of testing process is shown. This fact is very important from the practical point of view, because it allows simplifying essentially the procedure of treatment of computer testing data. It is quite enough to perform full treatment of computer testing data on given discipline only one time; obtained the values of test task hardness then can be used at all of the following computer testing sessions for account of ratings of students.

Keywords: new model of testing process; computer form of testing; the results of data treatment; reproducing and stability.

В 2005 г. появилась первая статья [1], посвященная описанию принципиально новой модели тестирования, в которой поиск решения тестового задания рассматривается как однородный во времени стохастический процесс. В отличие от параметрических моделей тестирования новая модель допускает непосредственную проверку лежащих в ее основе допущений и вытекающих из них следствий. В предыдущих работах [1 - 4] модель была подвергнута всесторонней проверке, в ходе которой эмпирическое подтверждение получила гипотеза о распределении времени поиска решения тестовых заданий и гипотеза об аддитивности трудности составных тестовых заданий. Вместе с тем проблеме воспроизводимости результатов обработки данных тестирования, а также оценки их точности и достоверности не уделялось должного внимания. В данной работе на конкретном примере показано хорошее согласование значений характеристик тестовых заданий, полученных в результате обработки данных тестирования в двух разных группах испытуемых.

В июне 2010 г. в Институте экономики ЮФУ было проведено тестирование студентов 2-го курса вечернего отделения по методам анализа и обработки данных. Тестирование было разбито на две сессии, в первой из которых приняли участие 40 студентов отделения ВБУ, а во второй - 35 студентов отделения ВФК (табл. 1).

Таблица 1

Результаты обработки данных двух сессий тестирования

№ ТЗ Результаты обработки данных 1-й сессии тестирования Результаты обработки данных 2-й сессии тестирования

Трудность ТЗ Вероятность решения ТЗ, % Среднее время решения ТЗ, с Трудность ТЗ Вероятность решения ТЗ, % Среднее время решения ТЗ, с

1 1,63 73 131 1,88 69 147

2 1,78 43 106 2,07 43 110

3 2,60 45 194 2,78 46 192

4 1,55 60 120 1,75 63 125

5 2,60 35 187 2,53 34 158

6 2,12 13 238 1,90 11 196

7 1,16 25 102 1,67 20 135

8 1,23 38 47 1,24 34 39

9 1,05 15 33 1,02 14 25

10 1,05 48 55 1,13 46 59

11 1,40 33 99 1,66 26 112

12 1,55 40 79 1,55 37 69

13 1,24 33 83 1,31 37 83

14 1,18 33 115 0,99 31 63

Далее приводятся численные оценки согласованности основных характеристик тестовых заданий, найденных в результате обработки данных тестирования в двух группах испытуемых (см. табл. 1).

Сравнение оценок трудности ТЗ

Пусть х и у - значения трудности тестовых заданий, полученные в результате обработки данных тестирования в 1-й и во 2-й группах. Каноническое уравнение регрессии между этими величинами, составленное по данным табл. 1, имеет следующий вид:

* " :'677 = 0,922 5 " :'56°

0,588

0,552

(1)

Значение коэффициента корреляции г = 0,922 указывает на наличие тесной линейной связи между величинами х и у, а близость их средних значений <х> = 1,560, <у> = 1,677 и среднеквадратичных отклонений о(х) = 0,552, о(у) = 0,588 позволяют выдвинуть гипотезу о совпадении случайных величин х и у. Далее для проверки этой гипотезы используются стандартные методы теории вероятностей и математической статистики [5].

Запишем уравнение (1) в стандартном виде:

у = ax + b .

(2)

Доверительные интервалы для коэффициентов уравнения (2) при уровне надежности 1 - а = 0,90 :

a = 0,932 + 0,201; b = 0,223 + 0,330,

(3)

что позволяет принять гипотезу о совпадении оценок трудности тестовых заданий с надежностью не ниже 1 -а = 0,90 (рис. 1).

3,0

2,5

2,0

1,5

1,0

0,5

0

О

/О /

о "о / О/ - о

/о у' О /

/

0,5

1,0

1,5

2,0

2,5

3,0

Рис. 1. Регрессия оценок трудности ТЗ (указаны также границы регрессии для уровня надежности 1 -а = 0,90 )

Сравнение оценок вероятности верного решения ТЗ

Пусть х и у - значения вероятности верного решения тестовых заданий, полученные в результате обработки данных тестирования в 1-й и 2-й группах. Кано-

ническое уравнение регрессии между этими величинами:

У " 36,5 = 0,982 X " 36,6

17,2

16,5

(3)

Близость коэффициента корреляции г = 0,982 к 1 и почти совпадающие величины средних значений <х> = 36,6, <у> = 36,5 и среднеквадратичных отклонений о(х) = 16,5, о(у) = 17,2 позволяют выдвинуть гипотезу о совпадении величин х и у.

Запишем уравнение (3) в стандартном виде (2).

Доверительные интервалы для коэффициентов уравнения (2) при уровне надежности 1 - а = 0, 90 :

а = 1,027 + 0,100; Ь = -1,053 + 3,980.

Это означает, что гипотеза о совпадении оценок вероятности решения тестовых заданий может быть принята с надежностью не ниже 1 - а = 0, 90 (рис. 2).

100

Рис. 2. Регрессия оценок вероятности верного решения ТЗ (указаны также границы регрессии для уровня надежности 1 - а = 0,90)

Сравнение оценок среднего времени решения ТЗ

Пусть х и у - значения среднего времени решения тестовых заданий, полученные в результате обработки данных тестирования в 1-й и 2-й группах. Уравнение регрессии между этими величинами:

У -108,1 = 0,922X-109,0

56,3

52,1

(4)

Высокое значение коэффициента корреляции г = = 0,922 указывает на наличие тесной линейной связи между величинами х и у, а близость их средних значений <х> = 109,0, <у> = 108,1 и среднеквадратичных отклонений о(х) = 52,1, о(у) = 56,3 позволяют выдвинуть гипотезу о совпадении случайных величин х и у. Далее для проверки этой гипотезы вновь используются те же самые стандартные методы теории вероятностей и математической статистики.

Придадим уравнению (5) стандартную форму (2) Доверительные интервалы для коэффициентов уравнения (2) при уровне надежности 1 - а = 0,90:

a = 0,997 + 0,215; Ь = -0,554 + 25,592,

что позволяет принять гипотезу о совпадении оценок среднего времени решения ТЗ с надежностью не ниже 1 -а = 0,90 (рис. 3).

300

250

200

150

100

50

0

/ о ^ / о

/о У О/ /

о

/о /о S / /

50 100 150 200 250 300

Рис. 3. Регрессия оценок среднего времени верного решения ТЗ (указаны также границы регрессии для уровня надежности 1 - а = 0,90)

Сравнение двух оценок рейтинга испытуемых

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Практическая значимость хорошей воспроизводимости оценок трудности тестовых заданий очевидна, так как рейтинг испытуемых определяется как суммарная трудность верно выполненных тестовых заданий. Чтобы ответить на вопрос, как расхождения в оценке трудности ТЗ сказываются на рейтинге испытуемых, мы определяли рейтинг в 1-й группе двумя способами. Рейтинг Л определялся на основе оценок трудности ТЗ, полученных при обработке данных в собственной группе, а рейтинг В - на основе оценок трудности ТЗ, полученных при обработке данных в чужой группе. Результаты расчетов представлены в табл. 2.

Пусть х и у - значения рейтингов Л и В соответственно. Тогда каноническое уравнение регрессионной зависимости между этими величинами имеет следующий вид:

y - 46,60 = 0 997 x - 45,00

22,54

23,44

(5)

Уравнению (5) можно придать стандартную форму (2).

Доверительные интервалы для коэффициентов уравнения (2) при уровне надежности 1 - а = 0,95 :

а = 1,037 + 0,013; Ь =-0,055 + 0,650,

что позволяет принять гипотезу о совпадении двух оценок рейтинга испытуемых с надежностью не ниже 1 -а = 0,95 (рис. 4).

Таблица 2

Значения двух рейтингов в 1-й группе испытуемых

№ испытуемого U я Я н « СМ Рейтинг В № испытуемого U я я н « СМ Рейтинг В

1 100 100 21 44 47

2 80 85 22 40 39

3 74 76 23 38 40

4 72 77 24 38 41

5 71 74 25 37 37

6 68 70 26 37 37

7 66 72 27 32 30

8 66 68 28 29 30

9 66 67 29 29 27

10 65 68 30 29 29

11 63 63 31 28 31

12 63 63 32 28 29

13 62 63 33 28 30

14 60 63 34 22 22

15 53 57 35 18 20

16 51 56 36 17 17

17 50 51 37 15 16

18 48 53 38 9 10

19 47 48 39 7 6

20 44 46 40 6 6

100

80

60

40

20

/ °À / 0 J^

/oy/ /о / /

if 0 //

//

0

20 40 60 80 100

Рис. 4. Регрессия двух оценок рейтинга испытуемых (указаны также границы регрессии для уровня надежности 1 -а = 0,95)

Как видим, связь между двумя оценками рейтинга испытуемых оказывается значительно более тесной (коэффициент корреляции г = 0,997), чем между двумя оценками трудности ТЗ (коэффициент корреляции 0,922), полученными в результате обработки данных тестирования в 1-й и 2-й группах.

Вывод

Эмпирически установленная хорошая воспроизводимость оценок трудности тестовых заданий имеет

важное практическое значение, поскольку позволяет резко упростить процедуру обработки данных сессий тестирования. Полную обработку данных тестирования можно провести на достаточно представительном контингенте испытуемых лишь один раз. Полученные оценки трудности тестовых заданий можно занести в спецификацию базы тестовых заданий и затем использовать при определении рейтинга испытуемых в следующих сессиях компьютерного тестирования по данной дисциплине.

Литература

1. Попов А.П., Богомолов А.А., Попова Л.А. Новая математическая модель тестирования // Наука и образование. 2005. № 3. C. 221.

2. Попов А.П. Новое направление в компьютерном тестировании // Математическое моделирование и информационные технологии : сб. науч. статей / ЮРГТУ (НПИ). Новочеркасск, 2007. С. 179.

3. Попов А.П. Новое направление в теории тестирования // Изв. ЮФУ. Педагогические науки. 2008. № 1 - 2. С.24.

4. Попов А.П., Попова Т.Ю., Акулов С.Ю. О принципиально новом направлении в теории тестирования // Грани познания: электронный журнал ВГПУ. 2009. № 4 (5). URL: http: // www.grani.vspu.ru.

5. Колемаев В.А., Староверов О.В., Турундаевский В.Б. Теория вероятностей и математическая статистика. М., 1991. 400 с.

Поступила в редакцию 3 ноября 2011 г.

Попов Александр Петрович - канд. физ.-мат. наук, доцент, начальник отдела контроля качества образования, Южный федеральный университет. Тел. (8863) 250-78-74. E-mail: [email protected]

Popov Alexander Petrovich - Candidate of Physics and Mathematics Science, assistant professor, chief of department of education quality control, Southern Federal University. Ph. (8863) 250-78-74. E-mail: [email protected]_

Воспроизводимость результатов обработки данных в новой модели тестирования Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Попов Александр Петрович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Попов Александр Петрович

Текст научной работы на тему «Воспроизводимость результатов обработки данных в новой модели тестирования»