Дидактическая инженерия: разработка регламента педагогического тестирования
Нуриев Наиль Кашапович профессор, д.п.н., заведующий кафедрой информатики и прикладной математики, Казанский государственный технологический университет, ул. К.Маркса, 68, г. Казань, 420015, (843)2314119 шrievnk@,mail. т
Старыгина Светлана Дмитриевна доцент, к.п.н., доцент кафедры информатики и прикладной математики, Казанский национальный исследовательский технологический университет, ул. К.Маркса, 68, г. Казань, 420015, (843)2314119 svetacd [email protected]
Аннотация
Точность результата тестирования, т.е. величина разницы между тем, что показал и потенциально мог показать студент, в основном зависит от двух факторов: 1) качества тестирующей системы, как измерительного средства; 2) качества организации процедуры самого тестирования. В тоже время качество организации этой процедуры во многом зависит от предельного времени тестирования в зависимости от его сложности.
The accuracy of the test result, i.e. the difference between what is showed and could potentially show the student mainly depends on two factors: 1) quality testing system, as measuring tools; 2) the quality of the organization of the procedure of the test. At the same time the quality of the organization this procedure is largely dependent on the ultimate testing time depending on its complexity
Ключевые слова
точность результата тестирования, качество измерения, качество процедуры, продолжительность тестирования, сложность теста
the accuracy of the test result, the quality of the measurement, the quality of the procedure, the duration of the test, the difficulty of the test
Дидактическая инженерия [1-3] как методология занимается решением педагогических проблем с использованием инженерных средств и методов, в частности, использует метрический подход с привлечением математического моделирования, численных методов, теории вероятности и статистики для организации диагностики качества подготовки студентов в реально-виртуальной среде. В рамках этой методологии может быть создано множество «высокоточных» метрико-ориентированных технологий быстрого профессионального развития через обучения, а также надежные с количественной оценкой точности системы диагностики. В целом, следует отметить, что в результате организации и освоения новой реально-виртуальной образовательной среды появились дидактические системы нового поколения. Эти системы с качественно новыми возможностями с технологией подготовки инженеров в метрическом компетентностном формате (МКФ). При подготовке инженеров в дидактических системах нового поколения с технологией обучения в МКФ необходимо как можно точнее установить метрики средств обучения. Это означает, что нужно численно оценить уровни развития профессионально-значимых способностей, сложность учебных проблем, задач, тестов и в целом всего учебного материала. Затем, с соблюдением известных из
педагогической психологии основных фундаментальных закономерностей быстрого развития через обучение, необходимо построить технологию и «откалибровать» ее параметры с соответствующими метриками, шкалами и установленными оптимальными значениями.
Модель организации процесса тестирования
Формально общую модель технологии тестирования можно представить так
Z1 = F( Z, U, R, Е)
U = U(VAL, REL, REP, KSM(POL, CHL))
R = R(S, V).
Все обозначения, принятые в модели приведены в работе «Дидактическая инженерия: проектирование высокоточного измерительного средства педагогического тестирования». Статья напечатана в этом номере журнала.
Допустим, имеется тестовая система (инструментальное средство), где эксперт установил, что тестирующая система как инструмент имеет значения параметров: VAL = REL = REP = KSM = 1, т.е. в нашем распоряжении имеется идеальный по содержанию тестирующий инструмент с показателем качества U = 1. Этот инструмент на конструктивном уровне, также полностью защищен от фальсификации результатов, т.е. значение параметра Е = 1. На базе этого инструмента необходимо организовать процесс (процедуру) тестирования с показателем качества R = R(S, V) ^ 1. Эта цель может быть достигнута, если эксперт оценил точно сложность теста (значение параметра S), а также точно оценил необходимую продолжительность тестирования в зависимости от его сложности (значение параметра V). Разумеется, что студенту для ответа на вопросы теста необходимо значительно больше времени, чем эксперту, т.е. V >> S. При этом выбор времени V должен быть обоснован, т.к. излишнее увеличение времени V не приведет к улучшению значения качества ответов студента, а время будет потрачено впустую.
Очевидно, каждый студент в зависимости от его индивидуальных особенностей ответит на вопросы теста за разное время. Продолжительность ответа студента рассмотрим как случайную величину X. Следует особо подчеркнуть, что в данной работе авторы не интересуются причинами (их может быть много: психологических, интеллектуальных и т д.), почему разные студенты имеют разные значения величины X, т.е. имеют разную продолжительность реакции ответов на вопросы теста, даже при наличии у них знаний одинокого качества. Сразу отметим, что авторы владеют большими массивами статистических данных - значений случайной величины X,
Методика оценки сложности теста, т.е. величины S следующая. Эксперт получает случайный вариант теста и оценивает сложность каждого вопроса по его трудоемкости (оценивается в минутах работы (мин/раб) эксперта) (рис. 1).
№ Вопросы Ответы Сложность (мин/раб)
1 Вопрос Ответ 1
2 Вопрос Ответ 3
3 Вопрос Ответ 2
4 Вопрос Ответ 1
. . . . . . . . . . . .
10 Вопрос Ответ 2
Сложность (трудоемкость) теста 8=20
Рис. 1. Пример бланка оценки трудоемкости теста экспертом
Таким образом, например, эксперт оценил сложность (трудоемкость) теста равным = 20 (мин/раб).
Теперь необходимо оценить значение величины V (предельную продолжительность тестирования студента), которая зависит от значения детерминированной величины 5 (сложность теста) и случайной величины X (продолжительность реакции студента). При этом, случайная величина X может вести себя по-разному (иметь разный закон распределения) в зависимости от подготовленности или неподготовленности студентов к тестированию. Если студенты не подготовлены или материал не из их «зоны ближайшего развития», то, как показывают экспериментальные данные, случайная величина X будет распределена по нормальному закону («белый шум» с распределением Гаусса). На рисунке 2 через М1, М2, М3 обозначены значения математических ожиданий случайной величины Х в зависимости от подготовленности студентов.
На основе статистического материала установим закон распределения случайной величины X. Для этого на специально сформированной шкале (рис. 3) отложим продолжительности реакций всех студентов в группе.
СИ - продолжительность (быстрота) реакции
0
■ЬЧ—Ь
с ¡я ю 28 ^ ^ 38
Г^
^
48
Рис. 3. Шкала для изменения быстроты (продолжительности) реакции студента
Для идентификации (определения) закона распределения рассмотрим экспериментальные данные, которые сформировались в системе МООБЬБ в течении 10 лет. В эксперименте участвовало 50 групп. Средняя численность студентов в одной руппе 25 человек. Усредненные данные представлены на рис. 4.
Рис. 4. Результат обработки экспериментальных данных (эмпирический закон
распределения величины X)
Согласно данным из графика, частота (эмпирические вероятности) добровольного выхода студента из процесса (процедуры тестирования) будут следующие (X - случайная величина - время выхода по завершению теста)
Р(Х < 1,25*5) = 0, т.е. вероятность, того, что студент завершит тест и выйдет с процесса тестирования раньше, чем 1,25*5 равна нулю, где 5 - сложность теста. Р(Х < 1,5*5) = 0,2222, т.е. вероятность того, что студент завершит тест и выйдет с процесса тестирования раньше чем 1,5*5 равна 0,22 (22%).
Аналогично: Р(Х < 1,75*5) = 0,40; Р(Х < 2*5)=0,51, т.е. ко времени 2*5, завершив процесс, выйдут четь больше половины студентов и т.д.
Из графика следует, что активное время выхода студентов по завершении теста (продолжительность самообслуживания) начинается с момента времени 5 и продолжается до момента V (где момент V - конец тестирования). Исходя из этого, начало координат на графике можно перенести на момент 5, т.к. до момента 5 никто не завершает тестирование (см. рис. 4). Как следует из частотной характеристики случайной величины X (интегральная характеристика) средняя продолжительность самообслуживания (тестирования) в активной зоне равна величине Т(ср) =5.
Из статистического анализа данных (см. рис. 4), следует, что при уровне значимости а = 0,05 (гипотеза проверялась по критерию х2) случайная величина X подчиняется экспоненциальному закону распределения с интенсивностью потока равным Я = 1/ Т(ср) = 1/5, т.е.
Г1 -е"*, х > 0 Р (х) = \ .
[0, х < 0
Из этого следует, что поток самообслуживающихся студентов является Пуассоновским потоком.
Из тех же рассмотренных экспериментальных данных известно, что в среднем из группы с 25 студентами, тест на положительную оценку не могут сдать 3,5 студента, и это не зависимо от продолжительности времени V. В целом, это означает, что в среднем примерно 14% студентов сдают тест на «два». Исходя из этой информации и данных графика, находим, что V = 3*5.
Таким образом, если, по мнению эксперта, у теста как инструментального средства показатели и = Е = 1, то ошибка оценки качества усвоенных знаний студента при продолжительности тестирования V = 3*5, не превышает 5%, где 5 - сложность (трудоемкость) теста. Этот результат формально можно записать так: Д£ = аЬ&(11-1) < 0,05, т.е. на практике надежность показателя Z1 как оценки теста не менее 95%.
Заключение
Итак, исходя из результатов исследований, следует, что при выполнении всех перечисленных условий к тесту как измерительному средству педагог должен действовать по следующему алгоритму:
1. Убедится, что качество содержания теста как измерительного инструмента соответствует норме.
2. Эксперт (педагог) должен оценить 5 - сложность (трудоемкость в мин/раб)
теста.
3. Задать для студентов продолжительность (трудоемкость) тестирования V=3*5 (мин/раб).
4. Провести процедуру тестирования.
Как показывает опыт, полученная эвристическая формула У=3*5, т.е. обоснованная продолжительность тестирования, можно использовать только в ограниченном диапазоне измерений 5. Экспериментально установлено, что этот диапазон равен 0 < 5 < 20 мин. При больших значениях 5, т.е. 5 > 20 погрешность оценки результата Д2. достаточно быстро возрастает, а это означает, что точность тестирующей системы падает. По гипотезе авторов, которая многократно проверялась, появляется новый фактор - усталость студента.
В общем случае, в результате системного анализа, нами было установлено неравенство Стнупе [4],
К - 5 > 2* Т(ср)
Это неравенство устанавливает количественное соотношение между величинами Т(ср), V, 5, которое можно использовать на практике, например, при известных Т(ср), 5 позволяет установить наименьшее допустимое значение продолжительности тестирования V. В частности при Т(ср) = 5, получаем ранее приведенное правило V = 3 *5.
Работа выполнена при поддержке гранта РФФИ (проект № 15-07-05761).
Литература
1. 1. Старыгина С.Д., Нуриев Н.К. Дидактическая инженерия: проектирование ЭОР для подготовки инженеров в метрическом компетентностном формате // Международный электронный журнал "Образовательные технологии и общество (Education Technology & Society)"
(http://ifets.ieee.org/russian/periodical/joumal.html). - 2016. - V.19. - N 1. - С. 567577. ISSN 1436-4522.
2. Нуриев Н.К., Старыгина С.Д., Гибадуллина Э.А. Дидактическая инженерия: теоретические основы // Международный электронный журнал "Образовательные технологии и общество (Education Technology & Society)" (http://ifets.ieee.org/russian/periodical/journal.html). - 2016. - V.19. - N 4. - С. 397411. ISSN 1436-4522.
3. Галеев И.Х. Проблемы и опыт проектирования ИОС // Международный электронный журнал "Образовательные технологии и общество (Education Technology & Society)" (http://ifets.ieee.org/russian/periodical/journal.html). - 2014. -V.17. - N 4. - С. 526-542. ISSN 1436-4522.
4. Старыгина С.Д., Нуриев Н.К., Печеный Е.А. Дидактическая инженерия: Оценка сложности и продолжительности теста достижений // Science of Europe 2017. -Vol 2. - № 14. - C. 17-21.