Дидактическая инженерия: проектирование информационной системы для экспертизы качества
содержания теста
Кошкина Ксения Валерьевна студент кафедры информатики и прикладной математики Казанский национальный исследовательский технологический университет, ул. К.Маркса, 68, г. Казань, 420015, (843)2314119 ksenia doc post@,mail.ru
Светлана Дмитриевна Старыгина доцент, к.п.н., доцент кафедры информатики и прикладной математики, Казанский национальный исследовательский технологический университет, ул. К.Маркса, 68, г. Казань, 420015, (843)2314119 svetacd [email protected]
Нуриев Наиль Кашапович профессор, д.п.н., заведующий кафедрой информатики и прикладной математики, Казанский национальный исследовательский технологический университет, ул. К.Маркса, 68, г. Казань, 420015, (843)2314119 nurievnk@mail. ru
Аннотация
Составляющими учебного курса являются: теоретический, практический, мультимедийный и диагностический материалы. При оценке качества учебного материала возникает проблемы точности и объективности этой оценки. Одним из способов объективизации оценки являются независимая групповая экспертиза. В целом, процедура такого рода экспертизы формализована, т.е. разработан математический аппарат, поэтому эта процедура может быть автоматизирована и представлена в виде информационной системы.
Components of the training course are: theoretical, practical, multimedia and diagnostic materials. In assessing the quality of educational material there is a problem of accuracy and objectivity of this assessment. One of the ways the objectiveness of the estimation are independent of the group examination. A procedure of this type of examination is formalized, i.e. developed mathematical apparatus, so that the procedure can be automated and presented in the form of an information system.
Ключевые слова
экспертиза учебного курса, групповая экспертиза, коэффициент конкордации, педагогический тест, оценка качества
examination training course, group examination, the coefficient of concordance, the pedagogical test, quality assessment
Введение
Одним из путей решения проблемы объективизации эвристических и интуитивных решений является метод экспертных оценок. Он часто применяется при
решении задач многокритериальной оптимизации, когда количественная оценка одного или нескольких критериев вызывает затруднения, или вообще не существует.
В основании метода экспертных оценок положена гипотеза о том, что совокупный накопленный опыт, в определенной области деятельности практикующими профессионалами, полученные методом проб и ошибок положительные результаты, эмпирически найденные приемы работы, не будучи тождественные точному знанию, в ряде случаев могут его заменить. Более того, в определенных условиях интуитивные догадки, выявленные при решении прикладных задач, могут организовать «ядро» новой теории, которая является обоснованной и точной.
Постановка задачи
Обозначим через Z1 значение результата тестирования, организованной по какой-то технологии Т на основе измерительной (тестовой) системы S.
В модели этот результат Z1 можно выразить как одно из значений функционала F зависящий от состояния факторов: Z - латентный (скрытый в когнитивной сфере студента) показатель качества, усвоенного им учебного материала; U - показатель качества измерительной (тестовой) системы S; R - показатель качества организаций процедуры тестирования по технологии Т; E - показатель качества защищенности результата теста Z1 от фальсификации. Формально эту зависимость можно записать так
Z1=F(Z, U, R, E).
Очевидно, точность результат тестирования dZ=abs(Z-Z1), будет зависеть от состояния факторов U, R, E.
Рассмотрим задачу оценки значения показателя качества U, т.е. значение показателя качества тестовой системы S.
Значение показателя U формально можно представить так:
U=U(VAL, REL, REP, KSM).
Приняты следующие обозначения:
- VAL - показатель валидности теста по содержанию (VAL е [0, 1]). Показатель равной единице, означает, что мнению эксперта, вопросы теста корректно и целесообразно сформулировать для оценки качества усвоения знаний.
- REL - показатель релевантности, характеризуют насколько вопросы принадлежат тестируемой предметной области (REL е [0, 1]).
- REP - показатель репрезентативности (изменяется от 0 до 1, т.е. насколько все части изучаемой предметной области представлены в тесте.
KSM - коэффициент «смещения» количества вопросов теста к какому-то типу, т.е. тест считается не смещенным, если KSM=1. Это не практике означает количество вопросов в тесте на полноту (POL) и целостность (CHL) в равном количестве [1]. В работе [2] приводится алгоритм определения значений этих показателей.
Коллективная экспертиза тестов
Для проведения экспертизы качества тестов у двух учебных курсов были приглашены шесть экспертов, имеющих значимый опыт работы с ними. Каждому из них предлагалось независимо друг от друга оценить по десятибалльной шкале их качество по четырем критериям.
Результаты работы экспертов и значения усредненных оценок представлены на рис. 1.
Критерии^^^^^ 1 2 3 4 5 6 Среднее значение
VAL 0,9 0,8 0,6 0,9 0,7 0,9 0,8
REL 0,8 0,7 0,8 0,7 0,7 1 0,783
REP 0,8 0,7 0,7 0,8 0,8 1 0,8
KSM 0,7 0,8 0,7 0,6 0,7 1 0,75
Рис. 1. Сводная таблица экспертных оценок качества тестов учебного курса
По данным из рис. 1 в едином круге построена диаграмма Кивиата для демонстрации качества теста по разным критериям (рис. 2).
Интегральную оценку качества теста можно вычислить как среднее геометрическое, т.е.
I = д/0,75 • 0,78 • 0,8 • 0,8 = 0,782 .
Таким образом, качество теста в рассматриваемом курсе равна 78% из 100% возможных, т.е., качество теста курса оценивается как «отлично» в принятой шкале оценки качества в вузе.
Результаты работы экспертной группы, полученные в ходе анкетирования должны пройти обязательную проверку на согласованность. Если мнения экспертов окажутся несогласованными, т.е. существенно отличаются внутри группы, результаты признаются непригодными для вынесения содержательных суждений о предмете экспертизы, а сама экспертиза не состоявшейся. Подобная ситуация может возникнуть либо по причине значительного отличия в уровне квалификации приглашенных экспертов, либо вследствие отсутствия общепризнанных критериев оценки обсуждаемой проблемы в сообществе специалистов. В первом случае затруднение легко преодолевается путем формирования новой группы экспертов, а во втором признается, что проблема созрела только для дискуссии, но не для экспертизы.
Общепринятым методом проверки согласованности мнений является метод, основанный на вычислении коэффициента множественной ранговой корреляции Кендалла-Смита коэффициент конкордации и проверки его статической значимости.
Для проведения процедуры проверки оценки, представленные экспертами, ранжируются: самой высокой оценки присваивается ранг 1, следующей - 2 и т.д. Одинаковым оценкам присваиваются одинаковые ранги, равные среднему
арифметическому их порядковых номеров. Такие ранги называются связанными. Сводные таблицы ранжирования представлены на рис. 3.
^^^^^Эксперты Критерии^^^^^ 1 2 3 4 5 6 I
VAL 1 1,5 4 1 3 4 14,5
REL 2,5 3,5 1 3 3 2 15
REP 2,5 3,5 2,5 2 1 2 13,5
KSM 4 1,5 2,5 4 3 2 17
Рис. 3. Сводная карта ранговых оценок
Для вычисления коэффициента Кендалла-Смита K воспользуемся известным соотношением
К = -
I (1Т)2
(т2(п3 - п) - т ■ 1Т
(1)
12
где Ту - ранг г - ого показателя у у - ого эксперта:
_ I 1
где п - число оцениваемых показателей; т - число экспертов в составе группы.
Т = V3 - т
з з з
где V - количество одинаковых связанных рангов, выставленных у - ым экспертом. Используя расчетное соотношение (2/2) получим
Т = 15; Т = V3 - V = 8 - 2 = 6; т = (8 - 2) + (8 - 2) = 12; Т = 27 - 3 = 24; 6,5
К = ■
1_
12
■ = 0,045
(36■60 - 6■72)
Невысокое значение коэффициента свидетельствует о несогласованности экспертных оценок. Тем не менее, убедимся в этом, проверив гипотезу
согласованности статистики по критерию X2. Воспользовавшись формулой
IIII (Ту- Т)2
X =-
1 1 т
(тиф +1)--- 1Т)
п 1 1=1
(2)
12
В нашем случае
6,5
X =
1 „ 72 ч
— (24 ■ 3--)
12 3
= 1,62
Сравним эту величину с табличным значением критерия для уровня значимости а = 0,05 степень свободы / = 3; х!6 = 7,8 > 1,62. Вывод - мнение экспертов не согласованное, относительно «отличного» качества теста. Разумеется, это снижает надежность оценки теста, т.е. мнение экспертов разошлись и верить этой оценке нельзя.
г=1 1-1
1
г=1 1=1
Г =
п
г =1 =1
Рассмотрим другой пример экспертизы теста. Результаты работы шести экспертов и значения усредненных оценок представлены на рис. 4.
^^^^^Эксперты 1 2 3 4 5 6 I
VAL 1 0,6 1 0,6 0,9 0,7 0,8
REL 0,9 0,5 1 0,7 0,8 0,5 0,73
REP 1 0,5 0,9 0,5 0,5 0,4 0,63
KSM 0,8 0,2 0,9 0,4 0,3 1 0,6
Рис. 4. Сводная карта экспертных оценок качества учебного курса
Для визуализированной демонстрации качества теста построим диаграмму Кивиата (рис. 5).
Рис. 5. Диаграмма Кивиата для многокритериальной оценки качества теста
Интегральную оценку качества курса оценивается как среднее геометрическое из средних значений показателей VAL, REL, REP, KSM, т.е.
I = ф,8 ■ 0,73 • 0,63 • 0,6 = 0,685.
Таким образом, качество теста экспертами оценивается (в принятой шкале качества теста в вузе) как «удовлетворительное».
Вычислим коэффициент К множественный ранговой корреляции Кендалла-Смита, который покажет согласованность мнений экспертов. Для этого мнения экспертов представим в рангах (рис.6).
^^^^^Эксперты Критерии^^^^ 1 2 3 4 5 6 I
VAL 1,5 1 1,5 2 1 2 9
REL 3 2,5 1,5 1 2 3 13
REP 1,5 2,5 3,5 3 3 4 17,5
KSM 4 4 3,5 4 4 1 20,5
Рис. 6. Сводная карта ранговых оценок
Проведем дальнейшее вычисления, аналогичные тем, которые сделали в первом примере при значениях / = 3, а = 0,05 .
К = 76,5_= 0,46
— (36 ■ 60 - 6 ■ 24) 12
X2 =_765_= 1434
Х ^ о 24 14,34
— (24 ■ 3--)
12 3
при этом х16 = 7,8 , т.е. мнение экспертом согласованное.
Таким образом, в рассматриваемом случае, согласованное мнение экспертов гласит, что качество теста учебного курса удовлетворительное.
Эскизный проект системы
Проектируемая систем (рис. 7) должна функционировать следующим образом: в базу учебных курсов (блок 1) загружаются содержание курсов, которые должны пройти экспертизу с целью оценки качества их тестов. Эксперт может вызвать для анализа любой курс, у которого (по многим критериям) должны быть оценены качества ряда его свойств (блок 2). Далее в автоматическом режиме обрабатываются мнения экспертов. Таким образом, оцененные по качеству курсы формируются в специальные базы (блок 3) для дальнейшего практического использования.
Корпоративная Web - система экспертизы тестов
1 База учебных курсов (до экспертизы)
< «
2 Система эксперизы
< г
3 База учебных курсов с оценкой качества тестов
Мг Мг
Загрузка курсов
Команда экспертов
Выгрузка курсов
Рис. 7. Структура организации компонент корпоративной web-системы
экспертизы тестов
Пример реализации системы экспертизы тестов
На рис. 8-10 представлен внешний вид информационной системы «Экспертиза педагогического теста».
Рис. 8. Информационная система «Экспертиза педагогического теста»
О Теория - а КЯ
Файл О программе
Рис. 9. Окно с выбором теоретического материала
Рис 10. Окно с выбором лекции
При нажатии на кнопки «Тест» на главном диалоговом окне, открывается форма с тестированием (рис. 11). Загрузка вопросов в тест происходит из папки, где хранятся файлы, содержащие в себе название теста, количество вопросов и сам банк вопросов.
В верхней части данного окна при помощи компонента ComboBox возможен выбор номера теста. Далее, при нажатии кнопки «Начать тест» в области компонента Memo идет загрузка вопросов и в компоненте RadioGroup варианты ответов. На данной форме фиксируется время прохождения теста в минутах, секундах. В нижней части формы помещён счётчик времени, указывающий время прохождения тестирования. Также в нижней части отражается количество данных пользователем ответов. Предусмотрена кнопка «Решение» для просмотра правильного ответа на поставленный вопрос в тесте. На форме предусмотрена защита от случайного нажатия на кнопку выхода из данного окна (рис. 12).
Тестируемый может завершить тестирование нажав на кнопку «Закончить тестирование», тем самым вызывая функцию ShowMessage, которая открывает новое окно с результатами тестирования.
О Тест
Файл Дополнительно О программе
ВОПРОС №3 Тест 1 V Начать тест
Ключ в базе данных - это ...
Варианты ответов: О Процесс группировки данных по определенным параметрам, С Поле, по которому выполняется фильтрация данных в таблице, С Поле или совокупность полей, однозначно определяющих записи в таблице, О Простейший объект БД для хранения значений одного параметра реального объекта или процесса.
ВОПРОСЫ 12 3 4^ 6 7 8 9 10 Решение
Минуты 0 Секунды 23 Дано ответов: 2/10
Далее ф Закончить тестирование
Рис. 11. Основное диалоговое окно тестирования
Рис. 12. Основное диалоговое окно тестирования
При нажатии на кнопки «Анализ» на главном диалоговом окне, открывается форма с оценкой теста на сложность, релевантность, представительность (рис. 13). Для ввода новых данных, в меню в верхней части окна следует выбрать Запись-> Добавить> Изменить (рис. 14). В появившейся форме ввода данных пользователь забивает соответствующие значения, которые автоматически записываются в основное диалоговое окно тестирования и в базу данных 'Test.accdb' (рис. 15). Существует функция построения графика по общим данным представительности теста. Для построения следует выбрать в меню Файл-> Построить график. Это действие вызовет открытие формы вывода данных в виде диаграммы (рис. 16).
Файл Запись О програм
Сложность теста
Оценка сложности теста: мин/раб.
Номер теста Бопрос№1 Бопрос№2 Бопрос№3 Бопрос№4 Бопрос№5 Бопрос№б Бопрос№7 Бопрос№8 Бопрос№9 БопросМ л
Релевантность теста
Релевантность теста: [ОД]
Номер те ста Вопрос№1 Бопрос№2 Бопрос№3 Вопрос№4 Вопрос№5 Вопрос№б Вопрос№7 Вопрос№8 Вопрос№9 БопросМ л
1 0,8 0,5 0,9 0,9 0,7 1 1 0,1 1 1
2 0,4 0,9 0,7 0,9 0,8 0,9 0,7 0,9 0,8 1
3 0,7 0,9 0,9 0,9 0,8 0,9 0,9 0,9 0,7 0,9
< >
Представительность теста Предсгавительносгь[0,1]
Рис. 13. Основное диалоговое окно анализа
Рис. 14. Форма ввода данных
Рис. 15. База данных «Test»
Рис. 16. Форма вывода данных в виде диаграммы
Разработано автоматизированное рабочее место эксперта/преподавателя, которое включает в себя: возможность просмотра теоретического материала, тестирование, анализ заданий на сложность.
Данные программа загружает из файлов, полученные результаты записываются в базу данных.
Заключение
На практике с использование системы «Экспертиза педагогического теста» проведен анализ с целью установления их качества. В эксперименте участвовало 48 учебных курсов, предназначенных для подготовки студентов в метрическом компетентностном формате [3, 4] по направлению «Информационные системы и технологии». Получены следующие результаты: 9 курсов имеют показатель качества в интервале [0,88; 1]; 19 курсов - [0,734 0,87]; у 3 курсов показатели оказались неудовлетворительными, т.е. ниже 0,6.
Работа выполнена при поддержке гранта РФФИ (проект № 15-07-05761).
Литература
1. Старыгина С.Д., Нуриев Н.К., Печеный Е.А. Построение математической модели процесса регламентации педагогического тестирования // Информационные технологии и математическое моделирование (ИТММ-2017): мат. XVI междунар. конфр. им. А.Ф.Терпухова. - Томск: Изд-во НТЛ, 2017. - С. 223-229.
2. Старыгина С.Д., Печеный Е.А., Нуриев Н.К. Построение математической модели измерительного средства педагогического тестирования // Информационные технологии и математическое моделирование (ИТММ-2017): мат. XVI междунар. конфр. им. А.Ф.Терпухова. - Томск: Изд-во НТЛ, 2017. - С. 229-234.
3. Нуриев Н.К., Старыгина С.Д., Гибадуллина Э.А. Дидактическая инженерия: теоретические основы // Международный электронный журнал "Образовательные технологии и общество (Education Technology & Society)" (http://ifets.ieee.org/russian/periodical/journal.html). - 2016. - V.19. - N 4. - С. 397411. ISSN 1436-4522.
4. Старыгина С.Д., Нуриев Н.К., Печеный Е.А. Дидактическая инженерия: Оценка сложности и продолжительности теста достижений // Science of Europe 2017. -Vol 2. - № 14. - C. 17-21.