Научная статья на тему 'Модели и процедуры оценки результатов компьютерного тестирования знаний'

Модели и процедуры оценки результатов компьютерного тестирования знаний Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
566
148
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КРИТЕРИАЛЬНО-ОРИЕНТИРОВАННОЕ ТЕСТИРОВАНИЕ / ИЗМЕРЕНИЕ И ОЦЕНИВАНИЕ РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ / CRITERION-ORIENTED TESTING / MEASURING AND EVALUATION OF TESTING RESULTS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Печников Андрей Николаевич, Туровская Алиса Олеговна, Туктаров Ринат Равильевич

В статье рассмотрены недостатки существующих методов оценки результатов критериально-ориентированного тестирования знаний и предложены модели и процедуры, обеспечивающие объективность и дифференцированность оценки результатов тестирования знаний.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Печников Андрей Николаевич, Туровская Алиса Олеговна, Туктаров Ринат Равильевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In article shortcomings of existing methods of an assessment of results of the criteria focused testing of knowledge are considered and models and the procedures providing objectivity and differentiation of results of testing of knowledge are offered.

Текст научной работы на тему «Модели и процедуры оценки результатов компьютерного тестирования знаний»

Модели и процедуры оценки результатов компьютерного

тестирования знаний

Печников Андрей Николаевич Заслуженный деятель науки РФ, д.п.н., д.т.н., профессор, профессор кафедры педагики Военная академия связи имени Маршала Советского Союза С.М. Буденного, 194064, Санкт-Петербург, Тихорецкий проспект, д. 3, (812) 247-93-72 pan287@users.mns.ru

Туровская Алиса Олеговна к.п.н, научный сотрудник ЗАО “Фирма “Пассат”,

198514, Санкт-Петербург, ул. Разводная, д. 17, (812) 427-20-21 a iline@mail.ru

Туктаров Ринат Равильевич старший преподаватель факультета военного обучения, Государственный морской университет имени адмирала Ф.Ф. Ушакова 353918, Новороссийск, пр. Ленина, д. 93, (8617) 71-74-63 tukrinat@mail.ru

Аннотация

В статье рассмотрены недостатки существующих методов оценки результатов критериально-ориентированного тестирования знаний и предложены модели и процедуры, обеспечивающие объективность и дифференцированность оценки результатов тестирования знаний.

In article shortcomings of existing methods of an assessment of results of the criteria focused testing of knowledge are considered and models and the procedures providing objectivity and differentiation of results of testing of knowledge are offered.

Ключевые слова

критериально-ориентированное тестирование; измерение и оценивание результатов тестирования.

criterion-oriented testing; measuring and evaluation of testing results.

Введение

Компьютерное тестирование сегодня является одним из наиболее распространенных методов и средств педагогического контроля знаний обучающихся. Характеристики компьютерных средств тестирования (КСТ) и методики их применения широко обсуждаются в педагогическом сообществе. При этом обсуждаются инструментальные средства создания КСТ [1], сравниваются различные виды КСТ [2], оцениваются влияния видов и сложности тестовых заданий на результаты тестирования [3,4], описываются различные методические приемы применения КСТ [5,6,7,8]. Гораздо меньше публикаций направлено на совершенствование самих процедур критериально-ориентированного тестирования. К числу этих процедур и относится процедура оценки результатов тестирования, которая рассматривается ниже.

Тестирование определяется как “один из наиболее стандартизованных и объективных методов контроля и оценивания знаний, умений и навыков испытуемого, который лишен таких традиционных недостатков других методов контроля знаний, как неоднородность требований, субъективность экзаменаторов, неопределенность

системы оценок и т.п.” [9]. Однако указанное положение об объективности педагогического тестирования не может быть полностью распространено на критериально -ориентированные тесты, позволяющие оценить уровень подготовленности испытуемых в конкретной предметной области по несвязанному с процедурой тестирования внешнему критерию. Так, из основных форм закрытых тестовых заданий в современных КСТ объективно оцениваются только задания в форме “одиночный выбор”, когда испытуемый должен выбрать один вариант ответа из нескольких предложенных. В остальных формах заданий процедура объективного измерения результатов тестирования заменяется процедурой субъективной идентификации этих результатов по правилам, установленным преподавателем или разработчиком теста. К таким формам закрытых критериально-ориентированных тестовых заданий относятся: 1) форма “множественный выбор”, когда испытуемый должен выбрать несколько вариантов ответа из нескольких предложенных; 2) форма “соответствие”, когда тестируемому нужно упорядочить два списка таким образом, что бы они соответствовали друг другу; 3) форма “упорядоченный список”, когда тестируемому нужно упорядочить список в определенном порядке.

Общепринятые методы обработки результатов выполнения тестовых заданий таких форм отсутствуют. Так для оценки результатов тестирования в форме “множественный выбор” рассматривается ряд неформальных рекомендаций и формальных моделей.

Неформальные рекомендации сводятся к формулировке некоторого правила назначения балла оценки. В.С. Аванесов в [10] рекомендует за полностью правильное решение дать три балла, за каждую ошибку снимать один балл. Если ошибок больше трех, то давать 0 баллов. М.Б. Челышкова [11] рекомендует за полностью выполненное задание с выбором нескольких верных ответов давать 1 балл и 0 баллов за, хотя бы один, неверный ответ. В.Ю. Переверзев в [12] описывает метод “частичного балла” (partial credit), в котором за каждый правильно выбранный ответ дается 1 балл, за неправильно выбранный ответ - 0 баллов. Штрафные баллы в этом методе не предусмотрены. По мнению В.С. Кима [13] использование заданий с выбором одного верного ответа предпочтительней и лучше заменять одно задание с выбором нескольких верных ответов на несколько заданий с выбором одного верного ответа.

Известные формальные методы и модели [14,15] либо не имеют ясного обоснования, либо, вообще, приводят к некорректным результатам.

Например, в [15] эталонный ответ и результаты тестирования представляются соответственно в виде векторов X = (x,x, ••• X, ••• X) и Y = (y,y2,y,... yn), в которых элементы x, У равны 1, если их выбор верен, и равны 0, если их выбор не верен. Различия между этими векторами оцениваются “манхэттенским расстоянием”, рассчитываемым по формуле

j i=n

r = 7SIX -y |, (1) ktt

где: к - количество верных пунктов ответа в векторе X.

В [15] указано, что рассчитанные по (1) оценки изменяются в интервале [0,1]. При этом имеют место следующие соответствия: 1) r = 0 - все пункты верных ответов выбраны; 2) r = 1 - тест полностью не пройден; 3) 0 < r < 1 - тест пройден частично. Работоспособность модели (1) в [15] демонстрируется на примере, где исходным данным X = (0,1,0,1,0) Y = (0,1,0,0,0) по (1) соответствует оценка r = 0,5(0 + 0 + 0 +1 + 0) = 0,5 . Но если рассмотреть пару X = (0,1,0,1,0), Y = (1,0,1,0,1), то формула (1) дает результат r = 0,5(1 +1 + 1 + 1 + 1) = 2,5 , который лежит за пределами интервала [0,1] изменения r.

Аналогичные несоответствия имеют место и в отношении формальных методов и моделей оценок тестовых заданий в формах “соответствие” и “упорядоченный список”.

Для устранения подобных несоответствий процедур измерения результатов критериально-ориентированного тестирования предлагается использовать данные теории распознавания образов [16].

В [17] обосновано, что ответы как на перечисленные выше формы закрытых тестовых заданий (“множественный выбор”, “соответствие” и “упорядоченный список”), так и производные от них формы, могут быть сведены к двум базовым формам ответов: МНОЖЕСТВО (неупорядоченное множество) элементов или СПИСОК (упорядоченное множество). Поэтому дальнейшее описание предлагаемых процедур измерения и оценивания результатов тестирования приводится в отношении последних двух базовых форм тестовых заданий.

Обработка ответов обучающегося типа МНОЖЕСТВО

Постановка задачи оценки ответа типа МНОЖЕСТВО: Пусть дано (см. рис.

1): 1) множество V исходных альтернатив тестового задания; 2) множество МО, характеризующее ответ обучающегося; 3) множество МЭ, характеризующее эталонный ответ. Пусть для МО, МЭ выполнено условие

(М0 с V) л (Мэ с V), (2)

где: V = {а,} (/ = 1, V; V < да), М0 = {а;.}(г = 1,п, п < V) , М3 = {а;.} (г = 1,т, т < V).

Требуется оценить ответ испытуемого в традиционной 4-балльной шкале

Решение задачи: Введем функцию г(М1,М^) е[0,1], которая бы являлась мерой различия множеств М и и удовлетворяла следующим требованиям: 1) г = 0, если МО и МЭ состоят из одних и тех же элементов, т.е. М0 = Мэ = М0 пМэ = М0 ^Мэ (если М0 = 0 и Мэ = 0, то М = М?); 2) г = 1, если М0 пМэ = 0; 3) 0 < г < 1, если М0 пМэ ф 0.

Такую меру различия между МО и МЭ предлагается представить в виде

г=, _ >т п м,) = 1_к = 1—к_, (3)

п(М1 ^М^ ) I т + п _ к

где: п(М1 пМ}) = к - число элементов в множестве К = Ма пМэ (число одинаковых элементов в МО и МЭ), п(М1 ^М^) = I = п + т _ к - число элементов в множестве Ь = Ма ^ Мэ (общее число неповторяющихся элементов множеств МО и МЭ).

Мера (3) отвечает всем предъявленным к ней требованиям и представляет собой меру различия, коэквивалентную мере сходства Жаккара [18,19].

Практически расчет ее значения сводится:

1) к подсчету (см. табл. 1) числа т решений вида “да” обучающегося, числа п решений вида “да” в эталонном ответе и числа к совпадений решений вида “да” в ответах обучающегося и эталонном ответе;

2) подстановке полученных значений т,п,к в (3).

Таблица 1

Форма представления ответа типа МНОЖЕСТВО

Альтернативы (элементы 0у множества V ) 1 2 і V

Ответ обучающегося (элементы 0° множества М0) нет да да нет

Эталонный ответ (элементы 0^ множества МЭ) да да нет да

В теории системно-информационного анализа [20] введено понятие неупорядоченности q как меры различия какого-либо выбранного параметра х,■ в отношении эталона порядка хэт, которая стремится к нулю при xj ^ хэт. Оценка (3) соответствует этому понятию, что позволяет организовать процедуру оценивания измеренных результатов по схеме, предложенной в [21]:

1. Абсолютная неупорядоченность ответа испытуемого оценивается как:

д = г2. (4)

2. Рассчитывается оценка N в традиционной 4-балльной шкале:

£

(5)

где: S=2 qe=32qeг — коэффициент, адаптирующий количественное выражение балла оценки к традиционной 4-балльной шкале; qeг - максимальная оценка q, не вызывающая снижения балла оценки (более подробно см. [21]).

Применение формул (2-5) обеспечивает возможность настройки балла оценки на систему предпочтений преподавателя за счет изменения qeг.

Обработка ответов обучающегося типа СПИСОК

Постановка задачи оценки ответа типа СПИСОК: Пусть выборочные ответы ХО вида СПИСОК и соответствующий им эталон ХЭ определены на исходном множестве V следующим образом:

(X э ={а1; а2,..., аак })л (М = ЬЬ^..^Ьи^Ъ!})л

V = Хэ и М; (

1, 2,

X э = рк =|

( (1, 2, М Ф Р =1 ч Р [ Ьі,Ь2,

Xо Є V

і,.. ., к 11

а.. ., ак

И,.. , 5 11

ЬИ .. ■, Ь 1

(і = 1, к); (И = 1, 5)

(6)

Необходимо определить оценку N(Х0, Хэ) ответа ХО испытуемого в традиционной 4-балльной шкале.

Решение задачи: Для решения подобных задач применяется два метода. Метод Кендалла [16] обеспечивает получение оценок г =[0,1], соответствующих принятой мере различия, но работоспособен только при одинаковых числе и номенклатуре элементов в списках. Метод Фора [16] работоспособен при любом наборе эле-

ментов, но неоднозначен и исключает нормирование оценок, а значит и их представление в традиционной 4-балльной шкале. Ниже предлагается метод, который базируется на модели (3) оценки ответа типа МНОЖЕСТВО, методе Кендалла и процедуре создания пустых элементов, применяемой в методе Фора.

В соответствии с (6) список ХО может содержать элементы вида Ъи, на которых не может быть определено отношение порядка. Поэтому в общем случае расчет оценки N (Х0, Хэ) предлагается производить в 4 этапа.

Этап 1. Оценка неупорядоченности ц (Х0,Хэ) ответа испытуемого (списка

ХО) относительно эталона (списка ХЭ) по номенклатуре элементов.

Списки ХО и ХЭ рассматриваются как неупорядоченные множества, а неупорядоченность их номенклатуры оценивается по формулам (3,4).

Этап 2. Оценка неупорядоченности ц2 (Х0,Хэ) ответа испытуемого (списка

ХО) относительно эталона (списка ХЭ) по упорядоченности элементов.

В соответствии с (6) списки ХО и ХЭ имеют вид

ХО = {а,, ьи} > (7)

* ( 1, 2, ..., /,..., к Л —

Хэ = рк =1 (/ = 1, к) , (8)

а,а,..., а...,а,

к )

где: I = 0,/ (/ < к), и = 0, g (^ < 5).

Произведем в списке ХО замену всех элементов вида Ъи на пустой элемент 1 (процедура, применяемая в методе Фора), обладающий свойством

у а е Х0 ^ а = 1, (9)

в случае к < п = / + g дополним список ХЭ элементами аА+1,..., ая равными 1, а в случае к > п = / + g — списокХО элементами ап+р...,^ равными 1.

Списки ХО и ХЭ примут вид перестановок, которые имеют одинаковый состав элементов, а значит могут быть корректно оценены по методу Кендалла:

1. Определяются коэффициенты сравнения:

+1 при хи > хл Д'л = ] -1 при хи < хЛ , где I < к . (10)

. 0 при х и = х к

2. Рассчитывается нормированная оценка Кендалла:

г = Т 7 77'^Д1кД1к . (11)

2 п(п -1) ,<к

Оценка гш (Х0, Хэ) по формуле (11) формально и по смыслу соответствуют понятию неупорядоченности, откуда в соответствии с (4) <ц (Х0, Хэ) = гс2.

Этап 3. Оценка общей неупорядоченности ц = /(ц,ц2) ответа испытуемого (списка Х) относительно эталонного ответа (списка Х0).

Общая неупорядоченность ответа вида СПИСОК определяется как

ц = 1-(1-^(1 -д2). (12)

Этап 4. Определение оценки выборочного ответа типа СПИСОК в традиционной 4-балльной шкале.

Оценка рассчитывается путем подстановки в (5) значения q, определенного по

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В совокупности с моделью и процедурой оценки тестовых заданий в форме

“одиночный выбор” представленные выше модели и процедуры обеспечивают объективность и дифференцированность оценки всех известных форм тестовых заданий.

Использованная литература:

1. Клыков В.Е., Денисевич Т.В., Филатова Н.Н.. Оболочка для создания тестирующих программ // Образовательные технологии и общество (Educational Technology & Society). - 2003. - Т. 6.- № 3. - С. 116-120. URL: http://elibrary.ru/download/31674325.pdf

2. Галеев И.Х., Иванов В.Г., Аристова Н.В., Урядов В.Г. Сравнительный анализ программных комплексов TestMaker и ACT-Test // Образовательные технологии и общество (Educational technology & Society) - 2007. - Т. 10 -№ 3.- С.336-360. -URL: http://elibrary.ru/download/29640481 .pdf .

3. Кинцель Д.А., Кузнецов А.В. Нечисловой подход к моделям тестирования и оцениванию параметров тестов // Образовательные технологии и общество (Educational Technology & Society). - 2007. - Т. 10. - № 1. - С. 276-281. URL: http://elibrary.ru/download/51665322.pdf

4. Сафаров Р.Х., Панищев О.Ю. Численное моделирование инвариантности оценки знания относительно трудности тестовых заданий в рамках модели Г. Раша // Образовательные технологии и общество (Educational Technology & Society). -2012. - Т. 15. - № 1. - С. 424-435. URL: http://elibrary.ru/download/71724984.pdf

5. Хохлов Д.Г., Захарова З.Х., Захаров А.Н. Оценка уровня подготовки в системе электронного обучения программированию // Образовательные технологии и общество (Educational Technology & Society). - 2012. - Т. 15. - № 1. - С. 537-554. URL: http://elibrary.ru/download/68618600.pdf

6. Сафаров Р.Х., Хрусталев А.В. Типы вопросов тематических тестов по классической механике на основе программного продукта TestMaker // Образовательные технологии и общество (Educational Technology & Society). - 2010. - Т. 13. -№ 1. -С. 281-292. URL: http://elibrary.ru/download/57753121 .pdf

7. Осадчий В.В. Компьютерная система рейтингового оценивания знаний, как средство повышения уровня знаний студентов. // Образовательные технологии и общество (Educational Technology & Society). - 2013. - Т. 16. - № 2. - С. 361-371. URL: http://elibrary.ru/download/75320260.pdf

8. Галеев И.Х. Компьютерный контроль знаний (локально и дистанционно) / И.Х. Галеев, В.Г. Иванов, Д.Л. Храмов, О.В. Колосов; Под ред. И.Х. Галеева. - Казань: Казанский государственный технологический университет, 2005. - 126с.

9. ОСТ Т 1.1. Педагогические тесты, термины и определения. Отраслевой стандарт (первая редакция). - М.: Министерство образования РФ, 2001. - 13с. URL: http://bank.orenipk.ru/Text/t19 135.htm .

10. Аванесов В.С. Форма тестовых заданий. -М.: Центр тестирования, 2005. -156 с. URL: http://www.twirpx.com/file/626051/ .

11. Челышкова М.Б. Теория и практика конструирования педагогических тестов: Учебное пособие. - М.: Логос, 2002. - 432 с. URL: http://www.twirpx.com/file/101903/ .

12. Переверзев В.Ю. Технология разработки тестовых заданий: справочное руководство. -М.: Е-Медиа, 2005. -265 с.

13. Ким В.С. Тестирование учебных достижений: Монография. - Уссурийск: Издательство УГПИ, 2007. - 214 с. URL: http://www.twirpx.com/file/639729/

14. Карпова И.П. Некоторые аспекты качественной оценки ответов тестируемых в системах контроля знаний // Вопросы тестирования в образовании, 2006, № 4 (26), С. 22-31. иКЬ: http://www.rema44.ru/resurs/papers/karpova/stat9.doc .

15. Кумаритов А.М., Дубенко Ю.В. Методы и алгоритмы контроля знаний и оценки эффективности автоматизированных обучающих систем на производственном предприятии // Аудит и финансовый анализ, 2009, №2, С. 455-467. иКЬ: http://www.auditfїn.com/fш/2009/3/11 01/11 01%20.pdf .

16. Фор А. Восприятие и распознавание образов / Пер. с фр. / Под ред. Г.П. Катыса.

- М.: Машиностроение, 1989. - 272 с.

17. Карпова И.П. Исследование и разработка подсистемы контроля знаний в распределенных автоматизированных обучающих системах: Дисс. ... канд. техн. наук. - М.: МГИЭМ, 2002. - 239с. ЦКЬ: http://www.twirpx.com/file/344282/ .

18. Сёмкин Б.И., Двойченков В.И. Об эквивалентности мер сходства и различия // Исследование систем. Т. 1. Анализ сложных систем. - Владивосток, 1973. - С 95-104.

19. Андрейчиков А.В., Андрейчикова О.Н. Анализ, синтез, планирование решений в экономике. - М.: Финансы и статистика, 2000. - 368 с. иЯЬ: http://www.twirpx.com/file/657537/

20. Горский Ю.М. Системно-информационный анализ процессов управления. - Новосибирск: Наука. Сиб. Отд-ние, 1988. - 268с.

21. Печников А.Н. Теоретические основы психолого-педагогического проектирования автоматизированных обучающих систем. - Петродворец: ВВМУРЭ, 1995. -326с. иКЬ: http://www.pedlib.rU/Books/1/0224/1 0224-1^Ыт1 .

i Надоели баннеры? Вы всегда можете отключить рекламу.