Эвристический алгоритм совершенствования технологии оценки качества тестовых заданий

Ризун Н.О.

7. Синтез цифровых фильтров для многосвязных систем / Зотов В.Г., Авраменко А.Ф.: Харьк. авиац. ин - т. - Харьков, 1988. 8с.

Библиогр. 4 назв. - Рус. - Деп. в ВИНИТИ 03.05.1988, № 3349 - В88.

8. Дидук Г.А. Методы теории матриц и их применение для автоматизации исследований при проектировании систем управления [Текст] / Г. А. Дидук. - Л.: - Л.: СЗПИ, 1986. - 83 с.

9. Аренс, В. Д. Динамика систем управления ракет с бортовыми вычислительными машинами [Текст] : / В. Д. Аренс, М. С. Хи-

трик, С. М. Федоров; под ред. М. С. Хитрика, С. М. Федорова; - М.: Машиностроение, 1972. - 232 с.

10. Айзенберг Я.Е. Проектирование систем стабилизации носителей космических аппаратов [Текст] / Я. Е. Айзенберг, В. Г. Сухоре-брый. - М.: Машиностроение, 1986. - 224 с.

11. Микишев Г.Н. Динамика твердого тела с полостями, частично заполненными жидкостью [Текст] / Г.Н. Микишев, Б.Н Рабинович. - М.: Машиностроение, 1968.

-------------------□ □-----------------------

Запропоновано евристичний алгоритм вдосконаленні технології оцінювання якості тестового матеріалу із урахуванням швидкості виконання тестових завдань різної складності. Формалізована евристична процедура переробки тестового матеріалу, яка полягає у встановленні можливих причин та шляхів усунення низької якості завдань Ключові слова: евристичний алгоритм, швидкість виконання тестового завдання, тестовий матеріал, рівень складності завдання

□------------------------------------□

Предложен эвристический алгоритм совершенствования технологии оценки качества тестового материала с учетом скорости выполнения тестовых заданий различной сложности. Формализована эвристическая процедура переработки тестового материала, состоящая в установлении возможных причин и путей устранения низкого качества заданий

Ключевые слова: эвристический алгоритм, скорость выполнения тестового задания, тестовый материал, уровень сложности задания

□------------------------------------□

The heuristic algorithm of perfection of quality assessment technology for testing material with a glance on the rate of different complexity tests’fulfillment is suggested. The heuristic procedure of testing material processing is formalized. It consists in ascertainment of possible reasons and ways of low task quality removal Key words: heuristic algorithm, tests’ fulfillment rate, testing material, test complexity level

-------------------□ □-----------------------

УДК 681.3:378.146

ЭВРИСТИЧЕСКИЙ АЛГОРИТМ СОВЕРШЕНСТВОВАНИЯ ТЕХНОЛОГИИ ОЦЕНКИ КАЧЕСТВА ТЕСТОВЫХ ЗАДАНИЙ

Н . О. Р и зу н

Кандидат технических наук, доцент Кафедра экономической кибернетики и математических

методов в экономике Днепропетровский университет экономики и права наб. Ленина, 18, г. Днепропетровск, Украина, 49000 Контактный тел.: (056) 713-43-99 Е-mail: п fedo@mail.ru

Введение

Тестовые формы контроля знаний студентов на современном этапе являются одним из наиболее перспективных средств повышения эффективности процесса

обучения. К безусловным достоинствам тестовых технологий контроля знаний относятся объективность и независимость, возможность оперативной оценки большого количества студентов при достаточно полном охвате материала изучаемого курса. Следует от-

э

метить, что если на первых этапах внедрения системы автоматизированного тестирования в учебный процесс главный акцент делался на решение проблем программного и технического обеспечения процесса тестирования при стандартной статистической обработке его результатов, то на современном этапе актуальной проблемой является разработка реализация новых эффективных инструментов анализа и оценки показателей качества тестовых заданий.

Постановка проблемы

Известно, что качество теста во многом определяется качеством начального тестового материала, зависящего прежде всего от правильности процесса планирования его содержания. Однако, зачастую, необходимость создания банков тестовых заданий по многим дисциплинам, а также субъективные особенности мышления и построения выражений преподавателями-экспертами, зачастую приводит к тому, что главным и практически единственным формальным критерием оценки качества теста является полнота отображения в тестовом материале содержания дисциплины.

Существование классической теории тестирования и анализа качества тестового материала по результатам предварительного контроля [1] в большинстве случаев остается на уровне теоретической постановки и не имеет практического применения, так как: с одной стороны, в силу необходимости обработки больших статистических массивов, требует наличия специализированных программных продуктов, адаптированных под используемую оболочку тестирования; с другой - обусловливает необходимость значительного увеличения временных и интеллектуальных затрат на формирование конечного варианта теста, что часто воспринимается как необоснованный и нецелесообразный шаг.

Тем не менее, экспериментально установлено, что до 90% используемых на практике тестов, не прошедших экспертизу анализа и оценки их качества, характеризуются неудовлетворительными показателями надежности и валидности, а, значит, не обеспечивают объективность процессов оценивания знаний студентов и интерпретации результатов тестирования, и, как следствие, не соответствуют требуемому уровню качество обучения в целом.

Кроме того, результаты проведенных исследований позволили сделать вывод о том, что и использование классической теории тестирования не всегда гарантирует получение высоких показателей качества тестового материала. Отбрасывать все, даже немного подозрительные вопросы, нецелесообразно, т.к. возникает опасность нарушения содержательной целостности и полноты тестового материала. Пересматривать и редактировать заново все оставшиеся вопросы тестового материала является достаточно трудоемким и неэффективным способом, особенно если эту работы выполняет тот же преподаватель-эксперт, которых их и составлял.

Таким образом, проблема разработки современных методик анализа тестового материала с помощью новых эффективных критериев оценки его качества является актуальной и важной научной задачу.

Анализ последних публикаций

Анализ последних публикаций свидетельствует о том, что вопрос совершенствования системы оценки качества тестового материала развивается в следующих направлениях: использование в матрице результатов тестирования не дихотомической, а непрерывной шкалы [2, 3], что позволяет более тонко измерять уровень знаний студентов; создание комплексной экспертизы качества тестовых заданий и тестов при формировании банка данных, включающей этапы предварительной, внутренней и технологической экспертизы по показателям надежности и валидности [4]; экспертная оценка качества тестовых заданий [5].

Нерешенные части общей проблемы

Основными особенностями большинства данных разработок является:

1. Акцент в основном на разработку методик и программного обеспечения различных форм анализа тестового материала, использующих классические показатели оценки качества. Тем не менее, как было сказано выше, классическая теория не всегда позволяет достичь необходимых показателей качества теста, и ее доработка является важной современной задачей.

2. Показатель времени выполнения задания ([6]) рассматривается только с точки зрения возможности прогнозирования успешности выполнения данного задания разными по уровню подготовки обучающимися. Однако, как подтверждает практика, показатель фактического времени выполнения задания представляет собой комплекс информации о качестве тестового задания.

3. Большинство методик направлено на установление факта, но не причины низкого качества тестового задания. В связи со сложностью формализации отсутствуют структурированные методики и алгоритмы переработки некачественных тестовых заданий, выявленных на этапе оценки качества тестового материала.

Целью статьи является совершенствование технологии оценки качества тестового материала за счет ввода в рассмотрение фактора времени выполнения тестовых заданий, позволяющего сократить область поиска несостоятельных вопросов рассматриваемого тестового материала путем:

- разработки эвристического алгоритма расширенного анализа качества тестового материала с целью выявления вопросов, фактическая скорость выполнения которых свидетельствует о несоответствии установленному уровню сложности, а, следовательно, о низкой дифференцирующей способности теста в целом;

- формализация эвристической процедуры переработки тестового материала на основании показателя фактической скорости выполнения тестовых заданий различной сложности, состоящей в установлении возможных причин и путей устранения ”проблемности” вопросов, выявленных на этапах классического и расширенного анализа теста, с точки зрения согласованности тестируемых по критерию фактического времени, потраченного на ответ.

Е

Результаты исследований

равным; в каждой теме используются вопросы двух степеней сложности.

Предлагаемый автором алгоритм совершенствования технологии оценки качества тестовых заданий базируется на следующих эвристиках:

1. Задания в тестовом материале характеризуются различным уровнем сложности. Значения уровня сложности необходимо идентифицировать и учитывать на этапах оценки качества знаний и формализации результатов тестирования.

2. Показатель времени выполнения тестового задания является характеристикой: устойчивости знания студента; вероятного угадывания правильного результата; степени сложности тестового задания.

3. Эталоном времени на выполнение тестового задания определенной сложности можно считать время, потраченное на него преподавателем-экспертом.

4. На этапе оценки качества тестового материала соотношение между нормативным (установленным экспертным путем) и фактическим временем на выполнение тестового задания можно рассматривать как показатель: объективности нормативно установленного времени, как показателя степени сложности тестового задания; дифференцирующей способности теста, а также устойчивости результатов тестирования.

В соответствии с перечисленными эвристиками предлагаемый автором статьи алгоритм совершенствования классической технологии оценки качества тестового материала предполагает выполнение следующих этапов:

1. Разработка и реализация алгоритма идентификации уровня сложности тестовых заданий.

2. Организация и проведение экспертизы по установлению значения среднего нормативного времени на выполнение тестового задания экспертным путем.

3. Проведение процедуры анализа качества исходного тестового материала в соответствии с классической теорией тестирования.

4. Разработка и реализация эвристического алгоритма расширенного анализа качества тестового материала на основании показателя фактической скорости выполнения тестовых заданий различной сложности.

5. Формализация эвристической процедуры переработки тестового материала по результатам расширенного анализа качества тестового материала.

6. Проведение контрольного тестирования на откорректированном тестовом материале.

Данный алгоритм будет рассматриваться в статье на примере результатов его апробации при проведения процедуры анализа качества тестового материала по дисциплине ’’Системы поддержки принятия решений” с помощью программной оболочки ’Сетевое тестирование” [7]. С целью сокращения объемов предоставляемой статистической информации будут представлены выборочные данные по 10 студентам при количестве тестовых заданий, равном 12.

Этап №1 предполагает идентификацию показателя сложности вопросов по трем темам тестового материала, включенным в тестовый сеанс, на основе методики многокритериального анализа вариантов с использованием нечеткой логики и экспертных оценок [8]. В приведенных в табл. 1 результатах расчетов количество вопросов в каждой теме принимается

з.................................................

Таблица 1

№ темы Иденти- фикатор степени сложности темы Идентификатор степени сложности вопроса

а1=0,30 Уровень (ранг) а2=0,70 Уровень (ранг)

1 СЧ о" II -о X о о" II уТ -11 =1 8 ч-Н уТ О = 3 II сг

2 (.с сч о" II -о э21 =0,08 -21 =1 = ° 2 8 3 II 2 и

3 СО о" II ГО -о 0, II ГО СЛ 2 II ГО и Э32 =0,34 4 II 3 и

В табл. 1: di - весовые коэффициенты, количественно характеризующих относительную степень сложности темы (і=1,п, где п=3); а, - весовые коэффициенты относительной степени сложности вопросов 0=1,т, где т = 2); sij=di *а, - весовые коэффициенты отдельных ее вопросов темы; г^ - относительный уровень (ранг) сложности вопросов (ранг, равный 1, соответствует наименьшей сложности вопроса).

По результатам данных расчетов первые две темы имеют равную сложность, коэффициенты относительной степени сложности внутри каждой темы равны соответственно 0,30 и 0,70. В тесовом сеансе будут использоваться вопросы четырех уровней сложности.

Этап №2 является элементом проведения классической предварительной экспертизы качества путем прохождения теста преподавателем-экспертом, в результате которой наряду с выявлением грубых синтаксических и орфографических ошибок и логических несоответствий, организована процедура программного ”замера” эталонного (нормативного) времени выполнения тестового задания в зависимости от уровней сложности вопросов Т^- (табл. 2).

Таблица 2

^~^-^^Уровень сложности вопроса Время выполнения тестового^^^^^ задания (сек) 1 2 3 4

Среднее время на выполнение задания экспертом (ТЕг ) 20,7 31,5 40,5 47,7

Нормативное время выполнения тестового задания (ТЫг= ТЕг*Дрг) 23 35 45 53

где Дрг - погрешность, корректирующая нормативно устанавливаемое время ТЭД. на вопросы г-го уровня сложности с поправкой на тестирующихся студентов по отношению к среднему времени ТЕг, затраченному экспертом на выполнение задания (принимается равной 10%)

Этап №3 представляет собой проведение классической процедуры оценки качества тестового материала с последующим улучшением его основных показателей - надежности и валидности. Бинарная матрица результатов, сформированная в программной оболочке ’Сетевое тестирование”, приведена в табл. 3.

где Xi - индивидуальные баллы студентов; pj ■ qj - дисперсия ] задания; - стандартное

Wj и Rj - показателями трудности и легкости тесто- отклонение результатов испытуемых по ] заданию.

вых заданий; Список вопросов, включенных в тестовый сеанс в

Pj - доля правильных ответов на j задание; результате реализации алгоритма случайного выбора,

Wj - доля неправильных ответов на j задание; представлен в табл. 4.

Таблица 4

№ Вопрос Варианты ответов (первый ответ - правильный)

1 Задача ранжирования - это: 1. упорядочение альтернатив по степени достижения цели 2. выделение одной наилучшей альтернативы 3. разбиение множества альтернатив на классы эквивалентности 4. выделение множества однородных в соответствии с нормальным законом распределения классов альтернатив 5. выделение одного наилучшего (наихудшего, усредненного) класса альтернатив

2 Задача является многокритериальной, если: 1. каждая альтернатива характеризуется несколькими оценками эффективности 2. представляется выбор из нескольких вариантов альтернатив 3. задачу выбора необходимо решать в несколько этапов 4. для решения задачи приглашается группа экспертов 5. необходимо использовать методы свертки

3 К какому классу задач принадлежит отнесение альтернативы к определенному классу альтернатив 1. распознавания 2. группировки 3. ранжирования 4. минимизации 5. максимизации

4 Что необходимо рассчитать при использовании критерия Сэвиджа 1. гарантированные потери 2. относительные доходы 3. себестоимость продукции 4. гарантированная прибыль 5. чистая прибыль

Е

5 При каких условиях используется метод геометрической свертки 1. есть дополнительная информация о цели в виде идеально или антиидеальной альтернативы 2. критерии независимы по ценности и их относительную значимость можно измерить в количественной шкале 3. критерии приблизительно равнозначны между собою 4. критерии не равнозначны и их можно отсортировать по значимости 5. эксперты определили наиболее весомый критерий

6 При каких условиях каждая альтернатива привод к одному исходу 1. определенности 2. риска 3. многокритериальности 4. необходимости использования экспертных методов оценки 5. неопределенности

7 Операция нормирования позволяет: 1. исключить влияние на целевую функцию единиц измерения 2. исключить из расчетов отрицательные значения показателей 3. уточнить оптимальность критерия 4. исключить влияние на целевую функцию размера интервала допустимых значений частного критерия 5. исключить оценки некомпетентных у этом вопросе экспертов

8 Основным преимуществом метода мажоритарной свертки критериев является: 1. простота в использовании (проведении расчетов) 2. использование дополнительной информации об идеальном варианте 3. использование дополнительной информации о антиидеальном варианте 4. наглядность полученных результатов 5. универсальность использования

9 Какой можно использовать критерии при гипотезе о наихудшем поведении окружающей среды 1. максимина 2. Сэвиджа 3. Гурвица 4. Лапласа 5. максимакса

10 К какому классу задач относится выделение множества однородных в соответствии с нормальным законом распределения классов альтернатив 1. группировки 2. ранжирования 3. выбора 4. минимизации 5. максимизации

11 Какую позицию лица, принимающего решение, определяет критерий усреднения: 1. нейтралитета 2. относительного пессимизма 3. оптимизма 4. наиболее вероятного результата 5. пессимизма

12 Что обеспечивает альтернатива, выбранная при использовании критерия максимина 1. наибольшее значение гарантированного результата 2. наименьшее значение гарантированного результата 3. наибольшее значение из минимальных оценок 4. меньшее значение из минимальных оценок 5. наименьшее значение из минимальных оценок

Анализ результатов, представленных в бинарной матрице, проводился преподавателями-экспертами согласно этапам классической теории тестирования:

1. Определялся самый простой вопрос - вопрос №6, на который ответили все студенты. Просмотрев повторно его формулировку, убедились в том, что он действительно достаточно простой и очевидный, а его присутствие в тесте только снижает его дифференцирующую способность. Тем более, что с точки зрения содержательной валидности все аспекты данного вопроса включены в качестве элементов в другие тестовые задания (например, в представленной выборке, в вопрос №2). Поэтому, его можно удалить из тестового материала.

2. Матрица результатов упорядочивается по значениям столбца индивидуальных баллов (по возрастанию сверху вниз) и строки легкости заданий (по убыванию слева направо), а затем формируется корреляционная матрица (табл. 5), в которой элементы матрицы — представляют собой коэффициенты корреляции между заданиями тестового сеанса, гху - коэффициенты корреляции между индивидуальными баллами студентов.

Показатель г =0,43, что свидетельствует о неудовлетворительной надежности теста.

1. По результатам анализа корреляционной матрицы выявляются вопросы с низкой дифференцирующей способностью ( гху <0,3 ) - вопросы № 12, 8 и 7.

Причем, вопрос №12, с наименьшим значением гху =0,02, характеризуется значительным количеством отрицательных коэффициентов корреляции с другими вопросами теста (№2, 4, 5, 7, 8), а, следовательно - низкой согласованностью с основным тестовым материалом (действительно, на него ответил один из самых слабых студентов №7, и не ответил самый сильный - № 10).

На вопрос №8 ( г=0,05) ответило 9 человек из 10, что свидетельствует еще и о низкой сложности вопроса (хотя, уровень его сложности равен 3).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На вопрос №7 (г=0,07) ответил только самый сильный и самый слабый студент, что явно говорит о некорректности его формулировки и возможности угадывания ответа слабым студентом.

2. Выделенные на данном этапе некачественные вопросы удаляются из теста, причем при их после-

3

Вопросы 3 11 2 9 5 10 12 1 4 7 8 г

3 1,00 0,87 0,57 0,84 0,79 0,88 0,88 0,51 0,86 0,80 0,81 0,39

11 0,87 1,00 0,38 0,00 0,00 -0,10 0,41 0,41 0,33 0,33 -0,38 0,73

2 0,57 0,38 1,00 0,60 0,41 0,00 -0,41 0,22 0,22 0,00 0,33 0,59

9 0,84 0,00 0,60 1,00 0,41 -0,41 -0,41 0,22 0,65 0,00 0,33 0,59

5 0,79 0,00 0,41 0,41 1,00 0,17 -0,25 0,36 -0,09 0,10 0,41 0,58

10 0,88 -0,10 0,00 -0,41 0,17 1,00 0,17 0,36 -0,09 0,10 -0,27 0,39

12 0,88 0,41 -0,41 -0,41 -0,25 0,17 1,00 0,36 -0,09 -0,41 -0,27 0,02

1 0,51 0,41 0,22 0,22 0,36 0,36 0,36 1,00 0,52 0,22 -0,22 0,79

4 0,86 0,33 0,22 0,65 -0,09 -0,09 -0,09 0,52 1,00 0,22 -0,22 0,59

7 0,80 0,33 0,00 0,00 0,10 0,10 -0,41 0,22 0,22 1,00 -0,17 0,07

8 0,81 -0,38 0,33 0,33 0,41 -0,27 -0,27 -0,22 0,22 -0,16 1,00 0,05

Iг 6,35 2,96 2,77 2,25 2,88 2,06 1,74 3,43 2,31 1,14 0,74 Гху

Гі 0,79 0,37 0,35 0,28 0,36 0,26 0,22 0,43 0,29 0,14 0,09 0,43

—2 Гі 0,63 0,14 0,12 0,08 0,13 0,07 0,05 0,18 0,08 0,02 0,01

довательном удалении показатель надежности теста увеличивался соответственно до значений гху =0,49 , гху =0,54, гху =0,59 (или в процентах на 12% , на 20% и на 27% относительно первоначального).

Корреляционная матрица после удаления перечисленных вопросов приобрела следующий вид (табл. 6):

Таблица 6

Во- про- сы 3 11 2 9 5 10 1 4 ГхУ

3 1,00 0,87 0,57 0,84 0,79 0,88 0,51 0,86 0,46

11 0,87 1,00 0,38 0,00 0,00 -0,10 0,41 0,33 0,80

2 0,57 0,38 1,00 0,60 0,41 0,00 0,22 0,22 0,64

9 0,84 0,00 0,60 1,00 0,41 -0,41 0,22 0,65 0,64

5 0,79 0,00 0,41 0,41 1,00 0,17 0,36 -0,09 0,56

10 0,88 -0,10 0,00 -0,41 0,17 1,00 0,36 -0,09 0,37

1 0,51 0,41 0,22 0,22 0,36 0,36 1,00 0,52 0,70

4 0,86 0,33 0,22 0,65 -0,09 -0,09 0,52 1,00 0,60

I г 5,47 2,56 3,18 2,66 3,13 1,89 3,07 2,40 Г,,

Гі 0,78 0,37 0,45 0,38 0,45 0,27 0,44 0,34 0,59

—2 Гі 0,61 0,13 0,21 0,14 0,20 0,07 0,19 0,12

3. По скорректированной матрице (табл. 6) выделяются вопросы с низким средним значением коэффициента корреляции г - вопрос №10, а также с большим количеством отрицательных коэффициентов г - вопрос №4.

Все остальные вопросы имеют отрицательные коэффициенты корреляции только с вопросами №10 и

4, значит проблема именно в них.

Удаление данных вопросов позволит повысить надежность теста до значения г =0,65, но это:

ху

• с одной стороны, может привести к снижению содержательной валидности теста (мы уже и так отбросили 33% вопросов);

• с другой - не существенно повысит качество теста, т.к. такой показатель надежности свидетельствует о сомнительной надежности теста [5].

Данный этап оценки качества теста является подтверждением того, что использование классической теории тестирования не всегда гарантирует получение высоких показателей качества тестового материала.

Поэтому, с целью совершенствование технологии повышения качества тестовых заданий предлагается выполнить расширенный анализ их качества с использованием показателя фактической скорости выполнения тестовых заданий различной сложности (этап № 4). В соответствии с разработанным автором эвристическим алгоритмом расширенного анализа качества тестовых заданий:

Шаг 1. Строится дополнительная матрица результатов тестирования M_D, элементами который является фактическое время выполнения тестового задания TFtv (табл. 7), столбцы которой отсортированы по возрастанию сложности вопроса.

Е

Шаг 2. На основании матрицы M_D формируется матрица относительной скорости выполнения тестовых заданий M_DS (табл. 8), элементы которой (SPEEDij) рассчитываются по формуле: SPEED_Ttv = TFtv / ТЭД.. ^=1,КТ, где КТ - количество тестируемых, v=1, KV, где KV - количество вопросов в тестовом сеансе)

Таблица 8

Сложность вопроса rij 1 1 1 2 2 3 3 4

^^-\Номер во-^\^проса Студенты 1 2 5 9 10 3 4 11

ЭК-06-001 1,22 0,52 0,87 0,86 0,63 0,76 0,89 1,00

ЭК-06-002 1,26 0,57 1,04 1,03 0,71 0,60 1,02 1,02

ЭК-06-003 1,30 0,65 0,78 0,97 0,66 0,89 0,98 1,09

ЭК-06-004 0,96 0,83 1,04 0,94 0,94 0,58 0,98 0,75

ЭК-06-005 1,17 0,43 1,00 0,83 0,57 0,71 1,04 0,62

ЭК-06-006 1,26 0,52 0,96 0,57 0,77 1,07 0,93 1,17

ЭК-06-007 1,09 1,04 0,87 0,69 0,86 0,82 0,96 0,74

ЭК-06-008 1,13 0,87 0,74 1,11 0,83 0,69 1,04 1,11

ЭК-06-009 1,09 0,87 0,96 0,86 0,97 0,58 0,84 0,85

ЭК-06-010 1,17 0,78 1,04 1,14 1,14 0,73 0,78 1,13

SPEED 1,17 0,71 0,93 0,90 0,81 0,74 0,95 0,95

иначе PROBLEMv =0

где N_V и N_N - соответственно верхняя и нижняя нормы значений KVv и К^ (N^=90%, N_N=10%).

Таблица 9

Сложность вопроса rij 1 1 1 2 2 3 3 4

Номер вопроса 1 2 5 9 10 3 4 11

KNv (%) 10,0 90,0 60,0 70,0 90,0 90,0 70,0 40,0

KVv (%) 90,0 10,0 40,0 30,0 10,0 10,0 30,0 60,0%

PROBLEMv + 1 -1 0 0 -1 -1 0 0

По результатам табл. 9 проблемными с точки зрения скорости выполнения тестового задания являются вопросы № 2, 3, 10 (фактическая скорость их выполнения у 90% тестируемых ниже нормативной) и вопрос № 1 (скорость ответов на него у 90% тестируемых выше нормативной).

На этапе №5 с целью форма лиза ции процед у-ры переработки тестового материала по результатам расширенного анализа качества тестового материала предлагается использовать эвристический алгоритм (рис. 1), позволяющий установить причины и пути устранения ”проблемности” выделенных на этапе №4 вопросов.

Рис. 1. Эвристический алгоритм формализации процедуры переработки тестового материала по результатам

расширенного анализа качества тестового материала

Шаг 3. Матрица M_DS расширяется показателями статистического анализа К^ и КУ^, характеризующими количество (процент) тестируемых, скорость выполнения которыми данного тестового задания соответственно ниже (или превышает) нормативную Т^-, а также информацией об уровне ”про-блемности” вопроса PROBLEMv. (табл. 9), определяемой по следующим эвристическим продукционным правилам:

Если К^ < N_N 8 Ш v> V_N , то PROBLEMv =-1;

Если KNv < N_N 8 ^ „> V_N , то PROBLEMv =+1;

Отчет о результатах проведения качественного анализа данных табл. 9 в соответствии с вышеперечисленными эвристиками представлены ниже:

- вопрос №10 на этапе анализа на основе классической теории тестирования обнаружил_низкое среднее значение коэффициента корреляции ij, а также большое количество отрицательных значений коэффициентов корреляции ij. На этапе анализа с помощью предлагаемой методики выявил ”проблемность” с точки зрения скорости высокой скорости выполнения задания (среднее значение показателя SPEED =0,81). Анализ содержательной части вопроса позволил установить, что данный вопрос имеет повышенную слож-

3

ность формулировки (и ответило на него правильно всего 40% студентов), что могло вызвать у тестируемых желание ответит ”наугад” и побыстрее перейти к следующему задание. С учетом большого количества отрицательных элементов качества данного тестового задания, все-таки рекомендуется данное задание удалить из тестового материала.

- вопрос №4, характеризующийся на этапе классического анализа теста двумя отрицательными значениями коэффициентов корреляции г, , на данном этапе не выявил какой-либо ”проблемности”, к тому же один из отрицательный г, образуется с вопросом №10, который из теста будет исключен. Поэтому, пересматривая содержательную часть вопроса, вносим исправления в формулировку правильного ответа: сформулируем его ”недополучен-ная прибыль”, что возможно, будет более адекватно характеризовать рассматриваемый объект принятия решений;

- вопрос №2, являясь вопросом первой сложности, характеризуется средней относительной скоростью выполнения задания SPEED =0,71. Но, на него тем правильно ответили только 50% тестируемых (таблица 3).3начит. скорее всего вопрос был не столько слишком легкий, сколько некорректно сформулированный. Так, дистрактор №5 ’’необходимо использовать метод свертки” тоже является правильным. Заменяем его формулировкой ”для решения используется теория системного анализа”;

- вопрос №3 является вопросом третьей сложности, при этом средняя относительная скорость его выполнения SPEED =0,74, а правильно ответили на него 80% тестируемых. Значит, скорее всего вопрос сформулирован так, что в нем самом кроется скрытый ответ. Усложним формулировку вопроса, заменив ее на ”К какому классу задач принадлежит отнесение альтернативы к определенному классу эквивалентности альтернатив”;

- вопрос №1 имеет среднюю относительную скорость выполнения SPEED =1,17. При этом этот вопрос первой сложности, а правильно смогли на нго ответить только 30% тестируемых. Это говорит о слишком сложной формулировке вопроса. Поэтому, вносим в него следующие поправки: 1) перефразируем правильный ответ ’’Упорядочение альтернатив по степени соответствия критерию оптимальности”; 2) заменяем дистрактор № 4 на ”нахождение одной наихудшей альтернативы”.

На этапе № 6 тестовый материал был подвергнут повторному пробному тестированию и последующему анализу основных показателей его качества согласно классической теории тестирования. Матрица результатов и корреляционная матрица представлены в табл. 10 и 11.

Таблица 10

\ Номер \вопро-\ са Студенты 11 1 3 9 2 5 4 Xi Xi2

1 2 3 4 5 6 7 8 9 10

ЭК-06- 007 0 0 0 1 0 0 0 1 1

1 2 3 4 5 6 7 8 9 10

ЭК-06- 002 0 1 0 0 0 0 0 1 1

ЭК-06- 003 1 1 1 0 0 0 0 3 9

ЭК-06- 005 1 0 1 0 1 1 0 4 16

ЭК-06- 008 1 1 1 1 1 1 0 5 25

ЭК-06- 004 1 1 1 1 1 0 1 6 36

ЭК-06- 006 1 1 1 1 1 1 1 7 49

ЭК-06- 009 1 1 1 1 1 1 1 7 49

ЭК-06- 001 1 1 1 1 1 1 1 7 49

ЭК-06- 010 1 1 1 1 1 1 1 7 49

Rj 8 7 7 7 7 6 5

W, 2 3 3 3 3 4 5

Pj 0,80 0,70 0,70 0,70 0,70 0,60 0,50

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

q, 0,20 0,30 0,30 0,30 0,30 0,40 0,50

Pj- q, 0,16 0,21 0,21 0,21 0,21 0,24 0,25

Vpj- q, 0,40 0,46 0,46 0,46 0,46 0,49 0,50

Таблица 11

Вопросы 11 1 3 9 2 5 4 r,,

11 1,00 0,20 0,92 0,98 0,72 0,96 0,92 0,83

1 0,20 1,00 0,38 0,22 0,22 0,10 0,50 0,51

3 0,92 0,38 1,00 0,22 0,76 0,61 0,50 0,83

9 0,98 0,22 0,22 1,00 0,52 0,36 0,65 0,62

2 0,72 0,22 0,76 0,52 1,00 0,80 0,65 0,90

5 0,96 0,10 0,61 0,36 0,80 1,00 0,41 0,75

4 0,92 0,50 0,50 0,65 0,65 0,41 1,00 0,81

Ir 4,77 2,11 3,89 3,30 4,03 3,83 3,64 ГхУ

rj 0,79 0,35 0,65 0,55 0,67 0,64 0,61 0,75

—2 г, 0,63 0,12 0,42 0,30 0,45 0,41 0,37

Показатель гху =0,75 выше его первоначального значения на 43%, а согласно [5] его значение свидетельствует об удовлетворительной надежности и хорошей валидности теста.

Е

Выводы

Предлагаемый эвристический алгоритм совершенствования технологии оценки качества тестовых заданий основан на использовании нового критерия

- фактической скорости выполнения тестовых заданий различной сложности, который позволяет про-

водить расширенный качественный анализ тестового материала и, в результате формализации эвристической процедуры переработки тестового материала, повышать значения показателя надёжности и валидности тестового материала на 15-20% по отношению к результатам, полученным согласно классической теории.

Литература

1. Аванесов В.С. Основы научной организации педагогического контроля в высшей школе / В.С. Аванесов // Педагогическая диагностика. - 2002. -№1 С.41- 43.

2. Белоус Н., Куцевич И., Белоус И. Методика определения качества тестовых заданий, оцениваемых по непрерывной шкале / Н. Белоус, И. Куцевич, И. Белоус // International Book Series "Information Science and Computing”. The paper is selected from XVth International Conference “Knowledge-Dialogue-Solution”. - Kyiv, 2009. - С. 127-133.

3. Мамонтова М.Ю. Квалиметрический подход к моделированию оценки качества академической подготовки студентов / М.Ю. Мамонтова // Успехи современного естествознания - 2007. - № 12 - С. 145.

4. Максимова О.А. Технология комплексной экспертизы качества тестовых материалов для контроля учебных достижений обучающихся / О.А. Максимова // Журнал научных публикаций аспирантов и докторантов. - 2008. - № 10 - С. 140-146.

5. Асямов С.В. Педагогическое тестирование в системе оценки знаний слушателей / С.В. Асямов // Учебное пособие. - Ташкент. - 2006.

6. Тараненко Ю.К., Ризун Н.О. Учет фактора времени при оценке знаний студентов путем компьютерного тестирования систем [Электронный ресурс] / Ю.К. Тараненко, Н.О. Ризун // Тезисы II Международной научно-практической конференции "Ключевые аспекты научной деятельности - 2010”. Современные информационные технологии. Сроки проведения: 17.01 - 25.01.2010. Место издания: Бял ГРАД-БГ (г. София, Болгария). - Режим доступа: http://www.rusnauka.com/Pa-ge_ru.htm.

7. Тараненко Ю.К., Ризун Н.О. Опыт совершенствования методики компьютерного тестирования знаний студентов / Ю.К. Тараненко, Н.О. Ризун // Научно-практическая конференция "Современные направления теоретических и прикладных исследований ‘2010”. - Одесса: Черноморье. - 2010. - Т.3. - С.29-34.

8. Ризун Н.О. Использование теории нечетких множеств для идентификации степени сложности темы в системах компьютерного тестирования знаний / Н.О. Ризун // Східно-Європейський журнал передових технологій. - 2009. - №6/2 (42) - с. 32-37.

э

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ризун Н. О.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ризун Н. О.

Heuristic algorithm of perfection Technologies of the quality evaluation of test jobs

Текст научной работы на тему «Эвристический алгоритм совершенствования технологии оценки качества тестовых заданий»