УДК (ХШ^55 Г.Н. Зверев, Н.Н. Зверева
ББК 3281; 2218 г ’ г
К проблеме объективации педагогической диагностики и тестирования
Обсуждается проблема формализации и объективации тестирования. Введены унифицированные шкалы оценок точности/погрешности выбора правильных ответов тестового задания, упорядочения объектов, их классификации и установления соответствия. Предложены новые формы заданий и оценок ответов в шкалах неклассических логик с информационной семантикой.
Ключевые слова: тестирование, педагогика, диагностика, точность, неопределенность, неклассические информационные логики.
TO THE PROBLEM OF OBJECTIVATION OF PEDAGOGICAL DIAGNOSTICS AND TESTING
In this report has considered the problem of formalization and objectivation of testing. Has introduced unified rating scales of accuracy/falseness for selection correct answers test task, ordering and classification objects, establishment of the correspondence. Has proposed new forms of test tasks and evaluation of responses in assessment scales of non-classical logic with information semantics. Keywords: testing, pedagogy, diagnostics, accuracy, indetermination, non-classical information logic.
Введение
Достоверность индивидуальных и групповых оценок результатов обучения, обоснованность методов и средств их получения для разных условий и целей всегда были социально значимыми и до сих пор вызывают, пожалуй, наиболее острые обсуждения при объективном анализе педагогической деятельности, ее аттестации, контроле качества образования в целом. Педагогическая диагностика знаний ученика, студента, курсанта выявляет их недостатки в процессе обучения, при собеседовании с педагогом, выполнении заданий, сдаче экзаменов. В психологии и педагогике предложено много теоретических моделей, процедур измерения и диагностирования внутренних состояний чрезвычайно сложных мыслительных и эмоциональных структур и процессов в психике испытуемых, применяя понятия и модели различного уров-
ня обоснованности и объективности [1-7].
Педагогическое тестирование значительно проще психоанализа и психодиагностики: в учебном процессе заранее определены цели и процедуры обучения, ученикам дается учебный материал, который, по сути, является исходным эталоном при сравнении с ответами испытуемых. Вместе с тем педагогические измерения и методы обработки результатов исследований знаний, скажем, студента, группы студентов, потока, факультета, вуза до сих пор имеют высокий уровень субъективности и далеки от достигнутых уровней точности и объективности, которые нам демонстрируют исследования в физике, технике, метрологии. Педагогическая диагностика, педагогические измерения имеют единую информационную основу с технической, медицинской и т.д. диагностикой и, в свою очередь, должны учитывать
специфику взаимодействия с «проблемным объектом» - учеником, студентом.
Существующие формы тестов, технологии тестирования, способы сравнения ответов испытуемых с эталонами не удовлетворяют насущным требованиям образовательного процесса и вызывают в обществе, в научно-педагогической среде справедливые нарекания. Разработка тестов нового поколения является серьёзной научной проблемой. Тесты широкого применения должны учитывать типовые функциональные модели обучающих и обучаемых, их взаимодействия в проблемных педагогических ситуациях усвоения учебного материала, самоконтроля, вычисления текущего рейтинга, адаптивного тестирования, итогового экзамена, иметь объективные оценки качества учебного материала, тестов, технологии обучения и тестирования. Мы находимся в нача-
Г.Н. Зверев,
д.т.н., проф. каф. компьютерной математики Тел.: 8 (347) 228-66-20 E-mail: [email protected] Уфимский государственный авиационный технический университет http://www. ugatu.ac.ru/EC_INF/
Н.Н. Зверева,
ст. преподаватель каф. экономической информатики Тел.: 8 (347) 232-33-97 E-mail: [email protected] Уфимский государственный авиационный технический университет http://www. ugatu.ac.ru/EC_INF/
ле долгого пути решения этих важных проблем.
В данной работе приведены и обсуждаются некоторые результаты формализации и объективации традиционных видов тестов, их естественных обобщений. Формализация призвана выявить и зафиксировать предположения, лежащие в основе постановок задач диагностики и тестирования, в семантике получаемых результатов. Следует различать субъективную и объективную формализацию. В первом случае модели строятся на основе субъективных представлений и понятий, не подкрепленных оценками их адекватности реалиям, либо используются параметры моделей, значения которых не измеряются, а назначаются из субъективных соображений, например, в моделях Раша и Бирнбаума. Объективная формализация предполагает контроль адекватности понятий, моделей, исходных данных в строго оговоренном классе проблемных ситуаций диагностики и тестирования, выбор научно обоснованных мер точности/ погрешности решений испытуемых, оценку достоверности и полезности конечных результатов педагогических исследований. Чтобы уменьшить влияние искажающих факторов, приблизиться к достижимому идеалу общих и индивидуальных решений проблемы оценивания поверхностных и глубинных уровней знаний обучаемых, необходим подходящий концептуальный аппарат, который активно развивается в педагогике [5-9] и теоретической информатике [10].
1. Постановка проблемы
Прежде перечислим первоочередные, по нашему мнению, задачи теории и практики педагогической диагностики и тестирования знаний обучаемых:
- конструктивная и адекватная формализация основных понятий тестологии: объекты исследований, измеряемые свойства знаний испытуемых, средства измерений, обработки информации и их шкалы, сложность и трудность задания, точность и погрешность решения, мера случайности угадывания правильного решения;
- построение моделей объектов и процессов педагогических исследований, оценка адекватности и неопределенности моделей;
- анализ свойств применяемых тестов и технологий, их усовершенствование и синтез новых, обеспечивающих заданные характеристики по трудоемкости и достоверности результатов.
Уточним цели, объекты педагогических исследований, измеряемые свойства и средства измерений с позиций формальной информационной семантики [10]. Цель тестирования - определить в некоторой шкале измерений/вычислений уровень знаний обучаемого по данной дисциплине или заданию. Цель диагностирования - выявить плохо усвоенные понятия, разделы дисциплины, причины неудач при восприятии, усвоении нового учебного материала и последующем применении полученных знаний. Объектом исследования при тестировании являются приобретенные учеником знания по данной дисциплине. Измеряемое свойство - мера соответствия знаний обучаемого исходным (эталонным) знаниям учебного курса, или, иначе, количественная или качественная мера их расхождения
- отсутствие знаний либо их ошибочность, поэтому свойство, характеристика приобретенного знания оценивается, соответственно, в позитивных (точность, полнота) или негативных (погрешность, незнание) шкалах оценок.
Объектом исследования при диагностике является выявление пробелов в фактических и понятийных, теоретических знаниях данной и предшествующих дисциплин, заблуждений и ошибок в смысловых структурах обучаемых, в механизмах понимания учебной информации, в применяемых методах анализа и синтеза новых знаний. Первичные измерители в процедурах диагностики и тестирования - это классификаторы, распознаватели полученных ответов, решений заданий при сравнении с эталонными знаниями и счетчики числа правильных и ошибочных решений. Эти фактические данные затем обрабатываются вместе с априорной (теоретической) информацией.
В связи с высокой сложностью проблемы объективации и нерешенностью многих вопросов тестоло-гии начнем с простейших педагогических ситуаций, моделей и соответствующих им гипотез об адекватности моделей реальным ситуациям, о связях между внутренними струкіу-рами знаний в памяти обучаемых и выдаваемыми ими решениями тестовых заданий с последующим наращиванием сложности, детальности модельных описаний и разнообразия соответствующих им вариантов педагогических ситуаций.
Наиболее простой информационной ситуацией тестирования является итоговый экзамен по определенной дисциплине, который состоит в выполнении некоторого множества заданий теста с оценкой каждого решения задания в двоичной шкале: верно (1 балл) - неверно (0 баллов). Затем оценки по всем заданиям суммируются, число набранных баллов нормируется, преобразуется в значение итоговой (5-балльной, 100-балльной, ...) шкалы экзаменационных оценок. Такой способ индивидуальной оценки позволяет перейти к групповой оценке испытуемых по данной дисциплине в виде среднего значения, дисперсии, моды, медианы и т.п., а также к индивидуальным и групповым оценкам по многим дисциплинам, к взвешенным оценкам для продвинутых, типичных, отстающих учеников и т.д.
Описанная схема тестирования является приемлемой по уровню объективности, представленные в ней упрощения реальных ситуаций контроля знаний допустимы, а полученные оценки достаточно адекватно отражают уровень знаний учеников, если истинны следующие гипотезы:
- набор заданий теста репрезентативен, т.е. достаточно полно представляет эталоны требуемых существенных знаний и контролирует освоение дисциплины в целом;
- все задания имеют одинаковую сложность и важность, иными словами, имеют одинаковые объемы покрываемых тестовым контролем понятий и разделов изучаемой дисциплины;
- задания теста в определенной степени независимы, контролируют различные разделы и учебные единицы дисциплины, в наборе заданий нет повторов;
- ответы обучаемых объективно соответствуют уровню их знаний изучаемого курса;
- двоичная шкала оценок каждого задания адекватно отражает степень знания данного вопроса, частичные (неполные) решения признаются полной неудачей;
- незнание и ошибочное знание имеют одинаковую нулевую оценку.
Нарушение истинности этих предположений ведет к необходимости усложнения данной модели тестирования, к ее различным усовершенствованиям, которые увеличивают адекватность моделей и объективность итоговых оценок, уменьшают уровни систематических и случайных ошибок в оценках знаний, обусловленных качеством применяемых тестов и технологий тестирования, последовательности предъявляемых заданий, особенностями невоспроизводимого поведения и психологического состояния испытуемых, не связанных с их реальными знаниями. В итоговом экзамене от этих особенностей обычно абстрагируются.
2. Формы тестовых заданий и оценки качества решений
Вопросы и ответы тестовых заданий могут быть произвольными, не обязательно формализованными, которые по возможности объективно оценивает педагог. Формы тестовых заданий и решений делятся на однозначно определенные (замкнутые), формализованные для ручной и машинной обработки, либо не формализованные (свободные) ответы, контролируемые преподавателем: текстовые, символьные, графические и т.п. Традиционно выделяют следующие виды формализованных заданий и решений:
- выбор подмножества правильных ответов, элементов заданного множества возможных решений, включая выбор пустого и полного подмножества;
- упорядочение по заданному признаку элементов множества, в этом случае ответ есть после-
довательность элементов (список, вектор);
- выбор и упорядочение элементов выбранного подмножества;
- распознавание и классификация элементов заданного множества, отнесение их к одному из классов, перечисленных в задании, в частности, установление взаимнооднозначного соответствия между элементами двух списков одинаковой длины (элементами множества и заданными классами).
Для этих форм заданий необходимо определить меры точности или погрешности ответа испытуемого. Меры точности являются фундаментальными критериями любой информационной деятельности, в данном случае - критерием качества ответов испытуемых, и должны заменить разнообразные косвенные показатели, используемые в практике тестирования, скажем, коэффициенты сходства и различия решения и эталона (Фора, Пирсона, Кендалла, Спирмена и др.), имеющие размытую семантику и многозначные толкования. Разнообразные формы заданий должны характеризоваться мерами абсолютных и относительных, систематических и случайных ошибок решений испытуемых.
Весьма сложное поведение обучаемого во время тестирования порождает в общем случае случайные ответы, которые не отражают действительные знания и искажают результаты тестовых оценок. Поэтому необходимо также для каждого типа формализованных заданий найти меры случайного угадывания при отсутствии знаний по заданному в тесте вопросу. Оценки точности/погрешности предъявляемых решений и вероятности (частости-редкости) случайного угадывания правильного решения составляют основные компоненты метрологии педагогического тестирования.
3. Задания с выбором правильных вариантов
Самым распространенным видом тестовых заданий является тип «один из многих», когда тестируемый должен выбрать единственный верный вариант из мно-
жества представленных в задании ответов-альтернатив. Другой распространенный тип заданий - выбор нескольких правильных ответов. Ошибки решений и вероятность случайного выбора правильного ответа в этих случаях зависят от четырёх параметров:
N - общее число возможных ответов, предложенных в тесте, N > 2;
М - число правильных ответов в этом множестве, 0 < М < N;
п - число ответов, выбранных испытуемым, которые он считает правильными, 0 < п < N;
т - число правильных ответов в выборке (подмножестве) испытуемого, 0 < т < п.
Значения параметров задания N и М выбирает разработчик теста, параметры п и т определяются при тестировании.
Важно различать две ситуации в форме задания и в информированности испытуемого:
- он знает из текста и типа задания число М правильных ответов из N возможных (для случая заданий типа «один из многих» М = 1);
- значение М испытуемому заранее неизвестно, известно только, что 0 < М < N.
Во второй ситуации должна быть изменена традиционная формулировка задания и использоваться, например, такая форма: «Выберите из данного перечня все правильные ответы». Отвечая на этот вопрос, испытуемый выбирает п ответов в соответствии со своими знаниями или догадками: 0 < п < N, в первой же ситуации при разумном поведении испытуемых п = М. Выбор п ответов из N возможных, когда М неизвестно, распадается на N независимых подзадач в двоичной шкале {да, нет} по каждому элементу множества альтернатив и решение принимается независимо от других решений, когда же М известно, подзадачи анализа альтернатив и принимаемые решения становятся зависимыми.
Предположим, что испытуемый плохо знает предложенный учебный материал и решает задания теста наугад, по интуиции, прошлому опыту, ассоциативным связям слов в тексте задания, выбирает подмножество ответов численностью п, из
Таблица 1.
Зависимости вероятности случайного угадывания от числа альтернатив
них получает т правильных. В случае, когда число М ему неизвестно, число возможных альтернатив выбора равно числу подмножеств 2м. Предельная неопределённость решения возникает при равновероятности альтернатив, соответствующая случайному выбору. Тогда вероятность случайного угадывания единственного подмножества, состоящего из М правильных ответов, равна: Рк = 2-Лг.
Если количество вариантов в задании N = 7, вероятность Рк равна: Рк = 1/27 = 1/128 = 0.008. В подобных ситуациях случайным угадыванием пренебрегают. Таким образом, эффект случайного выбора правильного ответа становится решающим при малых N, когда значение параметра М становится известно испытуемым из текста задания, из прошлых испытаний и т.п. Если М известно хотя бы приближенно М = М ± ДМ, тогда п = М и вероятность случайного ответа быть истинным увеличивается.
В технической диагностике, в задачах контроля качества партии изделий решаются аналогичные задачи и оцениваются соответствующие вероятности [11]. Комбинаторная вероятность случайного выбора (при равномерном распределении альтернатив) из N ответов подмножества численностью п, в котором содержится т правильных ответов (т < М), равна отношению числа благоприятных альтернатив к общему числу альтернатив и вычисляется по формуле
Рк = Р(М, М, п, ш) = -
■М - М
выбирается из треугольника Паскаля либо вычисляется по формуле, содержащей факториалы:
N.
.(Ы - п)!'
Данные формулы позволяют оценить снизу вероятности различных типов ошибок решений и ответить на вопрос о вероятности случайного правильного ответа. Если плохо подготовленный ученик, студент знает число М, тогда для правильного ответа п = т = М и его вероятность равна
Рц =
М о СМ ' см
- М
Число сочетаний п элементов из N возможных есть биномиальный коэффициент, значение которого
_ М!-(ы - М)!
N1 '
В этой проблемной ситуации вероятности случайного угадывания правильного решения Рк зависят от значений параметров задания N, М < 8. При известном обучаемому значении М вероятности представлены в табл. 1 (в знаменателях стоят биномиальные коэффициенты).
Последняя строка таблицы определяет зависимость вероятности Рк от N, когда значение М неизвестно испытуемым. Сравнивая эти вероятности в одних и тех же тестовых ситуациях, можно заключить: знание М в несколько раз увеличивает вероятность угадывания.
Применим формулу Рк для оценки вероятности случайного угадывания почти точного решения, если экзаменуемому приближенно известно число правильных ответов в задании, например: М = М -1 = п при N = 5. Вероятность того, что в случайно выбранном списке все ответы правильные, т.е. т = п, зависит от М в допустимом интер-
п
С
с
вале значений: 1 < М < N = 5 и равна р = СМ / Спы . При М = 5 имеем п = 4, Рк = 1. При М = 4 длина выбранного списка ответов п = 3; вероятность того, что все ответы правильные: Рк = 0.4; а при точном знании М = п =4 вероятность в два раза меньше. Пусть теперь испытуемый решил, что п = М = М +1, 0 < М < 4; тогда при любых значениях М из этого интервала вероятность того, что решения заданий правильные, равна нулю.
Более важной для анализа свойств задания и теста в целом является установление обоснованных мер точности и погрешности решений. Для диагностирования и управления процессом обучения более удобны негативные шкалы мер ошибок, а результаты экзамена представляют в позитивной шкале оценок. В теории распознавания объектов и ситуаций, в военной науке выделяют следующие типы ошибок дихотомической классификации, в нашем случае, разделение альтернатив на истинные и ложные:
- ошибки первого рода Д1 - пропуск цели, испытуемый выбрал не все правильные ответы задания, тогда величина Д1 равна числу пропущенных правильных ответов;
- ошибки второго рода Д2 - ложная цель (ложная тревога), испытуемый в качестве правильных выбирает неправильные ответы задания.
Ошибка решения задания есть сумма ошибок первого и второго рода А = Л1 + Л2, она равна числу ошибочных оценок альтернатив в списке вопросов задания. Эта величина (численная мера ошибок решения) есть функция четырёх аргументов - параметров информационной ситуации: Д(^ М, п, т). Эти параметры зависимы: 0 < М< N, 0 < п < N, 0 < т < п, т < М, т.е.0 < т < min(M, п). Ошибка первого рода: Д1 = М - т, ошибка второго рода: Д2 = п - т, суммарная ошибка: Д=М+ п - 2т. Разложение полной ошибки на две составляющие связано с различными причинами их порождения и разными последствиями этих ошибок, что важно учитывать при диагностике и управлении обучением. Ошибка первого рода в основном отражает
неполноту знаний, второго рода -искаженность знаний.
Пределы изменения ошибок Д1, Д2, Д определяются при постоянных и переменных параметрах задания. Пусть число предлагаемых вариантов N задано, а величины М, п, т изменяются в указанных выше пределах, тогда абсолютные численные меры ошибок лежат в интервале 0 < Д1, Д2, Д < N, относительные (нормированные, приведенные к единичному интервалу значений) меры ошибок 5п[ = Д/Ж 5п2 = Д2/N, 5п = Д/N = 5п1 + 5п2 в метрологии называют приведенными погрешностями измерений, их значения лежат в числовом интервале [0,1], как и значения математических вероятностей.
Пусть теперь заданы N и М, а параметры п и т варьируются в допустимых пределах. Тогда абсолютные меры ошибок решений обучаемых лежат в интервалах: 0 < Д1 < М, 0 < Д2 < N - М, 0 < Д < N. Относительные ошибки первого 51 = Д1/М и второго рода 52 = Д2/Л^ - М при заданном значении М > 0, М < N, известном или неизвестном испытуемым, лежат в полном единичном интервале (в отличие от приведенных погрешностей первого и второго рода). Полная относительная ошибка 5 = NN совпадает с полной приведенной погрешностью решения задания: 0 < 5 = 5п < 1, 5 < 51 + 52.
Представляет также интерес способ нормировки ошибок и приведение их к единичному интервалу вариаций значений при трех заданных параметрах N, М, п тестовой ситуации. Пределы изменения ошибок решения в этом случае определяются минимальным и максимальным значением величины т, входящей со знаком минус в формулы ошибок, поэтому Д[шЬ = М - тшах,
Д1шах М- mшin, Д2шт п mшax,
Д2шах = п - mшin, пределы вариаций полной ошибки ДшЬ = М + п - 2тшах, Дшах = М + п - 2mшin. Минимальное число тшЬ правильных ответов в выборке при заданных N, М,
п равно нулю при N - М > п и равно тшп = п - N + М при N - М < п. Зная пределы изменения абсолютных мер ошибок, переходят к относительным мерам, скажем, полная относительная ошибка при фиксированных параметрах задания п, М, N есть 5с = (Д - Дшш) / (Дшах - Дшш), 0 < 5С, 5С1, 5с2 < 1, 5С Ф 5С1 + 5с2.
Приведем примеры:
1) п = 0, т = 0, М > 1, Д = Д1 = = М - 1, Д2 = 0;
2) п = 1, т = 1, М > 1, Д = Д1 = = М - 1, Д2 = 0;
3) п = 1, т = 0, М > 1, Д1 = М, Д2 = 1, Д = М + 1 - сумма ошибок первого и второго рода; при ошибочном выборе одного объекта из двух возможных: М = 1, N = 2, абсолютная ошибка Д = 2 - и пропуск цели, и ложная тревога, хотя выбран только один ответ - все приведенные в задании альтернативы оценены неверно, относительная ошибка 5 = 1 = 100%, если же N = 4, то 5 = 0.5 = 50%, при большом числе альтернатив, скажем N = 20, относительная ошибка равна 0.1 = 10%.
4. Задания на упорядочение объектов
Определим количественную меру ошибки линейного упорядочения элементов заданного списка. Пусть в тестовом задании определен эталонный порядок ^ = (а, Ь, с, d,..)N, неизвестный испытуемому, который, привлекая свои знания и сообразительность, определил следующий ответ: £ = (а, d, Ь, с,..)И, где N - длина списка. Ошибки полученного решения определяются расстояниями г(х) между элементами ответа и эталона (числом шагов исправления): г(а) = 0, г(Ь) = 1, г(с) = 1, г(с1) = 2, ... Тогда суммарная ошибка процедуры упорядочения, выполненной испытуемым, равна сумме ошибок в позициях элементов: А = 2^г(х), переменная х е £, £э. Величина Д есть четное число, она изменяется от нуля при правильном порядке элементов в ответе ис-
Таблица 2.
Зависимость максимальной ошибки от N
N 2 3 4 5 6 7 8 9 10
Дшах 2 4 8 12 18 24 32 40 50
пытуемого, до максимальной ве-
т-2
личины А max =
N2
при четном
N2 -1
при нечет-
2
ном числе элементов в списке (табл. 2).
Ошибка упорядочения достигает максимального значения не только при обратном порядке элементов в ответе (при N = 4 S = (d, c, b, a)), но и при других «плохих» последовательностях элементов. Например, S = (c, d, a, b) или S = (c, d, b, a) имеем Д = 8 = Дшах. В общем случае 0 < Д < Дшах.
Величина Д есть абсолютная мера ошибки упорядочения, относительная ошибка 8 =-------- не за-
А max
висит от N и изменяется в интервале: 0 < 5 < 1 или 100%, тогда мера точности решения t = 1 - 5 также изменяется в единичном интервале [0,1] либо выражается в процентах, баллах и т. п., значение t = 0 соответствует уровню предельной ошибки упорядочения Д=Дшах, а значение t = 1 = 100 баллов - максимальная положительная оценка ответа при Д = 0.
Вероятность случайного угадывания истинного линейного порядка при полном незнании зависит от длины списка и равна обратной величине числа размещений N элементов: PR =~. При N = 4 вероятность чуть больше 0.04, при N = 5 имеем пренебрежимо малую вероятность угадывания истинного порядка: PR =-----.
R 120!
Комбинированное задание с выбором элементов по определенной теме и последующим упорядочением выбранных элементов в заданном аспекте характеризуется ошибками выбора АВ = Ai + А2 первого и второго рода и ошибками упорядочения АУ, которая вычисляется по приведенным выше формулам без учета потерянных элементов численностью А1 и лишних выбранных элементов численностью А2. Полная ошибка решения комбинированного задания А = АВ + АУ, вероятность случайного угадывания при независимости процессов правильного выбора и упорядочения:
PR = PRB • PRy.
5. Классификация, распознавание,установление соответствия
Пусть в тестовом задании указан список объектов Q = {а, Ь, с, ...} численностью Ы, скажем, новых понятий по изучаемой дисциплине, и список {Сі, С2, ..., СМ} имен М классов, к которым необходимо отнести эти объекты, N > 0, М > 1. Эталонная принадлежность а є Сі, Ь є С, с є Ск, ... неизвестна из задания испытуемому. Оценка точности/погрешности распознавания типов объектов - классов, к которым принадлежат объекты а, Ь, с., вычисляется сопоставлением полученного ответа (г,/, к, ...) с номерами классов эталона (і,у, к, ...): при г = і, / = у, к = к, ..., ошибки отсутствуют, Дт = 0, при несовпадении ошибка распознавания объекта х є 2 есть Дх = 1. Суммарная абсолютная ошибка классификации есть
ZN
Дх - величина, равная числу несовпадений ответов и эталонной принадлежности объектов, она изменяется в интервале 0 < Д < N.
Относительная ошибка распознал л
вания объектов 8 =
- = — при-Атах N Р надлежит единичному интервалу 0 < 5 < 1. Точность классификации t = 1 - 5 изменяется в том же интервале и выражается в относительных долях, в процентах и т.п.
Вероятность случайно угадать истинную принадлежность каждого из N объектов одному из М классов равна Ря = Мты. При М, N > 4 эта вероятность пренебрежимо мала: Ря < 1/256.
В задаче установления однозначного соответствия между элементами двух множеств одинаковой численности (М = Щ ошибки соответствия вычисляются по тем же формулам, вероятность угадывания Ря = М~ы.
6. Итоговые шкалы оценок, учет сложности заданий, взвешивание решений
Абсолютные и относительные ошибки есть негативные характеристики решений, которые в итоге переводятся в позитивные шкалы экзаменационных оценок. Абсолютная точность решения задания есть число правильных реше-
ний - противоположная мера числа ошибок: Т = N - А, относительная точность: t = T/N = 1 - 5 нормирована и принадлежит единичному интервалу значений: 0 < t < 1, как и относительная ошибка 5. В числовой шкале оценок точности решений выделяют три точки, три особых значения:
- предельно точное, идеальное решение, t = 1 = 100 баллов (процентов успеха), А = 0;
- предельно ошибочное решение, t = 0, А = N - возможно случайное, вероятность которого равна вероятности правильного угадывания, либо преднамеренное решение максимально информированного обозлённого отличника учебы (аналог логического парадокса «все критяне лжецы»);
- среднее значение точности Я погрешности Ая решений при отсутствии знаний и случайном выборе альтернатив, эта величина вычисляется теоретически для каждого типа заданий или теста в целом либо рассчитывается методом статистических испытаний (Монте-Карло); для рассмотренных выше типов заданий значение tR = Ря.
Зная величину Я, можно скорректировать полученные обучаемыми оценки t кусочно-линейным преобразованием, которое практически сохраняет наивысшие баллы и уменьшает низкие оценки: исправленная от влияния случайности оценка решения ^ - tR)/(1 - Я при t > 4 и имеет значение = 0 при t < Я Однако эта коррекция усложняет логику принятия итоговых решений в 5-балльной и других шкалах, т.к. граничные значения итоговых оценок обычно задаются в исходной шкале точности.
Пусть экзаменационный тест содержит k заданий и обучаемый получил k оценок: ^, t2, ..., 4, итоговая экзаменационная оценка есть среднее значение полученных точ-
/ к, средняя погрешность ответов на экзамене 5^ = 1 - ts. Относительные меры точности и ошибочности ответов на экзамене затем умножаются на 100, 10 и т.п. либо преобразуются в значения ранговых шкал для чего необходимо задать в относительной или 100-балльной шкале гра-
ничные значения рангов. Объективация процедур задания граничных значений и обоснование получаемых итоговых оценок (сдал - не сдал, в 5-балльной шкале и т.п.) является серьезной научной проблемой.
Выше при оценке точности решений тестовых заданий и вероятностей угадывания все ситуации и возможные ответы предполагались равноправными, одной и той же сложности поиска правильных решений и последующей значимости приобретенных знаний, погрешностей, пробелов. И мы подсчитывали число единиц - ошибок и правильных решений испытуемых. Однако задания и предъявленные в них возможные ответы могут сильно варьироваться по сложности, объему привлекаемых знаний, важности для последующей деятельности.
Более объективным описанием информационного процесса тестирования и его результатов служат модели, которые учитывают различия заданий по сложности и трудности их разрешения. В простейших моделях такого типа ошибки или точности решений взвешивают: = , где вес /-го от-
вета есть функция сложности задания: чем сложнее решенное задание, тем больше вклад ответа в итоговую оценку и меньше вклад ошибки Д/ в суммарную средневзвешенную ошибку решения. Если меру сложности достигнутого результата ti обозначить через с, то в простейшем случае вес wi = с/, а вес погрешности 5/ есть wi = Сшах -
- С/, где Сшах - максимальная сложность заданий (иногда применяют формулу Wi = 1/с). Единица измерения сложности произвольная, 0 < С/ < Сшах. Средневзвешенная погрешность ок =----------, прибли-
женно равна 5№ ~ 1 - ^. Введение отрицательных весов при неудачах и положительных весов при высокой точности решений не привносит ничего нового, это простое смещение нуля шкалы оценок, которое устраняется линейным преобразованием в стандартную итоговую шкалу оценок [0,1].
В практике тестирования необходимо взвешивать все представленные альтернативы при выборе правильных ответов, все объекты упорядочения, классификации, установления соответствия, а также задания, тесты, дисциплины. Следует различать объективную сложность вопроса или задания и субъективную трудность получения правильного ответа. Объективная сложность есть обобщенная мера объема, взаимосвязей привлекаемых знаний и шагов их преобразований. Математическая теория сложности изложена в [17], информационная теория сложности представлена в [10], меры сложности понятий описаны в [18]. Субъективная трудность зависит от объективной сложности и степени подготовленности обучаемого. Ее измеряют в педагогической практике оценками средней погрешности решений, изменяя задания, состав группы испытуемых, учитывая уровень их подготовленности. Меры трудности используются не в итоговом экзамене, а в текущем процессе обучения, адаптивном тестировании и т.п.
Введение весов и взвешенных оценок результатов испытаний позволяет учесть не только сложность и индивидуальную трудность заданий, но и важность, полезность, время решения и другие факторы, влияющие на итоговые оценки. Для этого строятся соответствующие весовые функции от влияющих параметров.
7. Оценки заданий и ответов в шкалах информационных логик
Обычно при традиционном тестировании предлагаемые задания и возможные ответы, содержащиеся в заданиях, имеют однозначные формулировки и итоговые оценки каждого решения в двоичных шкалах {да, нет}, {правильно, неверно}, {истина, ложь} либо в числовых шкалах точности/погрешности решения, а сами процедуры тестирования существенно отличаются от собеседования учителя и ученика при сдаче экзамена. В их диалоге встречаются не только двоичные и числовые оценки, но также иного
рода характеристики вопросов и ответов: не знаю | не понял | не решал -не хватило времени | данных недостаточно | вопрос или ответ неоднозначный | вопрос или ответ противоречивый, бессмысленный, абсурдный и т.п. Это - негативные характеристики ответов и заданий, а их отрицания определяют позитивные качества (модальности) приобретенных знаний: понял, знаю точно, могу доказать и т.д. Формализация смысловых структур учебных материалов, процессов передачи знаний, взаимодействия источника и приемника семантической информации находится пока в начальной стадии и выполняется построением математических моделей знаний [12-14], созданием в базисах теоретической информатики семиотических и семантических сетей [10,15,16].
Тесты, которые предусматривают подобные вопросы и ответы, позволяют углубить анализ уровня знаний обучаемых, различать синтаксические знания - результаты простого запоминания учебного материала, и его осмысленное понимание и применение при выполнении заданий. Преобразование учебной информации в знания связано с умениями обучаемых пополнять и выявлять несоответствия своих «новых» и «старых» знаний, различные виды неопределенностей в них, устранять, оценивать их значимость.
В неклассических логиках с информационной семантикой, в отличие от классической логики, оценивающей знания в шкалах {да, нет}, {истина, ложь}, вводятся дополнительные значения основных видов неопределенностей знаний -информационные нули и количественные меры погрешности/точности утверждений [10]. Используя в тестовых заданиях понятия и формальный аппарат информационных логик, можно существенно расширить арсенал задаваемых вопросов, повысить глубину анализа степени понимания и усвоения учащимися учебного материала при диагностике, адаптивном тестировании, итоговом экзамене.
В трилогике - троичной логике с информационной семантикой
в классическую шкалу логических оценок {да, нет}, {истина, ложь} -вводится третье значение «понимаю, но не знаю да или нет» = 0 - биноль, Базисный Информационный Ноль, модель предельной внутренней неопределенности и равной возможности одного из двух ответов внутри двоичной шкалы. В тетралогике в шкалу логических оценок знаний вводится четвертое логическое значение внешней неопределенности, вне двоичной и троичной шкалы - «противоречие, абсурд, ни да ни нет», или □ - киноль, Критический Информационный Ноль, знак бессмысленных данных или ответов, несуразицы, требующей исправлений. Логические операции с информационными нулями определены в [10].
Кроме углубленного анализа понимания подобные тесты, в отличие от традиционных, предоставляют больше свободы в поведении испытуемых. Так, в двоичной шкале ответов они вынуждены выбирать либо «да», либо «нет», даже если совсем не владеют смысловой информацией задания или вопрос сформулирован некорректно. Предоставление возможности ответить «не знаю» или «не понимаю» имеет значимые психологические преимущества при тестировании и диагностике. Здесь уместно сослаться на опыт Армении, принявшей тесты ЕГЭ, в которых предусмотрен ответ «не знаю». Если испытуемый ответил правильно, т.е. да = да, нет = нет, то ему засчитывается 1 балл. Если же ответил неверно, т.е. да = нет, нет = да, то 1 балл вычитается, ошибка оценивается как обман педагога, а не заблуждение. Если учащийся выбрал ответ «не знаю», то он оценивается в 0 баллов (неопределенность формулировки задания не предусматривается).
Данная схема с учетом теории информационных логик допускает обобщение, более строгую формализацию и объективацию. Пусть каждый возможный ответ в задании с выбором правильного варианта характеризуется в шкале тетралогики эталонными значениями: 1 - истина, 0
- ложь, 0Я - эталонный ответ дей-
ствительно неопределенный, скажем, реальный объект стохасти-чен, □ - эталонное решение абсурдно. Испытуемые должны правильно характеризовать каждую из N альтернатив одним из четырех значений: 1, 0, 0Д, □ либо ответить «не знаю», пометив альтернативу знаком биноль = 0. Подобные типы тестов на понимание допускают пять возможных ответов испытуемых по каждой альтернативе и могут быть правильными, неопределенными или ошибочными, одного из шести типов ошибок в шкале трилогики или одного из 12 типов ошибок в шкале тетралогики и четырех типов биноля -незнания истинности, ложности, неопределенности либо абсурдности данной альтернативы. Каждый тип биноля и тип ошибки имеет свой вес - меру значимости в задании и характеризует степень незнания поставленного вопроса.
Для получения объективных средневзвешенных оценок решения задания необходимо построить платежную матрицу весов правильных, неопределенных и ошибочных решений и оценить ее адекватность реальной тестовой ситуации [10]. Платежная матрица Л = {X,;,} в данном случае имеет размеры 5^4, 1 < і < 5 - число возможных вариантов ответа испытуемого, 1 < , < 4 - число возможных эталонных значений вопроса тестового задания, X, - вес или весовая функция правильного ответа при і = , и неверного ответа при і Ф }, это ожидаемый выигрыш или проигрыш принятого испытуемым решения. По платежной матрице вычисляет-
ся ^ш1п и !гаах в данной тестовой ситуации, и полученные взвешенные оценки ответов испытуемого переводятся в стандартную шкалу относительных оценок взвешенной точности и = (X - ХшпУ^ах - Хшп) в интервале значений [0,1].
Если ответы «да» либо «нет» в двоичной шкале эталонных ответов не являются равновозможными, то мы приходим к ситуациям, которые описывает формализм частотной логики (обобщенной вероятностной логики с информационной семантикой) - это строгое обобщение классической логики, которое учитывает количественную меру истинности/искаженности знаний в числовой шкале относительной погрешности решений в интервале [0,1]. Границы этого интервала соответствуют оценкам классической логики {ложь, истина}. Выше были использованы эти меры при оценках точности/погрешности выбора, упорядочения, классификации объектов или установлении соответствия. В шкале частотной логики ответ «не знаю» = биноль оценивается в полбалла, 0 = 1/2 - предельная неопределенность оценок в двоичной шкале.
8. Педагогический эксперимент
Цель эксперимента - проверить некоторые теоретические положения, изложенные выше. Эксперимент проводился в группе студентов, состоящей из 29 обучаемых весьма разнообразного уровня подготовки. Студенты были упорядочены по возрастанию текущей успеваемости в изучаемой дисци-
Рис. 1. Средние баллы успеваемости студентов - экспертные оценки
— — - оценки по традиционному тесту ----- оценки по новому тесту
Рис. 2. Сравнительные результаты тестирования
плине, при этом использована следующая информация: устные ответы, расчетно-графические работы, контрольные и курсовые работы. Экспертные оценки успеваемости, выставленные преподавателем в 5-балльной шкале, представлены на рис. 1.
В ходе эксперимента студентам было предложено последовательно пройти два теста по одному и тому же разделу изучаемой дисциплины. Первый тест - традиционный, второй содержал нововведения, учитывающие изложенные выше теоретические положения. Количество вопросов в тестах примерно одинаковое: 25 и 27. Формы используемых тестовых заданий следующие: выбор одного или нескольких правильных ответов из предложенного списка, установление правильной последовательности, установление соответствия.
В заданиях первого теста явно указывалось количество правильных альтернатив, допускались задания, содержащие только две альтернативы ответа, одна из которых правильная, при этом максимальное количество возможных альтернатив не превышало пяти.
Задания второго теста (нового поколения) содержали по сути те же самые вопросы, но была существенно изменена форма представления заданий:
- исключены задания с выбором одной верной альтернативы из множества возможных и задания с выбором одной из двух альтернатив;
- количество альтернатив N в задании увеличено по сравнению с традиционным тестом, N > 5;
- в тексте вопроса не указано количество правильных альтернатив;
- включены задания, в которых все возможные альтернативы были правильными или же, напротив, ошибочными;
- в качестве возможных ответов в тестовом задании допускались ответы типа «не знаю».
Результаты, полученные в ходе эксперимента, представлены на рис. 2.
Оценки успеваемости по модифицированному тесту практически повторяют экспертные оценки: кривые рисунков 1 и 2 легко совместить масштабированием, чего нельзя сделать с кривой традиционного теста - он весьма чувствителен к систематическим и случайным ошибкам тестирования. Кривая традиционного теста заметно выше оценок, полученных по модифицированному тесту, особенно для отстающих студентов, что подтверждает эффект случайного угадывания правильных ответов. Этот эффект также проявляется в ответах успевающих и продвинутых студентов.
Выводы
Для повышения точности и объективности теории и практики тестовых испытаний в работе предложены формализованные определения основных понятий тестоло-гии, унифицированы разнообразные формы тестовых заданий, шка-
лы оценок сведены к стандартной числовой шкале относительных значений мер точности/погрешности ответа, а также вероятности случайного угадывания правильного решения, также принадлежащих единичному интервалу [0,1] либо эквивалентной шкале [0,100] процентов или баллов. Значения в стандартной шкале преобразуются в итоговые оценки в других числовых и ранговых шкалах.
Сложность проблемы объективного исследования структур приобретенных знаний в памяти обучаемых и процессов решений тестовых заданий вынуждает упрощать процедуры диагностики и модели тестов, привлекать субъективную информацию, которой владеют педагоги, разработчики тестов, что может привести к потере точности и объективности конечных результатов. Субъективные подходы и решения приносят пользу в тех случаях, когда формальные модели неадекватно описывают реальность.
Введение весовых функций и средневзвешенных оценок открывает возможности учесть не только сложность и трудность заданий, но и важность, ценность учебной единицы, время решения и другие факторы, влияющие на итоговые оценки и результаты тестирования. Переход к характеристикам заданий и их решений в шкалах неклассических логик с информационной семантикой углубляют анализ знаний обучаемых, предоставляют им больше психологического комфорта при тестировании и возможностей в ответах на вопросы тестовых заданий.
Проведенный педагогический эксперимент с традиционной и модифицированной формами теста показал удовлетворительное согласие теории и экспериментальных данных по уменьшению влияния случайного угадывания. Модифицированный тест практически повторяет в пределах статистических погрешностей экспертные оценки преподавателя.
Литература
1. Анастази А., Урбина С. Психологическое тестирование. - 7-е междунар. изд. - СПб.: Питер, 2005. - 688 с.
2. Суппес П., Зинес Дж., Льюс Р., Галантер Е. Психологические измерения. - М.: Мир, 1967. - 196 с.
3. Пфанцагль И. Теория измерений. - М.: Мир, 1976. - 248 с.
5. Равен Дж. Педагогическое тестирование: Проблемы, заблуждения, перспективы. - М.: Когито-Центр, 1999. - 144 с.
6. Аванесов В.С. Научные проблемы тестового контроля знаний. - М.: Исслед. центр проблем качества подготовки специалистов, 1994. - 135 с.
7. Челышкова М.Б. Теория и практика конструирования педагогических тестов: Уч. пособие. - М.: Логос, 2002.
8. Измерение и оценка качества образования / А.А. Глушенко и др. - М.: МПА-Пресс, 2003. - 237 с.
9. Красильникова В.А. Теория и технология компьютерного обучения и тестирования. - М.: Дом педагогики, 2009. - 337 с.
10. Технология создания адаптивных распределенных электронных ресурсов /М.Б. Гузаиров и др. - Уфа, УГА-ТУ 2010. - 357 с.
11. Зверев Г.Н. Теоретическая информатика и ее основания. В двух томах. - М.: Физматлит, Т.1, 2007. - 592 с. Т.2, 2009. - 576 с.
12. Мешалкин Л.Д. Сборник задач по теории вероятностей. - Норенков И.П. Технология разделяемых единиц контента для создания и сопровождения информационно-образовательных сред // Информационные технологии. - 2003. - №8. - С. 34-39.
13. Норенков И.П., Уварова М.Ю. База и генератор образовательных ресурсов // Информационные технологии - 2005. - №9. - С. 60-65.
14. Соколов Н.К., Карпенко А.П. Расширенная семантическая сеть обучающей системы и оценка ее сложности // Наука и образование: электронное науч.-техн. издание, 12.12.2008. URL: http://www.technomag.edu.ru/ doc/111716.html (дата обращения: 10.05.2011).
15. Соколов Н.К., Карпенко А.П., Галямова Е.В. Методика контроля понятийных знаний субъекта обучения в обучающей системе //Наука и образование: электронное науч.-техн. издание, 02.02.2009. иЯЬ: http://www. technomag.edu.ru/doc/115086.html (дата обращения: 15.05.2011).
16. Зверев Г.Н., Зверева Н.Н. Семиотическое моделирование педагогических процессов //Материалы III междунар. заоч. научно-практич. конференции «Человек: информация, технология, знак», Т. 1. - Ульяновск: УлГТУ 2011. - С.130-134.
17. Яблонский С.В. Введение в дискретную математику. - М.: Наука, 1986. - 384 с.
18. Карпенко А.П., Соколов Н.К. Оценка сложности семантической сети в обучающей системе // Наука и образование: электронное науч.-техн. издание, 11.11.2008. URL: http://www.technomag.edu.ru/doc/106658.html (дата обращения: 15.05.2011).