УДК 004.891.2
Данг Тхи Тхань Хуен, магистрант, (953) 955-58-86, [email protected] (Россия, Тула, ТулГУ) А.Н. Грачев, канд. техн. наук, доц. (Россия, Тула, ТулГУ)
ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА ТЕСТИРОВАНИЯ ЗНАНИЙ НА ОСНОВЕ БАЙЕСОВСКИХ СЕТЕЙ ДОВЕРИЯ
Рассмотрена проблема повышения объективности компьютерного тестирования учащихся. Для этих целей предложено использовать интеллектуальную систему на основе байесовской сети доверия. Для построенной модели в виде байесовской сети доверия получены соответствующие таблицы априорных условных вероятностей. Обучение модели производилось с использованием пакета Hugin Lite 6.7.
Ключевые слова: интеллектуальная система, байесовская сеть доверия, тестирование.
В последние годы в учебном процессе массово применяется такой способ контроля знаний, как тестирование. Разработано множество форм и методик тестирования, которые охватывают практически все учебные дисциплины, обеспечивая достаточно многостороннюю и объективную оценку знаний учащихся. Тестирование является удобным и доступным инструментом проверки знаний. Готовые тесты, содержащие задания, варианты ответов и алгоритм подсчета оценки, являются сами по себе законченными средствами учебного процесса, не требующими от преподавателя специальных навыков и квалификации [1].
Однако тестирование, как и любой вид проверки знаний, имеет свои недостатки. К ним чаще всего относят: недостаточную достоверность оценки реального уровня знаний тестируемого, невозможность разносторонней проверки знаний, достаточно большую случайную составляющую в оценке результатов. Некоторые тесты имеют сложные и несовершенные алгоритмы расчета результатов, что также отрицательно влияет на популярность тестов как формы проверки знаний и препятствует их распространению и внедрению в учебный процесс [2].
При использовании компьютерного тестирования часто возникает трудность интерпретации результатов, связанная с неравномерным распределением сложности задаваемых вопросов, элементами случайности и психологическими аспектами. Фактически, оценка знаний сводится к оценке доли правильных ответов от общего числа вопросов. Таким образом, главной задачей при проведении тестирования является повышение объективности оценки знаний учащегося.
Очевидно, что наиболее точно оценить результат тестирования возможно лишь при подробном исследовании хода процесса тестирования: учёте особенностей ответов на различные вопросы, учёте времени, затраченного на тот или иной вопрос и т.п. Таким способом можно приблизить тестирование к устному опросу учащегося группой экспертов (специалистов-предметников, педагогов, психологов).
В качестве примера рассмотрим следующую ситуацию. Учащийся прошел тест и правильно ответил на 7 вопросов из 10. В большинстве шкал оценивания такой учащийся получит оценку «хорошо». Однако, если подробнее рассмотреть каждый вопрос и ответ на него, можно обнаружить, что из 10 выпавших вопросов 3 являлись базовыми для данного курса, и неправильно ответив на них, учащийся, тем не менее, дает верные ответы на вопросы, которые напрямую зависят от знания основ курса. К тому же, проанализировав ход процесса тестирования, было обнаружено, что правильные ответы на вопросы, требующие относительно длительных расчетов, были даны за очень короткое время, и напротив, ответ на элементарный вопрос был получен за слишком длительное время. Налицо нелогичность в поведении тестируемого, что может быть результатом списывания, угадывания, помощи коллег либо влияния иных факторов, не связанных с его уровнем знания. Очевидно, что в данном случае достоверность результатов тестирования вызывает сомнения. Преподавателя при этом необходимо оповестить о малой достоверности результатов, чтобы он мог уточнить уровень реальных знаний учащегося, например, проведя с ним дополнительную беседу.
Рассмотрим другой пример. Проанализировав дополнительные сведения об учащемся (посещаемость, средний балл по всем предметам и т.п.), можно обнаружить, что при 100 %-ной посещаемости и высоком среднем балле тестируемый показывает неожиданно низкий результат. При этом за очень короткое время неверно отвечает на простые базовые вопросы, а на сложные дает верные ответы за адекватное время. В этом случае можно предположить, что учащийся получил незаслуженно низкую оценку, так как переволновался, был невнимателен и т.п. В данной ситуации достоверность результатов тестирования также вызывает сомнения и требует уточнения.
Если принять, что среднее количество человек в классе (группе) 25, и предположить, что среднее количество вопросов в тесте 20, ответ на каждый из которых характеризуется хотя бы двумя параметрами (логичность и время), то размер матрицы данных, полученной в результате такого тестирования, будет 25x40. Очевидно, что, визуально анализируя такую матрицу, педагогу было бы очень тяжело выявить все сомнительные моменты и нелогичность в ответах. В то же время автоматическая обработка такой матрицы вполне может быть быстро выполнена даже на компьютере с невысокой производительностью. Цель такой обработки - обратить внимание преподавателя на какие-либо «странности» при тестировании.
Кроме того, такая автоматизированная система анализа результатов тестирования позволит освободить педагога от рутинной работы: надзора за процессом тестирования, ведения статистики и предварительного анализа результатов. При нынешней ситуации в образовании, когда на преподавателя ложится серьезная нагрузка, связанная с массовым внедрением компьютерного тестирования (не всегда обоснованным), практически очень трудно осуществлять серьезный анализ результатов и нюансов тестирования. Таким образом, объективность оценки из-за этого может серьезно снижаться.
Не менее важной является проблема использования учащимися шпаргалок и подсказок. Борьба с такими явлениями во время компьютерного тестирования, как правило, требует от преподавателя больших усилий, чем при обычном экзамене. По этой причине тестирование зачастую не облегчает работу преподавателя, а усложняет ее.
Таким образом, задачу исследования возможностей использования современных методов интеллектуальных экспертных систем в контрольно-обучающих программах для повышения объективности оценивания истинного уровня знаний учащихся и повышения эффективности труда преподавателя следует признать чрезвычайно актуальной.
Для решения этой задачи предлагается снабдить систему компьютерного тестирования элементами искусственного интеллекта, использующими вероятностный подход, выраженный в применении байесовских сетей доверия (БСД) для моделирования различных ситуаций во время тестирования [3,
4].
Построим модель в виде БСД для вероятностной оценки истинного уровня знаний учащегося и степени объективности процесса тестирования, показанную на рис. 1. Для этого зададим в БСД две соответствующие вершины: «Уровень знаний» и «Объективность тестирования». Согласно здравому смыслу результат тестирования будет непосредственно следовать из уровня знаний учащегося и степени объективности конкретного процесса тестирования, т.е. соответствующие вершины будут причинными для контролируемой вершины «Результат».
С другой стороны, известно, что истинный уровень знаний учащегося по данному предмету во многом обусловлен посещаемостью им занятий и его общим уровнем образованности, определяемым, например, через средний балл по всем другим уже изученным предметам. Таким образом, в данной модели появляются контролируемые вершины «Посещаемость» и «Средний балл», которые будут причинными для вершины «Уровень знаний».
В свою очередь, добросовестность и внимательность учащегося во время тестирования будет иметь в качестве контролируемых внешних проявлений (свидетельств в терминологии БСД) правдоподобие времени ответов на вопросы, логичность ответов (т.е. логичность соотношения знания базовых вопросов и частных случаев), а также соответствие результата тестирования уровню посещаемости учащегося и его среднему баллу. Очевидно, что если учащийся дал более 80 % верных ответов и при этом посетил менее 40 % занятий, то степень доверия такому результату тестирования будет мала. Аналогичное влияние на степень доверия оказывает и несоответствие результата тестирования среднему баллу. Про связь между объективностью процесса тестирования и правдоподобием времени ответов на вопросы, а также логичностью соотношения знания базовых вопросов и частных случаев уже говорилось ранее. Таким образом, вершины «Логика», «Время», «Средний балл / результат» и «Посещаемость / результат» будут следствиями вершины «Объективность тестирования».
Рис. 1. Модель в виде БСД для интеллектуальной системы тестирования знаний
Отметим, что в приведенной выше модели свидетельствами будут как данные, полученные в ходе тестирования, так и данные, известные до проведения тестирования.
Например, для выбора состояний вершины «Время» можно предусмотреть своеобразный «счетчик» нарушений. Счетчик будет увеличивать «штраф» каждый раз, когда время, затраченное на ответ, будет в несколько раз меньше номинального (заданного преподавателем) либо когда ответ будет даваться учащимся за 1 - 2 секунды до окончания времени, отведенного на ответ (выражаясь шахматными терминами «на флажке»). В первом случае велика вероятность использования учащимся шпаргалки или подсказки, во втором - ответ, скорее всего, дается наугад в состоянии цейтнота. Если величина «штрафа» превысит некоторое пороговое значение (например, 30 % от общего числа вопросов), то вершина «Время» примет значение «неправдоподобно».
Для вершины «Логика» состояние выбирается на основе сравнения процента ответов на базовые вопросы данной дисциплины и процента ответов на все прочие вопросы, однозначно требующие знания основ изученного материала. При расхождении на некоторое пороговое значение в пользу вопросов, не являющихся ключевыми, состояние вершины устанавливается в «нелогично(-)». Это соответствует ситуации нечестного тестирования. Кроме того, все вопросы предлагается также делить на несколько групп по уровню сложности, например, в простейшем случае на две - простые и сложные. При этом в ситуации, когда расхождение в ответах оказывается в пользу ключевых вопросов, а процент ответов на сложные вопросы получается выше, чем процент ответов на простые, состояние вершины устанавливается в «нелогично^)». Это соответствует ситуации невнимательного тестирования. Для всех других ситуаций у данной вершины имеется третье состояние - «логично».
Для вершины «Посещаемость» может выбираться, например, одно из 4 состояний («5», «4», «3», «2»), на основе статистических данных, поступающих в систему контроля знаний из внешней системы электронного документооборота вуза. Состоянию «5» в этом случае, допустим, соответствует посещаемость занятий 81.. .100 %, состоянию «4» - посещаемость 61.. .80 %, состоянию «3» - посещаемость 40.60 %, состоянию «2» - посещаемость 0.39 %. Аналогично для вершины «Средний балл» может выбираться одно из 3 состояний («5», «4», «3» или «81 - 100», «61 - 80», «40 - 60» баллов по стобалльной шкале оценок соответственно), поскольку студенты, обучающиеся на неудовлетворительно, отчисляются.
Для вершин «Средний балл / Результат» и «Посещаемость / Результат» выбирается, соответственно, одно из 5 или 7 состояний («-3», «-2», «1», «0», «+1», «+2», «+3») в зависимости от степени несоответствия результата тестирования среднему баллу и посещаемости. При этом знак «минус» сигнализирует о превышении результата тестирования над средним баллом или посещаемостью, а знак «плюс» - наоборот. Следовательно, степень и направленность несоответствия результата тестирования среднему баллу и посещаемости будет сигнализировать о необъективности процесса тестирования в ту или иную сторону, т.е. либо о нечестности, либо о невнимательности тестируемого.
Таким образом, предложенный механизм выбора состояний в БСД позволяет отследить ситуации, когда учащийся воспользовался чьей-то помощью во время тестирования или занимался угадыванием. Например, об этом будут говорить нереально быстрые ответы на вопросы, требующие сложных расчетов, или ответы, данные в последний момент, когда учащийся, не зная ответа, пытается уложиться в отведенное время, или ситуация, когда учащийся неправильно отвечает на базовые вопросы курса, без знания которых он не может правильно ответить на другие вопросы. Даже если он получает высокую оценку за тестирование, его реальный уровень знаний может не соответствовать этой оценке.
Модель может отслеживать также и обратные ситуации, когда учащийся правильно отвечал на ключевые и сложные вопросы, но был невнимателен при ответе на простые. Проводя параллели с устной беседой учащегося и преподавателя, такие ошибки можно считать оговорками. Отслеживание таких «компьютерных оговорок» системой позволяет повысить объективность тестирования и избежать ситуаций, когда знающий учащийся получает незаслуженно низкую оценку.
Также необходимо отметить, что основной целью использования такой модели является не выставление оценки учащемуся, а помощь преподавателю в принятии решения о выставлении оценки и вывод сообщений обо всех «нелогичных» действиях учащегося. Таким образом, система наделяется некоторыми свойствами искусственного интеллекта и использует экспертный анализ при принятии решений. Однако, в конечном итоге решение о выставлении оценки остается за преподавателем. После окончания тестирования ему достаточно просмотреть результаты с предупреждениями системы о не-
объективности процесса тестирования у отдельных учащихся и выводы системы об истинном уровне знаний каждого испытуемого. На основе этих данных преподаватель может выставить итоговую оценку или дополнительно опросить отдельных учащихся.
В табл. 1 и 2 приведены априорные условные вероятности для вершин «Уровень знаний» и «Результат» соответственно.
Таблица 1
Условные вероятности Р («Уровень знаний» / «Средний балл», «Посещаемость»)
Посещаемость 81.100 % 61.80 % 40.60 % 0.39 %
Средний балл 5 4 3 5 4 3 5 4 3 5 4 3
Уровень знаний высокий 0,95 0,75 0,55 0,85 0,65 0,45 0,75 0,55 0,35 0,55 0,35 0,15
Уровень знаний низкий 0,05 0,25 0,45 0,15 0,35 0,55 0,25 0,45 0,65 0,45 0,65 0,85
Таблица 2
Условные вероятности Р («Результат» /«Объективность тестирования», «Уровень знаний»)
Уровень знаний Высокий Низкий
Объективность Недобросо- Невнима- Нор- Недобросовестность Невнима- Нор-
тестирования вестность тельность ма тельность ма
Результат «5» 0,95 0,50 0,75 0,40 0,005 0,02
Результат«4» 0,3 0,25 0,15 0,30 0,015 0,08
Результат «3» 0,015 0,20 0,06 0,20 0,48 0,50
Результат «2» 0,005 0,05 0,04 0,10 0,50 0,40
Априорные вероятности являются экспертными оценками, и их выбор обуславливается как здравым смыслом, так и статистическими данными. Например, в табл. 1 при условии, что вершина «Посещаемость» имеет состояние «81...100 %», а вершина «Средний балл» - состояние «5», вероятность пребывания вершины «Уровень знаний» в состоянии «высокий» может быть оценена как 0,95. Иными словами, если учащийся регулярно посещал все занятия и имеет высокий средний балл по всем другим уже изученным дисциплинам, то вероятнее всего это прилежный учащийся и его уровень знаний по данной дисциплине также будет высоким.
Аналогичным образом эксперт (преподаватель) должен оценить априорные вероятности каждого состояния для вершин, имеющих родительские
вершины. В данной модели такими вершинами кроме «Уровень знаний» и «Результат» являются «Время», «Логика», «Средний балл / результат» и «Посещаемость / результат».
Приведем далее примеры использования предложенной выше модели в виде БСД для анализа результатов тестирования. Пусть в результате прохождения теста получены следующие данные (пример 1):
для вершины «Время» реализовалось состояние «правдоподобно» (количество неправдоподобно быстрых ответов не превысило 30 %);
для вершины «Логика» - «логично» (процент правильных ответов на базовые вопросы и процент правильных ответов на прочие вопросы примерно равный);
для вершины «Результат» - «4» (оценка за тест);
для вершины «Средний балл» - «4»;
для вершины «Посещаемость» - «100.81 %».
для вершины «Средний балл / Результат» - «0» (полное соответствие); для вершины «Посещаемость / Результат» - «+1» (посещаемость в процентах чуть больше, чем количество верных ответов), т.е учащийся, являясь «хорошистом» с высокой посещаемостью, ответил правильно на 7 вопросов из 10, не пользовался шпаргалками и сторонней помощью и в целом продемонстрировал хорошее знание курса.
Для моделирования воспользуемся специальным программным средством проектирования и обучения байесовских сетей доверия - пакетом «Hugin Lite 6.7» фирмы «Hugin Expert» (США) [3]. Этот инструмент отличается простотой и удобством, низкими системными требованиями, а также большим набором графических средств для создания БСД и отображения результатов моделирования. Немаловажным является и тот факт, что данный программный продукт для некоммерческого использования распространяется бесплатно.
Для приведенных выше исходных данных результаты определения истинного уровня знаний учащегося и объективности процесса тестирования путем распространения вероятностей по БСД будут такими, как показано на рис. 2.
В приведенном примере вершины «Посещаемость» («Attendance»), «Средний балл» («Average»), «Логичность ответов» («Logic»), «Результат тестирования» («Result»), «Посещаемость / Результат» («Result_Attendance»), «Средний балл / Результат» («Result_Average») и «Время» («Time») являются свидетельствами, то есть одно из их состояний имеет максимальную достоверность Р=1. На рис. 2 соответствующие вершины имеют 100 %-ную вероятность одного из своих состояний. Вероятность состояний в других вершинах рассчитывается путем распространения вероятностей по БСД. Так, в вершине «Объективность тестирования» (на рис. 2 «Rectitude»), апостериорная вероятность состояния «норма» («Normal») равна 99,89 %, что подтверждает предположение о том, что учащийся не пользовался шпаргалками и не стал жертвой случайной ошибки. Вероятность же высокого уровня знаний (на рис. 2 вершина «Level») примерно равна проценту правильных ответов,
что вполне закономерно, так как учащппся гладко прошел тест, не проявив признаков недобросовестности или невнимательности, а также имеет высокий средний балл и посещаемость.
Рис.2. Фрагмент работы Hugin Lite для примера 1
Теперь немного изменим исходные данные и рассмотрим пример 2. Предположим, что учащийся имеет низкие средний балл и посещаемость, при этом он прошел тест успешно, с оценкой «4», отвечая, однако, нелогично и за неправдоподобно время (возможно, пользуясь подсказками и/или угадывая). Скорее всего, в данном случае оценка «4», полученная в результате тестирования, не отражает реального уровня знаний учащегося.
На рис. 3 представлены результаты расчета апостериорных вероятностей в подобной ситуации. При этом предположение о том, что оценка завышена, полностью подтверждается: вероятность пребывания вершины «Объективность тестирования» в состоянии «Недобросовестность» («Cheating») составляет 99,93 % при том, что вероятность низкого уровня знаний также очень высока.
Рис.3. Фрагмент работы Hugin Lite для примера 2
Таким образом, в результате проведенного исследования была создана модель системы тестового контроля знаний, которая служит для решения основной на данный момент проблемы компьютерного тестирования - недостаточной объективности оценки знаний. Приведенные примеры и эксперименты показывают, что в большинстве случаев разработанный подход помогает решить данную проблему. Использование элементов экспертного анализа и байесовских сетей доверия позволяет наделить контрольно-обучающую систему интеллектуальной способностью учитывать многие нюансы, возникающие в ходе компьютерного тестирования и приблизить качество тестирования к устному собеседованию.
Заметим, однако, что предложенная модель, естественно, является упрощенной. Например, для более точного анализа процесса тестирования может быть увеличено как количество вершин, так и количество состояний уже имеющихся вершин БСД, для чего необходимо найти новые источники информации о ходе процесса тестирования и обеспечить возможности оперативного получения этой информации. Таблицы условных вероятностей также могут быть заданы иначе, например, путем экспериментального подбора оптимальных значений вероятностей.
Список литературы
1. Кривошеев А.О. Проблемы развития компьютерных обучающих программ // Высшее образование в России. 1994. 185 с.
2. Машбиц Е.Н. Психолого-педагогические проблемы компьютеризации обучения. М.: Педагогика, 1988. 191 с.
3. Пономарев О.П. Экспертные системы (оболочка экспертной системы Hugin Lite 6.4): практикум. Калининград: Изд-во ин-та КВШУ, 2004. 52 с.
4. Тулупьев А.Л., Николенко С.П., Сироткин А.В. Байесовские сети: логико-вероятностный подход. СПб.: Наука, 2006. - 607 с.
Dang Thi Thanh Huyen, A.N. Grachev
INTELLIGENT SYSTEM FOR KNOWLEDGE TESTING ON THE BASIC OF BAYESIAN BELIEF NETWORKS
The problem of improving the objectivity in computer-based testing of students is examined. For these purposes it's proposed to utilize the intelligent system on the basic of Bayesian belief networks (BBNs). In order to construct the model in the form of BBNs the appropriate tables of prior conditional probabilities are found. The training of model is carried out by using the package Hugin Lite 6.7.
Key words: intelligent system, bayesian belief networks, computer-based testing.
Получено 14.12.11