УДК 681.518.52:37 (075) Л.А. Писаренко
Математическая модель дихотомической классификации последовательностей знаков и ее техническая реализация
На основе теории дескрипторных информационно-поисковых систем дано математическое описание критерия дихотомической оценки ответов в системах автоматизированного контроля знаний. Показаны различные варианты кодирования эталонных ответов и их технической реализации.
Ключевые слова: дескриптор, ключевое слово, информационный поиск, кодирование, вопрос, ответ, контроль, самоконтроль, автоматизация контроля, обучение.
По мере развития науки наблюдается ускоренный рост объемов научно-технической информации. Соответственно, усложняются учебные программы образовательных учреждений и все более актуальной становится проблема усвоения знаний школьниками и студентами вузов, так как традиционные методы массового обучения давно исчерпали свои возможности и, несмотря на усилия новаторов, в сущности, остановились в своем развитии. В этих условиях повышение качества обучения возможно лишь за счет массовой компьютеризации образовательного процесса. Однако с момента первых попыток проведения занятий в компьютерных классах прошло уже более 50 лет, но до сих пор нет оснований утверждать, что актуальность проблемы качества обучения хотя бы приостановила свой рост. По мнению автора, одна из главных причин недостаточной эффективности и традиционных и компьютерных обучающих систем состоит в недооценке значения контролирующей составляющей учебного процесса, что в первую очередь относится к традиционным учебникам. Примерами могут служить издания [1, 2], где излагается теория, но нет ни одного упражнения. В [3, 4] приведены упражнения, но не даны ответы, поэтому выполнять их смысла нет, так как самоконтроль невозможен. Во многих учебниках приводятся ответы, но лишь частично, т.е. не ко всем упражнениям. Разработчики компьютерных учебников также основное внимание уделяют теории, а во всем, что касается контроля знаний, обычно ограничиваются искусственным приемом, изобретенным около ста лет назад и известным в настоящее время под названием множественного выбора или выборочного принципа. При этом контроль реализуется на основе антропоморфизма (по аналогии с человеком), согласно которому в памяти компьютера должны храниться эталонные ответы ко всем вопросам и упражнениям. Этот подход является непреодолимым препятствием на пути решения такой актуальной проблемы, как интеграция электронных и традиционных учебников.
Из существующих разработок можно назвать только одну систему, где контроль основан на естественных ответах и вне рамок антропоморфизма. (Сведений о других подобных системах в литературе не найдено). Это система «Символ» [5]. Главная ее особенность заключается в том, что в компьютерную память не требуется записывать массивы эталонной информации. Контроль осуществляется при помощи кодов заданий (КЗ), записываемых перед условием каждой задачи. В КЗ зашифрован не ответ, а только критерий, на основе которого компьютер отличает правильные ответы от неправильных. При самоконтроле обучающийся сначала набирает КЗ, а затем вводит ответ. В результате совместной обработки КЗ и ответа формируется сообщение по принципу «правильно-неправильно».
Многолетний опыт экспериментального применения системы «Символ» в вузах, дошкольных учреждениях и сотнях общеобразовательных школ наряду с достоинствами системы выявил и ее недоработки. Одна из них проявляется в недостаточном разнообразии кодов заданий для вопросов и задач с одинаковыми ответами. Например, в пособии [6] ответы вида 1, 2, 3, 4 встречаются почти по 200 раз каждый. При их кодировании всем им необходимо ставить в соответствие различные КЗ, причем коды не должны повторяться в пределах всей книги. Желательно не повторять их и в любых других книгах. В системе «Символ» разнообразие кодов заданий достигается за счет удлинения КЗ балластными знаками. Это значительно усложняет самоконтроль, так как приводит к росту числа ошибок ввода.
Второй недостаток относится к внешнему контролю: иногда возможно восстановление правильного ответа по виду КЗ. Хотя такие случаи редки, однако они способны дискредитировать контролирующую систему и вызвать недоверие к информативности внешнего контроля.
Цель данной работы - устранить отмеченные недостатки и тем самым повысить эффективность работы системы «Символ». Для этого необходимо построить математическую модель, при помощи которой обеспечивалась бы возможность формирования упорядоченных знаковых последовательностей, признаваемых в системе «Символ» правильными, при условии, что некоторые знаки в этой последовательности являются кодами заданий с различными вариантами расположения среди других ее знаков.
В системе «Символ» из всех возможных вариантов исследован и реализован только один: КЗ находится в начале последовательности, затем идут балластные знаки, а после них - знаки, образующие ответ.
Идеологическую базу системы «Символ» составляет теория информационно-поисковых систем дескрипторного типа, основанных на координатном индексировании документов. В связи с этим и в данной работе использовано сходство процессов поиска документальной информации и контроля знаний в обучающих системах.
Построение математической модели начнем с сопоставления двух систем: поисковой и контролирующей. Рассмотрим пару «запрос - документ», представленную поисковыми образами в виде наборов ключевых слов. Согласно [7] каждому из п слов поискового образа запроса присваивается логический аргумент Аг (г = 1, 2, 3, ..., п), принимающий единичное значение, если соответствующее ему слово содержится в поисковом образе документа, и нулевое - в противном случае. Критерий деления массива на два класса задается булевой функцией f(Al,А2, А3,...,Ап). В процессе поиска после завершения всех операций сравнения слов из пары «запрос - документ» получится некоторый набор значений аргументов. Если на этом наборе функция f(Al,А2, А3,...,Ап) примет единичное значение, то документ подлежит выдаче. При f(Al,A2,Aз,..., Ап) = 0 документ остается в массиве.
В принципе эта поисковая модель применима и в системе контроля. Сменится лишь интерпретация логических переменных. Однако непосредственное ее применение нецелесообразно из-за громоздких операций по вводу в компьютер ключевых слов и булевых функций. В [5] эти трудности устранены заменой ключевых слов дескрипторами с применением принципа произвольного деления всех возможных упорядоченных последовательностей знаков, применяемых во время контроля, на определенное число групп, объявляемых синонимичными. В общем случае это число может быть любым (кроме единицы). В системе «Символ» оно принято равным 256 [5]. Получилась очень простая система контроля: чтобы задать компьютеру критерий, делящий ответы на два класса -правильные последовательности и неправильные, достаточно перед вводом ответа набрать код задания (КЗ), состоящий из двух шестнадцатеричных знаков.
Схема, обеспечивающая дихотомическое деление ответов на классы, приведена на рис. 1. Обучающийся, решив задачу, сначала на клавиатуре набирает код задания, а затем вводит ответ. КЗ записывается в регистр кода задания, а ответ поступает в регистр дескриптора, пройдя преобразователь ответа.
При совпадении номера дескриптора с КЗ на ^выходе схемы равенства формируется соответст-
вующий сигнал, и ответ признается правильным.
Введем обозначения: х - первый шестнадца-^ теричный знак кода задания. В двоичном представлении он имеет вид Х1 Х2 Х3 Х4, где Х1 - старший разряд; Х4 - младший; у - второй шестнад-цатеричный знак кода задания. В двоичном представлении он имеет вид ух у2 уз У4, где ух - старший разряд; у4 - младший.
Буквами Сх, С2, С3,..., сп условимся обозна-А чать шестнадцатеричные знаки ответа. Тогда вся
вводимая в компьютер (или специализированное устройство) последовательность примет вид хуС]С2Сз...сп. Эту последовательность будем называть правильной, если номер дескриптора, полу-
Рис. 1. Схема дихотомического ченный на основе ответа с1с2с3...сп, совпадает с КЗ,
деления ответов на ктассы а процедуру нахождения кода задания условимся
называть прямым кодированием.
Алгоритм нахождения неизвестных х и у, называемый алгоритмом кодирования, в [5] реализован логической схемой. Представим его в аналитическом виде. Значения Х1,
Клавиатура
Х3, X4 и Ух,у2,Уз, у4 зависят от величин п и г, где п - длина ответа; г - номер разряда четырехзначного двоичного числа, являющегося эквивалентом шестнадцатеричной цифры, т.е. г = 1, 2, 3, 4. В связи с этим найдем общие формулы, в которых присутствуют обе величины г и п. Если значение п известно, то можно получить частные формулы.
Необходимо различать случаи, когда п четно и когда - нечетно. При п четном общие формулы имеют вид
Х1 = © с^ ,
г=1
где аь = 4 -
3п „ .
— + 3 +г 2
У1 = © с2Ь
Х2 = © с2Ь-1, где аь = 4 -
г=1
4
3п _ .
— + 2 +г 2
г=1
п 2
где аь = 4 -
3п , .
— +1 + г 2
4
4
у2 = © с2]-1, где аг = 4 -
г=1
3п
- + г
Хз = © с2г
г=1
где аг = 4 -
3п _ .
— + 2 + г 2
4
Уз = © с2г,
г=1
где аг = 4 -
3п
- + г
х4 = © сЩ, где аг = 4 -
г=1
3п , .
— +1 + г 2
4
У4 = © с2г-1
г=1
где аг = 4 -
3п „ .
— + 3 + г 2
4
Проиллюстрируем нахождение КЗ на (п = 10). Находим частные формулы для Х1, 5
Х1 = ©с2г , аг = 4 -12 + г\4, а1 =1
г=1
14 3 2 1
Следовательно: Х1 = С2 © С4 © с6 © с8 © Сю . Аналогично получаем:
Х3 = с| © с] © с4 © с3 © с20 ;
примере последовательности Х2, Х3, Х4:
а2 = 4, а3 = 3, а4 = 2, а5 = 1.
Х2 = с2 © с] © с4 © с3 © сЦ ; Х4 = с3 © с2 © с] © с4 © с|.
АВ34227819
У2 = с4 © с3 © с2 © с] © с|; У4 = с1 © с| © с3 © с2 © с1.
Находим значения У1, У2, У3, У4: У1 = с3 © с4 © с1 © с8 © с|о;
У3 = с| © с4 © с2 © с1 © с]о ;
Слагаемые этих формул определяются заданной последовательностью. Первый ее знак - шестнадцатеричная цифра А, тогда с] = 1010, откуда
с] = 1, с2 = 0, с? = 1, с]4 = 0. Точно так же находим слагаемые на основе всех остальных знаков заданной последовательности. Подставим эти значения в формулы для нахождения двоичных знаков Х1,
Х2., xз, Х4 и yl, y2, yз, у4:
хх = 1 © 0 © 1 © 0 © 1 = 1; у1 = 1 © 1 © 0 © 0 © 0 = 0;
Х2 = 0 © 0 © 0 © 1 © 0 = 1; у2 = 0 © 1 © 0 © 0 © 1 = 0;
Х3 = 0 © 0 © 0 © 0 © 0 = 0; уз = 1 © 0 © 0 © 1 © 1 = 1;
Х4 = 1 © 0 © 0 © 1 © 0 = 0; у4 = 1 © 1 © 1 © 1 © 0 = 0.
Найденный КЗ имеет вид: 11000010|2 = с 2
Таким образом, получаем правильную упорядоченную последовательность: С2АВ34227819, где С2 - код задания, а все остальное - ответ.
При нечетном п код задания определяется по другим формулам: п+1 п+1
Х1 = © сЯ-1
г=1
где аг = 4 -
3(п + 3)
2
+ г
; У1 = © сЯ-1 <
г=1
где аг = 4 -
3п + 5
2
- + г
2
4
2
4
4
4
п-1
п-1
Х2 = © с Л , где а = 4 -
¿=1
п+1
3п +1
- +1
Х3 = © С2*-1 8 г=1
где л = 4 -
2
3п + 7
У2 = © с2| , где Л = 4 -
¿=1
п+1
3(п -1)
2
- +1
Уз = © с2|-1 ,где щ = 4 -
¿=1
2
3(п +1)
п -1
п-1
х4 = © сЩ , где щ = 4 -
¿=1
3п -1
2
- +1
У4 = © са , где щ = 4 -
¿=1
2
3п + 3
+1
+1
2
- +1
Эти формулы описывают работу преобразователя ответа (см. рис. 1).
В общем случае знаки х и у могут быть в любом месте правильной последовательности. Наиболее важным является случай обратного кодирования (ОК), когда последовательность имеет вид С1С2Сз—Спху, т.е. КЗ находится в ее конце. Однако при самоконтроле в регистр кода задания (см. рис. 1) попадут не знаки х и у, а первые два знака ответа С1 и С2. В связи с этим введем другие обозначения: dl, d2, е^, е2, ..., еп_2, еп_1, еп, где ответом является последовательность dl, d2, е1, е2, ..., еп_з, еп_2; dl и d2 - знаки, всегда записываемые в регистр кода задания. Роль КЗ выполняют последние два знака еп-1 и еп. Отсюда следует, что нахождение КЗ сводится к решению булевых уравнений относительно еп-1 и еп (при четном п):
d{ = © , где щ = 4 -
¿=1
п 2
3п
— + 3 +1 2
4
= © е2£ , где аг = 4 -¿=1
3п
— +1 +1 2
4
= © еЩ--1, где аь = 4 -
¿=1
3п
— + 2 +1 2
4
¿2 = © е2а1-1, где а1 = 4 -¿=1
3п
- +1
¿1 = © , где аг = 4 -
¿=1
3п
— + 2 +1 2
4
¿2 = © еЛ , где а1 = 4 -
¿=1
3п
- +1
d:1 = © е<аЩ1-1, где а1 = 4 -¿=1
3п
-+1 +1
2
4
= © ещ|-1, где аг = 4 -¿=1
3п
— + 3 +1 2
4
Решив их, получим искомые знаки КЗ: х = еп_1, у = еп. Закодируем, например, последовательность А783 в системе ОК. Так как п = 4, то
= е2 ©е4, а1 = 4-19 + ¿1
= е3 ©е2, а1 = 4-18 + ¿14;
¿3 = е3 ©е4, а1 = 4-8 + ¿14;
¿14 = 4 ©е33, щ = 4-7 + ¿1;
= е| © е|, а1 = 4 -17 + ¿|4 = е1 © е|, а1 = 4 - |б + ¿| 4 ¿3 = е1 © е4, а1 = 4 - |б + ¿| 4 = е2 © е\, а1 = 4 - 9 + ¿14.
4 4.
2, е1 и е2, где ¿ = 1, 2, 3, 4, находим, представив цифры задан-
Значения ¿1, ¿2
ной последовательности А, 7, 8, 3 в двоичной системе счисления. На основе частных уравнений получаем:
1 = 0 © е1; 0 = 0 © е2; 1 = 1 © е2; 0 = 0 © е3;
0 = 1 © е|; 1 = 1 © е|; 1 = 0 © е|; 1 = 0 © е£.
Решив эти уравнения относительно неизвестных е3 и е4 (с помощью формулы
А © В = АВ + АВ), находим двоичные цифры знаков КЗ:
Х1 = ез = 1; Х2 = е3 = 0; Х3 = е3 = 0; Х4 = е| = 0;
У1 = е\ = 1; У2 = е| = 0; У3 = е| = 1; У4 = = 1.
Это число 8В. При нечетном п уравнения имеют вид
4
4
4
4
4
4
п
2
4
п
2
4
п
п+1
^ = © ' гДе аг = 4 -
4=1
3(п + 3)
2
+1
п-1
d2 = © еа , где а1 = 4 -
4=1
п+1
3п +1
2
- +1
d3 = © е2,-1, где а, = 4 -
4=1
3п + 7
2
- +1
п-1
d4 = © е2а- , где а, = 4 -
4=1
3п -1
2
- +1
4
п +1
d2 = © еа
г=1
п-1
24-1 '
где а4 = 4 -
3п + 5
2
- +1
d2 = © е^ , где а1 = 4 -
4=1
24
3(п -1)
2
+1
п +1
^ = © еа4-1 ,где аг = 4 -
4=1
3(п +1)
п-1
= © е2Ц , где а1 = 4 -
4=1
2
3п + 3
+1
2
- +1
4
Логическая схема устройства для обратного кодирования приведена на рис. 2. Знака-
12341234 ми d1, df , df , df , d2 , , d¡¡, d2 на этой схеме обозначены выходы регистра, в который
записываются первые два знака ответа. Буквами С1, С2, с3, ..., С8 обозначены выходы регистра дескриптора. Пунктиром обведена логическая схема. С ее выходов Х1, Х2, х3, Х4 и у1, у2, у3, у4 считывается искомый код задания в двоичной системе счисления.
4
4
4
4
4
4
Рис. 2. Логическая схема обратного кодирования
Технически обратное кодирование реализовано в виде компьютерной программы. В настоящее время программа применяется для автоматического кодирования заданий в разрабатываемом сборнике задач по дискретной математике. В сборнике около десяти тысяч упражнений. Они предназначены для организации групповой самостоятельной работы в режиме самоконтроля с применением специализированных устройств «Символ-Тест». В дальнейшем кодирующая программа будет применяться для кодирования заданий по другим учебным дисциплинам.
Выводы
1. Применяемое в системе «Символ» прямое кодирование является частным случаем более общей системы дескрипторного представления критерия, обеспечивающего дихотомическое деление произвольных последовательностей знаков на классы, интерпретируемые в терминах контроля знаний как правильные и неправильные ответы.
2. Благодаря дополнению прямого кодирования обратным значительно расширяются контролирующие возможности системы «Символ», что в перспективе обеспечивает возможность разработки сборников задач и упражнений для высокоэффективной самостоятельной работы с применением технических средств автоматизированного самоконтроля.
3. В системе обратного кодирования практически полностью исключается возможность несанкционированного доступа к закодированным ответам, благодаря чему во всех случаях внешнего контроля информативность его достигает максимума.
Литература
1. Романовский И.В. Дискретный анализ / И.В. Романовский. - СПб.: Невский диалект, 2000. - 240 с.
2. Яблонский С.В. Введение в дискретную математику / С.В. Яблонский. -М.: Высш. шк., 2003. - 384 с.
3. Клини С.К. Математическая логика / пер. с англ. - М.: Изд-во ЛКИ, 2008. -480 с.
4. Харари Ф. Теория графов / Пер. с англ. - М.: КомКнига, 2006. - 296 с.
5. Шевелев М.Ю. Технические средства контроля знаний для систем автоматизированного обучения / М.Ю. Шевелев, Ю.П. Шевелев. - Томск: Изд-во Ин-та оптики атмосферы СО РАН, 2006. - 234 с.
6. Львова С.И. Единый государственный экзамен: Русский язык: Сб. заданий / С.И. Львова, И.П. Цыбулько. - М.: Эксмо, 2005. - 192 с.
7. Махутов Б.Н. Применение теории дескрипторных информационно-поисковых систем для контроля знаний в компьютерном обучении / Б.Н. Махутов, М.Ю. Шевелев // Электронные средства и системы управления. Опыт инновационного развития: докл. Ме-ждунар. науч.-практ. конф., Томск, 31 октября - 3 ноября 2007 г. - Томск: В-Спектр, 2007. - Ч. 2. - С. 284-286.
Писаренко Людмила Анатольевна
Ст. преподаватель каф. высшей математики ТУСУРа
Тел.: 8-913-855-21-72
Эл. почта: [email protected]
Pisarenko L.A.
A mathematical model of dichotomous classification of signs sequences and its engineering realization
Based on the descriptor information retrieval systems theory,a mathematical description of criterion of dichotomous estimation of answers in automated knowledge control systems is presented. Various alternatives of the reference answers coding and their engineering realization are considered. Keywords: descriptor, keyword, information retrieval, coding, question, answer, control, self-checking, control automation, training.