Научная статья на тему 'Алгоритмическое обеспечение адаптивной системы тестирования знаний'

Алгоритмическое обеспечение адаптивной системы тестирования знаний Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
486
77
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
математическая теория тестирования / модель Раша / логит / конструирование тестов / стохастическая аппроксимация / точность результатов тестирования / распределение трудности заданий / алгоритмическое обеспечение / адаптивная система / БД / алгоритм работы / item response theory / Rasch model / logit / tests design / stochastic approximation / test results accu-racy / distribution of test’s easiness / knoware / adaptive system / database / computer algorithm

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Н А. Бессарабов, А В. Бондаренко, Т Н. Кондратенко, Д С. Тимофеев

В статье рассмотрена задача создания алгоритмического обеспечения адаптивной системы тестирования знаний. Тестирование знаний рассматривается как динамический процесс. На каждом такте работы системы организатор тестирования формирует однородную группу испытуемых; система подбирает наилучший тест исходя из сходящейся процедуры стохастической аппроксимации. Этот тест зависит от вероятностных характеристик контингента испытуемых и позволяет увеличить точность оценивания их подготовленности. Для выявления факторов, мешающих получению объективных оценок, таких как разговоры и списывание, введен коэффициент взаимодействия. Исследовано влияние взаимодействия тестируемых на точность оценивания их подготовленности. Для повышения точности оценивания подготовленности система на каждом такте переоценивает вероятностные характеристики группы испытуемых. Полученные оценки подготовленности испытуемых выравниваются на единой шкале. В системе реализован расчет трудности заданий с помощью метода максимального правдоподобия, метода условного максимального правдоподобия и метода маргинального максимального правдоподобия. Для оценки подготовленности могут использоваться методы максимального правдоподобия и взвешенного максимального правдоподобия и байесовский подход. Оценки подготовленности и трудности реализованы для дихотомической модели Раша и ее 2-, 3и 4-параметрических расширений, для политомических моделей RSM, PCM и их линеаризованных моделей. Для проверки адекватности результатов тестирования используются статистика отношения правдоподобия, статистика Хосмера–Лемешоу, коэффициенты детерминации, ROC-анализ. Для предложенной системы приведены блок-схема алгоритма работы на каждом такте и принципиальная схема БД.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Н А. Бессарабов, А В. Бондаренко, Т Н. Кондратенко, Д С. Тимофеев

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

KNOWARE OF AN ADAPTIVE KNOWLEDGE TESTING SYSTEM

The article considers the problem of realizing knoware for an adaptive knowledge testing system. The process of testing knowledge is represented as a dynamic one. An organizer forms a homogeneous group of examinees at each cycle of the system. The system selects the best test at each step based on a convergent procedure of stochastic approximation. The best test depends on prob-abilistic characteristics of examinees contingent and allows increasing estimation accuracy of person parameters. To identify factors that prevent obtaining objective evaluation, such as conversations and copying, the authors introduce an interaction rate. The article analyzes the influense of examinees’ interaction on the accuracy of test marks. To improve the estimation accuracy of person parameters the system overestimates probabilistic character-istics of a group of examinees at each cycle. Person and item parameters are aligned on a common scale at each cycle. The system implements evaluating item parameters using the maximum likelihood method, the conditional maximum likelihood method and the marginal maximum likelihood method. The maximum likelihood method, the weighted likelihood method and the Bayesian approach can be used for evaluating person parameters. The system evaluates a 1-parameter dichotomous Rasch model and 2-parameter, 3-parameter, 4-parameter dichoto-mous extensions, RSM and PCM polytomous models and appropriate linearized models. To evaluate matching between observed data and the expected values the authors use a statistics of the likelihood test, statistics of the Hosmer-Lemeshow test, coefficients of determination, ROC-analysis. The article contains a flow chart of the al-gorithm for each cycle and a database schematic diagram.

Текст научной работы на тему «Алгоритмическое обеспечение адаптивной системы тестирования знаний»

УДК 004.942 Дата подачи статьи: 01.09.15

DOI: 10.15827/0236-235X.113.068-074

АЛГОРИТМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ АДАПТИВНОЙ СИСТЕМЫ

ТЕСТИРОВАНИЯ ЗНАНИЙ

Н.А. Бессарабов, аспирант, [email protected]; А.В. Бондаренко, д.ф.-м..н., профессор (Московский физико-технический институт (государственный университет), Институтский пер., 9, г. Долгопрудный, Московская обл., 141700, Россия); Т.Н. Кондратенко, начальник лаборатории; Д.С. Тимофеев, начальник сектора (Государственный научно-исследовательский институт авиационных систем, ул. Викторенко, 7, г. Москва, 125319, Россия, [email protected])

В статье рассмотрена задача создания алгоритмического обеспечения адаптивной системы тестирования знаний. Тестирование знаний рассматривается как динамический процесс. На каждом такте работы системы организатор тестирования формирует однородную группу испытуемых; система подбирает наилучший тест исходя из сходящейся процедуры стохастической аппроксимации. Этот тест зависит от вероятностных характеристик контингента испытуемых и позволяет увеличить точность оценивания их подготовленности. Для выявления факторов, мешающих получению объективных оценок, таких как разговоры и списывание, введен коэффициент взаимодействия. Исследовано влияние взаимодействия тестируемых на точность оценивания их подготовленности. Для повышения точности оценивания подготовленности система на каждом такте переоценивает вероятностные характеристики группы испытуемых. Полученные оценки подготовленности испытуемых выравниваются на единой шкале.

В системе реализован расчет трудности заданий с помощью метода максимального правдоподобия, метода условного максимального правдоподобия и метода маргинального максимального правдоподобия. Для оценки подготовленности могут использоваться методы максимального правдоподобия и взвешенного максимального правдоподобия и байесовский подход. Оценки подготовленности и трудности реализованы для дихотомической модели Раша и ее 2-, 3- и 4-параметрических расширений, для полигамических моделей RSM, PCM и их линеаризованных моделей. Для проверки адекватности результатов тестирования используются статистика отношения правдоподобия, статистика Хосмера-Лемешоу, коэффициенты детерминации, ROC-анализ. Для предложенной системы приведены блок-схема алгоритма работы на каждом такте и принципиальная схема БД.

Ключевые слова: математическая теория тестирования, модель Раша, логит, конструирование тестов, стохастическая аппроксимация, точность результатов тестирования, распределение трудности заданий, алгоритмическое обеспечение, адаптивная система, БД, алгоритм работы.

В настоящее время теория латентных параметров находит применение в педагогике, психологии, в маркетинге для исследования пожеланий потребителей, поведения поставщиков, направлений проведения досуга, эффективности рекламы, спортивной информации, при анкетировании в здравоохранении, обосновании программ реабилитации и т.п. [1]. Насчитывается несколько сотен коммерческих и свободно распространяемых программных продуктов, обеспечивающих оценивание латентных параметров.

Значительное число исследований посвящено изучению моделей Раша, составляющих основу ГЯТ [1, 2], и их расширений, а также методам оценивания латентных параметров [3-6].

Тестирование применяют для измерения латентного параметра, например знаний испытуемых. Оно состоит из этапов составления тестовых заданий, непосредственно проведения тестирования и последующей обработки результатов, которая дает оценку латентного параметра тестируемых - уровня подготовленности тестируемых и трудности заданий, надежности, валидности, дискриминационных возможностей и других параметров теста [1].

Обработка результатов тестирования представляет собой решение статической задачи: собира-

ется массив данных, оцениваются трудность заданий и уровень подготовленности испытуемых.

Процесс тестирования знаний по своей сути является динамическим. В начальном состоянии система имеет лишь экспертные оценки трудности заданий и параметров групп тестируемых. По мере проведения тестирования в различные интервалы времени происходит корректировка тестов: какие-то задания оставляют прежними, какие-то заменяют с учетом их трудности для применения на последующих сеансах тестирования.

Важную роль в совершенствовании системы тестирования знаний играет обратная связь: результат функционирования системы тестирования влияет на параметры, от которых зависит функционирование этой системы. Поэтому актуальна разработка алгоритмического и программного обеспечения, в котором система тестирования рассматривается как динамическая с обратной связью.

Постановка задачи

Организатор тестирования проектирует базу заданий для многих вариантов тестов, задает и корректирует образовательный стандарт для различных классов испытуемых. Математическая модель динамической системы тестирования состоит в

том, что в каждый момент проведения тестирования t исследуют однородную группу испытуемых с индексом класса g в количестве п^, g) человек, которым предлагают тест, состоящий из к(^ g) заданий с трудностями 5/1, ..., 5д. По результатам тестирования составляется матрица ответов А= ={/, g)}, где ,=1, ..., п(^ g) и/=1, ..., к(^ g), которая показывает подготовленность испытуемых 0,1, ..., 0т и трудность заданий 5/1, ..., /

Среди заданий теста в момент времени t могут быть ё^, g) < к(^ g) узловых заданий, применявшихся ранее с трудностями 5п, ..., 5и, где индексы {/1, ..., /ё} включены в множество индексов {/1, ..., /к}. Впервые используемые задания имеют начальные трудности, равные значениям, полученным из экспертных оценок. Узловые задания (ранее применявшиеся) имеют трудности, оцененные на последний момент времени применения каждого из них. Кроме трудностей 5/1, ..., 5и, из БД извлекаются дополнительные атрибуты с/1, ..., ш и 0/1, ..., 0/ё (значения достаточной статистики и соответствующей подготовленности) - вычисленные в момент последнего применения соответствующего задания параметры, необходимые для рекуррентных вычислений в момент времени t.

Если в момент времени t принято решение уменьшить число заданий в тесте, тест считается прежним, когда в матрице ответов по этим заданиям элементы соответствующих столбцов были равны только 0 или 1. В противном случае считается, что это новый тест. Увеличение количества заданий за счет добавления заданий по теме теста или замена заданий на задания с аналогичными трудностями не приводит к изменению теста. Все множество испытуемых, для которых создают тесты, естественно разбить на классы, соответствующие тематике тестов и их назначению. Предположим, что подготовленности испытуемых в логитах в каждом классе характеризуются гауссовым распределением Ы(Мг, сг). Параметры класса в начальный момент определяются экспертными оценками и уточняются по мере обработки результатов тестирования для соответствующего класса g.

Организатор тестирования формирует однородную группу п испытуемых из некоторого класса g и предлагает без ограничения общности один тест с определенным числом заданий к различной трудности, обеспечивающих объективное тестирование. Если группе предлагаются несколько равноценных вариантов теста, группой в данный момент считается то множество тестируемых, которое решает один и тот же вариант теста, а после оценки результатов тестирования все подготовленности выравниваются на единой шкале.

Математическая модель решения задачи

Для оценки трудности заданий и подготовленности испытуемых применяется метод максималь-

ного правдоподобия (JML) [3-5]. Кроме того, в системе для оценки трудности заданий могут применяться методы условного максимального правдоподобия (CML) и маргинального максимального правдоподобия (MML), а для оценки подготовленности испытуемых, помимо метода максимального правдоподобия, могут применяться байесовские оценки.

В предложенной системе, помимо дихотомической модели Раша, реализованы следующие расширения этой модели: 2- и 3-параметрические модели (модели Бирнбаума), а также 4-параметрическая модель. Кроме того, реализованы такие полигамические расширения модели Раша, как модель RSM и модель PCM. Помимо этого, реализованы линеаризованные политомические модели LLTM, LRSM и LPCM.

В качестве критериев проверки гипотезы об адекватности модели Раша [6] применяют статистику отношения правдоподобия, статистику Хос-мера-Лемешоу, коэффициенты детерминации, ROC-анализ.

Число заданий в тесте определяет разрешающую способность теста (РСТ), равную разнице подготовленностей двух испытуемых в логитах, у которых разница в количестве правильных ответов равна 1. Разрешающая способность теста, состоящего из к заданий, зависит только от числа заданий теста и числа испытуемых и принимает значения

из интервала

ln

к + 2

ln I 2

к-1

который и

Кк -2) \ к -2, определяет нижний предел дифференцирующей способности теста. Эта величина напрямую не зависит от трудности заданий. К этому пределу и нужно стремиться при проектировании теста. При этом дисперсия ошибки оценивания подготовленности определяется трудностями заданий теста.

Определим понятие наилучшего теста как совокупность заданий с такими трудностями 5/1, ..., 5/к, при которых тест обладает наивысшей разрешающей способностью в данном классе испытуемых сг), его среднеквадратичная ошибка для каждого испытуемого максимально приближена к РСТ среди всех возможных тестов с таким же количеством заданий к. Каждый испытуемый в группе данного класса g должен получить хотя бы одно задание, соответствующее его подготовленности. Чем больше по численности подгруппа испытуемых с близким уровнем подготовленности, тем больше должно быть заданий, соответствующих их подготовленностям. Эти характеристики наилучшего теста показывает его наивысшую дифференцирующую способность при данном количестве заданий к и данной группе данного класса g испытуемых.

Критерием оптимальности распределения заданий в тесте в данной группе g по их трудностям естественно принять математическое ожидание квадрата разницы среднеквадратического отклоне-

ния ошибки способностей тестируемых от наилучшей точности теста при данном количестве заданий в тесте [7]:

^ (8 8 д, к (г, я), г, я) =

= E

{(асе,

8 ......8 л )-стп

де, k et, g )))2}.

Поэтому система тестирования должна в рекуррентной форме формировать оптимальный набор трудности заданий в текущий момент времени для заданного числа заданий, получая на вход минимально достижимое значение ошибки и вычисленное по итогам прошлого такта значение ошибки.

Статистическая обработка результатов тестирования происходит на основе метода максимального правдоподобия. Уравнения правдоподобия имеют вид

дЬ

59

г=Е % -Z1

i f=1 f=i1

^ exp(e,. -8Jf )

+ exp(e,. -8 j )

■ = 0,

где /'=1, дЬ

58,.

=-Z % +Zv i=1 i=1 1

exp(e,. -8)

+ expCe, -8 j )

= 0,

где/=1, ..., к, с условиями типа равенства, учитывающими информацию, полученную в предыду-

£ ехр(9^ -8 )

щие моменты времени: с = > ----—,

1 >1 + ехр(0„ -8;>)

где 5=1, ..., й, 0 , 8, и с - вышеописанные атрибуты ранее вычисленных трудностей.

На первом такте работы системы набор трудностей заданий теста формируется на основании теоретических предпосылок о гауссовом распределении подготовленности испытуемых. В дальнейшем в соответствии с рекуррентной процедурой стохастической аппроксимации на каждом такте времени t происходит уточнение трудности заданий и параметров нормального распределения подготовленности группы. Функция правдоподобия содержит плотности с теми заданиями, которые встречались на предыдущих тактах времени t. В условии типа равенства трудности заданий варьируемы, а подготовленности принимаются константами, равными последним оценкам, полученным на каком-либо раннем такте времени. При этом узловыми могут оказаться задания из любого числа ранее решаемых тестов в любые предыдущие моменты времени. Это обеспечивает единую шкалу трудности заданий и подготовленности тестируемых.

Для введения в систему процесса адаптации параметры класса испытуемых на каждом такте времени t для соответствующего класса g пересчиты-ваются. На этапе формирования теста в каждый момент времени t проверяются следующие условия:

1) с2(0, 51, > сттт, где сттт - предельная дисперсия оценки подготовленности;

2) изменились ли параметры (математическое

ожидание и дисперсия) распределения уровня подготовленности тестируемых.

При выполнении хотя бы одного из этих условий решается задача оптимизации и тем самым вычисляется оптимальный набор трудностей заданий теста {5/}, где/=1, ..., Щ).

В каждый такт времени t задача оптимизации решается с начальным условием в виде оптимального набора трудностей заданий теста для такта работы ^1. В качестве начального распределения уровня трудности заданий взято равномерное распределение. Кроме того, перед началом работы системы должен быть подготовлен ряд заданий теста и определена их трудность. Трудность этих заданий может быть определена либо посредством апробации их на стратифицированной нормативной выборке тестируемых, либо на основании экспертной оценки.

Стоит отметить, что тестируемые возмущаются некоторой случайной ненаблюдаемой помехой ф): она описывает возможное знание испытуемыми конкретных вопросов теста, возможность угадывания и списывания, психологическое волнение, а также другие случайные факторы.

Для учета факторов, мешающих получению объективных оценок подготовленности тестируемых, таких как списывание, подсказки и прочее общение с другими участниками тестирования, применяются результаты исследований по квалимет-рии групповой деятельности операторов [8]. Если ввести коэффициент взаимодействия испытуемых Квз, равный 0 при отсутствии взаимодействия и равный 1 для абсолютного взаимодействия испытуемых, действующих согласованно, как один человек, то при коэффициенте взаимодействия, стремящемся к 1, для соответствующей группы потребуем, чтобы среднеквадратичное отклонение оценок подготовленности тестируемых стремилось к бесконечности.

Введенный коэффициент влияет на результаты таким образом: пусть тестируется группа из класса с распределением подготовленности ЩМ^ сг), тогда при Квз = 0 параметры распределения Gg остаются прежними. При 0<Квз<1, когда есть взаимодействие, среднее смещается в сторону лидера группы, на которого все будут ориентироваться, что вносит свой вклад в результаты тестирования, и в таком случае целесообразно описывать группу распределением N(a(Kвз)•Mg, Р(Квз)^), где а(Квз) и Р(Квз)=1-Квз - функции, описывающие влияние взаимодействия на средний уровень подготовленности группы и разброс подготовленностей в группе. При росте Квз разброс подготовленностей в группе уменьшается. При Квз=1 взаимодействие участников тестирования абсолютное, то есть все тестируемые дают одинаковые ответы на каждый вопрос теста. Тогда целесообразно не засчитывать такой результат тестирования, так как дисперсия подготовленности стремится к бесконечности.

n

Если на каждом такте t коэффициент взаимодействия удовлетворяет условию 0<£вз<1 и ранг матрицы ответов не равен 1, а критерий минимизации .7(5/1, ..., 5/к) имеет вид 3(51;..., , к(г, g), г, g) =

= (0,5,,..., ) )2 X

т-\/2л

( е-M )2

- 2а2 dе-

->min,

взаимодействие в группе и прочие случайные факторы приводят к тому, что градиент критерия измеряется со случайной помехой У1(5ь .... 5к)+ + £,,, где с, - независимые случайные величины с ограниченной дисперсией, то процедура стохастической аппроксимации для поиска оптимального

вектора 8 = (8Р .... 8к)т : 5, = 8М - у, (у/(8м)-|м) .

где множители у4 удовлетворяют условиям

да да

у > 0, ^У, = да, Ху2 < да, сходится при в <=0 /=0 любой группе g почти, наверное, к оптимальному 8° [9, 10]. Кроме того, при I—> / в любой группе g вектор - 5° ) « N(0, К) асимптотически

нормален, где матрица У = У2,/(80)4 £> У2У(80)-1, Б - матрица дисперсий шума с(.

Алгоритм адаптивной системы тестирования

Для решения поставленной задачи разработано алгоритмическое обеспечение адаптивной системы тестирования, блок-схема алгоритма очередного такта которого представлена на рисунке 1.

В начале работы очередного такта системы организатор тестирования формирует однородную группу испытуемых.

После этого система считывает организационные параметры тестирования: требования к заданиям теста, количеству заданий, содержанию заданий, времени выполнения заданий и т.д.

С учетом среднеквадратичной ошибки подго-товленностей, полученной на предыдущем такте работы системы, выполняется шаг стохастической аппроксимации и вычисляются оптимальные значения трудностей заданий теста, на основании которых конструируется оптимальный тест для сформированной однородной группы испытуемых.

Тест из сформированных оптимальных заданий предъявляется группе испытуемых и в соответствии с установленным регламентом под наблюдением организатора тестирования в диалоговом сеансе происходит фиксация ответов группы испы-

туемых с записью окончательных ответов на задания теста в таблицу БД.

По итогам тестирования определяется правильность ответов тестируемых на предъявленные вопросы и формируется матрица ответов.

f-й такт работы системы

Формирование однородной группы тестируемых

Считывание организационных параметров тестирования

Конструирование оптимального теста для сформированной группы в зависимости от организационных параметров тестирования

Вывод теста участникам группы

Формирование матрицы ответов

Да

Статистическая обработка резул ьтато в тести рования

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Вычисление параметров

Сохранение Изменились?

параметров Нет

адаптации

для

следующего

такта ' 1 <

Вывод результатов тестирования испытуемым

Окончание f-го такта работы

Рис. 1. Блок-схема алгоритма работы адаптивной системы тестирования на очередном такте

Fig. 1. A flow chart of the algorithm of the adaptive knowledge testing system on the next cycle

1

x

Статистическая обработка полученной матрицы ответов происходит в соответствии с описанными выше алгоритмами, вычисляются подготовленности испытуемых и новые значения трудностей заданий теста.

Для сформированной группы испытуемых вычисляются параметры адаптации - интегральные характеристики группы, и в случае их отличия от используемых на данном такте происходит их пе-

ренастройка для следующего такта работы системы. Кроме того, вычисляются разница между определенной проектировщиком разрешающей способностью теста и вычисленной ошибкой в результате статистической обработки результатов тестирования, а также качество ответов группы испытуемых с оценкой возможного знания испытуемыми конкретных вопросов теста, угадывания, массового списывания.

TestResults

PK,FK2 TactID

PK,FK2 GroupID

PK,FK1 PersonID

PK,FK2 Question ID

Answer

QuestionStats

PK,FK1 PK Question ID Category

Delta Stat

ClosedQuestions

PK,FK1 PK,FK2 OuestionID

AnswerID

IsValid

Persons

PK PersonID

Firstname

Secondname

Sex

BirthDate

Tacts

PK TactID

TactDateTime

MatchingQuestions

PK,FK1 PK,FK2 PK,FK3 OuestionID AnswerID AppropriateAnswerID

Answers

PK AnswerID

AnswerText

PersonStats

PK,FK2 TactID

PK,FK3 GroupID

PK,FK1 PersonID

Theta

Tests Groups

PK,FK1 PK,FK2 PK,FK3 TactID GroupID PK GroupID

OuestionID W Average Deviation GroupName

Questions OrderingQuestions

PK OuestionID PK,FK1 PK,FK2 OuestionID AnswerID

QuestionText QuestionType Я

AnswerOrder

OpenQuestions

PK,FK1 PK OuestionID Category

FK2 AnswerID Weight

Рис. 2. Принципиальная схема БД адаптивной системы тестирования Fig. 2. A fundamental database scheme of the adaptive knowledge testing system

При отсутствии оснований для аннулирования результатов тестирования группы испытуемых осуществляются определение баллов по метрической шкале и пересчет полученных показателей тестирования в логитах путем линейного преобразования в необходимую метрическую шкалу в баллах. Результаты тестирования предъявляются испытуемым и записываются в таблицу БД.

В реализованной системе информация о тестах, вопросах, участниках тестирования и их результатах хранится в БД, принципиальная схема которой представлена на рисунке 2.

В таблице dbo.Persons содержатся идентификатор каждого тестируемого и его персональная информация. В таблице dbo.PersonStats хранится информация о том, на каком такте работы системы и в какой группе проходил тестирование испытуемый, а также какую оценку уровня знаний он получил.

Таблица dbo.Groups содержит информацию о группах тестируемых и ее свойствах, таких как математическое ожидание уровня знаний и стандартное отклонение.

Таблица тактов dbo.Tacts содержит идентификатор очередного такта работы системы и время его начала. При старте очередного такта система формирует для группы тестируемых новый тест и записывает эту информацию в таблицу тестов dbo.Tests. Ответ каждого тестируемого заносится в таблицу dbo.TestResults.

Таблица заданий dbo.Questions содержит идентификатор задания, его текст и тип задания, который может быть дихотомическим или политомиче-ским, а также вид задания: задание в отрытой форме, с одним или несколькими правильными ответами, на установление соответствия, на установление правильного порядка.

Ответы на все тестовые задания хранятся в таблице ответов dbo.Answers. В каждой строчке хранится либо правильный ответ на вопрос (если запись относится к вопросу в открытой форме), либо вариант ответа.

Таблица заданий с вариантами ответов dbo.QosedQuestюns содержит информацию о вариантах ответов на задания и признак правильного или неправильного ответа. Таблица заданий на установление соответствия dbo.MatchingQuestions хранит данные о каждом соответствии для задания. В таблице заданий на установление порядка dbo.OrderingQuestions содержится информация о порядковом номере каждого варианта ответа для задания. Таблица заданий в открытой форме dbo.OpenQuestions хранит данные об ответе на каждую категорию задания, а также балл за эту категорию.

Таблица статистики заданий dbo.QuestionStats содержит последнее вычисленное значение трудности категории задания и значение накопленной

достаточной статистики, обозначенной в алгоритмах символом с, при последнем вычислении трудности данной категории задания.

В заключение отметим, что в данной работе представлено алгоритмическое обеспечение адаптивной системы тестирования знаний, в которой в определенные моменты времени происходят подготовка и корректировка тестов, тестирование и обработка результатов. В начальном состоянии система имеет лишь экспертные оценки трудности заданий и параметров групп тестируемых. После каждого такта работы системы, помимо вычисления уровня подготовленности тестируемых, в зависимости от состояния системы происходят корректировка состава теста с целью минимизации ошибки оценивания результатов тестирования и уточнение трудности заданий. При этом существенную роль в совершенствовании системы тестирования играет обратная связь, на основе которой вырабатывается управляющее воздействие -набор трудности заданий очередного теста. Оценки трудности и подготовленности в предложенной системе базируются на основе сходящейся процедуры стохастической аппроксимации. Указанные свойства адаптивной системы тестирования знаний гарантируют повышение точности тестирования с течением времени и выравнивание оценок тестируемых на единой шкале.

Литература

1. Bond T.G., Fox C.M. Applying the Rasch Model: Fundamental measurement in the human sciences. 3nd Edn. Lawrence Erlbaum, 2015, 406 p.

2. Rasch G. Probabilistic models for some intelligence and attainment tests. Copenhagen, Denmark, Danish Institute for Educational Research Publ., 1960, 199 p.

3. Mair P., Hatzinger R. Extended Rasch Modeling: The eRm Package for the Application of IRT Models in R. Journ. of Statistical Software, 2007, vol. 20, iss. 9, pp. 1-20; DOI: 10.18637/jss.v020.i09.

4. Anderson C.J., Li Z., Vermunt J.K. Estimation of Models in a Rasch Family for Polytomous Items and Multiple Latent Variables. Journ. of Statistical Software, 2007, vol. 20, iss. 6, pp. 1-36; DOI: 10.18637/jss.v020.i06.

5. Johnson M.S. Marginal Maximum Likelihood Estimation of Item Response Models in R. Journ. of Statistical Software, 2007, vol. 20, iss. 10, pp. 1-24; DOI: 10.18637/jss.v020.i10.

6. Mair P., Bentler P.M. IRT Goodness-of-Fit Using Approaches from Logistic Regression. Department of Statistics, UC Los Angeles, 2011, 13 p.

7. Бессарабов Н.А., Бондаренко А.В., Кондратенко Т.Н., Тимофеев Д.С. Алгоритм конструирования критериально-ориентированного теста // Вестн. компьютер. и информ. технологий. 2014. № 7. С. 42-48.

8. Багрецов С.А., Бондаренко А.В., Обносов Б.В. Квали-метрия групповой деятельности операторов сложных систем управления. М.: Физматлит, 2006. 384 с.

9. Поляк Б.Т., Цыпкин Я.З. Оптимальные псевдоградиентные алгоритмы адаптации // Автоматика и телемеханика. 1980. № 8. С. 74-84.

10. Поляк Б.Т. Сходимость и скорость сходимости итеративных стохастических алгоритмов. I. Общий случай // Автоматика и телемеханика. 1976. № 12. С. 83-94.

DOI: 10.15827/0236-235X.113.068-074 Received 01.09.15

KNOWARE OF AN ADAPTIVE KNOWLEDGE TESTING SYSTEM

Bessarabov N.A., Postgraduate Student, [email protected];

Bondarenko A.V., Dr.Sc. (Physics and Mathematics), Professor

(Moscow Institute of Physics and Technology Institutsky Line 9, Dolgoprudny, 141700, Russian Federation);

Kondratenko T.N., Head of Laboratory; Timofeev D.S., Head of Sector (State Research Institute of Automatic Systems, Viktorenko St. 7, Moscow, 125319, Russian Federation, [email protected])

Abstract. The article considers the problem of realizing knoware for an adaptive knowledge testing system. The process of testing knowledge is represented as a dynamic one.

An organizer forms a homogeneous group of examinees at each cycle of the system. The system selects the best test at each step based on a convergent procedure of stochastic approximation. The best test depends on probabilistic characteristics of examinees contingent and allows increasing estimation accuracy of person parameters. To identify factors that prevent obtaining objective evaluation, such as conversations and copying, the authors introduce an interaction rate. The article analyzes the influense of examinees' interaction on the accuracy of test marks. To improve the estimation accuracy of person parameters the system overestimates probabilistic characteristics of a group of examinees at each cycle. Person and item parameters are aligned on a common scale at each cycle. The system implements evaluating item parameters using the maximum likelihood method, the conditional maximum likelihood method and the marginal maximum likelihood method. The maximum likelihood method, the weighted likelihood method and the Bayesian approach can be used for evaluating person parameters. The system evaluates a 1-parameter dichotomous Rasch model and 2-parameter, 3-parameter, 4-parameter dichoto-mous extensions, RSM and PCM polytomous models and appropriate linearized models. To evaluate matching between observed data and the expected values the authors use a statistics of the likelihood test, statistics of the Hosmer-Lemeshow test, coefficients of determination, ROC-analysis. The article contains a flow chart of the algorithm for each cycle and a database schematic diagram.

Keywords: item response theory, Rasch model, logit, tests design, stochastic approximation, test results accuracy, distribution of test's easiness, knoware, adaptive system, database, computer algorithm.

References

1. Bond T.G., Fox C.M. Applying the rasch model: fundamental measurement in the human sciences. 3rd ed., Lawrence Erlbaum Publ., 2015, 296 p.

2. Rasch G. Probabilistic models for some intelligence and attainment tests. Copenhagen, Denmark, Danish Institute for Educational Research Publ., 1960, 199 p.

3. Mair P., Hatzinger R. Extended Rasch Modeling: The eRm package for the application of IRT models in R. Journ. of Statistical Software. 2007, vol. 20, iss. 9. Available at: http://www.jstatsoft.org/arti-cle/view/v020i09 (accessed January 11, 2016); DOI: 10.18637/jss.v020.i09.

4. Anderson C.J., Li Z., Vermunt J.K. Estimation of models in a rasch family for polytomous items and multiple latent variables. Journ. of Statistical Software. 2007, vol. 20, iss. 6. Available at: http://www.jstatsoft.org/ar-ticle/view/v020i06 (accessed January 11, 2016); DOI: 10.18637/jss.v020.i06.

5. Johnson M.S. Marginal maximum likelihood estimation of item response models in R. Journ. of Statistical Software. 2007, vol. 20, iss. 10. Available at: http://www.jstatsoft.org/article/view/v020i10 (accessed January 11, 2016); DOI: 10.18637/jss.v020.i10.

6. Mair P., Bentler P.M. IRT Goodness-of-fit using approaches from logistic regression. Department of Statistics, UC Los Angeles, 2011, 13 p.

7. Bessarabov N.A., Bondarenko A.V., Kondratenko T.N., Timofeev D.S. An algorithm for constructing criterion-oriented test. Vestnik kompyuternykh i informatsionnykh tekhnology [Herald of Computer and Information Technologies]. 2014, no. 7, pp. 42-48 (in Russ.).

8. Bagretsov S.A., Bondarenko A.V., Obnosov B.V. Kvalimetriya gruppovoy deyatelnosti operatorov slozhnykh sistem upravleniya [Qualimetry of Operators Group Activities in Complex Control Systems]. Moscow, Fizmatlit Publ., 2006, 384 p. (in Russ).

9. Polyak B.T., Tsypkin Ya.Z. Optimal pseudogradient adaptation algorithms. Avtomatika i telemekhanika [Automation and Remote Control]. 1980, no. 8, pp. 74-84 (in Russ.).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10. Polyak B.T. Convergence and rate of convergence in iterative stochastic processes. I. The general case. Avtomatika i telemekhanika [Automation and Remote Control]. 1976, no. 12, pp. 83-94 (in Russ.).

i Надоели баннеры? Вы всегда можете отключить рекламу.