Научная статья на тему 'Адаптивные тесты: статистические методы обработки результатов тестового контроля знаний'

Адаптивные тесты: статистические методы обработки результатов тестового контроля знаний Текст научной статьи по специальности «Науки об образовании»

CC BY
664
85
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
адаптивный тест / статистическая обработка / параметрическая оценка / адаптивний тест / статистична обробка / параметрична оцінка / adaptive test / statistical processing / parametric evaluation

Аннотация научной статьи по наукам об образовании, автор научной работы — Федорук П. И.

В статье рассмотрены возможности статистических методов анализа результатов тестирования, приведены простейшие и необходимые процедуры обработки результатов тестирования знаний и методы оценки качества теста. Рассмотрен поход к конструированию тестов, который представлен в современной теории тестов на основе математической теории параметрической оценки тестовых заданий на базе основных современных моделей: однопараметрической модели Раша, двухпараметрической и трехпараметрической моделях Бирнбаума. Ил.: 4. Библиогр.: 11 назв.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

In the article the possibilities of static methods of analysis of test results, given are considered and are the simplest and the most necessary procedures of statistical processing of knowledge test results and methods of evaluation of test quality. The article describes the approach to test construction which is described in the modern test theory on the basis of mathematical theory of parametric evaluation of test tasks on the basis of modern mathematical models: oneparametric model of Rush, twoparametric and threeparametric models of Birnbaum. Key words: adaptive test, statistical processing, parametric evaluation.

Текст научной работы на тему «Адаптивные тесты: статистические методы обработки результатов тестового контроля знаний»

УДК 651.3:518.5 П.І. ФЕДОРУК

АДАПТИВНІ ТЕСТИ: СТАТИСТИЧНІ МЕТОДИ АНАЛІЗУ РЕЗУЛЬТАТІВ

ТЕСТОВОГО КОНТРОЛЮ ЗНАНЬ________________________________________________________________________

Abstract: In the article the possibilities of static methods of analysis of test results, given are considered and are the simplest and the most necessary procedures of statistical processing of knowledge test results and methods of evaluation of test quality. The article describes the approach to test construction which is described in the modern test theory on the basis of mathematical theory of parametric evaluation of test tasks on the basis of modern mathematical models: oneparametric model of Rush, twoparametric and threeparametric models of Birnbaum.

Key words: adaptive test, statistical processing, parametric evaluation.

Анотація: У статті розглянуто можливості статистичних методів аналізу результатів тестування, представлено найпростіші та необхідні процедури статистичної обробки результатів тестування знань і методи оцінки якості тесту. Розглянуто підхід до конструювання тестів, представлений у сучасній теорії тестування на основі математичної теорії параметричної оцінки тестових завдань на базі основних сучасних математичних моделей: однопараметричної моделі Раша, двопараметричної та

трипараметричної моделях Бірнбаума.

Ключові слова: адаптивний тест, статистична обробка, параметрична оцінка.

Аннотация: В статье рассмотрены возможности статистических методов анализа результатов тестирования, приведены простейшие и необходимые процедуры обработки результатов тестирования знаний и методы оценки качества теста. Рассмотрен поход к конструированию тестов, который представлен в современной теории тестов на основе математической теории параметрической оценки тестовых заданий на базе основных современных моделей: однопараметрической модели Раша, двухпараметрической и трехпараметрической моделях Бирнбаума.

Ключевые слова: адаптивный тест, статистическая обработка, параметрическая оценка.

1. Вступ

З розвитком освітніх систем все більше уваги приділяється контролю знань тих, хто навчається за допомогою тестування. Сучасне тестування являє собою комплекс стандартизованих методів вимірювання тих латентних (тобто недоступних для безпосереднього спостереження) параметрів людини, які визначають її рівень підготовки і відповідність освітнім стандартам у конкретній області знань [1, 2]. При цьому широко використовуються математичні методи планування й обробки результатів тестування, а також сучасні технології обробки інформації. Об'єктивний контроль знань, вмінь і навичок - одне із актуальних завдань нашого часу [3]. Його вдається виконати при критеріально-орієнтованій інтерпретації тестування. Критеріально-орієнтоване тестування призначене не тільки для оцінювання рівня знань, а й для визначення рівня індивідуальних досягнень відносно певного критерію на підставі логіко-функціонального аналізу змісту завдань. Тому, враховуючи індивідуалізацію навчання, конструювання критеріально-орієнтованих тестів є одним із провідних та найактуальніших напрямків розвитку теорії тестів.

В сучасних навчальних системах тест повинен бути індивідуалізований. Тобто, він повинен мати певну довжину, а для всіх його завдань, апробованих емпірично, необхідно однозначно знати їх складність [3]. Так виникає одне із головних питань теорії тестів - питання побудови оптимального тесту.

2. Класичні статистичні методи аналізу результатів тестування

Історично виділяють два основні підходи до створення тестів. Перший з них набув широкого розвитку в рамках класичної теорії тестів. Згідно з ними, рівень знань учасників тестування

оцінюється за допомогою їх індивідуальних балів. Бал обчислюють як алгебраїчну суму оцінок виконання кожного завдання тесту.

Класична теорія тестів ґрунтується на статистичних методах аналізу результатів тестування [4, 5]. Розглянемо найпростіші і необхідні процедури статистичної обробки результатів тестування знань і методи оцінки якості тесту.

В усіх відомих теоріях тестування розглядається як процес протистояння учасника із

запропонованими йому завданнями. Позначимо через Xу числову оцінку успішності виконання у -

ого завдання і -им студентом. Результати тестування звичайно представляються у вигляді матриці

{Ху} з п рядками та т стовпцями (і = 1,п, у = 1, т). Матриця тестових результатів показує

результат виконання всіх завдань учасниками тестування. На практиці прийнято, як правило, використовувати дихотомічну шкалу оцінок результатів. У результаті правильного виконання завдання студент отримує один бал, Ху = 1, в протилежному випадку - нуль балів, Ху = 0.

Якщо за правильне виконання завдання студент отримує одиницю, а за неправильне - нуль, то бал виражає кількість правильно виконаних завдань. Результат можна оцінювати не лише нулем чи одиницею, але й присвоювати певний ваговий коефіцієнт, що відповідає складності завдання.

Процес статистичної обробки матриці результатів тестування будемо розглядати

послідовно. На першому кроці обчислюємо індивідуальні початкові бали всіх студентів у , і = 1,п .

у, = ^ хґ - результат (індивідуальний бал) і -ого студента після проходження тесту (кількість усіх

І=і

правильних відповідей).

Обчислюємо середній результат у сумарних балів учасників тестування та середній

результат X] студентів за кожним завданням:

Важливою вимогою до тестових завдань є їх об'єктивний рівень складності. В тесті немає місця завданням з невідомою мірою складності. Завдання стають тестовими лише після емпіричної перевірки міри їх складності.

Складність завдань можна визначати двома способами [6]:

- на основі оцінки передбачуваного числа і характеру розумових операцій, необхідних для вдалого виконання завдань;

- на основі емпіричної перевірки завдань, з підрахунком частки неправильних відповідей.

У класичній теорії тестів багато років розглядалися тільки емпіричні показники складності. У сучасних теоріях навчальних тестів, які використовуються в дистанційному навчанні, більше уваги приділяється характеру розумової діяльності у процесі виконання тестових завдань різних форм.

т

п

п

п

п

Емпірично складність завдання визначається додаванням елементів матриці по рядках і дорівнює числу правильних відповідей, отриманих за кожним завданням (R.). Чим більше

правильних відповідей на завдання, тим воно легше для даної групи студентів.

У міру простоти показник R. зручний, але доти, поки не з'являться інші групи з іншим

числом студентів. Тому для одержання об'єктивних характеристик R. ділять на число студентів у кожній групі (об'єм вибірки):

Rj

Pj =-і-.

n

У результаті отримаємо нормований статистичний показник - частка правильних відповідей, p.. Статистика p. довго використовувалася як показник рівня складності завдання в класичній

теорії тестів. Пізніше була усвідомлена певна її неточність: адже збільшення значення p . означає

не зростання складності завдання, а, навпаки, зростання легкості. Тому з показником складності завдань стали асоціювати протилежну статистику - частку неправильних відповідей, q.. Вона

обчислюється як відношення числа неправильних відповідей Wj (від англ. wrong - неправильний) до кількості учасників тестування n :

W,

q =-., p. + q. = 1. n

Наступною вимогою до тестових завдань є варіація балів.

Якщо на деяке завдання правильно відповідають всі студенти, то таке завдання стає не тестовим. Учасники тестування відповідають на нього однаково: між ними немає варіації. Відповідно по даному завданню в матриці будуть стояти лише одиниці. Нетестовим вважається завдання, на яке немає жодної правильної відповіді. Варіація по ньому теж рівна нулю. Нульова варіація означає практичну необхідність викидання завдання із тесту.

2

Зручною мірою варіації є значення дисперсії Sy і стандартне відхилення Sy сумарних балів учасників тестування:

Z( у - у)2 г-S2 = • sy =

2

та величина S. - дисперсія результатів студентів по j -ому завданню:

П _

j 2

Е (хч - хі)

s2 =-і=----------------, і = 1, т.

7 п -1

Якщо успішність виконання ] -ого завдання оцінюється балами 0 чи 1, то міра варіації визначається формулою з2. = р (1 — р .) або з2. = р • q..

Обчисливши дисперсію, можна знайти і стандартне відхилення .

Завдання в тестовій формі не можна назвати тестовим, якщо воно не корелює із сумою балів по всьому тесту. Для цього можна використовувати коефіцієнт кореляції Пірсона:

£(х ух у і )

і=1 -- хі х у

г. П і П

Я =---------------П-----------------------х---------

у 5і X 5у П - 1

або бісеріальний коефіцієнт кореляції:

в = М л - Мі о

Пі0 • Пі1

п(п -1)

де п , = £ х - число тих студентів, що одержали за даним завданням 1 бал;

У1 /—і V

Пі1 і=1

Пу0 = П - Пу1 - число тих студентів, що відповіли неправильно на у -е завдання;

М1 - середнє арифметичне сум балів по всьому тесту для тих студентів, які одержали за даним завданням 1 бал, Му 0 - нуль балів:

£(1 - хц)Уі £хуУі

Му о = ---------, Му1 = -------

Пі0 Пі1

Попарний кореляційний зв'язок завдань між собою можна обчислити за формулою

ЛБ - ВС ®}к = 7(Л + В)(С + Б)(Л + С)(В + Б) '

де Л = £х х, - кількість учасників тестування, які вірно виконали завдання і та к ;

у ік ■>

і=1

п

в=£ хі і(1 - х к) - вірно виконали завдання ] та невірно к.

і=1

Аналогічно С = £ (1 - Ху х, в = £(1 - ху)(1 - хк).

і=1 і=1

Із збірника завдань викидаємо завдання, що не володіють дискримінативністю: р. > 0,9 (надто легкі), р. < 0,2 (надто важкі). Виключають завдання, що погано корелюють із сумою балів (В. < 0,15), і негативні коефіцієнти кореляції. Для зменшеного списку завдань складається нова

впорядкована таблиця, для якої перераховуються вищезгадані показники.

Крім того, отримані тестові завдання повинні задовольняти критерій надійності та валідності.

П

Надійність тесту тим вища, чим більше погоджені результати учасника тестування при повторній перевірці знань за допомогою того самого тесту. Погодженість можна вимірювати коефіцієнтом надійності Кьюдера-Річардсона:

Якщо 0,8£ р £ 0,89, тест має високу надійність, якщо р> 0,9, надійність дуже висока. Чим вищий показник надійності, тим менша помилка виміру індивідуального результату.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Валідність тесту показує, наскільки якісно робить тест те, для чого він був створений. Визначити коефіцієнт валідності тесту - означає визначити, як виконання тесту співвідноситься з іншими незалежно зробленими оцінками знань учасників тестування. Для визначення валідності необхідним є незалежний зовнішній критерій, тобто оцінка експерта (викладача). За коефіцієнт валідності приймають коефіцієнт кореляції результатів тестових вимірів і критерію. Якщо експертна оцінка знань студентів, отримана незалежно від процедури тестування, представлена числовою

послідовністю У-і, ^2 ,---,У„, то коефіцієнт валідності тесту може бути обчислений так:

3. Математична теорія параметричної оцінки тестових завдань

Штучність низки припущень класичної теорії тестів і деякі її практичні недоліки помітно вплинули на ріст критичних тенденцій. Цьому, в першу чергу, сприяли сумніви в об'єктивності емпіричних оцінок складності завдань тесту. А саме: виникло питання про правомірність традиційного оцінювання складності завдань за допомогою частки правильних чи неправильних відповідей.

При традиційному підході до зміни рівня складності завдань на різних по підготовці вибірках студентів залишається відкритим питання про об'єктивність значень параметра складності завдань тесту [1]. Спроба введення вагових коефіцієнтів, що відображають вклад завдання в індивідуальний бал студента, суттєво не виправляє такі недоліки. Значення цих коефіцієнтів можна, в свою чергу, поставити під сумнів. Деякі з них визначаються суб'єктивно, на основі думки педагога про складність завдання. Оцінки решти з них базуються на емпіричних даних тестування і, відповідно, залежать від рівня знань вибірки студентів.

п

- стандартне відхилення експертних оцінок.

Таким чином, можна відзначити, що нестійкість статистик та їх взаємний вплив помітно знижують якість тестових результатів. За допомогою цих статистик не можна об'єктивно оцінити значення параметрів, що характеризують складність завдання тесту, а також виразити значення цих параметрів на інтервальній шкалі [2].

Другий підхід до створення тестів та обробки їх результатів представлений в так званій сучасній теорії тестування, що набула широкого розвитку в 1960 - 1980 роках в багатьох західних країнах [7].

Сучасний етап розвитку і функціонування тестового контролю характеризується застосуванням до вирішення психолого-педагогічних задач методології латентно-структурного аналізу (LSA) [8]. Одним з напрямків LSA є Item Response Theory (IRT) - математична теорія параметричної оцінки тестових завдань і тих, хто проходить тестування. Відповідно до цієї теорії встановлено, що між результатом виконання, що спостерігається, і латентним параметром учасників тестування є деяка залежність, яку можна виразити за допомогою функції. Для IRT характерне прагнення до фундаментального теоретичного підходу і разом з цим до коректного розв'язання низки практичних задач.

IRT спрямована на оцінювання латентних якостей особистості та параметрів завдань тесту на основі математичних моделей [8, 9].

До найбільш вагомих переваг IRT відносять:

- стійкі об'єктивні оцінки параметра складності завдань, що не залежать від властивостей вибірки студентів, які виконують тест;

- вимірювання значень параметрів студентів і завдань тесту в одній і тій же шкалі, що дозволяє поставити у відповідність рівень знань кожного учасника тестування із рівнем складності кожного завдання тесту;

- можливість оцінити ефективність різних за рівнем складності завдань для вимірювання даного значення латентного параметра студента.

На відміну від класичної теорії тестів, де індивідуальний бал розглядається як стале число, в IRT латентний параметр трактується як деяка змінна. Початкове значення параметра отримується безпосередньо на основі емпіричних даних тестування. Змінний характер вимірюваної величини вказує на можливість послідовного наближення до об'єктивних оцінок параметрів за допомогою ітераційних методів.

Латентні параметри, точніше, взаємодія двох множин їх значень породжує результати виконання тесту. Елементи першої множини - це значення латентного параметра, що визначає

рівень знань n учасників тестування в., де і = 1,..., n. Другу множину утворюють значення латентного параметра 8 , де j = 1,...,m, що відповідають рівням складності m завдань тесту.

j

На практиці ставиться задача: за відповідями студентів на завдання тесту оцінити значення латентних параметрів в і 8 [10]. Для її вирішення потрібно відповісти на два питання:

1. Як вибрати співвідношення між в і 8 ?

2. Як правильно вибрати математичну модель, тобто таку модель, яка пов'язує емпіричні результати тестування та латентні параметри в і 8?

В рамках IRT датським математиком Джорджем Рашем у 1957 році була запропонована модель контролю знань [11], яку часто називають простою логістичною моделлю. Модель Раша спирається на поняття „складність завдання” та „рівень підготовки студентів”. Так, одне завдання вважається складнішим, ніж друге, якщо ймовірність правильної відповіді на перше завдання менша, ніж на друге, незалежно від того, хто його виконує.

Таким чином, оцінка складності тестових завдань не залежить від вибірки учасників тестування. Крім того, модель Раша характеризується найменшим числом параметрів: один параметр рівня знань для всіх випробуваних та тільки один параметр складності для всіх завдань.

Дж. Раш запропонував ввести співвідношення між в і 8 у вигляді різниці в —8, вважаючи, що параметри в і 8 оцінюються в одній шкалі.

У такій математичній моделі параметри в і 8 виражаються як показники, задані в одній шкалі логітів. Введення однієї шкали для елементів двох множин в і 8 дозволяє ввести взаємозв'язок між змінними у вигляді різниці в — 8, коректно порівняти результати студентів, отримані за допомогою різних тестів, оцінити рівень складності завдань незалежно від рівня підготовки груп студентів.

Можна розглядати умовну ймовірність правильного виконання j -ого завдання із рівнем

складності 8j різними студентами. Тут незалежною змінною є в, а 8. - параметр, що визначає

складність j -ого завдання:

р.(xj=1 8j)=р(в-8.)•j=1,.,m.

В теорії IRT функцію (р(в) називають „Item response function” (IRF). Спеціальну назву має

графік такої функції - характеристична крива j -ого завдання (ICC). При виборі вигляду функції P.

враховують обставини як емпіричного, так і математичного характеру. Припустивши, що значення латентних параметрів змінних в і 8 мають нормальний розподіл, маємо дві такі функції. Одна з них позначається Y(x) - деяка логістична функція, інша Ф(x) - інтегральна функція нормованого нормального розподілу. Оскільки для одних і тих же значень x ординати точок графіків функцій Ф( x) і Y(1,7 x) відрізняються достатньо мало, а саме

|Ф( x) -Y (1,7 x)| < 0,01,

то на практиці перевагу віддають функції Y(1,7x), адже в ній значно простіше аналітичне

завдання, вигідне для оцінювання 8.

Кількість параметрів у такому аналітичному завданні функції розбиває сімейства IRF на класи. Серед логістичних функцій розрізняють:

- однопараметричну модель Дж. Раша:

e

Pj (в) =

17(0-8.)

- двопараметричну модель А. Бірнбаума:

1,7а,. (в-3])

Р. (0) = 1 +_ е1,7а,(0-8.) ;

- трипараметричну модель А. Бірнбаума:

1,7а, (^-^.)

Р. (0) = С. + (1 - С.) і-1,7а.(0-8.) ■

1 + ^ Л ]>

де а. та С. - другий і третій параметри, що відповідно характеризують диференційовану

здатність завдання при зміні різних значень 0 та ймовірність угадування правильної відповіді на . -е завдання.

У кожній із представлених моделей параметри 0 і 8 виражаються як показники єдиної для всіх моделей шкали логітів. Введення єдиної шкали логітів для елементів цих двох різних множин дозволяє ввести взаємозв'язок між змінними у вигляді різниці, оцінити складність завдань тесту незалежно від рівня підготовки груп учасників тестування.

4. Основні математичні моделі Модель Раша

Успіх учасника тестування при розв'язанні деякого тестового завдання залежить від двох факторів: складності завдання і рівня підготовки учасника. Ймовірність того, що деякий учасник вірно виконає конкретне завдання, є функцією щонайменше двох аргументів: рівня підготовки учасника тестування £ та рівня складності даного завдання Ґ :

Р = Р(£, Ґ) .

Таку функцію називають функцією успіху [8]. Якщо вигляд функції успіху відомий, то за результатами випробувань методами математичної статистики з певною точністю можна оцінити аргументи цієї функції, в тому числі і рівень складності завдань [8].

Основна логістична модель Раша полягає в тому, що ймовірність правильної відповіді першим учасником (більш підготовленим) на перше завдання має співпадати із ймовірністю правильного виконання другим учасником (менш підготовленим) іншого завдання (менш складного). Із цього слідує:

- аргументи £ і Ґ тісно пов'язані між собою, неможливо визначити один із них, не визначивши другий;

- ймовірність успіху залежить не від кожного аргументу £ і Ґ окремо, а від їх відношення

£

Р = Р£ґ) = Р(Х), х = £-■

Параметри £ і Ґ називають латентними (неспостережуваними) параметрами [10], оскільки вони описують деякі приховані характеристики учасників тестування та тестових завдань.

Функція успіху запишеться у вигляді однорідної функції нульового порядку :

р - Р(£, і)-. £ - £/ і - х

£ + і £ / і +1 х +1

Ця найпростіша модель вперше дала можливість об'єктивно визначати співвідношення між учасниками тестування і тестовими завданнями довільних рівнів підготовки та складності.

Параметри £ і і можуть бути довільними додатніми числами £ є(0,¥, і є(0,те).

Якщо ввести позначення

1п £ -1,7 в, 1п і -1,7-3 & £ - є1’7*, і - є113, 1п£- 1п £ - 1п і -1,7(0-3),

то функція успіху матиме вигляд

«1,10 -1 -1

Р - -(1 + є11(3-в))-1 -(1 + є—)-1

і буде називатися основною логістичною моделлю Раша.

Ймовірність успіху залежить лише від різниці 0-3, і тому модель Раша є

однопараметричною.

Розглянемо модель Раша більш детально. Нехай тест складається із т різних завдань, тест виконують п студентів. Позначимо через Ху числову оцінку успішності виконання у -ого

завдання і -им студентом. Якщо і -ий студент вірно виконав у -те завдання, то X у - 1. Якщо

невірно, то Ху - 0. Результати тестування представляються у вигляді матриці результатів {Ху} ,

де і-1, п, у -1, т .

Ху

Е-

Обчисливши р. - ■у-1— (частка правильних відповідей і -ого студента на всі завдання

і т

тесту та qj -1 - рі - частка неправильних відповідей), можна визначити початковий логіт рівня знань кожного студента (тобто початкову оцінку рівня знань і -ого студента у шкалі логітів):

в0 - 1пр, і-1,п .

qi

Е

Ху

Обчисливши р =-ьі--------- (частка правильних відповідей всіх студентів групи на . -е

1 п

завдання та q. = 1 — р. - частка неправильних відповідей), можна визначити початковий логіт складності завдання (тобто початкову оцінку рівня складності . -ого завдання у шкалі логітів):

80 = 1п —, 1 = 1, т .

1

Рі

Цей етап оцінювання латентних параметрів є початковим. Після його завершення кожен із параметрів буде виражений в інтервальній шкалі, але з різними значеннями середнього та різними стандартними відхиленнями.

На наступному етапі значення ді та 3- переводимо в одну інтервальну шкалу. У формулі

і у

для такого переходу закладена ідея зниження впливу складності завдань на оцінки учасників тестування.

Попередньо обчисливши середнє значення початкових логітів рівня знань студентів:

в- 00 + ••• + 0

п

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

та стандартне відхилення V розподілу початкових значень параметра 3:

п

Ев -в)2

ч і 2 _ і-1

V2 -

п -1

, V-УІУ1,

отримаємо формулу для обчислення логіта складності у -ого завдання:

3у-в+ У-30, у -1,т ,

у у ^

де У -

1 +

N 1/2

2,89

Аналогічно, обчисливши 3

30+•••+3^

W-‘

т

Е (30-3)2

у1_________

т -1

1 +

W1

2,89

N1/2

отримаємо формулу для обчислення логіта рівня знань і -ого студента:

в,-3 + X-00, і - 1п .

Така оцінка параметра 3- дозволяє оцінити рівень складності всіх завдань незалежно від

рівня підготовки студентів. Теоретично значення параметра 3 змінюються на інтервалі (-¥>;¥>), але на практиці рекомендованим є інтервал (-3;3).

Отримані значення дозволяють співставити рівень знань студентів із рівнем складності завдань тесту. Якщо 0, - 3у - від'ємна величина і велика за модулем, то завдання складності 3у є

і у у

надто важким для студента з рівнем знань 0, , і воно не буде корисним для виміру рівня знань і -ого студента. Якщо ця різниця додатня і велика за модулем, то завдання надто легке, воно давно освоєно студентом. Якщо 0і -3у, то ймовірність того, що студент вірно виконає завдання,

і у

дорівнює 0,5.

За допомогою різниці 0і - 3у визначається планка виконання тесту, тобто ймовірність, яка

і у

стверджує: може студент пройти тест чи ні.

Після оцінювання значень 0 і 3 у шкалі логітів приступають до обчислення ймовірності Ру (0) правильного виконання у -ого завдання тесту різними студентами:

1,1(0-3,.)

р, (0) -

1 + є

1,1 (0-3у ) ’

де 0- (01,02, ,0п).

Ймовірність Ру правильного виконання у -ого завдання тесту є зростаючою функцією

змінної 0. Очевидно, що чим вищий рівень знань студента, тим більша ймовірність правильного виконання ним у -ого завдання тесту.

Ввівши умовну ймовірність Ру правильного виконання у -ого завдання різними студентами,

можна перейти до побудови характеристичної кривої у -ого завдання тесту (рис. 1).

Характеристична крива . -ого

завдання тесту показує взаємозв'язок між значеннями незалежної змінної 0 і

значеннями

Р. [8]. Точці перегину

і

Рис. 1. Характеристична крива у -ого завдання

характеристичної кривої відповідає значення 0-3. а Ру в цій точці дорівнює 0,5. Таким

чином, студент із рівнем знань, що дорівнює складності у -ого завдання тесту, відповість

на нього правильно з ймовірністю 0,5. Для студентів з рівнем знань набагато більшим, ніж 3у,

ймовірність правильної відповіді на це завдання прямує до одиниці. Якщо ж значення 0 розміщені достатньо далеко від значення 0-3у і зліва від точки перегину, то ймовірність правильного

виконання у -ого завдання буде прямувати до нуля.

Характеристичні криві, що відповідають завданням різних рівнів складності, не перетинаються [8], [10].

Збільшення складності у -ого завдання тесту на константу С (С > 0) зумовить зміщення характеристичної кривої вправо. Із попередньою ймовірністю на це завдання буде відповідати студент із рівнем знань 0 + С. Оскільки 0-3- (0 + С) - (3 + С), то значення функції Ру (0) не змінюється.

Отже, якщо взяти важче завдання, то з колишньою ймовірністю на нього буде відповідати той студент, у якого рівень підготовки зміниться на ту ж константу, що і рівень складності завдання.

Враховуючи принцип індивідуалізації навчання, для більш грунтовного вирішення необхідний додатковий аналіз учасників тестування [9]. Якщо група студентів гомогенна за рівнем знань і більшість значень 0 розміщені на невеликому інтервалі осі латентної змінної, то і більша частина завдань тесту за складністю має відповідати цьому інтервалу. У випадку гетерогенної за рівнем знань вибірки студентів значення параметра складності повинні охоплювати більший інтервал на осі 0, а характеристичні криві завдань можуть розміщуватись достатньо далеко одна від одної.

Одне і те ж завдання може бути як ефективним, так і неефективним при оцінюванні різних

значень 0. Тому не існує єдиної оптимальної моделі при підборі завдань у тест. Запропоноване

моделювання шляхом цілеспрямованого підбору завдань для оцінювання даного 0І дозволяє

лише мінімізувати стандартну похибку вимірювання його значення.

Двопараметрична модель Бірнбаума

Формулу для умовної ймовірності правильного виконання у -ого завдання тесту учасниками із різними значеннями 0 у випадку двопараметричної моделі Бірнбаума можна записати у вигляді

де, крім попередніх позначень, вводиться нове а. для другого параметра у -ого завдання

тесту.

Ймовірність успіху залежить лише від а у та в-ду , тому модель Бірнбаума називають двопараметричною [8] (див. рис. 2).

° в - 3 у

При геометричному трактуванні перший параметр 8 можна розглядати як характеристику

положення кривої 1 -ого завдання відносно осі в. Другий параметр а. пов'язаний із кривизною характеристичної кривої у -ого завдання в точці її

Рис. 2. Характеристична крива у -ого завдання за моделлю Бірнбаума

перегину. А саме, значення ау прямо пропорційне

тангенсу кута нахилу дотичної до характеристичної кривої завдання в точці в = 8 . . Це означає, що крутіші криві відповідають більшим значенням

ау, відповідно для похилих кривих а. ® 0.

Теоретично значення параметра а. можуть змінюватись на інтервалі (-¥>;¥>). Аналіз характеристичних кривих завдань однакової складності, але різної кривизни дозволяє відібрати кращі завдання і визначити розумні межі інтервалу для значень параметра а. [11].

При невеликих значеннях параметра а. характеристична крива є похилою, тому для

учасників тестування із рівнем підготовки в <8. і для учасників із в > 8. ймовірності правильного

виконання . -ого завдання приблизно однакові. Якщо значення параметра а. досить велике, то ймовірності

успіху будуть суттєво відрізнятися. Тому параметр а. отримав назву

коефіцієнта дискримінації, тобто числової характеристики здатності тестового завдання диференціювати учасників тестування за їх рівнем

На рис. 3 зображено характеристичні криві для завдань з однаковим рівнем складності 8 = 1, але з різними коефіцієнтами дискримінації а1 = 0,3 та а2 = 2,8. Характеристична крива,

яка зображена суцільною лінією, відповідає завданню з коефіцієнтом дискримінації а1 = 0,3, а

пунктиром - із а2 = 2,8. Розглянемо точку, що відповідає значенню 8 = 1 на осі в. З графіка

видно, що для кривої з а1 = 0,3 ймовірність правильного виконання завдання учасниками з рівнем

підготовки в < 1 та в > 1 відрізняється несуттєво. Для в = 0 ймовірність успіху дорівнює 0,43, а для в = 2 відповідна ймовірність рівна 0,57. Для характеристичної кривої завдання з а2 = 2,8

ймовірність правильного виконання завдання учасниками тестування з рівнем підготовки в < 1 та в> 1 відрізняється досить суттєво. Для в = 0 така ймовірність рівна 0,06, а для в = 2 відповідно

0,94.

Відбір завдань із великими значеннями а. є одним із важливих принципів при підготовці

ефективного тесту. Адже при індивідуалізованому підході до навчання немає потреби давати

сильному студенту завдання з від'ємними значеннями а.. На такі завдання відповідають

правильно з великою ймовірністю учасники тестування з низьким рівнем знань, а для студентів із високим рівнем знань ймовірність правильної відповіді прямує до нуля. Порівняльний аналіз кривизни характеристичних кривих із спільною точкою перегину дозволяє виділити одне, найбільш

ефективне завдання з найбільшим значенням коефіцієнта дискримінації а.. На практиці, як

Рис. 3. Характеристичні криві завдань з однаковим рівнем складності 8 = 1 і різними коефіцієнтами дискримінації а.

правило, рекомендується залишати завдання зі значеннями а. є (0,5;3). Значення а. = 1 відповідає однопараметричній моделі Раша.

Трипараметрична модель Бірнбаума

Для тестів з завданнями в закритій формі інколи спостерігається суттєве відхилення емпіричних даних від теоретичної кривої, що характеризує ймовірність правильного виконання завдання при різних значеннях параметра в. Такий ефект найбільш характерний для учасників з низькими значеннями параметра в при відповідях на найскладніші завдання тесту. Спроби з'ясувати причини такого відхилення привели творців сучасної теорії тестів до висновку про вплив ефекту вгадування правильної відповіді на достовірність емпіричних даних [8, 9].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Можливо, що учасники тестування із різним рівнем знань користуються різними методами при виборі правильної відповіді. Точніше, методами користуються тільки ті з них, хто володіє достатніми знаннями для правильного вибору. Інші ж, знання яких характеризуються низькими значеннями параметра в, просто вгадують правильну відповідь на завдання. І чим складніше завдання, тим ймовірніше, що відповідь одержана саме таким чином. Для того, щоб врахувати фактор вгадування, А. Бірнбаум запропонував трипараметричну логістичну модель [11].

У такому випадку ймовірність правильної відповіді студентом на у -е завдання тесту знаходять за формулою

де, крім попередніх позначень, введено третій параметр С■, що характеризує ймовірність правильної відповіді учасником тестування на . -е завдання тесту при відсутності знань у студента, тобто С. - це ймовірність вгадування правильної відповіді на . -е завдання. Наприклад, для

\,1а} в-Зі)

завдання у випадку трипараметричної моделі зображено на рис. 4.

Цікаво порівняти кривизну кривої на рисунку із зображеною характеристичною кривою завдання, що має ту ж точку перегину, але нижньою асимптотою якої є вісь в (Су = 0). На основі такого

порівняння легко бачити, що наявність

в

0 в = З у

Рис. 4. Характеристична крива ] -ого завдання тесту для трипараметричної моделі

третього параметра (с. Ф 0) перетворює характеристичну криву на більш похилу. Таким чином, ефект угадування знижує диференціюючу здатність завдань тесту.

Оцінювання параметрів функції успіху

Під впливом випадкових факторів оцінки параметра 8, отримані на різних вибірках студентів, будуть відрізнятись. Якщо об'єм вибірки великий, то постає питання про обчислення стійких значень параметра 8, які будуть найбільш ефективними оцінками і можуть бути прийняті як об'єктивні значення параметра 8.

Одним із методів обчислення ефективних оцінок є метод найбільшої правдоподібності, запропонований Р. Фішером. Цей метод грунтується на використанні функції правдоподібності [6].

Нехай п учасників тестування виконують т різних завдань. {X.} - матриця дихотомічних

результатів, де і = 1,п, . = 1, т .

Функція правдоподібності Ь є добутком ймовірності Р =

в,-8,

4 1 + егЗі

для всіх можливих і

та у , де і = 1,п, у = 1, т , ві - логіт рівня знань студента, З - логіт складності завдань [8]:

п т

ц Ху ,в, З)=ПП р{ ХІ в З} =

ехр

II Ху (в-З )

і=1 у=1

І=1 у=1

ПП(1+ехр(в -З))

і=1 у=1

Всі завдання тесту є локально незалежними. Це означає, що при даному рівні знань відповідь на кожне завдання тесту не залежить від результатів виконання решти завдань.

Як оцінку латентних параметрів приймають такі значення, при яких функція правдоподібності досягає максимуму. Такі оцінки називають оцінками найбільшої правдоподібності [11].

Оскільки функції Ь(Хц ,ві,8. ) та ІП Ь( Хц ,в,8] ) досягають максимуму при одних і тих же значеннях, то зручніше шукати максимум логарифмічної функції правдоподібності іп Ь(х . ,в,8. ).

п т п т

ІП Ь(хї ,q,8l ) = £ Щ - £ С]8] - ££ ІП [1 + ехР(в - 8! ) ] ,

і=1 !=1 і=1 .=1

т п

де Ь = £х та с = £х - суми балів, набрані відповідно і -им студентом та за ] -е

і і 3 і

]=1 і=1

завдання.

Невідомі оцінки найбільшої правдоподібності для параметрів в і 8 знаходимо з необхідної

умови екстремуму логарифмічної функції правдоподібності по кожній із змінних в та 8.. Отже, для

і і

е

знаходження максимуму функції правдоподібності прирівнюємо до нуля відповідні частинні похідні логарифмічної функції правдоподібності:

дІПЩ^8.) = Ь - £ ехр(в 8.) = Ь - £р = 0, і = 1 п ,

90,- і з=11 + ехР(в-8.) і .=! .

д Іп Ь(в,8;) ” ехр(в-8.) . -—

------= -с . + £-------------—---}— = -с, + £ Р, = 0, . = 1,т.

д8, . 1=11 + ехр(в -8) . 1=1 У

-. 1=1 - —Г . і=1

Отримаємо систему із п + т нелінійних рівнянь, що має єдиний розв'язок, який нелегко знайти. Тому проблемою даного методу є відшукання розв'язку даної системи.

Спочатку покладаємо відомі значення параметра 8., а в, розглядаємо як шукану змінну.

. і

Потім перевизначаємо значення в , присвоюючи їм щойно знайдені значення, і шукаємо значення оцінки 8. . Процес продовжуємо доти, поки модуль значення різниці в результаті ітерацій не стане

меншим 0,01:

8(к+і) -8(к)| < 0,01, де к - кількість послідовних наближень.

Оцінки 8(.к+1) є найбільш ефективними і можуть бути прийняті за справжні значення латентних параметрів 8.. Але для реалізації цього методу потрібні спеціальні програми.

Важливим моментом є правильний вибір гарного початкового наближення. Тому бажано при оцінюванні параметра 8 використовувати формули, запропоновані Дж. Рашем для ІРЇ [7, 8]. Хоча

можливі й інші методи оцінювання початкових наближень. Якщо в і 8. вибрані невдало,

1 )

достатньо далеко від оцінок найбільшої правдоподібності, то число ітерацій збільшиться. Відповідно зростуть витрати машинного часу.

5. Висновки

Описані основні класичні статистичні методи аналізу результатів тестування дозволяють провести найпростіші та необхідні процедури статистичної обробки результатів тестування знань і визначити методи оцінки якості тесту. Розглянутий підхід до конструювання тестів, згідно з яким рівень знань учасників тестування оцінюється за допомогою їх індивідуальних балів, а складність завдань - за допомогою частки правильних та неправильних відповідей на них, показав необхідність використовувати нові методи конструювання тестів, представлені в так званій сучасній теорії тестування на основі математичної теорії параметричної оцінки тестових завдань. У роботі розглянуто основні сучасні математичні моделі: однопараметрична модель Раша, двопараметрична та трипараметрична модель Бірнбаума, в яких параметри рівня підготовки в та складності завдання 8 виражаються як показники, задані в одній шкалі логітів, що дозволяє ввести взаємозв'язок між змінними у вигляді різниці в-8, коректно порівняти результати студентів,

отримані за допомогою різних тестів, оцінити рівень складності завдань незалежно від рівня підготовки груп студентів.

СПИСОК ЛІТЕРАТУРИ

1. Аванесов В.С. Теория и методика педагогических измерений (материалы публикаций). - М.: ЦТ и МКО УГТУ-УПИ, 2005. - 98 с.

2. Челышкова М.Б. Теория и практика конструирования педагогических тестов: Учебное пособие. - М.: Логос, 2002. - 432 с.

3. Люсин Д.В. Основы разработки и применения критериально-ориентированных педагогических тестов. - М.: Исследовательский центр, 1993. - 51 с.

4. Гмурман В.Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. - 4-е изд., доп. - М.: Высшая школа, 1972. - 480 с.

5. Солодовников А.С. Теория вероятностей. - М.: Просвещение, 1978. - 192 с.

6. Аванесов В.С. Научные проблемы тестового контроля знаний. - М.: Учебный центр при ИЦПКПС, 1994. -136 с.

7. Челышкова М.Б. Адаптивное тестирование в образовании (теория, методология, технология). - М.: Исследовательский центр проблем качества подготовки специалистов, 2001. - 165 c.

8. Челышкова М.Б. Разработка педагогических тестов на основе современных математических моделей: Учебное пособие. - М.: Исследовательский центр проблем качества подготовки специалистов, 1995. - 32 c.

9. Янченко С. И. Математическая модель оценки результатов тестирования // Тезисы докладов Всероссийской конференции «Развитие системы тестирования в России». - Москва, 2000.

10. Lord F.M. Application of Item Response Theory to Practical Testing Problems. Hillsdale N-J. Lawrence Erlbaum Ass., 1980. - 266 р.

11. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. With a Foreword and Afteword by B.D. Wright. The Univ. of Chicago Press. - Chicago & London, 1980. - 199 р.

Стаття надійшла до редакції 14.04.2007

i Надоели баннеры? Вы всегда можете отключить рекламу.