Научная статья на тему 'Повышение точности оценки профессиональной подготовленности летного состава на основе тестирования с использованием моделей IRT'

Повышение точности оценки профессиональной подготовленности летного состава на основе тестирования с использованием моделей IRT Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
153
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОЦЕНКА ПРОФЕССИОНАЛЬНОЙ ПОДГОТОВЛЕННОСТИ / ЛЕТНЫЙ СОСТАВ / ТЕСТИРОВАНИЕ / PROFESSIONAL TRAINING RATING / FLIGHT PERSONNEL / TESTING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Айдаркин Дмитрий Викторович, Косачевский Сергей Григорьевич

Предложена методика оценки профессиональной подготовленности летного состава на основе использования моделей семейства IRT, позволяющая обеспечить заданную точность оценки.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Айдаркин Дмитрий Викторович, Косачевский Сергей Григорьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INCREASE OF FLIGHT PERSONNEL TRAINING ESTIMATION ACCURACY WITH IRT-BASED TESTING

The procedure of flight personnel training estimation with IRT-based testing providing required estimation accuracy is considered in the paper.

Текст научной работы на тему «Повышение точности оценки профессиональной подготовленности летного состава на основе тестирования с использованием моделей IRT»

УДК 656.7.071:658.386

ПОВЫШЕНИЕ ТОЧНОСТИ ОЦЕНКИ ПРОФЕССИОНАЛЬНОЙ ПОДГОТОВЛЕННОСТИ ЛЕТНОГО СОСТАВА НА ОСНОВЕ ТЕСТИРОВАНИЯ С ИСПОЛЬЗОВАНИЕМ МОДЕЛЕЙ ШТ

Д.В. АЙДАРКИН, С.Г. КОСАЧЕВСКИЙ Статья представлена доктором технических наук, профессором Ципенко В.Г.

Предложена методика оценки профессиональной подготовленности летного состава на основе использования моделей семейства ГЯТ, позволяющая обеспечить заданную точность оценки.

Ключевые слова: оценка профессиональной подготовленности, летный состав, тестирование.

Результаты анализа состояния безопасности полетов свидетельствуют о том, что, начиная с 2006 года, негативные тенденции в обеспечении безопасности полетов в гражданской авиации Российской Федерации приобрели устойчивый характер (рис. 1). При этом около половины авиационных происшествий связаны с недостатками в работе летного состава [ 1 ].

годы

Рис. 1. Динамика относительных показателей безопасности полетов гражданской авиации Российской Федерации за последние 10 лет

В этих условиях большое значение приобретает совершенствование процедуры контроля готовности членов летных экипажей к профессиональной деятельности. Традиционные экзамены не позволяют получить численных эквивалентов профессиональной подготовки из-за отсутствия стандартизированных требований и субъективности оценки. По этой причине в качестве инструмента для проведения измерений качества профессиональной подготовки летного состава ИКАО рекомендует использование тестов. Существуют два основных подхода к разработке тестов для профессионального отбора и аттестации обучаемых [2; 3]: нормативно-

ориентированный и критериально-ориентированный. Первый подход позволяет сравнивать учебные достижения отдельных испытуемых друг с другом на основе распределения баллов. А критериально-ориентированный подход позволяет оценивать, в какой степени испытуемый ов-

ладел необходимым для профессиональной деятельности учебным материалом. В методике разработки курсов ИКАО предпочтение отдается тестам, соотнесенным с критериями, когда результат тестирования сравнивается с объективным стандартом, а не с данными других тестируемых [4].

Результаты проведенных исследований позволяют сделать вывод, что в большинстве систем тестирования, используемых для контроля качества подготовки летного состава, оценивание результатов производится только по факту правильности ответа. Таковы, например, бинарные тесты, закрытые задания с выбором одного или нескольких правильных вариантов ответа из предложенных, открытые задания с однозначным числовым или текстовым ответом. Первичной информацией при таком тестировании знаний является сумма набранных баллов - первичный балл или отношение первичного балла к общей сумме баллов в тесте, выраженное в процентах. Достоинством этой оценки является ее простота и наглядность: чем больше заданий выполнил испытуемый, тем выше его первичный балл.

Однако первичный балл является не абсолютной, а относительной оценкой. Он существенно зависит от трудности заданий теста, которые отбираются случайным образом. При повторном тестировании первичный балл может оказаться иным, поэтому использование первичного балла не может быть правомерным в отрыве от самого теста и процедуры тестирования. При этом трудность теста, в свою очередь, определяется уровнем подготовленности всего контингента испытуемых, что, конечно, неудобно для практического использования.

Вторым существенным недостатком первичных баллов является их нелинейность по отношению к тому параметру, который они должны характеризовать (уровень подготовленности). В частности, если тест состоит из 100 заданий, то разность в пять первичных баллов для тестируемых, набравших 100 и 95 баллов, соответствует большему различию в уровне подготовленности, чем та же разность для тестируемых, имеющих, например, 50 и 45 баллов. Сравнивая первичные баллы, необходимо понимать, что они являются лишь индикатором подготовленности испытуемых, а не ее мерой.

Для преодоления указанных трудностей в некоторых системах тестового контроля профессиональной подготовленности в настоящее время используются различные модели семейства IRT (Item Response Theory) [5, 6]. В этих моделях оценивание уровня подготовленности испытуемых (потенциал i-го испытуемого - 9;) и уровня трудностей заданий (потенциал j-го задания

- Pj) производится на единой интервальной шкале, единицей измерения которой является логит. В самой простой модели указанного семейства (модели Раша [7]) вероятность Pij успешного выполнения i-м испытуемым j-го задания определяется разностью (9; - Pj):

= e(e-"Pj)

” 1 + e.

Модель Раша является однопараметрической, поскольку в качестве единственного параметра функции выступает разность потенциалов испытуемого и задания.

В рамках этой модели первичные баллы являются достаточными статистиками, т.е. однозначно определяют значения потенциалов для испытуемых и заданий, что позволяет значительно редуцировать данные о прохождении тестирования. Следует отметить, что при использовании модели Раша статистические оценки уровней подготовленности испытуемых, набравших одинаковый первичный балл, совпадают, поскольку являются функциями равных достаточных статистик.

Обобщением модели Раша является двухпараметрическая модель Бирнбаума [7]:

e a j (ei -р j) ij 1 + eaJ (ei -p),

где а] - дополнительный параметр, определяющий дифференцирующую (избирательную) способность ]-го задания. В рамках этой модели каждому тестовому заданию с определенным уровнем трудности в = Ро соответствует не единственная характеристическая кривая, а семейство кривых, пересекающихся в единой точке перегиба.

Для модели Бирнбаума потенциал 1-го испытуемого однозначно задается не первичным к

баллом ^, где к - количество тестовых заданий, ау - элемент матрицы данных, а суммой ]=1

к

^а]а^ [8]. Таким образом, избирательность ]-го задания а] является его весом в конечном ре-

]=1

зультате. Достоинством модели Бирнбаума является то, что по сравнению с моделью Раша снижаются требования к тестовым заданиям. Низкоэффективные задания с низкой избирательностью дают незначительный вклад в конечный результат, в отличие от модели Раша, где все задания равноправны по определению.

В то же время введение еще одного параметра повышает вероятность ложного решения при вычислении параметров сторон тестирования, что связано с мультимодальностью функции правдоподобия при совместном определении потенциалов испытуемых и заданий. Для надежного определения параметров количество испытуемых и заданий должно возрастать с увеличением количества определяемых параметров. Так для однопараметрической модели Раша количество заданий не должно быть менее 20, а испытуемых - менее 200. Для двухпараметрической модели Бирнбаума минимальное количество составляет соответственно 30 и 500 [9]. Следовательно, двухпараметрическая модель пригодна только для интерпретации результатов широкомасштабных процедур тестирования.

Еще одним достоинством модели Раша является полная симметричность относительно испытуемых и заданий, чего нельзя сказать относительно рассмотренной модели Бирнбаума. Тем не менее, определенный интерес представляет "симметричный" вариант этой модели:

^ (9!-Ъ) р , где ё; - параметр избирательности 1-го испытуемого.

Этот вариант модели Бирнбаума практически не используется, поскольку в нем, как и в модели Раша, не учитывается избирательность заданий. Однако ему также присущи определенные достоинства. Все сказанное о первом варианте модели Бирнбаума применимо ко второму при взаимной замене испытуемых и заданий. Потенциал задания однозначно определяется суммой

П

^ё;ау , где п - количество испытуемых. Избирательность 1-го испытуемого ё является его ве-

1=1

сом при определении потенциала задания. Таким образом, снимается одна из проблем при шкалировании заданий и теста в целом - проблема неадекватных испытуемых.

При обработке результатов по второму варианту модели Бирнбаума адекватность испытуемых, связанная с их избирательностью ё;, напрямую учитывается при вычислении потенциалов заданий, поскольку элементы 1-й строки матрицы тестирования, соответствующей 1-му испытуемому, учитываются с весом ё;. Отсутствует необходимость удаления неадекватных испытуемых, поскольку их влияние на конечный результат окажется незначительным ввиду близости ё; к нулю.

Еще одним достоинством второго варианта модели Бирнбаума является возможность наряду с измерением потенциала испытуемого оценить точность проведенного измерения. Принято считать, что испытуемый даст правильный ответ на тестовое задание, если потенциал испытуемого выше потенциала задания; в противном случае будет получен неверный ответ. Данная мо-

дель известна в педагогических и психологических измерениях как модель Гуттмана [8]. В рамках этой модели вероятностный характер исхода встречи испытуемого с заданием может быть объяснен вероятностным характером потенциалов испытуемого и заданий, который может быть описан нормальным законом распределения ввиду многочисленности факторов и малой степени влияния каждого из них. При этом потенциал ьго испытуемого характеризуется математическим ожиданием 9; и стандартным отклонением о;.

Известно, что при дифференцирующей способности заданий а = 1,7 логистическая функция хорошо аппроксимирует нормированную функцию распределения вероятностей нормального закона [7]. Расхождение при этом не превышает 1 %. А именно, если

1 «(М0) 2

N(01 Ь = Ь0;а) = -¡= | е-0,5х ёх, то [N(0 | Ь = Р0; а) - р(0 | Ь = Р0; а)| < 0,01 для 0 е (-¥ +¥),

л/2р -^

где р(0 | Ь = р0; а) - характеристическая функция трудности р0 в модели Бирнбаума при постоянной дифференцирующей способности заданий а = 1,7.

При описании характеристической функции трудности задания с помощью нормального распределения

а

I е-0,5х2ах= £ I е-0,5х2.х

1,7 * ^ 1,7

получим а: = —. Аналогично для второго варианта модели Бирнбаума будем иметь а; = —,

' О о;

т.е. избирательность ьго испытуемого ё обратно пропорциональна стандартному отклонению его уровня подготовленности О;.

Оценивание испытуемого двумя параметрами (9; и о;) вместо традиционного оценивания одним параметром 9; требует новых подходов при определении критерия оценки испытуемого. Поскольку 9; является математическим ожиданием, а о; - стандартным отклонением потенциала испытуемого, то параметр 9! = 9; + 1о; при произвольном выборе 1 задает возможный текущий потенциал испытуемого при решении некоторой эксплуатационной задачи, моделируемой в тесте заданиями. Вероятность Рг проявления испытуемым потенциала 9! или меньшего задается известной функцией интегрального нормального распределения [10]:

1 1

Р1 = Ф(1) , где Ф(1;) = .— | е_0,5х ёх.

л/2р -^

Например, при установлении порогового критериального значения К = (9; - 1,64о;) испытуемые со значениями 9; > К +1,64о; с вероятностью 95 % будут проявлять при решении задач более высокий потенциал, чем К. Очевидно, что выражение (9; - 1,64о;) можно использовать для отбора испытуемых при предъявляемом требовании почти безусловного решения поставленной эксплуатационной задачи. Данный критерий вполне применим в условиях тестового контроля при необходимости определения, удовлетворяет ли испытуемый зачетным требованиям.

Предложенная концепция порывает с традицией трактовать оценку "незачет" как оценку "2", а "зачет" как обезличенные "3", "4" или "5". Оценка "зачет" при учете не только среднего уровня подготовки испытуемого, но и возможной его дисперсии, гарантирует высокую профессиональную пригодность испытуемого для решения вполне определенного круга задач, что вполне отвечает рекомендуемому ИКАО компетентностному подходу.

Предлагаемый подход подтверждается результатами тестирования курсантов - пилотов Ульяновского высшего авиационного училища гражданской авиации. В качестве примера на рис. 2 представлены характеристические кривые уровня подготовленности 9; двух курсантов по дисциплине "Практическая аэродинамика", построенные на основе второго варианта модели Бирнбаума, а в табл. 1 приведены соответствующие исходные данные.

Курсант 1 Курсант 2

-3-2-1 О 1 2 З Р, логит

Рис. 2. Характеристические кривые уровня подготовленности двух курсантов

Таблица 1

Испытуемый Уровень подготовленности, 9і Избирательность испытуемого, ё Стандартное отклонение, Оі 9і - 1,64оі

Курсант 1 1,305 12,335 0,138 1,079

Курсант 2 1,377 3,051 0,557 0,464

Анализируя эти данные, можно сделать вывод о том, что хотя второй курсант продемонстрировал более высокий уровень подготовленности, правильно выполнив большее число тестовых заданий, но имеет худшую структуру знаний, о чем свидетельствует большое значение стандартного отклонения. Если в качестве порогового критериального значения установлена величина в 1 логит, то с вероятностью 95 % можно утверждать, что первый курсант будет проявлять при выполнении заданий более высокий потенциал. Для второго курсанта с такой же вероятностью можно гарантировать достижение уровня подготовленности в 0,464 логита, что значительно ниже установленного критериального значения.

Основное преимущество логистических функций, лежащих в основе моделей семейства ГОГ (в том числе рассмотренных моделей Раша и Бирнбаума), заключается в аналитической простоте и вытекающих из этого вычислительных преимуществах. Однако работа с этими моделями требует тщательного предварительного отбора заданий, используемых для определения уровня подготовленности авиаспециалистов. Дело в том, что в основе процедуры построения шкалы латентных переменных лежит упомянутая модель Г уттмана, которая относится к классу жестко детерминированных моделей [8]. В ней предполагается, что задания теста отбираются в порядке нарастания их трудности по определенным, тщательно структурированным элементам содержания некоторой области знаний. При этом считается, что любой испытуемый с правильной структурой знаний, справившийся с данным заданием теста, может наверняка успешно выполнить все предыдущие, более легкие задания.

Шкалирование результатов тестирования с помощью моделей семейства ГО.Т в определенной степени преодолевает указанные трудности построения шкалы Гуттмана, поскольку эти модели являются вероятностными и отражают вероятностную сущность процесса тестирования. В рамках теории ГО.Т о правильном выполнении любого задания испытуемым можно говорить лишь с некоторой вероятностью, а прогнозировать успешность можно лишь в том случае, если эта вероятность близка к единице. Это означает, что каждое задание теста, данные которого обрабатываются с помощью указанных моделей, должно иметь высокую бисериальную корреляцию с общим показателем по тесту и обладать достаточно высокой разделяющей способно-

стью в некоторой точке на оси измеряемой латентной переменной, отражающей уровень подготовленности авиаспециалиста.

Таким образом, для адекватного измерения этой латентной переменной с помощью моделей семейства ГОГ необходим специальный отбор заданий для теста в порядке нарастания трудности из банка тестовых заданий. В критерии отбора помимо прочих соображений должно входить требование того, что правильное выполнение испытуемым какого-либо задания означает высокую вероятность правильного выполнения предыдущих более легких заданий теста, и наоборот, неправильное выполнение задания позволяет прогнозировать с высокой вероятностью неправильное выполнение последующих более трудных заданий теста. Это требование легко применимо к хорошо структурированным данным об устройстве и эксплуатации авиационной техники.

ЛИТЕРАТУРА

1. Анализ состояния безопасности полетов в гражданской авиации Российской Федерации в 2008 году. - М.: Федеральное агентство воздушного транспорта, 2009.

2. Аванесов В.С. Композиция тестовых заданий. - М.: Изд-во Центра тестирования Минобразования РФ,

2002.

3. Переверзев В.Ю. Критериально-ориентированное педагогическое тестирование в профессиональном образовании (методология, теория, практика). - М.: ФИРО, 2008.

4. Training. Procedures for Air Navigation Services. Doc 9868. First Edition. ICAO. 2006.

5. Test Development. Prometric. The leading global provider of comprehensive testing and assessment services. -Режим доступа: http://www.prometric.com/services/services/TestDev.htm. - Заглавие с экрана.

6. Айдаркин Д. В. Разработка алгоритма адаптивного тестирования для автоматических обучающих систем профессиональной подготовки летного состава // Научный Вестник МГТУ ГА, серия Аэромеханика и прочность, № 125, 2008. - С. 167 - 172.

7. Нейман Ю.М. Введение в теорию моделирования и параметризации педагогических тестов / Ю.М. Нейман, В. А. Хлебников. - М.: Прометей, 2000.

8. Челышкова М.Б. Разработка педагогических тестов на основе современных математических моделей. - М: МИСИС, 1995.

9. Suen, H.K Principles of Test Theories / H.K. Suen. - Hillsdale, NJ: Erlbaum, 1990.

10. Гмурман В.Е. Теория вероятностей и математическая статистика: учеб. пособие для вузов. - М.: Высшая школа, 1998.

INCREASE OF FLIGHT PERSONNEL TRAINING ESTIMATION ACCURACY

WITH IRT-BASED TESTING

Aidarkin D.V., Kosachevskiy S.G.

The procedure of flight personnel training estimation with IRT -based testing providing required estimation accuracy is considered in the paper.

Key words: professional training rating, flight personnel, testing.

Сведения об авторах

Айдаркин Дмитрий Викторович, 1969 г.р., окончил МГУ им. М.В. Ломоносова (1994), доцент кафедры естественно-научных дисциплин УВАУ ГА, автор 10 научных работ, область научных интересов

- разработка компьютерных обучающих систем и тестирующих программ.

Косачевский Сергей Григорьевич, 1951 г.р., окончил КИИ ГА (1975), кандидат технических наук, доцент, проректор по учебной и научной работе УВАУ ГА, автор более 100 научных работ, область научных интересов - практическая аэродинамика, профессиональная подготовка летного состава гражданской авиации и применение в учебном процессе новых технологий обучения.

i Надоели баннеры? Вы всегда можете отключить рекламу.