СПРАВЕДЛИВОСТЬ ОЦЕНОК В АККРЕДИТАЦИИ СПЕЦИАЛИСТОВ КАК ПРОБЛЕМА

Звонников Виктор Иванович; Малыгин Алексей Александрович; Семенова Татьяна Владимировна; Сизова Жанна Михайловна; Челышкова Марина Борисовна

ТРИ «М»: МЕТОДОЛОГИЯ - МЕТОДИКА - МЕТОД

Ценности и смыслы. 2023. № 2 (84). С. 53-71 Values and Meanings. 2023. No.2 (84). P. 53-71 (In Rus) УДК 378.146

https://doi.org/10.24412/2071-6427-2023-2-53-71

СПРАВЕДЛИВОСТЬ ОЦЕНОК В АККРЕДИТАЦИИ СПЕЦИАЛИСТОВ КАК ПРОБЛЕМА

Звонников Виктор Иванович1, Малыгин Алексей Александрович2, Семенова Татьяна Владимировна3, Сизова Жанна Михайловна4, Челышкова Марина Борисовна5]

1 Доктор педагогических наук, профессор, ведущий научный сотрудник Ивановского научного центра Российской академии образования, Россия

E-mail: zvonnikov@mail.ru

2 Кандидат педагогических наук, доцент, доцент кафедры непрерывного психолого-педагогического образования, ректор Ивановского государственного университета, руководитель Ивановского научного центра Российской академии образования, Россия

E-mail: malygin@ivanovo.ac.ru

3 Кандидат медицинских наук, доцент, заместитель Министра здравоохранения Российский Федерации, Россия

E-mail: tsemenoval23@mail.ru

4 Доктор медицинских наук, профессор, директор Методического центра аккредитации специалистов Первого МГМУ имени И. М. Сеченова Минздрава России (Сеченовский университет), Россия

E-mail: sizova-klinfarma@mail.ru

5 Доктор педагогических наук, профессор, главный специалист Методического центра аккредитации специалистов Первого МГМУ имени И. М. Сеченова Минздрава России (Сеченовский университет), Россия

Аннотация. В статье приводятся основные поло-жжения и выводы исследования методики и результатов анализа дифференцированного функционирования заданий (Differential Item Functioning — DIF), используемых в ходе аттестации специалистов здравоохранения. Исследование проводилось на выборке 75 вузов по дисциплине «Терапия», при обучении которой предусмотрена вариативность образовательных программ. Для реализации аппарата DlF-анализа с целью обеспечения

В. И. Звонников

А. А. Малыгин

Т. В. Семенова

Ж. М. Сизова

М. Б. Челышкова

справедливости при оценивании для аккредитации используется однопараметрическая модель современной теории тестов (Item Response Theory — IRT). В методике предлагается подход для отбора таких заданий, которые нарушают принципы объективности и валидности оценочных процедур и не обеспечивают получение справедливых оценок при аккредитации специалистов. Эта методика была использована для анализа качества банка заданий, предназначенных для аккредитации специалистов здравоохранения и расположенных по диапазону трудности в интервале от 1,5 до 2,5 логитов (логит (logit) — принятая в IRT единица измерения трудности задания). На основании результатов исследования проведена верификация банка заданий по дисциплине «Терапия» и представлена интерпретация решений по исключению и коррекции заданий для случаев различного расположения их характеристических кривых.

Ключевые слова: дифференцирующая способность заданий, современная теория тестов, систематическая ошибка измерения, справедливость оценок.

Для цитирования: Звонников В. И., Малыгин А. А., Семенова Т. В., Сизова Ж. М., Челышкова М. Б. Справедливость оценок в аккредитации специалистов как проблема: адаптивный подход // Ценности и смыслы. 2023. № 2 (84). С. 53-71.

FAIRNESS OF ASSESSMENTS IN THE ACCREDITATION OF SPECIALISTS AS A PROBLEM

Victor I. Zvonnikov1, Aleksei A. Malygin2, Tatyana V. Semenova3, Zhanna M. Sizova4, Marina B. Chelyshkova5

1 Dr. Sc. (Education), Full Professor, Leading Researcher of the Ivanovo Scientific Center of the Russian Academy of Education, Russia

E-mail: zvonnikov@mail.ru

2 PhD (Education), Associate Professor of Department of Continuing Psychological and Pedagogical Education, Rector of Ivanovo State University, Head of Russian Academy of Education (Ivanovo Scientific Center), Russia

E-mail: malygin@ivanovo.ac.ru

3 PhD (Medicine), Associate Professor, Deputy Minister of Health Care of the Russian Federation, Russia

E-mail: tsemenova123@mail.ru

4 Dr. Sc. (Medicine), Full Professor, Head of Federal Methodical Center for Accreditation of Specialists of First Moscow State Medical University named after I. M. Sechenov (Sechenov University), Russia

E-mail: sizova-klinfarma@mail.ru

5 Dr. Sc. (Education), Full Professor, Chief Specialist of

Federal Methodical Center for Accreditation of Specialists of First Moscow State Medical University named after I. M. Sechenov (Sechenov University), Russia

Abstract. The main provisions of the study of the methodology and results of the analysis of the differentiated functioning of items (DIF) used in the certification of healthcare professionals are given. The study was conducted on a sample of 75 universities in the discipline "Therapy", which provides for the variability of educational programs. To implement the DIF analysis apparatus in order to ensure fairness in the assessment in accreditation, a one-parameter model of the modern theory of tests (Item Response Theory — IRT) is used. The methodology proposes an approach for selecting such items, that violate the principles of objectivity and validity of assessment procedures and do not provide fair assessments, when accrediting specialists. This technique was used to analyze the quality of a bank of items intended for accreditation of healthcare professionals and located in the range of difficulty in the range from 1.5 to 2.5 logits (logit is the IRT unit of measure for the difficulty of an item). Based on the results of the study, the bank of items in the discipline "Therapy" was verified and the interpretation of solutions for the exclusion and correction of tasks for cases of different arrangement of their characteristic curves was presented. The theoretical and methodological foundations and approach to its preparation are highlighted, the practice of its implementation is characterized and the main conclusions are discussed.

Keywords: Differential Item Functioning, Item Response Theory, item bias, fairness of scores

For citation: Zvonnikov V I., Malygin A. A., Semenova T. V., Sizova Zh. M., Chelyshkova M. B. The fairness of assessments in the accreditation of specialists as a problem// Values and Meanings. 2023. No.2 (84). P. 53-71(In Rus).

Введение

Справедливость в оценочных процессах в образовании тесно связана с понятием равенства прав обучающихся на получение беспристрастной и непредвзятой оценки результатов их учебной деятельности, однако она не тождественна понятию «равенство». Более того, иногда эти понятия вступают в явные противоречия, поскольку те условия, которые обеспечивают равенство в оценочных процедурах, отдельным категориям испытуемых не всегда представляются справедливыми. Примером тому могут быть задания по физике, включающие изображения различных механизмов и выдаваемые всей группе обучающихся без учета тендерных различий.

Применительно к оценочным процессам в образовании понятие «справедливость» строится на требовании соответствия достигнутого уровня результатов учебной деятельности индивида его оценке. В том случае, когда оценивание основано на теории образовательных измерений, справедливость — в значительной степени, но не полностью — обеспечивается высокой надежностью, валидностью и сопоставимостью

результатов измерений. Неполнота соответствия фактической оценки справедливой связана с наличием эффекта смещения оценок под действием систематических ошибок измерения, в то время как надежность позволяет оценить точность и устойчивость оценок испытуемых лишь в связи с воздействием случайных ошибок, оставляя без всякого внимания полный анализ эффекта смещения результатов измерений в ту или другую сторону от истинных значений.

Проблема справедливости оценок испытуемых в образовательных измерениях особенно важна при тестировании высокой значимости, которое проводится при аттестации, аккредитации и независимой оценке квалификаций. Актуальность этой проблемы резко обостряется в связи с широкомасштабной работой по созданию системы аккредитации специалистов здравоохранения, которая начата в России в 2016 году.

В контексте настоящей статьи под аккредитацией понимается процедура определения готовности лиц, получивших медицинское или фармацевтическое образование, к осуществлению самостоятельной профессиональной деятельности на определенной должности. Результаты аккредитации прямо связаны не только с допуском к работе, они также влияют на профессиональную репутацию специалистов, на их возможности в профессиональном росте и замещении более высоких должностей. Поэтому для создания научно-методического обеспечения процедур аккредитации необходима разработка подходов к оцениванию систематической ошибки измерения, препятствующей в отдельных ситуациях справедливости аккредитационных оценок [18].

Цель данной статьи — представить методические подходы, опирающиеся на общепризнанный научный аппарат теории образовательных измерений (Differential Item Functioning — DIF), апробированные в период с 2018 г. по 2022 г. в Методическом центре аккредитации специалистов здравоохранения Первого Московского государственного медицинского университета имени И. М. Сеченова (Сеченовского университета). В основе предлагаемой методики лежит теория дифференцированного функционирования заданий. Авторами рассматривается применение ее теоретического аппарата для минимизации дискриминирующего эффекта отдельных заданий и систематических ошибок измерения, которые могут возникнуть в аккредитации при оценивании профессиональной готовности выпускников медицинских вузов из-за отличающихся программ обучения. Реализация основных положений теории DIF, представленная

в данной статье, строится на аппарате современной теории тестов (Item Response Theory — IRT) [7, 9, 16].

Теоретико-методологические подходы к измерениям в условиях равенства прав испытуемых

В самом общем случае в образовательном оценивании, основанном на измерениях, обеспечение справедливости при аккредитации специалистов здравоохранения означает выполнение шести необходимых условий, которые только в совокупности можно рассматривать как достаточные для соблюдения равенства прав испытуемых на получение справедливых оценок:

1) достижение высокой надежности результатов измерений;

2) достижение высокой валидности результатов измерений;

3) обеспечение высокой сопоставимости результатов измерений;

4) применение единых критериев (стандартов) оценивания;

5) широкое взаимодействие профессионалов в сфере измерений, специалистов и медицинской общественности при аккредитации в сфере здравоохранения;

6) минимизация систематической ошибки измерения, возникающей вследствие влияния гендерных, этнических или других факторов, оказывающих смещающее воздействие на оценки.

Выполнение этих условий в контексте проблем справедливости должно быть рассмотрено по целому ряду направлений оценочной деятельности, отличающихся по времени реализации в тестировании и по своим задачам. В частности, до начала процедуры предъявления теста — на этапе его разработки — росту систематических ошибок измерения могут способствовать ошибки разработчиков в планировании содержания теста, недостатки в коррекции содержания и форм заданий по результатам экспертизы, недостаточная полнота информации при оценивании статистических характеристик заданий. Снижению точности измерений также способствуют просчеты в стратегии подготовки испытуемых к тестированию, неправильный выбор временных пределов для тестирования или длины теста и др.

На этапе предъявления теста систематическая ошибка измерения может быть связана с нарушениями процедур тестирования и условий безопасности при предъявлении теста, наблюдающимися в ситуациях, которые носят не случайный, а систематический характер. Смещающее воздействие на оценки параметров испытуемых также оказывают неу-

дачный формат сбора результатов тестирования, неудачные инструкции и проч.

Рост систематической ошибки измерения при подведении итогов аттестации или аккредитации обычно бывает вызван неправильным установлением стандартов выполнения теста в случае критериально-ориентированной интерпретации результатов испытуемых либо неудачными оценочными рубриками для экспертов, занимающихся оценкой результатов выполнения заданий теста в тех случаях, когда они требуют развернутого ответа.

Таким образом, можно назвать ряд источников возникновения систематической ошибки измерения, которые вносят свой вклад в ее рост на всех этапах разработки и применения теста. Каждый из источников снижает справедливость оценок испытуемых, работая на рост влияния субъективного компонента, и в этом смысле все эти источники могут считаться равноправными по результатам воздействия на оценки испытуемых. Однако среди перечисленных источников систематических ошибок измерения есть определенные различия по характеру воздействия, которые позволяют условно разделить все систематические ошибки на две группы.

Ошибки первой группы оказывают смещающее воздействие на оценки всех испытуемых, хотя и с разной интенсивностью, зависящей от величины систематической ошибки в различных точках оси переменной измерения. Ошибки второй группы вносят дискриминирующий эффект в оценки результатов тестирования отдельных групп испытуемых, выделенных по тому или иному признаку и являющихся, как правило, группами меньшинства. Поскольку основной смысл обеспечения справедливости во время оценочных процедур состоит в том, чтобы предоставить всем испытуемым равные права, вторая группа ошибок представляет наибольшую опасность, нарушая права испытуемых на получение заслуженной оценки.

В связи с этим именно вторая группа факторов, нарушающая справедливость оценивания в аккредитации, представляет интерес для целей данного исследования и вынуждает обратиться к специальному аппарату Б1Е С его помощью можно выявить задания, нарушающие права отдельных групп испытуемых, выделенных по различным признакам. Применение этого аппарата является обязательным для реализации принципа справедливости при проведении массовых оценочных процедур

высокой значимости, например, при проведении Единого государственного экзамена для выпускников школ или аккредитации специалистов здравоохранения. Тем не менее, несмотря на важность этого аппарата, он слабо представлен на теоретико-методологическом и методическом уровнях в российской науке. Есть только отдельные отечественные работы, фрагментарно затрагивающие проблему Б1Б [1, 5, 6, 18].

В зарубежных исследованиях идентификация заданий, оказывающих дискриминирующий эффект при оценивании отдельных групп испытуемых, обычно рассматривается в контексте гендерных или этнических отличий [3, 10, 17, 20]. В данной статье проблема нарушения прав испытуемых на получение справедливых оценок при аккредитации анализируется в ином ключе и связывается с отличиями в образовательных программах отдельных университетах медицинского профиля. Согласно принципу справедливости для аккредитации должны быть отобраны только те задания, которые инвариантны относительно образовательных программ и не оказывают дискриминирующего эффекта по отношению к определенным группам испытуемых.

Вариативность образовательных программ значительно увеличивают федеральные государственные образовательные стандарты высшего образования третьего поколения, функционирующие в России в настоящее время и открывающие широкие возможности для построения индивидуальных траекторий обучения. Уровень стандартизации образовательных программ высшего образования, характерный для периода введения федеральных государственных образовательных стандартов третьего поколения (2010-2011 годы), снижается с завидным постоянством. Нормирование перечня дисциплин базовой части образовательной программы для определенного направления подготовки или специальности в первой версии образовательных стандартов третьего поколения сменилось рамочной регламентацией структуры образовательных программ, предусматривающих высокий уровень вариативности по составу изучаемых дисциплин в актуализированной версии стандартов третьего поколения (так называемые федеральные государственные образовательные стандарты поколения 3+). Еще больше возможностей для вариативности перечня дисциплин образовательных программ открывают следующие версии федеральных государственных образовательных стандартов — 3++ и четвертое поколение.

Таким образом, переход от нормирования содержания к нормиро-

ванию результатов обучения предоставил российским университетам значительную свободу в формировании основных образовательных программ, что обусловило трудности в массовых процедурах аттестации и аккредитации в силу низкой сопоставимости результатов образования. В здравоохранении эти трудности отчасти снимаются интенсивным взаимодействием профессорско-преподавательского состава вузов, специалистов и общественности в сфере здравоохранения. Свое позитивное стабилизирующее влияние оказывают клинические рекомендации, содержащие результаты обоснованного анализа результатов клинических исследований и учитывающие требования надлежащей клинической практики (Good Clinical Practice — GCP) и принципы доказательной медицины.

Сегодня медицина стремительно развивается, каждый год в мире разрабатываются новые методы лечения, создаются научные медицинские школы, на фармацевтическом рынке появляются новые лекарственные средства, в клиническую практику внедряется современное диагностическое оборудование. Очевидно, что все эти нововведения, в разной степени отраженные в образовательных программах медицинских вузов, затрудняют использование единых подходов к лечению и требуют адекватного отображения инноваций в содержании оценочных средств при аккредитации специалистов здравоохранения.

Однако включение информации по инновациям в образовательные программы студентов медицинских вузов представлено по-разному. В связи с существующими отличиями образовательных программ в Методическом центре аккредитации специалистов здравоохранения была развернута масштабная работа по калибровке банка заданий на основе аппарата DIF. Ее цель — удаление тех заданий, которые могут нарушать право испытуемых на получение справедливой оценки при проведении аккредитации специалистов здравоохранения.

Подготовка исследования

В соответствии с Положением об аккредитации специалистов здравоохранения, утвержденным приказом Минздрава России от 2 июня 2016 года № 334н, предусмотрена трехэтапная процедура оценивания готовности выпускников медицинских вузов к выполнению профессиональной деятельности. Этапы характеризуются нарастающей трудностью и усиливающейся ориентацией на трудовые функции профессиональных стандартов в сфере здравоохранения.

Первый этап предназначается для оценивания уровня освоения базовых знаний и умений, необходимых для выполнения трудовых функций профессиональных стандартов. Он проводится с помощью тестов, содержащих задания с выбором ответов. Второй этап требует от испытуемых проявления практических навыков и умений, проверяемых в формате объективного структурированного клинического экзамена (ОСКЭ) на специальных симуляционных станциях. Третий этап основан на решении ситуационных задач, четко ориентированных на трудовые функции профессиональных стандартов.

Результаты анализа инструментария аккредитации, проведенного в контексте задачи выявления заданий с дискриминирующим эффектом, показали, что наиболее уязвимым звеном являются тесты первого этапа. Жесткая привязка инструментария второго и третьего этапов аккредитации к требованиям профессиональных стандартов значительно ограничивает возможности вариации содержания заданий в зависимости от образовательных программ. В то время как содержание тестов для первого этапа напрямую связано с образовательными программами, и поэтому именно на них была нацелена работа по выявлению заданий, нарушающих права аккредитуемых на получение справедливых оценок.

Теоретические основы оценивания дискриминирующего эффекта

заданий

Согласно основным положениям Б1Б необходимо принять два базовых предположения: первое — на результаты выполнения испытуемыми задания могут влиять источники вариации, отличающиеся от тех, которые предусмотрены в измеряемом конструкте; второе — эти не запланированные источники вариации оказывают постоянное смещающее воздействие на оценки испытуемых по тесту, способствуя росту систематической ошибки измерения при оценке результатов тестирования для испытуемых из групп меньшинства [8, 10].

При проведении анализа с целью выявления дискриминирующего эффекта заданий необходимо установить наличие факторов, которые могут привести к появлению несправедливого преимущества в результатах тестирования одних групп обучающихся перед другими. После фиксации факторов применяется аппарат теории В результате выбирается совокупность заданий, подлежащих удалению в том случае, если они дискриминируют испытуемых из группы, представляющей, согласно второму предположению, группу меньшинства.

Проведение сравнительного анализа различных подходов исследователей (дисперсионный анализ Кардола и Кофмана [Cardall, Coffman, 1963], метод Ангоффа [Angoff, 1972], хи-квадрат Бишопа и Файнберга [Bishop, Fienberg, Holland, 1985], метод стандартизации Доранса и Кулика [Dorans, Kulick, 1988] и методы теории IRT, основанные на различных моделях) к выявлению заданий, дискриминирующих отдельные группы испытуемых, позволило выбрать однопараметрическую модель теории IRT [13, 21]. Аргументом для такого выбора стала высокая эффективность теории IRT и независимость оценок параметра трудности заданий от подготовленности выборки испытуемых к выполнению теста при использовании однопараметрической модели.

Аналитическое представление вероятности правильного ответа испытуемых по однопараметрической модели теории IRT [2, 13, 21] имеет следующий вид:

P(0) =

е1,7(в-р)

1 + e

1,7(в-р)

где 0 — независимая переменная, а в качестве параметра выбирается трудность задания в

Наиболее перспективный подход для выявления заданий, приводящих к систематической ошибке измерения, предложил Ф. Лорд (F. Lord) [16]. Если допустить возможность того, что задание будет функционировать по-разному для центральной группы (генеральной совокупности F) и некоторой референтной группы (группы меньшинства R), то на языке теории IRT можно говорить о мере отличия характеристических кривых задания (Item characteristic curves — ICC), построенных для этих двух групп. Если ICC задания для двух групп полностью совпадают, то оно не вносит в результаты измерений никакой систематической ошибки. Таким образом, мера отличия в расположении кривых ICC задания, построенных для двух групп испытуемых, служит характеристикой величины систематической ошибки измерения.

На рисунке приведены три возможные ситуации расположения ICC трех заданий для центральной и референтной групп. Для каждого из трех заданий символом ICCF обозначена характеристическая кривая для центральной группы, а символом ICCR — для референтной группы. Слева

расположены две характеристические кривые первого задания, которое оказалось намного труднее для испытуемых в референтной группе, чем для испытуемых в центральной группе. Правая часть рисунка показывает ситуацию, когда кривые довольно близки, следовательно, второе задание имеет приблизительно одинаковую трудность для центральной и референтной групп. Нижняя часть, соответствующая третьему заданию, изображает не типичную, но вполне возможную ситуацию. Задание оказывается менее трудным для испытуемых референтной группы, чем для центральной группы.

Рисунок. Примеры возможного расположения характеристических кривых трех заданий для двух групп испытуемых

Основываясь на визуальном анализе, можно предположить, что первое задание вносит значимую систематическую ошибку измерения и подлежит удалению из теста. У второго задания область между кривыми намного меньше, что означает значительно меньшую величину систематической ошибки, поэтому его можно оставить в тесте. А третье задание по содержанию соответствует теме, изучению которой уделялось много внимания в тех вузах, чьи испытуемые попали в референтную группу, однако в большинстве вузов центральной группы образовательные программы не предполагали освоение умений, представленных в содержании задания под номером три.

Символами Дх, Д2 и Д3 обозначены расстояния между точками перегиба

характеристических кривых в проекции на ось переменной измерения 9. Для первой кривой Д1 превышает 0,6 логита, для второй — Д2 меньше 0,5 логита, а для третьей — Д3 довольно велико, но имеет противоположный знак по отношению к первым двум случаям.

Численно дискриминирующий эффект задания можно выразить в виде площади области, расположенной между двумя его характеристическими кривыми для двух групп испытуемых. Для определения площади этой области ^вычисляют интеграл от разности функций Рр(0) и Рр(0), определяющих вероятности правильных ответов испытуемых на это задание по одной из моделей теории ШТ в центральной и референтной группах [17].

Поскольку отличия в расположении кривых определяются расстоянием между их точками перегиба, соответствующими оценкам параметра в в центральной и референтной группах. Она дается выражением:

*т° =

{р (9) - рЕ (9)^9= \

—да

+да^ е1,7(Э-р,) е1,7(9—Ря) ^

1 + ^(е-р,) 1 + ) у

= |Р, — Р *

+да

Знак модуля поставлен для того, чтобы выявить величину общего дискриминирующего эффекта без учета направления его действия. Таким образом, при обращении к однопараметрической модели теории ШТ дискриминирующий эффект задания выражается в виде абсолютной величины разности |рр- р.К|. Значения 8^ с учетом знака называют общим дискриминирующим эффектом [10].

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Знак выбирается в соответствии с расположением кривых для центральной и референтной групп, которые в случае использования однопараметрической модели не будут иметь точки пересечения. Эффект считают положительным в случае, когда левее расположена кривая для центральной группы, и отрицательным в противном случае. Трудность интерпретации общего эффекта заключается в том, что его значения принадлежат неограниченному диапазону и позволяют лишь ранжировать задания по степени его выраженности, но не дают четкого ответа на вопрос о том, какие именно значения являются значимым свидетельством наличия дискриминирующего эффекта. В данной статье предлагается критерий для интерпретации общего эффекта, установленный эмпирическим путем и основанный на подходе Дж. Кивза [11].

Согласно его подходу параметром дискриминирующего эффекта задания (у) называют отношение общего эффекта sgnY * 8^ к разности 0мах-0мм, где разность 9МАХ-9МЮ геометрически выражает площадь прямоугольника, на котором рассматриваются кривые заданий при вычислении общего эффекта [11]. Поэтому параметр у всегда по модулю меньше единицы, а его абсолютная величина показывает долю различий в вероятности выполнения задания испытуемыми в разных группах. При этом положительные значения у означают, что задание дает преимущество испытуемым центральной группы, отрицательные — референтной.

В исследованиях [11] установлены следующие критические значения для параметра у:

— если |у| <0,05 (т.е. отклонение параметра от нуля составляет менее 5%), то задание не оказывает значимого дискриминирующего эффекта;

— если 0,05 <|у| <0,01 (отклонение параметра от нуля — от 5% до 10%), то задание имеет средний уровень дискриминирующего эффекта;

— если |у| >0,01(отклонение параметра от нуля — более 10%), то задание имеет значительный уровень дискриминирующего эффекта.

Рассмотренный подход к оцениванию систематической ошибки задания на основе теории ШТ, несомненно, является эффективным, однако он имеет не только достоинства, но и недостатки. В частности, подход не работает для трехпараметрической логистической модели теории ШТ, использование которой желательно для тестов, содержащих задания с множественным выбором.

Построение выборок исследования

Проблема построения выборок для проведения исследования имеет три составляющие: 1) определение специальности и дисциплины для выбора содержательной совокупности заданий банка, подлежащих анализу; 2) построение выборочных совокупностей испытуемых для центральной и референтной групп; 3) определение диапазона трудности заданий банка, выбранных для оценивания дискриминирующего эффекта [19].

При решении первой части проблемы приоритетность выбора специальности и дисциплины для анализа дискриминирующего эффекта заданий определялась их значимостью для профессиональной подготовки специалистов российского здравоохранения. Поэтому предпочтение было отдано специальности «Лечебное дело» и дисциплине «Терапия».

При построении выборочной совокупности испытуемых был выбран

подход формирования выборки в несколько стадий [4, 13]. Построение выборки вузов велось на всей генеральной совокупности с характеристиками, указанными в табл. 1 для центральной группы. Фрейм генеральной совокупности был стратифицирован по общему баллу среди испытуемых из всех медицинских вузов по результатам 2018 года. Вузы были разделены на четыре группы по уровню результатов аккредитации. Различия между группами проверялись методом ЛМОУЛ, чем было доказано их статистически значимое различие с вероятностью 99%. Фрейм имел волновую стратификацию по группам вузов. Из фрейма, начиная со случайного старта и следуя далее с вычисленным интервалом выборки, были выбраны восемь вузов. Согласно полученным результатам сформированная выборка из восьми вузов отражала генеральную совокупность на 99,9%, поэтому она была использована в дальнейшей работе по анализу дискриминирующего эффекта заданий.

При рассмотрении третьей части проблемы было решено отбирать задания с оценками параметра трудности в окрестности порогового балла (70% выполнения), используемого при принятии аккредитаци-онных решений в здравоохранении на первом этапе аккредитации. Решающим аргументом для подобного выбора стал известный эффект нечетких решений, характерных для 20% диапазона оценок параметра испытуемых, окружающих пороговый балл (10% слева и 10% справа от порогового балла). Наличие этой проблемной области требует выбора наиболее качественных заданий, обладающих высокой валидностью и не дискриминирующих испытуемых референтной группы. Благодаря существованию единой шкалы логитов для оценок параметров 9 и в в теории ШТ можно соотнести велечины этих параметров. Таким образом, в число заданий, подлежащих анализу по дисциплине «Терапия», вошли те, трудность которых была в диапазоне (1,5; 2,5) логитов.

В соответствии с принятой технологией формирования вариантов для аккредитации специалистов здравоохранения задания по этой дисциплине были разбросаны по всему тесту, поэтому в исследовании использовалась позиционная выборка с целью обнуления влияния местоположения заданий на результаты анализа. Результаты формирования выборок по испытуемым и заданиям приведены в табл. 1. Общее число заданий банка Методического центра аккредитации по специальности «Лечебное дело» по дисциплине «Терапия» — 1612, из них в диапазон трудности (1,5; 2,5) логитов попадали 487 заданий. Именно они подле-

жали первоочередному анализу с целью выявления дискриминирующего эффекта, который может вноситься в результаты аккредитации.

Таблица 1

Размеры выборок по испытуемым и заданиям (специальность «Лечебное дело» дисциплина «Терапия»)

Выборки Число ООВО Число испытуемых Число заданий для анализа

Центральная группа 75 17 923 487

Референтная группа 8 1 620 487

Методика, инструментарий и результаты исследования

Для исследования данных применялись методы группировки данных, их агрегации, построения репрезентативных выборок, метод Бонферрони в ANOVA, частотный и дисперсионный анализ, метод Differential Item Functioning и алгоритмы теории IRT для построения характеристических кривых заданий, реализованные с помощью последней версии программного обеспечения Winsteps 3.92.1, обновленной в 2016 году [14, 15]. Winsteps реализует алгоритмы теории IRT и применяет разные модели IRT — от однопараметрической (1PL) до пятипараметрической (5PL). С помощью этой программы можно провести в том числе DIF-анализ при калибровке заданий с множественным выбором (multiple choice).

Анализ данных по методу аппарата DIF проводился в две стадии: сначала для центральной группы, а затем для референтной группы. Оценивание параметра трудности заданий и построение их характеристических кривых предварял дисперсионный анализ ANO VA по методу Бонферрони, показавший наличие статистически значимых различий частотности правильного выполнения заданий в центральной и референтной группах с вероятностью 0,95 [12].

Наиболее трудной в исследовании оказалась проблема выбора критических значений абсолютной величины разности для удаления заданий из банка. Соотнесение результатов обработки с величиной параметра у, предложенного Keeves, показало, что это слишком жесткое ограничение. Если его использовать, то придется удалять значительное число заданий банка. Поэтому был выбран более мягкий критерий, согласно которому величину разности p.R| следует определить на уровне 0,5. Выбор критерия подкреплялся экспертным анализом, во

время которого эксперты анализировали образовательные программы различных вузов и содержание заданий, рекомендованных для исключения по критерию Кееуез и по критерию, выбранному в данном исследовании. Результаты анализа подтвердили возможность выбора 0,5 в качестве пороговой величины для удаления заданий из банка в тех случаях, когда абсолютная величина разности |рр- превышала этот критерий. В тех случаях, когда эта разность была близка к критерию с тем или иным знаком ((0,5 — е; 0,5 + е), где величина е была выбрана равной 0,05), авторами заданий проводился дополнительный анализ для установления соответствия содержания заданий образовательным программам различных вузов.

Проведенный Б1Б-анализ для 487 заданий показал результаты, приведенные в табл. 2.

Таблица 1

Результаты й^-анализа

Общее число заданий для анализа Число заданий, не обладающих дискриминирующим эффектом (|рр — N<0,5) Число заданий, рекомендованных к удалению Число заданий из области нечетких решений, подлежащих экспертизе Число заданий, оставленных в банке по результатам экспертизы

487 363 24 19 17

Применение аппарата Б1Б для анализа качества 487 заданий банка для аккредитации специалистов здравоохранения специальности «Лечебное дело» по дисциплине «Терапия» первоначально позволило выявить 24 непригодных задания, вносящих систематическую ошибку измерения в данные аккредитации. Из них 19 заданий по своей трудности попали в область нечетких решений, поэтому были подвергнуты экспертизе, по результатам которой 17 заданий были оставлены в банке согласно решениям экспертов.

Таким образом, число удаленных заданий из диапазона трудности, выделенного для Б1Б-анализа, оказалось довольно невелико (семь заданий). Остальные 17 заданий из 24, намеченных к удалению, подверглись коррекции и были оставлены в банке в силу незначительного отличия разности оценок параметра трудности по центральной и референтной группам от критерия и высокой значимости содержания для аккредитации

специалистов здравоохранения. Заданий, оказавшихся более легкими для испытуемых референтной группы по сравнению с испытуемыми центральной группы, в банке не оказалось.

Однако полученные результаты требуют дальнейшего развития и исследования. Отсутствие близости распределения эмпирических данных к нормальному закону, характерное для данных аккредитации в силу критериально-ориентированного подхода к разработке аккредитационных тестов, вносит свой компонент в систематическую ошибку измерения. В связи с этим необходимо провести исследование для анализа влияния процедуры нормализации данных на точность результатов измерения и корректность выводов о дискриминирующем эффекте заданий после нормализации. Необходимо также продолжить работу по анализу качества заданий банка, принадлежащих другим диапазонам трудности. По-видимому, такой анализ требует привлечения иных методов, поскольку подавляющее число результатов испытуемых принадлежит интервалу шкалы логитов, рассмотренному в статье.

Литература

1. Антипкина И. В. Построение модели экспертизы инструментов оценивания в психологии и образовании: магистерская диссертация. М., 2014 [Электронный ресурс]. URL: https://www.hse.ru/edu/vkr/125959669 (дата обращения: 25.11.2022).

2. Карданова Е. Ю. Моделирование и параметризация тестов: основы теории и приложения. М.: Федеральный центр тестирования, 2008. 292 с.

3. Крокер Л., Алгина Дж. Введение в классическую и современную теорию тестов. М.: Логос, 2010. 668 с.

4. Найденова Н. Н. Формирование репрезентативной выборки. М.: Логос, 2003. 176 с.

5. Третьякова Т. В. Система оценки качества образования и ее построение в регионах с территориальными и национальными особенностями (на материалах Республики Саха (Якутия)). Якутск: Дани Алмас, 2010. 464 с.

6. Щаницина С. В. Анализ дискриминационной валидности заданий теста при оценке качества результатов обучения // Вестник университета. 2009. № 7. С. 106-109.

7. Baker F. B., Kim S. H. Item Response Theory. Parameter estimation techniques. 2nd ed. N. Y.: Dekker, 2004. 528 c.

8. Cohen A. S., Kim S. H., Baker F. B. Detection of Differential Item Functioning in the Graded Response Model // Applied Psychological Measurement. 1993. No 17. P. 335-350.

9. De Ayala R. The Theory and Practice of Item Response Theory. Guilford Press, 2009. 448 c.

10. Differential Item Functioning / ed. by P. W. Holland, H. Wainer. N. Y.: ETS, Routledge, 1993. 470 c.

11. Keeves J. P. Educational Research Methodology and Measurement: An International Handbook. N. Y.: Perg. Press, 1988. 832 c.

12. Kramer D. Mathematical data processing in social sciences: modern methods: studies. М.: Academy, 2007. 288 c.

13. LavrakasP. J. Encyclopedia of Survey Research Methods. Thousand Oaks, Calif.: Sage

Publications, Inc., 2008. 1072c. doi: 10.4135/9781412963947.

14. Linacre J. M. Winsteps® Rasch Measurement Computer Program User's Guide. Beaverton, Oregon: Winsteps.com, 2016. [Электронный ресурс]. URL: https://www.win-steps.com (дата обращения: 01.10.2020).

15. Linacre J. M. Winsteps® (Version 3.92.1) [Computer Software]. Beaverton, OR: Winsteps.com, 2016.

16. Lord F. M. Application of Item Response Theory to Practical Testing Problems. Hillsdale, N.-J.: Erlbaum, 1980. 274 с.

17. Penfield R. D., Camilli G. Differential Item Functioning and Item Bias // Psychometrics. 2007. Vol. 26. P. 125-167.

18. Semenova T., Sizova Zh., Chelyshkova M. et al. Fairness and Quality of Data in Healthcare Professionals' Accreditation // Modern Journal of Language Teaching Methods (MJLTM). 2018. Vol. 7. Issue 9.3. P. 13-25.

19. Semenova T., Sizova Zh., Zvonnikov V. et al. The Development of Model and Measuring Tool for Specialists Accreditation // EURASIA J. Math., Sci Tech. Ed. 2017. No 13 (10). P. 6779-6788.

20. Zumbo B. D. A Handbook on the Theory and Methods of Differential Item Functioning. Ottawa, Ontario, Canada: Directorate of Human Resources Research and Evaluation, Department of National Defense, 1999. 57 с.

21. Woods C. M. DIF Testing for Ordinal Items with Poly-SIBTEST, the Mantel and GMH Tests, and IRT-LR-DIF when the Latent Distribution is Non Normal for Both Groups // Applied Psychological Measurement. 2011. No 35 (2). P. 145-164.

References

• Antipkina I. V. Postroyeniye modeli ekspertizy instrumentov otsenivaniya v psikholo-gii i obrazovanii [Construction of the Model Examination Assessment Tools in Psychology and Education]. Magisterskaya dissertatsiya. Moskow. 2014. URL: https://www.hse.ru/edu/ vkr/125959669 (accessed 25 November 2022). [In Rus].

• Kardanova Ye. Yu. Modelirovaniye i parametrizatsiya testov: osnovy teorii i prilozheniya [Modeling and Parameterization of Test: Basic Theory and Applications]. Moskow: Federal'nyy tsentr testirovaniya. 2008. 292 s. [In Rus].

• Crocker L., Algina J. Vvedenie v klassicheskuyu i sovremennuyu teoriyu testov [Introduction to Classical and Modern Test Theory]. Moscow: Logos. 2010. 668 s. [In Rus].

• Naydenova N. N. Formirovaniye reprezentativnoy vyborki [Formation of a Representative Sample]. Moscow: Logos. 2003. 176 s. [In Rus].

• Tret'yakova T. V. Sistema otsenki kachestva obrazovaniya i yeye postroyeniye v regionakh s territorial'nymi i natsional'nymi osobennostyami (na materialakh Respubliki Sakha (Yakutiya)) [The System of Education Quality Assessment and its Construction in the Regions with Territorial and National Characteristics (on the Materials of the Republic of Sakha (Yakutia))]. Yakutsk: Dani Almas. 2010. 464 s. [In Rus].

• Shchanitsina S. V. Analiz diskriminatsionnoy validnosti zadaniy testa pri otsenke kachestva rezul'tatov obucheniya [Analysis of the Discriminatory Validity of the Test Items in Assessing the Quality of Learning Outcomes] // Vestnik universiteta. 2009;7:106-109. [In Rus].

• Baker F. B., Kim S. H. Item Response Theory. Parameter estimation techniques. 2nd ed. N. Y.: Dekker. 2004. 528 p.

• Cohen A. S., Kim S. H., Baker F. B. Detection of Differential Item Functioning in the Graded Response Model // Applied Psychological Measurement. 1993;17:335-350.

• De Ayala R. The Theory and Practice of Item Response Theory. Guilford Press. 2009. 448 p.

• Differential Item Functioning / ed. by P. W. Holland, H. Wainer. N. Y.: ETS, Routledge. 1993. 470 p.

• Keeves J. P. Educational Research Methodology, and Measurement: An International Handbook. N. Y.: Perg. Press. 1988. 832 p.

• Kramer D. Mathematical data processing in social sciences: modern methods. Мoskow: Publishing Centre "Academy". 2007. 288 p.

• LavrakasP. J. Encyclopedia of Survey Research Methods. Thousand Oaks, Calif.: Sage Publications, Inc. 2008. 1072 p. doi: 10.4135/9781412963947.

• Linacre J. M. Winsteps® Rasch Measurement Computer Program User's Guide. Beaverton, Oregon: Winsteps.com. 2016. https://www.winsteps.com (accessed 1 October 2020).

• Linacre J. M. Winsteps® (Version 3.92.1) [Computer Software]. Beaverton, OR: Winsteps.com. 2016.

• Lord F. M. Application of Item Response Theory to Practical Testing Problems. Hillsdale, N.-J.: Erlbaum. 1980. 274 p.

• Penfield R. D., Camilli G. Differential Item Functioning and Item Bias. Psychometrics. 2007;26:125-167.

• Semenova T., Sizova Zh., Chelyshkova M. et al. Fairness and Quality of Data in Healthcare Professionals' Accreditation. Modern Journal of Language Teaching Methods (MJLTM). 2018;7,9.3:13-25.

• Semenova T., Sizova Zh., Zvonnikov V. et al. The Development of Model and Measuring Tool for Specialists Accreditation. EURASIA J. Math., Sci Tech. Ed. 2017;13(10):6779-6788.

• Zumbo B. D. A Handbook on the Theory and Methods of Differential Item Functioning. Ottawa, Ontario, Canada: Directorate of Human Resources Research and Evaluation, Department of National Defense. 1999. 57 p.

• Woods C. M. DIF Testing for Ordinal Items with Poly-SIBTEST, the Mantel and GMH Tests, and IRT-LR-DIF when the Latent Distribution is Non Normal for Both Groups. Applied Psychological Measurement. 2011;35(2):145-164.

Статья поступила в редакцию 26.02.2023; одобрена после рецензирования 06.03.2023; принята к публикации 12.03.2023.

The article was submitted 26.02.2023; approved after reviewing 06.03.2023; accepted for publication 12.03.2023.

СПРАВЕДЛИВОСТЬ ОЦЕНОК В АККРЕДИТАЦИИ СПЕЦИАЛИСТОВ КАК ПРОБЛЕМА Текст научной статьи по специальности «Компьютерные и информационные науки»

FAIRNESS OF ASSESSMENTS IN THE ACCREDITATION OF SPECIALISTS AS A PROBLEM

Текст научной работы на тему «СПРАВЕДЛИВОСТЬ ОЦЕНОК В АККРЕДИТАЦИИ СПЕЦИАЛИСТОВ КАК ПРОБЛЕМА»