уДк 371 263 В. Д. ПОЛЕЖАЕВ
Омский государственный технический университет
О НЕОБХОДИМОСТИ СОВЕРШЕНСТВОВАНИЯ СИСТЕМЫ ОЦЕНИВАНИЯ РЕЗУЛЬТАТОВ ЕГЭ
В работе анализируется система оценивания результатов ЕГЭ при приеме абитуриентов в вузы. Указаны её недочеты: отсутствие объективности при проведении конкурсного отбора, недостаточная дифференциация уровня подготовленности абитуриентов по предметам вступительных испытаний. Предлагаются конкретные меры по совершенствованию системы. Сделан вывод о том, что суммарный рейтинг является более объективным и понятным абитуриентам показателем зачисления в вуз по сравнению с суммой баллов как по стобалльной, так и по пятибалльной шкале, или суммарным процентом выполненных заданий.
Ключевые слова: экзамен, ЕГЭ, результат, показатель, абитуриент, шкалирование.
Проблема шкалирования является одной из центральных в системе методического обеспечения ЕГЭ. До настоящего времени она решена далеко не так, чтобы удовлетворить все стороны, вовлеченные в процесс проведения и использования результатов ЕГЭ. Многие учащиеся возмущаются, почему им «срезают» баллы — заменяют после шкалирования их более высокие первичные баллы на более низкие тестовые. Они не понимают ни смысла, ни процедурного механизма подобного пересчета. Весьма затруднительно объяснять выпускникам средней школы, которые не проходят ни основы статистики, ни теорию измерений, почему при наличии положительной асимметрии (то есть при сдвиге медианы к высокому полюсу на шкале первичных баллов) именно сильным учащимся [выставляются более низкие стандартизированные (тестовые) баллы по сравнению с первичными.
В период завершенного в 2008 году восьмилетнего эксперимента по введению ЕГЭ его результаты обрабатывались в соответствиии с моделью шкалирования, разработанной в Федеральном центре тестирования (ФЦТ) — организации, ответственной за технологию проведения и обработку результатов ЕГЭ.
В мае 2008 года Рособрнадзором была утверждена обновленная методика шкалирования результатов ЕГЭ [ 11. ФЦТ предложил следующую схему её реализации. Каждый вариант КИМа независимо от других обрабатывается в рамках модели Partial Credit, принадлежащей семейству моделей IRT. После обработки, каждый из участников ЕГЭ получает оценку уровня подготовленности, измеренную в логитах, а каждое задание КИМа получает оценку уровня трудности, также измеренную в логитах.
Формула перевода шкалы логитов в шкалу тестовых баллов, предложенная ФЦТ, выглядит следующим образом:
0,
66__+880-946L
округ7
100. е>6„
-6L
етп<в<етх.,
где ? — тестовый балл, в — оценка уровня подготовленности участника ЕГЭ в логитах, вшп — оценка в
логитах, соответствующая одному первичному оаллу, втах — оценка в логитах, соответствующая первичному баллу, на единицу меньшему максимально возможного.
При оценивании результатов вступительных испытаний, приемные комиссии многих вузов в соответствии с рекомендациями Рособрнадзора используют стобалльную систему шкалирования результатов ЕГЭ. Чаще всего при проведении конкурсного отбора в 2008 году учитывалась сумма баллов по двум или трём предметам.
Если рассмотреть графики зависимостей тестового балла и рейтинга (процента участников ЕГЭ, имеющих меньший или равный балл.) от процента выполненных заданий (отношения набранного первичного балла, умноженного на 100, к его максимальной величине), то становится очевидным, что эти зависимости были получены с помощью различных моделей, весьма отдаленно напоминающих заявленную (рис. 1—4). К тому же существенно различные математические ожидания (так, средний балл по .литературе в два раза меньше, чем по французскому языку) приводят к тому, что предметы имеют различную значимость (табл. 1), то есть вузы при проведении конкурса путем суммирования баллов, вообще говоря, по справедливости должны были бы вводить для них весовые коэффициенты.
Судя по приведенным данным [2], лучше всего в нашей стране выпускники 2008 года были подготовлены по иностранным языкам, но при этом никто из них не смог освоить в совершенстве эти предметы (не было учащихся, набравших 100 баллов) .Довольно парадоксальный результат, который свидетельствует о том, что применяемая система шкалирования далека от совершенства. Совершенно очевидно, что 100 баллов надо выставлять не только тем участникам ЕГЭ, которые выполнили все задания, но также и тем, кто не смог этого сделать, но пока зал лучшие результаты среди всех экзаменовавшихся поданному предмету.
На первый взгляд, хуже всего обстоят дела по .литературе — средний балл34,7, а процент двоек 25,3. Но если сравнить средний балл по этому предмету 2008 года с результатами 2007 года (50,6), то оказывается, что он почти в полтора раза понизился, притом что прошлогодний средний балл по .литературе превышал эти показатели всех остальных предметов
ОМСКИЙ НАУЧНЫЙ ВЕСТНИК N» 2 (74) 2009 ПСИХОЛОГИЧЕСКИЕ И ПЕДАГОГИЧЕСКИЕ НАУКИ
ПСИХОЛОГИЧЕСКИЕ И ПЕДАГОГИЧЕСКИЕ НАУКИ ОМСКИЙ НАУЧНЫЙ ВЕСТНИК № 2 (76) 2009
Литература
Тестовый балл. Рейтинг 100
/
/
/'
у г*
/
/
•V /
!/
-Тестовый балл
---•Прямая У=Х
0 10 20 30 40 50
70 80 90 100
Рис. 1. Графики зависимостей рейтинга и тестового балла от процента выполненных заданий ЕГЭ по математике в 2008 г.
Процент выполнения работы
Рис. 3. Графики зависимостей рейтинга и тестового балла от процента выполненных заданий ЕГЭ по литературе в 2008 г.
Рис. 2. Графики зависимостей рейтинга и тестового балла от процента выполненных заданий ЕГЭ по физике в 2008 г.
Рис. 4. Графики зависимостей рейтинга и тестового балла от процента выполненных заданий ЕГЭ по английскому языку в 2008 г.
Таблица 1
Результаты участников ЕГЭ в России в 2008 г.
Предметы Количество чел./экз. Процент учащихся, набравших соответствующий балл Количество учащихся, набравших 100 баллов Средний балл
«2» «3» «4» «5» 2007 2008
Химия 30809 10,4 36,8 34,7 18,1 42 49,3 55,5
Информатика 10346 11,2 36,8 40,0 12,0 25 49,5 56,4
Английский язык 14679 6,1 26,8 49,3 17,8 0 64,5 64,8
Немецкий язык 1202 13,3 39,1 34,8 12,8 0 63,7 56,3
Французский язык 437 4,0 22,6 47,7 25,7 0 70,0 69,5
Обществознание 132034 6,1 34,5 38,6 20,8 18 50,3 56,7
Физика 59799 9,7 41,0 37,1 12,2 86 49,8 53,0
История 48529 10,0 37,7 37,1 15,2 40 50,1 51,2
Биология 74280 6,7 45,5 34,9 12,9 36 48,6 54,3
География 26253 8,9 40,2 39,1 11,8 27 48,3 51,3
Литература 18371 25,3 36,7 28,6 9,4 33 50,6 34,7
Русский язык 1055820 11,2 44,5 34,3 10,0 620 49,1 55,4
Математика 937468 23,5 39,5 28,0 9,0 62 48,4 38,1
(кроме иностранных языков). То есть в 2008 году учителя стали готовить по этому предмету существенно хуже, чем раньше? Конечно же, нет. Это свидетельствует только о некачественной подготовке контрольных измерительных материалов ЕГЭ и отсутствии их
«параллельности» и сопоставимости по годам. Детальный анализ статистики результатов по отдельным вариантам говорит и об их «непараллельности» внутри одного года, и о несовершенстве системы выравнивания результатов. То же самое относится и к матема-
тике, по которой средний балл снизился с 48,4 до 38,1. Ещё одним подтверждением этого вывода является тот факт, что количество стобалльников по русскому языку на порядок выше, чем по математике, хотя на самом деле они должны быть сопоставимыми.
По действующему законодательству лицам, проходившим военную службу по призыву, в течение года после увольнения с военной службы при поступлении в вузы предоставляется право использовать результаты ЕГЭ, сданного ими в течение года до призыва на военную службу [3]. То есть выпускники школ 2008 года, имеющие такой же уровень подготовленности по математике, что и выпускники
2007 года (да и 2009 года тоже), при поступлении в вуз после службы в армии будут существенно ущемлены в правах на получение технического образования, потому что их результаты ЕГЭ никак не будут корректироваться при участии в конкурсном отборе перед зачислением в вуз или ссуз. Можно даже с уверенностью предположить, что их слабые «тройки» по математике 2008 года окажутся «двойками» в последующие годы.
А как же требование Закона о том, что «ЕГЭ представляет собой форму объективной оценки качества подготовки лиц, освоивших образовательные программы среднего (полного) общего образования, с использованием заданий стандартизированной формы (контрольных измерительных материалов), выполнение которых позволяет установить уровень освоения ими федерального компонента государственного образовательного стандарта среднего (полного) общего образования», а «... при наличии конкурса должно обеспечивать зачисление граждан наиболее способных и подготовленных к освоению основных образовательных программ соответствующей ступени» [3]? Очевидно, нарушается принцип равного доступа всех граждан России к качественному образованию разных уровней вне зависимости от принадлежности к различным социальным группам.
Ещё одним существенным недостатком использования вузами системы конкурсного отбора, основанного на системе шкалирования, утвержденной Рос-обрнадзором РФ [1], является отсутствие дифференциации уровня подготовленности абитуриентов по предметам вступительных испытаний.
При оценивании результатов вступительных испытаний по общеобразовательным предметам, по которым вступительные испытания ссузом/вузом проводятся самостоятельно, Рособрнадзором РФ рекомендуется использовать, так же как и по предметам ЕГЭ, стобалльную систему оценивания. Рассмотрим систему проведения конкурсов по сумме результатов двух экзаменов, которая применялась в 2008 году во многих вузах страны. В технических вузах такими конкурсными предметами были, как правило, физика и математика, а русский язык оценивался по системе «зачет — незачет» и не учитывался при подсчете баллов.
Никто не будет оспаривать тезис о том, что форма проведения экзамена (тест, устный, письменный, на компьютере и т.п.) не должна существенным образом влиять на результат испытуемого и определяется органом управления образовательного заведения. В частности, это относится и к ЕГЭ, который продолжается и входит в штатный режим вне зависимости от мнения его оппонентов. Не так давно вузы практиковали синтетический, то есть совмещенный экзамен по двум предметам вступительных испытаний. Так, МАИ (ТУ) для поступающих на гуманитарные специальности проводил объединенный экзамен по
истории России и обществознанию. Поэтому теоретически можно предположить, что если бы ЕГЭ был не такой большой продолжительности и объема, то вузы могли бы проводить объединенный экзамен, к примеру, по физике и математике (что некоторые вузы и практиковали, проводя два, а то и три своих экзамена в один день для поступающих на платное обучение).
На первый взгляд, вроде бы не должно быть принципиальной разницы в оценивании такого экзамена по 200-балльной шкале и суммой двух 100-балльных экзаменов. В конечном итоге и там, и здесь результат зависит от суммарного процента выполненных заданий. Но здесь надо иметь в виду не только интересы испытуемого, но и интересы другой стороны — вуза и основного заказчика подготавливаемого специалиста — государства, которое законодательно установило, что целью конкурсного отбора является выбор абитуриентов, наиболее способных к усвоению образовательных программ соответствующего уровня.
Рассуждая формально, имеем двух абитуриентов, выполнивших суммарно половину заданий из предложенных по двум предметам. Но один из них выполнил половину заданий как одного, так и другого предмета, а второй абитуриент — полностью выполнил все задания одного предмета, но не смог осилить ни одного задания другого. Таким образом, объем выполненных заданий у них — одинаковый. Так кто же в этой ситуации должен иметь преимущество. Ныне действующая система однозначно очень резко отдает преимущество при зачислении первому абитуриенту (далее будем называть его «стабильным»), оставляя второго («нестабильного») за чертой зачисленных абитуриентов. И с этим трудно не согласиться. В этой ситуации есть редкие исключения, скорее подтверждающие правило. Речь идет о победителях олимпиад, которые зачисляются в вузы по результатам только одного экзамена. Однако, как правило, среди них не бывает тех, кто не смог бы выучить остальные предметы школьной программы на положительные оценки. Но, с другой стороны, автор этих строк во время обучения в Новосибирском государственном университете убедился в том, что довольно большой процент одаренных абитуриентов — победителей олимпиад не смогли закончить этот вуз по причине неумения в должной мере осваивать те предметы, которые казались им неинтересными. Отсюда делаем практический вывод: для обучения в вузе больше подходят выпускники школ, имеющие стабильные (пусть и не самые высокие) результаты по предметам, на которых базируется обучение в высшей школе. Поэтому им надо предоставлять реальные преимущества при поступлении в вузы.
В настоящее время многими вузами при проведении конкурса используется формальная зависимость г = х + у, где х — количество баллов по первому предмету, у — количество баллов по второму предмету, г — показатель по которому производится зачисление (при прочих равных условиях). Её несомненным достоинством является простота и удобство использования приемными комиссиями. Но по поводу её объективности при зачислении можно поспорить, особенно в части, касающейся её применимости при пересчете в пятибалльную шкалу оценок [4, 5]. После представления в Рособрнадзор РФ материалов исследований автора этой статьи, свидетельствующих о серьезных искажениях при переводе результатов ЕГЭ из стобалльной шкалы в пятибалльную, граничащих с нарушением прав граждан на получение высшего образования, было принято решение об отказе
ОМСКИЙ НАУЧНЫЙ ВЕСТНИК № 2 (76) 2009 ПСИХОЛОГИЧЕСКИЕ И ПЕДАГОГИЧЕСКИЕ НАУКИ
ПСИХОЛОГИЧЕСКИЕ И ПЕДАГОГИЧЕСКИЕ НАУКИ ОМСКИЙ НАУЧНЫЙ ВЕСТНИК N»2 (74) 2009
%
с 2009 года от такой системы оценивания знаний абитуриентов.
Если рассуждать чисто теоретически, то для создания идеальной модели шкалирования нужно закладывать следующие предпосылки. По всем предметам ЕГЭ должны быть одинаковыми (или минимально различающимися):
— уровень сложности вариантов,
— оценки (баллы) за одинаковое процентное выполнение заданий,
— средний балл,
— процент участников ЕГЭ, получивших одинаковые оценки по пятибалльной шкале.
При этом, естественно, должны сохраняться различия, индивидуальные для каждого из предметов: время выполнения работы, количество и форма заданий, способы оформления работы и заполнения бланков и т.п.
К сожалению, Федеральный центр тестирования (ФЦТ) слабо использует богатейший опыт, накопленный им при проведении централизованного тестирования (ЦТ), и «наступает на теже грабли», что и в своё время при проведении ЦТ. Так в 2000 году Центр тестирования Минобразования (ныне ФЦТ) рекомендовал вузам выставлять абитуриентам, набравшим 76 баллов, — по русскому языку оценку «два», а по всем остальным предметам ЦТ — оценку «пять». После высказанной нами критики такого подхода по всем предметам ЦТ во все последующие годы средний балл был равен 50, и не было существенных перекосов при переводе баллов ЦТ из стобалльной в пятибалльную шкалу. Чего нельзя сказать о нынешней системе шкалирования ЕГЭ, разработчиком и реализатором которой является тот же ФЦТ. Чего стоит только разброс среднего балла от 34,6 — по литературе до 69,3 — по французскому языку' (табл. 1).
Поэтому, пока не выправлены эти перекосы при обработке реальных результатов ЕГЭ, рассмотрим теоретические подходы к созданию объективной системы приема в вуз, основанные на таком показателе, как процент выполненных заданий по предмету. В принципе, с таким же успехом в дальнейших рассуждением можно использовать и показатель первичного балла.
Одним из путей решения этой задачи является замена показателя г=х+у на другой показатель 2 = х-: 100, где х — процент выполненных заданий по первому предмету, у — процент выполненных заданий по второму предмету, 2. (0 < 2 < 100) — показатель по которому производится зачисление (при прочих равных условиях). Что это даёт? Если рассмотреть результаты участников ЕГЭ, имеющих одинаковое суммарное количество (процент) выполненных заданий х + у = С, выразить отсюда у = С - х и подставить в предложенную формулу, то получим 2 = х-
■ (С-х): 100 =--(Сх - л:2) (рис. 5).
100Ч ’
Легко доказать, что при любой постоянной С (0<С<200) геометрически эта зависимость представима в виде параболы, ветви которой направлены
С2
вниз, а максимальное значение 2 =----- достигается
400 С
при X = — .
г 2
С помощью такой системы легализуется преимущество при зачислении стабильных абитуриентов.
Проанализируем предложенную зависимость на предмет качественного состава абитуриентов, имеющих одинаковый показатель для зачисления 2 = 1).
Рис. 5. Сечение поверхности плоскостью
В этом случае предлагаемая формула примет вид 2 =1) = х ■ у: 100. Отсюда у = 1001): х. При различных значениях О (0 <1) < 100) эта формула геометрически представ,ляет собой семейство гипербол (рис. 6).
С помощью предлагаемого подхода может производиться приравнивание показателей (целевой функции) «стабильных» абитуриентов с меньшим суммарным процентов выполнения работ по двум предметам к показателям «нестабильных» абитуриентов с большей суммой процентов выполненных заданий. Рассмотрим эту зависимость при £ = Ю (рис. 7). Зачисленными по этому показателю в одинаковых условиях должны быть абитуриенты с суммой процентов выполненных заданий по первому и второму предметам: 100+ 10; 80+ 12,5; 50+ 20; 40+ 25; 31,62+ 31,62; 25+ 40; 20+ 50; 12,5 + 80; 10+100. На первый взгляд, здесь присутствует парадокс — абитуриент, выполнивший в сумме 31,62+ 31,62 = 63,24 процента заданий, имеет такиеже права, что иабитуриенты, набравшие в сумме 100+ 10= 10+ 100= 110 процентов заданий из 200 возможных. Но на самом деле, у абитуриентов с нестабильным уровнем знаний приемные комиссии вузов вообще не примут документы, так как по одному из предметов их баллы не превосходят установленной границы «тройки». В 2008 году на ЕГЭ для получения положительной оценки в зависимости от предмета необходимо было выполнить не менее 16 % заданий. Нижняя граница положительной оценки в
2008 году была в пределах от 25 баллов (16 % выполненных заданий) по математике до 40 баллов (30 % выполненных заданий) по русскому языку. Поэтому в лучшем случае в конкурсе при таком подходе участвуют только абитуриенты с процентами выполненных заданий по первому и второму предметам: 50 + 20; 40 + 25; 31,62 + 31,62; 25 + 40; 20 + 50. Таким образом, предлагается предоставить равные права при поступлении абитуриентам суммарный процент набранных баллов у которых отличается не более чем на (50 + 20) —
— (31,62 + 31,62) =6,76 процента. А это не такое большое различие. Чтобы увеличить эту разницу, можно использовать формулу г = (х-уУ : 1002и 1, где п — натуральное число, с увеличением которого увеличивается разрыв между суммарными первичными баллами, набранными «нестабильными» и «стабильными» абитуриентами, имеющими одинаковый показатель целевой функции.
В том случае, когда зачисление производится на основе конкурса по результатам к экзаменов (к = 3, 4, 5), показатель г = х1 + х2 +... + хк имеет смысл за ме-нить на другой показатель 2 = (х1х2 -...-хЛ: 100* \ где хг — процент выполненных заданий (или балл, набранный на ЕГЭ) по ¿-ому предмету (1 < г < к), а 2 — показатель, по которому производится зачисление (при прочих равных условиях).
Рис. 6. Линии уровня поверхности показателей абитуриентов, равноправных при зачислении
Помимо выбора оптимального подхода к шкалированию, для повышения объективности и сопоставимости шкалированных баллов выпускников необходимо также проведение ряда неотложных работ, направленных на повышение качества КИМ, процедур применения, обработки данных и интерпретации результатов выполнения тестов, поскольку возможность оптимизации процедур шкалирования и выравнивания находится в прямой зависимости от качества выборки, используемой для построения шкалы и от качества КИМ. Здесь логика очень проста: если не обеспечено должное качество самих КИМ, выполнение условий параллельности вариантов, требований к характеристикам заданий и адекватность характеристик распределения эмпирических данных ЕГЭ требованиям моделей измерения, то нет и не может быть корректных процедур шкалирования и выравнивания.
В этой связи, поскольку значительное число вариантов КИМ по результатам анализа является статистически значимо различающимися, необходимо наибольшие усилия сосредоточить на работе по улучшению параллельности вариантов. Следует повысить качество проведения апробации заданий и вариантов, причем выполнять подгонку эмпирических данных под требования используемых моделей измерения при помощи коррекции статистических свойств КИМ еще на стадии апробации.
Рис. 7. Сечение поверхности показателей абитуриентов плоскостью
Очевидно, что в ближайшее время предложенная модель будет больше представлять теоретический интерес, поэтому в рамках данного исследования по результатам ЕГЭ 2008 года были построены и проанализированы аналитическая и графическая модели зависимости суммы тестовых баллов и рейтингов по двум предметам вступительных испытаний от процента выполненных заданий.
Проведенный анализ позволил подтвердить полученный автором ранее [4,5] вывод: суммарный рейтинг является более объективным и понятным абитуриентам показателем при проведении конкурса перед зачислением в вуз по сравнению с суммой баллов как по стобалльной, так и по пятибалльной шкале, или суммарным процентом выполненных заданий.
С переходом ЕГЭ в штатный режим при проведении конкурсного отбора в вузы этим показателем реально можно заменить тестовые баллы ЕГЭ. Это позволит более точно определять возможности поступающих осваивать образовательные программы соответствующей ступени и обеспечить зачисление граждан наиболее способных и подготовленных к их освоению.
Библиографический список
1. Методика шкалирования результатов ЕГЭ в 2008 году / Портал информационной поддержки Единого государственного экзамена / http://www1.ege.edu.ru/images/stories/ege2008/skali/ metod_shkal.pdf
2. Результаты Единого государственного экзамена (май — июнь 2008 года). Аналитический отчет. — М. : ФИПИ, 2008. — 422 с.
3. Федеральный закон Российской Федерации от 9 февраля 2007 г. № 17-ФЗ О внесении изменений в Закон Российской Федерации «Об образовании» и Федеральный закон «О высшем и послевузовском профессиональном образовании» в части проведения Единого государственного экзамена. / Российская газета. — 2007. — 14 февраля.
4. Проблемы шкалирования результатов различных видов вступительных испытаний / Развитие тестовых технологий в России : тез. докл. VII Всерос. науч.-метод. конф. — М. : Федеральный центр тестирования, 2005. — С. 39-42.
5. Проблемы оценивания уровня подготовленности абитуриентов / Национальные экзамены в системе оценки качества образования : материалы и тез. докл. Междунар. конф. — М. : Уникум-центр, 2006. — С. 222-231.
ПОЛЕЖАЕВ Виктор Дмитриевич, кандидат технических наук, доцент, декан факультета довузовской подготовки.
Статья поступила в редакцию 12.02.2009 г.
© В. Д. Полежаев
ОМСКИЙ НАУЧНЫЙ ВЕСТНИК № 2 (76) 2009 ПСИХОЛОГИЧЕСКИЕ И ПЕДАГОГИЧЕСКИЕ НАУКИ