Научная статья на тему 'Анатомия внешнего независимого оценивания знаний'

Анатомия внешнего независимого оценивания знаний Текст научной статьи по специальности «Науки об образовании»

CC BY
237
49
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИМИТАЦИОННАЯ МОДЕЛЬ / КОМПЬЮТЕРНОЕ ТЕСТИРОВАНИЕ / ВНЕШНЕЕ НЕЗАВИСИМОЕ ОЦЕНИВАНИЕ / РЕЙТИНГ / ТЕХНОЛОГИЯ ТЕСТИРОВАНИЯ / SIMULATION MODEL / COMPUTER TESTING / EXTERNAL INDEPENDENT ESTIMATION OF KNOWLEDGE / RATING / TESTING TECHNOLOGY

Аннотация научной статьи по наукам об образовании, автор научной работы — Оганесян Альберт Георгиевич

Предложена статистическая имитационная модель внешнего независимого оценивания знаний – ВНО (аналог российского единого государственного экзамена – ЕГЭ). Модель позволяет оценить уровень соответствия реальных знаний абитуриентов и их рейтинговыми баллами, которые формируются системой ВНО. Показано, что рейтинговые баллы сильно завышаются и позволяют получать проходной бал без достаточных для того знаний. Проанализированы причины, вызывающие несоответствие ВНО основной цели: успешное тестирование должно являться свидетельством не только знания предмета, но и умения применять эти знания на практике.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The statistical imitating model of external independent estimation of knowledge EIE (analogue of the Russian unified state examination USE) is offered in this paper. The model allows estimating level of conformity of the real knowledge of entrants and their rating points which are formed by system EIE. It is shown that rating points are strongly overestimated and allow receiving passing points without sufficient for this purpose knowledge. The reasons causing noncompliance of a main EIE objective are analyzed: successful testing should proof not only knowledge of a subject, but also abilities to put this knowledge into practice.

Текст научной работы на тему «Анатомия внешнего независимого оценивания знаний»

Анатомия внешнего независимого оценивания знаний

Альберт Георгиевич Оганесян Профессор, д. ф.-м. н., помощник директора,

Львовский колледж Киевского Государственного университета информационно -коммуникационных технологий,

Украина, Львов, ул. Владимира Великого, 12., (032) 261-34-06,

[email protected]

Аннотация

Предложена статистическая имитационная модель внешнего независимого оценивания знаний - ВНО (аналог российского единого государственного экзамена - ЕГЭ). Модель позволяет оценить уровень соответствия реальных знаний абитуриентов и их рейтинговыми баллами, которые формируются системой ВНО. Показано, что рейтинговые баллы сильно завышаются и позволяют получать проходной бал без достаточных для того знаний. Проанализированы причины, вызывающие несоответствие ВНО основной цели: успешное тестирование должно являться свидетельством не только знания предмета, но и умения применять эти знания на практике.

The statistical imitating model of external independent estimation of knowledge - EIE (analogue of the Russian unified state examination - USE) is offered in this paper. The model allows estimating level of conformity of the real knowledge of entrants and their rating points which are formed by system EIE. It is shown that rating points are strongly overestimated and allow receiving passing points without sufficient for this purpose knowledge.

The reasons causing noncompliance of a main EIE objective are analyzed: successful testing should proof not only knowledge of a subject, but also abilities to put this knowledge into practice.

Ключевые слова

Имитационная модель, компьютерное тестирование, внешнее независимое оценивание, рейтинг, технология тестирования.

Simulation model, computer testing, external independent estimation of knowledge, rating, testing technology.

Введение

Уже не первый год на Украине потенциальные абитуриенты должны пройти через внешнее независимое оценивание знаний - ВНО (аналог российского единого государственного экзамена - ЕГЭ). В результате каждый абитуриент получает некоторую цифру в интервале от 100 до 200, которую называют рейтингом и которая означает, что ... И вот тут, к сожалению, уместно только многоточие. Что означает рейтинг, организаторы ВНО до сих пор не только не обосновали, но даже и не объяснили (в этом смысле очень символично, что аббревиатура Внешнего Независимого Оценивания Знаний не содержит буквы «З»). До сих пор остаётся открытым вопрос, можно ли по величине рейтинга отобрать желающих и способных учиться по выбранной специальности? Приведу мнение бывшего директора Украинского центра оценивания качества образования (УЦОКО) И.Ликарчука: «...цель внешнего оценивания — не выявление способностей будущих студентов. Поэтому им и предлагает-

ся тест, отображающий их учебные достижения (?), а не тест на выявление интеллекта или способностей к обучению» (Зеркало недели, № 11 (791) 20—26 марта 2010, http://www.zn.ua/3000/3300/68875/). Учебные достижения отражает школьный аттестат, но не результаты ВНО. До сих пор ситуация с целью ВНО так и не прояснилась.

Если бы была уверенность, что величина рейтинга действительно оценивает уровень знаний абитуриентов, то можно было бы и не интересоваться технологией его получения. В конце концов, мало кто интересуется, как работает газовый счётчик, понимая, что цифры в его окошке показывают количество использованного газа в кубических метрах, а его работоспособность контролируется соответствующими органами, не зависящими от разработчиков и производителей.

Ситуация с ВНО иная. УЦОКО (http://testportal.gov.ua/) одновременно является идеологом, разработчиком, исполнителем и контролёром ВНО, то есть полная монополия на все функции.

Технология получения рейтингов абитуриентов достаточно хорошо известна по множеству публикаций и, прежде всего, из годовых отчётов УЦОКО. Несмотря на нескончаемый поток критических публикаций, неизвестные авторы ВНО уже который год отмалчиваются. В конце концов, и критики могут ошибаться, но тогда почему большинство новоявленных студентов не знает даже элементарной математики, которая на инженерных специальностях просто необходима?

К сожалению, большинство критики в адрес ВНО носит качественный характер, а нужен количественный. Например, чтобы проверить работоспособность газового счётчика, достаточно пропустить через него заранее известное количество газа и сравнить его с показаниями счётчика. Это - классика «поверки» любых приборов, которая сводится к сравнению с эталоном.

В принципе, можно было бы применить данный метод и для проверки ВНО, но очень трудоёмко. Для этого нужно подобрать несколько статистически достаточных эталонных массивов «абитуриентов» с заранее известными уровнями знаний. Понятно, что сформировать массив из не знающих предмета «абитуриентов» нетрудно. Но создать эталонный массив для хорошо знающих предмет и, хотя бы, ещё один с промежуточными знаниями - проблема.

Можно было бы поступить существенно проще. Допустим, что весь тест состоит из 56 совершенно одинаковых тестовых задний. Например, 56 раз надо ответить, чему равно 2^2 с возможными ответами: 2, 3, 4, 5. Если априори предположить, что все испытуемые эталонной группы знают, что 2*2=4 и номер правильного ответа во всех тестовых заданиях указан правильно, то очевидно, практически все испытуемые должны получить наивысший рейтинг на уровне 200. За исключением небольшого числа тех, кто допустил случайные ошибки при вводе ответов.

Допустим теперь, что во всех тестовых заданиях правильные ответы указаны неверно, но испытуемые об этом не знают. Очевидно, что рейтинг всей группы испытуемых в этом случае должен быть на уровне 100 (в соответствие с принятой ВНО шкалой 100-200). Если же испытуемые знали, что ответы указаны неверно, то станут просто угадывать, выбирая случайным образом один из четырёх предложенных вариантов. В этом случае приблизительно четверть ответов будут правильными и примерно четверть испытуемых доберётся до уровня 124 (проходной минимум), а некоторым удастся даже выше.

Наконец, только некоторую часть тестовых заданий можно снабдить неверными ответами при остальных правильных и проверить, как реагирует на это система ВНО.

Возможно, разработчики ВНО и делали что-то подобное, однако публикаций на эту тему нет, а есть только утверждения администрации УЦОКО в СМИ, что действующая система ВНО вполне справляется с задачей отбора способных учиться в

вузах. Организаторы ВНО тешат себя мыслью, что абитуриенты, прошедшие тестирование, успешно учатся в вузах.

Но вот свежий факт. Недавно решили проверить, насколько результаты ВНО по математике и физике соответствуют знаниям, достаточным для освоения специальности в области радиоэлектроники. Для этого первокурсникам предложили за 45 минут анонимно решить по одной несложной задаче по математике и физике в пределах школьной программы. Результаты удручающие: две трети студентов не смогли решить ни одной задачи и только 4 студента из 75 (5%) решили обе задачи. Эти же задачи предложили студентам третьего курса. Результаты почти совпадают. Спрашивается, как с такими исходными знаниями можно освоить программу вуза по радиоэлектронике? Отвечу однозначно - никак. Тем не менее, действительно, большинство студентов переходит с курса на курс и, в конце концов, получают диплом государственного образца о высшем образовании. Но это отдельная проблема, выходящая за рамки настоящей статьи.

Основная задача статьи - разобраться, что означает понятие «рейтинг», формируемого системой ВНО и, главное, как он связан с уровнем знаний абитуриентов. Отчёты УЦОКО позволяют понять, как происходит тестирование абитуриентов и дальнейшая обработка полученных результатов с конечной целью - формированию индивидуального рейтинга каждого абитуриента. Вся процедура тестирования состоит из трёх этапов: собственно тестирования с выборочными ответами из 4-х вариантов, перевода полученных результатов в шкалу 100-200 баллов и, наконец, вычислению рейтинга в этом же диапазоне. Перевод начальных баллов в интервал 100... 200 баллов задаётся в виде таблиц, причём для каждого предмета индивидуально (зачем?).

Для решения поставленной задачи использован метод статистического имитационного моделирования на базе хорошо известного пакета ЫМкеай (версия 14.0.0.163). Имитационная модель позволяет точнее и понятнее проследить все этапы подготовки рейтинга, тем более, что табличный пересчёт одних шкал в другие делает аналитический способ крайне затруднительным. МаЖеай же хорош тем, что большинство его операторов представлено в хорошо знакомой алгебраической форме и вполне могут быть понятны и гуманитариям.

Вариант 1. Средний априорный уровень абитуриентов

Для конкретности, используем данные отчёта УЦОКО за прошлый год по физике. Тест по физике состоял из 56 тестовых заданий. Результат ответа на каждое тестовое задание нуль или единица. Таким образом, если абитуриент ни разу не выбрал правильный ответ (из 4-х возможных), его тестовый балл будет равен нулю. Если же все ответы правильные, то максимум - 56 баллов. Перевод тестовых баллов в диапазон 100...200 баллов выполнялся по Таблице.1. В 2011 году по физике прошли ВНО 46240 абитуриентов.

Имитационная модель (ИМ) содержит несколько функций. Одна из основных -Abit(N,m,c) (1), которая формирует эталонный массив из N элементов, распределённых по усечённому на уровне 100 закону Райса. Величины m и с - среднее и среднеквадратичное отклонение соответственно нормальных распределений, определяющих закон Райса. При m=0 формируется распределение по усечённому закону Релея.

Таблица. 1 (файл TransPHYS. 11)

Тестовый бал Бал 100200 Тестовый бал Бал 100200 Тестовый бал Бал 100200 Тестовый бал Бал 100200

0 100.0 15 153.0 30 181.5 45 196.5

1 100.5 16 157.0 31 182.5 46 197.5

2 100.5 17 160.0 32 183.5 47 198.0

3 100.5 18 163.0 33 185.0 48 198.5

4 102.0 19 165.5 34 186.0 49 198.5

5 105.0 20 168.0 35 187.0 50 199.0

6 109.0 21 170.0 36 188.0 51 199.5

7 114.0 22 171.5 37 189.0 52 200.0

8 119.5 23 173.0 38 190.0 53 200.0

9 125.0 24 174.5 39 191.0 54 200.0

10 130.0 25 176.0 40 192.0 55 200.0

11 135.0 26 177.0 41 193.0

12 140.0 27 178.0 42 194.0

13 144.5 28 179.5 43 195.0

14 149.0 29 180.5 44 196.0

Abit(N ,гп, ст) :=

п ^ 2N

x1 ^ morm(n, 0, ст) x2 ^ morm(n ,m, ст)

i <---1

Ю J е 0..п

^ - Ь)2+И)2

if г. < 100 J

x ^ г.

1 J

break if i > N

(1)

Встроенная функция rnorm(n,m,c) формирует массив из п нормально распределённых чисел со средним m и среднеквадратичным с.

Величину х в рассматриваемой ИМ будем интерпретировать как априорный уровень оценок абитуриента по 100 бальной шкале. Моделирование начинается с формирования эталонного массива абитуриентов (2):

N := 50000 Количество абитуриентов

I := 0.. N -1 Порядковые номера

ст := 25 Мх := 15

х := ЛЪи(N,Мх,ст) Массив оценок по шкале 0...100

(2)

к

Рис. 1. Первые 50 элементов эталонного (априорного) массива оценок уровня

знаний.

(3)

Mx := mean(x) = 34 Среднее значение оценок по шкале 0...100 ax := stdev(x) = 17 Среднеквадратичное отклонение от Мх

Теперь нетрудно вычислить (4) и построить гистограмму эталонного массива (Рис.2).

m := 0.. 100 Количество интервалов гистограммы

inm := m Номер интервала (4)

hx := hist (in, x) Гистограмма массива х

Рис. 2. Гистограмма эталонных априорных оценок (баллов).

Естественно, сумма элементов гистограммы равна размеру эталонного массива №

£ Их = 5 х105 (5)

Для определения значений максимума и его положения используем функцию Nm(x):

Nm(x) : =

N ^ length (x) mx ^ maXx) for i e 0.. N - 1 mx ^ i if x = m

X)

mx

(6)

Nm(hx) =

1.152 x103 ^ 23

Величина и положение максимума hx

Следующая функция - Ball(x,Nt,No) (7) моделирует тестирование абитуриентов. Здесь х - эталонный массив абитуриентов с априорно заданными оценками по шкале 0.. .100 баллов, Nt - количество тестовых заданий, No - количество выборочных ответов тестового задания (для ВНО по физике принято Nt=56 и No=4).

Первый оператор этой функции N ^ lenght(x) определяет размер массива, то

есть количество тестируемых. В операторе цикла for i е 0...N — 1 подсчитывается количество правильных ответов s. Вероятность правильного ответа тем выше, чем выше априорная оценка тестируемого (s ^ s +1 if rnd(100) < x ).

Оператор s ^ s +1 if floor(rnd(No)) = 0 otherwise имитирует ситуацию, когда испытуемый наугад выбирает вариант ответа на вопрос тестового задания.

Ball(x,Nt,No) :=

N ^ length(x) for i е 0..N — 1

j — .Nt 0. є 1

s t s. + 1 if

i i

s t s + 1 if

i i

s t Nt — 1 if

(7)

Зададим количество тестовых заданий, вариантов ответов и выполним имитацию тестирования:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

N := 56 Количество тестовых заданий по физике

N0 := 4 Количество вариантов ответов Ь := Ball(x, М, N0)

Результат показан на рис. 3:

i

Рис. 3. Первые 50 элементов массива тестовых баллов.

Среднее и среднеквадратичное значения тестовых баллов соответственно равны:

МЬ := теап(Ь) = 28 Среднее значение тестовых баллов

МЬ = 51 Среднее значение по шкале 0...100 (8)

Среднеквадратичное отклонение

100

No

ab := stdev(b) = і

Теперь вычислим гистограмму тестовых баллов hb := hist (in, b) и построим

гистограмму тестовых баллов совместно с гистограммой эталонного массива оценок с одинаковыми масштабами по горизонтальной оси:

1П11. 1П11

N1

Рис. 4. Гистограммы эталонных оценок кхп и соответствующих тестовых баллов НЪп.

Среднее эталонных оценок по 100 бальной шкале, равно 34 (теап(х) = 34), а вот соответствующее среднее значение тестовых баллов существенно выше - 51 (8). Это увеличение возникает из-за того, что при тестировании с выборочными ответами вероятность угадывания ответа р = 1/N0, что при 4-х предлагаемых ответах довольно велика - 25%. Для сравнения на рис.5 показаны аналогичные гистограммы для тех же исходных данных, но при разных значениях количества выборочных ответов

т.

№ № №

Рис. 5. Гистограммы тестовых баллов при N0 = 2; 4; 8; 100.

Рассмотрим теперь перевод тестовых баллов в диапазон 100... 200, который для физики выполнялся по Таблице. 1 (напомним, для каждого предмета своя таблица). Данные этой таблицы введены в двумерный файл TransPHYS.11 (ради экономии места здесь его не приводим), который показан в виде графика на рис. 6, где одновременно изображено и линейное преобразование (8.а) в этот же диапазон

5„ := 100 + n •

100

Nt — 1

(8 а)

Рис. 6. Таблица 1 в виде графика шкал 100...200.

Довольно странный диапазон, при котором полное отсутствие знаний соответствует 100 баллам. Объясняется это тем, что в школах Украины принята шкала 0.. .12 баллов. Чтобы избежать путаницы, к шкале 0.100 добавили сотню. Нам это не грозит, а пользоваться удобнее шкалой 0.100, поэтому удалим из Таблицы 1 эту сотню (рис. 7):

Рис. 7. Таблица 1 в виде графика шкал 0.100.

Перевести тестовые баллы диапазона 0...М (N/=56) в диапазон 100.200 при нелинейном табличном преобразовании просто: Д := ТгатРИ¥Б1 1(4) 1, но удобнее,

повторю, диапазон 0.100, поэтому Д ;= ТтатРИУБ1 1(Ъ ) 1 -100, что на результат никак не влияет. Кроме того, для последующего сравнения, переведём тестовые баллы диапазона 0.М в диапазон 0.100 и линейно: Ь = 100.ь . Вычислим средние

'' N '

и среднеквадратичные значения для массивов Ь и В:

МЬ := шеап(Ь) = 50, аЬ := 5^еу(Ь) = 15

МД := шеап(Д) = 78, аД := 8ійеу(В) = 12

Среднее значение табличного преобразования существенно больше линейного, что хорошо заметно и на графиках рис. 8.

1GG

8G

Bl 6G

_|

Li 4G

J 2G

G

г

_П-

7

-гп_1

r-J

,-гЬ^

LfL

Т

-1_Г

ги

L

1G

2G

3G

4G

5G

Рис. 8. Первые 50 элементов массива В, шкала 0.100.

Вычислим гистограммы массивов L и B:

hL := hist (in, L) hB := hist (in, B)

(10)

Поскольку последовательности L и bt одинаковы с точностью до постоянного множителя, то и их гистограммы при одинаковом масштабе по горизонтали совершенно одинаковы. Вот почему на рис.9 гистограмма hb ' = histI 100in b I не показа: INt , )

на, поскольку она полностью совпадает с гистограммой hL := hist(in, L).

Рис. 9. Гистограммы эталонных оценок х и их оценки по шкале 0.100 для линейного Ь и нелинейного табличного В преобразований.

Положения максимумов сдвинуты в сторону увеличения оценок: 11152I

Nm(hx) =

29

(11)

Результат вполне ожидаемый, поскольку нелинейное табличное преобразование (рис.7) предполагает завышение оценок, кстати, совершенно не обоснованное (во всяком случае, в отчётах УЦОКО этого нет). Средние значения оценок (баллов по шкале 0.100) соответственно равны:

mean( x) = 34, mean(L) = 51, mean(B) = 78.

(12)

Таким образом, среднее значение эталонных оценок с 34 баллов увеличивается до 78 баллов, т.е. более чем в два раза.

G

Нули на гистограммах появляются при переходе от узкого к более широкому диапазону (от 0.55 перешли к 0.100). Но сумма значений каждой гистограммы должна, естественно, равняться заданному количеству абитуриентов N=50000. Это легко проверить:

Шкалу 100.200 в отчётах УЦОКО называют шкалой рейтингов. Термин происходит от английского «rating» — оценка, порядок, классификация. Понятие рейтинга довольно расплывчатое, но, чаще всего, предполагается ранжирование по какому либо параметру. Например, ведомость с экзаменационными оценками можно ранжировать по убыванию оценок, а номер студента в этом списке считать рейтингом. Понятно, что в одной ведомости в первой строке может стоять оценка «отлично», а в другой - «удовлетворительно», но рейтинги будут одинаковыми. Вообще говоря, не стоило бы акцентировать внимания на терминологии, если бы не одна странность.

Во все времена проведения ВНО в прессе сообщалось об уникальных абитуриентах, набравших по всем предметам (в которых принимали участие) максимальный рейтинг 200 баллов. Помнится, что даже президент страны (в то время В.Ющенко) принимал их у себя и чем-то награждал. В прошлом году по физике таких было четверо. Вместе с тем, пресса постоянно сообщала об ошибках в тестовых заданиях. Пусть даже их немного. Но достаточно всего одного тестового задания с ошибочным ответом, чтобы максимальный балл стал практически недостижимым. Для того, чтобы получить максимальный балл, надо ошибиться точно также. Но это маловероятно, ведь правильный ответ один, а ошибочных может быть множество. Правда, технология ВНО с четырьмя выборочными ответами, вероятность угадывания при однократной ошибке довольно большая - 1/4. Но при двукратной уже 1/16, а при трёхкратной - 1/64 и так далее. Таким образом, если предположить, что абитуриент тестировался по нескольким предметам, содержавшим в сумме только три ошибочных тестовых задания, то вероятность получить максимальный рейтинг равна всего 1/64 или 1,5%. Это совсем небольшая вероятность, поэтому очень уж сомнительными представляется наличие «абсолютных чемпионов» при проведении ВНО. К сожалению, организаторы ВНО и отчёты УЦОКО никак не комментируют этой странности.

Секрет раскрыл Альгирдас Забулионис, консультант Anglia Assessment Ltd (независимой компании, предоставляющей консультативные и тренинговые услуги в области оценивания) и USETI (Программы содействия независимому тестированию в Украине) в интервью газете «Зеркало недели» 24 мая 2008 года в №19. Он сказал буквально следующее, цитирую: «Чтобы получить 200 баллов, не обязательно ответить правильно на все вопросы, — нужно набрать больше баллов, чем другие. Если тест очень сложный, я решил правильно две трети, но никто не набрал больше меня, я получаю максимум баллов».

Теперь посмотрим внимательнее, о чём идёт речь в этой цитате. Это хорошо знакомая нормировка по максимуму. Для диапазона 100.200 рейтинг вычислим по формуле

а для диапазона 0.100, соответственно как

D

R := 1GG—. 1 В

Рассматриваемая модель эталонных оценок имеет тах(В) = 100, поэтому Д. := В , то есть нормировка по максимуму никак не влияет на результат. Можно подсчитать и количество максимальных баллов из всех N=50000 тестировавшихся (виртуально, конечно!). Для этого используем небольшую функцию:

Km(x) :=

N ^ length (X) xm^ maXx) n ^ G

for i є G..N - 1 n ^ n + 1 if X. :

xm

и в результате получаем

Km(B) = 215,

(14)

т.е. среди 50000 тестировавшихся 215 получили наивысший рейтинг в 100 баллов. Отличный результат! Отмечу, что в данной модели отсутствуют ошибочные тестовые задания и, кроме того, валидность теста, по определению, абсолютна.

n

Вариант 2. Низкий априорный уровень абитуриентов

Рассмотрим теперь эту же модель, но с худшими значениями массива эталонных оценок.

N := 50000 Количество абитуриентов

а := 5 Мх := 5 (15)

х := АЬН^,Мх, а) Массив уровня знаний в %

Сравните (2) и (15): если раньше было а := 25, Мх := 15, то теперь а := 5, Мх := 5 при прочих равных условиях.

Рис. 10. Первые 50 элементов массива эталонных оценок (красный цвет - текущая модель х, синий - прежняя х1).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Среднее значение текущих эталонных оценок теперь равно теап(х) = 8, а прежних -теап(хо) = 39, то есть почти в пять раз меньше.

Массив В имеет всего один максимум Кт(В) = 1 величиной тах(В) = 88 поэтому, в соответствии с (12), Я > В и теап(К) = 66 больше теап(В) = 58. Соот-

ветствующие гистограммы показаны на рис. 11. Напомню, гистограмма

hb • = hist I 100 in b \ не показана, поскольку она полностью совпадает с гистограм-

' I Nt ’ J

мой hL •= hist(in, L).

Рис. 11. Гистограммы эталонных оценок х и их оценки по шкале 0.100 для линейного Ь, нелинейного табличного В преобразований и рейтинга Я.

Положения максимумов по-прежнему сдвинуты в сторону увеличения оценок:

(49811 (5214 I ( 5214 I ( 5214 I (лел

Ит(кх) = 1 I, Ит(кЬ) =1 ^ I, Ит(кЕ) = 1 ^ I, Иш(кК) =1 ^ I. (16)

Средние значения оценок (шкала 0.100) соответственно равны:

теап(х) = 8, теап(Ь) = 31, теап(Е) = 58, теап(К) = 68. (17)

Таким образом, среднее значение эталонных оценок с 8 баллов увеличивается до 68 баллов, т.е. более чем в восемь раз!

Вариант 3. Очень низкий априорный уровень абитуриентов

Интересно представить результаты ВНО, если тестировались абитуриенты с очень низкими знаниями. Для этого сформируем соответствующий эталонный массив оценок:

N := 50000 Количество абитуриентов

а:= 1 Мх := 0

х := Abit(N,Мх,а) Массив оценок по шкале 0...100

Среднее значение этих оценок теап(х) = 1.3 , а среднеквадратичное отклонение от среднего stdev( х) = 0.7. Оценки очень низкие. Есть только один максимум Кт( х) = 1 величиной тах( х) = 5 (см. рис. 12).

Рис. 12. Первые 50 очень низких эталонных оценок.

Столь низкие эталонные оценки означают, что все ответы угадывались с вероятностью 1/N0 = 0.25 , поскольку = 5 < 25. Запускаем модель ВНО и получаем средние значения для различных оценок (18)

теап(х) = 1, теап(Ь) = 26, теап(Е) = 49, теап(К) = 61 (18)

и соответствующие гистограммы (рис.13):

30000

ЬХ1

ЬБп

20000

10000

^хпЛЯ:. 1.. Лй_лЛ_

20

40

60

П.П Ппп.

80

100

1пп

Рис. 13. Гистограммы очень низких эталонных оценок х и их оценки по шкале

0.100 для линейного Ь, нелинейного табличного В преобразований и рейтинга

Я.

Положения максимумов различных оценок сильно отличаются (19):

(23511 (60911 (60911 (60911 ,1ПЧ

Nm(kx) =1 I, Nm(кL) =1 ^ I, Nm(кЕ) =1 I, Nm(кR) =1 ^ I. (19)

Конечно, странно получается, что априорно средний балл равен 1, а тестирование дало результат в 61 балл.

0

0

Вариант 4. Средний априорный уровень абитуриентов соответствует отчёту УЦОКО

Сравним полученные на модели гистограммы с аналогичными гистограммами из отчёта УЦОКО за 2011 год по физике. Максимум гистограммы тестовых баллов (Рис.13-а) находится примерно над значением 13,5 баллов по шкале 0.55. Если привести к шкале 100.200 линейно, то получим: 100/55-13.5 + 100 «125 .

4000 3500 3000

0

1 2500

0

5. 2000

л

£ 1500

Л

1 1000

500 0

0

Кількість тестових балів

Рис. 13-а. Гистограмма тестовых баллов по физике (шкала 0.55) из отчёта

УЦОКО за 2011 год.

Обратимся теперь к гистограмме рейтингов на рис.13-б, где максимум находится между 150 и 180 баллами, примерно в середине этого диапазона, т.е. над 165. Таким образом - очевидное и существенное завышение оценок. И вот что интересно: положение максимума на рис.13-б и аналогичное положение максимума тестовых баллов (Ь) по шкале 0.100 баллов на рис.13, полностью совпадают - 25 баллов, что соответствует угадыванию при очень низких знаниях из Варианта-3 (18).

о

"2

2

X

и

X

X

С

■X

Л

С

2

Інтервали за шкалою 100-200 балів

Рис. 13-б. Гистограмма рейтинговых баллов по физике (шкала 100.200) из отчёта УЦОКО за 2011 год.

Положения максимума по шкале рейтингов на рис.13 находится над 60 баллами (19), аналогичный максимум на рис.13-б - над 65 баллами. Немного больше, т.е. средний балл эталонных оценок теап(х) = 1 ниже, чем средний балл реально тестировавшихся по физике.

Теперь подберём параметры модели таким образом, чтобы положения максимумов гистограмм модели и реального тестирования совпадали. Это достигается при

504

N := 50000 Количество абитуриентов

а := 3 Мх := 3.1

х := ЛЬН^,Мх,а) Массив оценок по шкале 0...100

Средний балл эталонных оценок теап(х) = 5 (напомню, по шкале 0.100), средний балл после тестирования по шкале рейтингов твап(К) = 64. Соответствующие положения максимумов гистограмм для этого варианта:

(7986^ (5663^1 (5663^1 (5663

Nm(hx) =1 I, Nm(hL) =1 ^ I, Nm(hB) =1 ^ I, Nm(hR) =1 ^

Хорошее совпадение гистограмм из отчёта УЦОКО и модели позволяют сделать вывод, что эталонный массив оценок адекватен реальным оценкам тестировавшихся по физике, средний балл которых равен 5, а не 64.

В конце августа этого года появился отчёт УЦОКО за 2012 год. Гистограммы тестовых и рейтинговых баллов по физике из этого отчёта приведены на рис. 13-в и рис.13-г соответственно. Они практически совпадают с аналогичными гистограммами из отчёта прошлого года.

Рис. 13-в. Гистограмма тестовых баллов по физике (шкала 0.55) из отчёта

УЦОКО за 2012 год.

Інтервали за шкалою 100-200 балів Рис. 13-г. Гистограмма рейтинговых баллов по физике (шкала 100.200) из отчёта УЦОКО за 2012 год.

Таким образом, никаких существенных изменений методики тестирования и оценки результатов за год не произошло. Ничем не оправданное завышение оценок осталось прежним.

Анализ

Для удобства дальнейшего рассмотрения по вертикальной оси гистограмм будем откладывать не количество попавших в заданный интервал абитуриентов, а частоту в процентах, например, гистограмму эталонных оценок преобразуем по формуле

Их

кхап ==Х^ .юс. (20)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ъ Их

Остальные гистограммы - аналогично (рис. 14).

50

Ьхс^о

ьь^зо

ЬБСп20

1.13 10

ЬЯс,

_г „

ЛіДіІГі-дІІ

ПI П Ппп„__

20

40

60

80

100

1%

Рис. 14. Гистограммы очень низких эталонных оценок х и их оценки по шкале

0.100 для Ь, В и Я. По вертикали отложена частота в процентах.

0

Подсчитаем теперь, скольким абитуриентам удалось преодолеть проходной балл РЬ в зависимости от способа подсчёта результатов тестирования очень низких эталонных оценок. Начнём с эталонных оценок:

100

РЬ := 25 хРЬ := У Нхсп = 0. (21)

п=РЬ

Аналогично и для линейного Ь преобразования баллов в диапазон 0.100:

100

РЬ := 25 ЬРЬ := У ЪЬс = 61,

п

п=РЬ

а также для В и Я. Результаты показаны в Таблице.2:

_______________________________________________________Таблица.2

mean( x) = 1.3, max( x) = 5, No = 4

Проходной балл, Pb+100 Преодолевшие Pb, %

x L B R

125 0 61 97 97

140 0 0 82 89

160 0 0 27 61

170 0 0 4 37

180 0 0 0 12

190 0 0 0 1

Максимальное значение эталонной оценки max(x) = 5, поэтому ни одному из N = 50000 значений не удалось превысить проходной балл (в Таблице.2, как это принято при ВНО, к Pb добавлена сотня, что никак не влияет на результат). Но вот за счёт угадывания при 4-х вариантных выборочных ответах (No := 4), уже 61% тестировавшихся преодолели проходной балл РЪ := 25. При использовании табличного нелинейного преобразования (см. Таб.1) и нормировки по максимуму (13) уже 97% ничего не знающих абитуриентов могут стать студентами. В этом году проходной бал по профильным предметам равен 140 баллам (РЪ := 40). Линейное преобразование L отсекло всех, но действующие преобразования ВНО пропустило более 80% абитуриентов, которые практически ничего не знают.

Кстати, на сайте www.lvtest.org.ua львовского регионального ЦОКО есть возможность в порядке подготовки проверить себя в режиме тренировочного on-line тестирования. В порядке эксперимента протестировался по незнакомому предмету пять раз, выбирая ответы случайным образом. Результат: три раза получил оценку выше проходного бала.

Результаты для эталонных оценок из Варианта 1 (2) показаны в Таблице 3. Средний балл этой эталонной последовательности еле дотягивает до привычной тройки с минусом, но среди 50000 тестировавшихся есть одна максимальная оценка 100. Поэтому рейтинги B и R одинаковы. Хорошо видно, что увеличение значения проходного бала мало что даёт. Например, при проходном бале 140 (РЪ := 40) в эталонной последовательности только 34% имеют более высокий балл. Тестовые баллы дают результат в два раза больший - 74%, рейтинг уже в три раза - 99%.

Некоторые вузы по профилирующим предметам установили проходной бал на уровне 170. Тут завышение рейтинга уже не в три, а в 20 раз (82: 4 « 20)!

Таблица. 3

теап(х) = 34, тах(х) = 100, N0 = 4

Проходной балл, РЬ+100 Преодолевшие РЪ, %

X Ь В Я

125 65 38 100 100

140 34 74 99 99

160 9 26 94 94

170 4 10 82 82

180 1 4 45 45

190 0 1 14 15

Наконец, рассмотрим эталонную последовательность с высоким средним балом теап(х) = 68. Возможно, такой эталон можно использовать для моделирования выпускников некоторых физико-математических школ. Результаты показаны в Таблице 4.

Как видите, практически все выпускники преодолели порог 170, хотя и с завышением эталонных оценок на этом уровне в два раза.

Все полученные результаты свидетельствуют об очень сильном завышении оценок. Особенно недопустимо преодоление проходного балла при полном отсутствии знаний (см. Таб.2).

Таблица. 4

теап(х) = 68, тах(х) = 100, N0 = 4

Проходной балл, РЬ+100 Преодолевшие РЪ, %

X Ь В Я

125 98 100 100 100

140 91 98 100 100

160 68 84 100 100

170 50 66 99 99

180 30 46 93 93

190 13 20 73 73

Исправить ситуацию можно путём увеличения количества предлагаемых ответов (Рис.5). Например, для N0 = 8 результаты моделирования показаны в Таб.5, которые лучше, чем при N0 = 4 . Во всяком случае, проходной балл 140 преодолело уже не 89%, а только 22% абитуриентов с практически нулевыми знаниями.

Конечно, подготовить тестовые задания с N0 = 8 и сложно, и трудоёмко, да и не даёт существенного улучшения ситуации.

Сделаем, на первый взгляд, абсурдный расчёт для N0 = 100 (детальнее об этом в разделе Заключение), результаты которого должны удовлетворить поставленную задачу конкурсного заслона от абитуриентов без знаний (см. Таб.6).

Таблица.5

теап(х) = 1.3, тах(х) = 5, N0 = 8

Проходной балл, РЬ+100 Преодолевшие РЪ, %

X Ь В Я

125 0 2 35 44

140 0 0 7 22

160 0 0 0 3

170 0 0 0 2

180 0 0 0 0

190 0 0 0 0

Аналогичное моделирование проведём для абитуриентов с высокими эталонными оценками (Таб.7) и сравним с данными Таб.4. Тестовые баллы Ь (напомню, это линейное преобразование диапазона 0.55 в диапазон 0.100) при N0 = 4 (Таб.4) завышены за счёт достаточно высокой вероятности угадывания. Вероятность угадывания при N0 = 100 в 40 раз меньше, поэтому значения в столбцах х и Ь в Таб.7 практически совпадают. Нелинейное табличное преобразование В, конечно, по-прежнему завышает оценки, а данные В и Я совпадают, поскольку шах(х) = 100.

Таблица. 6

теап(х) = 1.3, шах( х) = 5, N0 = 100

Проходной балл, РЬ+100 Преодолевшие РЬ, %

X ь в я

125 0 0 0 1

140 0 0 0 0

160 0 0 0 0

170 0 0 0 0

180 0 0 0 0

190 0 0 0 0

Таблица.7

теап(х) = 68, шах( х) = 100, N0 = 100

Проходной балл, РЬ+100 Преодолевшие РЬ, %

X ь в я

125 98 98 99 99

140 91 91 99 99

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

160 68 68 96 96

170 49 50 93 93

180 31 33 80 80

190 14 15 56 56

В этом году таблицу перевода тестовых баллов в рейтинговую шкалу 100.200 немного изменили (Рис.15). Примерно до 15 баллов есть небольшое увеличение, а дальше - столь же небольшое уменьшение. Соответственно и результаты отличаются несущественно: сравните таблицы 2 и 8.

Таблица. 8

теап(х) = 1.3, шах( х) = 5, N0 = 4

Проходной балл, РЬ+100 Преодолевшие РЬ, %

X ь в я

125 0 61 97 99

140 0 0 82 94

160 0 0 11 61

170 0 0 0 27

180 0 0 0 7

190 0 0 0 0

Рис. 15. Графики перевода тестовых баллов в шкалу 0.100 в 2011 (красный цвет) и 2012 годах (синий цвет).

Заключение

• Система обработки данных ВНО позволяет получить проходной балл практически без знаний (см. Таб.2).

• Основной вклад в завышение оценок вносит нелинейное табличное преобразование тестовых баллов в шкалу рейтингов (Таб.1 и Таб.2).

• Дополнительный существенный вклад в завышение оценок вносит нормировка по максимуму (формула (13) и Таб.2). Хотя отчёты УЦОКО не содержат описания этой процедуры, но не доверять заверению консультанта ^ЕТ1 А.Забулиониса нет оснований (ШЕТ1 - Программа содействия независимому тестированию в Украине).

• Избавиться от завышения оценок при тестировании с выборочными ответами принципиально невозможно - это методическая погрешность. Но нелинейное табличное преобразование и нормировка по максимуму введены искусственно и их необходимо исключить, как не соответствующие цели ВНО. Не искажают тестовые баллы только линейное преобразование (8.а).

Таблицы 6 и 7 содержат результаты для N0 = 100, что реализовать при бумажном ВНО совершенно невозможно. Это очевидно. Бумажное тестирование - это тестирование с использованием бумажных бланков. Основной отличительный признак бумажного тестирования - результаты становятся известными испытуемому со значительной задержкой - до нескольких часов, дней или даже недель. Независимо от того, как производится анализ ответов - человеком или компьютером после сканирования - бумажное тестирование остаётся бумажным [1].

Компьютер для безбумажного тестирования - это фактически электронный задачник, который сначала формулирует и выводит на экран текст задачи, потом сам решает её и, дождавшись ответа тестируемого, сравнивает его с собственным решением.

Тестовое задание формируется компьютером непосредственно в момент тестирования. Для этого используется библиотека тестов, охватывающая все необходимые разделы по предмету. По точным дисциплинам, например, математике, физике, химии, информатике - целесообразно использовать знакомые школьникам задачни-

ки, данные для которых формируются динамически с использованием датчиков случайных чисел. Задачи могут быть самые разнообразные. Компьютер сам решает каждую задачу. Исходные данные для задачи каждый раз формируются заново. Поэтому записывать ответ не имеет смысла. Можно лишь запомнить ход и способ решения задачи, что, собственно говоря, и требуется при обучении. А успешное тестирование является свидетельством не только знания теории, но и умения применять эти знания на практике.

Главнейший признак компьютерного тестирования состоит в том, что оценка по каждому вопросу или задаче тестового задания появляется на экране сразу же после ввода ответа. Как правило, большинство задач по естественным дисциплинам предполагают цифровой ответ. В этом случае оценка по шкале 0.100 баллов вычисляется по формуле:

где А - ответ тестируемого, В - правильный ответ.

Таким образом, оценка зависит от погрешности вычислений. Так реализуется вариант No = 100. Результирующая оценка по всему тесту также выводится на экран без задержки после окончания тестирования. Никакого многодневного ожидания и никакой возможности фальсифицировать результат [1,2,3]. Результаты моделирования соответствуют Таб.6 и 7, но без столбцов B и R, поскольку ни нелинейное, ни рейтинговое преобразования шкал не используются, что исключает искусственное завышение оценок.

В отдельных случаях система позволяет использовать и другие формы ответов, например, выборочный. Но и в этом случае используются специальные приемы для исключения возможности применять шпаргалки [4].

Действующая сейчас система ВНО использует синхронную одновариантную бумажную технологию [1]. Асинхронная многовариантная безбумажная компьютерная технология ВНО отличается неоспоримыми преимуществами [1]:

1. Не требуется в строжайшей тайне сохранять содержание библиотеки тестовых заданий (задач). Отпадает необходимость принимать специальные меры по обеспечению секретности при подготовке тестов, их тиражировании, доставке в пункты тестирования и при самом тестировании.

2. Персоналу пунктов тестирования уже не придётся в поте лица работать всего несколько дней в году, как при одновариантном синхронном тестировании, поскольку исчезает необходимость проводить тестирование в один день и час во всей стране. Это большое преимущество многовариантного тестирования. Тестировать можно по расписанию, равномерно в течение всего года, что снимает ажиотаж вокруг ВНО, возникающий сейчас постоянно.

3. Можно предоставить школьникам возможность для тренировок. Библиотека тестов открыта, поэтому компакт-диски с тестирующей программой по предметам могут и должны быть в свободной продаже. С этой системой можно работать на любом компьютере и без подключения к сети и предварительной установки. Тренировочное тестирование на локальной системе ничем не отличается от реального официального тестирования, позволяет основательно подготовиться по всему курсу и избежать стрессов при реальном тестировании.

4. Для официального документируемого тестирования школьник должен предварительно зарегистрироваться и записаться в очередь на подходящий день и час. Весь процесс тестирования и результаты протоколируются в закодированной форме и запоминаются компьютером в небольшом массиве (примерно 50 Кб), который в режиме ON-LINE или по электронной почте пересылается в УЦОКО. Подделка и коррекция этого файла невозможна. В случае необходимости зашифрованные протоколы можно расшифровать и распечатать только с помощью специальной программы.

Первое тестирование - бесплатно. Последующие - за установленную заранее плату, возможно по прогрессивной шкале.

5. Большим недостатком одновариантного бумажного тестирования является то, что о результатах тестирования абитуриент узнаёт не сразу, а через месяц или даже более. Это тоже является поводом для сомнений в объективности. Компьютерное тестирование позволяет немедленно анализировать ответы абитуриента и выводить на экран как оценки за каждое тестовое задание, так и суммарную оценку за весь тест. Одновременно обеспечивается фиксация содержания и процесса тестирования каждого абитуриента в надёжно закодированной форме. Результаты тестирования открыты для просмотра, но абсолютно недоступны для административной или любой иной коррекции.

6. Расчёты показывают, что расходы на компьютерное ВНО существенно ниже. И это без учёта расходов для тиражирования тетрадей с тестовыми заданиями, специальных средств защиты и доставки этих тетрадей в пункты тестирования, сканирования более десятка тонн бланков с ответами. С учётом этого стоимость компьютерного ВНО будет в несколько раз меньше.

Создавать какую-либо специальную сеть для компьютерного ВНО не требуется. Пунктам тестирования достаточно иметь обычное подключение к Интернету с возможностью соединения с УЦОКО или региональными ЦОКО в ON-LINE режиме или, хотя бы, обмениваться с ними электронной почтой. Впрочем, для выполнения тестирования можно использовать компьютеры, даже не подключенные к сети Интернет. Это вызовет лишь небольшие неудобства. Не так уж сложно и накладно оснастить региональные пункты тестирования компьютерными классами. Учитывая, что пик желающих пройти тестирование приходится на весну и лето, можно использовать и возможности университетов страны, большинство из которых имеют не один компьютерный класс и в летний период они загружены слабо.

Компьютерное ВНО позволяет выйти за пределы задач с выборочными ответами и не ограничивает возможностей создания качественных интеллектуальных программ [1,4]. Может показаться, что «интеллектуальное» компьютерное тестирование не более, чем погоня за журавлём в небе. Это не так. Более пятнадцати лет по нескольким предметам экзамены у студентов принимала компьютерная система. Без участия преподавателя. Система разработана так, что не требует специальных навыков работы на компьютере. Даже школьники, которые впервые сели за компьютер, успешно осваивали технику тестирования буквально за несколько минут. Работа с ней не сложнее, чем с компьютерными играми, с которыми большинство школьников осваиваются и управляются куда лучше своих родителей.

Кстати, эта система создана, разработана и внедрена в реальный учебный процесс без какой-либо финансовой поддержки. Материалы по ней переданы директору УЦОКО на совещании по организации ВНО в Министерстве образования и науки ещё 29.11.2005. Реакции не последовало.

Литература

1. Оганесян А., Казимира И. Технология тестирования - за и против. // Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2008 - V.11. - №1 - С.332-345 - ISSN 14364522. - P.332- 345. http://ifets.ieee.org/russian/depository/v11 i1/html/6.htm

2. Оганесян А. Г. Дистанционное обучение программированное. // Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2003 - V.6 - №2 - С.84-94 - ISSN 14364522 . http://ifets.ieee.org/russian/depository/v6 i2/html/2.html

3. Оганесян А.Г. Опыт компьютерного контроля знаний. // Москва: «Дистанционное образование» - 1999 - № 6 - С.30-35. Http://db.informika.ru/do/org do

4. Оганесян А. Г. Тестирование или экзамен на компьютере? // Международный электронный журнал "Образовательные технологии и общество (Educational Technology & Society)" - 2010 - V.3 - №1, - C.264-280. http://ifets.ieee.org/russian/periodical/V 131 2010EE.html.

i Надоели баннеры? Вы всегда можете отключить рекламу.