Определение факторов, оказывающих наибольшее влияние при оценке тестовых материалов на этапе разработки теста

Иванов М.В.

М.В. Иванов,

аспирант кафедры АПП

Успех создания теста во многом зависит от качества начального тестового материала, которое обеспечивается правильным планированием содержания в спецификации теста и умением разработчика корректно реализовать этот план при разработке задания теста. Разработка заданий сопровождается отображением содержания дисциплины в содержании теста посредством выделения укрупненных единиц знаний.

Обычно автор теста стремится, часто неосознанно, сделать это отображение глубже и полнее. Расширение числа тем и разделов ведет к увеличению длины теста, что рационально только до определенных разумных пределов. Поэтому при создании теста ставится задача отобразить самое главное. Повышению полноты отображения, а также достижению ряда других необходимых характеристик способствует в немалой степени экспертиза качества содержания теста [5].

Оценка качества содержания теста обычно проводится по определенной методике независимыми экспертами, не участвовавшими в разработке теста. Как правило, число экспертов составляет не менее трех человек по каждому тесту.

По принятой в отечественной и зарубежной научной литературе [1, 2] классификации выделяют четыре группы тестовых заданий: открытой формы, закрытой формы, на упорядочение, на соответствие. Данное распределение организовано по признаку тех действий, которые в процессе формирования истинных высказываний осуществляют испытуемые.

Открытая форма имеет вид неполного утверждения, в котором отсутствует один элемент. В открытой форме тестовых заданий от испытуемого требуется получить конкретный ответ - это может быть слово (словосочетание, состоящее не более чем из двух слов) или число.

Закрытая форма тестовых заданий содержит неполное утверждение с одной вакансией и множеством элементов, один или несколько из которых являются истинными. В данной форме тестовых заданий от испытуемого требуется выбор правильного ответа/ответов из числа предложенных.

Тестовые задания на соответствие имеют вид двух групп элементов. Основная задача, которая стоит перед испытуемым - установить правильное соответствие, то есть выбрать из двух приведенных множеств объектов истинные пары. Испытуемый связывает каждый элемент первой группы с одним или несколькими элементами из второй группы.

Тестовые задания на упорядочение содержат множество неупорядоченных элементов, между которыми необходимо установить соответствующий порядок. Заданиями такого типа хорошо проверять знание алгоритмов действий, технологических приемов, логики рассуждений и тому подобное. С помощью этих заданий легко проверять знание и понимание испытуемыми формулировок определений, понятий, терминов, путем конструирования их из отдельных слов, символов, графических элементов.

Каждая форма заданий имеет свои достоинства и недостатки, свою сферу применения. Выбор формы тестовых заданий определяется спецификой контролируемого содержания и целями создания теста. Разработка тестовых заданий проводится сообразно стандартизованным требованиям, содержание которых зависит от специфики тестовой формы.

Для обеспечения качества тестовых заданий в процессе их разработки необходимо учитывать технологические и дидактические требования [3].

К основным технологическим требованиям относят:

- кратность формулировок;

- валидность;

- надежность;

- дифференцированность и чувствительность (задания должны измерять конкретные знания);

- дискриминантность для данного контингента испытуемых;

- пригодность для использования с помощью компьютерных технологий.

К дидактическим требованиям относятся:

- четкость и логичность изложения, семантическая осмысленность заданий;

- содержание тестового задания должно отражать важную, а не тривиальную часть учебной дисциплины, области знания;

- правильный ответ не должен быть длиннее или короче и точнее неправильных ответов;

- в основе вопроса и правильного ответа не должны использоваться общие элементы;

- исключение специфических слов - определений;

- отсутствие двусмысленностей и тавтологий, противоречивых утверждений.

Наличие разнообразных компонентов в содержании тестовых материалов тесно связано с предметной областью, для которой они разрабатываются. Так, для одних специальностей, например, гуманитарного профиля преобладающим компонентом выступает текст, в то время как для других - для специальностей технического профиля - этими компонентами может являться не только текст, но и рисунки, графики, формулы, специальные математические символы и прочее. Анализ образовательных ресурсов сети Интернет показывает, что в настоящее время основной составляющей содержания тестовых материалов независимо от особенностей предметных областей является текст (рис. 1) [6].

1. Текст и статическая графика (9%);

2. Текст и динамическая графика (4%);

3. Текст и звук (2%);

4. Текст, статическая графика и звук (0,6%);

5. Текст, динамическая графика и звук (0,4%);

6. Текст (84%).

Рис. 1. Соотношение видов компонентов в содержании тестовых материалов

При оценке трудоемкости разработки тестовых материалов помимо их общего количества учитывается и сложность формулировок. В зависимости от пропорции используемых в содержании тестовых материалов вставных объектов в виде статической и динамической графики выделяют следующие уровни сложности формулировок тестовых вопросов:

- легкий формулировки - 100% текста;

- средние формулировки - 75% текста и 25% объектов статической или динамической графики;

- трудные формулировки - 50% текста и 50% объема статической или динамической графики;

- очень трудные формулировки - менее 50% текста и более 50% объектов статической или динамической графики.

На рис. 2 показана сравнительная гистограмма оценки количества времени, которое затрачивается авторами разного уровня владения компьютерными технологиями при подготовке десяти тестовых вопросов различного уровня сложности формулировок [7].

Рис. 2. Время, затраченное авторами на подготовку тестовых материалов с использованием компьютерной технологии

Как видно из рис. 2, время, затрачиваемое авторами на подготовку тестовых материалов, с увеличением формулировок тестовых заданий (ТЗ) возрастает в геометрической прогрессии. Включение в формулировки тестовых заданий графических и мультимедийных средств увеличивают время, затрачиваемое на создание тестовых вопросов, с другой стороны, данные элементы позволяют значительно повысить уровень восприятия содержания тестовых материалов у испытуемых в процессе тестирования, и как следствие, являются одними из факторов, которые отвечают за качество самих тестовых материалов.

Оценка тестовых материалов зависит от их читабельности. Читабельность тестовых материалов можно рассматривать, с одной стороны, как комплексный показатель качества, характеризующий технические свойства составления формулировок тестовых заданий (длина предложения, длина слова, количество вариантов ответа и другие), влияющие на легкость их воспроизведения испытуемыми в процессе тестирования. С другой стороны, читабельность в совокупности с другими свойствами, характеризующими, например, тематическое соответствие тестовых материалов, их предметную чистоту, тематический охват и другое, может являться составным компонентом при априорной оценке трудности формулировок тестовых заданий, не только в отношении технических характеристик, но уже и в отношении их смыслового содержания.

Для определения факторов, оказывающих наибольшее влияние при оценке тестовых материалов на этапе разработки теста был применен метод экспертных оценок.

В результате проведенного опроса ведущих специалистов «Гарант-Университет» была сформулирована номенклатура из 8 единичных показателей качества:

Х — общее количество вариантов ответов;

Х2 — общее количество дистракторов (неверных ответов);

Х3 — общее количество слов;

Х4 — количество знаков препинания;

Х5 — количество иностранных символов (англ., греч. и т. п.);

Х — количество математических символов;

6 '

Х — количество формул;

Х8 — количество графических элементов.

В экспертном опросе принимали участие 7 экспертов, т. е. соблюдалось условие согласно ГОСТ 23.554.1-79, по которому количество экспертов должно быть не менее 5 человек [4].

Экспертам было предложено проранжировать показатели качества, при этом каждый эксперт присваивал определенный ранг в соответствии с выраженностью признака. Так, ранг 1 получал наиболее важный фактор из общего п. Ранг 2 — следующий по важности, ранг п — наименее важный. Результаты ранжирования приведены в табл. 1.

Таблица 1

Матрица результатов опроса экспертов

Шифр эксперта Ранговые оценки S 1 T. 1

X X X X X X X X

1 1 2 3 8 4 7 6 5 36 -

2 1 3 2 7 4 8 6 5 36 -

3 1 2,5 2,5 8 5 7 4 6 36 0,5

Окончание табл. 1

Шифр эксперта Ранговые оценки S 1 T. 1

X X X X X X X X

4 1 2 3 7 6 8 5 4 36 -

5 1,5 1,5 3 8 4 7 6 5 36 0,5

6 2 1 3 8 5 7 6 4 36 -

7 1 2 3 7 4 8 6 5 36 -

S 8,5 14 19,5 53 32 52 39 34 252 1

mn - S 47,5 42 36,5 3 24 4 17 22

K 1 0,242 0,214 0,187 0,015 0,122 0,02 0,087 0,113 1,0

K 0,377 0,333 0,29 1,0

s-S 1 -23 -17,5 -12 21,5 0,5 20,5 7,5 2,5

(S- S)2 529 306,25 144 462,25 0,25 420,25 56,25 6,25 1925

В указанной таблице оценку связи выполняют по выражению

1 N

Т=-Е (к-к), (1)

12 к=1

где N - общее число связей (групп одинаковых рангов), данных /-м экспертом (к = 1, Л), к - длина к-й связи.

Сумма рангов, присвоенных группой экспертов у-му фактору, определяется по формуле

т

= ЕЯу (2)

/=1

где Я, - ранговые оценки фактора, данных экспертами.

К. - коэффициент значимости, определяется по формуле:

mn-S:

К = ..... у (3)

у~0,5тг(п-1)' (3)

При выделении из п факторов п0 наиболее значимых факто-1

ров, для которых К, >—, рассчитывались коэффициенты значимости К„:

1 п у

тп-Б,

К =-п— (4)

тпп -ЕБу

,=1

Наибольшее внимание разработчик тестовых материалов должен уделить следующим факторам: Х1 - общее количество вариантов ответов; Х2 - общее количество дистракторов и Х3 - общее количество слов.

Для проверки согласованности суждений вычисляется коэффициент конкордации (согласия) Ь

z (S -S)2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

w=

j=i

1 2 3 т —m (n -n) -mZ T 12 j=i

= 0,939,

(5)

(6)

где Б - средняя сумма рангов:

- 1 п

Б = - Т.Б;.

П=1

Проверка значимости коэффициента конкордации производится на основе критерия Пирсона %2:

х2 = Wrrin-1) = 46,01.

(7)

При этом %2азЫ(а, и) = 14,1, где а - уровень значимости (а = =0,05); и = п - 1 = 7 - число степеней свободы.

Так как %2 >у^аЫ< то есть 46,01 > 14,1 - с вероятностью 95% можно утверждать, что суждения экспертов являются согласованными по всей совокупности рассматриваемых параметров.

Гистограмма, отражающая результаты ранжирования, представлена на рис. 3.

kJO-O.125

l.ll

о XI Х2 ХЗ Х4 Х5 Х6 Х7 Х8

XI - общее количество вариантов ответов;

Х2 - общее количество дистракторов (неверных ответов);

ХЗ - общее количество слов;

Х4 - количество знаков препинания;

Х5 - количество иностранных символов (англ, греч. и т.п.); Х6 - количество математических символов; Х7 - количество формул; Х8 - количество графических элементов.

Рис. 3. Гистограмма, отражающая результаты ранжирования факторов, оказывающих наибольшее влияние при оценке тестовых материалов на этапе разработки теста

Таким образом, в результате проведенного экспертного опроса были определены факторы, оказывающие наибольшее влияние при оценке тестовых материалов на этапе разработки теста. Данными факторами являются следующие: общее количество вариантов ответов, общее количество дистракторов и общее количество слов. В соответствии с этим эксперты, оценивающие тестовые материалы, должны уделить особое внимание перечисленным факторам для обеспечения качества тестовых материалов.

Библиографический список

1. Аванесов В.С. Композиция тестовых заданий / В.С. Аване-сов. - М. : Ассоциация инженеров-педагогов, 1996. - 218 с.

2. Звонников В.И. Современные средства оценивания результатов обучения / В.И. Звонников. - М. : Издательский центр «Академия», 2007. - 224 с.

3. Майонов А.Н. Теория и практика создания тестов для системы образования / А.Н. Майонов. - М. : Интеллект-центр, 2001. - 296 с.

4. ОрловА.И. Экспертные оценки / А.И. Орлов // Заводская лаборатория. - 1996. - № 1. - С. 54-60.

5. Челышкова М.Б. Теория и практика конструирования педагогических тестов / М.Б. Челышкова. - М. : Логос, 2002. - 432 с.

6. Контрольные измерительные материалы / ФИПИ. URL: http://www.fipi.ru/view/sections/211/docs (дата обращения: 27.11.2010).

7. Мультимедиа в образовании: контекст информатизации / Информационно-коммуникационные технологии в образовании. URL: http://www.ict.edu.ru/ft/006209/mmo-inf.pdf (дата обращения: 26.11.2010).

Похожие темы научных работ по наукам об образовании , автор научной работы — Иванов М.В.

Текст научной работы на тему «Определение факторов, оказывающих наибольшее влияние при оценке тестовых материалов на этапе разработки теста»