Научная статья на тему 'ПРОБЛЕМА ВАЛИДНОСТИ ПСИХОЛОГИЧЕСКИХ ТЕСТОВ'

ПРОБЛЕМА ВАЛИДНОСТИ ПСИХОЛОГИЧЕСКИХ ТЕСТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
841
86
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВАЛИДНОСТЬ / ТЕСТ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Байкова Елена Андреевна

В статье приведён анализ отечественной и зарубежной литературы. Проведённый анализ показывает, что для валидализации экспериментального исследования необходимым является обеспечение шести ос- новных видов валидности

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ПРОБЛЕМА ВАЛИДНОСТИ ПСИХОЛОГИЧЕСКИХ ТЕСТОВ»

_ПРОБЛЕМА ВАЛИДНОСТИ ПСИХОЛОГИЧЕСКИХ ТЕСТОВ

Байкова Елена Андреевна

аспирант

Московский Городской Психолого-Педагогический Университет

г. Москва

THE VALIDITY OF PSYCHOLOGICAL TESTS

Baykov Elena Andreevna, Graduate Moscow City Psychological And Pedagogical University, Moscow АННОТАЦИЯ

В статье приведён анализ отечественной и зарубежной литературы. Проведённый анализ показывает, что для валидализации экспериментального исследования необходимым является обеспечение шести основных видов валидности.

Ключевые слова: валидность; тест. ABSTRACT

The article presents the analysis of domestic and foreign literature. The analysis shows that for volitalization experimental research is necessary to provide six major types of validity. Keywords: validity; test.

Как известно, эксперимент в прикладных науках остается одним из основных методов исследования, а качество результатов, полученных опытным путём, определяет дальнейшее теоретическое развитие и практическое применение этих областей знания. Качественным может быть только такой эксперимент, который обеспечивает получение истинных данных о сущности объекта.

Сбор и интерпретация информации о предмете являются основными этапами прикладного исследования, в том числе тестирования. В процессе его проведения возникают ошибки измерения: случайные и систематические. Их возможными источниками могут быть: сам человек, его утомляемость, забывчивость; среда, влияющая на испытуемого; методики и процедуры исследования; сами исследователи и т.д. Путём стандартизации измерения можно избежать систематических ошибок или, по крайней мере, их контролировать. Случайные ошибки не контролируются. Как отмечает Я. тер Лаак, «в той мере, в какой можно учесть или устранить эти факторы, они не являются источниками «ненадежности» теста, но всегда остаются иные, неконтролируемые, ошибки» [2].

По его мнению, в эмпирических исследованиях «понятие «надежность» показывает степень свободы результатов тестирования от ошибок измерения, а также степень согласованности и повторяемости полученных результатов» [2]. В теоретических моделях не существуют неконтролируемые, случайные ошибки. Надежность теста характеризуется точностью как ошибкой измерения и однородностью как коэффициентом надежности эмпирического исследования. Традиционно под коэффициентом надежности понимают корреляционный коэффициент двух рядов результатов тестирования, полученных различными способами. Коэффициенты надежности теста можно рассматривать в нескольких аспектах.

Валидность - это одно их психометрических свойств любого научнообоснованного психологического теста. В наиболее обобщенном виде валидность методики указывает насколько хорошо тест измеряет то, для чего он предназначен. Валидность определяется как комплекс сведений о том, относительно каких

групп психологических свойств личности могут быть сделаны выводы, а также о степени их обоснованности на основании конкретных тестовых оценок или других форм оценивания.

Очевидно, что невозможно получить валидные результаты эксперимента, используя невалидный инструментарий. Использование валидного инструмента в эксперименте является необходимым условием, обеспечивающим валидность экспериментальных выводов. Проблемы качества тестового инструментария освящены в работах известных отечественных и зарубежных ученых (А. Анастази, В.А. Дюка [1], К.Ин-генкампа, А.С. Казаринова, А.А. Мирошниченко, А.Н. Майорова, Д. Мангейма, Р. Рича, Ю.М. Неймана, В.А. Хлебникова, М.Б. Челышковой и др.). Тест используется как инструмент эксперимента наряду с наблюдением, анкетами и т. п. Валидность теста - это основная его характеристика в смысле адекватности полученных с его помощью результатов тестирования объекту исследования. По мнению В. А. Дюка, «в отличие от надежности валидностъ - мера соответствия тестовых оценок представлениям о сущности свойств или их роли в той или иной деятельности» [1].

В определении утверждается, как я полагаю, возможность двойного представления понятия валидно-сти теста.

Первый аспект рассмотрения валидности теста как адекватности результатов тестирования критерию истинности основан на принципе функциональности. Валидность теста здесь предъявляется как его способность манифестировать социально значимые результаты или, другими словами, соответствовать социально значимым нормам. Прогностическая валидность понимается как соответствие эмпирических данных тестирования внутреннему критерию, норме - нормальному закону распределения статистических показателей измеряемой характеристики - и выступает в роли эмпирической или критериальной валидности.

Второй аспект рассмотрения валидности теста основан на критерии когеренции. Валидность понимается как соответствие тестовых результатов теоретическому конструкту, который создается как описание объекта исследования, заданного определенными

принципами той или иной современной научной теории. Определение прогностической валидности теста основывается на сравнении тестовых и других заведомо валидных эмпирических результатах измерений того же самого объекта как теоретического конструкта.

Из этого следует, что измерение различными способами объекта как общего конструкта, с одной стороны, позволяет определить «эталонные» его результаты и принять их за критерий тестирования, ввиду их заведомой валидности как адекватности скрытым от наблюдения свойствам объекта. С другой стороны, критериальная валидность эмпирически подтверждает внутреннюю связь между результатами валидизируе-мого и «эталонного» тестирования, но не доказывает ее. Доказательством связи латентных характеристик объекта как конструкта с тестовыми результатами измерения будет установление внутренней валидно-сти последних.

Таким образом, выбор опосредованного внешнего или внутреннего критерия для определения прогностической валидности не является существенным, но он связан со способом доказательства адекватности результатов тестирования, которое, в свою очередь, основано либо на критерии когеренции, либо на критерии функциональности. Нормативно-ориентированные и критериально-ориентированные тесты различаются в аспекте интерпретации понимания истинности результатов измерения, полученных в зависимости от цели тестирования и выбранного критерия. К сожалению, в целом ряде современных работ по педагогическому тестированию нет четкого различения данных видов тестов в зависимости от критерия истинности, выбранного как основание понимания валидности результатов.

Как уже показано, наличие прогностической валидности теста подтверждает адекватность результатов измерения объекту как конструкту, но не доказывает валидность теста из-за отсутствия внутренней валидности. Во-первых, открытым остается вопрос о доказательстве связи между результатами теста и измеряемым теоретическим конструктом, т. е. связи между независимой и зависимой переменной, причиной и эффектом. Другими словами, остается не решенным вопрос о внутренней валидности теста. Во-вторых, сохраняется проблема внешней валидности теста как задача возможной экстраполяции интерпретации результатов измерения на иную, большую, чем экспериментальная, группу испытуемых.

Поскольку содержательная валидность связывает содержание теста и внешние теоретически определенные свойства или проявления конструкта, постольку она подтверждает соответствие между конструктом и результатами измерения. Как утверждают Л.Ф. Бурла-чук и С.М. Морозов, «содержательная валидность характеризует степень репрезентативности содержания заданий теста измеряемой области психических свойств» [Цит. по: 1]. Другими словами, с помощью содержательной валидности проясняется вопрос о том, насколько содержание теста, как образ, есть отражение теоретического конструкта как своего прообраза. Репрезентативность в статистике и экспериментальных исследованиях понимается как «показательность каких-либо наблюдений; соответствие характеристик, полученных в результате частичного (выборочного)

обследования какого-либо объекта, характеристикам этого объекта в целом, позволяющее распространять выводы частичного обследования на весь изучаемый объект» [4]. Иначе говоря, под репрезентативностью содержания теста можно полагать соответствие любого тестового задания содержательной области измеряемого теоретического конструкта.

Содержание теста образуется совокупностью тестовых заданий. Она не взаимно-однозначно описывает содержательную область конструкта, а лишь представляет некоторые его проявления. Тем не менее, условие репрезентативности, накладываемое на тестовые задания, позволяет распространять результаты тестирования на всю область предметного содержания теоретического конструкта.

Таким образом, можно сделать вывод о том, что:

- содержательная валидность относится к внешней валидности эксперимента, являясь её частью, так как позволяет экстраполировать результаты эксперимента, полученные с помощью теста с определенным содержанием, на весь теоретический конструкт;

- через содержательную валидность контролируется отображение или представление теоретического конструкта в содержании теста;

- через содержательную валидность соотносится содержание теста с результатами тестирования, и через них - с внешним критерием;

- через содержательную валидность устанавливается связь результатов тестирования и конструкта посредством тестового содержания.

Согласно определению В.А. Дюка, «конструктная валидность - это валидность теста по отношению к психологическому концепту - научному понятию (или их совокупности) об измеряемом психическом свойстве (состоянии). Она выражает степень обоснованности индивидуальных различий, обнаруживаемых тестом, с позиций современного теоретического знания» [1]. Другими словами, данным видом валидности показывается, в какой мере зависимая переменная, отраженная в результатах тестирования, соотносится с теоретически описанным прогнозом проявления конструкта через независимую переменную конструкта, представленную в тестовом содержании. В валидности конструкта теста проявляется связь зависимой переменной, представленной в результатах тестирования, с конструктом, а связь результатов тестирования с независимой переменной устанавливается через тестовое содержание. Как я полагаю, валидность конструкта теста оказывается необходимой частью внутренней валидности эксперимента.

Если удается содержательную валидность представить как часть внутренней валидности, то, возможно, отпадет необходимость в обеспечении прогностической валидности теста, следовательно, исчезнет надобность в сложном и трудоемком процессе эмпирического подтверждения объективности результатов тестирования через их соответствие внешнему критерию, а исследование валидности станет более технологичным.

По моему мнению, для усиления объективности результатов тестирования, а значит, увеличения их валидности необходимо:

1) установить связь между экспериментальными результатами измерения и заведомо валидными

результатами измерения того же теоретического конструкта;

2) максимально объективировать процедуру тестирования посредством учета наибольшего числа внешних факторов, влияющих на результаты измерения;

3) построить технологический процесс тестирования путем элиминирования характеристик субъекта из процедуры тестирования.

Традиционно проблема достижения внутренней валидности тестовых результатов решается первыми двумя способами. Первый способ подразумевает использование эмпирической, или прогностической, валидности. «Эмпирическая валидность - совокупность характеристик валидности теста, полученных с помощью сравнительного статистического анализа. Показатель эмпирической валидности выражается количественной мерой статистической связи между результатами тестирования и внешними по отношению к ним критериям оценки диагностируемого свойства» [1]. Известно, что процедура получения численного значения эмпирической валидности теста заключается в получении коэффициента корреляции между результатами валидизируемого эксперимента и результатами, полученными в ходе другого экспериментального исследования другого конструкта. Тест обладает эмпирической валидностью при условии, что второй, «эталонный», конструкт тесно связан с исследуемым конструктом и результаты обоих исследований взаимно коррелируют.

Таким образом, в социологии и психодиагностике объективность эксперимента по измерению латентного объекта обеспечивается: внутренней валидностью конструкта, отвечающей за соответствие независимой и зависимой переменных; внешней содержательной валидностью, отвечающей за соответствие содержания теста конструкту (через независимую переменную); внешней эмпирической валидностью, подтверждающей связь результатов валидизируемого и эталонного тестирования.

Однако выделенные три вида валидности эксперимента в социальных науках образуют незамкнутую систему валидности экспериментальных результатов, так как эмпирическая валидность является внешней. Вследствие незамкнутости системы валидности связь тестовых результатов с измеряемым теоретическим конструктом оказывается вероятностной и приближенной.

Именно прямое перенесение экспериментальных психологических и социологических методов в педагогику, а тем более в образование привело к таким же трудностям в обеспечении внутренней валидности педагогического, эксперимента: применение численных статистических методов лишь подтверждает каузальность связи, но не доказывает её. Так, Д. Кэмпбелл указывает, что в социально-психологических экспериментах «нулевая корреляция снижает правдоподобие гипотезы. При высокой корреляции оно возрастает, ибо гипотеза избежала опровержения. Иначе говоря, корреляция не обязательно указывает на наличие причинной связи, но каузальный закон, поскольку он связан с различием между средними значениями, предполагает наличие корреляции» [3]. Соответственно, для доказательства внутренней валидности в педагогическом

исследовании требуется применение дополнительных качественных методов её анализа. Практически же исследователи ограничиваются вычислением статистического коэффициента как коэффициента эмпирической валидности. Статистические методы задают только надежность результатов исследования, но их объективность оказывается по-прежнему недостижимой.

Принцип истинности (когеренции или функциональности) лежит в основе выбора критерия эмпирической валидизации, считается валидным и определяет основу интерпретации тестовых результатов, но не влияет на общую схему валидизации измерения латентного объекта.

Вторым способом повышения объективности тестовых результатов оказывается улучшение качества построения процедуры эксперимента через использование валидных экспериментальных планов, позволяющих держать под контролем источники невалидности, угрожающие внутренней валидности эксперимента [3]. В работе Д. Кэмпбелла выделяется восемь источников невалидности как переменных, угрожающих внутренней валидности, и устанавливается возможность контроля над ними через 16 валидных экспериментальных планов. «Если эти переменные не контролируются в экспериментальном плане, то они могут дать эффекты, которые смешиваются с эффектом экспериментального воздействия» [3]. А.С. Казаринов ввёл подход Д.Кэмпбелла к повышению валидности эксперимента (валидацию) в педагогику [4]. Невозможность контроля над всеми факторами, угрожающими валидности, приводит к неограниченному росту числа новых видов валидности педагогического теста. Вследствие этого, А.С. Казаринов отмечает, что «валидность конструкта необходимо рассматривать как неисчерпаемый источник новых видов валидно-сти: латентные свойства дня сегодняшнего, имеющие теоретическую направленность, завтра перестанут быть скрытыми и приобретут направленность сугубо практическую» [3]. Тогда валидация тестов становится неограниченным процессом, а валидность теста оказывается недостижимой. Таким образом, для второго способа обеспечения внутренней валидности характерно неограниченное увеличение количества видов валидности педагогического теста.

Общая валидность исследования представляется как открытая неограниченная система её видов. Объективность тестовых результатов не обеспечивается открытой системой валидности, состоящей из неограниченного количества её видов. Валидность эмпирического исследования, а следовательно, объективность его результатов недостижима. В практике применения тестов, как правило, ограничиваются вероятностным значением коэффициента валидности каждого вида, что, по моему мнению, еще более усложняет процедуру определения валидности исследования, а его полная валидизация так и не достигается. При этом заметно снижается технологичность процедуры определения валидности исследования.

На мой взгляд, возможен третий, более технологичный способ достижения внутренней валидности тестовых результатов педагогического исследования. Для этого необходимо при определенных условиях соединить содержание педагогического теста и теорети-

ческий конструкт обученности в конструкт предметного содержания теста как целого. Такая возможность возникает в связи с тем, что при измерении обученности субъекта в роли объекта измерения выступает содержание обучения - определенное, хотя и многовариативное.

Понимание предмета измерения как теоретического конструкта целостного предметного содержания позволяет:

- перейти от латентного объекта исследования к определенному, представленному для контроля; заменить модель эксперимента как «черного ящика» моделью «прозрачного ящика»;

- построить ограниченную, замкнутую и целостную систему валидности теста;

- построить технологичную процедуру определения валидности теста, исключающую субъект измерения в целях получения объективных тестовых результатов;

- перейти в обучении от контроля над репродуктивными знаниями к контролю над системными.

Основной источник невалидности тестовых результатов - субъект тестирования - посредством выбранного критерия валидизации, не зависящего от его субъективных характеристик, выносится за пределы процедуры определения валидности. Тем самым снимается зависимость валидности тестовых результатов от статистических показателей и валидность теста перестает быть внешней.

Исходя из вышесказанного, необходимо сделать следующие выводы. Эмпирическая валидность в прикладных науках решает проблему связи теоретического конструкта и результатов тестирования, причины и эффекта через привлечение внешнего критерия. В основе данной проблемы лежит латентность объекта исследования, что приводит к невозможности создания содержания теста, взаимно-однозначно представляющего конструкт и отвечающего требованиям внутренней содержательной валидности теста.

Заимствование методов построения эксперимента, в том числе тестирования из прикладных наук в образование без учета специфики объекта исследования привело к неоправданному усложнению процесса получения адекватных результатов эксперимента и построению валидных тестовых измерителей. А также к затруднениям при выборе системы валидности теста, обеспечивающей адекватность результатов тестирования.

Изменение объекта исследования на модель «прозрачного ящика» позволяет решить проблему объективации результатов тестирования посредством внутренней содержательной валидности теста.

Таким образом, основным критерием объективности экспериментального исследования, в том числе качества тестового измерителя, является его валидность. Категория валидности используется в эмпирическом исследовании для доказательства объективности или истинности его результатов. Она зависит от цели исследования и выбора критерия истинности. В научной литературе по тестологии существует чрезмерно большое количество различных названий видов валидности, их классификаций. В исследовании валидности возникают трудности, связанные с выбором необходимого и достаточного количества их видов в процессе валидизации.

Решение проблемы валидизации психометрических тестов, являющейся центральными для дифференциальной психометрики, зависит не столько от статистического аппарата, сколько от уровня развития теоретического аппарата дифференциальной психологии.

Проведенный анализ отечественной и зарубежной научной и методической литературы показал, что для валидизации экспериментального исследования необходимым является обеспечение шести основных видов валидности. Во-первых, валидности конструкта, обеспечивающей соответствие теоретического конструкта объекту исследования. Во-вторых, валидности содержания, отвечающей за репрезентативное представление содержанием теста теоретического конструкта. В-третьих, валидности прогноза (или критериальной валидности), эмпирически подтверждающей соответствие результатов исследования объекту или цели исследования. В-четвертых, внутренней валидности, устанавливающей каузальность связи причины и эффекта. В-пятых, внешней валидности, позволяющей экстраполировать результаты исследования на большую, чем экспериментальная, группу. Наконец, в-шестых, валидности статистического вывода, отвечающей за адекватность интерпретации результатов исследования на основе применения статистических характеристик.

СПИСОК ЛИТЕРАТУРЫ:

1. Дюк В.А. Компьютерная психодиагностика. -СПб: «Братство», 1994. - 364с.

2. Лаак Я. Тер. Психодиагностика: проблемы содержания и методов. - М.: Издательство «Институт практической психологии», Воронеж: НПО «МОДЭК», 1996. - 384с.

3. Campbell D.T., Fiske D.W. Convergent and discriminant validation by the multitrait6multimethod matrix // Psychological Bulletin. 1959. № 56. P. 81 - 105.

4. Публичная Интернет-библиотека. http: // www. public.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.