ОБРАЗОВАНИЕ В СИСТЕМЕ СОЦИАЛЬНЫХ КООРДИНАТ
УДК 370.1
Гуськова М. В., Звонников В. И. ЭТАПЫ РАЗВИТИЯ ЭВАЛЮАЦИИ В ОБРАЗОВАНИИ
Рассматриваются исторические аспекты развития эвалюации в образовании, которые связаны с философскими парадигмами. Приводится современное понимание эвалюации в образовании и мета-эвалюации. В основу процесса измерений в эвалюации предлагается положить Стандарты для педагогических и психологических тестов, которые играют важную роль при оценке качества образования. Предлагаются пути повышения качества результатов оценивания.
Ключевые слова: эвалюация, стандарты, философская парадигма, мета-эвалюация, измерения, качество, переменная, мета-латентная природа компетенций.
Первые упоминания об эвалюации появились достаточно давно в начале XIX века, когда правительство США обратилось к сообществу независимых экспертов с просьбой оценить реализацию общественных программ в учебных заведениях, больницах, приютах и тюрьмах (Stufflebeam, Madaus и Kellaghan, 2000,). Однако большинство авторов исследований считает, что начало работ по эвалюации на профессиональном уровне связано именно с 60-ми годами ХХ века. В эти годы в США была принята законодательная программа Great Society, которая содержала эвалюацию как неотъемлемую часть всех работ. Таким образом, исторический путь развития эвалюации в теоретическом и прикладном аспектах крайне невелик и занимает промежуток с 60-х годов
ХХ века до наших дней, а сама эвалюация является относительно молодой областью развития фундаментального и прикладного научного знания и практики их применения.
В зарубежных исследованиях исторические этапы развития эвалюации принято соотносить со становлением и сменой философских парадигм, которые неоднократно подвергались пересмотру и изменениям. В соответствии с ними один период увлечения философскими постулатами сменялся другим, а в эвалюации побеждали то количественные, то качественные методы. Тем не менее, несмотря на господствующую философскую парадигму, на протяжении всей истории развития в эвалюации никогда не отказывались от использования тестирования,
как наиболее эффективного и достоверного источника информации о качестве результатов образования.
По мере продвижения к концу ХХ века изменились и расширились стратегии эвалюации, добавились новые целевые парадигмы и квазиэкс-периментальные дизайны. Примерно к этому периоду пришло осознание того, что несмотря на научность подходов и высокую объективность, результаты эвалюации недостаточно используются в управлении качеством образования и не оказывают должного эффекта воздействия на образовательную политику и выполнение программ. В связи с этим, в начале 2000-х годов центр внимания эвалюаторов сместился на развитие моделей, включающих компоненты теории управления и принятия решений. В немалой степени развитию новых моделей образовательной эвалюации с ориентацией на область управленческих решений способствовали работы Stufflebeam (1998), в которых автор отстаивал необходимость смены прежней преимущественной направленности эва-люации на достижение целей обеспечения обоснованной информации, а сами управленческие решения предлагал рассматривать как часть эвалю-ации проектов и программ.
Дональдсон (Donaldson (2003)) еще больше расширил представления об эвалюации, подчеркнув что она должна быть основана на теории управления и предназначена для принятия управленческих решений. Роль эвалюа-тора, по его мнению, состоит в том, чтобы до-
8
© Гуськова М. В., Звонников В. И., 2011
стичь полного понимания образовательных проблем, сформулировать цели программы и контекст ее выполнения, построить модель эва-люации и определить ее дизайн, выбрать методы проведения эвалюации и инструментарий, а также интерпретировать результаты эвалюа-ции, представив их в виде, подходящем для управленческих решений. Таким образом, эва-люация программы, ориентированная на задачи управления, должна сначала развить теорию программы, наблюдая за качеством ее выполнения, накапливая информацию с помощью инструментария эвалюации, затем провести анализ полученных результатов программы и интерпретировать их с целью выработки управленческих решений.
В середине первого десятилетия XXI века Stake (2004) объединил ряд различных моделей эвалюации, сделав в своем варианте получившем название «модель эвалюации откликов», акцент на выявлении несоответствия между наблюдаемыми результатами выполнения программ и требованиями определенных стандартов. Стандарты, по его мнению, должны вырабатываться в соответствии с ожиданиями и критериями различных представителей профессионалов и общественности, относящихся к группе заинтересованных лиц в эффективном выполнения программы. Наблюдаемые же величины должны представлять результаты, которые фактически получены по завершению программы. Работа эвалюатора состоит в выявлении, оценке и обосновании степени соответствия наблюдаемых величин, полученных в программе, требованиям стандартов на основе методологии качественных методов в эвалюацию. Таким образом, к концу первого десятилетия
XXI века в эвалюации стали доминировать проблемы управления качеством результатов проектов и программ, рассматриваемого в контексте норм и стандартов.
В целом, этапы развития эвалюации в образовании следует соотнести не только с периодами доминирования философских парадигм, но и с основополагающей методологией эва-люации, что позволит отдать должное важной роли измерений и теории принятия решений. Сообразно смене методологического базиса можно выделить четыре основных периода, между которыми, конечно, нет четких границ .Это обусловлено тем, что большинство иссле-
дователей нередко поддерживали многообразие подходов, если между ними не было явных противоречий.
Первый период охватывает временной промежуток с 60-х по 80-е годы ХХ века, когда в образовательной эвалюации центральное место отводилось научной парадигме, основанной на позитивизме и постпозитивизме, а в оценочных процессах преобладали измерения на количественном уровне, проводимые, как правило, путем тестирования учащихся. Методологические проблемы эвалюации этих лет, в основном были сосредоточены вокруг теории методов измерений, в которых лидировала классическая теория тестов. К 60-м годам уже был полностью сформирован весь аппарат классической теории педагогических измерений, определивший методы создания тестов и статистического анализа качества измерений в образовании. Обыденное представление о тесте и его научное определение стали заметно различаться благодаря сформировавшемуся понятийному аппарату и разработанным методам анализа эмпирических данных тестирования. Для обоснования качества педагогических измерений - их надежности и валидности -широко использовалась теория корреляции и факторный анализ, сформировались концепции параллельных и эквивалентных измерений, были введены основные аксиомы и разработаны методики шкалирования и выравнивания результатов тестирования.
Второй период развития эвалюации можно с большой степенью определенности связать с временным промежутком с 80-х по 90-е годы ХХ века, когда методологию эвалюации в образовании определяли положения конструктивизма и характерные для него качественные измерения. К концу 80-х годов классическую теорию измерений сменила современная теория тестов (Item Response Theory - IRT), позволяющая благодаря специальному математическому аппарату и вероятностным моделям строить интервальную шкалу количественных результатов измерения. Появление IRT и ее возможности способствовали восстановлению приоритета количественных методов в эвалюации на фоне развивающегося прагматизма.
На основе теории IRT в измерениях удалось реализовать свойство инвариантности оценок испытуемых от трудности заданий тестов, получить дифференцированные оценки точности
измерений и оценить эффективность заданий различной трудности вдоль оси переменной измерения на основе информационной функции теста. Соответственно появилась возможность создания банков калиброванных тестовых заданий с устойчивыми оценками их параметров, развития высокоэффективных методов компьютерного моделирования тестов и организации современной модификации адаптивного тестирования, позволяющего без применения многочисленных методик выравнивания сравнить результаты испытуемых по различным адаптивным тестам
К третьему промежутку в истории развития образовательной эвалюации следует отнести период с 90-х годов ХХ века до начала XXI века, для которого характерно становление бипарадиг-мальной методологии эвалюации на основе философских корней прагматизма и широкого распространения идей трансформизма. В педагогических измерениях этого периода доминировала теория IRT, позволяющая строить уровневые шкалы для совмещения результатов количественных и качественных измерений.
Идея совмещения уровней измерения подкреплялась широким внедрением компьютерной техники и современных информационных технологий в процессы исследования. В этот период новые возможности компьютеров повлекли за собой интенсивное развитие программно-инструментальных и программно-педагогических продуктов, реализующих алгоритмы IRT для оценки результатов испытуемых и конструирования новых тестов. К числу наиболее интересных, созданных мировым лидером в компьютерном тестировании Assessment Systems Corporation (ASC), можно отнести такие программы как RASCH, RASCAL, Quest, ConQuest, а также программы XCALIBRE, ASCAL, LOGIMO, MSP, PARELLA и многие другие.
Некоторые из разработок корпорации ASC, например, программа HLM (иерархическое линейное моделирование), позволяют реализовывать иерархический анализ качественных данных, который очень важен при проведении эва-люации, поскольку большинство социальных исследований содержат иерархические данные. Эти данные желательно структурировать по определенным соподчиненным уровням для получения развернутых выводов в исследованиях, позволяющих учитывать разные факторы при
анализе результатов выполнения проектов и программ.
Первый практический опыт применения НЬМ на представительных выборках учащихся был получен в 1983 году. Тогда Браун, Джонс и Тейер опубликовали данные о стандартных процедурах оценивания результатов учащихся с целью их рейтингования по результатам обучения в бизнес-школах. поскольку в те годы многие школы ориентировались на практику рейтингования для предсказания дальнейших академических успехов учащихся. Интенсивное развитие моделей иерархического линейного моделирования наблюдалось с начала 90-х гг ХХ века и продолжается вплоть до наших дней. В социологии - это многоуровневые линейные модели (Голдштейн, 1995; Мейсон, 1993 и т.д.). В биометрике - модели со смешанным и случайным эффектами (Эльстон и Гриззл, 1992; Зингер, 1998; Лэйерд и Уээа, 1982). В эконометрике -регрессионные модели со случайными коэффициентами (Розенберг, Лонгфорд, 1993). В статистике - модели с ковариационными компонентами (Демпстер, Рубин и Цутакава, 1991; Лонгфорд, 1997).
Первоначально модели НЬМ использовались исключительно для непрерывного распределения переменных, а ошибки трактовались в рамках теории нормального распределения. По мере развития теории иерархического моделирования был создан аппарат, позволяющий применять модели для разных классов переменных в дискретных шкалах. В частности, на сегодняшний день применение моделей НЬМ возможно для:
- дихотомических переменных.
- количественных переменных.
- порядковых (качественных) переменных.
- номинальных мультипорядковых переменных.
В 1984 г. появилась первая версия математического аппарата, основанного на методе максимального правдоподобия и предназначенного для анализа данных на дискретной шкале. Немного позже Голдштейн в 1991 г. разработал программное обеспечение, позволяющее реализовать этот аппарат и предназначенное для дискретных данных (программа МЬ3). В 1995г. появилась вторая редакция этой программы, обеспечивающая повышение точности результатов итерационных процессов метода максимального правдоподобия. Также в 1995 г. было создано программное
обеспечение на основе метода Гаусса-Хермита. И наконец в 2000 г. Рауденбуш, Янг и Йозеф, используя преобразования Лапласа, предлагают современную и наиболее распространенную в наши дни версию программы HLM. В результате появления эффективного программного обеспечения резко увеличилось число исследований в образовании, в которых при анализе данных используется HLM.
Современный иерархический анализ в эвалюации на основе программы HLM можно использовать с тремя целями:
- повышение точности оценок учебных достижений учащихся, которые выступают в качестве первичных единиц анализа в эвалюации;
- формулировка и проверка гипотез, связанных с предположениями о взаимодействии факторов при проведении количественного и качественного анализа по результатам выполнения проектов и программ;
- выделение доли вариации, объясняемой выявленными факторами на различных уровнях измерений.
В целом, возможности иерархических линейных моделей, основанные на новом способе получения уравнения регрессии, послужили мощной поддержкой бипарадигмальной методологии измерений, обратив на себя внимание всех тех, кто использовал исключительно качественные измерения в эвалюации. К концу 90-х годов ХХ века иерархические линейные модели стали широко применяться в эва-люации программ международных исследований качества школьного образования для проверки гипотез о том, как измеряемые переменные на одном уровне связаны с измерениями на другом. Хотя методы HLM получили в XXI широкое развитие в международных исследованиях по сравнительной оценке качества образования (TIMSS, PIRLS, PISA), в России они практически не используются, несмотря на обширные возможности методов по анализу качества российского образования на основе данных ЕГЭ. В наши дни HLM также широко используются при проведении мониторинговых исследований в ряде стран, обладающих высокоразвитыми системами образования, в медицинских и социологических обследованиях.
Значимым шагом в развитии эвалюации программ по разработке и применению тестов стало принятие в 1999 году (последняя версия)
в США Стандартов для педагогических и психологических тестов (Standards for Educational and Psychological Tests), подготовленных Американской ассоциацией исследований в образовании (American Educational Research Association, 1999). Соответствие характеристик теста требованиям Стандартов являлось признанием того факта, что его можно использовать для аттестации выпускников учебных заведений и принятия управленческих решений в образовании. Таким образом, тесты, адекватные требованиям Стандартов, обретали право на применение в тестировании административно-управленческого предназначения и могли претендовать на статус High-Stakes Tests.
Четвертый период развития образовательной эвалюации (2000 - 2010 гг) связан с расширительным толкованием методологических основ эвалюации, поскольку методология измерений была подкреплена теорией управления и принятия решений. Хотя в наши дни уже можно говорить о становлении пятого периода в истории развития эвалюации, начало которого положено благодаря введению компе-тентностного подхода в образование, требующего учета мета-латентной природы компетенций, их отсроченного характера проявления, а также влияния контекстных факторов на процесс формирования компетенций и предыстории развития познавательной деятельности обучаемых. Трудности операционализации конструктов - компетенций - при измерениях, вызванные их природой, и спецификой развития и проявления, обуславливают необходимость разработки новой философской парадигмы, на основе которой можно рассматривать процесс измерений в динамике и считать каждую итерацию в измерениях шагом вперед к истинным уровням освоения компетенций, свободным от ошибок измерения, но не достижимым как и любая предельная величина.
Поскольку результаты эвалюации, как и результаты любого оценивания, подвержены ошибкам и неизбежно включают в себя ошибочный компонент, то в наши дни широкое развитие получила мета-эвалюация (эвалюация эвалюации), которая нацелена на анализ качества результатов самой эвалюации и предназначена для минимизации ошибок при использовании результатов эвалюации в процессе принятия важных управленческих решений. В частности, для по-
вышения объективности и обоснованности результатов эвалюации можно выделить ряд направлений исследований, наиболее перспективных в наши дни. К ним относится:
- поиск путей по расширению возможностей существующих моделей эвалюации применительно к инновационной трактовке качества результатов образования в рамках компетентно-стного подхода;
- развитие новых методов для анализа влияния различных факторов на снижение объективности измерений;
- исследования в области совершенствования методик разработки измерителей, аутентичных компетентностному подходу к трактовке качества результатов образования;
- развитие специальных процедур и подходов для выявления размерности пространства измерений и их адекватности поставленным целям тестирования.
Конечно, выделение перечисленных четырех периодов в истории развития эвалюации, предложенное в данном исследовании, достаточно условно. Однако это позволяет говорить о преобладающих тенденциях в образовательной эва-люации. Многие из методов и моделей, которые были развиты в более ранние периоды эвалюа-ции, продолжают влиять на теорию и практику эвалюации наших дней. В целом, на сегодняшний день сообщество специалистов в эвалюации из разных стран мира, входящих в Американскую ассоциацию по эвалюации, достигло опре-
деленного уровня согласованности во взглядах и поддерживает плюралистические подходы к методологии эвалюации и практическим методам ее осуществления.
Библиографический список
1. American Evaluation Association (2004, July). Guiding principles for evaluators. Retrieved
January 11, 2005, from http://www.eval.org/ Publications/GuidingPrinciples.asp.
2. Brinkerhoff, R. 0. (2006). Telling training’s story: Evaluation made simple, credible, and effective. - San Francisco : Berrett-Koehler.
3. Foxon, M., Richey, R. C, Roberts, R. C, & Spannaus, T. (2003). Training manager competencies: The standards (3rd ed.). - Syracuse ; N. Y. : ERIC Clearinghouse on Information and Technology.
4. Звонников В. И. Измерения и качество образования. - М. : Логос, 2006.
5. Гуськова М. В. Аттестация студентов на основе новых стандартов профессионального образования // Высшее образование сегодня. - 2011. - № 8.
6. Гомулина Н. Н. Эвалюация в образовании и интеграция урочного и дистанционного обучения. ООО «ФИЗИКОН», Московский институт открытого образования.
7. Щербина Л. Д. Эвалюация в системе повышения квалификации: типичные ошибки и пути их преодоления / Вопросы международного сотрудничества в образовании Южного региона. - Ростов-на-Дону : ПИ ЮФУ, 2009. - №2.
8. Найденова Н. Н. Эвалюация - новый подход к качеству образования. Образование в изменяющемся мире / А. П. Лиферов, В. А. Мясников, Н. Н. Найденова, И. А. Тагунова. - М. : Элит-Полиграф, 2005.
Guskova M. V., Zvonnikov V. I. DEVELOPMENT STAGES IN EDUCATIONAL EVALUATION
Historical aspects of evaluation development in education connected with philosophical paradigms are considered. The modern understanding of educational evaluation and meta-evaluation is given. As the basis of measurements in evaluation is offered to use Standards for educational and psychological tests which play the important role in quality assessment. The ways to quality improvement of assessment results are offered.
Keywords: evaluation, standards, a philosophical paradigm, meta-evaluation, measurements, quality, the variable, the meta-latent competencies nature.