Научная статья на тему 'Автоматический анализ объяснений учащимися нарративного текста'

Автоматический анализ объяснений учащимися нарративного текста Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
147
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛАТЕНТНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ / LATENT SEMANTIC ANALYSIS / УЧЕНИКИ МЛАДШИХ КЛАССОВ / JUNIOR PUPILS / УДАЛЕННО-СВЯЗАННЫЕ И ЛОКАЛЬНО-СВЯЗАННЫЕ ПРЕДЛОЖЕНИЯ / REMOVED-BOUND AND LOCAL-BOUND OFFERS / АВТОМАТИЧЕСКИЙ АНАЛИЗ / AUTOMATIC ANALYSIS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Воронин Владимир Митрофанович, Курицин Сергей Владимирович, Наседкина Зинаида Афанасьевна

В статье рассматривается применение латентного семантического анализа для оценки понимания учащимися младших классов прочитанных ими текстов. Проведенное исследование и полученные результаты могут послужить основой для разработки компьютерной программы-помощника в чтении. Данное исследование является продолжением работы авторов по применению латентного семантического анализа в качестве средства автоматизированной оценки развернутых ответов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Воронин Владимир Митрофанович, Курицин Сергей Владимирович, Наседкина Зинаида Афанасьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATIC ANALYSIS OF NARRATIVE TEXT EXPLANATIONS BY PUPILS

The article deals with using a latent semantic analysis for the evaluation of understanding texts by junior school pupils after reading them. It provides the undertaken study and its results that can be the basis in development of a computer programme -an assistant in reading. The given study is a continuation of authors' works on using a latent semantic analysis as means of automatic evaluation of extensive answers.

Текст научной работы на тему «Автоматический анализ объяснений учащимися нарративного текста»

ПЕДАГОГИЧЕСКАЯ ПСИХОЛОГИЯ

Воронин В.М., Курицин С.В., Наседкина З.А.

АВТОМАТИЧЕСКИЙ АНАЛИЗ ОБЪЯСНЕНИЙ

учащимися нарративного текста

Использование стратегий при чтении широко признается в качестве важнейшего детерминанта процесса понимания. Ученики младших классов, обладающие хорошим пониманием прочитанного материала, как правило, читают «стратегически» [1]. По мнению Мс№тага [2], эти стратегии могут быть выявлены через самообъяснения и классифицируются следующим образом: мониторинг понимания, парафразы, доработка, предсказание и соединение. Одним из важнейших навыков, используемых этими стратегиями, является способность устанавливать семантические и причинные взаимосвязи между прочитанными предложениями [3].

Основываясь на этих выводах, МсШтага и др. [4] разработали iSTART, компьютерную программу для помощи в улучшении когнитивных навыков. iSTART способна автоматически категоризировать объяснения смысла прочитанного текста (далее - просто "объяснения"), частично используя для этого латентный семантический анализ [5]. Любой подробный анализ протоколов объяснений - это трудоемкий и субъективно-ориентированный процесс, и использование таких систем, как iSTART, для определения стратегий чтения, является весьма сложной, но многообещающей задачей.

Поскольку такая программа проводит читателя через заранее определенные стадии, чередуя чтение и вербализацию, необходимо рассматривать ее использование как сценаризацию чтения и процесса понимания. Такая компьютерная сценаризация становится возможной благодаря наличию широкого спектра стратегий чтения и обратной связи [6]. В литературе рассматриваются по меньшей мере два типа сценариев чтения: педагогические сценарии, чья цель организация самого процесса чтения, и оценочные сценарии, ориентированные на поддержание способа оценки чтения.

ЛСА является подходящим инструментом для определения смысла вербальных протоколов. В исследованиях ЛСА выявляет различные виды стратегий обучения, когда учащиеся читают, или, вернее, когда они обсуждают то, что они читают. ЛСА обнаруживает, что, например, некоторые из них имеют тенденцию к перефразированию прочитанного материала, в то время как другие, как прави-

83

ло, связывают прочитанное с ранее прочитанными фразами того же текста или с имеющимися знаниями. Так как эти разные стратегии, в целом, предполагают различные уровни понимания, ЛСА может быть достаточно успешно использован для прогнозирования уровня понимания, оценки преобладания определенных стратегий чтения или с целью дать соответствующую обратную связь обу-щчющимся, тренируя их более эффективному использованию стратегий [4; 11].

Латентный семантический анализ (Latent Semantic Analysis, LSA) - теория и метод для извлечения и представления значения контекстно-зависимых значений слов путем статистической обработки большого корпуса текстов [5]. Латентный семантический анализ основывается на идее, что совокупность всех контекстов, в которых встречается и не встречается данное слово, задает множество обоюдных ограничений, которые в значительной степени позволяют определить похожесть смысловых значений слов и множеств слов между собой. Этот подход позволяет автоматически распознавать смысловые оттенки слов в зависимости от контекстов их использования. Данный подход реализует выявление тематической близости термов, которая затем используется для вычисления оценок тематической близости документов.

ЛСА предлагает математическую репрезентацию семантической области. Он также может быть рассмотрен как статистический метод для отражения значений слов и элементов текста [5]. Этот инструмент способен анализировать огромные матрицы высоких размерностей, в которых каждый ряд отражает терм (слово), в каждый столбец — документ (параграф). После этого ЛСА преобразует исходную матрицу с помощью сингулярного разложения (SVD) — математической техники для редуцирования размерности матрицы - в новое семантическое пространство, в котором каждое слово и каждый документ представлены как единый вектор. Многократно было показано, что полученное таким способом редуцированное семантическое пространство сохраняет те же самые семантические связи между словами и документами, что сохранились бы и при переработке текстов людьми. В таком семантическом пространстве возможно сравнение единиц информации с примыкающими единицами текста для определения меры семантического сходства между ними. Единицами текстовой информации могут быть предложения, параграфы или небольшие тексты целиком (например, эссе о содержании текста). ЛСА измеряет сходство между двумя элементами текста с помощью косинуса угла между векторами.

Целью данного исследования является изучение второго типа сценариев и подготовка предварительных результатов, могущих послужить основой для разработки компьютерной программы-помощника в чтении. Вводится и тестируется возможность автоматического анализа объяснений прочитанного материала учеников с использованием ЛСА. Поскольку парафразы (т.е. близкие к тексту изложения оригинала с объяснением) являются одними из самых часто используемых стратегий [2], акцент в исследовании делается на том, как создаются парафразы двух главных типов предложений: фокальных (последнее предложение перед вербализацией) и каузальных (определяется каузальным анализом теста),

т.к. необходимо отличать простые парафразы последнего прочитанного предложения от более сложных парафразов, задействующих более глубокое понимание прочитанного текста. Исследование задает новые векторы изучения. Во-первых, в качестве испытуемых выступают ученики младших классов, - редко исследуемая категория обучающихся. Во-вторых, пространство ЛСА было выбрано таким образом, чтобы наилучшим образом отражать знания учеников младших классов. Корпус русскоязычных текстов для этого пространства был составлен аналогично корпусу Denhiëre и др. [7], содержал около трех миллионов слов и был валидизирован с помощью тестов, использующих ассоциативные нормы. В-третьих, предлагается динамическое представление процесса объяснения путем анализа вербализаций в различные моменты на протяжении всего чтения текста.

Главная задача исследования - сравнение категоризации парафразов людьми-экспертами и меры семантического сходства между предложениями текста и объяснениями, полученной с помощью ЛСА. Во-вторых, ожидается «эффект последней информации», заключающийся в том, что информация в самообъяснениях учеников будет чаще относиться к самым последним предложениям, прочитанным до момента вербализации. В-третьих, будет исследован способ, с помощью которого обучающиеся учитывают каузальные связи (локальные или удаленные) при пересказе причинно-связанных предложений текста.

Данное исследование является продолжением работы авторов по применению латентного семантического анализа в качестве автоматизированного средства оценки развернутых ответов ([8], А[9]).

Метод

Участники

В исследовании принимали участие 20 учеников третьего класса и 20 учеников пятого класса одной и той же средней школы.

Процедура

Ученики сначала читали нарративный текст, а затем объясняли его содержание. В качестве текста была выбрана сказка А. Суровой "Метелица" [10] (471 слово и 6 пауз для объяснения). Текст был выбран с учетом уровня навыков чтения испытуемых, чтобы различия в вербализациях отражали различия в стратегиях чтения, а не затруднения в понимании. С целью произвести детальный анализ исходный текст был разбит на 45 сегментов (примерно по одному предложению в каждом сегменте). Каузальный анализ был произведен таким образом, что локальные (когда каузальный антецедент находится рядом с текущим предложением) и удаленные (когда каузальный антецедент удален, т.е. находится за пределами рабочей памяти читателя) антецеденты предложений были определены согласно [11]. Также был выполнен пропозициональный анализ текста, который позволил извлечь макропропозиции и закодировать информацию, воспроизведенную участниками.

Каждый участник читал текст вслух и останавливался в установленных местах для самообъяснения только что прочитанного отрывка текста. Весь процесс

записывался. Задание было объяснено ученикам следующим образом: «Читайте текст вслух. Как только вы увидите знак остановки, вам необходимо прекратить чтение и рассказать своими словами смыл того, что вы только что прочитали». Вербализации самообъяснений были транскрибированы, и для каждой вербализации и всеми предшествующими паузе предложениями вычислялась мера семантического сходства с помощью ЛСА. Два эксперта пропозиционально анализировали вербализации и категоризировали их в соответствие со схемой кодирования Мс№тага [2]. Разногласия обсуждались и разрешались на основе консенсуса.

Результаты

Сначала были вычислены меры точности с целью сравнить оценки связанности предложений, полученные от экспертов и ЛСА, и проверить валидность компьютерных измерений. Коэффициенты корреляции Пирсона между числом парафразов в вербализации (Уп), определенным двумя экспертами, и мерами сходства ЛСА между каждой вербализацией и предшествующими ей предложениями, оказались следующими: VI: г=0,41; У2: г=0,53; У3: г=0,77; У4: г=0,27; У5: г=0,53; У6: г=0,63. Это показывает, что суждения экспертов о парафразах учеников для каждого параграфа относительно высоко соотносятся с оценками сходства ЛСА. Далее оценивалась мера связи каждого объяснения с последним прочитанным предложением (фокальным). На рис. 1 представлены полученные с помощью ЛСА меры косинусов сходства между каждой вербализацией и фокальным предложением, по классам. Влияние эффекта последней информации варьируется между вербализациями, показывая тем самым, что этот эффект зависит от содержания последних предложений. Более того, в целом, фокальное предложение имеет меньшую меру сходства с соответствующей вербализацией, чем среднее значение мер сходства с предыдущими предложениями, за исключением У4: ^39)=7,2, р < 0,0005. Двухфакторный дисперсионный анализ ANOVA показал значительные различия между классами для У6, F(1, 38)=7,14; р < 0,05 и тенденцию для У2, F(1, 38) = 3,31, р < 0,09. Хотя у учеников третьего класса прослеживалась тенденция чаще воспроизводить последнее предложение, семантическое содержание последнего предложения, вероятнее всего, является главным детерминантом фокального воспроизведения.

Согласно третьей гипотезе, семантическое содержание локальных и удаленных предложений, определенных каузальным анализом, будет вербализовы-ваться более часто, нежели остальная часть текста и фокальное предложение. Более того, ожидалось, что локальные каузальные предложения будут воспроизводиться лучше дистальных предложений (см. рис. 2, показывающий полученные с помощью ЛСА меры сходства между Уп и соответствующими им каузальными предложениями). Результаты показывают, что локальные и удаленные каузальные предложения во всех случаях, за исключением двух (VI и У5), значительно чаще вербализовывались, чем остальной текст. Кроме того, содержание локальных каузальных предложений значительно лучше воспроизводилось, чем содержание фокальных предложений, в VI и У3 ^(39) = 3,15, р < 0,005;

^39)=9,46, р < 0,0005). Неожиданностью оказался тот факт, что для V! лучше воспроизводилось содержание удаленных, чем локальных каузальных предложений: г(39) = 5,98, р < 0,0005; V2 : г(39)=8,61, р < 0,0005. Двухфакторный дисперсионный анализ ANOVA показал значительные различия между классами для V1 (удаленные), F(1,38) = 4,37, р < 0,05, тенденцию для V6 (удаленные), F(1, 38)=3,78, р < 0,06 и для V3 (локальные), F(1, 38)=2,85; р < 0,1. В целом же, стратегии участников были больше сосредоточены на каузальности, а не на порядке предъявления информации.

Рис. 1. Средние значения полученных с помощью ЛСА мер сходства фокальных предложений по классам

Рис. 2. Средние значения полученных с помощью ЛСА мер сходства каузальных предложений по классам. Линии — локальная казуальность, столбики — дистальная каузальность

Обсуждение

Результаты показали, что оценки вербализаций, полученные с помощью ЛСА, достаточно высоко коррелируют с оценками экспертов. Кроме того, в нашем исследовании, так же как и в работе Trabasso и van der Broek [12], участники воспроизводили прочитанные предложения согласно причинным, а не временным стратегиям, что в определенной мере раскрывает их стратегии понимания. Наконец, был отмечен эффект при воспроизведении удаленно-связанных и локально-связанных предложений. Дальнейшие исследования должны быть направлены на улучшение валидности автоматического анализа. Также необходимы аналогичные исследования с варьированием уровня сложности читаемого текста для калибровки техники чтения ученика.

ЛИТЕРАТУРА

1. Graesser, A. C. (2007). An introduction to strategic reading comprehension. In D. S. McNamara (Ed.), Reading comprehension strategies (pp. 3-26). Mahwah: Erlbaum.

2. McNamara, D. (2004). SERT: Self-Explanation Reading Training. Discourse Processes, 38, 1-30.

3. Wolfe, M. B. W., Magliano, J. P., & Larsen, B. (2005). Causal and semantic relatedness in discourse understanding and representation. Discourse Processes, 39(2-3), 165-187.

4. McNamara, D., Boonthum, C., & Levinstein, I. (2007). Evaluating self-explanations in iSTART: Comparing word-based and LSA algorithms. In T. K. Landauer, D. McNamara, S. Dennis & W. Kintsch (Eds.), Handbook of Latent Semantic Analysis (pp. 227-241). Mahwah: Erlbaum.

5. Landauer, T. K., & Dumais, S. T. (1997). A solution to Plato's problem. Psychol. Rev., 104(2), 211-240.

6. Vitale, M. R., & Romance, N. R. (2007). A knowledge-based framework for unifying content-area reading comprehension and reading comprehension strategies. In D. S. McNamara (Ed.), Reading comprehension strategies (pp. 73-104). Mahwah: Erlbaum.

7. Denhiere, G., Lemaire, B., Bellissens, C., & Jhean-Larose, S. (2007). A semantic space for modeling children's semantic memory. In T. K. Landauer, D. McNamara, S. Dennis & W. Kintsch (Eds.), Handbook of Latent Semantic Analysis (pp. 143-165). Mahwah: Erlbaum.

8. Курицин С.В., Воронин В.М. Исследование оценки понимания нарративных и экспозиторных текстов с применением латентного семантического анализа // «Сибирский психологический журнал», 2009. № 33, с. 25-30. Томск: Изд-во Томского гос. ун-та, 2009.

9. Воронин В.М., Курицин С.В., Касатов А.П., Наседкина З.А. Применение латентного семантического анализа как новый подход к автоматизированной оценке заданий со свободными развернутыми ответами // "Гуманизация образования", 2015, №6, с. 61-65.

10. Круглый год: альманах: рассказы, стихи. сказки, загадки / сост. В. А. Близненкова. - Москва : Детская литература, 1983. - 288 с.

11. Millis, K., Magliano, J., & Todaro, S. (2006). Measuring discourse-level processes with verbal protocols and Latent Semantic Analysis. Scientific Studies of Reading, 10(3), 225-240.

12. Trabasso, T., & van den Broek, P. (1985). Causal thinking and the representation of narrative events. Journal of Memory and Language, 24, 612-630.

Осипова С.И., Агишева H.C.

ПОЗНАВАТЕЛЬНАЯ АКТИВНОСТЬ КАК ОБЪЕКТ ПЕДАГОГИЧЕСКОГО АНАЛИЗА

Понятие «познавательная активность» является сложносоставным понятием и может быть рассмотрено как видовое по отношению к понятию «активность».

Понятие «активность» рассматривается исследователями как общенаучное и обосновано связывается с деятельностью. В частности, в философии «активность» (от франц. ай^ке - сила действия) понимается как деятельное поведение [20].

В психологии термин «активность» трактуется как деятельное состояние живых организмов, условие их существования в мире. Активное существо не просто пребывает в движении, оно содержит в себе источник своего собственного движения, и этот источник воспроизводится в ходе самого движения [16].

В зарубежной психологии, в силу лингвистических причин, понятия «активность» и «деятельность» являются тождественными. В некоторых языках для обозначения терминов - активность и деятельность - существует только один термин (например, «activity» в английском языке, «activitee» - во французском). В отечественной психологии до XX века рассматриваемые понятия также употреблялись как синонимы. Однако, ряд исследователей различают эти два понятия. В частности, С.Л. Рубинштейн, подчеркивает, что мышление, например, - это активность, а не деятельность. [17]. В данном исследовании значимыми являются исследования С.Л. Рубинштейна и А.Н. Леонтьева, рассматривающих деятельность как сложный процесс, несущий в себе внутренние противоречия, выступающие как необходимое условие развития деятельности ее субъектом, приводящие к формированию интеллектуальной, эффективной и потребност-но-мотивационной сфер [13].

i Надоели баннеры? Вы всегда можете отключить рекламу.