Научная статья на тему 'Использование латентного семантического анализа как альтернативы пропозиционального анализа в исследованиях понимания текста'

Использование латентного семантического анализа как альтернативы пропозиционального анализа в исследованиях понимания текста Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
142
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЛАТЕНТНЫЙ СЕМАНТИЧЕСКИЙ АНАЛИЗ / LATENT SEMANTIC ANALYSIS / ПРОПОЗИЦИОНАЛЬНЫЙ АНАЛИЗ / PROPOSITIONAL ANALYSIS / ПОНИМАНИЕ ТЕКСТОВ / TEXT COMPREHENSION

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Воронин Владимир Митрофанович, Курицин Сергей Владимирович, Наседкина Зинаида Афанасьевна, Ицкович Марк Матусович

В статье обсуждается возможность применения латентного семантического анализа к исследованию понимания текстов. Акцент делается на обсуждении ЛСА как потенциальной замене пропозиционального анализа. Описывается серия экспериментов, повторяющих классические эксперименты Торндайка по пониманию текстов, но с применением ЛСА. Полученные результаты оцениваются с точки зрения согласованности с исходными исследованиями Торндайка. Делается вывод о возможности использования оценок ЛСА также в качестве количественных оценок понимания текстов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Воронин Владимир Митрофанович, Курицин Сергей Владимирович, Наседкина Зинаида Афанасьевна, Ицкович Марк Матусович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Using a latent semantic analysis as alternatives of sentential analysis in studies of text understanding

The article discusses the possibility of using latent semantic analysis to the study of text comprehension. The emphasis is on a discussion of LSA as a potential replacement for propositional analysis. We describe a series of experiments, repeating Thorndyke’s classic text understanding experiments, but with the use of LSA. The results are evaluated in terms of consistency with the original Thorndyke’s study. The conclusion is drawn that it is possible to use LSA measures as a quantitative ones of a text comprehension.

Текст научной работы на тему «Использование латентного семантического анализа как альтернативы пропозиционального анализа в исследованиях понимания текста»

психология личности

В.М. Воронин, C.B. Курицин, З.А. Наседкина, М.М. Ицкович

использование латентного семантического анализа как альтернативы пропозиционального анализа в исследованиях понимания текста

Большинство исследований понимания текстов фокусируются на сравнении оценок сходства между исходным текстом и его пересказом, выполненным испытуемыми. Несмотря на методологическую важность данных исследований, сама методика анализа пересказов испытуемых трудно формализуема, и проведение подобных экспериментов требуют значительного количества рутинных действий.

Важным шагом в формализации анализа пересказов испытуемых стала диссертационная работа P.W. Thorndyke "Cognitive Structures in Human Story Compréhension and Memory" [1]. Согласно данной работе, с помощью пропозиционального анализа и заранее определенной иерархической структуры исходного текста можно выделять уровни понимания текста испытуемым на основе количества воспроизведенных в пересказе пропозиций. Чем больше пропозиций более высокого уровня структуры текста воспроизведено, тем более высокий уровень понимания исходного текста.

Процедура пропозиционального анализа должна выполняться вручную, что делает данный подход трудно масштабируемым для исследования понимания с использованием больших объемов данных с целью повышения валидности. Латентный семантический анализ (ЛСА) [2;3] является многообещающим инструментом для автоматического анализа понимания текстов. Мы утверждаем, что ЛсА способен давать валидные количественные оценки понимания текстов. Данное исследование является логическим продолжением серии экспериментов по пониманию текстов [4; 5; 6].

Несмотря на то, что в настоящий момент известно очень немного о способах, которыми мозг репрезентирует пропозициональные знания, наиболее влиятельными на протяжении долгого времени остаются два подхода к этой проблеме. Первый из них - это давняя ассоционистская традиция, второй - это концепция схем Head [7]. Ассоционистская традиция берет своё начало от древнегреческих философов, в частности, от Аристотеля, рассматривавших знание как огромную сеть связанных между собой идей, и продолжает своё развитие в современных сетевых моделях долговременной памяти. Теория схем, с другой стороны, подчёркивает роль суперординатных когнитивных структур в понимании. Она не от-

рицает ни существование концептов как таковых, ни важность ассоциаций между ними, а смотрит уровнем выше на то, как подмножества концептов организуются с помощью «активной организации прошлых реакций или прошлого опыта» [8]. Схемы прогнозируют, что произойдёт с объектами в будущем, на основе «поведения» этих объектов в прошлом.

В исследовании Thomdyke 1977 года выдвигается гипотеза о том, что по-нимаемость и воспроизведение текстов зависят в большей степени от сложности сюжета - суперординатной структуры, нежели чем от объёма текста. Аргументация Thomdyke начинается с теоретического утверждения, что типичный рассказ опирается на небольшой набор следующих базовых правил:

Правило 1: РАССКАЗ состоит из ОБСТАНОВКИ, ТЕМЫ, СЮЖЕТА и РАЗВЯЗКИ

Правило 2: ОБСТАНОВКА состоит из ПЕРСОНАЖА(ЕЙ), МЕСТА и ВРЕМЕНИ

Правило 3: ТЕМА состоит из СОБЫТИЙ и ЦЕЛИ Правило 4: СЮЖЕТ состоит из одного или более ЭПИЗОДОВ Правило 5: каждый ЭПИЗОД состоит из ПОДЦЕЛИ, одной или более ПОПЫТОК и РЕЗУЛЬТАТА

Правило 6: каждая ПОПЫТКА состоит из дополнительных СОБЫТИЙ и ЭПИЗОДОВ

Правило 7: каждый РЕЗУЛЬТАТ состоит из одного или более СОБЫТИЙ и СОСТОЯНИЯ

Правило 8: каждая РАЗВЯЗКА состоит из СОБЫТИЯ и СОСТОЯНИЯ Правило 9: ПОДЦЕЛИ и ЦЕЛИ состоят из ЖЕЛАЕМЫХ СОСТОЯНИЙ Правило 10: СОСТОЯНИЕ должно учитывать ПЕРСОНАЖЕЙ, МЕСТА И ВРЕМЯ.

Хотя множество этих элементов конечно, некоторые из них - например, число ПЕРСОНАЖЕЙ в ОБСТАНОВКЕ или число ЭПИЗОДОВ в СЮЖЕТЕ - могут встречаться много раз. Таким образом, десять базовых правил теоретически могут порождать бесконечное число различных «нарративных структур», и основная идея экспериментов ^ог^уке заключалась в варьировании этих структур независимо от их содержания с целью изучения возможного влияния на понимание и воспроизведение. В одном из экспериментов материал был организован в виде четырех вариантов двух рассказов, каждый с примерно одинаковым количеством контента (35 пропозиций), но с увеличивающейся внутренней сложностью. В порядке убывания сложности варианты представляли собой 1) сам рассказ без изменений; 2) нарративная версия с отложенной объединяющей темой; 3) нарративная версия без явной темы и 4) простая дескриптивная версия. Каждый вариант мог быть предъявлен в «естественной» или «случайном» порядке. В варианте 1 рассказа «Остров Круга» (в естественном порядке) сначала находится ОБСТАНОВКА (пропозиции 1-10), затем следует ТЕМА (пропозиции 11-16), а СЮЖЕТ состоит из серии ЭПИЗОДОВ (пропозиции 17-31). В варианте 4 всюду используется настоящее время, существует неопределенная последовательность

действий, а пропозиции представляют собой, в основном, констатации несвязанных между собой фактов, не создавая при этом никакой явной темы.

Thorndyke предложил этот материал 64 студентам - младшекурсникам по межгрупповой экспериментальной схеме 4х2х2. Тексты презентировались визуально или устно, и испытуемые сразу же оценивали своё понимание текста по десятибалльной шкале. Затем они должны были либо а) воспроизвести рассказ настолько точно, насколько это возможно, либо б) составить краткое резюме рассказа. Результаты показали постепенное уменьшение понимания по мере уменьшения сложности текста. Основной вариант рассказа «Остров круга» имел оценку 7 баллов по шкале сложности, вариант с поздней темой - 6 баллов, описательный и вариант без темы - по 5 баллов. Точности воспроизведения этих вариантов были равны 66%, 57%, 51% и 45% соответственно. Краткие резюме не различались значительно в длине во всех четырёх условиях, но показали значительное увеличение при уменьшении структуры (30%, 36%, 40% и 58% соответственно).

Целью исследования было определение оценок ЛСА для текстов, использовавшихся в диссертационной работе P.W. Thorndyke, в частности, тестов первого и второго экспериментов.

В данном исследовании определяется мера сходства между исходными текстами с помощью ЛСА. При этом согласованность результатов текущего исследования с результатами исходного исследования определяется через качественное соотношение между средним показателем процента воспроизведенных испытуемыми пропозиций текста в исходном исследовании и оценками сходства между вариантами текстов, полученными с помощью ЛсА. То есть, мы считаем, что результаты согласуются, если средние показатели воспроизводимости в исходном исследовании находятся в той же зависимости, что и полученные оценки ЛСА; при этом важны только качественные показатели, количественные роли не играют. Это исходит из теоретического утверждения, что чем выше средний показатель воспроизводимости пропозиций, тем больший «вклад» они вносят в общий смысл текста, и ЛсА тем самым должен давать большую оценку тому тексту, который содержит данные пропозиции.

В качестве инструмента получения оценки ЛсА использовались приложения вебсайта [9], в частности, приложение One-To-Many. В качестве корпусов текстов использовались два - General_Reading_up_to_1st_year_college (300 факторов) и Literature_with_idioms (528 факторов). Ввиду большого числа сравнений между ответами и исходным текстом отсылка самих текстов в веб-приложение и получение результатов осуществлялись с помощью компьютерной программы, написанной на языке Python. сравнения между текстами проводились по схеме «document to document». Число используемых ЛСА факторов было максимальным из доступного количества. Корпус General_Reading_up_to_1st_year_college соответствует корпусу TASA и содержит 17274580 токенов, соответствующих 154941 различному типу слов, 119627 параграфов и 419 измерений (термин «токен» означает общее число встречаемости слова в тексте, термин «тип слова» означает различные вхождения одного и того же слова; например, если в тексте слово «кошка»

встречается 5 раз, то это будет соответствовать 5 токенам и одному типу). Корпус Literature_with_idioms состоит преимущественно из английской и американской литературы 18-го и 19-го веков и содержит 57092140 токенов, 104852 типа слов, 942425 параграфа и 338 измерений.

В первом эксперименте исходного исследования использовался рассказ «The Old Farmer and His Stubborn Animais» («Старый фермер и его упрямые животные»): эталонная форма STORY, два варианта с измененной организационной структурой - NARRATIVE - AFTER THEME и NARRATIVE-NO THEME - и отдельный вариант RANDOM, полученный путем случайной перестановки предложений эталонного текста STORY без каких-либо модификаций исходных пропозиций. В каждом из текстов содержалось по 35 пропозиций. Средние значения процента воспроизведенных пропозиций были равны соответственно 80%, 68%, 56% и 38%.

Оценки ЛСА были получены путем сравнения эталонного текста STORY с тремя остальными при использовании двух корпусов текстов - General_Reading_ up_to_1st_year_college (GR) и Literature_with_idioms (LWI). Результаты показаны на рис. 1.

NARRATIVE- NARRATIVE-NO RANDOM AFTER THEME THEME

Рис. 1. Оценки ЛСА, полученные при сравнении эталонного текста с тремя вариантами в первом эксперименте

За исключением варианта RANDOM, качественные оценки ЛСА вполне согласуются с результатами исходного эксперимента. Оценка ЛСА для RANDOM как полностью идентичного эталонному тексту объясняется тем, что так как вариант RANDOM - это случайная перестановка предложений эталонного текста, то он синтаксически изоморфен исходному тексту. Но ЛСА не способен определять синтаксические различия, поэтому оба текста для него тождественны.

Во втором эксперименте исходного исследования использовались два рассказа - «The Old Farmer and His Stubborn Animals» и «Circle Island» («Остров Круга»). Целью эксперимента было более детальное выявление влияния организационной структуры текста на понимание. В качестве вариантов каждого из текстов ис-

пользовались также структурные модификации NARRATIVE - AFTER THEME, NARRATIVE-NO THEME, а также дополнительная модификация - DESCRIPTION. Кроме того, каждая из модификаций имела вариант со случайной перестановкой предложений - STORY-RANDOM, NARRATIVE-AFTER THEME-RANDOM, NARRATIVE-NO THEME-RANDOM и DESCRIPTION-RANDOM.

Для текста «The Old Farmer and His Stubborn Animals» и нормального порядка пропозиций средние значения процента воспроизведенных пропозиций были: STORY - 91%, NARRATIVE - AFTER THEME - 75%, NARRATIVE-NO THEME - 64% и DESCRIPTION - 45%.

Оценки ЛСА были получены путем сравнения эталонного текста STORY с нормальным порядком пропозиций с тремя остальными (также с нормальным порядком) при использовании двух корпусов текстов - General_Reading_up_to_1st_ year_college (GR) и Literature_with_idioms (LWI). Результаты показаны на рис. 2.

-- -!-- -1-- -

NAHWlVBAFTm NAHW1VE-N0 DSCHFTION-H-BUIBNOnUIAL Tl-BVI&NORVIAL N0F3VIAL

Рис. 2. Оценки ЛсА, полученные при сравнении первого эталонного текста с тремя вариантами во втором эксперименте при нормальном порядке пропозиций

Качественные оценки ЛСА также вполне коррелируют с исходными данными.

Для текста «The Old Farmer and His Stubborn Animals» и случайного порядка пропозиций средние значения процента воспроизведенных пропозиций были: STORY-RANDOM - 31%, NARRATIVE - AFTER THEME-RANDOM - 23%, NARRATIVE-NO THEME-RANDOM - 22% и DESCRIPTION-RANDOM - 42%.

Оценки ЛсА для четырех текстов со случайным порядком пропозиций были получены путем сравнения их с эталонным текстом STORY-NORMAL при использовании двух корпусов текстов - General_Reading_up_to_1st_year_college (GR) и Literature_with_idioms (LWI). Результаты показаны на рис. 3.

STÖRf- NAFRAHVB fSWffftTIVB DESŒ3PT10N RANDOM АГТШТЬШБ NOTb-ШБ RANDOM RANDOM RAISDOM

Рис. 3. Оценки ЛСА, полученные при сравнении первого эталонного текста четырьмя вариантами во втором эксперименте при случайном порядке пропозиций

Аналогичным образом данные исходного исследования согласуются с полученными оценками ЛСА. Также видна неспособность ЛСА различать смыслы синтаксически изоморфных текстов.

При попарном сравнении всех вариантов текста между собой при использовании обоих корпусов отчетливо прослеживается тенденция идентичности соответствующих текстов NORMAL и RANDOM в силу все той же синтаксической неразличимости ЛСА.

Для текста «Circle Island» и нормального порядка пропозиций средние значения процента воспроизведенных пропозиций были: STORY - 71%, NARRATIVE - AFTER THEME - 62%, NARRATIVE-NO THEME - 48% и DESCRIPTION - 50%.

Оценки ЛСА были получены путем сравнения эталонного текста STORY с нормальным порядком пропозиций с тремя остальными (также с нормальным порядком) при использовании двух корпусов текстов - General_Reading_up_ to_1st_year_college (GR) и Literature_with_idioms (LWI). Результаты показаны на рис. 4.

Рис. 4. Оценки ЛСА, полученные при сравнении второго эталонного текста с тремя вариантами во втором эксперименте при нормальном порядке пропозиций

Качественные оценки ЛСА также вполне коррелируют с исходными данными.

Для текста «Circle Island» и случайного порядка пропозиций средние значения процента воспроизведенных пропозиций были: STORY-RANDOM - 36%, NARRATIVE - AFTER THEME-RANDOM - 28%, NARRATIVE-NO THEME-RANDOM - 27% и DESCRIPTION-RANDOM - 37%.

Оценки ЛсА для четырех текстов со случайным порядком пропозиций были получены путем сравнения их с эталонным текстом STORY-NORMAL при использовании двух корпусов текстов - General_Reading_up_to_1st_year_college (GR) и Literature with idioms (LWI). Результаты показаны на рис. 5.

□ GR ■ LWI

STORT- NAFHATIVE- NARRATIVE- DESCKPTION-RANDOM AFTmH-BVIB NO "П-ВУ Б RANDOM RANDOM RAM30M

Рис. 5. Оценки ЛСА, полученные при сравнении второго эталонного текста четырьмя вариантами во втором эксперименте при случайном порядке пропозиций

Как и в случае с первым текстом, попарное сравнение текстов между собой

не дает какой-либо дополнительной важной информации, кроме неразличимости вариантов NORMAL и RANDOM из-за их синтаксической идентичности.

Выводы:

1. Результаты ЛСА в достаточно большой степени согласуются с результатами экспериментов Thorndyke.

2. ЛСА не чувствителен к синтаксической информации текста.

3. ЛСА дает более дифференцированные оценки при использовании корпусов с большим числом факторов и большим числом текстов в нем.

Характерное различие в уровнях оценок ЛСА при использовании двух различных корпусов можно объяснить следующим образом. Во-первых, размер первого корпуса гораздо меньше размера второго, что может негативно сказываться на точности оценок. Во-вторых, тексты, входящие в корпус Literature_with_idioms - это прежде всего литературные произведения, то есть, аналогичные исходным текстам стилистически, синтаксически и грамматически, в то время как в корпусе General_Reading_up_to_1st_year_college содержатся тексты новостные, газетные, научные и т.д.

Также следует отметить, что во втором эксперименте исходного исследования также осуществлялся анализ количества воспроизведенных пропозиций в зависимости от одного из четырех уровней. Можно выдвинуть гипотезу и экспериментально ее проверить, что ЛСА способен дать прогноз по этим показателям. Эта гипотеза будет проверена в будущих исследованиях.

Таким образом, можно утверждать, что результаты проведенного эксперимента согласуются с результатами эксперимента Thorndyke. ЛСА может заменить пропозициональный анализ при исследовании понимания текстов, и оценки, полученные с помощью него, валидны как количественные меры понимания текстов.

литература

1. Thorndyke, P. W. Cognitive structures in human story comprehension and memory (Tech. Rep. p-5513). Santa Monica, Calif.: Rand Corporation, 1975.

2. Landauer, T. K., & Dumais, S. T. (1997). A solution to Plato's problem: the Latent Semantic Analysis theory of the acquisition, induction, and representation of knowledge. Psychological Review, 104, 211-240.

3. Landauer, T. K., Foltz, P. W., & Laham, D. (1998). Introduction to Latent Semantic Analysis. Discourse Processes, 25,259-284.

4. Курицин С.В., Воронин В.М. Исследование оценки понимания нарративных и экспозиторных текстов с применением латентного семантического анализа. Сибирский психологический журнал, 2009. № 33, С. 25-30.

5. Воронин В.М., Курицин С.В., Касатов А.П., Наседкина З.А. Применение латентного семанитического анализа как новый подход к автоматизированной

оценке свободных развернутых ответов. Гуманизация образования, 2015, №6, С. 61-65.

6. Воронин В.М., Курицин С.В., Наседкина З.А. Автоматический анализ объяснений учащимися нарративного текста. Гуманизация образования, 2016, №2, С. 83-89.

7. Head, H. (1927). Aphasia and Kindred Disorders of Speech. Mind, 36 (141), 83-87.

8. Bartlett, F.C. (1932). Remembering: A study in experimental and social psychology. Cambridge: Cambridge University Press.

9. http://lsa.colorado.edu

Кузнецова Л.Э.

образ мира как фактор социализации детей, лишенных родительского попечения

Проблема развития детей, лишенных родительского попечения, воспитывающихся в социально-реабилитационных центрах, в детских домах, достаточно актуальна в наши дни. Система общественного воспитания, при которой ребенок лишается родительской заботы, во всем мире, и в том числе в России, признана неадекватной потребностям развития ребенка, не обеспечивающей полноценное психическое развитие личности.

Джон Боулби пришел к выводу, что проблема коренится не в самой сути общественного воспитания, а в отсутствии условий, при которых ребенок, лишенный родительского попечения мог бы установить интимные, эмоционально насыщенные и устойчивые отношения с объектом привязанности, что необходимо для формирования здоровой, активной и адаптированной личности.

В своей работе мы поднимаем проблему особенностей социализации детей, лишенных родительского попечения. Ранняя социализация ребенка осуществляется в семье и семья является ведущим фактором социализации личности ребенка.

В раннем детском возрасте закладываются основы психического и нравственного здоровья ребенка, предпосылки для формирования полноценной личности. Успешность этого процесса определяется психологической готовностью родителей к рождению ребенка, пониманием ими своих родительских ролей и согласованностью их воспитательских позиций. В неблагополучных семьях наблюдается дисгармония взаимоотношений между супругами, нарушены детско-родительские отношения, родители достаточно

i Надоели баннеры? Вы всегда можете отключить рекламу.