Правописание и морфологическое осознание

Григоренко Е.Л.; Булвэре-Гуден Р.; Рахлина Н.В.

Психология. Журнал Высшей школы экономики. 2012. Т. 9, №1. С. 104-112.

ПРАВОПИСАНИЕ И МОРФОЛОГИЧЕСКОЕ ОСОЗНАНИЕ

Е.Л. ГРИГОРЕНКО, Р. БУЛВЭРЕ-ГУДЕН, Н.В. РАХЛИНА

Резюме

В статье рассматривается вариант коннекционистской модели чтения и ее применимость для русского языка. Модель была адаптирована путем введения морфологической составляющей и предварительно оценена на выборке, состоящей из 171 школьника 4-х, 6-х и 8-х классов. Показатели модели объяснили примерно 60% дисперсии, а ее морфологическая составляющая оказалась, как и предполагалось, информативной для предсказания навыков понимания русского языка и правописания.

Ключевые слова: коннекционистская модель, русский язык, морфологическое

осознание.

Коннекционизм — это направление позитивистской мысли таких областей знания, как науки об искусственном интеллекте, когнитивная психология, нейронауки и философия разума. Коннекционизм существует во множестве форм, самая

распространенная из которых — искусственные нейронные сети, моделирующие биологические системы взаимосвязанных нейронов и нейронных сетей. В общих чертах коннекционизм моделирует психические и поведенческие феномены

Исследования, в контексте которых были собраны эмпирические материалы, приведенные в данной статье, финансово поддерживались №Н ^С007665 и HD052120) и СRDF. Авторы благодарны всем своим коллегам, оказавшим помощь в сборе эмпирического материала и предварительной подготовке этой работы. Особая благодарность всем участникам исследования за выделенное ими время и приложенные усилия.

как процессы, возникающие в результате продуктивного взаимодействия сетей обработки информации, состоящих из простых элементов, аналогичных нейронам, которые объединены между собой в определенной структуре связями различной силы (веса). Вес связей между элементами структуры постоянно меняется в процессе обучения. Главной целью коннекцио-нистских исследований является нахождение правильной структуры и набора сил связей между элементами сети для выполнения той или иной задачи. В отечественной психологии и смежных науках присутствуют только ограниченные попытки применения коннекционистских моделей, в основном в свете изучения порождения речи в родном и иностранных языках (Ахутина, 1989; Лепская, 1997). В западной психологии коннекционизм — влиятельное течение, представленное сотнями работ. Существуют коннекционист-ские модели и чтения.

Ярким примером коннекционист-ских моделей чтения является модель, разработанная Марком Сайденбергом для английского языка (Seidenberg, 2005). Ключевой принцип этой модели — присутствие отдельно взятых групп или уровней «нейронов», т.е. единиц обработки информации, которые объединены по функциональным признакам — уровням произношения/звучания (фонология, Ф), графической репрезентации слов (орфография, О) и семантики (смысловое значение, З). Эти репрезентации распределены, т.е. сложные когнитивные процессы возникают без привлечения структурированных символических элементов, а посредством взаимодействия

ограниченного числа базовых единиц внутри уровня, приспособленных для того, чтобы представлять неограниченный набор структур (подобно тому как алфавит позволяет воспроизвести неограниченное количество слов). Фонологическая репрезентация может включать сегменты (фонемы) или их элементы (отдельные фонологические характеристики), например, характеристику «фрикативный» или «палатализованный» звук. Орфографическая репрезентация может содержать буквы или их визуальные характеристики. Порядок элементов всегда значим (т.е. кот и ток не должны отождествляться). Помимо уровней ввода и вывода информации (инпут — информация, входящая в систему, аутпут — переработанная информация, которая выдается на выходе из системы), система также обычно содержит некоторый промежуточный уровень скрытых единиц, которые, собственно, и обеспечивают обучаемость системы и позволяют осуществлять более сложное картирование, чем то, которое позволялось бы при прямом соответствии входящей и выходящей информации. Переработка включает активацию единиц, соответствующую характеристикам инпута (например, правописание слова) и позволяющую волне активации докатиться до аут-пута (например, произношение слова) посредством активации связующих единиц. Каждая связь (connection, отсюда — rannectionism, кон-некционизм) характеризуется некоторым коэффициентом, моделирующим поток активации. Все эти элементы создают простую фид-форвард или впередбегущую волну активации, т.е.

волну, движение которой может осуществляться только в одном направлении — вперед (т.е. от инпуга — через слой скрытые элементов — в аутпут). Более сложные системы возникают за счет добавления связок между единицами внутри одного слоя и между единицами уровней входа и выхода, обратной связи (от скрытых элементов к орфографии), дополнительных скрытых слоев, единиц, представляющих контекст, в котором данное конкретное слово появляется чаще всего, и других вычислительных элементов.

Модели дается задача, с которой сталкивается каждый начинающий читатель: посмотрев на написанное слово, определить его произношение и значение. С точки зрения коннек-ционистской сети эта задача состоит в нахождении правильного набора коэффициентов aктивации. Несколько обучающих принципов используются для того, чтобы подогнать коэффициенты, основываясь на примерах. Некоторые из этих принципов напрямую связаны с тем, как происходит обучение на нейронном уровне; другие принципы отражают то, что происходит на вычислительном уровне, абстрагируясь от нейрофизиологических деталей.

Принципиальное допущение модели заключается в том, что достижение системой соответствия между написанием слова и его звучанием является примером статистического научения (Altmann, 2002). Bо многих исследованиях (Harm, Seidenberg, 1999, 2004; Plaut et al., 1996; Seidenberg, McClelland, 1989) и на материале нескольких языков (Pagliuca, Monaghan, 2010; Sera et al., 2002) было показано, что модель

может научиться правильно читать тысячи слов. Модель учится на наборах слов; множество разных слов с различными паттернами правописания предъявляется модели в качестве инпута. Основываясь на этих тренировочных словах, модель создает разветвленные сети коэффициентов. При произношении каждого слова изначально используются все коэффициенты, и по мере предъявления слов (т.е. в ходе тренировки системы) коэффициенты меняются, все больше и больше дифференцируясь, особенно для единиц, которые часто приводят к неправильному произношению. Таким образом, модель может работать как с типичными (т.е. читаемыми по правилам), так и с нетипичными (т.е. читаемыми согласно исключениям) словами.

Однако модель, задачей которой является простое нахождение соответствия между графической и звуковой репрезентациями слова, представляет собой ограниченный интерес. То, что стоит за процессом картирования (перевода графемы в фонему и обратно), значимо только в контексте понимания (т.е. определения смысла) прочитанного. Поэтому главной задачей коннекционистской модели чтения является задача установления (вычисления, в терминах модели) значения декодированного слова. Когда процесс чтения только формируется, модель и, соответственно, юный читатель используют в основном путь О-Ф-З. Однако с увеличением опыта как модель, так и формирующийся читатель все больше и больше начинают ориентироваться на путь О-З. При этом путь О-Ф-З не исчезает, он используется в том случае, когда на пути модели

(и читателя) встречается неузнаваемое слово; такое слово сначала надо озвучить и только потом понять. Так, оба пути всегда в готовности, но то, какой из них активируется, определяется характеристиками перерабатываемых слов (т.е. их статистическими характеристиками): частотой их встречаемости (например, опала — слово низкочастотное) и тем, насколько их правописание соответствует правилам (например, солнце — слово, не соответствующеe правилам). Сама модель является репрезентацией этих статистических закономерностей, а ее алгоритм научения — это способ овладения знанием, основанным на этих статистических закономерностях.

Несмотря на свое большое значение в зарубежной психологии, коннек-ционистская модель чтения никогда в российской психологии не рассматривалась. Необходимо отметить, что, в силу своей лингвистической ориентации, просто заимствовать эту модель нельзя. Русский и английский языки лингвистически достаточно далеки друг от друга, поэтому модель должна быть модифицирована, адаптирована к русскому языку.

Один из возможных методов адаптации, которым эти модели должны подвергаться, переходя от языка к языку, — изменение матриц коэффициентов, соединяющих компоненты Ф, О и З модели. Так, в отличие от английского, картирование пути О-Ф, в большинстве своем, определяется правилами и характеризуется относительно небольшим количеством исключений; однако путь Ф-О содержит большое количество исключений из правил. Так, при «переводе» на русский язык (или

разработке русской версии) модель ФОЗ является асимметричной (Kornev et al., 2011). Другим путем является введение в модель новых элементов, например элементов, описывающих морфологические (М) репрезентации языка. Эти репрезентации развиваются за счет промежуточных единиц в модели; они опосредуют связи между Ф, О и З и определяют морфологическую структуру и степень морфологической регулярности/нерегулярности каждого слова, чтобы, опознав нерегулярное слово, разложить его на морфемы. (Этот навык называется морфологическим осознанием.) Таким образом, лексическая активация — это активация корня слова, а не всего слова (Stockall, Marantz, 2006). Русский язык имеет богатую морфологию, и большинство категорий слов не может употребляться без флективных элементов. Кроме того, существует богатая система словообразования, основанная на приставочно-суф-фиксальной основе (например, глагольные приставки выражающие направление движения или аспекту-альные характеристики действия). Следовательно, этот промежуточный уровень переработки информации при моделировании русского языка является очень важным. В русском, где правописание организовано преимущественно на основе принципов морфологической устойчивости (Gri-gorenko, 2003, 2005), оба пути, О-Ф и Ф-О, ориентируются на промежуточный уровень М, который способствует правильной идентификации и, соответственно, правильному означиванию слова.

В контексте типичного онтогенеза чтения хорошо развитые навыки

декодирования, соответствующие богатому словарному запасу, и система, в целом характеризуемая сильными фонологическими, орфографическими и морфологическими навыками, приводят к точному и эффективному пониманию прочитанного. Однако при дизонтогенезе чтения каждый из перечисленных компонентов может «выпасть» из системы, нарушая ее функционирование.

В данной работе коннекционист-ская модель чтения впервые опера-ционализирована для русского языка. Трехкомпонентная модель (ФОЗ), разработанная для английского языка, модифицирована для русского путем введения дополнительной морфологической составляющей (ФМОЗ). Каждая составляющая измерялась специально раработанными оригинальными инструментами. Более детально фонологическая (Ф) составляющая измерялась заданием из 60 триад псевдослов, причем одно из этих слов звучало как реальное слово (его и нужно было назвать, например, в триаде «понце, сонце, сонек» сонце звучит как реальное слово). В результирующем показателе подсчиты-валось количество правильных ответов. Орфографическая (О) составляющая оценивалась заданием, основанным на так называемой задаче орфографического выбора (Olson et al., 1994) — задаче, которая позволяет оценить быстрый доступ к правильной орфографической репрезентации слов даже в присутствии фонологических псевдокопий этих слов. Это задание содержало 45 словесных триад (например, молоко, молако и малоко). В результирую-

щем показателе подсчитывалось количество правильных ответов. Задание на морфологию (М) основывалось на работах Дж. Карлисе (Carlise, 2000) и состояло из двух частей: задания на словоизменение (т.е. 28 задач на инфлекционную морфологию) и задания на словоде-композицию (т.е. 28 задач на деривационную морфологию). В результирующем показателе подсчитывалось количество правильных ответов в обоих типах задач. Кроме того, означивание и понимание (З) в языках, которые менее сложны в фонo-гра-фических связях, чем английский (например, в русском), согласно примерам в литературе составляющая З может измеряться путем специальной оценки правописания (т.е. когда правописание проверяется в контексте). В данной работе задание на правописание включало 56 задач; в этих задачах, для того чтобы грамматически правильно написать слово, необходимо понять контекст предложения, в котором это слова дается. В результирующем показателе подсчитывалось количество ошибок, допущенных при выполнении этого задания.

В исследовании принял участие 171 школьник, 93 (54.4%) девочки и 78 (45.6%) мальчиков, учащиеся 4-х (п = 57, 33.3%), 6-х (п = 53, 31%) и 8-х (п = 61, 35.7%) классов общеобразовательных школ одного из региональных центров Российской Федерации. Исследование проводилось по согласованию с родителями школьников и администрацией школы.

Как указывалось выше, основной идеей данного исследования была адаптация коннекционистской модели

чтения, разработанной для английского языка, к русскому языку путем введения морфологической составляющей модели. Эта адаптация может быть верифицирована путем применения инференциальной статистики. Были оценены две регрессионные модели, предсказывающие показатели правописания в контексте (выраженные переменной З) и включающие одинаковые наборы переменных: 1) демографические показатели (т.е. класс, в котором учится ребенок, и его пол); 2) фонологическую составляющую модели (Ф); 3) орфографическую составляющую модели (О); 4) морфологическую составляющую (М). В одной регрессионной модели эти переменные вводились пошагово, начиная с

(1) и заканчивая (4), а в другой — наоборот (см. таблицу 1). Если допущение о значимости морфологической составляющей в модели для русского языка верно, то с этой составляющей будет связан независимый вклад в дисперсию по показателям правописания.

Как видно из таблицы 1, допущение о значимости морфологической составляющей в коннекционистской модели для русского языка оказалось правильным. Иными словами, независимо от того, вводится ли показатель выполнения морфологических задач последним (Модель 1) или первым (Модель 2), он отвечает за вклад в вариативность показателей правописания; в первом случае этот вклад составляет примерно 8%,

Таблица 1

Результаты регрессионного анализа

Характеристики моделей Модель 1

Блоки переменных Я2 F (Р) АН2 а1 t (Р)

Класс 0.322 39.9 (0.00) 0.322 0.09 1.75 (0.08)

Пол -0.31 -5.33 (0.00)

Ф 0.359 31.1 (0.00) 0.037 -0.06 -1.06 (0.29)

О 0.519 44.8 (0.00) 0.160 -0.19 -2.80 (0.01)

М 0.597 48.9 (0.00) 0.078 -0.42 -5.66 (0.00)

Модель 2

Класс 0.597 48.9 (0.00) 0.079 0.09 1.75(0.08)

Пол -0.31 -5.33(0.00)

Ф 0.518 59.9 (0.00) 0.008 -0.06 -1.06 (0.29)

О 0.511 87.7 (0.00) 0.011 -0.19 -2.80 (0.01)

М 0.500 168.8 (0.00) 0.500 -0.42 -5.66 (0.00)

Примечание. Коэффициенты приведены для полной модели. Пол кодировался следующим образом: 0 — девочки, 1 — мальчики.

а во втором — примерно 50%. В дополнение к этому общему и основному выводу было отмечено следующее.

Во-первых, в целом общее количество объясненной дисперсии составило 59.7%, что свидетельствует о том, что модель работает адекватно. Однако коэффициенты для каждой из переменных варьируются, показывая, что в полной модели коэффициенты переменных класса школьника и индикатора Ф являются статистически незначимыми. Исключение этих переменных из регрессионного уравнения снижает общий показатель количества объясненной дисперсии (при удалении переменной пола — до 59,0%, при удалении переменной Ф — до 59.4%, а при удалении обеих переменных — до 58.8%).

Во-вторых, тот факт, что предсказательная сила индикатора Ф в кон-некционистской модели для русского языка является незначимой до такой степени, что может быть исключена из модели без значимой и существенной потери в объясненной дисперсии, является интересным и заслуживает дальнейшего изучения. Доминирующая роль индикатора Ф в версии модели для английского языка считается давно установленной (Wagner, Torgesen, 1987). В последнее время, однако, были высказаны сомнения по поводу того, что закономерности, полученные на при-

мере английского языка, могут быть использованы полностью или даже частично для других языков мира (Share, 2008). Данная работа подчеркивает важность вдумчивого подхода при переносе концептуальных моделей, выработанных для определенной языковой системы, в другую языковую систему.

В-третьих, аутпут, который рассматривался в этой работе, представляет собой не непосредственное понимание слова и либо его прочи-тывание вслух, либо опознание, а истолкование в контексте других слов и написание. Такой вариант аутпута или показателя индивидуальных различий по показателям овладения письменной речью часто используется в языках, где фонографическое картирование не является таким сложным, как в английском языке. К таким «прозрачным» языкам относится, например, немецкий, где применяются формы аутпута (Landerl, Wimmer, 2008), сопоставимые с теми, которые использовались в данном исследовании. Вполне возможно, что роль составляющей Ф будет другой, более традиционной для английских коннекционистских моделей формы аутпута (для этого надо формировать выборку участников, находящихся на более ранних ступенях овладения чтением). Вариативность по показателю декодирования слов в «прозрачных» языках резко уменьшается, когда навык чтения автоматизируется.

Литература

Ахутина Т.В. Порождение речи. Нейро-лингвистический анализ синтаксиса. М.: ЛКИ, 1989.

Лепская Н.И. Язык ребенка: (Онтогенез речевой коммуникации). М.: Изд-во Моск. ун-та, 1997.

Altmann G.T.M. Statistical learning in infants // Proceedings of the National Academy of Sciences. 2002. 99. 15250-15251.

Carlise J.F. Awareness of the structure and meaning of morphologically complex words: Impact on reading // Reading and Writing. 2000. 12. 169-190.

Grigorenko E.L. Matryoshka, matryozh-ka, or motryoshka: The difficulty of mastering reading and spelling in Russian // N. Goulandris (ed.). Dyslexia in different languages: A cross-linguistic comparison. London, UK: Whurr Publishers, 2003. P. 92-111.

Grigorenko E.L. If John were Ivan: Would he fail in reading? // R.M. Joshi, P.G. Aaron (eds.). Handbook of orthography and literacy. Mahwah, NJ: Lawrence Erlbaum Associates, 2005. P. 303-320.

Harm M.W., Seidenberg M.S. Phonology, reading acquisition, and dyslexia: insights from connectionist models // Psychological Review. 1999. 106. 491-528.

Harm M.W., Seidenberg M.S. Computing the meanings of words in reading: cooperative division of labor between visual and phonological processes // Psychological Review. 2004. 111. 662-720.

Kornev A.N., Rakhlin N, Grigorenko E.L. Dyslexia from a cross-linguistic and cross-cultural perspective: The case of Russian and Russia // Learning Disabilities: A Contemporary Journal. 2011. 8. 41-69.

Landerl K, Wimmer H. Development of word reading fluency and spelling in a consistent orthography: An 8-year follow-up // Journal of Educational Psychology. 2008. 100. 150-161.

Olson R.K., Forsberg H, Wise B.W., Rack J. Genes, environment and the development of orthographic skills //V. Beringer (ed.). The varieties of orthographic knowledge. Dordrecht, The Netherlands: Kluwer, 1994. P. 27-72.

Pagliuca G, Monaghan P. Discovering large grain sizes in a transparent orthography: Insights from a connectionist model of Italian word naming // European Journal of Cognitive Psychology. 2010. 22. 813-835.

Plaut D.C., McClelland J.L., Seidenberg M.S., Patterson K. Understanding normal and impaired word reading: Computational principles in quasi-regular domains // Psychological Review. 1996. 103. 56-115.

Seidenberg M.S. Connectionist models of word reading // Current Directions in Psychological Science. 2005. 14. 238-242.

Seidenberg M.S., McClelland J.L. A distributed, developmental model of visual word recognition and naming // Psychological Review. 1989. 96. 523-568.

Sera M.D., Elieff C, ForbesJ, Burch M.C, Rodriguez W, Dubois D.P. When language affects cognition and when it does not: An analysis of grammatical gender and classification // Journal of Experimental Psychology: General. 2002. 131. 377-397.

Share D.L. On the anglocentricities of current reading research and practice: The perils of overreliance on an «outlier» orthography // Psychological Bulletin. 2008. 134. 584-615.

Stockall L, Marantz A. A single route, full decomposition model of morphological complexity: MEG evidence // The Mental Lexicon. 2006. 1. 85-123.

Wagner R.K., Torgesen J.K. The nature of phonological processing and its causal role in the acquisition of reading skills // Psychological Bulletin. 1987. 101. 192-212.

Григоренко Елена Леонидовна, доцент факультета психологии МГУ им. М.В. Ломоносова, кандидат психологических наук

Контакты: elenalgrigorenko@gmail.com

Булвэре-Гуден Регина (Boulware-Gooden Regina), Образовательный центр «Ньюхаус» (США), вице-президент по исследовательским программам, PhD

Контакты: rgooden@neuhaus.org

Рахлина Наталья Валерьевна, научный сотрудник Центра ребенка Йельского университета (США), PhD, Post-Doctoral Associate

Контакты: natalia.rakhlin@yale.edu

Правописание и морфологическое осознание Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Григоренко Е. Л., Булвэре-гуден Р., Рахлина Н. В.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Григоренко Е. Л., Булвэре-гуден Р., Рахлина Н. В.

Spelling and Morphological Awareness

Текст научной работы на тему «Правописание и морфологическое осознание»