Научная статья на тему 'Количественные методы обработки данных в исторической социолингвистике'

Количественные методы обработки данных в исторической социолингвистике Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
513
77
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИСТОРИЧЕСКАЯ СОЦИОЛИНГВИСТИКА / КОРПУСНАЯ ЛИНГВИСТИКА / КОЛИЧЕСТВЕННЫЕ МЕТОДЫ АНАЛИЗА ‌ДАННЫХ / HISTORICAL SOCIOLINGUISTICS / CORPUS LINGUISTICS / QUANTITATIVE METHODS OF DATA ANALYSIS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Семененко Галина Николаевна

В статье рассматривается методология анализа данных диахронических языковых корпусов. Определяется потенциал широкого использования количественных аналитических методов в социолингвистических диахронических исследованиях вариативности и языковых изменений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Qualitative methods of data processing in historical sociolinguistics

The article considers the methodology of analyzing data extracted from diachronic corpora. It also discusses the potential of the quantitative analytical methods for studying language variation and language change.

Текст научной работы на тему «Количественные методы обработки данных в исторической социолингвистике»

Секция 5. Лингвистика

зависит выбор грамматических форм. Например, если текст написан в публицистическом стиле, то учащиеся должны отдать предпочтение спрягаемым формам глагола, где это возможно, тогда как в текстах научного стиля студенты будут преимущественно использовать причастия и деепричастия там, где это возможно в соответствии с синтаксисом предложения.

Конечно, работа с упражнениями на порядок слов традиционно строится по принципу «от простого — к сложному». Так, упражнения на восстановление порядка слов и на использование слов в нужных грамматических формах при фиксированном порядке слов возможно и целесообразно использовать в начале обучения по программе С1, а упражнения на составление сложного синтаксического целого приобретают

особое значение после первой трети курса С1. Работа с текстом — из-за относительно большого объёма и из-за разнообразия синтаксических конструкций — приобретает особую актуальность в заключительной трети обучения по программе С1 и предоставляет исключительные возможности для совершенствования синтаксических навыков и коммуникативных умений тем, кто изучает язык от уровня С1 к уровню С2.

Таким образом, следует констатировать, что группа таких простых на первый взгляд упражнений при регулярном использовании в процессе обучения позволяет достичь значительных результатов при формировании, развитии и совершенствовании синтаксических навыков студентов, изучающих русский язык как иностранный.

Список литературы:

1. Сиротинина О. Б. Порядок слов в русском языке. Изд. 2-е, стереотипное. - М.: Едиториал, - УРСС, -2003. -172 с.

2. Русская грамматика. Том II. Синтаксис. - М.: Наука, - 1980. - 710 с.

3. Щенникова Н. В. Специфика английской речи носителей русского языка: когнитивный аспект//Вестник Балтийского федерального университета им. И. Канта. - 2014. - Вып. 2 - с. 106-116.

Semenenko Galina Nikolayevna, Ph. D., Associate Professor, Kyiv National Linguistic University E-mail: gsemenenko@yahoo.com

Qualitative methods of data processing in historical sociolinguistics

Abstract: The article considers the methodology of analyzing data extracted from diachronic corpora. It also discusses the potential of the quantitative analytical methods for studying language variation and language change.

Keywords: historical sociolinguistics, corpus linguistics, quantitative methods of data analysis.

Семененко Галина Николаевна, канд. филол. наук, доцент, Киевский национальный лингвистический университет

E-mail: gsemenenko@yahoo.com

Количественные методы обработки данных в исторической социолингвистике

Аннотация: В статье рассматривается методология анализа данных диахронических языковых корпусов. Определяется потенциал широкого использования количественных аналитических методов в социолингвистических диахронических исследованиях вариативности и языковых изменений.

Ключевые слова: историческая социолингвистика, корпусная лингвистика, количественные методы анализа данных.

При объективной недоступности образцов уст- тексты разных жанров, сохранившиеся с ранних ной речи, основным источником данных для исто- этапов языкового развития. В этой ситуации слож-рической социолингвистики служат письменные но переоценить роль компьютеризированных

67

Section 5. Linguistics

языковых корпусов, например, Хельсинского корпуса, ряда языковых корпусов группы Brown, корпуса ARCHER или корпуса раннеанглийской переписки РСЕЕС, появившихся в результате плодотворных взаимоотношений лингвистики, истории и информационных технологий. Задача статьи состоит в описании методов количественных исследований этих корпусов для решения основных задач диахронической социолингвистики.

Любое исследование только выигрывает от использования количественных методов, тем более что качественные методы часто подвергаются критике за сложность воспроизведения и подтверждения результатов анализа. Большое значение при количественном корпусном анализе имеют так называемые экспериментальные технологии, созданные для трансформации сложных рядов данных в итоговую (часто визуализированную) репрезентацию, которая позднее интерпретируется аналитиками и часто приводит к формулированию новой гипотезы.

Корпусные социолингвистические исследования посвящены сравнению частотности объективно вычисляемых языковых признаков, т. е. количественному анализу полученных примеров. Типичная задача исследования в рамках вариативной социолингвистики формулируется так: верно ли, что переменная х используется по-разному в корпусе А и в корпусе Б (например, корпусы текстов разных периодов, разных региональных/национальных вариантов, устные или письменные)? Для получения ответа этот вопрос необходимо трансформировать в гипотезу — утверждение, подлежащее проверке. В зависимости от результатов тестов гипотеза принимается или отвергается.

Одним из популярных статистических методов социолингвистического исследования является логистическая регрессия, которую используют для тестирования гипотезы о том, обусловлено ли чередование вариантов языковых переменных разными аспектами социальной ситуации говорящего с учетом влияние языковой среды [6]. Например, У. Дж. Эшби использовал логистическую регрессию для анализа вариативности в употреблении частицы ne во французском языке — в устной речи ne часто опускается, поскольку возражение актуализировано еще одним элементом. Эшби пришел к заключению, что возраст, социальный класс и гендер оказывают влияние на неупотребление отрицательной частицы ne, а именно, молодежь, низшие слои среднего класса и женщины отдают предпочтение

пропозициональному возражению без частицы ne [1]. Социолингвистические исследования такого рода неоднократно демонстрировали, что языковая вариативность коррелирует с факторами, связанными с социальной ситуацией говорящего, например, возраст, гендер, этническая принадлежность, социально-экономический статус.

Немаловажно, что количественные исследования изменений в языковой структуре в разные исторические периоды помогают в решении глобальных лингвистических проблем, например, установлении времени и особенностей процесса языкового изменения, выделении отдельных фаз такого процесса, определении взаимосвязанности или, наоборот, независимости изменений в формальных и функциональных признаках языковой формы, выделении причин и движущих сил процесса языковых изменений, их относительную важность в пространстве и времени, сравнении случаев языковых изменений в прошлом с языковыми изменениями, которые происходят в настоящем. Разумеется, социолингвистические исследования диахронии имеют много общего с синхроническими количественными студиями [7] на теоретическом и методологическом уровнях. Такая похожесть не является случайной, поскольку языковая вариативность, находящаяся в центре внимания современных вариативистов, — это ключевой фактор объяснения прошедших и текущих языковых изменений.

Историческая лингвистика зависит от анализа аутентичных данных, тем не менее, не все проблемы исследования заставляют ученых применять количественные методы — некоторые процессы языковых изменений проявляются в качественных отличиях, например, лексические единицы выходят из обихода, доминирующие модели порядка слов (V2 в истории английского языка) перестают быть таковыми (конечно, эти процессы также можно выразить количественно, когда на определенном этапе языкового развития частота употребления анализируемых единиц будет равняться нулю). Однако, тщательная цифровая обработка диахронических данных становится необходимой в случае не простой констатации факта изменения, но исследования внутренней динамики такого изменения. Количественные исследования являются неотъемлемой частью многофакторных объяснений процесса языковых изменений, включающих множественные формальные, функциональные, внешние социальные факторы; современная статистика существенно облегчает анализ

68

Секция 5. Лингвистика

взаимодействия между формальными, функциональными и внешними факторами для определения того, оказывает ли каждый фактор влияние независимо от других [5]. Предпосылка о независимом влиянии каждого фактора, использующаяся в подавляющем большинстве исследований, нуждается в доказательной базе, обеспечить которую можно только путем тестирования взаимодействия всех факторов. Количественные методы также используются для исследования взаимодействия времени, с одной стороны, и формальных, функциональных и внешних социальных факторов, с другой стороны, с целью определения действия одного и того же фактора в каждом временном промежутке, или выявления динамики влияния конкретного фактора на выбор говорящих. Без такого взаимодействия невозможно проводить сравнение особенностей функционирования языка в разные периоды его развития.

Некоторые исследователи используют комплексные подходы, часто в форме многофакторного регрессионного анализа. Регрессионный анализ предполагает оценку влияния на зависимую переменную (или реакцию) одной или больше независимых переменных (или предикторов). Важно, что и реакция, и предикторы могут быть разного типа, например, бинарными (синтетические и аналитические формы степеней сравнения прилагательных), категориальными или порядковыми (одушевлен-ные/неодушевленные/абстрактные), или цифровыми (продолжительность звучания или длина слова в фонемах); в зависимости от характера зависимой переменной используется бинарная логистическая регрессия, полиномиальная, порядковая логистическая регрессия, или линейная регрессия. Основным преимуществом регрессионных моделей является то, что они позволяют исследователям рассматривать эффект нескольких предикторов (и их взаимодействие) одновременно [2, 165-236] и определять предикторы, имеющие значительное влияние на языковой выбор говорящих, и как именно реализуется это влияние (делает ли конкретный предиктор выбор более возможным). Тем не менее, несмотря на большие преимущества регрессионного моделирования, существуют исследования, не предусматривающие сравнения частотности определенных явлений в разные исторические периоды [3]. Например, для исследования употребления абсолютных причастных предложений в средне- и ранненовоанглийский периоды недостаточно анализа отдельных примеров или частоты употребления абсолютных

предложений в сравнении с другими финитными и нефинитными синтаксическими конструкциями. Необходимо, прежде всего, идентифицировать контексты, в которых употребляются эти предложения, а потом определить формальные, функциональные и внешние социальные особенности этих контекстов. На абстрактном уровне, решения исследователя основаны на необходимости определить, что “во временной период Х контекстуальная особенность Y оказывала влияние на выбор говорящих в пользу новой синтаксической конструкции с относительной силой Z” [4, 50]. Анализируя влияние контекстуальных особенностей в определенные временные промежутки, исследователи получают дифференцированную картину особенностей процесса языковых изменений. Появляется возможность определить относительную роль контекстуальных особенностей, и силу их влияния в исследуемый промежуток времени. Также можно установить взаимодействие двух и более контекстуальных особенностей — наблюдался ли ощутимый эффект в случае их общего действия, или отсутствовал в случае их изоляции. Наблюдение такого типа очень тяжело делать на основе анализа отдельных примеров, количественный корпусный анализ в этом случае выполняет функцию увеличительного стекла, позволяя ученым обнаружить явления, которые, в ином случае, могли пройти мимо их внимания.

Необходимо отметить, что высокое качество полученных данных не является самоцелью: точная информация о процессе языкового изменения является важной предпосылкой для обсуждения причин и характера языковых изменений: изменение может быть результатом действия социальных факторов (американизация, колонизация), иметь культурные или жанровые особенности развития (осложнение, упрощение), быть вызванным структурными сдвигами (обобщение, аналогическое выравнивание). Установление связей между процессом изменения и потенциально конкурирующими факторами языковых изменений должно начинаться с определения факторов изменений после тщательного экспертного анализа. Именно в этом случае количественные методы имеют преимущество над качественными: количественный анализ позволяет определять относительное влияние серии факторов, отделять важное от неважного. Так, анализ может подтвердить, что определенный фактор имел лишь незначительное влияние и это влияние можно игнорировать — по меньшей мере, при анализе конкретной выборки

69

Section 5. Linguistics

и населения, для которого эта выборка репрезентативна. Доказать это довольно убедительно на основе лишь качественных данных задача достаточно сложная. Конечно, не подвергается сомнению тезис о том, что любое количественное исследование невозможно без качественного обоснования, в то же время необходимо указать, что количественный анализ процесса языковых изменений чрезвычайно важен для качественного обоснования.

Результаты, полученные благодаря применению статистических методов и приемов, часто указывают на то, что модели языкового использования подвергаются незаметным на первый взгляд изменениям, которые невозможно обнаружить путем сравнения отдельных примеров, при этом их значение тяжело переоценить в терминах общего процесса языкового изменения. Во-первых, вариативный подход к анализу использования альтернативных языковых единиц, выполняющих одинаковую функцию, плодотворно перенесен на регрессивный анализ вариативности в процессе языкового развития. Благодаря диахроническим языковым корпусам, представляющие последовательные периоды развития языка, время может быть включено в анализ как один из взаимодействующих предикторов, также появляется возможность сравнить вариативность в современности с вариативностью на ранних этапах языкового развития. Во-вторых, количественный анализ предлагает детальное рассмотрение происходивших изменений, позволяя таким образом определить

конкретные факторы влияния на процесс языкового изменения в разные промежутки времени. Динамика диахронического варьирования может находиться в диапазоне от относительной стабильности до существенной реорганизации, когда необходимо внимание к деталям: исследование должно не просто дать ответ на вопрос о влиянии того или иного фактора, но и определить время начала действия такого фактора и изменения в силе влияния в процессе развертывания языкового изменения. В-третьих, результаты количественных исследований часто указывают на отсутствие влияния, что подразумевает невалидность гипотезы, предусматривавшей наличие такого влияния.

Количественные методы имеют значительный потенциал для исторических корпусных исследований, в первую очередь для определения масштабов вариативности, являющейся ключевым фактором в процессе языковых изменений, для чего необходимо иметь аналитические инструменты, обеспечивающие обработку комплексных данных и позволяющие проводить детальный анализ языковых событий. Кроме того, количественные аналитические методы обращают внимание на явления, которые бы в другом случае остались незамеченными исследователями. Тем не менее, отметим, что все статистические методы анализа диахронических данных находятся в процессе становления, они нуждаются в дальнейшем тестировании и усовершенствовании.

Список литературы:

1. Ashby W. J. The loss of the negative particle ne in French: A syntactic change in progress. - Language. - 1981. -No. 57. - P. 674-687.

2. Baayen R. H. Analyzing Linguistic Data: A Practical Introduction to Statistics. - Cambridge: Cambridge University Press, - 2008.

3. Gries S. Th. Commentary: corpus-based methods//Current Methods in Historical Semantics. - Berlin/New York: Mouton de Gruyter, - 2011. - P. 184-195.

4. Hilpert M. Constructional Change in English: Developments in Allomorphy, Word Formation, and Syntax. -Cambridge: Cambridge University Press, - 2013.

5. Hilpert M., Gries S. Th. Quantitative approaches to diachronic corpus linguistics//The Cambridge Handbook of English Historical Linguistics. - Cambridge: Cambridge University Press. Forthcoming.

6. Sankoff D., Labov, W. (1979). On the uses ofvariable rules//Language in Society. - 1979. - No. 8. - P. 189-222.

7. Tagliamonte S. A. Analysing Sociolinguistic Variation. - Cambridge: Cambridge University Press, - 2006.

70

i Надоели баннеры? Вы всегда можете отключить рекламу.