ЧАСТОТНОСТЬ И ДИСТРИБУЦИЯ ЕДИНИЦ ОБЩЕНАУЧНОЙ (АКАДЕМИЧЕСКОЙ) ЛЕКСИКИ КАК МАРКЕРЫ ДИСЦИПЛИНАРНОЙ ПРИНАДЛЕЖНОСТИ ДИСКУРСА

Беляева Татьяна Рафаэловна

Litera

Правильная ссылка на статью:

Беляева Т.Р. — Частотность и дистрибуция единиц общенаучной (академической) лексики как маркеры дисциплинарной принадлежности дискурса // Litera. - 2021. - № 6. DOI: 10.25136/2409-8698.2021.6.35902 URL: https //nbpubMLcom/faary_read_article.php?id=35902

Частотность и дистрибуция единиц общенаучной (академической) лексики как маркеры дисциплинарной принадлежности дискурса

Беляева Татьяна Рафаэловна

соискатель, Факультет иностранныхязыков и регионоведения, Мзсковский государственный

университет имени М В. Ломоносова

119991, Россия, г. Мзсква, ул. Ленинские Горы, 1, стр. 13-14, оф. 213

И [email protected]

Статья из рубрики "Лингвистика"

DOI:

10.25136/2409-8698.2021.6.35902

Дата направления статьи в редакцию:

09-06-2021

Аннотация: Настоящая статья посвящена корпусному исследованию функционирования единиц общенаучной (академической) лексики в различных видах дисциплинарного дискурса, цель которого заключается в проверке гипотезы о наличии у общенаучной лексики особой функции - маркировать дисциплинарную принадлежность академического (научного) текста. В эпоху все возрастающей математизации и цифровизации научного знания корпусная лингвистика становится важнейшим инструментом эмпирических исследований, направленных на получение знаний о языке посредством количественного и качественного анализа собраний текстов, объем и тематика которых могут быть заданы в соответствии с конкретными задачами ученого. Особая роль в корпусных исследованиях отводится методам статистического анализа, позволяющим эффективно обрабатывать полученные количественные данные о языковых реалиях, приравнивая тем самым лингвистические исследования по степени верификации к исследованиям точных и естественных наук. В статье описывается фрагмент системного исследования функционирования общенаучной лексики, в котором при помощи статистического метода корреляционного анализа на примере более чем 100 общенаучных слов (существительных, глаголов, прилагательных и наречий) доказывается взаимосвязь между частотностью и дистрибуцией единиц общенаучной лексики и типом дисциплинарного дискурса. Научная новизна исследования заключается в комплексном подходе к анализу характерных особенностей распределения частотности общенаучных лексических единиц в 8 разновидностях

дисциплинарного дискурса, а также в применении методов описательной и математической статистики, которые позволяют наглядно продемонстрировать, что академическая лексика, наравне с терминологической, может выступать в качестве маркера дисциплинарной принадлежности дискурса.

Ключевые слова: общенаучная лексика, академическая лексика, корпусная лингвистика, количественный анализ, качественный анализ, статистика, частотность, дистрибуция, корреляционный анализ, ранговая корреляция Спирмена

Математизация и компьютеризация научного знания, являющиеся отличительными характеристиками современного этапа развития постнеклассической науки, радикальным образом изменили как средства, так и методы получения и оценки результатов исследований. Методы прикладной математики (математической статистики, IT технологий и т.д.), наряду с естественными науками, получили широкое применение и в различных областях гуманитарного знания. Одним из свидетельств подобного положения дел является растущая популярность корпусной лингвистики, обусловленная, в первую очередь, новой методологией, позволяющей применять реляционно-статистический подход к описанию языковых реалий. Методы корпусной лингвистики не только позволяют создавать коллекции текстов любых объемов и тематической или профильной специфики, но и получать достоверные, верифицированные квалитативные и квантитативные данные о языке благодаря постоянно совершенствуемым поисковым и статистическим инструментам, инкорпорированным в корпусные менеджеры (corpus manager) - функциональные оболочки лингвистических корпусов.

Статистически значимые базы данных позволяют собирать конкретную лингвистическую информацию [10: 30], объективируя и уточняя наблюдения о языке, часть из которых было бы сложно верифицировать без применения корпусных технологий. Применение методов математической статистики для оценки полученных данных дает возможность обнаруживать закономерности и тенденции в развитии языка, которые без получения четких математических моделей сложных языковых реалий могли бы остаться незамеченными. [5: 5]. В частности, методы корпусной лингвистики позволяют выявить и проанализировать особенности функционирования в речи лексических единиц, включая тонкие семантические нюансы, влияющие на парадигматику и синтагматику их взаимодействия с другими единицами языка.

Так, корпусные исследования последних десятилетий изменили представление о функционировании единиц общенаучной (академической) лексики, интерес к которой как в отечественной, так и в западной лингвистике не ослабевает со второй половины ХХ века и прежде всего обусловлен нуждами преподавания английского языка

специальности на нелингвистических факультетах высших учебных заведений До появления методов корпусной лингвистики ученые полагали, что единицы общенаучной лексики, являющиеся одним из компонентов лексики любого научного текста наравне с терминологией и словами общего языка и занимающие при этом положение «переходного звена от общего языка к языку науки» [4: 150], функционируют одинаково в любом научном дискурсе, независимо от его дисциплинарной принадлежности. Однако системное сопоставительное исследование функционирования и семантики общенаучных слов в дискурсах различных типов позволило установить обусловленные типом дискурса различия как в количественном (частотность и распределение), так и в качественном

(коллокации и семантика) отношениях -И2!. Результаты исследования позволили выдвинуть гипотезу о том, что функционирование общенаучной лексики находится в

тесной взаимосвязи с типом академического (научного) дискурса, а лексические единицы данного слоя не только не являются «общими» для всех его разновидностей, а, напротив, могут рассматриваться в качестве дискурс-специфических признаков текста, маркируя его дисциплинарную принадлежность.

В качестве материала и инструмента исследования был использован Академический подкорпус Корпуса современного американского английского языка (The Corpus of Contemporary American English,далее - COCA), созданного американским лингвистом

Марком Дэвисом ^ COCA представляет собой прекрасный пример Big Data (большого массива языковых данных) в лингвистике и является в настоящий момент единственным сбалансированным корпусом американского варианта английского языка. Обновленный в марте 2020 г., COCA содержит более миллиарда словоупотреблений и охватывает широкий спектр разнообразных языковых регистров, каждый из которых представлен отдельным подкорпусом: Spoken language, Fiction, Popular magazines, Newspapers, Academic texts, TV and Movies subtitles, Blogs и other web pages.

Академический подкорпус, в свою очередь, структурно разбит на 9 подкорпусов: 8 из них представляют дисциплины естественнонаучного и гуманитарного циклов (History, Education, Social Science, Law, Humanities, Philosophy, Science and Technology и Medicine), а подкорпус Business and Finance составляют в основном статьи из финансовых разделов газет, что не соответствует концепции научного стиля речи и явилось причиной для исключения данного подкорпуса из настоящего исследования. В отличие от Business and Finance, остальные 8 подкорпусов базируются на материалах авторитетных американских научных журналов, о чем свидетельствуют данные о включенных в подкорпусы материалах, приведенные создателями Academic Vocabulary List в статье, описывающей принципы и методы его формирования [9: 313].

До масштабной реструктуризации и модификации функционала COCA в 2020 г., частью которой в том числе стала интеграция в него Академического подкорпуса, последний был представлен отдельным ресурсом, Word and Phrase

(https://www.wordandphrase.info), с функциональной оболочкой (корпусным менеджером), позволяющей сопоставлять функционирование общенаучной лексики по всем представленным в Академическом подкорпусе направлениям научного знания.

Для того чтобы проверить, существует ли взаимосвязь между частотностью общенаучной лексики и дисциплинарной принадлежностью дискурса, необходимо было произвести выборку академических слов таким образом, чтобы она была качественно и количественно репрезентативна. Поскольку состав каждого лексического слоя (общеупотребительного, академического и терминологического) не является строго очерченными, критерием для включения общенаучных лексических единиц в выборку послужила их регистрация в двух наиболее известных и широко применяемых списках

академических слов - Academic Word List Эверил Коксхед^6 и Academic Vocabulary List Ди Гарднера и Марка Дэвиса^. ^оит подчеркнуть, что оба списка были составлены на основании статистических критериев (частотности, дисперсии и т.д.), референсные значения которых в этих списках различны. Таким образом, регистрация слов в обоих списках дает возможность составить репрезентативную выборку лексических единиц, принадлежащих слою лексики, объем которого, как и состав, определить не представляется возможным в силу онтологии самого языка, а единственными бесспорными характеристиками формирующих данный слой лексических компонентов можно считать лишь многозначность семантики и высокую частотность в произведениях научной речи.

Таким образом, был получен список из 101 общенаучного слова, почти в равных долях состоящий из существительных (accuracy, acquisition, analysis, approach, aspect, capability, capacity, category, criterion, device, hypothesis, innovation, mechanism, method, mode, paradigm, phenomenon, precision, principle, procedure, process, scope, structure, technique, theory ), глаголов (analyze, achieve, acquire, attain, clarify conduct conclude ; coordinate; deduce define demonstrate denote display, evolve, exhibit, identify, illustrate, imply, indicate, induce, infer, interpret, obtain, process, specify), прилагательных (adaptive, accessible, accurate, analogous, appropriate, available, comprehensive, concurrent, considerable, conventional, corresponding, distinctive, equivalent, global, negative, overall, positive, potential, precise, primary, principal, significant, similar, specific, traditional, unique, virtual ) и наречий (accurately, appreciably, approximately, conceptually, consequently, considerably, consistently, distinctively, dynamically , hence, intensively , likewise, nevertheless, nonetheless, potentially, precisely, previously, radically, reliably, sequentially, significantly, similarly, specifically, successively ).

Первый этап исследования заключался в сборе данных о частотном распределении (distribution) академических слов выборки, для чего была собрана информация о частотности каждой лексической единицы во всех рассматриваемых дискурсах, затем систематизированная в таблицу. Поскольку корпусы имеют разный объем, абсолютные частоты были пересчитаны в относительные (instances per million - ipm), что дало четкую картину распределения частот лексических единиц выборки по 8 рассматриваемым дисциплинарным дискурсам. В Таблице 1 приводится фрагмент данных для всей выборки (по 2 академических слова на каждую часть речи): каждая колонка представляет дисциплинарный подкорпус (дисциплинарный дискурс), а строки таблицы дают информацию о частотах, которые соответствующие общенаучные слова демонстрируют в каждом из дискурсов.

Таблица 1. Фрагмент сводной таблицы распределения частот общенаучных лексических единиц (существительных, глаголов, прилагательных и наречий) в различных видах научного дискурса

academic HisHJ Hum Phil Law Edu Soc Sci Med

words Ipm Ipm Ipm Ipm Ipm Ipm Ipm Ipm

analysis 220,2 271,6 290,5 264,4 880,8 779,8 397,8 615,5

category 105,0 160,6 124,1 106,0 336,5 306,5 122,8 152,1

process 25,5 31,2 35,1 30,9 98,4 38,0 128,3 61,5

display 54,1 126,1 51,6 31,3 86,7 79,4 110,5 55,4

overall 66,3 56,4 56,3 67,1 195,5 147,4 113,9 155,2

available 156,0 187,8 146,5 199,6 326,9 257,5 435,6 432,8

previously 70,1 66,0 58,3 61,5 105,6 102,1 88,0 119,9

similarly 77,9 92,7 71,9 91,7 106,1 104,8 65,9 53,3

При анализе частотных данных, представленных в Таблице 1 (в оригинальном исследовании в таблицу были сведены данные для всей выборки - 101 общенаучного слова), обращают на себя внимание близкие по значению частоты, которые демонстрируют общенаучные лексические единицы в дисциплинах, относящихся к одному виду дискурса, что позволяет наметить некоторые тенденции в соотношении значений лексических частот между дисциплинами гуманитарного дискурса, который представлен историческими и гуманитарными науками, юриспруденцией и философией, а

также между междисциплинарными науками (социологией и педагогикой). Так, значения частот существительного analysis в гуманитарных дискурсах варьируются в диапазоне от 220,2 ipm до 290,5 ipm, при этом разница между частотами в History, Humanities, Philosophy и Law не превышает 16%, а в междисциплинарных Education и Social Science различие частотных значений analysis составляет около 11%, но разница между наибольшим значением в гуманитарных дискурсах (Philosophy - 290,5 ipm) и наименьшим в междисциплинарных (Social Science - 779,8 ipm) превышает 3,5 раза. Такая же картина наблюдается в целом ряде других случаев, например, с частотным распределением прилагательного overall : разница между частотами overall в гуманитарных дискурсах едва превышает 9%, между частотами в социологическом и педагогическом дискурсах она составляет 24%, при этом наибольшее значение частотности в гуманитарных дискурсах (Law - 67,1 ipm) более, чем в 2 раза меньше, чем наименьшее частотное значение в мультидисциплинарных (Social Science - 147,4 ipm).

Представленный в настоящей работе фрагмент данных дает лишь общее представление о том, что частотность общенаучных (академических) слов носит дискурс-специфический характер, а ее распределение маркирует вид дисциплинарного дискурса: для проверки гипотезы потребовался комплексный анализ всех частотных значений (808 количественных показателей - 8 частотных рядов, представляющих частоты для каждого из 101 общенаучного слова в 8 подкорпусах) в их системных отношениях.

С точки зрения статистики корпусные исследования можно охарактеризовать как поиск переменных и анализ взаимосвязей между ними. В настоящем исследовании в качестве переменных выступают представленные в каждом подкорпусе ряды лексических частот, построение математической модели связей между которыми позволит установить, есть ли связь между частотностью и дистрибуцией общенаучных слов и видом дискурса.

С этой целью было решено применить один из методов математической статистики -ранговый корреляционный анализ Спирмена, универсальный непараметрический метод, получивший широкое применение не только в технических, естественных и точных науках, но и в социологии, психологии, корпусной лингвистике и даже литературоведении. Так, применение метода ранговой корреляции Спирмена для сопоставления частотных словарей языка русских поэтов разных эпох и литературных направлений позволило В.С. Баевскому установить «некоторый «общепоэтический» слой лексики, общий всем поэтам от Грибоедова, Пушкина, Лермонтова до Межирова,

Вознесенского и Высоцкого» I-1—98], а также выявить лексику, типичную для представителей одного направления или, наоборот, характерную для поэтического языка отдельных авторов.

По аналогии с приведенным выше исследованием применение корреляционного анализа Спирмена позволит выстроить модель связи между рядами частотных данных, представленных во всех рассматриваемых дискурсах: значения коэффициентов парной корреляции между дискурсами будут указывать на степень связи между ними, предоставляя тем самым данные для верификации гипотезы.

Представленные во всех исследуемых дискурсах частотные ряды были ранжированы (по

принятой в статистике традиции большему значению был присвоен меньший ранг [3, 175]), а затем были вычислены коэффициенты ранговой корреляция Спирмена для всех пар

исследуемых дискурсов по формуле rs rs - коэффициент ранговой

корреляции Спирмена,^^ сумма квадратов разностей рангов, an - число парных

наблюдений.

Результаты корреляционного анализа, который был проведен при помощи инструментов Excel, были обобщены в корреляционную матрицу (Таблица 2), а также представлены в виде гистограммы, где значения коэффициентов парной ранговой корреляции Спирмена, характеризующие силу связи между дискурсами, изображены графически, что позволяет визуализировать системные отношения между всеми видами рассматриваемых дискурсов. (Рисунок 1).

Таблица 2. Матрица коэффициентов парной ранговой корреляции Спирмена (г5) для всех исследуемых дисциплинарных дискурсов

His Hum Phil Law Edu Soc Sci Med

His

Hum 0,87

Phil 0,91 0,93

Law 0,95 0,82 0,88

Edu 0,87 0,81 0,86 0,86

Soc 0,91 0,88 0,94 0,88 0,95

Sci 0,83 0,79 0,80 0,84 0,82 0,86

Med 0,76 0,70 0,78 0,77 0,87 0,88 0,86

Значения коэффициентов корреляции Спирмена могут варьироваться в диапазоне от -1 (свидетельство наличия обратной связи) до +1 (наличие прямой корреляционной связи), а также могут равняться 0, если связь между наблюдаемыми признаками отсутствует. Чем ближе значение коэффициента корреляции к 1, тем сильнее связь между признаками.

Рисунок 1. Гистограмма значений коэффициентов парной ранговой корреляции Спирмена для всех исследуемых дискурсов

| _значения гаэффищентов шрреля!щ^ Спирмена (г^_^^^^^^^

Для интерпретации значений коэффициентов корреляции между величинами в исследованиях (в том числе в гуманитарных науках) используется шкала Чеддока [3, 19°1, предлагающая достаточно тонкую градацию силы корреляционной связи (Таблица 3).

Таблица 3. Референсная таблица Чеддока для интерпретации значений коэффициентов корреляции

Коэффициент корреляции Характеристика силы связи

rs < 0,1 связь практически отсутствует

0,1 -rs < 0,3 слабая связь

0,3 -rs < 0,5 умеренная связь

0,5 -rs < 0,7 связь средней силы

0,7 ^rs < 0,9 сильная связь

0,9 ^rs очень сильная связь

Согласно градации Чеддока анализируемые дискурсы находятся в «сильной» или «очень сильной связи», что лишь подтверждает их принадлежность к одному регистру речи -научному, отличительной характеристикой которого является в том числе высокая частотность единиц общенаучной лексики. Однако референсные значения, предложенные Чеддоком, не позволяют в полной мере интерпретировать данные, полученные в рамках настоящего исследования. Так как в статистике не существует единых теоретических оснований для оценки данных и допустимым является любой формальный алгоритм, удовлетворяющий определенным требованиям, было решено рассчитать новые интервалы градации, использовав часто применяемую в описательной статистике стратегию равной ширины диапазонов, которая, в частности, может строиться

на расчетах значений среднего арифметического [3, 175"". Таким образом, была получена новая градация (Таблица 4), позволяющая произвести анализ данных сообразно поставленной цели исследования - проверки гипотезы о наличии связи между распределением частотности общенаучных слов и принадлежностью научного текста к определенному виду дисциплинарного дискурса.

Таблица 4. Референсная таблица для интерпретации значений коэффициентов корреляции между исследуемыми дискурсами

Коэффициент корреляции Характеристика силы связи

0,70 ^ rs < 0,82 слабая связь

0,82 ^rs < 0,85 умеренная связь

0,85 ^ rs < 0,88 сильная связь

0,88 -rs ^1,00 очень сильная связь

Анализ данных попарной корреляции между рядами частот общенаучных слов выборки в каждом из исследуемых дисциплинарных дискурсов (Таблица 5) в большинстве случаев подтвердил выдвинутую гипотезу.

Таблица 5. Сила связи между исследуемыми дискурсами

пары сопоставляемых дискурсов (расположены в порядке убывания силы связи) значения коэффициентов корреляции Спирмена (rs ) характеристика силы связи

History - Law Social Science - Eduсation 0,95 0,95

Social Science - Philosophy 0,94

Humanities - Philosophy 0,93

Social Science - History 0,91

History - Philosophy 0,91 очень сильная связь

Philosophy - Law 0,88

Social Science - Humanities 0,88

Social Science - Law 0,88

Social Science - Medicine 0,88

Education - Medicine 0,87

History - Education 0,87

History - Humanities 0,87

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Medicine - Science & Technology 0,86 сильная связь

Education - Law 0,86

Philosophy - Education 0,86

Social Science - Science & Technology 0,86

Law - Science & Technology 0,84

History - Science & Technology Humanities - Law 0,83 0,82 умеренная связь

Education - Science & Technology 0,82

Humanities - Education 0,81

Philosophy - Science & Technology 0,80

Humanities - Science & Technology 0,79

Philosophy - Medicine 0,78 слабая связь

Law - Medicine 0,77

History - Medicine 0,76

Humanities - Medicine 0,70

Так, «слабая связь» прослеживается между всеми дискурсами гуманитарного цикла и медицинским дискурсом. В «слабой связи» состоят также философский и гуманитарный дискурсы с научно-техническим дискурсом, c которым, в свою очередь, юридический и исторический дискурсы находятся в «умеренной связи» (rs Law-Sci = 0,84 и rs His-Sci = 0,83 соответственно).

В самой сильной корреляции состоит большинство гуманитарных наук: «очень сильная связь» обнаруживается между историческим и юридическим дискурсами, историческим и философским дискурсами, гуманитарным (подкорпус Humanities) и философским

дискурсами, а также философским и юридическим дискурсами. «Очень сильную связь» демонстрируют между собой и междисциплинарные социологический и педагогический дискурсы, при этом каждый из данных дискурсов состоит в «очень сильной» или «сильной» связях с дискурсами гуманитарного цикла. Медицинский и научно-технический дискурсы также, что было ожидаемо, находятся в «сильной связи».

Обобщая результаты анализа системы связей между дискурсами можно прийти к заключению, что дискурсы, условно относящиеся к общественно-гуманитарной области научного знания, находятся в «очень сильной» или «сильной связи» между собой, демонстрируя при этом «слабую» или «умеренную связь» с дисциплинами естественнонаучного цикла, которые, в свою очередь, состоят между собой в «сильной» или «очень сильной» связи. Данный вывод полностью совпадает с выдвинутой гипотезой о том, что распределение частотности общенаучных слов связано с принадлежностью текста к определенной разновидности дискурса. Однако неожиданно высокие значения коэффициентов корреляции между частотными рядами, представленными в социологическом и медицинском дискурсах (rs Soc-Med = 0,88), в педагогическом и медицинском дискурсах (rs Hum-Law = 0,87), характеризующими наличие между данными типами дискурсов «очень сильной связи», а также «сильная связь» между социологическим и научно-техническим дискурсом (rs Soc-Sd = 0,86), «умеренная связь» между гуманитарным и юридическим дискурсами (rs Edu-Med = 0,82) и «слабая» между гуманитарным и педагогическим (rs Hum-Edu = 0,81) поставили гипотезу исследования под сомнение.

Так как в рамках научного исследовательского подхода общепризнанной считается дихотомия количественного и качественного анализа - взаимодополняющих друг друга видов исследовательских процедур, было решено провести тщательный качественный анализ материалов, на которых базируются подкорпусы Education, Sociology, Humanities, Law, а также подкорпусы Science & Technology и Medicine. Подобный вид анализа в корпусной лингвистике осуществляется при помощи одного из инструментов корпусного менеджера - Конкорданса (Concordance), предоставляющего список всех контекстных употреблений искомого токена (в настоящем исследовании - общенаучного слова), как правило, снабженных ссылкой на источник.

Проведенный качественный анализ позволил установить, что значительная часть научных периодических изданий, послуживших источником текстового наполнения подкорпусов академической части COCA, не была включена в предоставленный авторами Academic Vocabulary List перечень [9: 313], по причинам нам не известным. Так, подкорпус Education содержит большой объем статей из научного журнала "Rural Special Education Quarterly", посвященного вопросам специального образования и подготовки кадров для обучения людей с ограниченными возможностями: такой уклон подкорпуса Education в сферу медицины объясняет его «слабую связь» с гуманитарными дисциплинами. В материал социологического подкорпуса вошли статьи из журналов, чьи названия говорят сами за себя: "Journal of Social Psychology", "Journal of Sex Research", "Journal of Sport Behavior", "Health & Social Work", "Physical Educator", "Journal of Drug Issues". В юридическом подкорпусе превалируют статьи из журналов, посвященных юридическим аспектам налогообложения, международным исследованиям в области финансового регулирования, а также морского права и коммерции ("The Tax Lawer", "Journal of Financial Regulation and Compliance", "Journal of Maritime Law and Commerce"), что раскрывает причину наличия «умеренной связи» с гуманитарным дискурсом. И, наконец, подкорпус Science and Technology содержит тексты статей из журналов "Indian

Journal of Orthopaedics", "Asian Pacific Journal of Reproduction", "Pharmaceutical Technology", "Indian Dermatology Online Journal", "BMC Bioinformatics", "PLoS Computational Biology", "Clinical Epigenetics" и т.д., что в контексте данного исследования «роднит» научно-технический дискурс с медицинским дискурсом, а также объясняет его «сильную связь» в том числе и с социологическим дискурсом.

Таким образом, качественный анализ материалов рассматриваемых подкорпусов не только не опроверг выдвинутую гипотезу, но, напротив, позволил убедительно ее подтвердить, поскольку неожиданно высокие коэффициенты корреляции между частотными рядами выборки академических слов в дискурсах разной дисциплинарной принадлежности «сигнализируют» о включении в дисциплинарные подкорпусы текстов, отличающихся своей ярко выраженной междисциплинарностью или вовсе принадлежностью к другой области научного знания.

Полученные результаты позволяют прийти к целому ряду выводов, наиболее важным из которых для настоящего исследования является фактически подтвержденное при помощи методов математической статистики наличие тесной взаимосвязи между распределением частот единиц общенаучной лексики и типом дисциплинарного дискурса: общенаучные (академические) слова, демонстрирующие высокую частотность в том или ином научном дискурсе, можно справедливо считать маркерами его дисциплинарной принадлежности не в меньшей степени, чем терминологические единицы лексики. Моделью тематики любого дисциплинарного дискурса является частотный словарь, верхняя область которого (самые частотные общенаучные единицы) раскрывают его онтологическую сущность. Данный вывод имеет важное значение для практики преподавания языка для специальных целей в высшей школе, акцентируя внимание на необходимости составления узко-дисциплинарных списков общенаучной лексики, что позволит оптимизировать процесс преподавания языка специальности и, как следствие, отчасти минимизировать усилия студентов, его осваивающих.

Результаты проведенного исследования также демонстрируют, что материал корпуса

оказывает сильное влияние на лексическую вариативность [11], тем самым подталкивая к выводу о целесообразности создания специализированных, узко-дисциплинарных, узкотематических корпусов, так как именно они являются наиболее репрезентативными, в частности, с точки зрения лингводидактики, педагогики, а также лексикографии.

Наконец, следует отметить, что в эпоху Big Data статистика, в качестве «науки о сборе и интерпретации данных» [8: vii], проникла практически во все области научного знания, меняя саму методику исследований и подходы к трактовке результатов научных наблюдений, а работы корпусных лингвистов последнего десятилетия лишь подтверждают, что гуманитарные науки не являются исключением.

His - исторический дискурс, Hum - гуманитарный дискурс, Phil - философский дискурс, Law - юридический дискурс, Edu - педагогический дискурс, Soc -социологический, религиозный и психологический дискурсы, Sci - научно-технический дискурс, Med - медицинский дискурс.

Библиография

1. Баевский В.С. Лингвистические, математические, семиотические и компьютерные

модели в истории и теории литературы. Москва: Языки славянской культуры. 2001. -

338 c.

2. Полубиченко Л.В. Общенаучная лексика в составе научного дискурса: новые

возможности изучения. Социальные и гуманитарные науки на Дальнем Востоке. Хабаровск; ДВГУПС, том 16, № 1, 2019. С. 26 - 30.

3. Самохвалова Е., Глотова М. Математическая обработка информации. 3-е изд., испр. и доп. Учебник и практикум для вузов. Litres. 2021. - 301 c.

4. Татаринов, В. А. Общее терминоведение: Энциклопедический словарь / В. А. Татаринов. Российское терминологическое общество РоссТерм. Москва: Московский Лицей, 2006. - 528 c.

5. Brezina, V. Statistics in Corpus Linguistics: A Practical Guide. Cambridge University Press, Kindle Edition, 2018.

6. Coxhead, A. A new academic word list. TESOL Quarterly, 34(2). 2000. - pp. 213-238.

7. Davies, M. Corpus of Contemporary American English (1990-2012). 2012. URL: http://corpus.byu.edu/coca/ (дата обращения: 23.04.2021)

8. Diggle, P.J. & Chetwynd, A.G. Statistics and scientific method: an introduction for students and researchers. Oxford University Press. 2011. - 190 p.

9. Gardner, D., Davies, M. A New Academic Vocabulary List, Applied Linguistics, 35 (3). 2014. - pp. 305-327. URL: https://doi.org/10.1093/applin/amt015 (дата обращения: 20.04.2021)

10. Kozera, I. The Method of Corpus Study - Advantages and Disadvantages (On the Example of Russian National Corpus). Studia Russologica, 11. 2018. - pp. 5 - 16 DOI 10.24917/16899911.11.2

11. Miller, D., Biber, D. Evaluating reliability in quantitative vocabulary studies: The influence of corpus design and composition. International Journal of Corpus Linguistics, Volume 20, Issue 1, 2015. pp. 30-53.

12. Polubichenko, L., Beliaeva, T. Discipline-conditioned choice and use of general scientific (academic) vocabulary. The European Proceedings of Social and Behavioural Sciences. 2020. - pp. 898-907 DOI: 10.15405/epsbs.2020.10.05.120

Результаты процедуры рецензирования статьи

В связи с политикой двойного слепого рецензирования личность рецензента не раскрывается.

Со списком рецензентов издательства можно ознакомиться здесь.

Рецензируемая статья «Частотность и дистрибуция единиц общенаучной (академической) лексики как маркеры дисциплинарной принадлежности дискурса» представлена для публикации в журнале «Litera», она полностью соответствует целям и читательским интересам этого журнала, особый интерес исследование будет представлять для тех, кто занимается преподаванием английского языка для специальных целей в высшей школе. Данная работа также будет интересна всем, кто занимается корпусными исследованиями. В вводной части работы автор выдвигает гипотезу о том, что функционирование общенаучной лексики находится в тесной взаимосвязи с типом академического (научного) дискурса, а лексические единицы данного слоя не только не являются «общими» для всех его разновидностей, а, напротив, могут рассматриваться в качестве дискурс-специфических признаков текста, маркируя его дисциплинарную принадлежность. Отсюда вытекает цель данной статьи - подтвердить выдвинутую гипотезу. Для этого автором применяются методы математической статистики (ранговый корреляционный анализ Спирмена), корпусной лингвистики, а также шкала Чеддока, данные обрабатываются также с помощью Excel (Microsoft Office). Выбранные методы весьма продуктивны, по нашему мнению, для данного исследования и позволяют автору

подтвердить выдвинутую гипотезу. В качестве материала и инструмента исследования был использован Академический подкорпус Корпуса современного американского английского языка (The Corpus of Contemporary American English), что является примером Big Data. Таким образом, сам материал исследования говорит об актуальности данной работы, поскольку входит в состав сквозных технологий современной цифровой лингвистики. В статье в виде таблиц представлены: 1) фрагмент сводной таблицы распределения частот общенаучных лексических единиц (существительных, глаголов, прилагательных и наречий) в различных видах научного дискурса; 2) матрица коэффициентов парной ранговой корреляции Спирмена (rs) для всех исследуемых дисциплинарных дискурсов; 3) референсная таблица Чеддока для интерпретации значений коэффициентов корреляции и 4) сила связи между исследуемыми дискурсами. Кроме того, визуальное представление в виде гистограммы получили значения коэффициентов парной ранговой корреляции Спирмена для всех исследуемых дискурсов. Полученные результаты позволили автору прийти к целому ряду выводов, которые хорошо аргументированы в работе и не вызывают сомнений. Наиболее важным выводом является то, что общенаучные (академические) слова, демонстрирующие высокую частотность в том или ином научном дискурсе, можно справедливо считать маркерами его дисциплинарной принадлежности не в меньшей степени, чем терминологические единицы лексики. Моделью тематики любого дисциплинарного дискурса является частотный словарь, верхняя область которого (самые частотные общенаучные единицы) раскрывают его онтологическую сущность. Этот вывод действительно имеет практическую ценность для составителей узко-дисциплинарных списков общенаучной лексики. Гипотеза исследования подтвердилась, соответственно, цель работы достигнута. В целом, статья обладает научной новизной, в ней корректно использована терминология, необходимая для данного исследования, выдержан научный стиль и жанр. Список литературы насчитывает 12 ссылок, их релевантность проблематике исследования не вызывает сомнения, однако хотелось бы посоветовать расширить список, поскольку РИНЦ рекомендует не менее 15 наименований. Автор соблюдает основные правила цитирования. Качество оформления работы достаточно высокое. На основе всего вышесказанного рекомендую статью «Частотность и дистрибуция единиц общенаучной (академической) лексики как маркеры дисциплинарной принадлежности дискурса» к публикации в журнале «Litera».

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Беляева Татьяна Рафаэловна

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Беляева Татьяна Рафаэловна

FREQUENCY AND DISTRIBUTION OF THE UNITS OF GENERAL SCIENTIFIC (ACADEMIC) LEXICON AS THE MARKERS OF DISCIPLINARY AFFILIATION OF A DISCOURSE

Текст научной работы на тему «ЧАСТОТНОСТЬ И ДИСТРИБУЦИЯ ЕДИНИЦ ОБЩЕНАУЧНОЙ (АКАДЕМИЧЕСКОЙ) ЛЕКСИКИ КАК МАРКЕРЫ ДИСЦИПЛИНАРНОЙ ПРИНАДЛЕЖНОСТИ ДИСКУРСА»