Научная статья на тему 'ЖАНРОВАЯ ОРГАНИЗАЦИЯ ИССЛЕДОВАТЕЛЬСКОГО КОРПУСА ТЕКСТОВ В РАМКАХ ТЕМАТИЧЕСКОЙ СФЕРЫ «КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ»'

ЖАНРОВАЯ ОРГАНИЗАЦИЯ ИССЛЕДОВАТЕЛЬСКОГО КОРПУСА ТЕКСТОВ В РАМКАХ ТЕМАТИЧЕСКОЙ СФЕРЫ «КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ» Текст научной статьи по специальности «Языкознание и литературоведение»

55
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
корпус / тематический блок / жанр / тематическая сфера / дискурс / corpus / thematic domain / genre / thematic sphere / discourse

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Д.Ю. Балашова

Статья посвящена анализу жанрового состава исследовательского корпуса текстов в рамках тематической сферы «Компьютерные технологии». Автор анализирует связь дискурса и жанра в языке и коммуникации, а также описывает развитие теории речевых жанров в современной лингвистике. В исследуемом корпусе текстов выделяются базовые тематические блоки. Автор предпринял попытку описать семантические и синтаксические особенности текстов разных жанров, а также определить набор высокочастотных лексических единиц, принадлежащих тому или иному тематическому блоку.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

GENRE COMPOSITION OF THE RESEARCH TEXT CORPUS IN THE THEMATIC SPHERE « COMPUTER TECHNOLOGIES»

The article is devoted to the analysis of the genre composition of the research text corpus within the framework of the thematic sphere "Computer technologies". The author analyzes the correlation of discourse and genre in language and communication and describes the development of the speech genres theory in modern linguistics. The basic thematic domains are singled out in the above-mentioned research corpus. The author makes an attempt to describe the semantic and syntactic features of the texts belonging to different genres as well as to determine a set of high-frequency lexical units of this or that thematic domain.

Текст научной работы на тему «ЖАНРОВАЯ ОРГАНИЗАЦИЯ ИССЛЕДОВАТЕЛЬСКОГО КОРПУСА ТЕКСТОВ В РАМКАХ ТЕМАТИЧЕСКОЙ СФЕРЫ «КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ»»

РАЗДЕЛ 1. ЛИНГВОКУЛЬТУРНЫЕ, ЛИНГВОКОГНИТИВНЫЕ И СОЦИОЛИНГВИСТИЧЕСКИЕ АСПЕКТЫ КОММУНИКАЦИИ

Д.Ю. Балашова

Профессионально-педагогический колледж Саратовского государственного технического университета им. Ю.А. Гагарина

УДК 8П.Ш'1+8П.ШЛ'1

ЖАНРОВАЯ ОРГАНИЗАЦИЯ ИССЛЕДОВАТЕЛЬСКОГО КОРПУСА ТЕКСТОВ В РАМКАХ ТЕМАТИЧЕСКОЙ СФЕРЫ «КОМПЬЮТЕРНЫЕ ТЕХНОЛОГИИ»

Аннотация. Статья посвящена анализу жанрового состава исследовательского корпуса текстов в рамках тематической сферы «Компьютерные технологии». Автор анализирует связь дискурса и жанра в языке и коммуникации, а также описывает развитие теории речевых жанров в современной лингвистике. В исследуемом корпусе текстов выделяются базовые тематические блоки. Автор предпринял попытку описать семантические и синтаксические особенности текстов разных жанров, а также определить набор высокочастотных лексических единиц, принадлежащих тому или иному тематическому блоку.

Ключевые слова: корпус, тематический блок, жанр, тематическая сфера, дискурс.

GENRE COMPOSITION OF THE RESEARCH TEXT CORPUS IN THE THEMATIC SPHERE « COMPUTER TECHNOLOGIES»

Abstract. The article is devoted to the analysis of the genre composition of the research text corpus within the framework of the thematic sphere "Computer technologies". The author analyzes the correlation of discourse and genre in language and communication and describes the development of the speech genres theory in modern linguistics. The basic thematic domains are singled out in the above-mentioned research corpus. The author makes an attempt to describe the semantic and syntactic features of the texts belonging to different genres as well as to determine a set of high-frequency lexical units of this or that thematic domain.

Key words: corpus, thematic domain, genre, thematic sphere, discourse

Изучение жанров является одной из ключевых проблем современной лингвистики. Проблему жанров речи одним из первых поставил М.М. Бахтин. Он считал «речевой жанр категорией, которая позволяет связывать социальную реальность с реальностью языковой» [1, с. 386].

В 60-70 годы в терминологическом аппарате лингвистики активно разрабатывается понятие дискурса, как отмечает М.Л. Макаров, «для обозначения речевой коммуникации, предполагающей рациональное критическое рассмотрение норм и ценностей, а также правил социальной жизни» [2, с. 12].

Исследования научно-технического дискурса ведутся учеными сравнительно недавно. А.В. Дуброва считает, что научно-технический дискурс -«это тип дискурса, используемый наукой для изложения и описания новых открытий, теорий, гипотез, учений, для анализа и представления технологий. Имея основной целью передачу подобного типа информации, научно-технический дискурс характеризуется как источник извлечения непосредственной полезной информации, лишаясь при этом поэтичности, образности изложения и какой-либо эмоциональности» [3, с. 115]. Большинство исследователей выделяют такие особенности технического текста, «как его информативность; логичность, то есть строгую последовательность и четкую связь между основной идеей и деталями; точность и объективность; ясность и понятность; аргументировать изложения. Можно выделить и другие черты, наличие которых зависит от жанровой принадлежности текста» [4, с. 3536]. Е.А. Мякишева считает, что научно-техническим текстам принадлежит «насыщенность узкоспециальными и общенаучными терминами, в связи с их точностью и информативностью. Значительно развита специальная общетехническая лексика - слова и словосочетания, не являющиеся терминами, могут представлять собой всевозможные производные от терминов... Также широко применены различные виды сокращений. Они могут считаться лексическими единицами технического текста, поскольку могут функционировать самостоятельно и фиксируются в лексико-графических источниках» [5, с. 14]. «Содержательно-смысловая структура научного текста является коммуникативно-прагматической по своей сути, то есть она представляет собой сложное единство, состоящее из двух типов смыслового содержания: коммуникативно-информационного и прагматического содержания текста» [6, с. 80].

А.А. Стрельцов отмечает что «основной стилистической чертой научного текста является точное и четкое изображение материала при почти полном отсутствии тех выразительных элементов, которые придают речи эмоциональную насыщенность. Главный упор делается на логической, а не эмоционально-чувствительной стороне излагаемого. Эмоциональные языковые элементы не играют решающей роли, однако в ней присутствует элемент образности, и в целом экспрессивности» [7, с. 7].

Исследователи отмечают, что научно-технический текст является информативным источником. «Он создается одним или несколькими авторами. Основной коммуникативной функцией научно-технического текста является описание предметов и явлений. Во всех видах научного текста преобладает когнитивная информация. Когнитивной или познавательной информацией называют объективные сведения о внешнем мире» [7, с. 6]. В целом отметим, что научно-технический дискурс - «это тип дискурса, используемый наукой и технологией для изложения и написания новых технологий. Имея основной целью передачу подобного типа информации, научно-технический дискурс характеризуется как источник извлечения непосредственной полезной информации, лишаясь при этом поэтичности, образности изложения и какой-либо эмоциональности [8, с. 115]. Как правило, научно-технические

4

тексты содержат языковые средства, которые используются в конкретной предметной области. Отметим, что научно-технический дискурс может включать в себя большое количество тематических сфер: компьютерные технологии, интернет, носители информации, технические устройства и проч.

Традиционная лингвистика чётко разграничивает понятия «тематическая группа» и «тематическое поле». Так, Н.М. Шанский считает, что в «тематическую группу лексики могут входить лексемы различных частей речи, которые объединены классификациями реалий, но не лексико-семантических связей» [9, с. 209]. Например, тематическая сфера «Компьютерные технологии» может включать такие тематические группы, как «робототехника» «устройства», «искусственный интеллект», «интернет» и др. Исследователь Ф.П. Филин полагает: «если заменить одну лексему в рамках тематической группы на другую лексему, то это не приведет к изменению лексического значения всей группы. Это говорит о том, что семантические связи отсутствуют между лексемами в таком объединении» [10, с. 231-232]. Долгое время большая часть исследователей отрицала наличие в полях системных языковых связей, а термины «тематическое поле» и «семантическое поле» считались синонимами [11, с. 67].

Отметим, что первый большой корпус данных на английском языке начал составляться в Университетском колледже Лондона в 1960-е годы. Он назывался «Survey of English Usage», а руководил им Р. Кверк. Материал состоял из одного миллиона слов, они были представлены в 200 устных и письменных текстах. Тексты были записаны в транскрипции и на карточках, которые потом тщательно изучались. Позднее Йэн Свартвик из Лундского университета создал электронную версию собранного материала, и она получила название "London-Lund Corpus of Spoken English" [12, с. 57].

Современные корпусные технологии позволяют изучать самые разнообразные жанры в структуре современной коммуникации, но, как справедливо указывают В.В. Дементьев и Н.Б. Степанова, «разработанной корпусной методики для решения речежанровых проблем лингвистики пока нет» [13, с. 57].

Исследуемая в данной статье тематическая сфера «Компьютерные технологии» входит в научно-технический дискурс. В данной статье мы проведём анализ составленного нами исследовательского корпуса на 143 037 словоупотреблений. Данный корпус был собран методом выборки текстов из сети Интернет. В корпус входят статьи из технических онлайн журналов: Journal of Artificial Intelligence Research, MDPI Technologies, International Journal of New Technology and Research (статьи авторов из Индии, Японии, Германии, Китая и Франции), Word Patent Information journal. Корпус разделен на такие крупные тематические блоки, как «База данных / Database», «Технологии / Technologies» и «Патенты и инструкции / Patents&Instructions». Мы представим анализ лексико-семантического состава и структурно-синтаксических частотных конструкций указанных тематических блоков.

Блок Database составляют тексты по описанию баз данных и их схем. К ключевым словам указанного тематического блока, выборка которых получена с помощью программы обработки текстов AntConc, относятся лексемы database (256), computer (215), software (132), relational (118), number(104), function (83), memory (80), process (218), select (127), command (126). В блоке Database преобладают имена существительные, так как он содержит большое количество схем баз данных, а глаголы часто объединены общей семой «обработка информации»: provide data, enrole data, save data. Данный блок состоит из 42 текстов, из которых 21 текст по базе данных, 13 текстов со схемами баз данных и 8 текстов, содержащих таблицы с пошаговыми вычислениями.

Для блока Database характерны:

1) усилительные конструкции (do perfom);

2) глаголы будущего времени (will, will lead to update);

3) предложения с неопределенно-личным подлежащим типа one (one of the basic structure, one of the rule, it is critical to keep one's self updated)

4) безличные предложения с формальным подлежащим (типа it is...it is also provide, it seems, this also need to..);

5) модальные глаголы (need, should, may);

6) наличие сложных составных союзов и союзных слов (both/and, either/or, the former/the latter);

7) группа глаголов умственного восприятия^ keep in mind, note);

8) преобладание глаголов в форме настоящего времени (need to add, de-scribe sections, provide database);

9) предложения с порядковыми числительными, выполняющими функцию структурирования контекста (first enter your desire column, then simply cut the text from app whatever application, secondly write a cover letter, secondly find basic resources);

10) вводные конструкции в начале предложения с функцией логической организации текста (therefore, in addition, lately, in the above).

Блок Technologies представляет собой набор научных статей о новейших технологиях: примеры приложений для изучения компьютерных технологий, описание приложений для мобильных телефонов, а также технологий в области искусственного интеллекта и др. Данный блок состоит из 69 текстов. К ключевым словам тематического блока Technologies относятся такие лексемы, как model (174), object (16), robot (199), email (137), software (132), select (127).

В указанном тематическом блоке есть большое количество вводных слов, союзов и союзных слов, позволяющих сделать технические тексты более доступными, поскольку статьи принадлежат широкому кругу читателей. Так, например, высокочастотными являются такие союзы и союзные слова, как however (119), often (81), whether (71), before (60), which (919).

Анализ текстов, принадлежащих тематическому блоку Technologies, позволил выявить следующие его лексико-семантические и структурно-синтаксические характеристики:

1) наличие усилительной конструкции it is, а также её формы в прошедшем времени, часто употребляющейся с целью объяснения процесса использования (it is not, use sites like Linkdeln, it is similar to the Record conversion methodology);

2) частое употребление глаголов в форме будущего времени (will, will have to, will help);

3) использование предложений с неопределенно-личным подлежащим

one;

4) наличие безличных предложений с формальным подлежащим (it is... it is also provided, it seems, this also needs to...);

5) наличие сложного дополнения (complex object), а также большого числа модальных глаголов (need, should, may);

6) наличие составных союзов и союзных слов (both/and, either/or, the former/the latter);

7) глаголы группы умственного восприятия (recognize, realize);

8) глаголы в настоящем времени появляются реже, чем в других блоках (need to add, describe sections, provide database);

9) употребление в предложениях порядковых числительных first, second, third, fourth, fifth, описывающих каждый этап загрузок новых приложений, а также пошаговые инструкции эксплуатации приборов и техники (First the design of this part of the ontology secondly, the ORO common-sense ontology contains several rules);

10) вводные конструкции в начале предложения с логической функцией организации текста (therefore, meanwhile, from hereon, while, typically, in addition, lately, in the above).

Блок Patents&Instructions включает 25 текстов, представляющих собой инструкции для написания программного кода (10 текстов), а также статьи о тех или иных патентах, изобретениях и патентоспособности в различных странах (15 текстов). Кроме того, данный тематический блок составляют различного рода инструкции: схемы программирования, пошаговые действия пользователя при использовании прибора или технологии. Тексты указанных поджанров имеют меньше вводных слов, более лаконичны и нередко напоминают четкие инструкции: «First entry our desired column within the appropriate box (again, I suggest no morethan 50). Then simply cut the text from whatever application you are using and past it into the text field, or compose the text directly in the text field. Click the ~Clear Text~ button to clear the text and start again.

Ключевыми словами данного блока являются лексемы information (180), language (159), application (114), company (85), available (87), approach (70), process (218), action (117), security (106), group (90). Союзов, предлогов и вводных слов в данном блоке значительно меньше, поскольку патенты и инструкции в основном состоят из простых односоставных предложений, тогда как авторские статьи содержат большое количество сложных предложений с союзными словами и вводными конструкциями.

Таким образом, тематический блок Patents&Instructions характеризуют следующие структурно-синтаксические особенности:

1) конструкции типа if you, you need to, show you, it could, you don't need, if you are sending, training to follow реализуют демонстрационную функцию использования новых технологий: If you forget to include one, your message probably isn't even going to get opened,, simply address your email; If needed, an attorney would be happy to help prosecute a patent, If you've decided that someone is infringing on your product and IP. В данном блоке большое количество сложных предложений с придаточными словами;

2) глаголы в форме будущего времени (will, will have to, will help);

3) безличные предложения с формальным подлежащим (it is... it is also pro-vided, it seems, this also need to., it is better, there is/are. Например: It is in those countries that the claims need to be drafted carefully, it is more costly and time-consuming to acquirethan a plant patent);

4) наличие сложного дополнения в предложениях;

5) модальные глаголы долженствования (need, should, may, must, can);

6) модальные глаголы категории вероятности (can, may, might);

7) союзы и союзные слова с функцией экспликации контекста (such as, for instance, further out, such that, in addition, in the case of);

8) глаголы группы умственного восприятия (notice, realize, understand, consider, mean);

9) низкая частота употребления глаголов в настоящем времени по сравнению с двумя другими тематическими блоками;

10) союзы и союзные слова, выраженные порядковыми числительными, с функцией организации контекста (firstly you need update, secondly refresh memory);

11) вводные конструкции в начале предложения с функцией структурирования текста (therefore, meanwhile, from here on, while, typically, in addition, lately, in the above, for example, while);

12) наличие придаточных условия с союзом if (if the variety carries benefits, do they justify the premium cost of the royalty and the new product development and marketing processes? If you need assistance with a software patent, Internet technology or computer device send me an e-mail).

В заключение можно сделать вывод, что выделенные тематические блоки имеют принципиальные лексические и структурно-синтаксические отличия. Так, для блока Technologies характерны единицы robot, email, software, составляющие его лексическое ядро, а для блока Database - лексемы database и computer. Ядро блока Patents&Instructions состоит из лексем information, language, application. Тексты всех трёх блоков содержат большое количество модальных глаголов (can, may, might, need, should, must) и глаголов в форме будущего времени (shall, will, would). Однако в каждом блоке можно наблюдать характерные синтаксические конструкции. Например, в блоке Patents&Instructions преобладают сложные предложения с придаточными условия (if you, you need to, show you). Подобный тип предложений структурирует инструкцию, обозначая поэтапные шаги пользователя.

8

Для тематического блока Database характерны глагольные формы настоящих времен английского языка (Present Simple, Present Con-tinuous, Present Perfect). Блоку Technologies свойственна усилительная конструкция it is / it was, употребляющаяся с целью объяснения процесса использования того или иного технического продукта.

Составленный нами исследовательский корпус технических текстов в рамках тематической сферы «Компьютерные технологии» имеет не только сложную жанровую организацию (базы данных и схемы, научные статьи, описания приложений, различного рода инструкции и патенты), но и специфичную лексико-семантическую и синтаксическую структуру. Проведённый анализ текстов, принадлежащих тому или иному тематическому блоку, позволяет определить семантические и структурно-синтаксические характеристики последнего. Таким образом, жанровый, статистический и семантико-когнитивный анализ электронного корпуса текстов даёт возможность получить данные об организации тематической сферы «Компьютерные технологии» в языке и современной коммуникации.

Список использованной литературы

1. Бахтин М.М. Литературно-критические статьи. М.: Художественная литература, 1986. - 541 с.

2. Макаров М.Л. Основы теории дискурса. М.: Гнозис, 2003. 275 с.

3. Дуброва А.В. Научно-технический дискурс и перевод (на материале английского и испанского языков) // Язык и дискурс: лингвистические, методологические и социально-гуманитарные исследования. МГПУ, 2017. 114-123 с.

4. Крапивкина О.А., Мусохранова А.А. Лингво-прагматические аспекты перевода научно-технических текстов// Гуманитарные научные исследования. 2014. №8. С. 34-37.

5. Мякишева Е.А. Стилистические особенности научно-технического текста// Гуманитарные научные исследования. 2018. №5. С. 25

6. Крижановская Е.М. О стереотипности компонентов коммуникативно-прагматической структуры научного текста //Стереотипность и творчество в тексте, 1999. С. 77-84.

7. Стрельцов А.А. Научно-технические тексты: от понимания к переводу. Ростов н/Д: Феникс, 2012. 398 с.

8. Дуброва А.В. Научно-технический дискурс и перевод (на материале английского и испанского языков) // Язык и дискурс: лингвистические, методические и социально-гуманитарные исследования. МГПУ, 2017. 114-123 с.

9. Шанский Н.М. Лексикология современного русского языка. 4 изд., доп. М.: Либроком, 2009. 305 с.

10. Филин Ф.П. Очерки по истории языкознания. М.: Наука, 1982. 336 с.

11. Караулов Ю.Н. Структура лексико-семантического поля // Филологические науки. №1. 1972. С. 57-68.

12. Толстова Т.В. Жанр и корпус: современные подходы к изучению и преподаванию языка. Самара: Изд-во Самарского университета, 2018. 207 с.

13. Дементьев В.В, Степанова Н.Б. Корпусные методы в исследовании речевых жанров: проблема ключевых фраз // Вестник РУДН. Серия: Лингвистика. 2016. Т. 20. №3. С. 57-76.

i Надоели баннеры? Вы всегда можете отключить рекламу.