Научная статья на тему 'СОСТАВЛЕНИЕ СБАЛАНСИРОВАННОГО КОРПУСА ХУДОЖЕСТВЕННОГО ПРОИЗВЕДЕНИЯ (НА МАТЕРИАЛЕ РОМАНОВ Ф. КАФКИ)'

СОСТАВЛЕНИЕ СБАЛАНСИРОВАННОГО КОРПУСА ХУДОЖЕСТВЕННОГО ПРОИЗВЕДЕНИЯ (НА МАТЕРИАЛЕ РОМАНОВ Ф. КАФКИ) Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
121
25
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСНАЯ ЛИНГВИСТИКА / СБАЛАНСИРОВАННЫЙ КОРПУС / СИНТАКСИЧЕСКАЯ РАЗМЕТКА / МОРФОЛОГИЧЕСКАЯ РАЗМЕТКА / ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА / НЕМЕЦКИЙ ЯЗЫК / Ф. КАФКА / SPACY / PYTHON / XML

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Горожанов А. И., Степанова Д. В.

Описывается метод автоматической генерации сбалансированного лингвистического корпуса произведения художественной литературы. В качестве материала исследования привлекаются оригинальные тексты трех романов Ф. Кафки. Пошагово описывается двухступенчатый процесс создания корпуса, приводятся листинги программного кода и базы данных XML. Делается вывод о том, что разработанный метод является действенным, погрешность лежит в допустимом диапазоне, тексты романов точно разделены на предложения, части речи, и их атрибуты определены достаточно верно.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPING OF A BALANCED CORPUS FOR A FICTION WORK (ON THE MATERIAL OF F. KAFKA’S NOVELS)

The paper touches upon a method of automatic generation of a balanced linguistic corpus of a fiction work. As the research material the original texts of three novels by F. Kafka are used. The authors describe a two-step process of creating a corpus, provide listings of programming code and XML databases. The conclusion is made that the developed method is effective, the errors lay in the acceptable range, the texts of the novels are precisely divided into sentences, parts of speech and their attributes are determined fairly correctly.

Текст научной работы на тему «СОСТАВЛЕНИЕ СБАЛАНСИРОВАННОГО КОРПУСА ХУДОЖЕСТВЕННОГО ПРОИЗВЕДЕНИЯ (НА МАТЕРИАЛЕ РОМАНОВ Ф. КАФКИ)»

Научная статья УДК 8142:811.112.2 DOI10.52070/2542-2197_2022_7_862_31

Составление сбалансированного корпуса художественного произведения (на материале романов Ф. Кафки)

А. И. Горожанов1, Д. В. Степанова2

1Московский государственный лингвистический университет, Москва, Россия [email protected]

2Минский государственный лингвистический университет, Минск, Республика Беларусь, [email protected]

Аннотация. Описывается метод автоматической генерации сбалансированного лингвистического корпуса

произведения художественной литературы. В качестве материала исследования привлекаются оригинальные тексты трех романов Ф. Кафки. Пошагово описывается двухступенчатый процесс создания корпуса, приводятся листинги программного кода и базы данных XML. Делается вывод о том, что разработанный метод является действенным, погрешность лежит в допустимом диапазоне, тексты романов точно разделены на предложения, части речи, и их атрибуты определены достаточно верно.

Ключевые слова: корпусная лингвистика, сбалансированный корпус, синтаксическая разметка, морфологическая разметка, обработка естественного языка, немецкий язык, Ф. Кафка, spaCy, Python, XML

Для цитирования: Горожанов А. И., Степанова Д. В. Составление сбалансированного корпуса художественного произведения (на материале романов Ф. Кафки) // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2022. Вып. 7 (862). С. 31-37. DOI 10.52070/2542-2197_2022_7_862_31

Original article

Developing of a Balanced Corpus for a Fiction Work (on the material of F. Kafka's novels)

Alexey I. Gorozhanov1, Darya V. Stepanova2

1 Moscow State Linguistic University, Moscow, Russia

[email protected]

2Minsk State Linguistic University, Minsk, Belarus

[email protected]

Abstract.

Keywords:

For citation:

The paper touches upon a method of automatic generation of a balanced linguistic corpus of a fiction work. As the research material the original texts of three novels by F. Kafka are used. The authors describe a two-step process of creating a corpus, provide listings of programming code and XML databases. The conclusion is made that the developed method is effective, the errors lay in the acceptable range, the texts of the novels are precisely divided into sentences, parts of speech and their attributes are determined fairly correctly.

corpus linguistics, balanced corpus, syntactic markup, morphological markup, natural language processing, German language, F. Kafka, spaCy, Python, XML

Gorozhanov, A. I., Stepanova, D. V. (2022). Developing of a balanced corpus for a fiction work (on the material of F. Kafka's novels). Vestnik of Moscow State Linguistic University. Humanities, 7(862), 31-37. 10.52070/2542-2197_2022_7_862_31

ВВЕДЕНИЕ

В любом корпусном исследовании центральной является проблема формирования корпуса. В предметно-специальной литературе описаны различные способы составления лингвистических корпусов и, в частности, отмечается, что «построение полностью размеченного текстового корпуса представляет собой довольно сложный процесс, требующий усилий многих людей. По этой причине созданием крупных текстовых корпусов занимаются обычно исследовательские группы в специализированных институтах» [Глазкова, 2019, с. 97].

Исследователи также указывают на комплексность процесса создания корпуса: «Создание текстового корпуса - это сложный технологический процесс, включающий как собственно лингвистические процедуры, так и комплекс действий, связанных с автоматизацией данного процесса» [Авдеев, 2019, с. 145]. Таким образом, декларируется обязательный характер автоматизации, хотя и с участием определенных объемов ручной работы.

Вопрос об автоматической генерации корпусов встает особенно остро, поскольку «из-за специфичности лингвистических корпусов и трудности их создания существует проблема ненужности корпусов после выполнения поставленных задач, так как практически всегда корпус создается под конкретную задачу» [Полицын, Полицына, 2019, с. 135].

В этой связи заметим, что далеко не каждое корпусное исследование сопровождается составлением собственного корпуса, а используется, например, открытый национальный корпус [Кри-стиано, 2020]. Также широко используются компьютерные программы для работы с текстовыми массивами без их предварительной разметки: Zim, Outwiker, Ап±аЬ, АП:Сопс и др. [Киргинцева, Жехрова, 2022]. Однако такой подход при кажущейся простоте ставит исследователей в прямую зависимость от типового программного обеспечения и не позволяет реализовать в полной мере задуманное, поэтому некоторые научные коллективы стремятся разработать собственные варианты разметки корпуса и собственные программные продукты для оперирования последними [Мак-сименко, Семина, 2019, с. 110]. Большую свободу действий при работе с неразмеченными текстами дают библиотеки обработки естественного языка [Горожанов, Степанова, 2022, с. 205].

Упомянем также исследования, в которых единицы корпуса укрупняются до целых текстов, имеющих метаописание. Таким образом, корпус фактически представляет собой каталогизированное собрание файлов [Казачкова, Галимова, 2022, с. 36-37]. Такое

решение, на наш взгляд, технологически находится где-то между созданием размеченного корпуса и работой с неразмеченным текстом.

В настоящем исследовании мы преследуем цель разработать и описать такой метод генерации лингвистического корпуса произведения художественной литературы, который бы позволил минимизировать долю ручного труда, сведя его до нормализации текста, т. е. до его трансформации в такой формат, который был бы удобен для автоматической обработки специализированным программным обеспечением. Поскольку речь идет не о создании национального корпуса, а о привлечении избранных художественных произведений, мы будем говорить о сбалансированном корпусе.

В качестве морфологической разметки для создаваемого сбалансированного корпуса воспользуемся встроенными установками морфо-логизатора библиотеки обработки естественного языка spaCy, т. е. прибегнем к так называемому «spaCy-методу» [Горожанов, Гусейнова, Степанова, 2022, с. 66]. Языком программирования для разработки специализированного программного обеспечения послужит Python, поскольку spaCy предназначена для работы именно с ним. Создание какого-либо корпусного менеджера в рамках настоящего исследования не планировалось.

Языковой материал исследования представлен текстами трех романов Ф. Кафки: «Замок», «Процесс» и «Америка» на немецком языке, причем текст первого романа является основным и служит цели экспериментальной апробации создаваемого метода, а работа с двумя другими предполагает доказательство валидности метода, т. е. его способности строить лингвистические корпусы практически на любом языковом материале.

ГЕНЕРАЦИЯ ПЕРВОЙ ВЕРСИИ ФАЙЛА СБАЛАНСИРОВАННОГО КОРПУСА

Разрабатываемые лингвистические корпусы в техническом отношении представляют собой базы данных формата XML, который широко используется в различных отраслях народного хозяйства [Сергеев, 2019; Shchekin, Tribushinin, 2020]. Разметка имеет синтаксический и морфологический уровни. Первый заключается в сегментировании предложений, второй - в токенизации каждого предложения с указанием части речи (используются теги) и их характеристик (используются атрибуты). Кроме этого, каждый тег имеет атрибут-порядковый номер: NS для предложений и N для токенов. В качестве токенов spaCy выделяет не только слова, но также знаки пунктуации и даже

символы переноса строк, и скопления пробельных символов. От последних мы отказались, так как в выбранном варианте разметки они дают значительную погрешность по количеству токенов.

Первым шагом составления корпуса романа Ф. Кафки «Замок» явилась нормализация электронного текста романа. Фактически это означало предварительное преобразование файла формата TXT из четырех действий:

1. Убраны заглавие романа, данные об издании, наименования глав и номера страниц.

2. Удалены скопления пробелов (два и более пробела подряд).

3. Символы конца строк и возврата каретки заменены на один пробел (в результате весь текст романа стал одним абзацем).

4. Одинарные кавычки внутри слова замещены на «звездочки», чтобы впоследствии не нарушить структуру файла XML (например, ist's = ist*s).

Далее была написана программа на Python, которая преобразовывала нормализованный текст романа в файл XML по правилам разметки spaCy.

Начало этого файла является стандартным:

<?xml version='1.0' encoding='utf-8'?>

Все содержимое файла заключено в тег <BOOK></BOOK>. Далее происходит переход на синтаксический уровень разметки, на котором выделяются отдельные предложения и их порядковые номера, например, для первого предложения:

<S NS=T>...</5>

Здесь тег для обозначения предложения выбран лично нами; он состоит из одной буквы из соображения экономии дискового пространства.

Каждый тег предложения включает разметку морфологического уровня. Заметим, что наименование тегов не совпадает с наименованиями частей речи или членов предложения по той причине, что терминология spaCy является достаточно своеобразной, подчиненной технической необходимости, поэтому мы посчитали важным отразить это в русском варианте. В качестве значений атрибутов приведены одни из возможных вариантов:

Тег: PRON - местоимение

Атрибуты: Lemma="ich" Case="Nom" Gender="Neut"

Number="Sing" Person="3" PronType="Prs"

Тег: AUX - вспомогательное слово

Атрибуты: Lemma=»sein» Mood=»Ind»

Number=»Sing» Person=»3» Tense=»Past»

VerbForm=»Fin»

Тег: ADV - наречие

Атрибуты: Lemma="spät" Degree="Pos"

Тег: PUNCT - знак препинания

Атрибуты: Lemma=».»

Тег: SCONJ - подчинительный союз

Атрибуты: Lemma=»während»

Тег: PROPN - имя собственное

Атрибуты: Lemma="K." Case="Nom" Number="Sing"

Тег: VERB - глагол

Атрибуты: Lemma="führen" Mood="Ind" Number="Sing" Person="3" Tense="Past" VerbForm="Fin"

Тег: DET - слово-определитель

Атрибуты: Lemma="der" Case="Acc" Definite="Def"

Gender="Fem" Number="Sing" PronType='Art"

Тег: NOUN - существительное

Атрибуты: Lemma="Holzbrücke" Case="Dat"

Gender="Fem" Number="Sing"

Тег: ADP - предлог

Атрибуты: Lemma="von"

Тег: ADJ - прилагательное

Атрибуты: Lemma="tief" Case="Dat" Degree="Pos"

Gender="Masc" Number="Sing"

Тег: PART - частица

Атрибуты: Lemma="zu"

Тег: CCONJ - сочинительный союз

Атрибуты: Lemma=»und»

Тег: X - «другие» части речи, т. е. такие, которые

spaCy не сумел идентифицировать или считает

иностранными словами для текущего языка

Атрибуты: Lemma=»заимствование» Foreign=»Yes»

Тег: INTJ - междометие

Атрибуты: Lemma=»Ach»

Тег: NUM - числительное

Атрибуты: Lemma=»zwei»

Приведем в качестве примера полностью размеченное первое предложение романа Ф. Кафки «Замок» (см. Листинг 1):

Листинг 1. Размеченное первое предложение романа «Замок»

<S NS='1'>

<PRON N='1' Lemma='ich' Case='Nom'

Gender='Neut' Number='Sing' Person='3'

PronType='Prs'>Es</PRON>

<AUX N='2' Lemma='sein' Mood='Ind' Number='Sing'

Person='3' Tense='Past' VerbForm='Fin'>war</AUX>

<ADV N='3' Lemma='spät' Degree='Pos'>spät</ADV>

<ADV N='4' Lemma='abends'>abends</ADV>

<PUNCT N='5' Lemma=','>,</PUNCT>

<SCONJ N='6' Lemma='als'>als</SCONJ>

<PROPN N='7' Lemma='K.' Case='Nom'

Number='Sing'>K.</PROPN>

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

<VERB N='8' Lemma='ankommen' Mood='Ind' Number='Sing' Person='3' Tense='Past' VerbForm='Fin'>ankam</VERB> <PUNCT N='9' Lemma='.'>.</PUNCT> </S>

Структурная целостность полученного файла XML была проверена с помощью верификационного кода (см. Листинг 2):

Листинг 2. Верификационный код для файла XML

# -*- coding: utf-8 -*-import Ixml.etree

tree = l.xml..etree.parse('schl.oss.xml.')

ГЕНЕРАЦИЯ ВТОРОЙ ВЕРСИИ ФАЙЛА СБАЛАНСИРОВАННОГО КОРПУСА

Несмотря на отсутствие ошибок в полученном файле XML, необходимость его доработки оказалась очевидной. Нормализованный текст романа имел объем 677 КБ, тогда как объем файла XML стал 9134 КБ, т. е. увеличился в 13,5 раз. Такое разительное отличие получилось вследствие длины тегов и атрибутов разметки spaCy, которая нацелена на удобство чтения человеком, а не на «внутреннюю» машинную обработку.

Чтобы сократить размер файла XML, наименования тегов и атрибутов были сокращены до 1-3 символов. Для этого была применена специализированная компьютерная программа (см. Листинг 3):

Листинг 3. Фрагмент кода программы для преобразования тегов и атрибутов

# Преобразование тегов

text = text.replace("<PRON", "<PN") text = text.replace(«</PRON», «</PN») text = text.replace(«<AUX», «<AX») text = text.replace(«</AUX», «</AX») text = text.replace("<ADV", "<AV") text = text.replace("</ADV", "</AV") text = text.replace("</PUNCT", "</P") text = text.replace("<PUNCT", "<P") text = text.replace("<SCONJ", "<SJ") text = text.replace("</SCONJ", "</SJ") text = text.replace(«<PROPN», «<PR») text = text.replace(«</PROPN», «</PR») text = text.replace(«<VERB», «<V») text = text.replace(«</VERB», «</V») text = text.replace(«<DET», «<D») text = text.replace(«</DET», «</D») text = text.replace(«<NOUN», «<N»)

text = text.replace(«</NOUN», «</N») text = text.replace(«<ADP», «<AP») text = text.replace(«</ADP», «</AP») text = text.replace(«<ADJ», «<AJ») text = text.replace(«</ADJ», «</AJ») text = text.replace(«<PART», «<PT») text = text.replace(«</PART», «</PT») text = text.replace(«<CCONJ», «<CJ») text = text.replace(«</CCONJ», «</CJ») text = text.replace(«<INTJ», «<IJ») text = text.replace(«</INTJ», «</IJ») text = text.replace("<NUM", "<NM") text = text.replace("</NUM", "</NM") # Преобразование атрибутов text = text.replace("Lemma=", "L=") text = text.replace("Case=", "Cs=") text = text.replace("Gender=", "Gr=") text = text.replace("Number=", "Nr=") text = text.replace("Person=", "Ps=") text = text.replace("Pronfype=", "PT=") text = text.replace("Mood=", "Md=") text = text.replace("Tense=", "Tn=") text = text.replace("VerbForm=", "VF=") text = text.replace("Degree=", "Dg=") text = text.replace("Definite=", "Df=") text = text.replace("Reflex=", "Rx=")

В результате размеченное первое предложение приняло следующий вид (см. Листинг 4):

Листинг 4. Размеченное первое предложение романа «Замок» после сокращения длины тегов и атрибутов

<S NS='1'>

<PN N='1' L='ich' Cs='Nom' Gr='Neut' Nr='Sing' Ps='3' PT='Prs'>Es</PN>

<AX N='2' L='sein' Md='Ind' Nr='Sing' Ps='3' Tn='Past'

VF='Fin'>war</AX>

<AV N='3' L='spat' Dg='Pos'>spat</AV>

<AV N='4' L='abends'>abends</AV>

<P N='5' L=','>,</P>

<SJ N='6' L='als'>als</SJ>

<PR N='7' L='K.' Cs='Nom' Nr='Sing'>K.</PR>

<V N='8' L='ankommen' Md='Ind' Nr='Sing' Ps='3'

Tn='Past' VF='Fin'>ankam</V>

<P N='9' L='.'>.</P>

</S>

Объем файла XML составил 6952 КБ, т. е. уменьшился в 1,3 раза.

Таким же образом были преобразованы тексты романов «Процесс» и «Америка», объемы которых составили 4632 КБ и 5349 КБ соответственно.

Полученные файлы XML были также успешно программно верифицированы.

ОЦЕНКА РЕЗУЛЬТАТА

Сгенерированные файлы XML обладают структурной целостностью и с высокой точностью разделяются на предложения. Здесь необходимо заметить, что библиотека spaCy проявляет нетривиальный подход к определению границ предложений, особенно в отношении прямой речи - прямая речь и относящиеся к ней слова автора логично связываются в одно предложение (см. Листинг 5):

Листинг 5. Размеченные как одно предложение прямая речь и слова автора

<S NS="7">

<P L="doublequote" N="171">"</P>

<PN PT="Int" Nr="Sing" Gr="Masc" Cs="Nom" L="Wer"

N="172">Wer</PN>

<AX Nr="Plur" L="sein" N="173" VF="Fin" Tn="Pres"

Ps="3" Md="Ind">sind</AX>

<PN PT="Prs" Nr="Plur" Cs="Nom" L="ich" N="174"

Ps="3">Sie</PN>

<P L=»?» N=»175»>?</P>

<P L=»doublequote» N=»176»>»</P>

<V Nr="Sing" L="fragen" N="177" VF="Fin" Tn="Past"

Ps="3" Md="Ind">fragte</V>

<PR Nr=»Sing» Cs=»Nom» L=»K.» N=»178»>K.</PR>

<CJ L="und" N="179">und</CJ>

<V Nr="Sing" L="sitzen" N="180" VF="Fin" Tn="Past"

Ps="3" Md="Ind">saß</V>

<AV L="gleichen" N="181">gleich</AV>

<AV L="halb" N="182" Dg="Pos">halb</AV>

<AV L="aufrecht" N="183" Dg="Pos">aufrecht</AV> <AP Nr="Sing" Gr="Neut" Cs="Dat" L="im" N="184">im</AP>

<N Nr="Sing" Gr="Neut" Cs="Dat" L="Bett"

N="185">Bett</N>

<P L=».» N=»186»>.</P>

</S>

Что касается определения частей речи и их свойств, то нами была замечена погрешность, степень которой потребовала оценки. Библиотека spaCy, как мы уже выяснили, сама диагностирует свои лакуны и маркирует их тегами X.

В файле XML текста романа «Замок» найдено 37 тегов X из общего количества (131944 токе-нов). Таким образом, погрешность по внутренней оценке библиотеки составила 0,03 %. Для романов «Процесс» и «Америка» этот показатель соответственно равен 0,01 % и 0,05 %.

ЗАКЛЮЧЕНИЕ

В итоге можно сделать вывод о том, что поставленная цель была достигнута. Метод генерации лингвистического корпуса произведения художественной литературы, который позволил бы минимизировать долю ручного труда, был разработан и апробирован на трех текстах. Ошибок в работе программного обеспечения выявлено не было.

В перспективе планируется апробировать представленный метод на материале русского и английского языков, тщательно проанализировать качество работы морфологизатора spaCy и составить проект корпусного менеджера для осуществления поисковых запросов.

СПИСОК ИСТОЧНИКОВ

1. Глазкова А. В. Формирование текстового корпуса для автоматического извлечения биографических фактов из русскоязычного текста // International Journal of Open Information Technologies. 2019. Т. 7. № 1. С. 7-103.

2. Авдеев А. А. Технология параллельных корпусов текстов и ее использование в процессе обучения переводу // Научный журнал Современные лингвистические и методико-дидактические исследования. 2019. № 3(43). С. 140-151. DOI 10.25987/VSTU.2019.42.50.011.

3. Полицын С. А., Полицына Е. В. Применение комплекса инструментов управления корпусами текстов при решении задач компьютерной лингвистики // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2019. № 2. С. 134-142.

4. Кристиано Н. О. Особенности функционирования газетизмов в современных российских СМИ // Балтийский гуманитарный журнал. 2020. Т. 9. № 4(33). С. 267-273. DOI 10.26140/bgz3-2020-0904-0068.

5. Киргинцева Н. С., Жехрова М. В. Разработка профессионально-ориентированного англоязычного учебного корпуса текстов для подготовки авиационных специалистов // Современные проблемы науки и образования. 2022. № 1. С. 11. DOI 10.17513/spno.31432.

6. Максименко О. И., Семина Т. А. Создание корпуса текстов для анализа тональности // Ученые записки национального общества прикладной лингвистики. 2019. № 3(27). С. 106-113.

7. Горожанов А. И., Степанова Д. В. Интерпретация художественного произведения: корпусный подход // Филологические науки. Вопросы теории и практики. 2022. Т. 15. № 1. С. 203-208. DOI 10.30853/phiL20220020.

8. Казачкова М. Б., Галимова Х. Н. Создание лингвистического корпуса учебников английского языка // Иностранные языки в школе. 2022. № 2. С. 32-38.

9. Горожанов А. И., Гусейнова И. А., Степанова Д. В. Инструментарий автоматизированного анализа перевода художественного произведения // Вопросы прикладной лингвистики. 2022. № 45. C. 62-89. DOI 10.25076/ vpL.45.03.

10. Сергеев А. Н. Разработка учебной документации в электронной среде: применение языка разметки для описания основных профессиональных образовательных программ // Современные наукоемкие технологии. 2019. № 8. С. 61-65.

11. Shchekin A. V., Tribushinin A. V. XML-Based Network Integration of Information in CAD Systems // Russian Engineering Research. 2020. VoL. 40. No 12. PP. 1073-1077. DOI 10.3103/S1068798X2012045X.

REFERENCES

1. Glazkova, A. V. (2019). Formirovanie tekstovogo korpusa dlya avtomaticheskogo izvlecheniya biograficheskikh faktov iz russkoyazychnogo teksta = Formation of a text corpus for automatic extraction of biographical facts from a Russian-language text. International Journal of Open Information Technologies, 7(1), 97-103. (In Russ.)

2. Avdeev, A. A. (2019). Tekhnologiya parallel'nykh korpusov tekstov i ee ispol'zovanie v protsesse obucheniya perevodu = The technology of parallel text corpora and its use in the process of teaching translation. Scientific journal Modern linguistic and methodological-didactic research, 3(43), 140-151. 10.25987/VSTU.2019.42.50.011. (In Russ.)

3. Politsyn, S. A., Politsyna, E. V. (2019). Primenenie kompleksa instrumentov upravleniya korpusami tekstov pri reshenii zadach komp'yuternoi lingvistiki = Application of a set of text corpus management tools in solving computational linguistics problems. Bulletin of the Voronezh State University. Series: System Analysis and Information Technology, 2, 134-142. (In Russ.)

4. Kristiano, N. O. (2020). Osobennosti funktsionirovaniya gazetizmov v sovremennykh rossiiskikh SMI = Features of functioning of gazettisms in modern Russian mass media. Baltic Humanitarian Journal, Vol. 9, 4(33), 267-273. 10.26140/bgz3-2020-0904-0068. (In Russ.)

5. Kirgintseva, N. S., Zhekhrova, M. V. (2022). Razrabotka professional'no-orientirovannogo angloyazychnogo uchebnogo korpusa tekstov dlya podgotovki aviatsionnykh spetsialistov = Development of a professionally-oriented English-language educational corpus of texts for the training of aviation specialists. Modern problems of science and education, 1, 11. 10.17513/spno.31432. (In Russ.)

6. Maksimenko, O. I., Semina, T. A. (2019). Sozdanie korpusa tekstov dlya analiza tonal'nosti = Creating a corpus of texts for tonality analysis. Scientific notes of the National Society of Applied Linguistics, 3(27), 106-113. (In Russ.)

7. Gorozhanov, A. I., Stepanova, D. V. (2022). Interpretatsiya khudozhestvennogo proizvedeniya: korpusnyi podkhod = Work of fiction interpretation: corpus approach. Philology. Theory & Practice, 15(1), 203-208. 10.30853/ phil20220020. (In Russ.)

8. Kazachkova, M. B., Galimova, Kh. N. (2022). Sozdanie lingvisticheskogo korpusa uchebnikov angliiskogo yazyka = Creation of a linguistic corpus of English textbooks. Foreign languages at school, 2, 32-38. (In Russ.)

9. Gorozhanov, A. I., Guseynova, I. A., Stepanova, D. V. (2022). Instrumentarii avtomatizirovannogo analiza perevoda khudozhestvennogo proizvedeniya = Tools for automated analysis of fiction work translation. Issues of Applied linguistics, 45, 62-89. 10.25076/vpl.45.03. (In Russ.)

10. Sergeev, A. N. (2019). Razrabotka uchebnoi dokumentatsii v elektronnoi srede: primenenie yazyka razmetki dlya opisaniya osnovnykh professional'nykh obrazovatel'nykh programm = Development of educational documentation in an electronic environment: the use of markup language to describe the main professional educational programs. Modern high-tech technologies, 8, 61-65. (In Russ.)

11. Shchekin, A. V., Tribushinin, A. V. (2020). XML-Based Network Integration of Information in CAD Systems. Russian Engineering Research, 40(12), 1073-1077. 10.3103/S1068798X2012045X.

информация об авторах

Горожанов Алексей иванович

доктор филологических наук, доцент, профессор кафедры грамматики и истории немецкого языка факультета немецкого языка Московского государственного лингвистического университета

Степанова Дарья Валерьевна

кандидат филологических наук, доцент, доцент кафедры теории и практики английской речи факультета английского языка Минского государственного лингвистического университета

INFORMATION ABOUT THE AUTHORS Gorozhanov Alexey Ivanovich

PhD (Philology), Associate Professor, Professor at the Department of German Language Grammar and History, Faculty of the German Language, Moscow State Linguistic University

Stepanova Darya Valeryevna

PhD (Philology), Associate Professor, Associate Professor at the Department of Theory and Practice of English Speech, Faculty of the English Language, Minsk State Linguistic University

Статья поступила в редакцию 28.04.2022 The article was submitted 28.04.2022

одобрена после рецензирования 20.05.2022 approved after reviewing 20.05.2022

принята к публикации 01.06.2022 accepted for publication 01.06.2022

i Надоели баннеры? Вы всегда можете отключить рекламу.