Научная статья на тему 'КОРПУСНЫЕ ИССЛЕДОВАНИЯ С ПОМОЩЬЮ СЕРВИСА ANTCONC В УСЛОВИЯХ РАБОТЫ В ВУЗЕ'

КОРПУСНЫЕ ИССЛЕДОВАНИЯ С ПОМОЩЬЮ СЕРВИСА ANTCONC В УСЛОВИЯХ РАБОТЫ В ВУЗЕ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
2781
488
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУСНЫЕ ИССЛЕДОВАНИЯ / ANTCONC / ИСТОРИЯ НЕМЕЦКОГО ЯЗЫКА / CORPUS STUDIES / HISTORY OF THE GERMAN LANGUAGE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Котюрова Ирина Аврамовна

Описывается один из инструментов корпусных исследований - программа AntConc, которая успешно может быть использована как в учебной, так и в научно-исследовательской работе студентов. Перечислены основные принципы работы с программой, ее функциональные возможности, при этом для лучшего понимания описание подкрепляется скриншотами окна программы. Затем приводится ряд конкретных заданий, которые могут быть предложены студентам в курсе истории немецкого языка как на очном практическом занятии, так и в режиме дистанционной работы. Пример способов решений этих заданий со скриншотами демонстрирует возможности работы с программой и призван также мотивировать к составлению любых других подобных заданий. Приводятся задания, наглядно демонстрирующие лексические, грамматические, фонетические и синтаксические особенности древневерхненемецкого языка. Поскольку программа позволяет работать с документами на любом языке, данные задания могут быть адаптированы и к другим языкам. Делается анализ преимуществ AntConc для использования в вузе. Во-первых, он бесплатный и не требует регистрации, что делает сервис доступным как для работы непосредственно на практическом занятии, так и в режиме дистанционной / самостоятельной работы. Во-вторых, программа AntConc имеет интуитивно понятный интерфейс и очень проста в использовании. Это позволяет в ходе даже одного занятия провести небольшое исследование по изучаемой теме и научить студентов проводить собственные исследования с помощью AntConc. В-третьих, данная программа дает возможность работать с любым текстовым файлом txt любого объема на любом языке, что позволяет выполнить статистический анализ практически любого материала. В-четвертых, сервис дает возможность анализировать несколько файлов или целиком, как единый корпус, или параллельно, как отдельные файлы, в результате чего можно провести сравнительный анализ количественных показателей в разных текстах. Все это делает сервис AntConc почти идеальным инструментом для исследовательской работы студентов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Котюрова Ирина Аврамовна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CORPUS-BASED STUDIES WITH ANTCONC SERVICE AT THE UNIVERSITY

The article describes one of the tools of corpus-based studies - the AntConc program, which can be successfully used in both educational and research work of students. The article describes the basic principles of working with the program, its functionality. For a better understanding the description is supported by screenshots of the program window. Then, a number of specific tasks are given that can be offered to students in the course of the history of the German language both in full-time practical training and in remote work mode. An example of ways to solve these tasks with screenshots demonstrates the possibilities of working with the program and is also intended to motivate to draw up any other similar tasks. The article provides tasks that clearly demonstrate the lexical, grammatical, phonetic and syntactic features of the Old High German language. Since the program allows you to work with documents in any language, these tasks can be adapted to other languages. In conclusion, an analysis of the attractions of AntConc for use in the university is made. Firstly, it is free and does not require registration, which makes the service available both for working directly in a practical lesson and in remote / independent work mode. Secondly, AntConc has an intuitive interface and is very easy to use. This allows even a single lesson at the university to conduct a small study on the topic being studied and teach students to conduct their own research using AntConc. Thirdly, this program allows you to work with any txt file of any size, in any language, which allows you to perform statistical analysis of almost any material. Fourth, the service allows you to analyze several files either as a whole corpus, or as separate files, which allows a comparative analysis of quantitative indicators in different texts. All this makes the AntConc service an almost perfect tool for student research.

Текст научной работы на тему «КОРПУСНЫЕ ИССЛЕДОВАНИЯ С ПОМОЩЬЮ СЕРВИСА ANTCONC В УСЛОВИЯХ РАБОТЫ В ВУЗЕ»

УДК 001.891, 81.139, 81-112 DOI: 10.17223/19996195/52/3

КОРПУСНЫЕ ИССЛЕДОВАНИЯ С ПОМОЩЬЮ СЕРВИСА А]]ТСО]ЧС В УСЛОВИЯХ РАБОТЫ В ВУЗЕ

И.А. Котюрова

Аннотация. Описывается один из инструментов корпусных исследований - программа АпЮопс, которая успешно может быть использована как в учебной, так и в научно-исследовательской работе студентов. Перечислены основные принципы работы с программой, ее функциональные возможности, при этом для лучшего понимания описание подкрепляется скриншотами окна программы. Затем приводится ряд конкретных заданий, которые могут быть предложены студентам в курсе истории немецкого языка как на очном практическом занятии, так и в режиме дистанционной работы. Пример способов решений этих заданий со скриншотами демонстрирует возможности работы с программой и призван также мотивировать к составлению любых других подобных заданий. Приводятся задания, наглядно демонстрирующие лексические, грамматические, фонетические и синтаксические особенности древневерхненемецкого языка. Поскольку программа позволяет работать с документами на любом языке, данные задания могут быть адаптированы и к другим языкам. Делается анализ преимуществ АпЮопс для использования в вузе. Во-первых, он бесплатный и не требует регистрации, что делает сервис доступным как для работы непосредственно на практическом занятии, так и в режиме дистанционной / самостоятельной работы. Во-вторых, программа АпЮопс имеет интуитивно понятный интерфейс и очень проста в использовании. Это позволяет в ходе даже одного занятия провести небольшое исследование по изучаемой теме и научить студентов проводить собственные исследования с помощью АпЮопс. В-третьих, данная программа дает возможность работать с любым текстовым файлом 1x1 любого объема на любом языке, что позволяет выполнить статистический анализ практически любого материала. В-четвертых, сервис дает возможность анализировать несколько файлов или целиком, как единый корпус, или параллельно, как отдельные файлы, в результате чего можно провести сравнительный анализ количественных показателей в разных текстах. Все это делает сервис АпЮопс почти идеальным инструментом для исследовательской работы студентов. Ключевые слова: корпусные исследования; АпЮопс; история немецкого языка.

Введение

Корпусная лингвистика - очень динамично развивающееся направление, за которым стоит будущее. Значимость корпусных исследований для современной лингвистики сегодня не ставится под сомнение (см., в частности, [1]). В работах современных отечественных и зарубежных лингвистов анализ как отдельных языковых единиц, так и

целых дискурсов, подтверждаемый корпусными данными, встречается в последнее время все чаще [1-7]. Очевидно, что в ближайшие годы лекции и практические занятия по корпусной лингвистике станут обязательными при обучении бакалавров различных направлений и профилей подготовки. Все больше появляется статей по теме включения корпусных технологий в обучение [8-10].

Первые массивы репрезентативных аннотированных текстов появились в США, поэтому самые обширные и наиболее функциональные корпусы представлены англоязычными материалами. Очень хорошие по качеству, т.е. по объему и репрезентативности языка, корпусы есть и в других языках. Например, для русского языка это НКРЯ, а для немецкого - Cosmas II. На сегодня разработанный и развиваемый в Ман-геймском университете корпус Cosmas II заслуженно считается наиболее полным и по объему, и по функциям.

Однако работа с Cosmas II со студентами на занятиях в российский вузах затрудняется тем, что программа эта насколько богата в своих возможностях, настолько и трудна в пользовании. Требуется долгое погружение в то, как устроен проект и каким образом нужно строить запросы поиска. Это безусловно важно и нужно для специалистов, занимающихся лингвистическими исследованиями немецкого языка. Но в условиях подготовки бакалавров и очень ограниченного времени на знакомство обучающихся с современными технологиями исследований, в частности с возможностями корпусной лингвистики, в некоторых случаях более подходящим, на наш взгляд, может оказаться сервис AntConc.

Antconc - это бесплатная, мультиплатформенная программа, представляющая собой инструмент для статистических исследований текстов. Она была разработана профессором Лоуренсом Антони (Laurence Anthony), директором Центра обучения английскому языку в науке и технике Школы науки и техники университета Васеда (Япония). Для масштабных глубоких исследований немецкого языка эта программа вряд ли составит конкуренцию Cosmas II. Но для лингвистов, только начинающих свое знакомство с корпусными технологиями, Antconc -один из самых популярных на сегодняшний день сервисов.

Методология

Кратко опишем основные принципы работы с AntConc, приведем конкретные примеры использования ее функций и сделаем выводы относительно целесообразности применения сервиса в условиях высшей школы.

Итак, AntConc запускается открытием файла .exe, загружаемого с официального сайта разработчика программы Лоуренса Антони: http://www.antlab.sci.waseda.ac.jp/software.html [11]. Открывшееся окно программы содержит семь вкладок, соответствующих семи инструмен-

там анализа, которые могут быть актуализированы как кликом на ту или иную вкладку, так и функциональными клавишами от F1 до F7.

1. Concordance - конкорданс, инструмент, позволяющий найти все контексты слова или словосочетания в указанном тексте (KWIC -Key Words in Context) (рис. 1).

£ (Windows) 2019 -

ings Tool Preferences Help

Concordance Concordance Plot File View Clusteis/N-Grams Collocates Word List Keyword List

Total No.

2

Files Processed

Concordance Hits 32

Hit KWIC

File

1 2

3

4

5

6

7

8

9

10 11 12

13

14

: "uuanta ih ni uueizther mar". Inti after thiu luzik. samasö eine d heilante Simon Petrus ferrano inti ander iungiro unzar anan tb then heilantfon sinen iungiron inti fon sinerL eru. Tho antlingit riit ¡mo?" Bigonda tho leidezen inti forsahhan inti sueren quede ir bröttagalihhaz gib uns hiutu, inti furläz uns unsara sculdi, so i et". Inti sliumo ther hano cräta... inti gihugita tho PetrL.s trohtine: itia apud deum et homines. [7] Inti herguadzi in: "Uuazistthaz Inti ther heilanttheh in spahidu inti in altere inti in gebu mit got ara alle ludei zisamane coment, inti in dougli ni sprah in niouuih snttheh in spähidu inti in altere inti in gebu mit gote inti mit ma ih simblun lerta in samanungu inti in temple, thara alle ludei zis it diu inan gisah thiu duriuuarta inti inan uuas anascouuonti, gut her uuas cund themo bisgoffe, inti ingieng tmitthemo heilante i iffe, inti quad theru duriuuartun inti inleitta Petrusan. Then mit d

Althochdeut:

Althochdeut:

Althochdeut:

Althochdeut:

Althochdeut:

Althochdeut:

Tatian.txt

Tatian.txt

Althochdeut:

Tatian.txt

Althochdeut:

Althochdeut:

Althochdeut:

Althochdeut:

Search Term 0 Words □ Case □ Regex

Search Window Sire

Stop

Show Every Nth Row И

К wie Sort

0 Level 1 11 FL ; l|g Level î|2R t Level

Clone Results

Рис. 1. Конкорданс для слова inti в текстах древневерхненемецкого языка

2. Concordance plot отображает наличие исследуемых слов или словосочетаний в тексте в виде штрих-кода, что делает возможным визуально оценить, как часто в какой части текста встречается искомый объект. Например, на рис. 2 показано, где в загруженном файле встречается слово inti. Отчетливо видно, что inti используется только в текстах одного источника (файл Althochdeutsche Texte содержит несколько разных текстов VIII-X вв.). В других источниках это слово будет выглядеть как enti, endi.

3. File View отображает текст выбранного файла в начальном виде. При этом цветом маркируются элементы, указанные в поле поиска (рис. 3).

4. Функция Words Clusters представляет собой инструмент отбора группы слов с заданным количеством элементов слева и справа от заданного слова.

Рис. 2. Конкорданс в виде штрих-кода для слова тШ в текстах древневерхненемецкого языка

Q AntConc 3.5.8 (Windows) 2019 -

File Global Settings Tool Preferences Help

Concordance Concordance Plot File View Clusters/N-Grams Collocates Word List Keyword List

Corpus Files

Total No.

2

Files Processed

File View Hits 9

File Tatian.txt

[9] Et mater eius conservabat omnia verba haec in corde suo, et Ihesus proficiebat sapientia aetate et gratia apud deum et homines.

[7.] ® her quad zi in: "Uuaz ist thaz ir mih suohtut? Ni uuestut irf thaz in then, thiu mines fater sint, gilimphit mir uuesan?"

[8.] Irti sie ni forstuontun thaz uuortthaz her sprah zi in. Inti nidar stigenti mit in quam zi Nazareth [inti] uuas in untarthiutit.

[9.] Inti sin muoter bihielt allu thisu uuort in ira herzen. Inti ther heilanttheh in spähidu inti in altere inti in gebu mit gote inti mit mannon.

[7] Und er sagte zu ihnen: „Warum suchtet ihr mich? Wusstet ihr nicht, dass ich in denen [in dem] sein muss, was meines Vaters ist?

[8] Und sie verstanden nicht, was er zu ihnen sagte. Und mit ihnen nach Nazareth zurückkehrend war er ihnen gehorsam.

Search Term 1^1 IWordsl I I Case I I Reg ex

Stop

Hit Location

Рис. 3. Отображение искомого элемента inti в исходном файле

Это бывает нужно, например, чтобы проверить, с артиклем какого падежа используется тот или иной предлог (например, предлог trotz) в текстах разных стилей или разных периодов развития языка (рис. 4). Сортировка при этом может быть как по количеству, так и по первой или последней букве в кластере, а также по степени вероятности, что первое слово в кластере предшествует остальным. Для этого инструмента есть дополнительные опции, подробно о которых можно прочитать в инструкции разработчика на сайте [11].

Рис. 4. Отбор групп слов с тремя элементами, начинающихся с предлога trotz, в романе К. Майя «Через пустыню»

Функция N-Grams также связана с поиском в загруженных файлах групп слов (кластеров) заданной длины, но в отличие от Clusters речь идет не о поиске групп слов вокруг ключевого элемента, а о любых сочетаниях стоящих рядом слов. Это позволяет найти наиболее распространенные в тексте словосочетания. Например, в предложении Das ist meine Pflicht программа выдаст три кластера с двумя элементами: Das ist, ist meine, meine Pflicht. Так, на рис. 5 видно, что наиболее употребимым сочетанием из трех слов в романе В. Херндорфа «Чик» является выражение die ganze Zeit, встретившееся в тексте 29 раз.

Для того чтобы переключиться с функции Words Clusters на N-Grams, нужно, открыв вкладку Clusters / N-Grams, выбрать ниже поля результатов в условиях поиска Words или N-Grams соответственно.

Щ. AntConc 3.5.8 (Windows) 2019

File Global Settings Tool Preferences Help

Corpus Files

Total No.

1

Files Processed

Concordance Concordance Plot File View Clusters/N-G ram s Collocates Word List Keyword List Total No. of N-Gram Types 54130 Total No. of N-Gram Tokens 58224

Rank Freq Range N-qram

1 29 die ganze zeit

2 27 sagte tschick und

3 19 und es war

4 17 aber es war

5 16 ich weiß nicht

й 14 auf der Straße

7 14 sagte ich und

S 14 und das war

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9 12 aus dem fenster

10 12 den ganzen tag

11 12 tschick und ich

12 12 und ich war

13 11 sagte die frau

Search Term ^ Words Case Reg ex 0 N-Giams

N-Gram Size

Mm.[3 S

Stop

Sort by О Invert Order Sort by Freq v

Search Term Position

0 On Left □ On Right

_I Max. IS

Min. Freq. Min. Range

П П П :

Clone Results

Рис. 5. Результат поиска кластеров из трех элементов в романе В. Херндорфа «Чик»

5. Функция Collocates дает возможность сделать мгновенный статистический анализ по словам, стоящим слева и справа от искомого элемента. Так, чтобы посмотреть, с какими словами используются например, словоформы существительного Gott в романе В. Херндорфа «Чик», достаточно вписать это слово в строку поиска, выставить параметр количества элементов слева и справа, а также способ представления результата: по общей частотности употребления, по частотности употребления слов слева или справа, по алфавиту или по конечной букве в слове. На рис. 6 показано, что статистически после слова zweifeln вероятнее других слов будет стоять gott, в отличие, например, от слова mein, которое хоть и встречается со словом Gott чаще, чем zweifeln, но сила его коллокации со словом Gott значительно меньше, поскольу mein в исследуемом тексте встречается и с другими словами, а не только с Gott. Также видно, что наиболее частотным коллокациями слова gott в диапазоне четырех слов слева и справа являются элементы mein и o.

6. Word List - инструмент для подсчета и представления всех словоупотреблений, встречающихся в корпусе, в виде упорядоченного списка. Другими словами, это инструмент для составления частотного словаря конкретного корпуса (рис. 7).

Q. AntConc 3.5.8 (Windows) 2019

File Global Settings Tool Preferences Help

Corpus Hies_

Wolfgang_Herrndorf-1

Total No.

1

Files Processed

Concordance Concordance Plot File View Clusters/N-Grams Collocates Word List Keyword List Total No. of Collocate Types: ¿8 Total No. of Collocate Tokens: 150

Rank -req Freq(L) Freq(R) Stat Collocate

1 2 2 0 11.82938 zweifeln

2 2 2 0 10.82938 eingestellt

3 15 12 3 10.48834 0

4 2 2 0 9.50745 kennen

5 4 3 1 9,36994 ach

6 3 2 1 9.09241 glauben

7 8 A 4 8.82938 gott

S 2 2 0 8,65945 aufgeregt

9 7 0 7 8.21047 rief

10 2 0 2 8.02202 mona

11 13 13 0 7.59908 mein

12 4 1 3 6.45434 mutter

13 3 3 0 6.14755 wirklich

14 ? 2 fl f. 0744Q warum

Search Term 0 Words П Case П Regex

|g°tr I

Sort by О Invert Order I Sort by Stat "

Window Span П Same From...[^ Min. Collocate Frequency

E Г

T|TO...|4B F|

Clone Results

Рис. 6. Результат поиска коллокаций словоформ в романе В. Херндорфа «Чик», где сортировка результатов представлена по силе коллокации

Рис. 7. Перечень всех словоформ, встретившихся в загруженных для анализа древненемецких текстах

7. Key Word List - инструмент, рассчитывающий, какие слова в корпусе являются необычно высокочастотными или необычно низкочастотными по сравнению с эталонным корпусом. Например, если в качестве эталона использовать текст классического художественного произведения, то в исследуемом тексте газеты или политической речи необычно высокочастотные единицы могут быть охарактеризованы как маркеры публичного стиля соответствующего жанра (разумеется, для определения таких характерных особенностей потребуется целый ряд подобных сравнительных исследований).

Приведем примеры заданий, которые можно предложить обучающимся в качестве пробной работы с сервисом AntConc. Эти примеры могут быть использованы на занятии по истории немецкого языка или по современным технологиям научных исследований. С помощью приложения AntConc проследим некоторые характеристики древневерхненемецкого языка.

Древневерхненемецкие тексты VIII-X в. можно взять в открытом доступе на различных отечественных и зарубежных порталах, например на портале http://www.mediaevum.de/texte/ahd.htm. Необходимо заранее подготовить файл для работы с приложением (или файлы, если планируется сопоставление статистических данных по разным текстам этого периода).

Большинство общедоступных материалов в интернете представлены в формате pdf или html. С вышеуказанного сайта можно скопировать материалы непосредственно в Word, а затем сохранить файл в формате txt, используя кодировку Unicode 8. Файлы в формате pdf требуют предварительной конвертации в txt.

Исследование и результаты

Студенты загружают подготовленный заранее файл / файлы, используя функцию Open File, и выполняют на его основе задания, предложенные ниже.

Задание 1. Определите по два наиболее часто встречающихся в текстах древневерхнего периода имени существительных, местоимения, глагола и служебных слова. Прокомментируйте полученные данные.

Решение: задание выполняется с помощью функции Word List. Полученные данные служат основанием для дискуссии (существительные: man, gottes; местоимения: er (her), ih; глаголы: ist (is), scul; служебные слова: in, so) (рис. 7).

4f¡ AntConc 3.5.8 [Windows) 2019

File Global Settings Tool Preferences Help

Total No.

1

Files Processed

Concordance Concordan' Word Types: 2408

«Plot File View Clusters/N-Gtains Collocates Woid I Ki Ke^votd Lin Word lokcns: SU3 Scarchllits: M

Lemma Word Form(s)

1 139 ¡r

2 87 so

78

4 53 her

5 62 thaz

6 56 ni

7 51 ist

S 46

9 42 mit

10 40 man

11 37 imo

12 36 uuas

13 35 der

Search Term 0 Words □ Case □ Regex

I Advanced | Search Only ] |0

Word List

Loaded □ Loaded

Sert by □ Ir

| Sort by Freq

«

Рис. 7. Пример полученных данных по поиску наиболее частотных слов в древневерхненемецких текстах

Задание 2. Определите, является ли ein в древневерхненемецких текстах числительным или артиклем.

Решение: задание выполняется с помощью функции Concordance. Вводим в качестве искомого элемента ein* (звездочка (*) делает возможным поиск других форм этого слова) и определяем по контексту однозначность отнесения слова к той или иной части речи (рис. 8).

% AntConc 3.5.8 (Windows) 2019 - □ X

File Global Settings Tool Preference s Help

"orpus Files Concordance Concordance Plot FileView 1 ". Г -г ■ 1 II к ' Wold List Keyword List

ЯШ1ЯВЯ loncordance Hits 16

Hit KWIC File Л

1 sophie") und aus dem Martianus Capeila (e n Afrikaner aus Karthago, schri AI

2 rkumflex, die kurzen betonten Vokale mit e nem Akut vermerkt (vgl. so uni AI

3 enteo ni uuenteo« enti douuasdere no almahtico cot» manno milti AI

4 in quad". Thisu mit diu her quad, e n azstan-tenti thero ambahto c AI

5 s (ein Afrikaner aus Karthago, schrieb um e ne Enzyklopädie der sieben fre AI

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6 in gotes faruun ni uuas imu dhuo e nighan fal ardeilendi, dhazs ir AI

7 afterthiu luzilu samasô einem ziti quad e n fon scalcon thes bisgoffes,th AI

8 si den lîhharnun likkan lâzzit, sô quimit e n heri fona himilzungalon, d AI

9 duruh desse mancunnes minna fardolêta. E nan kuning uueiz ih . Heizsit AI

10 am in autumno. E nan kuning uueiz ih . Heizsit AI

11 n aus dem Aristoteles, aus dem Boethius (e n römischer Philosoph und Ste AI

12 filu slehtaz, iz ist gifüagit al in e n selp so helphantes bein. Thie AI

13 ider demo himele gâgen démo méze e res stüpfes, also du lirnetost ir AI

14 : sinaz io gihôhe: Wanana sculun Frankon e non thaz biwänkon, ni sie in fre AI

< > < V

Search Term 0 Words □ Case □ Reget Search Window Size

eini _II Advanced I50 etil

Total No. Start Sort Show Every Nth Row |1 t \

Files Processed (wie Sort 0 Level 1 |1R »¡IE Level 212R Level 3|3R is||

Clone Results

Рис. 8. Пример полученных данных по поиску контекстов употребления ein* в древневерхненемецких текстах

Задание 3. Найдите в текстах древневерхненемецкого периода формы генитива и дайте количественную и качественную оценку этих форм.

Решение: задание выполняется с помощью функций Concordance и Concordance Plot (рис. 9). Для количественной оценки необходимо подготовить еще два файла с современными текстами такого же объема - один религиозной тематики, а другой - содержащий разговорную речь. В поиск по древним текстам вводится форма thes, с помощью Concordance определяется общее количество использований, а с помощью Concordance Plot - равномерность употребления форм генитива по разным текстам этого периода. То же самое проводится с современными текстами и формой des. Затем делается сравнительный анализ количественных показателей и равномерности распределения форм по тексту. Для представления результатов полезной является возможность «клонировать результат» с помощью кнопки в правом нижнем углу Clone Results (в нашем примере в древних текстах объемом 35 500 знаков встретилось 24 формы генитива thes, в современных религиозных проповедях того же объема - 38 форм, а в отрывке из романа «Чик» -всего 3 формы).

Рис. 9. Пример полученных данных по поиску генитивных форм в древневерхненемецких и современных текстах

Для качественной оценки необходимо определить функции генитива в каждом конкретном употреблении, посмотрев в Concordance контекст и осуществив перевод релевантных форм в контексте.

Задание 4. Определите наиболее употребимые выражения в древневерхненемецких текстах и дайте свой комментарий полученному результату.

Решение: задание выполняется с помощью функции Cluster / N-Grams. Возможно варьировать количество элементов в кластере. Наиболее целесообразным представляется выставление параметров количества элементов от 2 до 4 (рис. 10).

Ж AntConc 3.5.8 {Windows) 2019

File Global Settings Tool Preferences Help

Concordance Concordanc Total No. of N-Gram Types Rank

Files Processed

Plot File Vie 14476

г Clusters/N-Grams Collocates Word List Keyword List Total No. of N-Gram Tokens 16338

1 7 aus dem

2 7 in himile

3 7 ni uueiz

4 6 daz er

5 6 ni uuas

6 6 uuarth her

7 5 bidhiu huuanda

S 5 gotes sunu

9 5 uueiz ih

10 A denne der

11 A er in

12 A hier in

13 A hiu qi

< > <

SearchTertrr Wolds Lase Rege» 0 N-Grams N-Gram Size

Advanced Min.|2 cs| Max. 14

Start ¡ Stop Sort Min. Freq. Min. Range

Sort by Q Invert Order Search Terra Position I1 cfil I1 cÉil

Sort by Freq 0 On Left On Right

Clone Results

Рис. 10. Пример полученных данных по поиску наиболее частотных коллокаций слов в древневерхненемецких текстах

Задание 5. Найдите все формы глагола stantan и определите их функцию в каждом конкретном случае.

Решение: чтобы найти разные формы одного слова, в котором могут меняться как конечные звуки, так и корневые гласные и согласные, необходимо варьируемую часть слова заменить на звездочку (*). Таким образом, используем Concordance и вводим в поиск st*n* (рис. 11).

\ AntConc 3.5.8 (Windows) 2019 - □ X

е Global Settings Tool Preferences Help

Corpus Files

Althochdeutsche-Texte

Files Processed

Concordance Concordar Concordance Hits 20

Hit KWIC

ePIot File View Clusters/N-Grams Collocates Word List Keyword List

File

guoto. Tröstet hiu gi-selleon. Mine not-stallon . Hera santa mih god . loh mir se guoto. Tröstet hiu gi-selleon. Mine not-stallon . Hera santa mih god . loh mir se dem sciltim stont. do stopun tö samane staimbortchludun, heuwun harmlicco huit no Nazarenisgen". Zuogiengun thö thie dar stuontun inti quädun Petro: "zi uuäre thö bi; thö Simon Petrus üzze in themo frithoue stantenti inti sih uuer menti. Abur gisah in , inti uuermitun sih: uuas mit in Petrus stantenti inti sih uuermenti, thaz her gisähi t \ theih sinaz lob zellu,: zi thiu due stünta mino, \ theih scribe däti sino:: Ü t mittilagart, sten ni kistentit, verit denne stüatago in lant

scal er vora demo rihhe az rahhu stantan, pi daz er in uuerolti eo kiuuerköt . uue demo in vinstri scal sino virina stüen, prinnan in pehhe: daz ist rehto paluut s". Stuontun scalcä inti thie ambahtä zi theru gl

scürim: dat in dem sciltim stönt. dö stopun tö samane staimbortchludun, heuv celus himil. sol sunna. luna mano. stellas sterron. uulgor uunst. uentus uuint. pluuia n heilante in then hof the bisgoffes. Petrus stuont uze zi then duron. Üzgieng ther ande

Althochdeut: Althochdeut: Althochdeut: Althochdeut: Althochdeut: Althochdeut: Althochdeut: Althochdeut: Althochdeut: Althochdeut: Althochdeut: Althochdeut: Althochdeut: Althochdeut:

Search Term 0 ¡Words □ Case □ Regex

К wie Sort

И Level! HR

Stop

Search Window Size

I» :|

Show Every Nth Row 11

E

Рис. 11. Пример полученных данных по поиску форм глагола 81ап1ап в древневерхненемецких текстах

В перечне отобранных программой словоформ, очевидно, окажутся и формы других слов, которые следует отсортировать самостоятельно. В комментарии результата необходимо обратить внимание на то, какие формы используются и почему. То, что не вся парадигма спряжения представлена в текстах, является нормой (см. современные корпусные исследования на эту тему, в частности [6]).

Задание 6. Продемонстрируйте отсутствие качественной редукции конечных гласных в древневерхненемецком языке.

Решение: задав в поиск формулы «*Ь> «*и» «*о», можно вывести списки слов, оканчивающиеся на эти гласные, и сопоставить их с современными соответствующими словоформами (рис. 12).

Щ. AntConc 3.5,8 Global Settrni Corpus Files_

Althochdeutsche-Texte

Help

(Windows) 2019

Tool Preferences

Concordance Concorder Concordance Hits 219

Hit_KWIC_

Files Processed

г Plot File View Clusters/M-Grams Collocates Word List Keyword List

_File_ .

dinge, denne scal manno gilth fona deru moltu arsten, lossan sth ar dero leuuo vazzö Althochdeut: liuuordan Christ gotes sunu . Untazs hear nu aughidom uuir dhazs gheistliihhe chirun Althochdeut: lilpit, endi bidhiu uuard ir uns chiboran. Sunu auur uuard uns chigheban, huues nibi Althochdeut: folc sceotantero: so man mir at burc enTgeru banun ni gifasta, nü scal mih suäs Althochdeut: ir quhad: Endi so sama so fona dhemu berandin hreue, so ar-springit dh Althochdeut: biguol en Sinthgunt, Sünna era suister, thu biguol en Friia, Uolla era suister;, thL Althochdeut: demo Balderes uolon sin uuoz birenkit. thu biguol en Sinthgunt, Sünna era suisi Althochdeut: ,thu biguol en Friia, Uolla era suister;, thu biguol en Uuodan, so he uuola cond Althochdeut: h suäsat chind suertu hauwan, bretön mit sTnu billiu, eddo ih imo ti banin werdan. Althochdeut: lob singen? Nist si so gisüngan, mit regulu bithuüngan: si habet thoh thia rihti Althochdeut: thin, sama sö in himile endi in erthu. Broot unsaraz emezzigaz gib uns hiut Althochdeut: dhrinissa bauhnunga. Hinan frammert nu chichundemes mit heduome dhes he Althochdeut: uzilan uuordanan. Umbi inan quhad dauid:, Dhu chiminnerodes inan liuzelu minneri Althochdeut: indi.'. Meinida dherforasago chiuuisso in dheru Christes lyuzilun, huuanda k uns u Althochdeut:

Search Term 0 Words □ Case □ R

Ll|

| Start ] Sort ] Show Every Nth Row (T

Kwic Sort

0 Level 1 |1R ^¡0 Level2|2R ^j]0 Level 3

Search Window Size [50 ;

Clone Results

Рис. 12. Пример полученных данных по поиску слов, оканчивающихся на -u в древневерхненемецких текстах

Заключение

Таким образом, приложение АпСопс позволяет легко и быстро проводить корпусные исследования в рамках занятий в вузе - как очных, так и дистанционных. Для работы в условиях высшей школы у этого ресурса есть ряд преимуществ.

Во-первых, он бесплатный и не требует регистрации, что крайне важно для вузов, работающих только с официально приобретенным лицензионным продуктом.

Во-вторых, эта программа очень проста и понятна в использовании, чего нельзя сказать про Со8ша8 II - программы более функциональной, но требующей длительного обучения по работе с ней. Для то-

го, чтобы начать работать с Antconc, не требуется долгого изучения интерфейса программы, формул запросов и т.п. Это позволяет в ходе даже одного занятия в вузе провести небольшое исследование, которое, с одной стороны, продемонстрирует принципы работы с корпусами, в частности создание конкорданса, с другой - создаст у обучающихся ситуацию успеха, мотивирующую на дальнейшие собственные исследования.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В-третьих, данная программа позволяет работать с любым текстовым файлом txt, а не только с аннотированными текстами, включенными в традиционные корпусы, такие как Cosmas II, DWDS, DDD, Zeitungstextkorpora и др. Корпус для анализа с помощью AntConc составляется самим пользователем и может быть любого объема, на любом языке и включать любое количество файлов, предварительно собранных в формате txt в одну общую папку. Это оказывается очень удобным, так как дает возможность выполнить статистический анализ практически любого материала, как цифрового (т.е. файлов с текстом), так и не цифрового (т.е. тексты на бумаге). Конечно, во втором случае текст нужно будет сначала оцифровать (например, отсканировать и распознать).

В-четвертых, сервис позволяет анализировать несколько файлов или целиком, как единый копус, или параллельно, как отдельные файлы. Это делает возможным сравнительный анализ количественных показателей в разных текстах.

Резюмируя, следует сказать, что сервис AntConc может быть для начинающего исследователя-лингвиста очень полезным и несложным в использовании инструментом, легко и быстро осуществляющим статистический анализ текстового материала. Однако интерпретация полученных с его помощью результатов все равно остается за человеком.

Литература

1. Плунгян В. А. Почему современная лингвистика должна быть лингвистикой корпу-

сов. URL: https://polit.ru/article/2009/10/23/corpus/ (дата обращения: 09.0S.2019).

2. Баранов М.М., Вознесенская А.Н., Добровольский О.Г., Киселева К.Л., Козерен-

ко А.Д. Корпусное обеспечение исследований в области фразеологии и фразеогра-фии // Русская лексикография XXI века: проблемы и способы их решения. М. ; СПб. : Нестор-История, 2016. С. 14-15.

3. Баркович А.А. Корпусная лингвистика: специфика современных метаописаний языка

// Вестник Томского государственного университета. 2016. № 406. С. 5-13.

4. Laura A. Janda. Aspectual clusters of Russian verbs // Studies in Language. 2007.

Vol. 31 (3). Р. 607-64S.

5. Lüdeling A., Walter M. Korpuslinguistik // Handbuch Deutsch als Fremd- und Zweitspra-

che. HSK 35. De Gruyter, 2010. S. 315-322.

6. Wallner F. Korpora im DaF-Unterricht - Potentiale und Perspektiven am Beispiel des

DWDS. Revista Nebrija de Lingüística Aplicada 13, Nr. número especial - Actas de Congreso (2013).

7. Dobrovolsky O. Constructions in Parallel Corpora: a Quantitative Approach //

Computational and Corpus-Based Phraseology (Second International Conference,

Europhras 2017. London, UK, November 13-14, 2017. Proceedings) / ed. by Ruslan Mitkov. Berlin : Springer, 2017. Р. 41-53.

8. Горина О.А. Использование технологий корпусной лингвистики для развития

лексических навыков студентов-регионоведов в профессионально-ориентированном общении на английском языке : дис. ... канд. пед. наук. М., 2014. 321 с

9. Станкевич А.Ю. Поиск контекстов и оценка их типичности средствами AntConc

(Laurence Anthony) // Теория и практика преподавания русского языка как иностранного: достижения, проблемы и перспективы развития : материалы V Междунар. науч.-метод. конф. / редкол.: С.И. Лебединский (гл. ред.) и др. Минск : Изд. Центр БГУ, 2011. С. 210-213.

10. Ahrenholz B., Wallner F. Digitale Korpora und Deutsch als Fremdsprache // Deutsch als Fremdsprache (Deutschunterricht in Theorie und Praxis / hrsg. Bernt Ahrenholz, Ingelore Oomen-Welke. Schneider Verlag Hohengehren, 2013. Bd. 10. S. 261-272.

11. Страница разработчика приложения AntConc Атонио Лоуренса. URL: http://www.antlab.sci.waseda.ac.jp/index.html (дата обращения: 09.08.2019).

Сведения об авторе:

Котюрова Ирина Аврамовна - кандидат филологических наук, доцент, Петрозаводский государственный университет (Петрозаводск, Россия). E-mail: koturova@petrsu.ru

Поступила в редакцию 28 октября 2020 г.

CORPUS-BASED STUDIES WITH ANTCONC SERVICE AT THE UNIVERSITY Kotiurova I.A., Ph.D. (Philology), Associate Professor, Petrozavodsk State University (Petrozavodsk, Russia). E-mail: koturova@petrsu.ru

DOI: 10.17223/19996195/52/3

Abstract. The article describes one of the tools of corpus-based studies - the AntConc program, which can be successfully used in both educational and research work of students. The article describes the basic principles of working with the program, its functionality. For a better understanding the description is supported by screenshots of the program window. Then, a number of specific tasks are given that can be offered to students in the course of the history of the German language both in full-time practical training and in remote work mode. An example of ways to solve these tasks with screenshots demonstrates the possibilities of working with the program and is also intended to motivate to draw up any other similar tasks. The article provides tasks that clearly demonstrate the lexical, grammatical, phonetic and syntactic features of the Old High German language. Since the program allows you to work with documents in any language, these tasks can be adapted to other languages. In conclusion, an analysis of the attractions of AntConc for use in the university is made. Firstly, it is free and does not require registration, which makes the service available both for working directly in a practical lesson and in remote / independent work mode. Secondly, AntConc has an intuitive interface and is very easy to use. This allows even a single lesson at the university to conduct a small study on the topic being studied and teach students to conduct their own research using AntConc. Thirdly, this program allows you to work with any txt file of any size, in any language, which allows you to perform statistical analysis of almost any material. Fourth, the service allows you to analyze several files either as a whole corpus, or as separate files, which allows a comparative analysis of quantitative indicators in different texts. All this makes the AntConc service an almost perfect tool for student research. Keywords: corpus studies; AntConc; history of the German language.

References

1. Plungyan V.A. Why modern linguistics should be linguistics of corps. Access Mode: https://polit.ru/article/2009/10/23/corpus/ (Date of access 09.08.2019).

2. Baranov MM, Voznesenskaya AN, Dobrovolsky OG, Kiseleva KL, Kozerenko AD. Case

support for research in the field of phraseology and phraseography // Russian lexicography of the XXI century: problems and methods their decisions. M., St. Petersburg: Nestor-History 2016, p. 14-15.

3. Barkovich A.A. Corpus linguistics: the specifics of modern meta-descriptions of language

// Bulletin of Tomsk State University. 2016. No 406. P. 5-13.

4. Laura a. Janda Aspectual clusters of Russian verbs / Studies in Language, Vol. 31: 3. 2007

Рp. 607-648.

5. Lüdeling, Anke; Walter, Maik: Korpuslinguistik. In: Hans-Jürgen Krumm et al. (Hrsg.):

Handbuch Deutsch als Fremd- und Zweitsprache, HSK 35, S. 315-322, De Gruyter, 2010.

6. Wallner, Franziska: Korpora im DaF-Unterricht - Potentiale und Perspektiven am Beispiel

des DWDS. Revista Nebrija de Lingüística Aplicada 13, Nr. número especial - Actas de Congreso (2013).

7. Dobrovolsky O. Constructions in Parallel Corpora: a Quantitative Approach // Computational and Corpus-Based Phraseology (Second International Conference, Europhras 2017. London, UK, November 13-14, 2017. Proceedings) / Ruslan Mitkov (Ed.). Berlin etc.: Springer, 2017. Pp. 41-53.

8. Gorina O.A. The use of corpus linguistics technologies for the development of lexical skills

of regional students in professionally oriented communication in English: dis. ... cand. teacher. sciences. M., 2014. 332 р.

9. Stankevich, A.Yu. Search for contexts and assessment of their typicality by means of AntConc (Laurence Anthony) / A.Yu. Stankevich // Theory and practice of teaching Russian as a foreign language: achievements, problems and development prospects: materials of the V Intern. scientific method. conf. Minsk / Editorial: S.I. Lebedinsky, (Ch. Ed.) [et al.]. Minsk: Publishing House. BSU Center, 2011. Рр. 210-213.

10. Ahrenholz, Bernt; Wallner, Franziska: Digitale Korpora und Deutsch als Fremdsprache. In: Bernt Ahrenholz, Ingelore Oomen-Welke (Hrsg.): Deutsch als Fremdsprache (Deutschunterricht in Theorie und Praxis, Bd. 10), Рр. 261-272. Schneider Verlag Hohengehren, 2013.

11. URL: http://www.antlab.sci.waseda.ac.jp/index.html (access date: 09.08.2019).

Received 28 October 2020

i Надоели баннеры? Вы всегда можете отключить рекламу.