Научная статья на тему 'Текстовый Корпус немецких диалектов на Алтае: общие принципы построения'

Текстовый Корпус немецких диалектов на Алтае: общие принципы построения Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
259
62
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РОССИЙСКИЕ НЕМЦЫ / НЕМЕЦКИЕ ДИАЛЕКТЫ / УСТНАЯ РЕЧЬ / ТЕКСТОВЫЙ КОРПУС / RUSSIAN GERMAN / GERMAN DIALECTS / ORAL SPEECH / LANGUAGE CORPUS

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Трубавина Нина Владимировна

Статья посвящена научно-исследовательскому проекту, целью которого является создание мультимедийного корпуса диалектных текстов российских немцев Алтайского края. Автор проводит сравнительный анализ лингвистических корпусов Института немецкого языка г. Мангейм, посвященных разновидностям немецкого языка на территории Германии и за ее пределами, и характеризует в том же ключе Корпус немецких диалектов на Алтае, обрисовывая предполагаемую структуру корпуса, характеризует эмпирический материал, положенный в его основу, и намечает основные этапы работы. Создание мультимедийного диалектного корпуса позволит составить представление об особенностях островных немецких диалектов в масштабах края и послужит в будущем основой для их лингвистической характеристики.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Corpus of German dialects in Altai

The article is devoted to the research project "Corpus of German dialects in Altai", that is being carried out by the staff of the dialectological laboratory of the German Language Department at the Altai State Pedagogical Academy, with the financial support of the Russian Humanitarian Scientific Foundation. The purpose of the project is to create a multimedia text corpus of German dialects in Altai, which will form an idea about the features of German dialects in the island-wide region and would be used as a basis for their linguistic characteristics. Creating the text corpus of German dialects in Altai will significantly expand the realm of island dialects research, it will comprehensively help to describe the currently existing and extinct German dialects in Altai and to save the irreplaceable national culture of the Russian Germans. By carrying out a comparative analysis of the structure, content and layout of language corpora at the Institute of German Language in Mannheim, which represent the German varieties in Germany and abroad, the author considers in the same light the Corpus of German dialects in Altai, outlining the proposed structure of the Corpus, characterizing the empirical material on which the main phases of work are based and outlined. The main idea of the Corpus is to cover all Upper and Low German dialects presented in the Altai region and to give evidence about their phonetic, grammatical and lexical features, possibly reflecting gender and age. The empirical basis for creating the Corpus was the material collected by the staff of dialectological laboratory of the German Language Department at the Altai State Pedagogical Academy in annual dialectological expeditions in the 1990s and in the first decade of the 21st century in the German villages of the Altai region. As far as the studied dialects of the Altai are unwritten, the key role in collecting the material is played by the recordings of spontaneous monologues and dialogues of the informants. The article provides a brief overview of the software available to the researchers involved in corpus linguistics, and determines the most appropriate tool to create the Corpus of German dialects in Altai. The program EXMARaLDA has been selected as such a tool, it was developed by the Hamburg University and the Institute for German Language in Mannheim, especially for construction and management of corpus of spoken language. At the moment the work is at the stage of filling media corps with audio recordings and texts.

Текст научной работы на тему «Текстовый Корпус немецких диалектов на Алтае: общие принципы построения»

Вестник Томского государственного университета. 2013. № 373. С. 38-43

УДК 811.112.2

Н.В. Трубавина

ТЕКСТОВЫЙ КОРПУС НЕМЕЦКИХ ДИАЛЕКТОВ НА АЛТАЕ:

ОБЩИЕ ПРИНЦИПЫ ПОСТРОЕНИЯ

Статья посвящена научно-исследовательскому проекту, целью которого является создание мультимедийного корпуса диалектных текстов российских немцев Алтайского края. Автор проводит сравнительный анализ лингвистических корпусов Института немецкого языка г. Мангейм, посвященных разновидностям немецкого языка на территории Германии и за ее пределами, и характеризует в том же ключе Корпус немецких диалектов на Алтае, обрисовывая предполагаемую структуру корпуса, характеризует эмпирический материал, положенный в его основу, и намечает основные этапы работы. Создание мультимедийного диалектного корпуса позволит составить представление об особенностях островных немецких диалектов в масштабах края и послужит в будущем основой для их лингвистической характеристики.

Ключевые слова: российские немцы; немецкие диалекты; устная речь; текстовый корпус.

В современной лингвистике большое значение приобретают научные работы, посвященные изучению национальной языковой картины мира, в частности исследованию языка российских немцев, долгое время развивавшегося в отрыве от основного языкового эт-номассива в окружении русского языка [1-4]. Актуальность освещения такого рода проблем обусловлена, с одной стороны, недостаточной изученностью немецких диалектов на территории России, с другой - возрастающими темпами и масштабами ассимилирующего воздействия языка окружения на диалект и возникающей в связи с этим проблемой сохранения родного языка и культуры.

Одним из ведущих исследовательских центров, занимающихся изучением языка российских немцев, является диалектологическая лаборатория Алтайской государственной педагогической академии, при которой в течение 90-х гг. ХХ в. и в первое десятилетие XXI в. были проведены фундаментальные исследования островных немецких говоров на Алтае в области фонологии, грамматики (морфологии и синтаксиса), лексики и фразеологии, литературы российских немцев [5-9]. В ходе работы исследователями лаборатории был собран обширный фактический материал, представляющий большую ценность в качестве иллюстрации репертуара языковых средств российских немцев: аудиозаписи живой монологической и диалогической диалектной речи, карточки с письменно зафиксированными словами и фразами, шванки, рукописные полевые записи и т. п. В условиях развития современных методов островной диалектологии и широкого применения компьютерных технологий созрела необходимость перевода репрезентативной базы данных лаборатории на качественно новый уровень. В 2012 г. при кафедре немецкого языка Алтайской государственной педагогической академии при финансовой поддержке Российского гуманитарного научного фонда стартовал научно-исследовательский проект, имеющий целью составление мультимедийного корпуса диалектных текстов российских немцев на Алтае, который позволит составить представление об особенностях островных немецких диалектов в масштабах края и послужит в будущем основой для их лингвистической характери-

стики1.

Под лингвистическим, или языковым, корпусом понимается совокупность текстов, подобранных в соот-

ветствии с определенными принципами, унифицированных и размеченных по определенному стандарту и обеспеченных специализированной системой управления данных [10. С. 3; 11. С. 99]. Иными словами, это информационно-справочная система, основанная на собрании электронных текстов (устных или письменных) на определенном языке. Создание такого корпуса текстов, снабженного лингвистическими комментариями и описаниями, является не только надежным и удобным способом хранения информации, но и источником исследования языка, позволяя существенно расширить спектр исследований [12]. В последнее время корпусы все чаще используются в качестве основы для составления словарей, а также при обучении языку и при составлении учебных пособий [11, 13-15].

Одним из первых текстовых корпусов в 60-е гг. США был создан так называемый Брауновский корпус. Корпус представлял собой большое собрание текстов на электронном носителе, охватывавших 15 наиболее массовых жанров англоязычной печатной прозы США и сопровождавшихся не только обширным описанием, но и большим количеством материалов его первичной статистической обработки [11. С. 101]. На сегодняшний день подобные корпусы существуют для многих языков мира. Наиболее известны Британский национальный корпус (British National Corpus - BNC), Международный корпус английского языка (International Corpus of English - ICE), Национальный корпус русского языка (НКРЯ), Чешский национальный корпус (Cesky narodni korpus) и др. [10. С. 29].

Имеющиеся на сегодняшний день лингвистические корпусы различаются своими целями, принципами организации базы данных, методами обработки (разметки) текстов: это могут быть одноязычные и многоязычные, диалектные и национальные корпусы, посвященные одному или нескольким жанрам, авторам, историческим периодам, пополняющиеся и не пополняющиеся, состоящие из полных текстов либо из текстовых фрагментов. В зависимости от того, насколько доступен корпус для внешних пользователей, он может быть открытым или закрытым (в том числе коммерческим). Корпусы также различаются в зависимости от того, снабжены ли они и в какой мере лингвистической и экстралингвистической разметкой.

Из корпусов, посвященных немецкому языку, самое большое в мире электронное собрание современных

немецкоязычных текстов представляет собой коллекция Института немецкого языка в городе Мангейм, (Герма-ния)2, проект создания которой возник в WBQ^ гг. и был нацелен на охват максимально возможного объема различных типов текстов: художественная проза, научная и научно-популярная литература, периодика и др. Имеется также подкорпус устной речи (разговорная речь, записи речи носителей различных диалектов и др.). Объем корпусов постоянно расширяется: количество словоупотреблений с 28 миллионов в 1992 г. выросло к 2QQ2 г. до более 1,9 миллиардов. К части подкорпусов открыт бесплатный доступ при условии регистрации и установки специальной программы, возможен также тестовый ограниченный онлайн поиск.

Интересующие нас подкорпусы Мангеймского проекта (Archiv ftir gesprochenes Deutsch)3 охватывают 4 группы корпусов, посвященных разновидностям немецкого языка (Sprachvarietaten) на территории Германии и за ее пределами:

1.1. Немецкие диалекты на территории Германии (Binnendeutsche Mundarten):

- Немецкие диалекты: округ Бёблинген (Deutsche Mundarten: Kreis Boblingen).

- Диалекты ГДР (Deutsche Mundarten: DDR).

- Корпус Герфорда (Deutsche Mundarten: Herforder Korpus).

- Восточные диалекты (бывшего ГДР) (Deutsche Mundarten: ehemalige deutsche Ostgebiete).

- Диалекты юго-западной Германии и земли Фо-рарльберг, Австрия (Deutsche Mundarten: Stidwest-deutschland und Vorarlberg).

- Немецкие диалекты Шварцвальда (Deutsche Mundarten: Schwarzwald).

- Корпус предложений Венкера (Deutsche Mundar-ten: Wenkersatze-Korpus).

- Корпус Цвирнера (Deutsche Mundarten: Zwirner-Korpus).

1.2. Литературный устный стандарт и разговорная немецкая речь (Binnendeutsche Umgangssprachen / Stan-dardsprache):

Краткий обзор отдельных подкорпусов «

- Литературный устный стандарт (Deutsche Hoch-lautung).

- Корпус Кенига (Deutsche Standardsprache: Konig-korpus).

- Корпус Пфеффера (Deutsche Umgangssprachen: Pfeffer-Korpus).

1.3. Немецкие диалекты на территории других государств (Auslandsdeutsche Varietaten):

- Немецкие говоры Бразилии (Brasiliendeutsche Mundarten).

- Немецкие говоры Израиля (Emigrantendeutsch in Israel).

- Немецкий язык в Северной Америке (Deutsch in Nordamerika).

- Российско-немецкие говоры (Russlanddeutsche Mundarten).

- Немецкие говоры Румынии (Rumaniendeutsche Mundarten).

1.4. Смешанные корпусы:

- Немецкие диалекты в Германии и за рубежом (Binnen- und auslandsdeutsche Mundarten: Varia).

- Славянские говоры в Рурской области (Slawische Mundarten im Ruhrgebiet).

- Развитие немецкой разговорной речи (Wandel im gesprochenen Deutsch).

В рамках настоящей статьи мы не будем подробно рассматривать все подкорпусы этих групп, вместо этого приведем сводную таблицу со сравнительной характеристикой избранных корпусов. Они мало отличаются друг от друга по времени сбора материала, охватывая при этом практически все места распространения немецкого языка и немецких диалектов. Охвачены диалекты Германии, частично Австрии, Швейцарии, Лихтенштейна, Эльзаса и Нидерландов, а также основные места распространения переселенческих говоров. По российско-немецким говорам информации недостаточно, в имеющихся источниках указано только, что корпус передан на обработку Института немецкого языка в Мангейме в рамках проекта «Языковая интеграция переселенцев (Sprachliche Integration von Aussiedlern)»4.

Т а б л и ц а 1

prochene Sprache» (IDS) - сбор материала

Корпус | Сбор материала (время, место, респонденты)

1.1. Немецкие диалекты на территории Германии

Диалекты ГДР 196Q-1964 гг. 440 нас. пунктов по всей ГДР По одному респонденту каждого поколения в каждом нас. пункте

Корпус Герфорда С 196Q г. Все нас. пункты округа Герфорд -

Восточные диалекты (ГДР) 1962-1965 гг. Восточные земли (бывшая ГДР) Носители восточно- и южнонемецких диалектов

Корпус предложений Венкера Записи корпуса «Восточные диалекты бывшего ГДР» Нет данных -

Корпус Цвирнера 1955-197Q гг. 1000 сельских населенных пунктов в бывших землях ГДР, в земле Форарльберг (Австрия), а также в Лихтенштейне, Эльзасе, Нидерландах По одному респонденту каждого поколения в каждом населенном пункте и по три респондента-переселенца из бывших земель ГДР

1.2. Литературный устный стандарт и разговорная немецкая речь

Литературный устный стандарт 1971, 1974/75 гг. Нет данных Нет данных

Корпус Кенига 1975-1978 гг. Аугсбург, Фрайбург Студенты в университетах Аугсбурга и Фрайбурга

Корпус Пфеффера 196Q-C гг. 37 городов ФРГ, 10 городов ГДР, 6 городов Австрии, 4 города в Швейцарии 185 женщин и 218 мужчин, отобранных согласно социологическим критериям

1.3. Немецкие диалекты на территории других государств

Немецкие говоры Бразилии 1985 Городская и сельская часть бывшего поселения Ной-Вюртемберг (Бразилия) Информанты трех поколений отдельных семей

Корпус Сбор материала (время, место, респонденты)

Немецкие говоры Израиля 1989-1995 гг. Различные населенные пункты Израиля 162 немецкоязычных респондента еврейского происхождения, эмигрировавших в 1930-е гг. и проживающих в Израиле

Немецкий язык в Северной Америке 1961-2QQ1 гг. Канада, Мексика, США (прежде всего Канзас и Висконсин) Нет данных

Российско-немецкие говоры Нет данных Нет данных Нет данных

Немецкие говоры Румынии 1966-1975 гг. 200 общин в Румынии Дети, женщины и мужчины разных возрастных групп

l.4. Смешанные корпусы

Развитие немецкой разговорной речи 1991-1997 гг. См. корпус Цвирнера Респонденты корпуса Цвирнера + новое поколение

Немецкие диалекты в Германии и за рубежом 194Q-1975 гг. ФРГ, Автрия, Швейцария, Австралия Нет данных

Как видно из табл. 1, при отборе респондентов составители корпусов устной немецкой речи стараются охватить в равной степени мужчин, женщин и детей трех поколений. В некоторых случаях, как, например, в корпусе немецких говоров Бразилии, респонденты трех поколений отбирались из одной семьи, в других случаях, например в корпусе диалектов ГДР или корпусе Цвирнера, отбирались по одному респонденту каждого поколения в каждом населенном пункте, или, как в корпусе «Изменения в разговорной немецкой речи», записывались те же самые респонденты, что и в корпусе Цвирнера, чтобы проследить изменения во времени, исключив фактор личности. Возможно также построение специализированной базы данных на ос-

Краткий обзор содержания отдельных

нове записей другого корпуса (ср. корпус предложений Венкера, для создания которого были использованы выдержки из аудиозаписей корпуса «Восточные диалекты (бывшего ГДР)», содержащие предложения Венкера5).

Основное содержание практически всех корпусов -нарративные монологи и спонтанные диалоги носителей диалектов (табл. 2). Исключение составляет корпус анкет Венкера и корпус современного немецкого языка, содержащий выдержки из новостей, комментариев, сообщений прессы, а также корпуса Кенига, в котором содержится много озвученных студентами текстов, списки слов, интервью и отрывков из конституции Германии.

Т а б л и ц а 2

дкорпусов «Gesprochene Sprache» (IDS)

Корпус Содержание

1.1. Немецкие диалекты на территории Германии

Диалекты ГДР Рассказы, беседы, сравнивающие тексты

Корпус Герфорда -

Восточные диалекты (ГДР) Монологи - рассказы, диалоги, доклады, анкеты Венкера, цифры 1-15, имена и дни недели, фольклорные темы

Корпус предложений Венкера Анкеты Венкера, извлеченные из других корпусов

Корпус Цвирнера Инициированные монологи, диалоги, цифры 1-10, дни недели, отдельные фрагменты анкет Венкера

1.2. Литературный устный стандарт и разговорная немецкая речь

Литературный устный стандарт Выдержки из новостей, комментариев, сообщений прессы

Корпус Кенига Озвученные тексты, списки слов, интервью и спонтанные диалоги, отрывки из конституции Германии

Корпус Пфеффера Монологи и диалоги по целенаправленно подобранным темам (25 тем)

l.3. Немецкие диалекты на территории других государств

Немецкие говоры Бразилии Интервью, рассказы, беседы

Немецкие говоры Израиля Монологи, диалоги

Немецкий язык в Северной Америке Монологи по предложенным темам, разговорная и диалектная речь, анкеты Венкера

Российско-немецкие говоры Нет данных

Немецкие говоры Румынии Монологи-рассказы

l.4. Смешанные корпусы

Развитие немецкой разговорной речи Монологи, диалоги, биографии

Немецкие диалекты в Германии и за рубежом Монологи на заданные темы, повседневные диалоги, предложения Венкера

По структуре и наполняемости корпусы сильно отличаются друг от друга. Здесь представлены как очень объемные корпусы - от 1 500 до 6 000 записей, так и весьма скромные - 9 записей в Корпусе современного немецкого произношения. Практически все корпусы дигитализированы, однако есть и такие, записи которых не переведены в электронную форму, - корпусы «Немецкий в Америке», «Современное немецкое произношение». Краткий обзор структуры и наполняемости корпусов представлен в табл. 3.

Как видно из таблицы, не все корпусы снабжены транскрипцией - в колонке «Транскрипты» буквами

«п.у.» обозначены базы данных, не предоставляющие транскрипты к записям («шеМ vorhanden» = не представлены). В некоторых корпусах имеются только рукописные расшифровки текстов, транскрипты в электронной форме отсутствуют (корпус Кенига, Герфорда, Изменения в разговорной речи, часть корпуса Цвирнера).

Меньше всего проработана синхронизация аудиотекстов с транскриптами - синхронизированы только 4 из рассмотренных корпусов, и те не полностью. Данных по российско-немецким диалектам не найдено.

Краткий обзор структуры отдельных подкорпусов «Се5ргосЬепе 8ргасЬе» (ГО8)

Корпус Кол-во записей Кол-во записей в электронном формате Снабжены электронной документаци- ей Кол-во тран-скриптов Кол-во электронных транскриптов Кол-во син-хронизиро-ванных записей

1.1. Немецкие диалекты на территории Германии

Диалекты ГДР 1 625 1 625 997 ^У. ^У. -

Корпус Герфорда 180 180 180 180 ^У. -

Восточные диалекты (ГДР) 984 982 984 ~300 280 276

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Корпус предложений Венкера 1 623 954 1 134 - П.У. -

Корпус Цвирнера 5 857 5 767 5 769 ~3 000 2 134 2 093

1.2. Литературный устный стандарт и разговорная немецкая речь

Литературный устный стандарт 9 ^У. 9 ? ^У. -

Корпус Кенига 45 43 45 43 ^У. -

Корпус Пфеффера 398 398 398 398 398 398

1.3. Немецкие диалекты на территории других государств

Немецкие говоры Бразилии 18 18 16 ^У. ^У. -

Немецкие говоры Израиля 142 142 142 15 15 9

Немецкий язык в Северной Америке 300 - 75 ^У. ^У. -

Российско-немецкие говоры ~400 ^У. ^У. ^У. ^У. -

Немецкие говоры Румынии 2036 2036 53 ^У. ^У. -

1.4. Смешанные корпусы

Развитие немецкой разговорной речи 60 60 ^У. ~40 ^У. -

Немецкие диалекты в Германии и за рубежом 110 ? 110 ^У. ^У. -

Что касается разметки, здесь корпусы различаются незначительно. Практически все записи корпусов содержат информацию о дате, месте и плановом квадрате записи, содержании, типе разговора. Обязательно указываются длительность и качество записи. Данные о респондентах включают в себя возраст, пол, профессию, место рождения (в соответствии с плановым квадратом исследования), место учебы или работы, место жительства, место рождения родителей и супруга, а также данные о родном диалекте информанта и сфере его распространения.

Проанализировав имеющиеся корпусы немецких диалектов и говоров, представляется целесообразным охарактеризовать Корпус немецких диалектов на Алтае по вышеупомянутым критериям.

Одним из основных требований к текстовому лингвистическому корпусу является представительность или репрезентативность, под которой понимается необходимо-достаточное и пропорциональное представление в корпусе текстов различных периодов, жанров, стилей, авторов и т.п. [10. С. 5]. При создании корпуса немецких диалектов на Алтае авторы исходят из того, что он должен охватывать все представленные в Алтайском крае немецкие говоры, моделировать коммуникацию в каждом конкретном говоре, давать представление о фонетических, грамматических, лексических особенностях говоров и по возможности отражать гендерный и возрастной аспекты.

Корпус будет построен как система подкорпусов важнейших групп немецких диалектов, представленных на Алтае. В ходе реализации проекта будут представлены и обработаны диалектные тексты говоров всех немецких сел Алтайского края, основанных в начале ХХ в. (около 50 поселений, в том числе 10 бывших немецких сел, жители которых были расселены в соседние укрупненные села). Жители этих сел являются носителями островных немецких говоров разных типов, сформировавшихся в иноязычном окружении в процессе длительного контактирования с рус-

ским языком: 1) нижненемецкие украинские; 2) западносредненемецкие поволжские; 3) восточносредненемецкие волынские; 4) южнонемецкие украинские. Включение в корпус записей речи носителей говоров исчезнувших на сегодняшний день сел предоставит в распоряжение языковедов бесценный материал для исследований.

В основу корпуса будет положен эмпирический материал, собранный сотрудниками диалектологической лаборатории кафедры немецкого языка Лингвистического института Алтайской государственной педагогической академии в ходе ежегодных диалектологических экспедиций в 90-х гг. ХХ в. и в первое десятилетие XXI в. в немецкие села Табунского, Благовещенского, Кулундинского, Суетского, Бурлинского,

Немецкого национального и Славгородского районов. Репрезентативный материал представляет собой анкеты Г. Венкера, аудиозаписи монологов и диалогов носителей островных немецких говоров (респонденты -старшее, среднее и младшее поколение). Часть записей представлена в электронном формате, большинство же текстов записано на ферромагнитную пленку и подлежит обработке и дигитализации. К части записей имеются рукописные транскрипты. Поскольку исследуемые говоры Алтайского края являются бесписьменными, ключевую роль при сборе материала играют записи спонтанных монологов и диалогов информантов.

В настоящий момент проект находится на этапе создания мультимедийного корпуса и наполнения его аудиозаписями и текстами. Работа ведется в следующих направлениях: оцифровка, пополнение, расшифровка и транскрибирование записей, перевод рукописных транскриптов в электронную форму, их соотнесение и синхронизация с аудиотекстами, оснащение корпуса метатекстовыми данными.

Для получения репрезентативного корпуса будут отобраны следующие типы текстов: бытовые тексты (монологического и диалогического характера), фольклорные тексты и шванки, потребительские тексты

(например, кулинарный рецепт). Особое место в корпусе будет отведено блоку, основывающемуся на лингвистических анкетах Георга Венкера. Предложения Вен-кера, переведенные носителями на их родной диалект, иллюстрируют не только фонетические, лексические и морфологические особенности островных немецких говоров Алтая, но и диалектную вариативность в области синтаксиса. Предполагается представить записи предложений Венкера для большинства немецких сел Алтайского края.

Транскрипты в корпусе представлены в так называемой «полуорфографической записи» - популярной транскрипции, приближенной к орфографии современного немецкого языка с использованием нескольких специальных значков или буквосочетаний для обозначения звуков, которые невозможно передать при помощи немецкой орфографии. В дальнейшем возможно снабжение текстов научной фонетической транскрипцией, что позволит изучать фонетическую сторону островных немецких говоров Алтая. Пунктуация в транскриптах не подчиняется правилам современного литературного немецкого языка, а расставляется в соответствии с интонационными паузами в устной речи информанта. Такой подход дает представление как о синтагматическом членении, так и о синтаксических особенностях живой диалектной речи.

Разметку планируется сделать по возможности по образцу корпусов Мангейма: дата, место записи, содержание, тип разговора, возраст, пол и профессия респондента, место рождения и жительства, диалект / говор, по возможности - место рождения родителей и супруга. Позднее предполагается снабдить тексты максимумом лингвистической разметки, для чего необходимо уже на этапе составления корпуса определиться с программным обеспечением. Программа для составления корпуса немецких диалектов на Алтае должна включать в себя инструменты для транскрипции, экстралингвистической и лингвистической разметки и синхронизации аудиозаписи и транскрипта (с возможностью обновления и пополнения), а также поддерживать поисковые запросы пользователя, включая поиск по различным слоям разметки.

В настоящее время в распоряжении исследователей, занимающихся корпусной лингвистикой, имеются следующие инструменты: Transcriber (1998, Франция), EXMARaLDA (2001, Германия), Transana (2001, США), ELAN (2002, Нидерланды), Praat (2003, Нидерланды), InqScribe (2005, США).

Наиболее простым программным обеспечением для транскрипции и субтитров являются Transcriber6 и In-qscribe7. Transcriber - это бесплатна компактная и простая в использовании программа для аннотирования звука и видео, позволяющая создавать несколько ярусов аннотаций, например для нескольких говорящих. Программа Inqscribe является условно-бесплатной (разработчик Inquirium, LLC), представляет собой удобный и простой инструмент для транскрипции аудиофайлов (mp3, wav, wma, aiff) и создания субтитров к видеофайлам (mpeg-2, mpeg-4).

Praat (doing phonetics by computer) - бесплатная компьютерная программа анализа и синтеза речи с преимущественно фонетической направленностью,

разработанная в институте фонетических исследований Амстердамского университета (Нидерланды) профессорами П. Боерсма и Д. Вининком в 2009 г.8 Программа обрабатывает аудиофайлы в формате WAV, AIFF, FLAC и др., предоставляя исследователю инструменты для спектрального анализа с возможностью редактирования звуковых сегментов и аннотирования спектрограммы и тонального контура.

Еще один бесплатный инструмент для аннотирования видео- и аудиоданных - программа ELAN (EUDICO Linguistic Annotator), специально разработанная для анализа естественного языка и языка жестов9. Исследователю предоставляются неограниченные возможности создания, редактирования и анализа аннотаций (в том числе многослойных) к медиакорпусу.

Инструмент для профессиональных исследователей, позволяющий анализировать и управлять данными очень сложными способами, представляет собой условно бесплатный программный продукт Transana, разработанный Центром исследований в области образования при университете штата Висконсин, США10. Программа работает с файлами как видео- (mpg, avi, mov, m4v, mp4, wmv), так и аудиоформатов (wav, mp3, wma, aac, snd) и позволяет исследователю аннотировать аудио и видео с неограниченным числом ярусов.

Практически все перечисленные программные продукты совместимы с операционной системой Windows, все (кроме Transcriber) поддерживают немецкий язык и могут быть использованы для создания и аннотирования корпусов. Однако наиболее подходящей для поставленных целей проекта Корпуса немецких диалектов на Алтае представляется программа EXMARaLDA, разработанная Гамбургским университетом совместно с институтом немецкого языка в Мангейме специально для построения и управления корпусов разговорного языка11. Программа предлагает возможности многослойного аннотирования, транскрибирования, создания и просмотра корпусов, выполнения запросов и добавления различных данных в корпус, перекодирования аннотаций в другие форматы, в том числе Elan, Transcriber. По сути EXMARaLDA представляет собой систему, в состав которой входят несколько программных средств: Partitur Editor (инструмент для создания, обработки и экспортирования транскрипций и аннотаций); Corpus Manager (инструмент, снабжающий транскрипты и аудиозаписи метаданными и объединяющий их в корпус); EXAKT (инструмент для поиска аннотированных данных в корпусе), а также другие инструменты.

Распространяется программа бесплатно, может быть установлена практически на любой компьютер с любой операционной системой и, таким образом, как нельзя лучше подходит для целей, поставленных перед исследовательской группой, занимающейся проектом Корпуса немецких диалектов на Алтае.

В заключение стоит отметить, что создание текстового Корпуса немецких диалектов на Алтае позволит существенно расширить спектр исследований в области островной диалектологии, всесторонне описать существующие в настоящее время и уже исчезнувшие немецкие говоры Алтайского края и сохранить таким образом уникальный пласт национальной культуры российских немцев.

ПРИМЕЧАНИЯ

1 Текстовый Корпус немецких диалектов на Алтае, проект РГНФ № 12-04-00360. ~ http:

//www.ids-mannheim.de //agd.ids-mannheim.de/index.shtml

//dsav-oeff.ids-mannheim.de/DSAv/KORPORA/RS/RS_DOKU.HTM

//dsav-oeff.ids-mannheim.de/DSAv/KORPORA/WE/WE_DOKU.HTM

//www.transcriber.ru

//www.inqscribe.com/resources.html

//www.fon.hum.uva.nl/praat/

//tla.mpi.nl/tools/tla-tools/elan/

3 http 4 http 5 http 6 http 7 http 8 http 9 http:

10 http://www.transana.org

11 http://www.exmaralda.org/en_index.html

ЛИТЕРАТУРА

1. Москвина Т.Н. Национальная и диалектная языковая картина мира // История и культура немцев Алтая. Барнаул : Изд-во АзБука, 2005.

Вып. 4. С. 118-125.

2. Байкова О В. Развитие и функционирование немецких говоров Среднего Урала // Вестник Вятского государственного гуманитарного уни-

верситета. 2010. № 1, т. 1. С. 141-142.

3. Москалюк Л.И. Процессы сохранения / утраты родного языка российских немцев // Мир науки, культуры, образования. 2012. № 5. С. 275-

277.

4. Stellmacher D., Djatlowa V. Minderheitensprache im Worterbuch. Das Projekt Russlanddeutsches Worterbuch // Kontaktvarietaten des Deutschen

synchron und diachron / Elisabeth Knipf-Komlosi, Claudia Maria Riehl (Hg.). Wien : Praesens Verlag. Wien, 2012. S. 75-87.

5. Серых Ю.В. Звуковой строй и акустическое качество ударного вокализма южногессенского (самаркинского) немецкого островного говора

на Алтае : автореф. дис. ... канд. филол. наук. СПб., 1996. 18 с.

6. Москалюк ЛИ. Современное состояние островных немецких диалектов. Барнаул : Изд-во БГПУ, 2002. 291 с.

7. Трубавина Н.В. Особенности развития зависимых предикативных конструкций в островном верхненемецком говоре : автореф. дис. ... канд.

филол. наук. Барнаул, 2003. 20 с.

8. Москвина Т.Н. Лексические средства выражения эмоций в островном верхненемецком говоре : автореф. дис. ... канд. филол. наук. Барнаул,

2004. 19 с.

9. Гамалей И.Г. Структура простого повествовательного предложения островного севернобаварского диалекта Алтая : автореф. дис. ... канд.

филол. наук. Барнаул, 2007. 18 с.

10. Захаров В.П., Богданова СЮ. Корпусная лингвистика : учеб. для студентов гуманитарных вузов. Иркутск : ИГЛУ, 2011. 161 с.

11. Сысоев П.В. Лингвистический корпус в методике обучения иностранным языкам // Язык и культура. 2010. № 1. С. 99-111.

12. Ганиева И.Ф. Об использовании корпусов в лингвистических исследованиях // Вестник Башкирского университета. 2007. № 4, т. 12. С.104-106

13. Нагель О .В. Корпусная лингвистика и ее использование в компьютеризированном языковом обучении // Язык и культура. 2008. № 4. С. 53-59.

14. Колпакова Г.В. Корпусная лингвистика и лексикография // Электронный научно-образовательный журнал ВГПУ «Грани познания». Июнь

2011. № 2 (12). С. 42-50. URL: http://www.grani.vspu.ru

15. Дерябина ИВ. Характеристики педагогической работы с английским национальным корпусом // Вестник Тамбовского университета. Сер.:

Гуманитарные науки. 2012. № 9. С. 156-160.

Статья представлена научной редакцией «Филология» 24 апреля 2013 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.