Научная статья на тему 'Потенциал применения методов корпусной лингвистики в рамках дескриптивного подхода в исследовании чулымско-тюркского языка'

Потенциал применения методов корпусной лингвистики в рамках дескриптивного подхода в исследовании чулымско-тюркского языка Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
453
97
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Лемская В. М.

Потенциал применения методов корпусной лингвистики в рамках дескриптивного подхода в исследовании чулымско-тюркского языка Лемская В.М. Статья посвящена рассмотрению возможного применения новых методов дескриптивных исследований, в частности, методов корпусной лингвистики, в изучении чулымско-тюркского языка на кафедре языков народов Сибири ТГПУ.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Potential of Corpus Linguistics Methods Application within the Descriptive Approach in Chulym Turkic Studies. Lemskaya_V._M. The article is devoted to the possible application of new descriptive research methods, corpus linguistics methods in particular, within the research of the Chulym Turkic language at the Department for Indigenous Languages of Siberia, TSPU.

Текст научной работы на тему «Потенциал применения методов корпусной лингвистики в рамках дескриптивного подхода в исследовании чулымско-тюркского языка»

7. Креинович Е.А. Глагол кетского языка. Л., 1968.

8. Крейнович Е.А. О явлениях развития кетского языка от форм аналитических к формам синтетическим. Аналитические конструкции в языках различных типов. М.-Л., 1965.

9. Дульзон А.П. Кетский язык. Томск, 1968.

Список сокращений

аварск. - аварский язык, кет. - кетский язык, нан. - нанайский язык, тур. - турецкий язык, хак. -курд. ц.д. - центральный диалект курдского языка, хакасский язык, хант.каз. - казымский диалект хан-лакск. - лакский язык, лезг. - лезгинский язык, тыйского языка, якут. - якутский язык.

В.М. Лемская

ПОТЕНЦИАЛ ПРИМЕНЕНИЯ МЕТОДОВ КОРПУСНОЙ ЛИНГВИСТИКИ В РАМКАХ ДЕСКРИПТИВНОГО ПОДХОДА В ИССЛЕДОВАНИИ ЧУЛЫМСКО-ТЮРКСКОГО ЯЗЫКА

Томский государственный педагогический университет

Одной из ведущих тенденций современных научных исследований является их междисциплинарность. Такие различные, на первый взгляд, науки, как лингвистика и статистика, лингвистика и математика, взаимодействуют через интеграцию своих методов. Одна из наиболее показательных научных дисциплин такого рода - прикладная лингвистика, что в отечественной традиции понимается как наука, использующая новые методы анализа и систематизации материала, в частности, математические и статистические методы [1, с. 5], а также разрабатывающая автоматизированные системы хранения и обработки речевых и текстовых данных [2, с. 43].

Приоритетным направлением современной прикладной лингвистики является корпусная лингвистика. Корпусная лингвистика определяет общие принципы построения лингвистических корпусов данных (корпусов текстов) с использованием современных компьютерных технологий, разрабатывает методику сбора реальных языковых явлений -текстов письменной и устной речи, а также способов их хранения и анализа [3; 4]. Работа с корпусами текстов позволяет в определенной степени абстрагироваться от субъективности исследователя и приблизиться к объективному изучению языка.

Ключевое понятие корпусной лингвистики -корпус текстов. Это, с одной стороны, одна из основных целей, преследуемых корпусной лингвистикой, с другой - это объект изучения корпусной лингвистики. Определить корпус текстов можно следующим образом: это расположенное на машинном носителе, сбалансированное, репрезентативное собрание особо размеченных (аннотированных) текстов, отобранных по фиксированным параметрам для достижения определенной лингвисти-

ческой цели и исследуемых нелинейно, по принципу гипертекста [4; 5, с. 2; 3, с. 197].

Не каждое собрание текстов принято считать корпусом. Особой характеристикой корпуса текстов является его морфологическая (глоссирование) и синтаксическая разметка (парсинг) как часть аннотации. В настоящее время большинство исследователей склоняются к тому, чтобы неаннотиро-ванные собрания текстов относить не к текстовому корпусу, а к текстовому архиву. Аннотация корпуса - это порядок добавления дополнительной информации к тексту, расположенному на машинном носителе, а также физическое отображение этой информации [3, с. 197], в частности, морфологическая разметка корпуса представляет собой помор-фемное грамматическое описание текста корпуса, а синтаксическая разметка - это придание тексту синтаксической структуры (обычно фразовой структуры) [3, с. 198]. Отмеченные характеристики обычно добавляются либо вручную, либо при помощи особых компьютерных программ, а затем корректируются. Учитывая, что принятый объем корпусов текстов - минимум 1 миллион словоупотреблений, обеспечение полной морфологической, синтаксической и другой характеристики корпуса весьма трудоемко, однако являет собой ценную информацию для изучения языкового своеобразия на примере собранного корпуса текстов.

На основе корпуса письменной речи возможно создание словаря или составление грамматики языка [6, с. 395]; корпус устной речи предоставляет широкий диапазон речи представителей различных социальных групп, следовательно, язык в его фактическом употреблении, благодаря чему возможны корректировка имеющихся словарных данных и прогнозирование дальнейшего развития языка [7,

В.М. Лемская. Потенциал применения методов корпусной лингвистики в рамках..

с. 13]. В целом корпусная лингвистика представляет собой методику научного изыскания, отражающую дескриптивный подход в изучении языка.

На сегодняшний день многие направления лингвистических исследований используют дескриптивный, т.е. описательный, подход в изучении языка. Это касается, прежде всего, изучения малочисленных бесписьменных либо младописьменных языков [8]. В условиях отсутствия исторических текстов на данном языке, даже при наличии некоторого описания, сделанного в прошлом, производится только синхроническое исследование таких языков с возможным сопоставлением имеющихся в наличии обобщений с результатами проводимого исследования. Синхроническое исследование этих языков приобретает большую актуальность ввиду реальной угрозы их исчезновения. По разным подсчетам, к концу XXI столетия в мире сохранится лишь от 5 до 25 % существующих сегодня языков [8]. Дескриптивные исследования предоставляют возможность в довольно короткий срок собрать достаточное количество языковых фактов и в сжатой, либо развернутой, форме отобразить основные положения грамматики, морфологии и других аспектов изучаемых языков. Таким образом, методы сбора и хранения лингвистических данных, применяемые в корпусной лингвистике, становятся неотъемлемой частью дескриптивных исследований исчезающих языков.

Современная лингвистика предполагает изучение языка через комплексное исследование, включающее анализ этнографических, социологических, археологических данных, что проливает свет не только на язык изучаемого народа, но и на его культуру. Данные археологии, социологии и других дисциплин помещаются в единую базу, что в принципе является корпусом данных, на основе которого, а также с привлечением корпуса текстов данного языка, возможны более обширные и объективные исследования тех или иных аспектов языка и культуры малочисленных народов.

В России систематическое исследование исчезающих языков аборигенных народов Сибири началось сравнительно недавно, в основном со второй половины XX в. Выдающийся вклад в эти исследования внес профессор Томского государственного педагогического института А.П. Дульзон. Примечательно, что первой сибирской народностью, выбранной для комплексного изучения под руководством А.П. Дульзона, были чулымские тюрки [9, с. 17]. Одновременно с изучением чулымско-тюркского языка были проведены археологические раскопки курганов с погребениями XIV-XIX вв., предоставившие ценные исторические, антропологические и этнографические данные.

Основным методом сбора лингвистического материала являлось двух-, трехкратное письменное

фиксирование данных, сообщаемых разными информантами, вручную [9, с. 19]. Следует отметить, что из фактического лексического материала по данному языку в настоящее время на кафедре языков народов Сибири имеется в наличии лишь несколько томов полевых записей, сделанных в начале 1970 гг. ученицей А.П. Дульзона Р.М. Бирюко-вич. По большей части это словари, в некоторых словарных статьях присутствуют примеры в форме фраз и предложений, однако их количество весьма небольшое. В томах полевых записей имеются также и небольшие рассказы. Ввиду отсутствия возможности работать с материалами, собранными А. П. Дульзоном, исследователи, возможно, повторно собирают лингвистические данные, которые, несомненно, отражают иной этап состояния языка, нежели тот, что имелся шестьдесят лет назад, когда работал А. П. Дульзон. Однако такое положение лишает исследователей возможности на наглядных примерах, а не только на теоретических обобщениях, прослеживать эволюцию чулымско-тюркского языка, а также прогнозировать его дальнейшее развитие, даже в условиях реальной угрозы его полного исчезновения (говорящих на чулымско-тюркском языке насчитывается сегодня 203 человека) [10, с. 622].

Представляется, что благодаря методам корпусной лингвистики возможно не только предотвратить утерю имеющихся и собираемых данных по чулымско-тюркскому языку, но и проводить качественно иные лингвистические исследования данного языка дескриптивного характера. Так, при помощи большого корпуса текстов чулымско-тюркского языка, расположенного на машинном носителе, аннотированного и размеченного морфологически и синтаксически, появится основание для более объективного исследования этого языка при абстрагировании субъекта исследования, что отвечает требованиям к современному научному изысканию.

Необходимо заметить, что лингвистические корпусы могут состоять из текстов как устной, так и письменной речи. При составлении корпуса письменных текстов для соответствия последнего критерию репрезентативности принято включать в корпус тексты различных жанров (литературная проза, официальные документы, эпистолярные тексты и др.) [11, с. 118]. По причине того, что бесписьменные языки, как правило, довольно ограничены в употреблении и в основном используются в сфере бытового общения, составить корпус письменных текстов таких языков весьма сложно.

Корпус устных текстов, напротив, представляется именно тем собранием языковых данных, которое обеспечивает наиболее полное отображение реалий исследуемого языка. При этом устные тексты не только записываются на аудионоситель, но и транс-

крибируются, а в последующем размечаются, аннотируются и переводятся на один язык или более.

Как уже было отмечено, текстовые материалы по чулымско-тюркскому языку на кафедре языков народов Сибири представлены в весьма небольшом количестве. Одной из приоритетных задач кафедры является систематизация (унификация) и компьютеризация архивных данных языков народов Сибири, в частности, чулымско-тюркского языка. Логично предположить, что результаты этой работы, наряду с собираемыми в ходе диссертационных и других исследований текстами, будут в конечном итоге иметь форму корпуса текстов чулымско-тюркского языка.

В рамках систематизации и компьютеризации данных по чулымско-тюркскому языку производится перенос материала полевых записей в электронную форму. При этом используется специальная программа Тоо1Вох, рассчитанная на документацию бесписьменных языков, подобных чулымско-тюркскому [12]. Чулымско-тюркские слова вводятся в компьютер при помощи фонетического шрифта 1ра-samd ие1рЬоп1 Б^Бои^Ь, основанного на латинице, однако имеющего все символы, необходимые для передачи звукового строя чулымско-тюркского языка (рис. 1). Следует отметить, что до недавнего времени фиксация данных по чулымско-тюркскому языку, наряду с другими бесписьменными языками бывшего СССР, проводилась на кириллической основе с незначительными изменениями символов. Выбор шрифта Ipa-samd ие1рЬоп1 Б^Бои^Ь был обусловлен стремлением следовать общепринятым международным стандартам записи данных по таким языкам. Для достижения полного соответствия международным требованиям документации бесписьменных языков в дальнейшем планируется перевод данных в формат Юникод.

Широкие возможности программы Тоо1Вох для поиска лексем основного языка, слов, записанных в графе примеров, а также ряд других параметров позволяют считать создающееся собрание данных

по чулымско-тюркскому языку как минимум первой частью корпуса этого языка. Такой вывод возможен и потому, что представление данных в томах полевых записей неоднородно: в качестве словарных статей выступают и отдельные фразы и предложения (рис. 2). Частично это обусловлено отсутствием языкового соответствия между некоторыми русскими и чулымско-тюркскими понятиями. С другой стороны, полевые записи не представляют собой тщательным образом отредактированного словаря. Примечательно, однако, что программа ToolBox позволяет также вводить тексты и не только переводить, но и морфологически и синтаксически размечать их. Имеются все основания полагать, что область применения программы ToolBox в исследовании чулымско-тюркского языка будет расширяться, а корпус этого языка будет базироваться именно на данной программе.

ВВШЯШЕЖ^____________________

Fite Edit Database Project Tools View Whdow Help

e»|H| I ü| 1 jiMH-hI _| Ml I H *11^1 linonei

\b< Lexeme aqtja bxribis oi kigintn

satuip alirya

\e Alternate form

\ps Part of speech

\ge English Gloss bribe

\gn Russian Gloss взятка

\xv Example (Chu)

\xe Example free trans. (En)

Vcn Example free trans (Ru)

\nt Notes En clause

\dt Date edited 15/Dec/2005

JlolxlTff sjDJ_xj|@k alDl xl ИЕ? ли x|

j\lx aqtfa bæribis o+ kr 50/1000 D1

Рис. 2. Пример словарной статьи, в которой целое чулымско-тюркское предложение является обозначением одного русского слова

Помимо способов письменной фиксации языков к настоящему времени разработаны компьютерные программы, позволяющие не только воспроизводить аудиотекст и его графическое отображение, но и видеозапись воспроизводящего этот текст, например, компьютерная программа ELAN [13]. Несомненно, одновременный доступ к аудио-, видео-, а также текстовой информации абсолютно идентичного содержания - новый эффективный и весьма многообещающий метод хранения как лингвистических, так и экстралингвистических данных: аудио-, а особенно видеозапись, точно фиксирует интонацию, мимику, жесты говорящего (рис. 3). Кроме того, компьютер позволяет в любой момент заново воспроизвести фрагмент текста любого объема, либо без задержек попеременно воспроизводить отрезки текста, находящиеся на довольно далеком расстоянии друг от друга в потоке речи. Такое собрание данных можно рассматривать в качестве нового вида корпусов устных текстов. Программы, подобные ELAN, обеспечивают интеграцию материала не только для лингвистических

I Ioolbox-Dictionary.txt Я^Щ— -inlxl

Fite Ed* Database Project Tools View Window 1 hMp

ss|h| 1 «-I-»IH-hI I в ’1 *M-"I llnone]

|| Dlctiorvary.txt JHlx]

| \lx Lexeme fckjk

\a Alternate form

\ps Part of speech n

\ge English Gloss (any) deer

\gn Russian Gloss олень (любой)

Vv Example (Chu) kik

\xe Example free trans. (En) wild goat

\xn Example free trans. (Ru) дикая коза

\nt Notes En used for 'deer buck in a team"

\dt Date edited 10/Dec/2005

\\Щ:. fflol xi ME'. glnl xiirf^ ffial x| Щ flUPJxll

\lx ækik 982/1000 Dl A

Рис. 1. Пример словарной статьи чулымско-русского словаря в программе Тоо1Вох

Е.В. Лазарева. О глагольной синонимии в кетском языке

изысканий, но и для широкого спектра гуманитарных исследований, связанных с жизнедеятельностью человека, - психологии, социологии, психолингвистики, этнографии, антропологии и др. При помощи этих программ станет возможным проведение на наглядном материале не только исследований отдельных этносов, их языков и отличительных характеристик их представителей, но и сравнительных и сопоставительных исследований разных народов. Кроме того, результаты лингвистических исследований чулымско-тюркского языка, основанные на применении методов компьютерной и корпусной лингвистики, можно практически использовать не только при подробном описании грамматики этого языка, но и при разработке программы обучения чулымских тюрков их этнически родному языку.

Представляется возможным обобщить потенциальные возможности применения методов корпусной лингвистики при изучении чулымско-тюркского языка.

1. Аудио-, видеофиксация речи, документирование речи в текстовой форме, что способствует сохранению языка.

Литература

1. Пиотровский Р.Г. и др. Математическая лингвистика. Учеб. пособие для пед. ин-тов. М., 1977.

2. Королев Э.И. Компьютерная лингвистика на пороге нового века // Проблемы прикладной лингвистики. 2001. Сб. ст. / Отв. ред. А.И. Новиков. М., 2001.

3. McEnery T., Wilson A. Corpus Linguistics. 2nd edition. Edinburgh, 2004.

4. Рыков. В.В. Корпусная лингвистика. Курс лекций. 2002а. http://www.rykov-cl.narod.ru/lektcii.doc

5. Hunston S. Corpora in Applied Linguistics. Cambridge, 2002.

6. Leech G. Corpus processing. In: International encyclopedia of linguistics. 2nd edition. William J. Frawley (ed. in chief). Oxford, 2003. Vol. 1.

7. Lenders W. Korpora - Stand der Forschung. In: Sprache und Datenverarbeitung. № 1-2. 1993.

8. Кибрик А. Полевая лингвистика // Кругосвет. Энциклопедия. 2001. http://www.krugosvet.ru/articles/82/1008267/print.htm

9. Галкина Т.В., Осипова О.А. А.П. Дульзон. К 95-летию со дня рождения. Томск, 1995.

10. Баскаков А.Н. Чулымско-тюркский язык // Письменные языки мира: Языки Российской Федерации. Социолингвистическая энциклопедия. Книга 2. М., 2003.

11. Баранов А.Н. Введение в прикладную лингвистику. Эдиториал УРСС. М., 2001.

12. Field Linguist's Toolbox. http://www.sil.org/computing/toolbox/index.htm

13. Manual for Elan v 2.5.1. http://www.und.nodak.edu/dept/linguistics/textbooks/UsingELAN.pdf

Рис. 3. Пример использования программы ELAN при документации и архивации данных по хантыйскому языку

2. Обработка записанных текстов, их разноплановый анализ.

3. Создание академической литературы по чулымско-тюркскому языку: словарей, лингвистических, антропологических, социологических и других трудов.

4. Составление методических пособий, сборников рассказов и другой литературы для обучения чулымских тюрков родному языку.

Е.В. Лазарева

О ГЛАГОЛЬНОЙ СИНОНИМИИ В КЕТСКОМ ЯЗЫКЕ

Томский государственный педагогический университет

Исследования в области синонимии широко представлены в работах отечественных [1-3] и зарубежных [4-6] лингвистов, что подтверждает неослабевающий интерес к этому виду семантических отношений лексических единиц. В лингвисти-

ческой литературе понятие синонимии, методы анализа, критерии выделения и виды синонимов трактуются по-разному. Ср. следующие определения синонимов: «Синонимы - тождественные или близкие по смыслу слова» [7, с. 23], «Синонимами

i Надоели баннеры? Вы всегда можете отключить рекламу.