Научная статья на тему 'Методы создания китайского корпуса текстов лингводидактики'

Методы создания китайского корпуса текстов лингводидактики Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
320
74
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СОЗДАНИЕ КОРПУСОВ ТЕКСТОВ / ЛИНГВОДИДАКТИКА КИТАЙСКОГО ЯЗЫКА / ИЗВЛЕЧЕНИЕ ТЕРМИНОВ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Лу Исинь

Рассматривается проблема создания корпуса текстов китайского языка как специализированой поисковой системы для извлечения терминов из текстов в области обучения китайскому языку как иностранному и создания терминологических баз данных в данной области. Особое внимание уделяется основным этапам построения корпуса: отбор текстов на китайском языке в области обучения китайскому языку как иностранному, проведение разметки и сегментации текстов в корпусе, извлечение лексических единиц из корпуса и составление базового списка кандидатов в термины.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE METHODS OF BUILDING CORPORA FOR CHINESE EDUCATIONAL LINGUISTICS

The paper deals with the problem of building a Chinese corpus as a specialized search system for extracting terms from texts in the field of teaching Chinese as a foreign language. The corpus also serves for building a terminology database. This process of building the corpus is implemented in 3 main steps: selection of Chinese texts in the field of teaching Chinese as a foreign language for building a corpus; segmentation and POS (Part-of-speech) tagging of text words and providing basic linguistic information; extracting terms from the corpus and compiling a list of terms.

Текст научной работы на тему «Методы создания китайского корпуса текстов лингводидактики»

Филология

Вестник Нижегородского университета им. Н.И. Лобачевского, 2018, № 4, с. 195-200

УДК 81.33

МЕТОДЫ СОЗДАНИЯ КИТАЙСКОГО КОРПУСА ТЕКСТОВ ЛИНГВОДИДАКТИКИ

© 2018 г. Лу Исинь

Российский государственный педагогический университет им. А.И. Герцена, Санкт-Петербург

yixinhn@mail .т

Поступила в редакцию 07.05.2017

Рассматривается проблема создания корпуса текстов китайского языка как специализированой поисковой системы для извлечения терминов из текстов в области обучения китайскому языку как иностранному и создания терминологических баз данных в данной области. Особое внимание уделяется основным этапам построения корпуса: отбор текстов на китайском языке в области обучения китайскому языку как иностранному, проведение разметки и сегментации текстов в корпусе, извлечение лексических единиц из корпуса и составление базового списка кандидатов в термины.

Ключевые слова: создание корпусов текстов, лингводидактика китайского языка, извлечение терминов.

Как и любая другая область науки, лингводидактика китайского языка нуждается в собственном терминологическом аппарате, необходимом для её эффективного развития и управления. Вместе с тем, в связи с бурным расцветом обучения китайскому языку как иностранному в России особенно актуальной становится проблема гармонизации терминологии лингво-дидактики в разных языках, предпосылкой для которой является создание терминологических баз данных в этой области.

Создание терминологических баз данных, как правило, опирается на анализ и оцифровывание уже опубликованных словарных источников и на результаты извлечения терминологии из корпусов текстов [1, с. 83]. Необходимо отметить, что на сегодняшний день терминоси-стема лингводидактики в китайском языке упорядочена крайне незначительно. Кроме того, следует учесть, что не было опубликовано ни одного словаря терминов данной области. Это является серьезным препятствием в развитии как самой лингводидактики, так и международного сотрудничества в этой предметной области. Таким образом, для извлечения терминов и создания терминологических баз данных в области лингводидактики китайского языка необходимо создание специализированного исследовательского корпуса текстов. Процесс его создания реализуется на 3 основных этапах:

1. Отбор текстов на китайском языке в области обучения китайскому языку как иностранному для создания корпуса;

2. Проведение разметки и сегментации текстов в корпусе и получение базовой лингвистической информации;

3. Извлечение лексических единиц (ЛЕ) из корпуса и составление базового списка кандидатов в термины.

Важной особенностью корпуса текстов является то, что он создается не просто как множество случайным образом объединенных текстов того или иного языка [2, с. 36]. При создании словаря на основе корпуса текстов необходимо определить принципы формирования выборочной совокупности для создания исследовательского корпуса текстов и ее необходимый и достаточный объем [3, с. 90]. Поскольку целью создания данного корпуса является извлечение терминов, отражающих терминополе лингводи-дактики китайского языка, и создание терминологической базы данных, то при создании корпуса текстов был установлен ряд специфических критериев отбора текстов:

1. Предметная ориентированность. Лингво-дидактический энциклопедический словарь определяет лингводидактику как «общую теорию обучения языку, включающую изложение теоретических основ такого обучения (представлений о содержании, целях и задачах, принципах, методах, процессе обучения) и его методических основ (обучение аспектам языка и видам речевой деятельности в конкретных условиях преподавания, организация учебного процесса, требования к профессии педагога)» [4, с. 140]. В нашем исследовании под китайской лингводи-дактикой понимается теория и методика обучения китайскому языку как иностранному, на этой основе в корпус включались только письменные научные тексты, посвященные теоретическим и методическим основам обучения китайскому языку как иностранному. При этом должны выбираться только тексты тех авторов, которые являются носителями китайского языка.

2. Соотнесенность по времени. В 1983 году в Китае создано научно-исследовательское общество по обучению китайскому языку как ино-

Таблица 1

Соотношение разных лексических единиц в китайском языке_

Лексическая единица Компонентный состав Пример

слогоморфема Один иероглиф Ш (вопросительная частица)

Слова простые слова Одна слогоморфема #(смотреть)

сложные слова Две слогоморфемы ^Ш(телевизор)

Три слогоморфемы ^^А(старик)

словосочетания Два слова Ф ^/КШ (китайская нация)

Три слова Ш/^/ШШ (аудиовизуальный курс)

странному, что официально ознаменовало рождение лингводидактики китайского языка как одной из отраслей науки. За последнее десятилетие благодаря повышению уровня экономического развития Китая и усилению его мощи, количество людей, изучающих китайский язык как иностранный, во всем мире значительно увеличилось. Вместе с тем теория и методика обучения в китайской лингводидактике беспрерывно совершенствуются. Поэтому в корпус отбираются только тексты, изданные после 2000 года.

3. Балансировка. Создаваемый корпус китайского языка должен обеспечить пропорциональное представление всех терминов лингво-дидактики, что позволит получать статистически достоверную информацию об их использовании. Поэтому корпус нуждается в необходимом и достаточном объеме текстов. Как показывают исследования [5, с. 6], у каждого слова китайского языка в среднем два значения, и каждое из них появляется в текстах минимум пять раз. Тогда корпус, создаваемый для составления словаря в 10 тысяч лексических единиц, должен включать 10 000x2^5=100 000 предложений. Если средняя длина предложения китайского языка - 25 иероглифов, то корпус должен быть объемом примерно в 4000 ЛЕ.

Русско-английский учебный словарь «Лин-гводидактика и тестирование» насчитывает примерно 1000 терминов, используемых при обучении русскому языку как иностранному [6]. Выдвинем гипотезу о том, что количество терминов лингводидактики в китайском языке приблизительно равно количеству терминов русского языка. Согласно приведенным ранее рассуждениям корпус, предназначенный для извлечения подобного объема терминов, должен включать примерно 400 тысяч ЛЕ - иероглифов.

Согласно всем выше перечисленным критериям для создания корпуса были выбраны

следующие издания:

(Введение в обучение китайскому языку как иностранному)», издано в 2004 году в Пекине

под редакцией Чен Чжантань и Ю Геньюань объемом в 304 756 иероглифов [7], и

® (Преподавание

китайского языка: языковой навык)», издано в 2016 году в Пекине под редакцией Чжао Ци-минь объемом в 95 479 иероглифов [8]. Таким образом, данный корпус содержит 400 235 иероглифа. Эти две книги очень популярны в области лингводидактики китайского языка в Китае и используются в качестве учебных пособий для подготовки преподавателей китайского языка как иностранного.

Специальная предварительная подготовка текстов к их последующей компьютерной обработке представляет собой оцифровывание текстов с последующей их вычиткой и расположением на магнитном носителе. Следует отметить, что при введении текстов в компьютер для статистически достоверных результатов необходимо придерживаться принципа оригинальности, то есть с уважением относиться к первоисточнику, не изменяя его.

Как звуковое, смысловое, интонационное и графическое единство в китайском языке иероглиф представляет собой слогоморфему, большинство слогоморфем имеет собственные значения и может использоваться самостоятельно, в то же время некоторые слогоморфемы обладают только грамматическими функциями и отдельно не употребляются. В современном китайском языке слова делятся на две группы: простые и сложные. Простые слова состоят из одной слогоморфемы (один иероглиф). Сложные слова образуются двумя или тремя слого-морфемами. Как показывают исследования [5, с. 24], отношения между слогоморфемами, словами и словосочетаниями можно представить следующим образом (см. табл. 1).

Сложной задачей, решаемой при создании корпусов текстов для языков, графика которых отлична от латиницы и кириллицы, является не только их оцифровывание, но и выделение границ слов. В письменной форме китайского языка между иероглифами (слогоморфемами) от-

Таблица 2

Основной набор тэгов частеречной разметки в корпусах китайского языка _

Часть речи Тэг Часть речи Тэг

Имя существительное n Прилагательное a

Существительное времени nt Атрибутивные слогоморфе-мы f

Существительное, означающее азимутальное направление nd Числительное m

Существительное, указывающее местонахождение nl Счётное слово q

Имя собственное nh Наречие d

Фамилия nhf Местоимение r

Имя nhg Союз с

Географическое название ns Частица u

Названия учреждений, организаций и компаний ni Междометие e

Глагол v Звукоподражание o

Глагол направленного vd Идиома i

Глагол, выполняющий функцию связки vl Предлог P

Модальный глагол vu Аббревиатура j

Суффикс k Префикс h

Пунктуационный знак w

Рис. 1. Автоматическая разметка и сегментация корпуса с помощью программы

Automatic POS-tagging and segmentation

сутствуют пробелы, т. е. потенциальные границы между единицами китайского языка существуют, но не указываются на письме. В связи с этим возникает необходимость разбить поток иероглифов в тексте на естественном языке на отдельные значимые единицы — слова, т. е. провести сегментацию. разметка

(тэгирование) уже сегментированного потока слогоморфем и сама сегментация представляют основу для дальнейшего исследования (см. табл. 2) [9, с. 25].

На основе указанных выше принципов разметка и сегментация текстов в корпусе проводилась при помощи сетевой программы Chinese Corpus online — Automatic POS-tagging and segmentation [10], предназначенной для лин-гвостатистического анализа текста (рис. 1).

После проведения разметки и сегментации текстов в корпусе при помощи сетевой программы Chinese Corpus online — Frequency statistics of words [10] определяется частота слов. Следует отметить, что инструментарий данной программы позволяет вводить и обрабатывать за один раз текст объемом не больше 100 тысяч иероглифов. Поэтому созданный

корпус объемом в 400 тысяч нуждается в разделении на 4 части. В результате использования программы получены 4 словаря простых и сложных слов, который включает не только кандидаты в термины, но и общеупотребительные ЛЕ. Эти ЛЕ (стоп-слова) необходимо удалить из полученных частотных словарей.

стоп-слов

китайских стоп-слов, общих для разных пред-опубликованных научных статей, которые были

стоп-

слов, которые были удалены из полученных че-

. Для дальнейшего исследования после все полученные словари были объединены в таблицу, фрагмент которой представлен ниже (табл. 3).

Китайский ученый Фэнь Жиуэн исследовал способ словообразования терминов, различаю-

Таблица 3

Частотный список слов (фрагмент) __

Слово Частота в первой части Частота во второй части Частота в третьй части Частота в четвертой части Суммарная частота

ЙгЙ (чтение) 19 8 5 146 178

ЙШ (коммуникация) 49 72 45 8 174

(ключ) 51 8 26 80 165

(статья) 52 85 25 0 162

(тон) 0 71 87 0 158

Таблица 4

Способы словообразования китайских многокомпонентных терминов_

Длина термина Способ словообразования Пример

2 слова n/v + n/v ^Ä/viA/n (способность выражения)

a + nv aiiH/n (второй язык)

f + n i^/ f^fM/ n (продвинутый курс)

m + n И/ m^/ n (четыре тона)

3 слова n/v + n/v + n/v (стандартизированный квалификационный экзамен по китайскому языку)

a + n/v + n Ш — / aiiM/n^^/ n (обучение второму языку)

d + v + n ^МД/гЙ/п (обиходное слово)

f + v + n fflS/fn3/v«g/tt (первоначальный курс устного перевода)

Обозначения: а - прилагательное, f - атрибутивные слогоморфемы, с - союз, d - наречие, m - числительное, n - существительное, v - глагол, u - вспомогательные слова, где n/v - омоним существительное/глагол.

щихся длиной [13], и пришел к выводу, что существительные и глаголы чаще могут быть либо однословными терминами, составленными из одиночных простых или сложных слов, либо основами (ядрами) многокомпонентных терминов, составленными из нескольких слов. Поэтому для дальнейшего исследования из табл. 3 были отобраны все существительные и глаголы, которые и составили список кандидатов в однословные термины.

Дальнейшая работа заключается определении степени терминологичности кандидатов в термины и установлении списка реальных тер-Табл. 3 показывает, что высокочастотные слова появляются во всех частях корпуса, а некоторые слова появляются только в одной или двух частях корпуса. Слова, встретившиеся во всех частях корпуса, рассматриваются как реальные однословные термины в области лин-гводидактики, и из них создается первый список однословных терминов. Остальные слова нуждаются в определении степени терминоло-гичности (termhood).

степени терминологичности является не зависящий от предметной области метод автоматического выявления терминов в тексте, позволяющий упорядочивать их по степени терминоВ работе Баррона-Кедено [14] С-Уа1ие обобща-

ется на случай однословных терминов путем добавления константы к логарифму:

(0, если (5 : Г с 5}

C-Value(t) =

c(t )(TF (t) -

Y,TF (s)

), иначе

К5:1 с 5}

где Т¥ — частота вхождений кандидата в термины, с(0= г +1оз2| ^. Автор отмечает, что изначально пробовал значение г = 0.1 для того, чтобы вносить меньше искажений в исходную формулу, однако в ходе экспериментов обнаружил, что наибольшую эффективность показывает значение г = 1.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На основе указанной выше формулы кандидаты в однословные термины упорядочиваются по степени их терминологичности. В то же время можно вычислять среднее значение в списке кандидатов в термины как пороговое значение и извлекать для окончательной проверки только те кандидаты в термины, у которых мера С-Уа1ие выше определенного порога. Данный список терминов объединяется с первым списком однословных терминов. Так получается окончательный список однословных терминов.

Как отмечает Фэнь Жиуэн [12], китайские многокомпонентные термины обычно состоят из цепочек длиной от 2 до 3 слов, и существуют следующие способы их образования (см. табл. 4).

Таблица 5

Многокомпонентные термины с ядерным словом

Двусловные термины с ядерным словом ШШ Трехсловные термины с ядерным словом ШШ

ЩЩ/пШ^/у (обучение фонетике) (распознавание китайской фонетики)

ьЛ/п (фонетический навык) 5Х®/п®Ш/пЗШ/у (овладение китайской фонетикой)

(тренировка по фонетике) 5ХЩ/пЩШ/пЩ^/ п (теория китайской фонетики)

s AntConc 3.2.4w (Windows) 2011

File Global Settings Tool Preferences About

Corpus Fites

Total No. 1 Fites Processed [^l llllllllll

Concordance | Concordance Plot

' j Clusters j Collocates | Word List | Keyword List j

/И 1/ПП -/■И ig в/п tÎL^/v /W

it^/v S£JÄ/»I il^/n tt^É/V tö/u

п Ä/vl ig в/п a^a/n . /w

/11 , / W i?e/n ÜiE/rL SÎ/a ölSoTülaS+iik -

е> i®Ü4/n to/u

a EfrÄ/n sfcfc/v ig в/п ig^/n ÎFÎft/n гзза ÜL -

а l^-Sr/n »Ü4/H ÎÉIBS/a

i/w г/т 5 /w ■g в/п É^/v Й/и РГ ûià^^ SA

atï/nt Й/u i^/n 3-S/a

Ф/w S5/U- ge/n fifr-fe/n- "/и

V AI/n ÎTÈT/v iië/n Ж5Ж/П . /w

/и 1е/с= ig в/п

V Ф/rad il в/п - /W iaw/v SUBPTBÜ&WÄ-

vu iit/V : /w ig в/п

/та - /w ÊS/v ig в/п HfcA/n - /W

/а Sp/v . /w SËA/n ШШ/-ТГ

/V Ш^./tî = /w ig в/п ÏD/C M/a -&J ¿ÄiSpj^i^+iij:-

/v ÄiiS/v - /w i?e/n i? m /ri Ж&/31

/^ Ä.^./n = /w ig в/п - /ы -êo

-Г ► < 1 _«F 1 >

Search Term Jv* Words I Case I Regex

WW

Concordance Hits

Advanced

Kwic Sort

W Level 1 [Tr ^f Vs Level 2 ¡2R Щ ф Level 3 [3R Щ

Search Window Size -g

Save Window

Рис. 2. Пример результатов работы программы АпЮопс-

Извлечение многокомпонетных терминов может производиться при помощи сетевой программы АпСопс на основе поиска устойчивых словосочетаний с установленными ранее однословными терминами в качестве ядер. Инстру-

АпСопс

ет рассматривать окружение выявленных тер-Табл. 4 показывает, что китайские многокомпонентные термины состоят из двух или трех слов. Программа АпСопс-конкордансер может обработать только размеченный корпус текстов на китайском языке, и в процессе работы тэгированная последовательность иерогли-фов-слогоморфем рассматривается как одно слово. Поэтому для того чтобы не пропустить цепочки слогоморфем, которые потенциально могут быть многокомпонентными терминами, в

Словосочетания, компоненты которых связаны между собой и отвечают вышеуказанным условиям (см. табл. 4), извлекаются как многословные термины.

Рассмотрим в качестве примера термин

(фонетика), выделе-

ны 42 цепочки с данным ядерным словом (рис. 2).

Далее извлекаются те многокомпонентные термины с ядерным словом, чья внутренняя структура соответствует условиям, показанным в табл. 4 (см. табл. 5).

В результате подобного анализа все извлеченные однословные и многокомпонентные термины объединяются для ручной проверки и составления окончательного списка терминов. Таким образом, можно утверждать, что последовательное применение мер лингвистического и количественного анализа к специализированному корпусу текстов позволяет создать список кандидатов в термины, резко сокращающий работу терминолога и позволяющий создавать реальные глоссарии предметной области.

Список литературы

1. Беляева Л.Н. [и др.] Лексикографический потенциал современных лингвистических технологий. СПб.: Книжный дом, 2014. 168 с.

2. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. Иркутск: ИГЛУ, 2011. 161 с.

3. Беляева Л.Н. Корпусная лингвистика и перевод: потенциал и ограничения // Труды Международной конференции «Корпусная лингвистика - 2011» / Филол. фак. СпбГУ. СПб., С. 87-91.

4. Щукин А.Н. Лингводидактический энциклопедический словарь: более 2000 единиц. М.: Астрель, 2007. 746 с.

5. Guo Shulun. The Construction and Application of Chinese Corpus [M]. Shanghai: Shanghai Foreign Language Education Press, 2012.

6. Беляева Л.Н. [и др.] Лингводидактика и тестирование: англо-русский и русско-английский учебный словарь. СПб.: Книжный дом, 2014. 110 с.

7. Chen Zhangtai, Yu Genyuan. An Introduction to Teaching Chinese as a Foreign Language [M]. Beijing: Commercial Press, 2004.

8. Zhao Jinming. Teaching Chinese as Foreign Language - Language Skill [M]. Beijing: Commercial Press, 2016.

9. Лу Исинь. Принципы создания корпусов китайского языка // Известия РГПУ им. А.И. Герцена. 2016. № 181. С. 22-29.

10. Chinese Corpus online [Электронный ресурс]. Режим доступа: http://cncor pus.org

11. Chinese Stoplist [EB/OL] [2012.11.20] [Электронный ресурс]. Режим доступа: http: //www.smart peer.net/myfiles/stopwords.utf8.txt).

[Электронный ресурс]. Режим доступа: www.cnki.net.

13. Feng Zhiwei. An Introduction to Modern Terminology [M]. Beijing: Language & Culture Press, 1999.

14. Barron-Cedeno А., Sierra G., Drouin P. et al. An Improved Automatic Term Recognition Method for Spanish // Computational Linguistics and Intelligent Text Processing. Springer, 2009. P. 125-136.

THE METHODS OF BUILDING CORPORA FOR CHINESE EDUCATIONAL LINGUISTICS

Yixin Lu

The paper deals with the problem of building a Chinese corpus as a specialized search system for extracting terms from texts in the field of teaching Chinese as a foreign language. The corpus also serves for building a terminology database. This process of building the corpus is implemented in 3 main steps: selection of Chinese texts in the field of teaching Chinese as a foreign language for building a corpus; segmentation and POS (Part-of-speech) tagging of text words and providing basic linguistic information; extracting terms from the corpus and compiling a list of terms.

Keywords: building text corpora, Chinese educational linguistics, term extraction.

References

1. Belyaeva L.N. [i dr.] Leksikograficheskij potencial sovremennyh lingvisticheskih tekhnologij. SPb.: Knizhnyj dom, 2014. 168 s.

2. Zaharov V.P., Bogdanova S.Yu. Korpusnaya ling-vistika. Irkutsk: IGLU, 2011. 161 s.

3. Belyaeva L.N. Korpusnaya lingvistika i perevod: potencial i ogranicheniya // Trudy Mezhdunarodnoj kon-ferencii «Korpusnaya lingvistika - 2011» / Filol. fak. SPbGU. SPb., S. 87-91.

4. Shchukin A.N. Lingvodidakticheskij ehnciklope-dicheskij slovar': bolee 2000 edinic. M.: Astrel', 2007. 746 s.

5. Guo Shulun. The Sonstruction and Application of Chinese Corpus [M]. Shanghai: Shanghai Foreign Language Education Press, 2012.

6. Belyaeva L.N. [i dr.] Lingvodidaktika i testirova-nie: anglo-russkij i russko-anglijskij uchebnyj slovar'. SPb.: Knizhnyj dom, 2014. 110 s.

7. Chen Zhangtai, Yu Genyuan. An Introduction to

Teaching Chinese as a Foreign Language [M]. Beijing: Commercial Press, 2004.

8. Zhao Jinming. Teaching Chinese as Foreign Language - Language Skill [M]. Beijing: Commercial Press, 2016.

9. Lu Isin'. Principy sozdaniya korpusov kitajskogo yazyka // Izvestiya RGPU im. A.I. Gercena. 2016. № 181. S. 22-29.

10. Chinese Corpus online [Ehlektronnyj resurs]. Rezhim dostupa: http://cncor pus.org

11. Chinese Stoplist [EB/OL] [2012.11.20] [Ehlektronnyj resurs]. Rezhim dostupa: http://www.smartpeer. net/myfiles/stopwords.utf8.txt).

12. China National Knowledge Infrastructure [Ehlektronnyj resurs]. Rezhim dostupa: www.cnki.net.

13. Feng Zhiwei. An Introduction to Modern Terminology [M]. Beijing: Language & Culture Press, 1999.

14. Barron-Cedeno A., Sierra G., Drouin P. et al. An Improved Automatic Term Recognition Method for Spanish // Computational Linguistics and Intelligent Text Processing. Springer, 2009. P. 125-136.

i Надоели баннеры? Вы всегда можете отключить рекламу.