Филология
Вестник Нижегородского университета им. Н.И. Лобачевского, 2018, № 4, с. 195-200
УДК 81.33
МЕТОДЫ СОЗДАНИЯ КИТАЙСКОГО КОРПУСА ТЕКСТОВ ЛИНГВОДИДАКТИКИ
© 2018 г. Лу Исинь
Российский государственный педагогический университет им. А.И. Герцена, Санкт-Петербург
yixinhn@mail .т
Поступила в редакцию 07.05.2017
Рассматривается проблема создания корпуса текстов китайского языка как специализированой поисковой системы для извлечения терминов из текстов в области обучения китайскому языку как иностранному и создания терминологических баз данных в данной области. Особое внимание уделяется основным этапам построения корпуса: отбор текстов на китайском языке в области обучения китайскому языку как иностранному, проведение разметки и сегментации текстов в корпусе, извлечение лексических единиц из корпуса и составление базового списка кандидатов в термины.
Ключевые слова: создание корпусов текстов, лингводидактика китайского языка, извлечение терминов.
Как и любая другая область науки, лингводидактика китайского языка нуждается в собственном терминологическом аппарате, необходимом для её эффективного развития и управления. Вместе с тем, в связи с бурным расцветом обучения китайскому языку как иностранному в России особенно актуальной становится проблема гармонизации терминологии лингво-дидактики в разных языках, предпосылкой для которой является создание терминологических баз данных в этой области.
Создание терминологических баз данных, как правило, опирается на анализ и оцифровывание уже опубликованных словарных источников и на результаты извлечения терминологии из корпусов текстов [1, с. 83]. Необходимо отметить, что на сегодняшний день терминоси-стема лингводидактики в китайском языке упорядочена крайне незначительно. Кроме того, следует учесть, что не было опубликовано ни одного словаря терминов данной области. Это является серьезным препятствием в развитии как самой лингводидактики, так и международного сотрудничества в этой предметной области. Таким образом, для извлечения терминов и создания терминологических баз данных в области лингводидактики китайского языка необходимо создание специализированного исследовательского корпуса текстов. Процесс его создания реализуется на 3 основных этапах:
1. Отбор текстов на китайском языке в области обучения китайскому языку как иностранному для создания корпуса;
2. Проведение разметки и сегментации текстов в корпусе и получение базовой лингвистической информации;
3. Извлечение лексических единиц (ЛЕ) из корпуса и составление базового списка кандидатов в термины.
Важной особенностью корпуса текстов является то, что он создается не просто как множество случайным образом объединенных текстов того или иного языка [2, с. 36]. При создании словаря на основе корпуса текстов необходимо определить принципы формирования выборочной совокупности для создания исследовательского корпуса текстов и ее необходимый и достаточный объем [3, с. 90]. Поскольку целью создания данного корпуса является извлечение терминов, отражающих терминополе лингводи-дактики китайского языка, и создание терминологической базы данных, то при создании корпуса текстов был установлен ряд специфических критериев отбора текстов:
1. Предметная ориентированность. Лингво-дидактический энциклопедический словарь определяет лингводидактику как «общую теорию обучения языку, включающую изложение теоретических основ такого обучения (представлений о содержании, целях и задачах, принципах, методах, процессе обучения) и его методических основ (обучение аспектам языка и видам речевой деятельности в конкретных условиях преподавания, организация учебного процесса, требования к профессии педагога)» [4, с. 140]. В нашем исследовании под китайской лингводи-дактикой понимается теория и методика обучения китайскому языку как иностранному, на этой основе в корпус включались только письменные научные тексты, посвященные теоретическим и методическим основам обучения китайскому языку как иностранному. При этом должны выбираться только тексты тех авторов, которые являются носителями китайского языка.
2. Соотнесенность по времени. В 1983 году в Китае создано научно-исследовательское общество по обучению китайскому языку как ино-
Таблица 1
Соотношение разных лексических единиц в китайском языке_
Лексическая единица Компонентный состав Пример
слогоморфема Один иероглиф Ш (вопросительная частица)
Слова простые слова Одна слогоморфема #(смотреть)
сложные слова Две слогоморфемы ^Ш(телевизор)
Три слогоморфемы ^^А(старик)
словосочетания Два слова Ф ^/КШ (китайская нация)
Три слова Ш/^/ШШ (аудиовизуальный курс)
странному, что официально ознаменовало рождение лингводидактики китайского языка как одной из отраслей науки. За последнее десятилетие благодаря повышению уровня экономического развития Китая и усилению его мощи, количество людей, изучающих китайский язык как иностранный, во всем мире значительно увеличилось. Вместе с тем теория и методика обучения в китайской лингводидактике беспрерывно совершенствуются. Поэтому в корпус отбираются только тексты, изданные после 2000 года.
3. Балансировка. Создаваемый корпус китайского языка должен обеспечить пропорциональное представление всех терминов лингво-дидактики, что позволит получать статистически достоверную информацию об их использовании. Поэтому корпус нуждается в необходимом и достаточном объеме текстов. Как показывают исследования [5, с. 6], у каждого слова китайского языка в среднем два значения, и каждое из них появляется в текстах минимум пять раз. Тогда корпус, создаваемый для составления словаря в 10 тысяч лексических единиц, должен включать 10 000x2^5=100 000 предложений. Если средняя длина предложения китайского языка - 25 иероглифов, то корпус должен быть объемом примерно в 4000 ЛЕ.
Русско-английский учебный словарь «Лин-гводидактика и тестирование» насчитывает примерно 1000 терминов, используемых при обучении русскому языку как иностранному [6]. Выдвинем гипотезу о том, что количество терминов лингводидактики в китайском языке приблизительно равно количеству терминов русского языка. Согласно приведенным ранее рассуждениям корпус, предназначенный для извлечения подобного объема терминов, должен включать примерно 400 тысяч ЛЕ - иероглифов.
Согласно всем выше перечисленным критериям для создания корпуса были выбраны
следующие издания:
(Введение в обучение китайскому языку как иностранному)», издано в 2004 году в Пекине
под редакцией Чен Чжантань и Ю Геньюань объемом в 304 756 иероглифов [7], и
® (Преподавание
китайского языка: языковой навык)», издано в 2016 году в Пекине под редакцией Чжао Ци-минь объемом в 95 479 иероглифов [8]. Таким образом, данный корпус содержит 400 235 иероглифа. Эти две книги очень популярны в области лингводидактики китайского языка в Китае и используются в качестве учебных пособий для подготовки преподавателей китайского языка как иностранного.
Специальная предварительная подготовка текстов к их последующей компьютерной обработке представляет собой оцифровывание текстов с последующей их вычиткой и расположением на магнитном носителе. Следует отметить, что при введении текстов в компьютер для статистически достоверных результатов необходимо придерживаться принципа оригинальности, то есть с уважением относиться к первоисточнику, не изменяя его.
Как звуковое, смысловое, интонационное и графическое единство в китайском языке иероглиф представляет собой слогоморфему, большинство слогоморфем имеет собственные значения и может использоваться самостоятельно, в то же время некоторые слогоморфемы обладают только грамматическими функциями и отдельно не употребляются. В современном китайском языке слова делятся на две группы: простые и сложные. Простые слова состоят из одной слогоморфемы (один иероглиф). Сложные слова образуются двумя или тремя слого-морфемами. Как показывают исследования [5, с. 24], отношения между слогоморфемами, словами и словосочетаниями можно представить следующим образом (см. табл. 1).
Сложной задачей, решаемой при создании корпусов текстов для языков, графика которых отлична от латиницы и кириллицы, является не только их оцифровывание, но и выделение границ слов. В письменной форме китайского языка между иероглифами (слогоморфемами) от-
Таблица 2
Основной набор тэгов частеречной разметки в корпусах китайского языка _
Часть речи Тэг Часть речи Тэг
Имя существительное n Прилагательное a
Существительное времени nt Атрибутивные слогоморфе-мы f
Существительное, означающее азимутальное направление nd Числительное m
Существительное, указывающее местонахождение nl Счётное слово q
Имя собственное nh Наречие d
Фамилия nhf Местоимение r
Имя nhg Союз с
Географическое название ns Частица u
Названия учреждений, организаций и компаний ni Междометие e
Глагол v Звукоподражание o
Глагол направленного vd Идиома i
Глагол, выполняющий функцию связки vl Предлог P
Модальный глагол vu Аббревиатура j
Суффикс k Префикс h
Пунктуационный знак w
Рис. 1. Автоматическая разметка и сегментация корпуса с помощью программы
Automatic POS-tagging and segmentation
сутствуют пробелы, т. е. потенциальные границы между единицами китайского языка существуют, но не указываются на письме. В связи с этим возникает необходимость разбить поток иероглифов в тексте на естественном языке на отдельные значимые единицы — слова, т. е. провести сегментацию. разметка
(тэгирование) уже сегментированного потока слогоморфем и сама сегментация представляют основу для дальнейшего исследования (см. табл. 2) [9, с. 25].
На основе указанных выше принципов разметка и сегментация текстов в корпусе проводилась при помощи сетевой программы Chinese Corpus online — Automatic POS-tagging and segmentation [10], предназначенной для лин-гвостатистического анализа текста (рис. 1).
После проведения разметки и сегментации текстов в корпусе при помощи сетевой программы Chinese Corpus online — Frequency statistics of words [10] определяется частота слов. Следует отметить, что инструментарий данной программы позволяет вводить и обрабатывать за один раз текст объемом не больше 100 тысяч иероглифов. Поэтому созданный
корпус объемом в 400 тысяч нуждается в разделении на 4 части. В результате использования программы получены 4 словаря простых и сложных слов, который включает не только кандидаты в термины, но и общеупотребительные ЛЕ. Эти ЛЕ (стоп-слова) необходимо удалить из полученных частотных словарей.
стоп-слов
китайских стоп-слов, общих для разных пред-опубликованных научных статей, которые были
стоп-
слов, которые были удалены из полученных че-
. Для дальнейшего исследования после все полученные словари были объединены в таблицу, фрагмент которой представлен ниже (табл. 3).
Китайский ученый Фэнь Жиуэн исследовал способ словообразования терминов, различаю-
Таблица 3
Частотный список слов (фрагмент) __
Слово Частота в первой части Частота во второй части Частота в третьй части Частота в четвертой части Суммарная частота
ЙгЙ (чтение) 19 8 5 146 178
ЙШ (коммуникация) 49 72 45 8 174
(ключ) 51 8 26 80 165
(статья) 52 85 25 0 162
(тон) 0 71 87 0 158
Таблица 4
Способы словообразования китайских многокомпонентных терминов_
Длина термина Способ словообразования Пример
2 слова n/v + n/v ^Ä/viA/n (способность выражения)
a + nv aiiH/n (второй язык)
f + n i^/ f^fM/ n (продвинутый курс)
m + n И/ m^/ n (четыре тона)
3 слова n/v + n/v + n/v (стандартизированный квалификационный экзамен по китайскому языку)
a + n/v + n Ш — / aiiM/n^^/ n (обучение второму языку)
d + v + n ^МД/гЙ/п (обиходное слово)
f + v + n fflS/fn3/v«g/tt (первоначальный курс устного перевода)
Обозначения: а - прилагательное, f - атрибутивные слогоморфемы, с - союз, d - наречие, m - числительное, n - существительное, v - глагол, u - вспомогательные слова, где n/v - омоним существительное/глагол.
щихся длиной [13], и пришел к выводу, что существительные и глаголы чаще могут быть либо однословными терминами, составленными из одиночных простых или сложных слов, либо основами (ядрами) многокомпонентных терминов, составленными из нескольких слов. Поэтому для дальнейшего исследования из табл. 3 были отобраны все существительные и глаголы, которые и составили список кандидатов в однословные термины.
Дальнейшая работа заключается определении степени терминологичности кандидатов в термины и установлении списка реальных тер-Табл. 3 показывает, что высокочастотные слова появляются во всех частях корпуса, а некоторые слова появляются только в одной или двух частях корпуса. Слова, встретившиеся во всех частях корпуса, рассматриваются как реальные однословные термины в области лин-гводидактики, и из них создается первый список однословных терминов. Остальные слова нуждаются в определении степени терминоло-гичности (termhood).
степени терминологичности является не зависящий от предметной области метод автоматического выявления терминов в тексте, позволяющий упорядочивать их по степени терминоВ работе Баррона-Кедено [14] С-Уа1ие обобща-
ется на случай однословных терминов путем добавления константы к логарифму:
(0, если (5 : Г с 5}
C-Value(t) =
c(t )(TF (t) -
Y,TF (s)
), иначе
К5:1 с 5}
где Т¥ — частота вхождений кандидата в термины, с(0= г +1оз2| ^. Автор отмечает, что изначально пробовал значение г = 0.1 для того, чтобы вносить меньше искажений в исходную формулу, однако в ходе экспериментов обнаружил, что наибольшую эффективность показывает значение г = 1.
На основе указанной выше формулы кандидаты в однословные термины упорядочиваются по степени их терминологичности. В то же время можно вычислять среднее значение в списке кандидатов в термины как пороговое значение и извлекать для окончательной проверки только те кандидаты в термины, у которых мера С-Уа1ие выше определенного порога. Данный список терминов объединяется с первым списком однословных терминов. Так получается окончательный список однословных терминов.
Как отмечает Фэнь Жиуэн [12], китайские многокомпонентные термины обычно состоят из цепочек длиной от 2 до 3 слов, и существуют следующие способы их образования (см. табл. 4).
Таблица 5
Многокомпонентные термины с ядерным словом
Двусловные термины с ядерным словом ШШ Трехсловные термины с ядерным словом ШШ
ЩЩ/пШ^/у (обучение фонетике) (распознавание китайской фонетики)
ьЛ/п (фонетический навык) 5Х®/п®Ш/пЗШ/у (овладение китайской фонетикой)
(тренировка по фонетике) 5ХЩ/пЩШ/пЩ^/ п (теория китайской фонетики)
s AntConc 3.2.4w (Windows) 2011
File Global Settings Tool Preferences About
Corpus Fites
Total No. 1 Fites Processed [^l llllllllll
Concordance | Concordance Plot
' j Clusters j Collocates | Word List | Keyword List j
/И 1/ПП -/■И ig в/п tÎL^/v /W
it^/v S£JÄ/»I il^/n tt^É/V tö/u
п Ä/vl ig в/п a^a/n . /w
/11 , / W i?e/n ÜiE/rL SÎ/a ölSoTülaS+iik -
е> i®Ü4/n to/u
a EfrÄ/n sfcfc/v ig в/п ig^/n ÎFÎft/n гзза ÜL -
а l^-Sr/n »Ü4/H ÎÉIBS/a
i/w г/т 5 /w ■g в/п É^/v Й/и РГ ûià^^ SA
atï/nt Й/u i^/n 3-S/a
Ф/w S5/U- ge/n fifr-fe/n- "/и
V AI/n ÎTÈT/v iië/n Ж5Ж/П . /w
/и 1е/с= ig в/п
V Ф/rad il в/п - /W iaw/v SUBPTBÜ&WÄ-
vu iit/V : /w ig в/п
/та - /w ÊS/v ig в/п HfcA/n - /W
/а Sp/v . /w SËA/n ШШ/-ТГ
/V Ш^./tî = /w ig в/п ÏD/C M/a -&J ¿ÄiSpj^i^+iij:-
/v ÄiiS/v - /w i?e/n i? m /ri Ж&/31
/^ Ä.^./n = /w ig в/п - /ы -êo
-Г ► < 1 _«F 1 >
Search Term Jv* Words I Case I Regex
WW
Concordance Hits
Advanced
Kwic Sort
W Level 1 [Tr ^f Vs Level 2 ¡2R Щ ф Level 3 [3R Щ
Search Window Size -g
Save Window
Рис. 2. Пример результатов работы программы АпЮопс-
Извлечение многокомпонетных терминов может производиться при помощи сетевой программы АпСопс на основе поиска устойчивых словосочетаний с установленными ранее однословными терминами в качестве ядер. Инстру-
АпСопс
ет рассматривать окружение выявленных тер-Табл. 4 показывает, что китайские многокомпонентные термины состоят из двух или трех слов. Программа АпСопс-конкордансер может обработать только размеченный корпус текстов на китайском языке, и в процессе работы тэгированная последовательность иерогли-фов-слогоморфем рассматривается как одно слово. Поэтому для того чтобы не пропустить цепочки слогоморфем, которые потенциально могут быть многокомпонентными терминами, в
Словосочетания, компоненты которых связаны между собой и отвечают вышеуказанным условиям (см. табл. 4), извлекаются как многословные термины.
Рассмотрим в качестве примера термин
(фонетика), выделе-
ны 42 цепочки с данным ядерным словом (рис. 2).
Далее извлекаются те многокомпонентные термины с ядерным словом, чья внутренняя структура соответствует условиям, показанным в табл. 4 (см. табл. 5).
В результате подобного анализа все извлеченные однословные и многокомпонентные термины объединяются для ручной проверки и составления окончательного списка терминов. Таким образом, можно утверждать, что последовательное применение мер лингвистического и количественного анализа к специализированному корпусу текстов позволяет создать список кандидатов в термины, резко сокращающий работу терминолога и позволяющий создавать реальные глоссарии предметной области.
Список литературы
1. Беляева Л.Н. [и др.] Лексикографический потенциал современных лингвистических технологий. СПб.: Книжный дом, 2014. 168 с.
2. Захаров В.П., Богданова С.Ю. Корпусная лингвистика. Иркутск: ИГЛУ, 2011. 161 с.
3. Беляева Л.Н. Корпусная лингвистика и перевод: потенциал и ограничения // Труды Международной конференции «Корпусная лингвистика - 2011» / Филол. фак. СпбГУ. СПб., С. 87-91.
4. Щукин А.Н. Лингводидактический энциклопедический словарь: более 2000 единиц. М.: Астрель, 2007. 746 с.
5. Guo Shulun. The Construction and Application of Chinese Corpus [M]. Shanghai: Shanghai Foreign Language Education Press, 2012.
6. Беляева Л.Н. [и др.] Лингводидактика и тестирование: англо-русский и русско-английский учебный словарь. СПб.: Книжный дом, 2014. 110 с.
7. Chen Zhangtai, Yu Genyuan. An Introduction to Teaching Chinese as a Foreign Language [M]. Beijing: Commercial Press, 2004.
8. Zhao Jinming. Teaching Chinese as Foreign Language - Language Skill [M]. Beijing: Commercial Press, 2016.
9. Лу Исинь. Принципы создания корпусов китайского языка // Известия РГПУ им. А.И. Герцена. 2016. № 181. С. 22-29.
10. Chinese Corpus online [Электронный ресурс]. Режим доступа: http://cncor pus.org
11. Chinese Stoplist [EB/OL] [2012.11.20] [Электронный ресурс]. Режим доступа: http: //www.smart peer.net/myfiles/stopwords.utf8.txt).
[Электронный ресурс]. Режим доступа: www.cnki.net.
13. Feng Zhiwei. An Introduction to Modern Terminology [M]. Beijing: Language & Culture Press, 1999.
14. Barron-Cedeno А., Sierra G., Drouin P. et al. An Improved Automatic Term Recognition Method for Spanish // Computational Linguistics and Intelligent Text Processing. Springer, 2009. P. 125-136.
THE METHODS OF BUILDING CORPORA FOR CHINESE EDUCATIONAL LINGUISTICS
Yixin Lu
The paper deals with the problem of building a Chinese corpus as a specialized search system for extracting terms from texts in the field of teaching Chinese as a foreign language. The corpus also serves for building a terminology database. This process of building the corpus is implemented in 3 main steps: selection of Chinese texts in the field of teaching Chinese as a foreign language for building a corpus; segmentation and POS (Part-of-speech) tagging of text words and providing basic linguistic information; extracting terms from the corpus and compiling a list of terms.
Keywords: building text corpora, Chinese educational linguistics, term extraction.
References
1. Belyaeva L.N. [i dr.] Leksikograficheskij potencial sovremennyh lingvisticheskih tekhnologij. SPb.: Knizhnyj dom, 2014. 168 s.
2. Zaharov V.P., Bogdanova S.Yu. Korpusnaya ling-vistika. Irkutsk: IGLU, 2011. 161 s.
3. Belyaeva L.N. Korpusnaya lingvistika i perevod: potencial i ogranicheniya // Trudy Mezhdunarodnoj kon-ferencii «Korpusnaya lingvistika - 2011» / Filol. fak. SPbGU. SPb., S. 87-91.
4. Shchukin A.N. Lingvodidakticheskij ehnciklope-dicheskij slovar': bolee 2000 edinic. M.: Astrel', 2007. 746 s.
5. Guo Shulun. The Sonstruction and Application of Chinese Corpus [M]. Shanghai: Shanghai Foreign Language Education Press, 2012.
6. Belyaeva L.N. [i dr.] Lingvodidaktika i testirova-nie: anglo-russkij i russko-anglijskij uchebnyj slovar'. SPb.: Knizhnyj dom, 2014. 110 s.
7. Chen Zhangtai, Yu Genyuan. An Introduction to
Teaching Chinese as a Foreign Language [M]. Beijing: Commercial Press, 2004.
8. Zhao Jinming. Teaching Chinese as Foreign Language - Language Skill [M]. Beijing: Commercial Press, 2016.
9. Lu Isin'. Principy sozdaniya korpusov kitajskogo yazyka // Izvestiya RGPU im. A.I. Gercena. 2016. № 181. S. 22-29.
10. Chinese Corpus online [Ehlektronnyj resurs]. Rezhim dostupa: http://cncor pus.org
11. Chinese Stoplist [EB/OL] [2012.11.20] [Ehlektronnyj resurs]. Rezhim dostupa: http://www.smartpeer. net/myfiles/stopwords.utf8.txt).
12. China National Knowledge Infrastructure [Ehlektronnyj resurs]. Rezhim dostupa: www.cnki.net.
13. Feng Zhiwei. An Introduction to Modern Terminology [M]. Beijing: Language & Culture Press, 1999.
14. Barron-Cedeno A., Sierra G., Drouin P. et al. An Improved Automatic Term Recognition Method for Spanish // Computational Linguistics and Intelligent Text Processing. Springer, 2009. P. 125-136.