Лу Исинь
ПРИНЦИПЫ СОЗДАНИЯ КОРПУСОВ КИТАЙСКОГО ЯЗЫКА
Cтатъя посвящена проблеме стандартизации обработки текстов на естественном китайском языке при создании корпусов. Основное внимание уделено выяснению и описанию принципа разметки и сегментации потока иероглифов в тексте на естественном языке с точки зрения китайского словообразования.
Ключевые слова: создание корпусов, китайский язык, принципы, разметка, сегментация.
Lu Yixin
THE PRINCIPLES FOR BUILDING CHINESE CORPORA
The paper concerns the issues of standardization in the processing natural Chinese language texts when building corpora. The emphasis is on the elucidation and description of standards for annotation and segmentation characters flow in natural language in terms of the Chinese word formation.
Keywords: building corpus, Chinese, principles, annotation, segmentation.
В языковом образовании, как и в любой научной сфере, велико значение терминологии. Владение терминологией и умение соотносить терминосистемы родного и иностранного языков способствуют дальнейшему развитию методики преподавания иностранных языков. Однако существование разных методов преподавания языков (в линг-водидактике), принципиальные различия самих языков на уровне грамматической и лексической структур определяют существование несоответствий и лакун в терминологии, что задерживает развитие китайского языкового образования в России и русского языкового образования в Китае. В связи с этим гармонизация терминологии лингводи-дактики в китайском и русском языках является актуальным направлением исследования. Для решения задачи выявления и систематизации терминологии лингводидак-тики в китайском языке необходимо создать исследовательский корпус текстов. Цель статьи — рассмотрение и систематизация прин-
ципов и методов разметки и сегментации потока иероглифов при создании такого корпуса.
Здесь под лингвистическим корпусом понимается совокупность текстов, собранных в соответствии с определенными принципами, размеченных по определенному стандарту и обеспеченных специализированной поисковой системой [6, а 319]. Сегодня с помощью корпуса решается целый ряд лингвистических задач: выявление терминов и терминологических словосочетаний, составление различных словарей и т. д. Кроме того, использование корпуса текстов многократно повышает не только эффективность и скорость обработки языковых данных, но и их достоверность [3, а 25].
Первым крупным компьютерным корпусом в Китае считается Научно-технический английский корпус, который был создан в 1980-е гг. в Шанхайском университете транспорта на основе английских технических текстов (http://corpus.sjtu.edu.cn/WebCast/
Search.aspx). В последние десятилетия корпусная лингвистика в Китае получила широкое распространение, в связи с этим был выстроен ряд современных корпусов китайских текстов: письменные и устные корпусы (например, корпус общего современного китайского языка: http://www.cncorpus.org); параллельные корпусы (например, параллельный корпус китайского языка TH-ACorpus: http://www.lits.tsinghua.edu.cn/source.htm); публицистические корпусы (например: размеченный корпус газеты «Жэньминь Жибао»: http://www.icl.pku.edu.cn) и т. д. Китайские корпусы создаются и используются для сравнительных исследований языков (в области лексикологии, грамматики, стилистики и т. д.), а также в целях разработки эффективных методов перевода. Можно сказать, что все современные лингвистические исследования и работы по составлению словарей так или иначе ориентированы на использование представительных (репрезентативных) корпусов текстов.
Корпусы, как правило, предназначены для неоднократного использования многими пользователями, поэтому их разметка и лингвистическое обеспечение должны быть определенным образом унифицированы. Стандарты в отношении корпусов на китайском языке обычно затрагивают совместимость типов разметки и сегментации (segmentation), которые должны базироваться на некоторых достаточно широко распространенных и общепринятых принципах описания текстов и языковых единиц [2, с. 52]. Параметры разметки и их значения должны быть достаточно «естественными», то есть должны соответствовать общепринятым научным классификациям. Лингвистическое и программное обеспечение корпус-менеджеров должно поддерживать обработку типовых запросов и решение типовых задач [3, с.73].
Предметом исследования в данной работе являются принципы разметки и сегментации, используемые в корпусах текстов на китайском языке, то есть тот стандарт, по
которому следует проводить разметку и сегментации в текстах на китайском языке при создании корпусов. Единые принципы разметки и сегментации позволяют создать многофункциональный и высокоэффективный корпус как поисковую систему.
Среди специальных программ обработки текстов на естественном языке особое место занимают программы автоматической разметки. Разметка корпусов (tagging, annotation) представляет собой трудоемкую операцию, особенно учитывая огромные размеры современных корпусов [2, c. 42]. Среди видов лингвистической разметки выделяются: морфологическая, синтаксическая, семантическая, анафорическая и др. Следует отметить, что в процессе обработки текстов на китайском языке, как и на других языках, морфологический анализ рассматривается как основа для всех остальных форм анализа.
Важное отличие китайского языка состоит в том, что в письменной форме китайского языка между иероглифами (слогомор-фемами) отсутствуют пробелы, то е сть между единицами китайского языка существуют потенциальные границы, которые не указаны на письме. В результате этого возникают трудности в разбиении текста на слова. В то же время из-за отсутствия показателей категорий числа, падежа и рода в китайском языке нет согласования, следовательно, функция слова в китайском языке становится понятной не на основании формы слова, а благодаря его связи с другими словами [4, с. 47]. В связи с этим необходимо разбить поток иероглифов в тексте на естественном языке на отдельные значимые единицы — слова и словосочетания. В процессе создания корпуса такая процедура называется сегментацией (segmentation), которая создает основу для разметки.
В современном китайском языке слова распределяются по двум группам: простые и сложные [11, c. 97]. Простые слова состоят из одной слогоморфемы (один иероглиф), например: Щ (деньги), \ (человек), Ш (бегать). Сложные слова образуются
двумя и более морфемами, и между ними существуют разнообразные отношения, затрудняющие сегментацию слов при создании корпуса китайского языка.
В 2001 г. Институт прикладной лингвистики при Министерстве образования КНР предложил «Принцип частеречной разметки
в обработке современной китайской информации», устанавливающий конкретный стандарт морфологической разметки [10, с. 69]. Согласно данному стандарту в китайском языке выделяются морфологические категории, некоторые из которых снабжены семантическими признаками (см. табл.).
Основной набор тэгов частеречной разметки в корпусах китайского языка
Номер Часть речи Тэг Пример
1 Имя существительное п ^/п(цветы)
2 Существительное времени т Мй—/Ш (понедельник)
3 Существительное, означающее азимутальное направление nd (север)
4 Существительное, указывающее местонахождение п1 ПЙ/п1 (у ворот)
5 Имя собственное пь [^/пМ^Ж/пМ] nh (Мао Цзэдун)
6 Фамилия пМ
7 Имя nhg
8 Географическое название м ФИ/ш (Китай)
9 Названия учреждений, организаций и компаний ш ^Ь^пР/ш (Министерство иностранных дел)
10 Глагол V ШJv (бегать)
11 Глагол направленного действия vd Й^/ vd (прийти)
12 Глагол, выполняющий функцию связки (специальное слово для связи подлежащего и сказуемого) VI ЙМ (являться)
13 Модальный глагол vu Ш^/уи (мочь)
14 Прилагательное а МШУа (мужественный)
15 Числительное т ^/т (тысяча)
16 Счетное слово q Ж/д (раз)
17 Наречие d ЖЖМ (часто)
18 Местоимение г #,/г (он)
19 Союз с {Мй/с (однако)
20 Частица и Шй/и (именно)
21 Междометие е М/е (ой)
22 Звукоподражание о Ид/о (мяу-мяу)
23 Идиома, включая собственно фразеологию, пословицы и поговорки 1 ММ^^Л (расти как грибы после дождя)
24 Предлог Р Й^/р (из-за)
25 Аббревиатура ') ^ШАШ^А^АА/ (Всекитайское собрание народных представителей)
26 Пунктуационный знак w ,/ w
Кроме указанных в таблице категорий, в китайском языке выделяются еще и следующие типы частей речи: атрибутивные слова, которые выражают разницу между объектами одного типа. Например: ХХ — общее название для курицы и петуха, китайское слово (курица), а ^ХХ (петух), в этих словах женский род выражается слого-морфемой а слогоморфема ^ обозначает мужской род у живых существ. Ш (болезнь), но китайское слово 'ШЙШ значит затяжная болезнь, а ИЙШ — острая болезнь. Данные иероглифы часто стоят перед существительными и выполняют атрибутивную функцию. # и 'ШЙ и ИЙ представляют собой атрибутивные слогоморфемы и помечаются тэгом f: ^РХХ/п; ИЙ/РШ/п.
Перед некоторыми китайскими существительными используется дополнительный член, который характеризует особенности или качества предметов. Например, китайское слово означает директор, Й^Ш — гендиректор, а Ш^Ш — замдиректора. В китайском языке иероглиф Й имеет значение генеральный, а Ш — заместитель. Тем не менее они всегда стоят перед существительными и отдельно не употребляются. Например: (секретарь), Й^ЙЙ (генеральный секретарь), Ш^Й(заместитель секретаря). В китайском языке эти слова называются препозитивными прибавлениями, которые помечаются тэгом h —
Кроме препозитивного прибавления, в китайском языке существует постпозитивное прибавление — иероглифы-суффиксы, присоединяясь к предшествующему ему определяющему слову, образуют новые слова. Большинство образованных этим способом слов являются существительными. Например, сочетание иероглифов Ш (мастер) + ШШ (изготавливать лекарство) = ШШШШ (фармацевт); (объект) + Ш = Х^Ш (инженер). Эти постпозитивные прибавления помечаются тэгом к — ШШ/пШ/к.
В 1992 г. была выпущена программа «Принцип сегментации в обработке современной китайской информации», в которой
появился термин «единица сегментации» и был установлен четкий критерий сегментации. Под термином «единица сегментации» понимается основная единица, обладающая определенной семантической или грамматической функцией при обработке информации на китайском языке. Укажем суть этого подхода следующая: китайские слова, в которых внутренняя структура соответствует принципу композиционности, нуждаются в разделении, если принцип композиционности не выполняется, то разделение не нужно [10, с. 45].
Принцип композиционности (обобщение «принципа Фреге») определяется следующим образом: значение сложного выражения есть функция от значений его частей. Вместе с тем имеется уточнение: значение сложного выражения определяется значениями его значащих компонентов плюс способ их композиции [9, с. 622]. В общем виде эту идею можно попытаться выразить следующей формулой:
|ЛВ| = |А| • |В|,
где | | — истинностное значение языковой единицы, а • — способ их композиции.
Например: значение китайского слова (великая родина) представляет собой сочетание слов ^^ (великий) и ШШ (родина). Слово ^^ выполняет функцию определения и характеризует существительное ШШ. То есть = КЗД • |ШШ|. Поэтому внутренняя структура слова ^ЖШШ соответствует принципу компози-ционности и нуждается в разделении на два таких элемента, как ^А/аШШ/п.
Как было указано выше, слова в китайском языке представлены отдельными иероглифами (простые слова) и сочетаниями двух и более иероглифов (сложные слова). Очевидно, простые слова не вызывают трудности при разбиении: Ш/п, А/п, Ш^. В сложных словах между иероглифами существуют разнообразные связи и отношения, затрудняющие сегментацию слов при создании корпуса китайского языка.
Таким образом, правильность разметки и сегментации опирается на установление отношений между слогоморфемами сложных слов, умение разбить сложные слова согласно принципу композиционности. Отношение между морфемами определяется способами образования сложных китайских слов. Способами, доминирующими в словообразовательной системе китайского языка, по мнению Пань Гуоуэнь, являются словосложение, редупликация и контракция [12, с. 85]. Для того чтобы провести разметку и сегментацию текста при создании корпуса, проанализируем отношения между морфемами с точки зрения способа образования сложных слов и сообщим им информацию в соответствии с принципом композиционности.
1. Словосложение.
В китайском языке группа слов, образованных способом словосложения, самая многочисленная. Словосложение занимает доминирующее положение в системе китайского словообразования.
Обычно словосложение как способ словообразования осуществляется простым примыканием одного компонента к другому. Слова, создаваемые способом словосложения, в зависимости от типа связи, существующего между их компонентами, можно подразделить на две большие группы: сложные слова с сочинительной связью и сложные слова с подчинительной связью.
(1) Сложные слова с сочинительной связью.
При сочинительной связи между частями сложного слова существует свободное соотношение, одна часть не зависит от другой, и обе части находятся в равноправных смысловых отношениях. Сложные слова с сочинительной связью включают в себя три типа: суммирующий, синонимический и антонимический.
а. Суммирующий тип.
Лексические единицы данного словообразовательного типа создаются путем объединения двух слогоморфем, обозначающих два признака (или качества, или действия). Рассмотрим это на примерах. Китайское слово
Ж^ обозначает просторный, обширный, Ж — широкий, ^ — большой. Значение слова Ж^ представляет собой совокупность двух слогоморфем Ж и между которыми существует свободное соотношение. Поэтому слова данного типа не отвечают принципу композиционности, то есть |ЖЖ|ф|Ж| ■ |Ж|, и не нуждаются в разделении. Глагол — описать, изобразить состоит из компонентов ® — копировать, Щ — писать. Значением слова является сочетание
® и Щ, но его внутренняя структура не соответствует принципу композиционности и сегментация не должна проводиться. Существительное МЫ (наружность) состоит из слогоморфем М (брови), Ы (глаза), |МЫ | ф |МН@| и не сегментируется. Слова этого типа помечаются как Ж^/a, ®Щ/у,МЫ/п.
б. Синонимический тип.
Сложные слова данного типа представляют собой сочетание двух слогоморфем, находящихся в синонимическом отношении. Они обозначают два предмета или два признака (качества или действия). Морфемы, образующие эти слова, будучи идентичными или близкими по значению, дополняют и оттеняют друг друга. Например: МЖ (деревья), гдеМ (дерево), Ж (дерево); ^^ (холодный), где слова ^ и ^ обозначают холодный; (опираться), где Ш (опираться) и ^ (прислоняться). Эти новые слова как сочетания двух слогоморфем возникают в результате слияния этих морфем, между которыми существует свободное отношение. Поэтому слова этого типа не отвечают принципу композиционности и в корпусе будут помечены как МЖ/n, ^7^/a, Ш^/v.
в. Антонимический тип.
Сложные лексические единицы этого типа создаются в результате сочетания двух сло-гоморфем, находящихся в антонимических отношениях. Соединение антонимов приводит к обобщению значений и семантическому преобразованию составляющих морфем: появляется слово с иным значением, которое к тому же обычно имеет и другую категориальную принадлежность. Например: су-
ществительное '" (скорость) состоит из прилагательных ' (быстрый) и Ш (медленный), (включатель) = ^ (открывать) + А закрывать, АШ (мир) = А(небо) + Ш (земля). У этих слов, образованных в результате сращения значений слогоморфем, связи между морфемами независимы и в корпусе они будут помечены как "/п, ^А/п, АШ/п.
(2) Сложные слова с подчинительной связью.
При подчинительной связи между частями сложного слова одна часть подчинена другой и суммарное значение зависит от этой связи. Подчинительное сложение представляет собой соединение слогоморфем, неравноправных в смысловом и функционально-синтаксическом отношениях.
Сложные слова с подчинительной связью образуют четыре основных типа: определительный, дополнительный, результативный и предикативный.
а. Определительный тип.
При определительном типе связи между компонентами сложного слова первая часть поясняет вторую. В китайском языке определительный тип представляет собой одну из наиболее продуктивных словообразовательных моделей, называемую иногда атрибутивной моделью. Например: ^^ (милосердие, добросердечие), где ^ (добрый), а ^ (душа); ^^(цветочный горшок) = ^(цветы) + ^ (горшок). В этих сложных словах вторая часть обозначает предмет, а первая служит обозначением качественного признака предмета. Слова данного типа соответствуют принципу композиционности и нуждаются в разделении как #/а^/п, ^/п^/п.
б. Дополнительный тип.
При дополнительном типе связи между частями производного слова первый компонент обозначает действие, а второй — объект. Например: слово (отправиться в дорогу) состоит из слов ^ (двинуться) и М (тело); Ж® (выпускать) = Ж (выпускать) + ®(оттиски). Внутренняя структура слова данного типа не отвечает принципу
композиционности, и подобные слова помечаются как S^/v, Ж® /v.
в. Результативный тип.
Пань Гуоуэнь отмечает, что при результативном типе связи между частями сложного слова первая морфема обозначает действие, а вторая — результат (следствие) этого действия [11, с. 108]. Например: Г (расширить), где А(большой), ГА (увеличить (размер)); П (кушать), где Ш (сытый), ППШ (наесться, насытиться). Слова данного типа, возникающие в результате сложения этих слогомор-фем, не соответствуют принципу компо-зиционности, то есть |ГА| ф |Г| ■ |А|, |ПШ| ф |П| ■ |Ш|, ГА/v, ПШ/v.
г. Предикативный тип.
При этом типе связи реализуется сочетание предмет + признак (действие как переменный признак или качество как постоянный признак). Части слова, таким образом, находятся в субъектно-предикативных отношениях. Например: А (голова) + ^ (болеть) = А^ (голова болит). Слова данного типа возникли в результате лексикализации предложений, построенных по схеме: подлежащее — сказуемое. Поэтому |А^| = |А| ■ |^|, помечается как A/n^/v.
2. Редупликация.
Редупликация — способ словообразования, который заключается в удвоении знаменательной морфемы или сложении двух идентичных морфем. В китайском языке встречаются три случая редупликации.
В первом случае редупликация представляет собой фонетический повтор. Например: ШШ (посмотреть), где Ш имеет то же значение. Согласно указанному выше «Принципу сегментации в обработке современной китайской информации», такие слова не нуждаются в сегментации и обозначаются, как ШШ/v.
Во втором случае редупликация приводит к образованию двуморфемного варианта соответствующего слова и включает два типа: ЛВЛВ и ЛЛВВ. Согласно указанному принципу сегментации ЛВЛВ разбивается на ЛВ/ЛВ, например: слово%Ш%Ш (думать) помечено как а в случае ЛЛВВ,
когда AB является словом, то оно не делится и помечается как AABB, например ^^^^ (чистый), слово ^^ (чистый) тоже используется, тогда оно помечается как ^^^^/a; и, напротив, если слово AB не употребляется, то AABB разбивается как AB/AB, например ЖЖРР (каждая семья) состоит из слов Ж (семья) и Р (семья), а слово ЖР не существует, тогда все слово помечается как ЖЖ/пРР/n
3. Контракция.
Этот прием заключается в сокращении многосложных лексических единиц. Он представляет собой процесс устранения из состава многосложного слова или словосочетания отдельных морфем. Существуют различные типы и способы морфемной контракции.
а. Опущение: в результате контракции этого типа опускается последняя морфема и, таким образом, неизменно возникает сложносокращенное слово, состоящее из начальных морфем. Например: (Университет Цинхуа) сокращается до Ун^/j. Кроме этого, наиболее продуктивная модель представляет собой разновидность контрак-
ции, при которой опускаются второй и четвертый компоненты лексической единицы. Например: (Пекинский универси-
тет) сокращается до ^ЬЖ/Ь
б. Упрощения.
Например ФИ — Китай, Ш^М — Россия, ^Ж — отношение, термин «Китайско-русские отношения» переводится на китайский язык как ФИШ^М^Ж, однако в СМИ Китая часто употребляется сокращенное словосочетание ФШ^Ж, которое в корпусе помечается как
Рассмотренные выше принципы сегментации и разметки реализованы при решении задач создания исследовательского корпуса китайских текстов по лингводидактике и извлечения китайских терминов из размеченных текстов и формирования словаря. В результате применения этих принципов составлен и полностью размечен корпус китайских текстов по лингводидактике объемом 400235 иероглифов. Этот корпус представляет базу для дальнейшего контрастивного исследования терминологии лингводидактики в русском и китайском языках.
СПИСОК ЛИТЕРАТУРЫ
1. Драгалина-Черная Е. Г. Контекстуальность и композициональность // РАЦИО.т. 2009. № 2. С. 66-84.
2. Захаров В. П., Богданова С. Ю. Корпусная лингвистика. Иркутск: ИГЛУ, 2011.
3. Зубов А. В. Корпусная лингвистика: возможности и перспективы // Междунар. науч. конф. Минск, 6-7 апр. 2006. Минск, 2006. С.22-27.
4. Кочергин И. В. Очерки лингводидактики китайского языка. М.: Восточная книга, 2012.
5. Корпус общего современного китайского языка. http://cncorpus.org
6. Перцов Н. В. О роли корпусов в лингвистических исследованиях // Труды международной конференции «Корпусная лингвистика-2006». СПб.: Изд-во С-Петерб. ун-та, 2006. С. 318-331.
7. Сичинава Д. В. К созданию представительного корпуса современного русского языка // Труды Международного семинара «Диалог-2002». М., 2002.
8. Фреге Г. Логика и логическая семантика. М.: Аспект-Пресс, 2000.
9. Haugeland J. Understanding natural language // Journal of Philosophy. 1979.
10. 2012.
11. 2000. 12. 2004.
REFERENCES
1. Dragalina-Chernaja E. G. Kontekstual'nost' i kompozicional'nost' // RACIO.ru. 2009. № 2. S.66-84.
2. Zaharov V. P., Bogdanova S. Ju. Korpusnaja lingvistika. Irkutsk: IGLU, 2011.
3. Zubov A. V. Korpusnaja lingvistika: vozmozhnosti i perspektivy // Mezhdunar. nauch. konf. Minsk, 6-7 apr. 2006. Minsk, 2006. S.22-27.
4. Kochergin I. V. Ocherki lingvodidaktiki kitajskogo jazyka. M.: Vostochnaja kniga, 2012.
5. Korpus obshhego sovremennogo kitajskogo jazyka. http://cncorpus.org
6. Percov N. V. O roli korpusov v lingvisticheskih issledovanijah // Trudy mezhdunarodnoj konferencii «Korpusnaja lingvistika-2006». SPb.: Izd-vo SPeterb. un-ta, 2006. S. 318-331.
7. Sichinava D. V. K sozdaniju predstavitel'nogo korpusa sovremennogo russkogo jazyka // Trudy Mezhdunarodnogo seminara «Dialog-2002». M., 2002.
8. Frege G. Logika i logicheskaja semantika. M.: Aspekt-Press, 2000.
9. Haugeland J. Understanding natural language. Journal of Philosophy 1979.
10. 2012.
11. 2000.
12. 2004.
М. В. Данильчук
ПОТЕНЦИАЛ ФОНОСЕМАНТИЧЕСКОГО АНАЛИЗА В ПРОЦЕССЕ НОМИНАЦИИ В МАРКЕТИНГЕ
В XXI веке появляется новый термин — «маркетинговая фоносемантика», соблюдение принципов которой способно помочь создавать эффективные и запоминающиеся названия брендов. В основе их номинации (в маркетинге — нейминга) лежит использование лексики конкретного языка, но этот запас при всем его объеме не бесконечен, кроме того, не вся лексика соответствует задачам номинации бренда. Соответственно, возникает необходимость создания и анализа номинаций, при восприятии которых именно звуковой ряд является основным источником информации для потребителя.
Ключевые слова: фоносемантика, маркетинговая фоносемантика, номинация, нейминг.
M. V Danilchuk
PHONOSEMANTIC ANALYSIS POTENTIAL IN THE PROCESS OF
NAMING IN MARKETING
The new term marketing phonosemantics, which principles can help to create effective and recognizable brand name, appears in the XXI century. The usage of the lexis of the concrete language compiles in naming of brand names, but lexis reserve despite its extent is not unlimited. Furthermore, not all existing words correspond to the scopes of brand naming. Thus, the relevancy of the analysis of the naming units is evident, especially of the units in which sounds are the main source of information for the consumer.
Keywords: phonosemantics, marketing phonosemantics, naming.
Проблемы номинации привлекают внимание исследователей и сегодня [4]. Цель данной статьи — оценка возможностей использования маркетинговой фоносемантики
в процессе номинации, суть маркетинговой фоносемантики заключается в возможности применения звукового ряда языка как средства воздействия на потребителя [7].