Научная статья на тему 'Атрибутивно-типовая модель лексики в сравнительно-сопоставительном аспекте'

Атрибутивно-типовая модель лексики в сравнительно-сопоставительном аспекте Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
117
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Атрибутивно-типовая модель лексики в сравнительно-сопоставительном аспекте»

ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА

УДК 681.5.015

П.В. ЖЕЛТОВ

АТРИБУТИВНО-ТИПОВАЯ МОДЕЛЬ ЛЕКСИКИ В СРАВНИТЕЛЬНО-СОПОСТАВИТЕЛЬНОМ АСПЕКТЕ

Эта модель создана применительно к сравнительно-сопоставительному подходу к проектированию ЛП и систем машинного перевода (МП) и использована для моделирования лексики двух языков - русского (флективного) и чувашского (агглютинативного). Введем ряд базовых определений.

Лексема - эта часть словоформы (цепочка символов), отделимая от нее в результате морфемного анализа. Лексемы бывают двух видов: морфемы (префикс, суффиксы, окончания, частицы в русском и аффиксы в чувашском) и основы.

Морфема - это элементарная некорневая часть словоформы без рассмотрения ее морфологических характеристик. Морфема же с ее морфологическими характеристиками называется морфой. Под основой понимается часть словоформы, полученная в результате отделения от нее всех морфем и несущая основную смысловую нагрузку.

Так, словоформа делавшаяся разбивается на морфы следующим образом:

префикс: - (несовершенный вид)

основа: дел

суффикс 1: а

суффикс 2: вш (причастие, прошедшее время)

окончание: ая (ед. число, жен. род, им. падеж)

частица: ся (страд.),

где в круглых скобках даются морфологические характеристики морфемы. Поэтому МорфС словоформы можно условно разделить на морфемную (лексическую) структуру (ЛексС) и собственно морфологическую (МорфС).

Поверхностная запись морфемы есть конкретная морфема (префикс, суффикс, окончание, частица в русском и аффикс в чувашском).

Лексическая запись есть некая абстрактная запись целой группы родственных по виду морфем, выражающих одни и те же морфологические категории. Так, префиксы русского языка рас- и раз- выражаются единой лексической записью раЗ-. Чувашские аффиксы исходного падежа -тан, -тен, -ран,-рен, -чен выражаются лексической записью -ТАн.

Алломорфами называются различные варианты одной и той же морфемы (поверхностная запись морфемы). Чувашские аффиксы исходного падежа ~-тан, -тен, -ран, -рен, -чен являются алломорфами одной и той же морфемы -ТАн.

Примером лексической структуры для словоформы делавшаяся является табл. 1: •

Таблица 1

Префикс Основа Тема Суффикс Окончание Частица

— дел а вш ая ся

А МорфС является табл. 2:

Таблица 2

Лексема без словоизменения Часть речи Атрибуты

Вид Залог Время Число Род Падеж

Делавшаяся Причастие не- сов. страд. прош. ед. жен. им.

В данном случае словоформа разбирается однозначно, однако при морфологическом анализе довольно частое явление - морфологическая омонимия, т.е. ситуация, когда словоформа может быть разобрана более чем одним способом. Например, для слова теории имеем следующие омонимы (табл. 3):

Таблица 3

Лексема Часть речи Атрибуты

Одушевленность Род Число Падеж

ТЕОРИЯ Существительное неод. жен. ед. род.

ТЕОРИЯ Существительное неод. жен. ед. дат.

ТЕОРИЯ Существительное неод. жен. ед. предл.

ТЕОРИЯ Существительное неод. жен. мн. им.

ТЕОРИЯ Существительное неод. жен. мн. вин.

В других случаях варианты омонимов порождаются разными словоформами. Например, для словоформы спали мы имеем (табл. 4):

Таблица 4

Лексема Часть речи Атрибуты

вид наклонение время число

СПАТЬ Глагол несов. изъявительное прош. мн.

СПАДАТЬ Глагол сов. изъявительное прош. мн.

ПАЛИТЬ Глагол сов. повелительное непрош. 2-е л.

Структура данных для записи лексико-морфологических характеристик имеет следующий вид:

1) для русского языка

г

г

LexS

<

MorphS

г 2) для чувашского языка

//само слово в виде строки lexem: string',

И префикс prefix', string;

// основа root string;

//суффикс 1 suffix 1: string-,

//суффикс2 suffix2: string;

//окончание ending: string;

//частица particle: string;

//часть речи PartofSpeech: string; //морфолог, характер. Attributes:array of Attribute

<

TLexem

LexS

MorphS

<

V

//само слово в виде строки lexem: string;

//аффиксы

affixes: array of string;

// основа root: string;

//часть речи PartofSpeech: string; //морфолог, характер. Attributes:array of Attribute,

где тип Attribute имеет следующую структуру:

// атрибут Attribute

<

//название Name: string; //значение Value: string;

где MorphS Attributes есть набор морфологических характеристик, который у каждой части речи свой. Поэтому MorphSAttributes для разных частей речи будет отличаться как по длине, так и по составу.

Поэтому в разработанной модели MorphSAttributes инициализируется только после того, как мы узнаем часть речи анализируемой лексемы, причем ини-

циализируется готовой структурой типа Attribute, уже содержащей столько атрибутов, сколько их имеется у данной части речи, с заполненными полями Name (названиями атрибутов) и пустыми полями Value. Value мы заполняем конкретными значениями атрибутов для данной лексемы.

Атрибутивно-типовая модель морфологии основана на следующих принципах: .

1) разделение словоформ каждой части речи на типы;

2) сопоставление каждого типа с шаблоном, задающим возможную структуру словоформы, состоящую из словообразовательных и словоизменительных лексем;

3) описание лексем с их морфологическими характеристиками (атрибутивный аспект);

4) описание отношений между лексемами и формирование правил, позволяющих выводить морфологические характеристики словоформы из морфологических характеристик составляющих ее морфем.

В качестве инструмента для конкретной реализации атрибутивно-типовой модели морфологии был выбран реляционный аппарат. Преимущества данного аппарата в том, что он позволяет представить данные в удобной форме в виде отношений (таблиц), легко реализуемых средствами проектирования БД. Как следствие, существенно облегчается извлечение данных из БЗ и не требуется создания сложных процессоров для их извлечения как в случае их записи в виде продукционных правил в файле.

Разработанный формальный аппарат описания языка является языконезависимым и применим как для русского, так и для чувашского языков.

В разработанном формальном аппарате морфологии существуют следующие типы отношений: а) шаблоны; б) атрибуты; в) сопоставления (соответствия).

Как уже говорилось, в качестве внешней формы представления отношений были выбраны таблицы. Это связано с тем, что таблицы наиболее наглядно представляют отношения, легко реализуются с помощью современных СУБД и позволяют создавать конкретные экземпляры отношений путем их заполнения.

Шаблоны - это отношения, определяющие возможную форму слова для некоторой части речи как в неизмененной, так и в измененной форме. При поступлении на морфологический блок ЛП какой-либо словоформы он пытается сопоставить ее имеющимся шаблонам, т.е. отнести к какой-либо части речи путем разложения на лексемы способами, указанными в шаблонах.

Шаблоны выглядят следующим образом (табл. 5):

Таблица 5

Лексема 1 Лексема 2 Лексема п

Так, шаблоны для причастий русского языка имеют вид (табл. 6):

Таблица 6

<Префикс> <Основа> Суффикс 1 Суффикс 2 <Окончание> <Частица>

Атрибуты - это отношения, в левой части которых находится лексема, а в правой - связанные с ней морфологические характеристики.

Атрибуты выглядят следующим образом (табл. 7):

Таблица 7

Лексема Морфолог, хар. 1 Морфолог, хар. 2 .. | Морфолог, хар. «

Сопоставления (соответствия) - это отношения, ставящие один атрибут в соответствие другому. Пример (табл. 8):

Таблица 8

Поле Путь к таблице Поле

<Префикс> общие/префиксы префикс

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

<Основа> глагол/основы основа

< Окончание > глагол/окончания окончание

< Частица > общие/частицы частица

Атрибуты и сопоставления (соответствия) могут быть следующих видов:

1)атрибуты

а) 1:1 (один к одному)

в левой части одна лексема, в правой - одна зависящая от нее характеристика (табл. 9):

Таблица 9

<Частица> <Залог>

+ +

# -

вительныи. .

б) 1: М (один ко многим)

в левой части одна лексема, в правой - несколько зависящих от нее характеристик (табл. 10):

Таблица 10

Окончание

Род

Число

Лицо

Падеж

в) МЛ

в левой части несколько лексем, в правой - одна зависящая от их сочетания характеристика (табл. 11):

Таблица 11

Префикс Основа Суффикс 1 Вид

Наряду с лексемами в левой части во всех атрибутивных отношениях может иметься и идентификатор записи, т.е. ключевое поле.

Например (табл. 12):

Таблица 12

Тип Лексема Морфологич. хар. '

2) Сопоставления

а) 1:1 (один к одному) (табл. 13)

Шаблон - Подстановка

Таблица 13

Поле Путь к таблице Поле

б) 1 :М (таблица 14)

Т ип-Форма-Шаблон

Таблица 14

Тип Форма | Шаблон

Отношений М:М (многие ко многим) нет, так как они вносят неоднозначности и поэтому были декомпозированы на составляющие (комбинации 1: М и М: 1).

ЖЕЛТОВ ПАВЕЛ ВАЛЕРИАНОВИЧ родился в 1982 г. Окончил Чувашский государственный университет. Аспирант кафедры вычислительной техники Чувашского университета. Область научных интересов - вычислительная техника. Число опубликованных работ - более 10.

i Надоели баннеры? Вы всегда можете отключить рекламу.