Научная статья на тему 'Алгебраическое представление модели формообразования естественных языков'

Алгебраическое представление модели формообразования естественных языков Текст научной статьи по специальности «Математика»

CC BY
194
43
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Cloud of science
ВАК
Область наук
Ключевые слова
МОРФОЛОГИЧЕСКИЙ АНАЛИЗ И СИНТЕЗ / АЛГЕБРА / ФОРМООБРАЗОВАНИЕ

Аннотация научной статьи по математике, автор научной работы — Пруцков А. В.

Предложено алгебраическое представление модели формообразования, позволяющей описывать получение форм слов различных естественных языков из их основ. Модель используется в методе генерации и определения форм слов для решения задач морфологического синтеза и анализа текстов. Приведены примеры образования форм слов в терминологии модели.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

An Algebraic Representation of the Natural Language Wordform Building Mode

It proposed an algebraic representation of wordforming model for building different natural languages wordforms. Model can be used in the universal wordform generation and recognition method for morphological synthesis and analysis. It exemplified wordform building in the model terms.

Текст научной работы на тему «Алгебраическое представление модели формообразования естественных языков»

Электронный журнал Cloud of Science. 2G14. T. 1. № 1.

http://cloudofscience.ru

УДК 004.912

Алгебраическое представление модели формообразования естественных языков

А. В. Пруцков

Рязанский государственный радиотехнический университет 39GGG5, г. Рязань, ул. Гагарина, д. 59/1 e-mail: [email protected]

Аннотация. Предложено алгебраическое представление модели формообразования, позволяющей описывать получение форм слов различных естественных языков из их основ. Модель используется в методе генерации и определения форм слов для решения задач морфологического синтеза и анализа текстов. Приведены примеры образования форм слов в терминологии модели.

Ключевые слова: морфологический анализ и синтез, алгебра, формообразование

ГРНТИ 20.19.27

1. Введение

Автоматическая обработка текстов (АОТ) заключается в преобразовании текстов с помощью ЭВМ. «По имеющимся в литературе оценкам, более 70 % ресурсов [знаний], накопленных в различных организациях, носит неструктурированный характер и образуется электронными текстовыми документами» [11]. Поэтому разработки в области АОТ являются актуальными.

АОТ ведется на трех уровнях:

- на семантическом уровне связываются слова, сочетания и их смысловое значение;

- на синтаксическом уровне определяется взаимосвязь слов в предложении;

- на морфологическом уровне связываются слова, предложения и их грамматические значения (падеж, время и т. п.).

С АОТ каждый из нас сталкивается практически каждый день. Примерами задач АОТ являются: машинный перевод; проверка правописания; анализ текстов и выявление в них знаний; общение ЭВМ с пользователем на естественном языке; анализ запросов в информационно-поисковых системах глобальных информационных сетей; преобразование «речь-смысл».

В каждой из перечисленных задач обработка текста осуществляется на морфологическом уровне, что определяет важность данного уровня АОТ.

SS

На этапе морфологической обработки текстов решаются задачи генерации и определения форм слов.

Генерация формы слова (синтез, продукция) — процесс получения формы с использованием в качестве начальных параметров основы и грамматического значения (рис. 1).

ОСНОВА

ГРАММАТИЧЕСКОЕ

ЗНАЧЕНИЕ

ГЕНЕРАЦИЯ

^ => СЛОВОФОРМА

Рисунок 1. Задача генерации форм слов

Определение формы слова (анализ, распознавание, интерпретация) — процесс, обратный генерации. Определение заключается в нахождении по данной словоформе ее нормальной формы (основы) и грамматического значения (рис. 2).

СЛОВОФОРМА■

ОПРЕДЕЛЕНИЕ,

ОСНОВА

СЕМАНТИЧЕСКОЕ ‘ ЗНАЧЕНИЕ

ГРАММАТИЧЕСКОЕ

ЗНАЧЕНИЕ

Рисунок 2. Задача определения форм слов

В современных условиях глобализации и повышения статуса языков национальных меньшинств на государственном и региональных уровнях требуется разработка многоязычных систем АОТ, а, следовательно, разработка универсальных методов для каждого уровня АОТ.

Существующие методы обработки текста на морфологическом уровне [4], [1],

[5], [2] предназначены для одного или нескольких естественных языков. Для языков национальных меньшинств в России трудоемкость разработки морфологического анализатора сопоставима с написанием ключевой главы кандидатской диссертации (например, для татарского языка [3]) и работы в этом направлении продолжаются [6].

Автором статьи был предложен метод генерации и определения форм слов естественных языков различных семейств и групп [8]. В работе [7] была доказана универсальность предложенного метода. В основе предложенного метода лежит модель формообразования естественных языков.

В статье предложено использовать алгебраическое описание модели формообразования предложенного метода генерации и определения форм слов естественных языков.

2. Алгебраическое представление модели формообразования1

Пусть Е = {¥, О} — алгебра, где ¥ — множество слов естественного языка; О — множество операций над словами.

Множество У = Бм и Бм и {р}, где — множество нормальных форм слов; Бм — множество остальных форм слов; Бм ПРм = 0; р — пустое слово.

Пусть хе X, у е У, Ъ = X х У. Обозначим через 1т (х, У) — образ х в У при соответствии Ъ и через р1т (у, X) — прообраз у в X при соответствии Ъ.

Соответствие Ь с 8м х Бм обладает следующими свойствами:

1) \1т №)\>0, где вевм;

2) \ р1т (F, вм ) \=1, где Б е ?м;

3) УБ,, Ув:.(1т (Б,, Бм ) П 1т (Б,, Бм )=0), где Б, ^ евм; I,] = 1^, I * ];

N =\Бм\.

Множество О=©м и &м, где ©м — множество прямых операций; ©м — множество обратных операций; ©м П ©м = 0; \ ©м\ = \ ©м \= N©.

Множество Т = {(©,, ©') \I = 1, 2, ...,Ш©}с©м х©м — взаимно однозначное соответствие.

Пусть множество ©м включает основные операции:

1-2) добавление подстроки Р к форме А е ¥ слева (префикс) (обозначается Р+) или справа (постфикс) (+Р);

3) замена в форме А первого слева вхождения подстроки Н на подстроку Р (Н ^ Р).

Тогда множество ©м включает операции, обратные основным:

1-2) отделение подстроки Р от формы А слева (Р-) или справа (-Б);

3) обратная замена первой слева подстроки Р на подстроку Б (Н ^ Р). Множество ©м может быть расширено другими преобразованиями, специфичными для естественного языка.

Операции множества О в дальнейшем будем называть преобразованиями. Пусть р еО — преобразование, а Р' еО — преобразование, обратное данному. Пара преобразований Р и Р' обладает следующим свойством:

[^х 0')е т]®[(д-х 0)ет] = 1, (1)

где ® — логическая операция сложения по модулю 2 (исключающее или); 1 — логическая константа «истина».

1 Формообразование — это образование грамматических форм слова.

Цепочка преобразований (прямая цепочка преобразований, комбинированное преобразование) — это конечная упорядоченная последовательность (вектор) преобразований:

Я = (..., О,)еЯм , где Ql,Q2, .,О„ еО; , > 1; Ям — множество цепочек.

Обратная цепочка преобразований Я' представляет собой обратную последовательность преобразований, обратных данным:

я' = (о:, 0,1, .,О1)е Ям я = (О'п, ои ..., 0\) е Ям,

где о, ,Q:-l, .,0 еО

Все пары преобразований и 0', где I = 1,:, в прямой и обратной цепочках обладают свойством (1).

Пусть Ш еЯм. Обозначим применение к форме А цепочки Ш как А(Ш). Результат этой операции В = А(Ш), где В е ¥, определяется следующим выражением: В | А(Я), если (Ш применима к А) и (А(Ш) е ¥),

[р, в остальных случаях.

Цепочка Ш применима к форме А, если возможно применение всех преобразований цепочки к форме. Например, невозможно отделить постфикс из-за его отсутствия в форме А или невозможно произвести замену подстрок из-за отсутствия исходной подстроки в форме А.

Назовем нулевой цепочкой Я0 е Ям цепочку, не изменяющую форму А:

А = А (Яо).

Нулевая цепочка может быть реализована разными способами, например:

Яо=(+р) или Яо =(+В; - В).

Нулевая цепочка используется с неизменяемыми нормальными формами.

Таким образом, множество Ям включает прямые цепочки, в том числе и нулевые, и обратные им.

Прямая цепочка связывает форму Б с формой Бе 1т (Б, Бм) при Ь:

У Б ЗБ 3 Я: (Б=Б (Я)).

Обратная цепочка связывает форму Б с формой Бе р1т (Б, ) при Ь:

У Б ЗБ 3 Я: (Б = Б (Я')).

Для решения задачи генерации форм слов необходимо найти такую цепочку Я, что

А = Б (Я),

где Бе ; (Ае1т (Б, Бм) при Ь) или (А = Б).

Решение задачи определения форм слов включает нахождение цепочки Я' такой, что

Б = А (Я'),

где (Бер1т (А, Бм) при Ь) или (Б = А).

Цепочка преобразований должна обладать следующими свойствами:

1) однозначность результата: цепочка всегда приводит к одному и тому же результату;

2) обратимость действия: применение к форме А прямой цепочки, а затем обратной цепочки не изменяет ее:

А = (А (Я))(Я').

Равенство В = А(Ш) = р может быть верно в следующих случаях:

- Ш — прямая цепочка, Ае , но В^1т (А, Бм) при Ь;

- Ш — обратная цепочка, Ае Бм, но В£ р1т (А, Бм) при Ь;

- цепочка Ш не обладает свойствами однозначности результата или обратимости действия.

Соотношение между мощностями множеств, как правило, имеет вид

\Ям\ /2 <\^м\<< \ ^\.

3. Пояснения к алгебраическому представлению модели формообразования

I. Данная модель является открытой, к модели можно добавлять другие типы преобразований. Например, в языках с направлением письма справа налево (например, арабском и др.) необходима замена не первой слева, а первой справа подстроки Н. Цепочки с новыми типами преобразований должны обладать свойствами однозначности результата и обратимости действия.

II. Примеры цепочек преобразований, не обладающих свойствами однозначности результата и обратимости действия.

Пример 1. Преобразование, заключающееся в удалении какой-нибудь подстроки Н, не обладает свойством однозначности, например, в случае наличия нескольких подстрок Н в форме Б.

Преобразование, заключающее в удалении всех вхождений подстроки Н в форме Б, не обладает свойством обратимости. Обратного преобразования к данному преобразованию не существует, так как невозможно восстановить позиции в форме Б, куда необходимо вставить подстроку Н.

Некоторые преобразования являются применимыми к любой форме Б (всегда применимыми), например, добавление подстрок справа и слева. Однако обратные им преобразования, использующиеся в задаче определения форм слов, не являются всегда применимыми. Рекомендуется не использовать всегда применимые преобра-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

зования в цепочках, особенно при решении задачи определения, так как это увеличивает трудоемкость.

III. Примеры описания формообразования различных естественных языков цепочками преобразований. В качестве нормальной формы S рассматривается ее основа.

Пример 2. Глагол немецкого языка aufmachen — «открывать, оформлять» в настоящем времени das Prasens des Indikativs имеет следующую схему спряжения: mache auf machen auf

machst auf macht auf

macht auf machen auf.

Для спряжения глагола aufmachen в 3-м лице единственном числе цепочка R будет состоять из трех преобразований:

Ql отделить префикс «auf»: auf-;

Q2: добавить постфикс «t»: +t;

Q3: добавить пробел и префикс «auf» в качестве постфикса: +_auf и иметь вид

R = ( Qi,Q2,Q3 ) = ( auf -,+1,+ _auf).

Пусть необходимо получить форму 3-го лица единственного числа F = «macht auf» из основы неопределенной формы S = «aufmach». Для этого необходимо применить цепочку R к основе S:

1) отделить префикс «auf»: aufmach ^ mach;

2) добавить постфикс «t»: mach ^ macht;

3) добавить пробел и префикс «auf» в качестве постфикса: macht ^ macht auf.

В результате применения цепочки R, состоящей из трех преобразований, из

основы S = «aufmach» получена словоформа F = «macht auf».

Чтобы получить из словоформы F = «macht auf» основу S = »aufmach», необходимо применить обратную цепочку преобразований R', состоящую из обратных преобразований цепочки R, выполненных в обратной последовательности:

Q'3: отделить пробел и постфикс «auf»: -_auf Q'2: отделить постфикс «t»: -t;

Q'1: добавить постфикс «auf» в качестве префикса: auf+; и иметь вид

R' = (Q'3, Q'2, Q'1) = (-_auf, -1, auf +).

Применим обратную цепочку R' к словоформе F = «macht auf»:

1) отделим пробел и постфикс «auf»: macht auf ^ macht;

2) отделим постфикс «t»: macht ^ mach;

3) добавим постфикс «auf» в качестве префикса: mach ^ aufmach.

В результате применения обратной цепочки R,, состоящей из трех преобразований, из словоформы F = «macht auf» получена основа S = «aufmach». □

Для глаголов многих естественных языков свойственны аналитические формы.

Пример 3. Глагол английского языка wait терьего лица в настоящем времени Present Perfect Continuous имеет форму has been waiting. Для получения данной формы необходимо применить к основе цепочку

R = (Q1, Q2, Q3) = (+ing, been_ +, has _+).

Применим прямую цепочку преобразований к основе S = «wait»:

1) добавим постфикс «ing»: wait ^ waiting;

2) добавим префикс с пробелом «been_»: waiting ^ been waiting;

3) добавим префикс с пробелом «has »: been waiting ^ has been waiting.

В результате применения цепочки из трех преобразований из основы S = «wait» получена словоформа F = «has been waiting».

Применим обратную цепочку преобразований к форме F = «has been waiting»:

1) отделим «has_»: has been waiting ^ been waiting;

2) отделим «been_»: been waiting ^ waiting;

3) отделим «ing»: waiting ^ wait.

Результатом применения данной цепочки является основа S = «wait». □

IV. Минимальная длина цепочки равна одному преобразованию, максимальная длина цепочки на практике не превышает 5-6 преобразований. Цепочка преобразований конечна, так как основа и форма слова — это конечные последовательности символов, и последовательность операций (преобразований), которая позволяет преобразовать одну последовательность символов в другую последовательность символов, тоже конечна.

Цепочка преобразований представляет собой алгоритм преобразования — последовательность шагов, необходимых для получения из основы или одной формы слова другой формы слова. Таким образом, цепочка преобразований — это универсальный инструмент для описания формообразования.

V. Слова, имеющие одинаковые цепочки для получения словоформ, соответствующих одному грамматическому значению, объединяются в один тип формообразования. Слова, относящиеся к одному типу формообразования, имеют словоформы с одинаковыми грамматическими значениями, полученные одними и теми же цепочками преобразований.

Классификация слов русского языка по типам формообразования приведена в работе Г. Г. Белоногова и В. И. Богатырева [2]. Классификации слов других языков можно найти в специальной литературе или словарях, справочниках и учебниках. Существующие классификации слов по типам формообразования необходимо модифицировать в соответствии с предлагаемой моделью формообразования.

В настоящее время ведется разработка систем проверки знаний по морфологии естественных языков с динамической генерацией вариантов заданий [9], [10].

Литература

[1] Goldsmith J. Unsupervised Learning of the Morphology of a Natural Language // The Last Phonological Rule / J. Goldsmith (ed.).— Chicago : University of Chicago Press, 1998. P. 173-194.

[2] Белоногов Г. Г., Богатырев В. И. Автоматизированные информационные системы / под ред. К. В. Тараканова. — М. : Сов. радио, 1973.

[3] Гильмуллин Р. А. Математическое моделирование в многоязыковых системах обработки данных на основе автоматов конечных состояний / Дисс. ... канд. физ.-мат. наук 05.13.11. — Казань : Казан. гос. ун-т им. В. И. Ульянова-Ленина,

2009.

[4] Koskenniemi K. Two-level Morphology: A General Computational Model for Word-form Recognition and Production. Publications 11.— Helsinki: University of Helsinki, 1983.

[5] МальковскийМ. Г. Диалог с системой искусственного интеллекта. — М.: Изд-во МГУ, 1985.

[6] Орехов Б. В., Слободян Е. А. Проблемы автоматической морфологии агглютинативных языков и парсер башкирского языка // Информационные технологии и письменное наследие: материалы межд. науч. конф. — Уфа; Ижевск : Вагант,

2010. С. 167-171.

[7] Пруцков А. В. Генерация и определения форм слов естественных языков на основе их последовательных преобразований // Вестник РГРТУ. 2009. № 27. С. 51-58.

[8] Пруцков А. В. Морфологический анализ и синтез текстов посредством преобразований форм слов // Вестник РГРТА. 2004. № 15. С. 70-75.

[9] Пруцков А. В. Применение информационных ресурсов для автоматизации обучения и проверки знаний // Информационные ресурсы России. 2005. № 1. С. 18-20.

[10] Пруцков А. В. Статический и динамический подходы к проектированию подсистем проверки знаний автоматизированных обучающих систем // Информационные ресурсы России. 2006. № 1. С. 27-29.

[11] Фомичев В.А. Формализация проектирования лингвистических процессоров. — М. : Макс Пресс, 2005.

Автор: Александр Викторович Пруцков, к. т. н., доцент кафедры вычислительной и прикладной математики Рязанского государственного радиотехнического университета

An Algebraic Representation of the Natural Language Wordform Building Mode

A. V. Prutzkov Ryazan state radio engineering university 59/1, Gagarina street, Ryazan, 390005

Abstract. It proposed an algebraic representation of wordforming model for building different natural languages wordforms. Model can be used in the universal wordform generation and recognition method for morphological synthesis and analysis. It exemplified wordform building in the model terms.

Keywords: morphological analysis and synthesis, algebra, wordform building

Reference

[1] Goldsmith J. Unsupervised Learning of the Morphology of a Natural Language // The Last Phonological Rule / J. Goldsmith (ed.).— Chicago: University of Chicago Press, 1998. P. 173-194.

[2] Belonogov G. G., Bogatyrev V. I. Avtomatizirovannye informacionnye si-stemy / Pod red. K.V. Tarakanova. — M. : Sov. radio, 1973.

[3] Gilmullin R. A. Matematicheskoe modelirovanie v mnogojazykovyh sistemah obrabotki dannyh na osnove avtomatov konechnyh sostojanij / Diss. ... kand. fiz.-mat. nauk: 05.13.11. — Kazan : Kazan. gos. un-t im. V. I. Uljanova-Lenina, 2009.

[4] Koskenniemi K. Two-level Morphology: A General Computational Model for Wordform Recognition and Production. Publications 11.— Helsinki : University of Helsinki, 1983.

[5] Malkovskij M. G. Dialog s sistemoj iskusstvennogo intellekta. — M. : Izd-vo MSU, 1985.

[6] Orehov B. V., Slobodjan E. A. Problemy avtomaticheskoj morfologii aggljuti-nativnyh jazykov i parser bashkirskogo jazyka // Informacionnye tehnologii i pis'mennoe nasledie: materialy mezhd. nauch. conf. — Ufa; Izhevsk : Vagant, 2010.

P. 167-171.

[7] Prutzkov A. V. Generacija i opredelenija form slov estestvennyh jazykov na osnove ih posledovatel'nyh preobrazovanij // Vestnik RGRTU. 2009. No. 27. P. 51-58.

[8] Prutzkov A. V. Morfologicheskij analiz i sintez tekstov posredstvom preobrazovanij form slov // Vestnik RGRTU. 2004. No. 15. P. 70-75.

[9] Prutzkov A. V. Primenenie informacionnyh resursov dlja avtomatizacii obuchenija i proverki znanij // Informacionnye resursy Rossii. 2005. No. 1. P. 18-20.

[10] Prutzkov A. V. Staticheskij i dinamicheskij podhody k proektirovaniju podsistem proverki znanij avtomatizirovannyh obuchajushhih sistem // Informacionnye resursy Rossii. 2006. No. 1. P. 27-29.

[11] Fomichev V.A. Formalizacija proektirovanija lingvisticheskih processorov. — M. : Maks Press, 2005.

i Надоели баннеры? Вы всегда можете отключить рекламу.