Математическое моделирование межбуквенных отношений (на материале префиксальных морфем немецкого языка)

Булкин Виталий Иванович; Шаронова Наталья Валерьевна; Оробинская Елена Александровна

УДК 519.673

МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ МЕЖБУКВЕННЫХ ОТНОШЕНИЙ (НА МАТЕРИАЛЕ ПРЕФИКСАЛЬНЫХ МОРФЕМ НЕМЕЦКОГО ЯЗЫКА)

БУЛКИН В.И., ШАРОНОВА Н.В., ОРОБИНСКАЯ Е. А

Рассматривается приложение алгебры конечных предикатов для описания межбуквенных отношений на множестве текстов префиксальных морфем. Делается вывод о возможности схемной реализации полученных соотношений и использовании данной модели в различных подсистемах интеллектуальных систем.

Для обеспечения эффективного функционирования таких информационных систем, какими являются системы машинного перевода, диалоговые, экспертные, где происходит обработка текстовой информации, необходимо сообщить системе исчерпывающие сведения о внутренней структуре различных единиц естественного языка: морфем, слов, словосочетаний и т.д. Данная работа посвящена созданию математических моделей префиксальных морфем имен существительных немецкого языка.

Целью исследования является математическое описание межбуквенных отношений на множестве текстов префиксальных морфем, загруженных для этого в специальную формальную конструкцию -лингвистический регистр сегментированных префиксов.

В качестве математического языка в работе используется универсальное средство для формального описания дискретных, детерминированных и конечных объектов и процессов - алгебра конечных предикатов [1]. В нашем случае таким объектом будет множество префиксальных морфем имен существительных немецкого языка, которое является объединением подмножеств собственно префиксов и так называемых полупрефиксов, выступающих в роли как самостоятельных слов, так и префиксальных морфем. Пусть Мр — множество префиксов, а Мрр — множество полупрефиксов, тогда множество префиксальных морфем Мрг имен существительных немецкого языка можно записать в виде: Мрг = Мр U Мрр.

Для использования средств алгебры конечных предикатов необходимо за каждым фрагментом текста морфемы закрепить строго фиксированное место. С этой целью применяется абстрактная математическая конструкция — лингвистический регистр, состоящий из двухбуквенных сегментов. Их структура, в свою очередь, отличается в зависимости от порядка следования гласных и согласных букв:

gs , g_ , _s , -на первом месте гласная, на втором

согласная (g — гласная, s — согласная, _ — знак

пробела), sg , _g , s_ , - на первом месте согласная,

на втором гласная.

Для автоматической загрузки текстов префиксальных морфем в лингвистический регистр сегментированных префиксов была разработана программа на языке Pascal, которая, кроме этой основной функции, проводит сравнительный анализ структур сегментов с тем, чтобы выявить оптимальную структуру с точки зрения минимума пробелов.

Анализ показал, что если лингвистический регистр состоит из сегментов первого типа, то при загрузке в него множества Мрг текстов префиксальных морфем количество пробелов, т.е. пропусков в лингвистическом регистре, на 48 процентов больше, чем при загрузке множества префиксальных морфем в регистр второго типа. Мощность множества префиксальных морфов, загруженных в лингвистический регистр, составляет 149. При этом лингвистический регистр, состоящий из сегментов первого типа ( gs ), содержал 241 пробел, а регистр второго типа ( sg ) — 162 пробела.

На основании проведенного анализа в качестве рабочего варианта целесообразно использовать лингвистический регистр, имеющий структуру сегментов sg. Их количество в регистре при этом равно шести.

Фрагмент лингвистического регистра сегментированных префиксов (ЛРСП) приведен в табл. 1 [2].

Таблица 1

a a

ab a b _

aber a b e r

ac a c

ad a d _

aero a e r o

affen a f_ f e n

ag a g _

Буквенные переменные ЛРСП обозначим Рщ, где i — номер сегмента, a j - номер буквы в сегменте (i= 1,6, j = 1,2). Для удобства записи уравнений переобозначим буквенные переменные следующим образом:

Р11 = Р1 ;Р12 = Р2 ’ Р21 = Р3 ;P22 = Р4 ;

Р31 = Р5 ’ Р32 = Р6 ;Р41 = Р7 ’ Р42 = Р8 ’

Р51 = Р9 ’ Р52 = Р10 ;Р61 = Р11 ;Р61 = Р12; .

Эти переменные имеют следующие области определения:

РИ, 2002, № 1

133

Таблица 2

Pi v P1b V P V P{ V Pg V Pj" V Pj* v Pi V P V

v P/ v Pf v P/ v P* v P/ v Pf v P/ v P/ = 1 ;

P2a v P2 V P2° v P2 v P2“ v Py v P2“ = 1 ;

P3b v P3c v P3f v P3r v P3g v P3" v P3s v P3 V v P3l v P3d v P3z v P3w v P3k v P3m v P3x v P3p v P“ = 1 ; Pa V Pe V P4° V P4 V PU V P4y V P4- = 1;

P5b V P5c V P5f V P5r V Pg V P ” V P5* V P5 v P5c V

5 v * 5 v * 5

v P5d v P5z v P5w v Ph v P5m v P5p v P5v v P5- = 1;

5V.I5V.I5V.I5V.

P^ V Pm V PP V P5v V P“

P6a V Pi V Pi V P6 V Pi V P6- = 1;

P7c v P7r v P7s v P7 v P7l v P7d v P7z v P7h v Pk v Pf = 1;

P8a v P8e v P8° v P8' v P8“ v P8 = 1;

P" v P9s v P9 v P9h v P9- = 1;

P0 v P10 = 1; Pi v Pn = 1; P12 = 1;.

На множествах значений переменных букв лингвистического регистра существуют отношения, которые можно описать с помощью алгебры конечных предикатов. Пусть бинарное отношение на множествах значений буквенных переменных P1 и Р2 имеет вид P1R^1P2. Это отношение можно описать с помощью конечного предиката R^1(P1,P2), тогда этот факт можно представить в следующем виде:

Ri(Pi,P2)=S(f1(P1),g1(P2)),

где Ui= fi(Pj) и V1=g1(P2) — функции, объединяющие значения переменных P1 и P2 в классы эквивалентности. Предикат S(U1y V1) описывает бинарное отношение на множествах значений классов эквивалентности U1 и V1. Для объединения букв в классы эквивалентности производится склеивание строк и столбцов таблицы значений предиката R1(P1,P2). При этом строки (столбцы) одинакового состава заменяются одной строкой (столбцом) того же состава. Кроме того, примем следующее допущение. В случае, когда строки (столбцы) таблицы значений предиката отличаются одним элементом, можно ввести условную единицу (1) или условный ноль (0) в определенную ячейку таблицы, чтобы объединить эти строки (столбцы) в классы эквивалентности. При этом вводятся (исключаются) некоторые связи между буквенными переменными P1 и P2. В дальнейшем введение (исключение) этих связей компенсируется соответствующими дополнительными уравнениями. Значения предиката R1(P1,P2) приведены в табл. 2.

Функция f1(P1)посяе объединения букв в классы эквивалентности будет иметь следующий вид:

Ub~Pi v Pi;Ui~Pi v Plk;Ui~Plr v Pjd;Uf ~Plg v P" v P v P p; U*~P v P ";U h~P h v P m v Pi;U 1 ~P z ;Uq~P q;UpP v;

Pi > P;P > Pi;Pt > PHi > P2y; (1)

P2 a e o i и y

b 1 1 0 1 1 0 1

c 0 0 1 0 0 0 1

r 0 1 0 1 0 0 1

g 1 1 1 0 0 0 1

1 1 1 0 0 0 1

s 1 1 0 1 1 0 1

t 1 1 1 0 0 0 1

l 1 0 0 1 0 0 0

d 0 1 0 1 0 0 1

z 0 1 0 0 1 0 1

w 1 0 0 1 0 0 0

h 1 1 1 1 1 0 0

к 0 0 1 0 0 0 1

m 1 1 1 1 1 0 0

p 1 1 1 0 0 0 1

q 0 0 0 0 1 0 0

v 0 0 1 1 0 0 0

1 1 1 1 1 0 0

Функция g1(P2) после объединения букв в классы будет иметь следующий вид:

V1a~ P2a; Vi~ PH; V1o~ P2o; Vj ~ P2;

Vi~P2U; V1y~ Pi; V{~ Pi . (2)

На основании полученных формул (1), (2) составляем таблицу значений предиката S(U1,V1), представленную в табл. 3.

Таблица 3

X U, a e o i и y

b 1 1 0 1 1 0 1

c 0 0 1 0 0 0 1

r 0 1 0 1 0 0 1

g 1 1 1 0 0 0 1

l 1 0 0 1 0 0 0

h 1 1 1 1 1 0 0

z 0 1 0 0 1 0 1

q 0 0 0 0 1 0 0

v 0 0 1 1 0 0 0

134

РИ, 2002, № 1

Полученная табл. 3 значений предиката S(U1,V1) дальнейшему преобразованию не подлежит, так как в ней отсутствуют строки (столбцы), отличаю -щиеся одним элементом. Поэтому произведем импликативное разложение предиката S по переменным U1 и Vf.

ub > Vf V Vf V Vf V Vf V Vf;

Uf > Vf v Vf; Uf > Vf v V* v Vf;

Ug > Vа v Vf v V1° v Vf; uf > Vf v Vf;

U1 >Vа v Vf v Vf v Vf v Vf1;

u[ > Vff v Vff v Vf- ;Uf > Vf;

Uf > Vfo v Vf; Uf > Vfb v Vfg v Vf v Vf1;

Uf > Vf v Vf v Vfg v Vf1 v Vf;

U° > Vf v Vfg v Vf1 v Vfv;

Uf > Vfb v Vf v Vf v Vf v Vf;

Uf > Vfb v Vf1 v Vf v Vq;

U[ > Vfb v Vff v Vf v Vg v Vf.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Полученные соотношения можно реализовать схемно с помощью многополюсников, называемых элементами I и II рода. Элемент I рода реализует функцию эквивалентности и работает в соответствии с соотношением

/ ~ xff v xf2 v-v xfn .

При этом если на вход многополюсника подать сигнал xf =1, то на его выходе формируется ответный сигнал yb = 1;

если xf1 = xf2 = = xfn = 0, то yb =0,

если yb = 0, то x1a1 = xf2 = = x1an =0, при n = 1, если yb = 1, то xf = 1. (4)

Элемент второго рода реализует функцию импликации и действует в соответствии с соотношением

yb ^ xff v xf2 V---V xfn . (5)

При входном воздействии xf = x2a = = xna =0 выходной сигнал yb=0. При n = 1, если yb= 1, то xf =1. Используя элементы I и II рода, можно составить схему многополюсника, которая реализует отношение P1R1P2. При этом используется система уравнений (1)-(5). Номера элементов I и II рода на схеме соответствуют номерам уравнений, которые они реализуют. Аналогичным образом можно описать межбуквенные отношения на множествах значений остальных переменных лингви -стического регистра (P2P3,P3P4, P11P12). Полу-

ченные уравнения и их схемные реализации представляют собой математическую модель внутриморфемных отношений, заданных на множестве префиксальных морфем имен существительных немецкого языка, загруженных в лингвистический регистр сегментированных префиксов. Полученные модели могут быть использованы при разра-(3) ботке лингвистических подсистем информацион -ных систем самого разнообразного назначения, в первую очередь систем, которые принято называть интеллектуальными.

Литература: 1. Шабанов-Кушнаренко Ю.П. Теория интеллекта. Математические средства. Харьков: Вища шк., 1984. 144 с. 2. Словарь словообразовательных элементов немецкого языка /АН. Зуев. И.Д. Молчанова, Р.З. Мурясов и др. Под рук. М.Д. Степановой. М.: Изд-во Рус. яз. 1979. 536 с.

Поступила в редколлегию 03.10.2001

Рецензент: д-р техн. наук, проф. Годлевский М.Д.

Булкин Виталий Иванович, канд. техн. наук, доцент кафедры прикладной математики и информационных технологий Макеевского экономико-гуманитарного института. Адрес: Украина, 83000, Макеевка Донецкой обл., ул.Островского, 16, т/факс (06232) 6-35-59.

Шаронова Наталья Валерьевна, д-р техн. наук, профессор кафедры информационных технологий ХГИ “НУА”, проректор по научно-исследовательской работе. Адрес: Украина, 61000, Харьков, ул. Лермонтовская, 17, тел. 40-10-45; 40-10-09 (2-93).

Оробинская Елена Александровна, ст. преп. кафедры информационных технологий ХГИ “НУА”. Адрес: Украина, 61000, Харьков, ул. Лермонтовская, 17, тел. 40-10-09 (4-50).

РИ, 2002, № 1

135

Математическое моделирование межбуквенных отношений (на материале префиксальных морфем немецкого языка) Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Булкин Виталий Иванович, Шаронова Наталья Валерьевна, Оробинская Елена Александровна

Похожие темы научных работ по математике , автор научной работы — Булкин Виталий Иванович, Шаронова Наталья Валерьевна, Оробинская Елена Александровна

Mathematical Modeling the Binary Relations on Set of the Letters of German Prefixes

Текст научной работы на тему «Математическое моделирование межбуквенных отношений (на материале префиксальных морфем немецкого языка)»