УДК 519.673
МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ МЕЖБУКВЕННЫХ ОТНОШЕНИЙ (НА МАТЕРИАЛЕ ПРЕФИКСАЛЬНЫХ МОРФЕМ НЕМЕЦКОГО ЯЗЫКА)
БУЛКИН В.И., ШАРОНОВА Н.В., ОРОБИНСКАЯ Е. А
Рассматривается приложение алгебры конечных предикатов для описания межбуквенных отношений на множестве текстов префиксальных морфем. Делается вывод о возможности схемной реализации полученных соотношений и использовании данной модели в различных подсистемах интеллектуальных систем.
Для обеспечения эффективного функционирования таких информационных систем, какими являются системы машинного перевода, диалоговые, экспертные, где происходит обработка текстовой информации, необходимо сообщить системе исчерпывающие сведения о внутренней структуре различных единиц естественного языка: морфем, слов, словосочетаний и т.д. Данная работа посвящена созданию математических моделей префиксальных морфем имен существительных немецкого языка.
Целью исследования является математическое описание межбуквенных отношений на множестве текстов префиксальных морфем, загруженных для этого в специальную формальную конструкцию -лингвистический регистр сегментированных префиксов.
В качестве математического языка в работе используется универсальное средство для формального описания дискретных, детерминированных и конечных объектов и процессов - алгебра конечных предикатов [1]. В нашем случае таким объектом будет множество префиксальных морфем имен существительных немецкого языка, которое является объединением подмножеств собственно префиксов и так называемых полупрефиксов, выступающих в роли как самостоятельных слов, так и префиксальных морфем. Пусть Мр — множество префиксов, а Мрр — множество полупрефиксов, тогда множество префиксальных морфем Мрг имен существительных немецкого языка можно записать в виде: Мрг = Мр U Мрр.
Для использования средств алгебры конечных предикатов необходимо за каждым фрагментом текста морфемы закрепить строго фиксированное место. С этой целью применяется абстрактная математическая конструкция — лингвистический регистр, состоящий из двухбуквенных сегментов. Их структура, в свою очередь, отличается в зависимости от порядка следования гласных и согласных букв:
gs , g_ , _s , -на первом месте гласная, на втором
согласная (g — гласная, s — согласная, _ — знак
пробела), sg , _g , s_ , - на первом месте согласная,
на втором гласная.
Для автоматической загрузки текстов префиксальных морфем в лингвистический регистр сегментированных префиксов была разработана программа на языке Pascal, которая, кроме этой основной функции, проводит сравнительный анализ структур сегментов с тем, чтобы выявить оптимальную структуру с точки зрения минимума пробелов.
Анализ показал, что если лингвистический регистр состоит из сегментов первого типа, то при загрузке в него множества Мрг текстов префиксальных морфем количество пробелов, т.е. пропусков в лингвистическом регистре, на 48 процентов больше, чем при загрузке множества префиксальных морфем в регистр второго типа. Мощность множества префиксальных морфов, загруженных в лингвистический регистр, составляет 149. При этом лингвистический регистр, состоящий из сегментов первого типа ( gs ), содержал 241 пробел, а регистр второго типа ( sg ) — 162 пробела.
На основании проведенного анализа в качестве рабочего варианта целесообразно использовать лингвистический регистр, имеющий структуру сегментов sg. Их количество в регистре при этом равно шести.
Фрагмент лингвистического регистра сегментированных префиксов (ЛРСП) приведен в табл. 1 [2].
Таблица 1
a a
ab a b _
aber a b e r
ac a c
ad a d _
aero a e r o
affen a f_ f e n
ag a g _
Буквенные переменные ЛРСП обозначим Рщ, где i — номер сегмента, a j - номер буквы в сегменте (i= 1,6, j = 1,2). Для удобства записи уравнений переобозначим буквенные переменные следующим образом:
Р11 = Р1 ;Р12 = Р2 ’ Р21 = Р3 ;P22 = Р4 ;
Р31 = Р5 ’ Р32 = Р6 ;Р41 = Р7 ’ Р42 = Р8 ’
Р51 = Р9 ’ Р52 = Р10 ;Р61 = Р11 ;Р61 = Р12; .
Эти переменные имеют следующие области определения:
РИ, 2002, № 1
133
Таблица 2
Pi v P1b V P V P{ V Pg V Pj" V Pj* v Pi V P V
v P/ v Pf v P/ v P* v P/ v Pf v P/ v P/ = 1 ;
P2a v P2 V P2° v P2 v P2“ v Py v P2“ = 1 ;
P3b v P3c v P3f v P3r v P3g v P3" v P3s v P3 V v P3l v P3d v P3z v P3w v P3k v P3m v P3x v P3p v P“ = 1 ; Pa V Pe V P4° V P4 V PU V P4y V P4- = 1;
P5b V P5c V P5f V P5r V Pg V P ” V P5* V P5 v P5c V
5 v * 5 v * 5
v P5d v P5z v P5w v Ph v P5m v P5p v P5v v P5- = 1;
5V.I5V.I5V.I5V.
P^ V Pm V PP V P5v V P“
P6a V Pi V Pi V P6 V Pi V P6- = 1;
P7c v P7r v P7s v P7 v P7l v P7d v P7z v P7h v Pk v Pf = 1;
P8a v P8e v P8° v P8' v P8“ v P8 = 1;
P" v P9s v P9 v P9h v P9- = 1;
P0 v P10 = 1; Pi v Pn = 1; P12 = 1;.
На множествах значений переменных букв лингвистического регистра существуют отношения, которые можно описать с помощью алгебры конечных предикатов. Пусть бинарное отношение на множествах значений буквенных переменных P1 и Р2 имеет вид P1R^1P2. Это отношение можно описать с помощью конечного предиката R^1(P1,P2), тогда этот факт можно представить в следующем виде:
Ri(Pi,P2)=S(f1(P1),g1(P2)),
где Ui= fi(Pj) и V1=g1(P2) — функции, объединяющие значения переменных P1 и P2 в классы эквивалентности. Предикат S(U1y V1) описывает бинарное отношение на множествах значений классов эквивалентности U1 и V1. Для объединения букв в классы эквивалентности производится склеивание строк и столбцов таблицы значений предиката R1(P1,P2). При этом строки (столбцы) одинакового состава заменяются одной строкой (столбцом) того же состава. Кроме того, примем следующее допущение. В случае, когда строки (столбцы) таблицы значений предиката отличаются одним элементом, можно ввести условную единицу (1) или условный ноль (0) в определенную ячейку таблицы, чтобы объединить эти строки (столбцы) в классы эквивалентности. При этом вводятся (исключаются) некоторые связи между буквенными переменными P1 и P2. В дальнейшем введение (исключение) этих связей компенсируется соответствующими дополнительными уравнениями. Значения предиката R1(P1,P2) приведены в табл. 2.
Функция f1(P1)посяе объединения букв в классы эквивалентности будет иметь следующий вид:
Ub~Pi v Pi;Ui~Pi v Plk;Ui~Plr v Pjd;Uf ~Plg v P" v P v P p; U*~P v P ";U h~P h v P m v Pi;U 1 ~P z ;Uq~P q;UpP v;
Pi > P;P > Pi;Pt > PHi > P2y; (1)
P2 a e o i и y
b 1 1 0 1 1 0 1
c 0 0 1 0 0 0 1
r 0 1 0 1 0 0 1
g 1 1 1 0 0 0 1
1 1 1 0 0 0 1
s 1 1 0 1 1 0 1
t 1 1 1 0 0 0 1
l 1 0 0 1 0 0 0
d 0 1 0 1 0 0 1
z 0 1 0 0 1 0 1
w 1 0 0 1 0 0 0
h 1 1 1 1 1 0 0
к 0 0 1 0 0 0 1
m 1 1 1 1 1 0 0
p 1 1 1 0 0 0 1
q 0 0 0 0 1 0 0
v 0 0 1 1 0 0 0
1 1 1 1 1 0 0
Функция g1(P2) после объединения букв в классы будет иметь следующий вид:
V1a~ P2a; Vi~ PH; V1o~ P2o; Vj ~ P2;
Vi~P2U; V1y~ Pi; V{~ Pi . (2)
На основании полученных формул (1), (2) составляем таблицу значений предиката S(U1,V1), представленную в табл. 3.
Таблица 3
X U, a e o i и y
b 1 1 0 1 1 0 1
c 0 0 1 0 0 0 1
r 0 1 0 1 0 0 1
g 1 1 1 0 0 0 1
l 1 0 0 1 0 0 0
h 1 1 1 1 1 0 0
z 0 1 0 0 1 0 1
q 0 0 0 0 1 0 0
v 0 0 1 1 0 0 0
134
РИ, 2002, № 1
Полученная табл. 3 значений предиката S(U1,V1) дальнейшему преобразованию не подлежит, так как в ней отсутствуют строки (столбцы), отличаю -щиеся одним элементом. Поэтому произведем импликативное разложение предиката S по переменным U1 и Vf.
ub > Vf V Vf V Vf V Vf V Vf;
Uf > Vf v Vf; Uf > Vf v V* v Vf;
Ug > Vа v Vf v V1° v Vf; uf > Vf v Vf;
U1 >Vа v Vf v Vf v Vf v Vf1;
u[ > Vff v Vff v Vf- ;Uf > Vf;
Uf > Vfo v Vf; Uf > Vfb v Vfg v Vf v Vf1;
Uf > Vf v Vf v Vfg v Vf1 v Vf;
U° > Vf v Vfg v Vf1 v Vfv;
Uf > Vfb v Vf v Vf v Vf v Vf;
Uf > Vfb v Vf1 v Vf v Vq;
U[ > Vfb v Vff v Vf v Vg v Vf.
Полученные соотношения можно реализовать схемно с помощью многополюсников, называемых элементами I и II рода. Элемент I рода реализует функцию эквивалентности и работает в соответствии с соотношением
/ ~ xff v xf2 v-v xfn .
При этом если на вход многополюсника подать сигнал xf =1, то на его выходе формируется ответный сигнал yb = 1;
если xf1 = xf2 = = xfn = 0, то yb =0,
если yb = 0, то x1a1 = xf2 = = x1an =0, при n = 1, если yb = 1, то xf = 1. (4)
Элемент второго рода реализует функцию импликации и действует в соответствии с соотношением
yb ^ xff v xf2 V---V xfn . (5)
При входном воздействии xf = x2a = = xna =0 выходной сигнал yb=0. При n = 1, если yb= 1, то xf =1. Используя элементы I и II рода, можно составить схему многополюсника, которая реализует отношение P1R1P2. При этом используется система уравнений (1)-(5). Номера элементов I и II рода на схеме соответствуют номерам уравнений, которые они реализуют. Аналогичным образом можно описать межбуквенные отношения на множествах значений остальных переменных лингви -стического регистра (P2P3,P3P4, P11P12). Полу-
ченные уравнения и их схемные реализации представляют собой математическую модель внутриморфемных отношений, заданных на множестве префиксальных морфем имен существительных немецкого языка, загруженных в лингвистический регистр сегментированных префиксов. Полученные модели могут быть использованы при разра-(3) ботке лингвистических подсистем информацион -ных систем самого разнообразного назначения, в первую очередь систем, которые принято называть интеллектуальными.
Литература: 1. Шабанов-Кушнаренко Ю.П. Теория интеллекта. Математические средства. Харьков: Вища шк., 1984. 144 с. 2. Словарь словообразовательных элементов немецкого языка /АН. Зуев. И.Д. Молчанова, Р.З. Мурясов и др. Под рук. М.Д. Степановой. М.: Изд-во Рус. яз. 1979. 536 с.
Поступила в редколлегию 03.10.2001
Рецензент: д-р техн. наук, проф. Годлевский М.Д.
Булкин Виталий Иванович, канд. техн. наук, доцент кафедры прикладной математики и информационных технологий Макеевского экономико-гуманитарного института. Адрес: Украина, 83000, Макеевка Донецкой обл., ул.Островского, 16, т/факс (06232) 6-35-59.
Шаронова Наталья Валерьевна, д-р техн. наук, профессор кафедры информационных технологий ХГИ “НУА”, проректор по научно-исследовательской работе. Адрес: Украина, 61000, Харьков, ул. Лермонтовская, 17, тел. 40-10-45; 40-10-09 (2-93).
Оробинская Елена Александровна, ст. преп. кафедры информационных технологий ХГИ “НУА”. Адрес: Украина, 61000, Харьков, ул. Лермонтовская, 17, тел. 40-10-09 (4-50).
РИ, 2002, № 1
135