Научная статья на тему 'Связь отношений толерантности и эквивалентности в метатекстовых информационноаналитических системах'

Связь отношений толерантности и эквивалентности в метатекстовых информационноаналитических системах Текст научной статьи по специальности «Математика»

CC BY
187
37
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Луганский Александр Михайлович, Машталир Владимир Петрович, Шляхов Владислав Викторович

Рассматриваются вопросы моделирования связи метатекстовых конструкций в интерактивных информационных системах. Внимание фокусируется на трансформации композиций отношений толерантности в эквивалентность. Формулируются и доказываются необходимые и достаточные условия продуцирования отношения эквивалентности пересечением произвольного числа отношений толерантности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Dependence of tolerance and equivalence relations in metatext informational and analytical systems

Problems of metatext constructions intercoupling simulation in interactive information systems are considered. The attention is focused on transformation of tolerance relations combinations to equivalence. Necessary and sufficient conditions of an equivalence relation producing by means of arbitrary number of tolerance relations intersection have been formulated and proved.

Текст научной работы на тему «Связь отношений толерантности и эквивалентности в метатекстовых информационноаналитических системах»

КОМПЬЮТЕРНЫЕ^

УДК 519.711.3:519.68

СВЯЗЬ ОТНОШЕНИЙ ТОЛЕРАНТНОСТИ И ЭКВИВАЛЕНТНОСТИ В МЕТАТЕКСТОВЫХ ИНФОРМАЦИОННОАНАЛИТИЧЕСКИХ СИСТЕМАХ

ЛУГАНСКИЙА.М., МАШТАЛИР В.П.,

ШЛЯХОВ В.В._____________________________

Рассматриваются вопросы моделирования связи метатекстовых конструкций в интерактивных информационных системах. Внимание фокусируется на трансформации композиций отношений толерантности в эквивалентность. Формулируются и доказываются необходимые и достаточные условия продуцирования отношения эквивалентности пересечением произвольного числа отношений толерантности.

Введение

В концептуальном и прикладном аспектах парадигма метатекстового анализа и синтеза информацион -ных ресурсов играет достаточно заметную роль в развитии интерактивного и коммуникативного сервиса. Трактуя метатекст как ориентированную на пользователя устойчивую систему адаптации содержательных аспектов текстовой информации в контексте его онтологического, социального, индивидуального опыта, профессиональных навыков, приходим к необходимости некоторой унификации стратифицированного анализа. На текущем уровне понимания основными компонентами метатекста являются: оглавление, аннотация (реферат), рецензия, дискуссия, цитирование, индексированные списки по ключевым словам, контекстные связи с другими текстами, знание-ориентированная семантическая метамодель содержания, объектно-агентная ориентировочная схема, спецификация контрактов с другими метатекстами, позиционирование в классификационных схемах [1, 2]. Таким образом, метатекст представляется некоторым множеством разнородных объектов — признаков, в том числе в номинальных, дихотомических, порядковых, интервальных и пропорциональных шкалах.

Учитывая потенциальную контралатеральность локальных и глобальных условий принятия решений, следует выделить основные требования к характеристикам метатекстов. С одной стороны, на множестве всех допустимых признаков необходимо искать семейство достаточных признаков, а на нем — класс необходимых, т.е. множество характе-

ристических свойств метатекстов, имеющих минимальную (в широком смысле) сложность и адекватно представляющих декларативные данные. С другой стороны, в критериях информативности признаков целесообразно учитывать не только величину потерь информации, но и информационную эффективность — некоторый функционал от дисбаланса получаемой «полезности» и требуемых «затрат».

Исходя из теоретических предпосылок, практических возможностей и конечных целей, можно пре-лиминарно определить признаковые пространства множеств метатекстов. Вместе с тем реляционные свойства признаков трансформируются не только от задачи к задаче, но и при использовании всевозможных процедур деривационного типа. В связи с этим важное значение имеет автоматический динамический анализ свойств бинарных отно -шений и их семейств.

Состояние вопроса исследований и цель работы

В силу простоты и удобства задания в качестве базового свойства взаимосвязи элементов метатекстов часто выступает отношение толерантности [3,4]. Традиционной и естественной экспликацией математического понятия «толерантность» является интерпретация интуитивного понятия сходства. Действительно, из свойства рефлексивности следует, что любой объект неразличим сам с собой, из симметричности — объекты различимы или нет независимо от порядка сравнения. Однако возникающие покрытия множеств признаков малоконструктивны с практической точки зрения. Более того, даже при выделении базисных классов толерантности не исключены ситуации поэлементной классификационной обработки всего множества признаков. Очевидно, что переход к разбиениям, т.е. отношениям эквивалентности, трактуемым как «обобщенное равенство», принципиально сокращает комбинаторную емкость решения задач установления соответствия некоторого запроса и представителя эталонных декларативных данных [5]. Но сложность или даже невозможность задания a priori хотя бы достаточного семейства отношений эквивалентности, имеющих к тому же способность изменяться в процессе последовательного анализа, приводит к принципиальным сложностям формализации схем принятия решения. Возникающая при этом потребность перехода к классам эквивалентности, вообще говоря, определяется различными факторами: влиянием целей и путей тематической интерпретации результатов анализа, вариациями способов задания метатекстов, наличием значимого количества потенциально приемлемых подходов, методов и алгоритмов их обработки [6].

Отношения толерантности могут задаваться различными способами. Пусть M={х;};”1 — множество метатекстов, каждый элемент которого, в свою очередь, представляется семействами характеристических свойств xj^xk}^™!. Наконец, xk — также может быть некоторым множеством, в частности, списком xk=(ab a2, ■■■, aik). Наиболее простой вид

109

РИ, 2004, № 1

задания отношения T с xj х xj толерантности двух метатекстов связан с существованием у них общих элементов, т.е. х; П xj ф 0 . Естественным обобщением является условие наличия нескольких совпадающих признаков: card (х; П xj) > p, p < m . Далее, если ввести двоичные кортежи x; ^ , §2, • • •, Qm) , в которых , k= 1, m принимает значение «1», если соответствующий признак имеется в метатексте и «0» в противном случае, то множество толерантно xj, когда Зі є Lc {1, 2,..,m} : Д=|, т.е. совпадают признаки из заданного подмножества. При анализе троичных кортежей (Ц, §2, §m), в

которых = -1, когда о k -м признаке метатекста ничего не известно* \ можно использовать метрические свойства: два метатекста толерантны, если

p(f«^i, ^,...,4 > ),f«^i, 4-,d >)) ^

где p(y) — некоторая метрика, а в общем случае — мера близости; є — наперед заданный порог; f — инъекция m -мерного признакового пространства в R1. Так, если &i — число случаев принадлежности (возможно с точностью до заданной величины) метатекстам xj и xj одинаковых признаков; &2 — количество случаев, когда метатексты xj и xj не имеют одинаковых признаков; % — число ситуаций, в которых метатекст xj не имеет признаков, присущих xj; S4 — количество случаев, когда вектор xj не имеет признаков, свойственных xj, то можно указать модифицированные (не обязательно используются одни и те же признаки) метрики или коэффициенты сходства [7—10]:

Кульжинского

p(xj, xj)=($i + &2)/m, p(xj, xj)=( V(Si+S3)+ V(^1 + S4))/2 ,

P(xb xj)= &і/-^(S 1 + &3)(S 1 + &4) ;

Рассела и Рао

P(xj, xj)= -ф/m;

Хаммана

Жакара и Нидмана

p(xj, xj)= ф/m;

Юла

p(xj, xj)=(S1&2-&3&4)/(&1&2-S3S4) .

Применение различныых метрик обусловлено не -обходимостью задания при принятии решений различных весов данным. Например, коэффициент Дейка удваивает значение совпадающих признаков, первая метрика Кульжинского указывает на равнозначность совпадения и несовпадения признаков и т.д. Следует указать, что в самом общем виде любое всюду определенное соответствие Ф :X ^ Y продуцирует отношение толерантности:

два элемента из X толерантны, если пересечение их образов не пустое множество [11].

Таким образом, цель работы — изучение связей эквивалентностей и толерантностей.

Постановка задачи

Рассмотрим пример, когда для композиции отношений толерантности выполняется свойство транзитивности. Пусть на множестве M={x, y, z, u} заданы следующие отношения толерантности:

T1={(x, z); (x, u); (y, z); (y, u)};

T2={(x, y); (x, z);(y, u)};

T3={(x, y, z); (x, z); (y, u)} .

Как легко видеть, объединение этих отношений— полное, транзитивное замыкание [8] каждого из них продуцирует тривиальную (несущественную) эквивалентность. Если бы произведение толерантностей являлось эквивалентностью, то это означало бы, что компоненты метатекстов заданы с существенной избыточностью, т.е. имеются признаки, «поглощающие» другие характеристики. Вместе с тем на рисунке показано пересечение толерантностей, в результате которого получаем три класса эквиалентности {x, z}, {y} , {u} . Следовательно, одна из задач заключается в поиске условий, при которых пересечение толерантностей трансформируется в отношение эквивалентности.

p(x;, xj)=( S 1+Й2 - % - ЗД/m ;

Джакарта

p(x;, xj)= -Э1ДЙ1--Э3 --Э4);

Дейка

p(xj,xj)=2V(231 -S3-S4); Сокаля и Снифа

p(x;,xj)= V(S1-2S3-S4);

*) Такая ситуация весьма типична для частично определенных запросов в задачах классификационного анализа и при неполностью определенных прототипах при синтезе информационных структур.

Пример трансформации пересечения толерантностей в эквивалентность

110

РИ, 2004, № 1

Условия трансформации толерантностей в эквивалентность

Рассмотрим множество произвольной природы M , на декартовом квадрате M 2 которого задан набор {Tk}kni бинарных отношений толерантности. Применительно к произвольному отношению T будем говорить: Vx, у є M справедливо xty или xTy , если отношение t є T выполняется, и (x, у) g T , если не выполняется. Под пересечением двух отношений R, P будем понимать: xR П Py ^ xRy, хфу .

Нетрудно заметить, что свойство толерантности инвариантно относительно операции пересечения отношений. Действительно, непосредственно из определения вытекает рефлексивность: если Vx є M выполнены соотношения xRx и xPx , то выполнено и xR П Px. Далее, пусть отношения R, P симметричны. Учитывая, что произвольное отношение R симметрично тогда и только тогда, когда R=R-1, где R-1 — обратное отношение, т.е. xR-1у равносильно yRx [12], предположим, что выполнено отношение x(R П P)-1y . Очевидно, тогда выполнено отношение y(R П P)x, т.е. одновременно выполняются отношения yRx и yPx или, что равносильно, xR-1y и xP-1y . Следовательно, (R П P)-1=R-1П P-1, но тогда в силу симметричности отношений R и P имеем (R П P)-1 = R П P, что и означает инвариантность симметричности отношений относительно пересечения. Таким образом, необходимо ответить на вопрос: какие условия обеспечивают выполнение отношения транзитивно -сти на пересечении отношений толерантности?

Обозначим множество отношений эквивалентности через C . Предположим, что на множестве M задано N отношений толерантности Tk . Зафиксируем произвольное значение k є {1, 2,..., N} и введем в рассмотрение следующие множества:

Lk={(x, y, z) є M3 : xTkZ, yTkZ, <x,y)g Tk},|

Nk={(x, y, z) є M3 : xTkZ, yTkz}J (1)

где m3 — декартов куб множества M . Обозначим

L=U kN1 Lk, N=П kN1 nJ

6=L П N, T=П kN1 Tk.J (2)

Теорема 1. Необходимым и достаточным условием эквивалентности пересечения произвольного числа отношений толерантности является пустота множества 6, т.е. T с C ^ 6=0 .

Доказательство. Рассмотрим необходимость. Пусть T — отношение эквивалентности. Допустим, что 6=L П N ^ 0 , следовательно, найдется тройка (x, y, z) є M3 такая, что (x, y, z) є L и (x, y, z) є N . Тогда из (2) вытекает справедливость импликаций:

Vk : k є {1,2, ...,N} ^ (x, y, z) є Nk , (3)

3l : l є {1,2,..., N} ^ (x, y, z) є Lj. (4)

С учетом определений (1) из (3) получаем выполнение отношений xTkz, yTkz при любом значении

k є {1, 2,..., N}, а из (4) находим, что (x, y) g Tj. Но тогда из определения пересечения отношений следует xTz, yTz, (x, y) g T, что противоречит транзитивности отношения T и нарушает посылку об эквивалентности отношения T . Таким образом, 6=0 , что и требовалось.

Для доказательства достаточности предположим, что 6=0 , но отношение T — не эквивалентность. Это означает существование тройки (x, y, z) є M3 , на которой нарушается транзитивность пересечения отношений толерантности. Покажем, что в этом случае данная тройка принадлежит 6.

Действительно, если отношение T не транзитивно, то 3 (x, y, z) є M3, для которой

xTz, yTz , (5)

< x, y> г T. (6)

Но из определения пересечения отношений и (5) следует, что xTkz, yTkz при любом k є {1, 2,..., N}, т.е. (x, y, z) є ПkNN1 Nk=N . С другой стороны, (6) означает, что для некоторого номера l є {1, 2,..., N} имеет место (x, y) г Ti, т.е. (x, y, z) є Li c L=Uk^Lk . В итоге получаем (x, y, z) є L П N=6, следовательно, 6 ^0 , что противоречит исходной посылке. Тем самым, отношение T транзитивно, а окончательно — оно является эквивалентностью, что и требовалось доказать.

Замечание. Из условий формирования множеств Lk и Nk непосредственно следует, что для проверки необходимого и достаточного условий эквивалентности выбирается не более половины всех комбинаций троек, так как в рассмотрение принимаются только элементы, имеющие «предпосылки» существования транзитивности. Более того, множества Lk состоят из троек с различными элементами. Действительно, если предположить, что два элемента множества Lk совпадают, то x ф y , поскольку (x, y) g Tk. Но тогда x = z и, следовательно, (y, z) g Tk , что противоречит (1). Таким образом, все множество L состоит из различных троек. Ясно, что и в множествах Nk можно также учитывать только тройки из различных элементов, поскольку в теореме 1 фигурирует условие L П N=0, а N=П kN Nk . Наконец, в качестве практически важного довода в пользу анализа несовпадающих элементов троек выступает поиск существенной (не тривиальной—одноэлементной) эквивалентности.

Следует подчеркнуть, что существуют более простые (но не совпадающие) условия необходимости и достаточности эквивалентности отношения, представленного пересечением произвольного числа отношений толерантности. Например, если N=0 , то этого достаточно, чтобы T с C, поскольку 6 с N. В свою очередь, пустота множества N=H kN1Nk вытекает из пустоты множества Nj для какого-то номера l є {1, 2,..., N} .

РИ, 2004, № 1

111

С другой стороны, нетрудно указать более простое по сравнению с утверждением теоремы 1 необходимое условие. Рассмотрим множество £*=Пk=iLk • Если Т с C, т.е. свойство транзитивности выполняется, то £*=0 • В противном случае, если найдется тройка (x, y, z) є L*, то из (1) будет следовать xTkZ, yTkz, (x, y) g Tk, что противоречит транзитивности. Приведенные рассуждения позволяют сформулировать теорему.

Теорема 2. Для того чтобы пересечение произвольного числа любых отношений толерантности было эквивалентностью, необходима пустота множества L * и достаточна пустота хотя бы одного из множеств Nk , т.е. Т с C ^ L*=0 , если Зі є {1,2,N} : N[=0 ^ Т с C .

Условия теоремы 2 в ряде практических задач могут оказаться более удобными с точки зрения их программной реализации.

Обратимся теперь к примеру, рассмотренному выше. В таблице сведены все отношения толерантности.

Пример отношений толерантности

M x y z u

x T1, T2, Т 3 Т 2, Т 3 Т1, Т 2, Т 3 Т1

y T2, Тз Т1, Т 2, Т 3 Т1, Т 3 Т1, Т2,

z Т1, Т2, Т 3 Т1, Т 3 Т1, Т 2, Т 3 Т3

u Т1 Т1, Т2, Т 3 Т1, Т 2, Т 3

Сформируем множества Lk, Nk, k = 1,2,3. Очевидно,

Li={(z, u, x); (u, z, x); (x, y, z); (y, x, z);

(x, y, u); (y, x, u); (z, u, y); (u, z, y)},

L2={(y, z, x); (z, y, x); (x, u, y); (u, x, y)},

L3={(x, u, z); (u, x, z); (y, u, z); (u, y, z)} .

Для упрощения построения множеств Nk введем в рассмотрение вспомогательные множества

Nk={(x, y, z) є M3 : xTkz, yTkz, xTky} -

Ясно, что NkП Lk=0 , Nk=Nk U Lk . Как следует из замечания к теореме 1, в Nk или, что равносильно, N k можно рассматривать только различные элементы, т.е. N1 = N2 = 0 и N1=L1, N2=L2 . Наконец,

N3={(x, y, z); (y, x, z); (x, z, y);

(z, x, y); (y, z, x); (z, y, x)}.

В данном примере N1П N 2 = L1П L2 = 0 , следовательно, N П L = 0, т.е. пересечение отношений толерантности представляет собой отношение эквивалентности.

Выводы и перспективы

Сформулированы и доказаны необходимые и дос -таточные условия, при которых суперпозиция отношений толерантности трансформируется в эквивалентность. С практической точки зрения в информационно-поисковых системах эти свойства создают предпосылки для синтеза систем прелиминарной обработки больших объемов текстовой информации, более точно — для кластеризации

112

данных в метатекстовых пространствах. При этом локально или глобально покрытия (слабая кластеризация), индуцируемые различными подмножествами толерантностей, могут трансформироваться в разбиения (строгая кластеризация). В результате достигается сокращение комбинаторной сложности решения аналитических и поисковых задач. Для дальнейшего развития обсуждаемого подхода необходимо изучение методов и алгоритмов построения упорядоченных по вложению классов толерантностей и эквивалентностей в конкретизированных метатекстовых пространствах.

В заключение отметим, что при иерархическом (монотетическом, политетическом или смешанном) анализе метатекстовых информационных структур отношения толерантности наряду с отношениями эквивалентности могут эффективно использоваться не только для обработки объектов на отдельных стратах, но и для учета связей между классификационными рубриками.

Литература: 1. Yang Y., Pedersen J.O. A comparative study on feature selection in text categorization // Proc. of 14th Int. Conf. on Machine Learning (ICML-97) / D.H.Fisher (ed.).— San Francisco: Morgan Kaufmann Publishers, 1997. P.412—420. 2. Орлов ПИ, Луганский A.M., Марков В.И. Информационная система «Университет». Харьков: НУВД, 1999. 92с. 3. Skowron A., Stepaniuk J. Tolerance approximation spaces // Fundamenta Informaticae. 1996. Vol.27, No.2,3. P.245—253. 4. Marcus S. Tolerance rough sets, cech topologies, learning process // Bul.of the Polish Academy of Technical Sciences. 1994. Vol.42, No.3. P.471— 487. 5. Sakaiand H, Okuma A. An algorithm for finding equivalence relations from tables with non-deterministic information // Lecture Notes on Artificial Intelligence. 1999. Vol.1711. P.64—72. 6. Машталир В.П. Точечномножественные методы в задачах обработки информации. Харьков: Бизнес Информ, 2001. 199с. 7. Фор A. Восприятие и распознавание образов. М.: Машиностроение, 1989. 272 с. 8. Korenjak-nerne S. Adapted methods for clustering large datasets of mixed units// Informatica: An International Journal of Computing and Informatics. 1999.Vol. 23, №4. P.507—511. 9. Baeza-Yates R., Navarro G. Faster approximate string matching // Algorithmica. 1999. Vol.23, №2. P.127-158. 10. Bunke H. Structural and syntactic pattern recognition // Handbook of Pattern Recognition and Computer Vision / ChenC.H., PauL.F. and WangP.S.P.(eds.). Singapore — New Jersey— London — Hong Kong: World Scientific Publishing Co. Pte. Ltd., 1995. P.163—209. 11. Мальцев АИ. Алгебраические системы. М.: Наука, 1970. 392с. 12. Макаров И.М., Виноградская Т.М., Рубчинский A.A., Соколов В.Б. Теория выбора и принятия решений. М.: Наука, 1982. 328 с.

Поступила в редколлегию 24.12.2003

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рецензент: д-р техн. наук, проф. Бодянский Е.В.

Луганский Александр Михайлович, начальник научноисследовательского информационно-компьютерного центра Национального университета внутренних дел. Научные интересы: разработка информационно-управляющих систем. Адрес: Украина, 61080, Харьков, пр. 50-летия СССР, 27, тел. 50-31-43. E-mail: [email protected].

Машталир Владимир Петрович, д-р техн. наук, ст. науч. сотр., профессор кафедры информатики ХНУ-РЭ. Научные интересы: распознавание образов. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 7021— 419, e-mail: [email protected].

Шляхов Владислав Викторович, канд. техн. наук, доцент, ведущий научный сотрудник кафедры ПО ЭВМ ХНУРЭ. Научные интересы: алгебраические структуры, искусственный интеллект. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 7021—446.

РИ, 2004, № 1

i Надоели баннеры? Вы всегда можете отключить рекламу.