КОМПЬЮТЕРНЫЕ^
УДК 519.711.3:519.68
СВЯЗЬ ОТНОШЕНИЙ ТОЛЕРАНТНОСТИ И ЭКВИВАЛЕНТНОСТИ В МЕТАТЕКСТОВЫХ ИНФОРМАЦИОННОАНАЛИТИЧЕСКИХ СИСТЕМАХ
ЛУГАНСКИЙА.М., МАШТАЛИР В.П.,
ШЛЯХОВ В.В._____________________________
Рассматриваются вопросы моделирования связи метатекстовых конструкций в интерактивных информационных системах. Внимание фокусируется на трансформации композиций отношений толерантности в эквивалентность. Формулируются и доказываются необходимые и достаточные условия продуцирования отношения эквивалентности пересечением произвольного числа отношений толерантности.
Введение
В концептуальном и прикладном аспектах парадигма метатекстового анализа и синтеза информацион -ных ресурсов играет достаточно заметную роль в развитии интерактивного и коммуникативного сервиса. Трактуя метатекст как ориентированную на пользователя устойчивую систему адаптации содержательных аспектов текстовой информации в контексте его онтологического, социального, индивидуального опыта, профессиональных навыков, приходим к необходимости некоторой унификации стратифицированного анализа. На текущем уровне понимания основными компонентами метатекста являются: оглавление, аннотация (реферат), рецензия, дискуссия, цитирование, индексированные списки по ключевым словам, контекстные связи с другими текстами, знание-ориентированная семантическая метамодель содержания, объектно-агентная ориентировочная схема, спецификация контрактов с другими метатекстами, позиционирование в классификационных схемах [1, 2]. Таким образом, метатекст представляется некоторым множеством разнородных объектов — признаков, в том числе в номинальных, дихотомических, порядковых, интервальных и пропорциональных шкалах.
Учитывая потенциальную контралатеральность локальных и глобальных условий принятия решений, следует выделить основные требования к характеристикам метатекстов. С одной стороны, на множестве всех допустимых признаков необходимо искать семейство достаточных признаков, а на нем — класс необходимых, т.е. множество характе-
ристических свойств метатекстов, имеющих минимальную (в широком смысле) сложность и адекватно представляющих декларативные данные. С другой стороны, в критериях информативности признаков целесообразно учитывать не только величину потерь информации, но и информационную эффективность — некоторый функционал от дисбаланса получаемой «полезности» и требуемых «затрат».
Исходя из теоретических предпосылок, практических возможностей и конечных целей, можно пре-лиминарно определить признаковые пространства множеств метатекстов. Вместе с тем реляционные свойства признаков трансформируются не только от задачи к задаче, но и при использовании всевозможных процедур деривационного типа. В связи с этим важное значение имеет автоматический динамический анализ свойств бинарных отно -шений и их семейств.
Состояние вопроса исследований и цель работы
В силу простоты и удобства задания в качестве базового свойства взаимосвязи элементов метатекстов часто выступает отношение толерантности [3,4]. Традиционной и естественной экспликацией математического понятия «толерантность» является интерпретация интуитивного понятия сходства. Действительно, из свойства рефлексивности следует, что любой объект неразличим сам с собой, из симметричности — объекты различимы или нет независимо от порядка сравнения. Однако возникающие покрытия множеств признаков малоконструктивны с практической точки зрения. Более того, даже при выделении базисных классов толерантности не исключены ситуации поэлементной классификационной обработки всего множества признаков. Очевидно, что переход к разбиениям, т.е. отношениям эквивалентности, трактуемым как «обобщенное равенство», принципиально сокращает комбинаторную емкость решения задач установления соответствия некоторого запроса и представителя эталонных декларативных данных [5]. Но сложность или даже невозможность задания a priori хотя бы достаточного семейства отношений эквивалентности, имеющих к тому же способность изменяться в процессе последовательного анализа, приводит к принципиальным сложностям формализации схем принятия решения. Возникающая при этом потребность перехода к классам эквивалентности, вообще говоря, определяется различными факторами: влиянием целей и путей тематической интерпретации результатов анализа, вариациями способов задания метатекстов, наличием значимого количества потенциально приемлемых подходов, методов и алгоритмов их обработки [6].
Отношения толерантности могут задаваться различными способами. Пусть M={х;};”1 — множество метатекстов, каждый элемент которого, в свою очередь, представляется семействами характеристических свойств xj^xk}^™!. Наконец, xk — также может быть некоторым множеством, в частности, списком xk=(ab a2, ■■■, aik). Наиболее простой вид
109
РИ, 2004, № 1
задания отношения T с xj х xj толерантности двух метатекстов связан с существованием у них общих элементов, т.е. х; П xj ф 0 . Естественным обобщением является условие наличия нескольких совпадающих признаков: card (х; П xj) > p, p < m . Далее, если ввести двоичные кортежи x; ^ , §2, • • •, Qm) , в которых , k= 1, m принимает значение «1», если соответствующий признак имеется в метатексте и «0» в противном случае, то множество толерантно xj, когда Зі є Lc {1, 2,..,m} : Д=|, т.е. совпадают признаки из заданного подмножества. При анализе троичных кортежей (Ц, §2, §m), в
которых = -1, когда о k -м признаке метатекста ничего не известно* \ можно использовать метрические свойства: два метатекста толерантны, если
p(f«^i, ^,...,4 > ),f«^i, 4-,d >)) ^
где p(y) — некоторая метрика, а в общем случае — мера близости; є — наперед заданный порог; f — инъекция m -мерного признакового пространства в R1. Так, если &i — число случаев принадлежности (возможно с точностью до заданной величины) метатекстам xj и xj одинаковых признаков; &2 — количество случаев, когда метатексты xj и xj не имеют одинаковых признаков; % — число ситуаций, в которых метатекст xj не имеет признаков, присущих xj; S4 — количество случаев, когда вектор xj не имеет признаков, свойственных xj, то можно указать модифицированные (не обязательно используются одни и те же признаки) метрики или коэффициенты сходства [7—10]:
Кульжинского
p(xj, xj)=($i + &2)/m, p(xj, xj)=( V(Si+S3)+ V(^1 + S4))/2 ,
P(xb xj)= &і/-^(S 1 + &3)(S 1 + &4) ;
Рассела и Рао
P(xj, xj)= -ф/m;
Хаммана
Жакара и Нидмана
p(xj, xj)= ф/m;
Юла
p(xj, xj)=(S1&2-&3&4)/(&1&2-S3S4) .
Применение различныых метрик обусловлено не -обходимостью задания при принятии решений различных весов данным. Например, коэффициент Дейка удваивает значение совпадающих признаков, первая метрика Кульжинского указывает на равнозначность совпадения и несовпадения признаков и т.д. Следует указать, что в самом общем виде любое всюду определенное соответствие Ф :X ^ Y продуцирует отношение толерантности:
два элемента из X толерантны, если пересечение их образов не пустое множество [11].
Таким образом, цель работы — изучение связей эквивалентностей и толерантностей.
Постановка задачи
Рассмотрим пример, когда для композиции отношений толерантности выполняется свойство транзитивности. Пусть на множестве M={x, y, z, u} заданы следующие отношения толерантности:
T1={(x, z); (x, u); (y, z); (y, u)};
T2={(x, y); (x, z);(y, u)};
T3={(x, y, z); (x, z); (y, u)} .
Как легко видеть, объединение этих отношений— полное, транзитивное замыкание [8] каждого из них продуцирует тривиальную (несущественную) эквивалентность. Если бы произведение толерантностей являлось эквивалентностью, то это означало бы, что компоненты метатекстов заданы с существенной избыточностью, т.е. имеются признаки, «поглощающие» другие характеристики. Вместе с тем на рисунке показано пересечение толерантностей, в результате которого получаем три класса эквиалентности {x, z}, {y} , {u} . Следовательно, одна из задач заключается в поиске условий, при которых пересечение толерантностей трансформируется в отношение эквивалентности.
p(x;, xj)=( S 1+Й2 - % - ЗД/m ;
Джакарта
p(x;, xj)= -Э1ДЙ1--Э3 --Э4);
Дейка
p(xj,xj)=2V(231 -S3-S4); Сокаля и Снифа
p(x;,xj)= V(S1-2S3-S4);
*) Такая ситуация весьма типична для частично определенных запросов в задачах классификационного анализа и при неполностью определенных прототипах при синтезе информационных структур.
Пример трансформации пересечения толерантностей в эквивалентность
110
РИ, 2004, № 1
Условия трансформации толерантностей в эквивалентность
Рассмотрим множество произвольной природы M , на декартовом квадрате M 2 которого задан набор {Tk}kni бинарных отношений толерантности. Применительно к произвольному отношению T будем говорить: Vx, у є M справедливо xty или xTy , если отношение t є T выполняется, и (x, у) g T , если не выполняется. Под пересечением двух отношений R, P будем понимать: xR П Py ^ xRy, хфу .
Нетрудно заметить, что свойство толерантности инвариантно относительно операции пересечения отношений. Действительно, непосредственно из определения вытекает рефлексивность: если Vx є M выполнены соотношения xRx и xPx , то выполнено и xR П Px. Далее, пусть отношения R, P симметричны. Учитывая, что произвольное отношение R симметрично тогда и только тогда, когда R=R-1, где R-1 — обратное отношение, т.е. xR-1у равносильно yRx [12], предположим, что выполнено отношение x(R П P)-1y . Очевидно, тогда выполнено отношение y(R П P)x, т.е. одновременно выполняются отношения yRx и yPx или, что равносильно, xR-1y и xP-1y . Следовательно, (R П P)-1=R-1П P-1, но тогда в силу симметричности отношений R и P имеем (R П P)-1 = R П P, что и означает инвариантность симметричности отношений относительно пересечения. Таким образом, необходимо ответить на вопрос: какие условия обеспечивают выполнение отношения транзитивно -сти на пересечении отношений толерантности?
Обозначим множество отношений эквивалентности через C . Предположим, что на множестве M задано N отношений толерантности Tk . Зафиксируем произвольное значение k є {1, 2,..., N} и введем в рассмотрение следующие множества:
Lk={(x, y, z) є M3 : xTkZ, yTkZ, <x,y)g Tk},|
Nk={(x, y, z) є M3 : xTkZ, yTkz}J (1)
где m3 — декартов куб множества M . Обозначим
L=U kN1 Lk, N=П kN1 nJ
6=L П N, T=П kN1 Tk.J (2)
Теорема 1. Необходимым и достаточным условием эквивалентности пересечения произвольного числа отношений толерантности является пустота множества 6, т.е. T с C ^ 6=0 .
Доказательство. Рассмотрим необходимость. Пусть T — отношение эквивалентности. Допустим, что 6=L П N ^ 0 , следовательно, найдется тройка (x, y, z) є M3 такая, что (x, y, z) є L и (x, y, z) є N . Тогда из (2) вытекает справедливость импликаций:
Vk : k є {1,2, ...,N} ^ (x, y, z) є Nk , (3)
3l : l є {1,2,..., N} ^ (x, y, z) є Lj. (4)
С учетом определений (1) из (3) получаем выполнение отношений xTkz, yTkz при любом значении
k є {1, 2,..., N}, а из (4) находим, что (x, y) g Tj. Но тогда из определения пересечения отношений следует xTz, yTz, (x, y) g T, что противоречит транзитивности отношения T и нарушает посылку об эквивалентности отношения T . Таким образом, 6=0 , что и требовалось.
Для доказательства достаточности предположим, что 6=0 , но отношение T — не эквивалентность. Это означает существование тройки (x, y, z) є M3 , на которой нарушается транзитивность пересечения отношений толерантности. Покажем, что в этом случае данная тройка принадлежит 6.
Действительно, если отношение T не транзитивно, то 3 (x, y, z) є M3, для которой
xTz, yTz , (5)
< x, y> г T. (6)
Но из определения пересечения отношений и (5) следует, что xTkz, yTkz при любом k є {1, 2,..., N}, т.е. (x, y, z) є ПkNN1 Nk=N . С другой стороны, (6) означает, что для некоторого номера l є {1, 2,..., N} имеет место (x, y) г Ti, т.е. (x, y, z) є Li c L=Uk^Lk . В итоге получаем (x, y, z) є L П N=6, следовательно, 6 ^0 , что противоречит исходной посылке. Тем самым, отношение T транзитивно, а окончательно — оно является эквивалентностью, что и требовалось доказать.
Замечание. Из условий формирования множеств Lk и Nk непосредственно следует, что для проверки необходимого и достаточного условий эквивалентности выбирается не более половины всех комбинаций троек, так как в рассмотрение принимаются только элементы, имеющие «предпосылки» существования транзитивности. Более того, множества Lk состоят из троек с различными элементами. Действительно, если предположить, что два элемента множества Lk совпадают, то x ф y , поскольку (x, y) g Tk. Но тогда x = z и, следовательно, (y, z) g Tk , что противоречит (1). Таким образом, все множество L состоит из различных троек. Ясно, что и в множествах Nk можно также учитывать только тройки из различных элементов, поскольку в теореме 1 фигурирует условие L П N=0, а N=П kN Nk . Наконец, в качестве практически важного довода в пользу анализа несовпадающих элементов троек выступает поиск существенной (не тривиальной—одноэлементной) эквивалентности.
Следует подчеркнуть, что существуют более простые (но не совпадающие) условия необходимости и достаточности эквивалентности отношения, представленного пересечением произвольного числа отношений толерантности. Например, если N=0 , то этого достаточно, чтобы T с C, поскольку 6 с N. В свою очередь, пустота множества N=H kN1Nk вытекает из пустоты множества Nj для какого-то номера l є {1, 2,..., N} .
РИ, 2004, № 1
111
С другой стороны, нетрудно указать более простое по сравнению с утверждением теоремы 1 необходимое условие. Рассмотрим множество £*=Пk=iLk • Если Т с C, т.е. свойство транзитивности выполняется, то £*=0 • В противном случае, если найдется тройка (x, y, z) є L*, то из (1) будет следовать xTkZ, yTkz, (x, y) g Tk, что противоречит транзитивности. Приведенные рассуждения позволяют сформулировать теорему.
Теорема 2. Для того чтобы пересечение произвольного числа любых отношений толерантности было эквивалентностью, необходима пустота множества L * и достаточна пустота хотя бы одного из множеств Nk , т.е. Т с C ^ L*=0 , если Зі є {1,2,N} : N[=0 ^ Т с C .
Условия теоремы 2 в ряде практических задач могут оказаться более удобными с точки зрения их программной реализации.
Обратимся теперь к примеру, рассмотренному выше. В таблице сведены все отношения толерантности.
Пример отношений толерантности
M x y z u
x T1, T2, Т 3 Т 2, Т 3 Т1, Т 2, Т 3 Т1
y T2, Тз Т1, Т 2, Т 3 Т1, Т 3 Т1, Т2,
z Т1, Т2, Т 3 Т1, Т 3 Т1, Т 2, Т 3 Т3
u Т1 Т1, Т2, Т 3 Т1, Т 2, Т 3
Сформируем множества Lk, Nk, k = 1,2,3. Очевидно,
Li={(z, u, x); (u, z, x); (x, y, z); (y, x, z);
(x, y, u); (y, x, u); (z, u, y); (u, z, y)},
L2={(y, z, x); (z, y, x); (x, u, y); (u, x, y)},
L3={(x, u, z); (u, x, z); (y, u, z); (u, y, z)} .
Для упрощения построения множеств Nk введем в рассмотрение вспомогательные множества
Nk={(x, y, z) є M3 : xTkz, yTkz, xTky} -
Ясно, что NkП Lk=0 , Nk=Nk U Lk . Как следует из замечания к теореме 1, в Nk или, что равносильно, N k можно рассматривать только различные элементы, т.е. N1 = N2 = 0 и N1=L1, N2=L2 . Наконец,
N3={(x, y, z); (y, x, z); (x, z, y);
(z, x, y); (y, z, x); (z, y, x)}.
В данном примере N1П N 2 = L1П L2 = 0 , следовательно, N П L = 0, т.е. пересечение отношений толерантности представляет собой отношение эквивалентности.
Выводы и перспективы
Сформулированы и доказаны необходимые и дос -таточные условия, при которых суперпозиция отношений толерантности трансформируется в эквивалентность. С практической точки зрения в информационно-поисковых системах эти свойства создают предпосылки для синтеза систем прелиминарной обработки больших объемов текстовой информации, более точно — для кластеризации
112
данных в метатекстовых пространствах. При этом локально или глобально покрытия (слабая кластеризация), индуцируемые различными подмножествами толерантностей, могут трансформироваться в разбиения (строгая кластеризация). В результате достигается сокращение комбинаторной сложности решения аналитических и поисковых задач. Для дальнейшего развития обсуждаемого подхода необходимо изучение методов и алгоритмов построения упорядоченных по вложению классов толерантностей и эквивалентностей в конкретизированных метатекстовых пространствах.
В заключение отметим, что при иерархическом (монотетическом, политетическом или смешанном) анализе метатекстовых информационных структур отношения толерантности наряду с отношениями эквивалентности могут эффективно использоваться не только для обработки объектов на отдельных стратах, но и для учета связей между классификационными рубриками.
Литература: 1. Yang Y., Pedersen J.O. A comparative study on feature selection in text categorization // Proc. of 14th Int. Conf. on Machine Learning (ICML-97) / D.H.Fisher (ed.).— San Francisco: Morgan Kaufmann Publishers, 1997. P.412—420. 2. Орлов ПИ, Луганский A.M., Марков В.И. Информационная система «Университет». Харьков: НУВД, 1999. 92с. 3. Skowron A., Stepaniuk J. Tolerance approximation spaces // Fundamenta Informaticae. 1996. Vol.27, No.2,3. P.245—253. 4. Marcus S. Tolerance rough sets, cech topologies, learning process // Bul.of the Polish Academy of Technical Sciences. 1994. Vol.42, No.3. P.471— 487. 5. Sakaiand H, Okuma A. An algorithm for finding equivalence relations from tables with non-deterministic information // Lecture Notes on Artificial Intelligence. 1999. Vol.1711. P.64—72. 6. Машталир В.П. Точечномножественные методы в задачах обработки информации. Харьков: Бизнес Информ, 2001. 199с. 7. Фор A. Восприятие и распознавание образов. М.: Машиностроение, 1989. 272 с. 8. Korenjak-nerne S. Adapted methods for clustering large datasets of mixed units// Informatica: An International Journal of Computing and Informatics. 1999.Vol. 23, №4. P.507—511. 9. Baeza-Yates R., Navarro G. Faster approximate string matching // Algorithmica. 1999. Vol.23, №2. P.127-158. 10. Bunke H. Structural and syntactic pattern recognition // Handbook of Pattern Recognition and Computer Vision / ChenC.H., PauL.F. and WangP.S.P.(eds.). Singapore — New Jersey— London — Hong Kong: World Scientific Publishing Co. Pte. Ltd., 1995. P.163—209. 11. Мальцев АИ. Алгебраические системы. М.: Наука, 1970. 392с. 12. Макаров И.М., Виноградская Т.М., Рубчинский A.A., Соколов В.Б. Теория выбора и принятия решений. М.: Наука, 1982. 328 с.
Поступила в редколлегию 24.12.2003
Рецензент: д-р техн. наук, проф. Бодянский Е.В.
Луганский Александр Михайлович, начальник научноисследовательского информационно-компьютерного центра Национального университета внутренних дел. Научные интересы: разработка информационно-управляющих систем. Адрес: Украина, 61080, Харьков, пр. 50-летия СССР, 27, тел. 50-31-43. E-mail: [email protected].
Машталир Владимир Петрович, д-р техн. наук, ст. науч. сотр., профессор кафедры информатики ХНУ-РЭ. Научные интересы: распознавание образов. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 7021— 419, e-mail: [email protected].
Шляхов Владислав Викторович, канд. техн. наук, доцент, ведущий научный сотрудник кафедры ПО ЭВМ ХНУРЭ. Научные интересы: алгебраические структуры, искусственный интеллект. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел. 7021—446.
РИ, 2004, № 1