Научная статья на тему 'О качестве поиска информации по нечетким описаниям'

О качестве поиска информации по нечетким описаниям Текст научной статьи по специальности «Математика»

423
32
Поделиться

Текст научной работы на тему «О качестве поиска информации по нечетким описаниям»

зуемых при отождествлении. Результаты расчета параметров объекта и теста их отождествления выводятся в окне, показанном на рис.3.

Текущая обстановка

*1

Журнал событий

обнаружен искуственный объект Ий параметры объекта:

1=90 мс

рк

МОХ=37 БКОХ=2

Моу=144 БКОу=2 Мог-28 5К02»1.5 нт-28 моЬх-1.5 зкоЬх-2 МОЬу=1 ЗКОЬу=1 М0Ь2=С.5 5К0Ь2=1

Обнаружен искуственный объект N*2 параметры объекта:

Рк1=90 Мох=33

БКОХ=2

Моу=14 3

Мог=28 5КОг=2 Нт=26 Моох=1.4 МОЬу=1 5КОЬу=1 МОЬ2=0.7 БКОЬ2=0.8

гкоу=2

5коЬх=2

Результат теста отождествления: ОБЪЕКТЫ РАЗЛИЧНЫ!

Порог отсечения

Рис. 3. Окно отображения параметров объектов и результата теста

отождествления

С использованием данной модели были проведены эксперименты, подтвердившие работоспособность предлагаемого метода отождествления подводных объектов на основе нечеткой логики.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Осовский С. Нейронные сети для обработкн информации. - М.: Финансы и статистика,

2002. - 344 с.

АЛ. Рыжов

О КАЧЕСТВЕ ПОИСКА ИНФОРМАЦИИ ПО НЕЧЕТКИМ ОПИСАНИЯМ

Применение аппарата теории нечетких систем в задачах поиска информации переживает в настоящее время период бурного роста. Причин сложившейся ситуации несколько. Их можно разделить на "внутренние" и "внешние". К первым можно отнести накопившийся к настоящему времени опыт (как позитивный, так и негативный) разработки и использования таких систем. Именно в рамках такого опыта могли возникать вопросы типа: "Можно ли предложить такое правило описания реальных объектов, чтобы человек - источник информации описывал объекты с минимальными трудностями?'', "Как формировать описания объектов, чтобы разные источники описывали их более или менее одинаково?'', "Как описывать объек-, -?'' . . '' '' . - ,

'' ''

средств очертил их область применения, их преимущества и недостатки. В частности, выделилась ниша широкого класса задач, не требующих глубокого логическо-, , широкое распространение во многих сферах деятельности. Эти задачи можно назвать поиском информации в разнородном информационном пространстве. Человека окружает множество различных баз данных, доступных ему, и, в принципе,

относящихся к решаемой задаче. Но каждая из баз имеет свой язык, свои средства доступа; базы данных делались не для текущей задачи пользователя, а для других целей. Как их эффективно использовать? Ответом на этот вопрос и разработкой соответствующих технологий и заняты специалисты по "интеллектуальным" технологиям поиска информации, который во многом базируется на теории нечетких систем. Во-вторых, развитие информационного пространства претерпело в последнее время кардинальные изменения. В практическую деятельность давно вошли такие действительно всемирные и глобальные сети как Интернет, которые переворачивают обычную технологию информационной работы. Без интеллектуальных средств поиска информации, ее доставки и анализа, работа становится практически не возможной. Учитывая большую неопределенность запросов, неопределенность в местонахождении информации и ее объемы, данные средства также во многом являются "нечеткими". Важным также является широкое развитие корпоративных "хранилищ данных" [6] и технологий их эффективного использования для анализа и повышения эффективности функционирования различных бизнес-процессов крупных и средних компаний [1,4]. Такие средства, как business intelligence [1,7], во многом оперируют с нечеткой, обобщенной информацией.

Приведем следующую классификацию задач поиска информации в нечеткой среде. Под средой поиска информации будем понимать пару (запрос, база данных). С точки зрения четкости - нечеткости могут быть четыре ситуации, представленный в таблице.

Таблица

Запрос База данных

Четкий Четкая

Четкий Нечеткая

Нечеткий Четкая

Нечеткий Нечеткая

Под четким запросом понимается логическое высказывание, термы которого выражаются обычными средствами теории множеств. Это означает, что можем либо перечислить значения признаков интересующих нас объектов, либо указать

'' - -

'' .

удовлетворения информационной потребности. Под четкими базами данных в нашем случае понимается совокупность записей, значения атрибутов которых есть либо строковые значения, однозначно понимаемые пользователями (н^вания объектов, марки и т.п.), либо численные значения. Нечеткий запрос в отличие от четкого может содержать термы с нечеткими значениями. Например, значением признака "Р^мер" могут быть "Большой", ''Не большой и не маленький"; значением признака "Возраст" могут быть "Молодой", "Более или менее молодой"; значением '' '' - '' '', '' '' . . разница заключается между четкими и нечеткими базами данных: атрибуты последних могут иметь нечеткие значения.

, 4. 2 3

являются ее частными случаями. Ситуация 1 является наиболее простой и изучен.

результаты принадлежат именно этой ситуации, поэтому мы не будем ее описывать. Учитывая вышесказанное, приведем результаты исследований именно ситуа-

4. : -

тели качества поиска информации в нечетких базах данных и сформулировать правило выбора такого множества лингвистических значений, использование которого обеспечивало бы максимальные показатели качества поиска информации?

Для этого нам понадобится описать множества значений качественных при-( ).

[5], которое можно рассматривать как частный случай понятия лингвистической переменной, введенной Заде в [3]. Напомним основные определения. Рассмотрим t нечетких переменных и именами а1, а2, .. , а, заданных на одном универсальном множестве. Будем называть такую совокупность семантическим пространством ^ . Введем систему ограничений для функций принадлежности нечетких переменных, составляющих st. Будем для простоты обозначать функцию принадлежности aj через ц. Будем считать, что:

1) /11(1 <- 3 П1- Ф 0, где П1- = {ыеП.ц = 1}, П1- есть отрезок или точка;

2) j (1 <- <^, 1 не убывает слева от П1- и не возрастает справа от П1- (т.к., согласно 1, П^ является отрез ком или точкой, понятия “слева” и “справа” определяются однозначно);

3) - (1 <- <^, 1 имеет не более двух точек разрыва первого рода.

Будем для простоты обозначать требования 1-3 через Ь. Введем также систему ограничений для совокупностей функций принадлежности нечетких переменных, образующих st , а именно, будем считать, что:

4) иеи 3 ] (1 < ] < 1): 1 (и) > 0;

t

5) иеи ^ 1- (и) = 1.

-=1

Будем для простоты обозначать требования 4, 5 через О. Будем называть семан-, ,

1 - 3, - 4 5 -

ным ортогональным семантическим пространством и обозначать его О(Ь).

Можно ввести понятия потерь информации (П/П)) и информационных шумов (НХ(П)), возникающих при поиске информации в лингвистических базах данных. Смысл этих понятий следующий. При общении с системой пользователь , -знаков, и получает ответ на запрос. Если бы он мог знать физические (не лингвистические) значения признаков, он, возможно, не принял бы некоторые записи из ( ). имел возможность при этом “видеть” всю базу данных, он, возможно, дополнил бы некоторыми записями ответ на свой запрос (такие записи составляют потери ин-).

лингвистических описаний объектов.

Мы можем формализовать эти понятия следующим образом.

Рассмотрим случай t=2 (рис.1). Зафиксируем значение и*е П и введем следующие обозначения:

♦ Щи ) число объектов, описания которых хранятся в базе данных, имеющих реальные (физические, не лингвистические) значения признака, равные и* ;

ж т иъвг

♦ N - число пользователей системы.

Рис.1. Частный случай семантического пространства ^'2

Тогда

♦ Ма (и* ) = 1 (и* )Щ(и* ) - число объектов, информация о которых

хранится в базе данных, имеющих реальные значения признака равные и и описанных источником информации как а!;

Ща (и*) = 1а (и*) Щ (и*) - число таких объектов, описанных как а2;

Щ7еГ (и*) = 1а (и* )МШеГ - числ0 пользователей системы, считающих,

*

и а1;

щшег (и* ) = (и* )Щшег - число пользователей, считающих, что и*

а2.

Заметим, что для ^ е О(Ь) в силу свойства ортогональности имеют место следующие соотношения:

1 (и* )М (и* )+1а2 (и* )Щ (и* )= Щ (и* ),

1 (и) Ышег +1 (и*) Ышег = Ышег.

В этих обозначениях после запроса “Выдать все объекты, имеющие значение признака, равное а1“ (обозначим его как (1(0)= ах)), пользователь получает (и*) описаний 0бъектов, имеющих реальное значение признака, равное и*.

При этом Щ^ег (и*) пользователей недополучают Ща (и*) описаний объектов ( ). , -

*

и , а2.

Щ"^ (и*) пользователей имеют шум (“лишние” с их точки зрения описания объектов в объеме Ща (и*) описаний).

Усредненные индивидуальные потери пользователя в точке и при анализируемом запросе равны

П

а, (и' ) = (и • Щ (и ' )=Ма, )»„, (« )Щ (и' ) . О)

По аналогии средние индивидуальные шумы информации в точке и

К(« ) = (“' КС ) = «, («' К» )М ("‘ ). (2)

Средние индивидуальные потери информации и шумы при анализируемом ( па (П) .. на (и) соответственно) естественно определить как

п

Таким образом,

П “1 (Ц ) = Н “1 (Ц ) = Ц \Ма, (и )Ма2 (и )Х (и ¥и ■

(3)

По аналогии для запроса (1(0)= а2) или из соображений симметрии мы полу, -ционные шумы равны друг другу (Па (П) =На (П)) и равны правой части (3). Под информационными потерями и шумами при поиске информации по признаку, имеющему множество значений X = {а1 ,а2 } (ПХ (П)и НХ (П)) естественно понимать

пX (П) = дп, (П) + Р2П02 (П), Нх (П) = ДН, (П) + р2Н„ (П),

где р{ (/ = 1,2) - вероятность запроса по /'-значению признака.

Так как р1+ р2= 1, то

П X (П ) = НХ (П )= |П| 11а1 (и )1а2 (и )Щ (и )Л" . (4)

Рассмотрим общий случай t > 2. В этом случае область интегрирования П может быть представлена как

и = ц и ихг и и 2 и-и и_ _и и и,

(5)

где

и=

и у _1, К , и у+1, ь на

(- = 2,..., (; "0,й = "1,ь , и+1,Ь = Ut ,д ^ - под-

множество П, на котором Ца (и) = 1, и, в силу ортогональности О(Ь),

1 (и) = 0 V/ф -;

Ц_1, у =

иу ,Ь , иу _1,К

(- = 2, к, /) -подмножество П, на котором

0 < 1 (и), 1 (и) < 1 1 (и) = 0 Для / Ф - -1,/ Ф - .

Рассмотрим запрос (1(0)= а,) (1 <- <). В этом случае на качество поиска необходимых объектов оказывают влияние соседние значения признака: левое (/' - 1) и правое (/' + 1). Таким образом, для средних потерь информации и информационных шумов справедливо:

(б)

п (и )=п (и )+п (и).

н „у (и )=н „;(и )+н „у+1(и).

где

па;-‘ (п) = Н- (и) = П1 (и)Ма,- (и)Щ(иИи =

1 г

П ] 1-(ик,_1(и)щ(и№

(8)

п а1; (п )=н аг (п )=П К (и к+1 (и )щ (и )*=

1 г

= и Л 1 (и 1 (и )Щ (и )^и . (9)

иlпj,j+1

(8), (9)

формулы (4), считая для (8) - = 2 и для (9) - = 1. Последние соотношения в (8), (9) следуют ИЗ определений множеств П--1 - И П . -+1 .

В этом случае средние индивидуальные потери информации и информацион-, , -ны соответственно

п х (П)=^рр., (П)- <10»

3 =1 t

Нх (п)=ХрД,((п), (11)

j=l

t

где р- - вероятность запроса по - - значению признака X, ^ р = 1.

j=l

Заметим, что для край них значений - = 1 и - = t

п,(П) = па: (П) = н01(п) = на; (П)=П 11а1(и)1а, (и)Щ(и)Л, ,

па (П) = п:-1 (П) = Н, (П) = Н:-1 (П) = П^/ 1 - (и) 1 (и)Щ(иИи

Подставляя (6) - (9) в (10) и (11) и помня сделанное замечание, мы получаем:

пх (П) = Нх (П) = Л]1 [ 1 (и)l: (и)Щ(иУи +

|П| ПГ2

/ Л

1 Г Г

+2р-п ]1 (и)1-(и)Щ(и)^и + \1 (и(и)Щ(и)^и

j=1 иl^п^-l,^ П^,^+l

+

/

1 г

+#^71 ] 1 (и)1о, (и)Щ(иу" =

Мп(--и -

1 4—1

ITTiS (Pj + Pj+1) j ^ (U )MaJ+1 (U )N (U )dU •

^|j=1 Ujj+i

Таким образом, мы можем обобщить (4) следующим образом:

П (U ) = Н X (U) = ± X (j + Pj+1) j ^ (u )^ (u )N (u )du ■ (12)

\U\j =1 Uj, j+1

где X = (a;, ••• , at },pt (i = 1, 2, ... , t) - вероятность запроса по /'-значению признака.

Таким образом, первая часть сформулированной проблемы решена. Содержательный смысл (12) может быть проиллюстрирован в рамках следующей простейшей модели. Рассмотрим множество кусочно-линейных функций из L, которые

являются линейными на U = {u е U : V/(1 < J < t) 0 < jlj (u) < 1} (обозначим

это подмножество L через L )• Будем также считать, что объекты распределены равномерно (N(u) = N = Const) и значения признака одинаково интересны для

1

пользователя (p . = — (j = 1, ..., t ))• Справедлива следующая теорема.

J t

Теорема. Пусть st е G(L ), N(u) = N = Const и p = — (j = 1, ..., t)• Тогда,

J t

ND t

пX (U) = НX (U) = 3^ • D = JdJJ+I. djj,

uj , j+■

Это утверждение означает, что в «четком» случае потери информации и шу-

N

мы равны нулю и достигают максимального значения — при ситуации, когда в

3t

каждой точке универсального множества происходит пересечение семантики используемых понятий (максимально «нечеткая» ситуация).

Правило выбора оптимального для поиска информации множества значений качественного признака может быть сформулировано следующим образом:

L Генерируются все “р^умные” множества значений лингвистической пе-

2. Каждое из таких множеств представляется в форме полного ортогонального семантического пространства

3. Для каждого из них вычисляются потери информации и шумы (12).

4. В качестве оптимального множества значений выбирается то, потери и

ШуМЫ ДЛЯ КОТОРОГО МИНИМаЛЬНЫ.

Следуя этой методике, мы можем описывать объекты таким образом, чтобы гарантировать оптимальность качества поиска информации в смысле потерь информации и информационных шyмoв.

Ознакомиться с приложениями изложенного здесь подхода можно в работах

[8,9].

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Артемьев В. Что такое Business Intelligence? // Открытые системы. 2003. №4. - C. 20-26.

2. Галахов И. Проектирование корпоративной информационно-аналитической системы // Открытые системы. 2003. №4. - C. 27-32.

3. Заде Л.А. Понятие лингвистической переменной и его применение к принятию приблизительных решений. - М.: Мир, 1976. - 165 с.

4. Львов М. Построение информационно - аналитической системы // Открытые системы. 2003. №4. - C. 39-42.

5. Рыжов А.П. Элементы теории нечетких множеств и измерения нечеткости. М.: Диалог-МГУ, 1998. - 116 с.

6. . // .

2003. 4. - . 76-79.

7. . Business Intelligence // . 2003. 4.

- C. 33-38.

8. Ryjov A. Basic principles and foundations of information monitoring systems // In: Monitoring, Security, and Rescue Techniques in Multi-agent Systems. Springer, 2005. pp. 147-160. ISBN 3-540-23245-1, ISSN 16-15-3871.

9. Ryjov A., Belenki A., Hooper R., Pouchkarev V., Fattah A., Zadeh, L.A. Development of an Intelligent System for Monitoring and Evaluation of Peaceful Nuclear Activities (DISNA), IAEA, STR-310. Vienna, 1998. - 122 p.

E.A. Борисова, В.И. Финаев

ТРИАКСИАЛЬНАЯ РАСПРЕДЕЛИТЕЛЬНАЯ ЗАДАЧА С НЕЧЕТКИМИ

ПАРАМЕТРАМИ

Научно-техническое перевооружение производственных процессов характеризуется лавинообразным и скачкообразным развитием науки и техники, что сказывается во всех аспектах развития человеческого общества. Основная особенность изменений состоит в усложнении хозяйственно-производственной деятельности человека во всех отраслях. Наблюдаются тенденции, носящие характер за, :

♦ изменение структуры научных знаний в зависимости от потребностей практики;

♦ существование дифференциации при одновременной интеграции наук, что вызывает появление новых интеграционных наук прагматической

;

♦ усиление роли математики в о всех областях научных знаний;

♦ требования практики превращают науки в производительную силу, направленную на техническое перевооружение, внедрение наукоемких

;

♦ широкое применение ком плексов технических средств, вычислительных систем и сетей, новых информационных технологий для реализации на.

Задачи исследования операций имеют важное научное и прикладное значение и при их решении существенное значение имеют методы моделирования, применение методов искусственного интеллекта.

Объективно формализовать все параметры распределительных задач в виде определенных чисел невозможно. Причинами подобного представления являются не учитываемые воздействия во внешней среде, не предсказуемые изменения в , , , . -, ,