УДК 681.3.06
Э.М. Котов, АЛ. Целых
НЕЧЕТКАЯ КЛАССИФИКАЦИЯ ЛИНГВИСТИЧЕСКИХ ПРИЗНАКОВ В ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМАХ
Постоянно растущие объёмы информации обуславливают необходимость разработки новых поисковых средств. В полной мере это относится и к Интернету, если рассматривать его как неструктурированное хранилище информации огром-.
Существующие в Интернете информационно-поисковые системы (ИПС) позволяют частично решить задачу поиска нужной пользователю информации. Одна, , высокую скорость проведения поиска. Кроме того, применение одной ИПС чаще всего не даёт приемлемых результатов. Необходимым условием успешного планирования и проведения поисковых работ является знание всех основных существующих на сегодняшний день типов ресурсов сети, понимание технической и тематической специфики их информационного наполнения и особенностей доступа.
При рассмотрении внутренней организации ИПС можно отметить, что она состоит из двух частей, как правило, работающих параллельно. Первая часть (индексирующий агент) ответственна за индексирование web-дoкyмeнтoв, а вторая (поис-) -.
Основная идея ИПС состоит в создании словаря индексов из слов, встречающихся в документах Интернет, в котором каждому слову будет соответствовать , . -
,
. ,
следующие:
1) -
нении ключевых слов в базе данных не проводит классификацию;
2) для хранения индекса используется СУБД и ввиду этого поиск по индексу осуществляется с использованием внутренних средств СУБД;
3) -, , , -
ными для быстрого поиска ввиду избыточного количества выдаваемой информации и непрозрачностью процедуры ранжирования ссылок.
Для эффективного поиска документов по базе данных индексов предлагается
присвоить ключевым словам ряд признаков, по которым было бы возможным про. -
ным осуществлять двумя путями:
1) ;
2) , -зе данных индексов.
Предположим необходимо произвести классификацию печатных изданий. Введем следующие признаки, по которым их можно классифицировать: размер, цена, новизна. Для описания первого признака "р^мер" используем три значения лингвистической переменной, для второго - "цена" - три значения лингвистической
переменной, а для третьего - новизна - два значения лингвистической переменной. Первый признак описывается следующими лингвистическими значениями: а1 - "мапая", а2 - "средняя", а3 - "большая". Второй признак описывается лингвистическими значениями: в1 - "низкая", в2 - "средняя", в3 - "высокая". Третий признак описывается лингвистическими значениями: у1 - "старая", у2 - "новая".
Экспертам необходимо построить функции принадлежности, причем каждый из экспертов составляет свое описание значений признаков для текущей ситуации в силу имеющегося у него опыта и уровня компетентности.
,
группы экспертов, предлагается использование функции принадлежности, принимающей для заданного аргумента значения из некоторого интервала, ширина которого определяется разбросом характеристик, представленных экспертами. Такую функцию можно назвать функцией принадлежности интервального нечеткого множества. В зависимости от значения аргумента ширина интервала может изменяться в диапазоне от 0 до 1.
Рассмотрим алгоритм построения функции принадлежности интервального нечеткого множества. Пусть требуется для множества А найти значения функции принадлежности по результатам опроса т экспертов [1]
МА(ХІ)=[^А (хі}’ ЦА (хі)]’ ХієХ’ -І=1’--’п-
*А ^ А
Каждому из экспертов предъявляется количественное значение Х] и определяется субъективное значение функции принадлежности ^* (Х]), получаемое от 1
эксперта, соответствующее значению для множества А*. Далее находится среднее значение функции принадлежности, используя среднее арифметическое, задаваемое формулой [2]
с 1 ^ *
Определяется отклонение от среднего значения по формуле
и) _<
I т-
Определяются предварительная верхняя и предварительная нижняя границы
С с
по формулам Цд рх (Х|)= /Ла (Х]) + у(Х|), |д,™(Х|)= /Ла (х^ - У(Х]) соответственно.
Определяется максимальное значение тах(ц“рх(х^) и минимальное значение тт( ^ А™ (Х])) соответственно для верхней и нижней границ.
Значения /Ла (х.]) и ЦА (Х]) определяются по формулам:
~( )_ йВАРХ(х])-т1п^АШК(х]))
Иа(х]) ^ ,
у(х]) ((хі>-и !і(хл)) '
ЙД(Х]) -
(шах^д (х]))-т1п^д (х])))
НИЖ/ ч • / НИЖ/ чч
На (х.])-шш^д (х]))
(шах^7х (х]))-ш1п(цАиж(х]))) производятся нормировки верхней и нижней границ. Верхняя граница не должна превышать 1, а нижняя граница не должна быть меньше 0.
Пункты 1-5 повторяются для всех количественных значений шкалы X, тем самым определяются все значения функции Л (Х]).
Проведенный анализ позволяет сделать вывод: присвоение ключевым словам , , , принятии решений функции принадлежности интервального нечеткого множества, позволит произвести классификацию ключевых слов, что делает возможным осуществлять эффективный поиск с учетом качества данных.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Берштейн Л. С., Целых А. М., Тимошенко Р. П. Об использовании интервальной функции принадлежности нечеткого множества. Известия высших учебных заведений. Северо-Кавказский регион. Технические науки. Ростов - на - Дону: Изд-во Ростовского гос-университета, 1999. №1. 106с. С.3-8.
2. . . ., . . . : . пособие. М.: Гардарика, 1998. 326с.