Научная статья на тему 'Нечеткая классификация лингвистических признаков в информационно-поисковых системах'

Нечеткая классификация лингвистических признаков в информационно-поисковых системах Текст научной статьи по специальности «Математика»

CC BY
249
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Нечеткая классификация лингвистических признаков в информационно-поисковых системах»

УДК 681.3.06

Э.М. Котов, АЛ. Целых

НЕЧЕТКАЯ КЛАССИФИКАЦИЯ ЛИНГВИСТИЧЕСКИХ ПРИЗНАКОВ В ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМАХ

Постоянно растущие объёмы информации обуславливают необходимость разработки новых поисковых средств. В полной мере это относится и к Интернету, если рассматривать его как неструктурированное хранилище информации огром-.

Существующие в Интернете информационно-поисковые системы (ИПС) позволяют частично решить задачу поиска нужной пользователю информации. Одна, , высокую скорость проведения поиска. Кроме того, применение одной ИПС чаще всего не даёт приемлемых результатов. Необходимым условием успешного планирования и проведения поисковых работ является знание всех основных существующих на сегодняшний день типов ресурсов сети, понимание технической и тематической специфики их информационного наполнения и особенностей доступа.

При рассмотрении внутренней организации ИПС можно отметить, что она состоит из двух частей, как правило, работающих параллельно. Первая часть (индексирующий агент) ответственна за индексирование web-дoкyмeнтoв, а вторая (поис-) -.

Основная идея ИПС состоит в создании словаря индексов из слов, встречающихся в документах Интернет, в котором каждому слову будет соответствовать , . -

,

. ,

следующие:

1) -

нении ключевых слов в базе данных не проводит классификацию;

2) для хранения индекса используется СУБД и ввиду этого поиск по индексу осуществляется с использованием внутренних средств СУБД;

3) -, , , -

ными для быстрого поиска ввиду избыточного количества выдаваемой информации и непрозрачностью процедуры ранжирования ссылок.

Для эффективного поиска документов по базе данных индексов предлагается

присвоить ключевым словам ряд признаков, по которым было бы возможным про. -

ным осуществлять двумя путями:

1) ;

2) , -зе данных индексов.

Предположим необходимо произвести классификацию печатных изданий. Введем следующие признаки, по которым их можно классифицировать: размер, цена, новизна. Для описания первого признака "р^мер" используем три значения лингвистической переменной, для второго - "цена" - три значения лингвистической

переменной, а для третьего - новизна - два значения лингвистической переменной. Первый признак описывается следующими лингвистическими значениями: а1 - "мапая", а2 - "средняя", а3 - "большая". Второй признак описывается лингвистическими значениями: в1 - "низкая", в2 - "средняя", в3 - "высокая". Третий признак описывается лингвистическими значениями: у1 - "старая", у2 - "новая".

Экспертам необходимо построить функции принадлежности, причем каждый из экспертов составляет свое описание значений признаков для текущей ситуации в силу имеющегося у него опыта и уровня компетентности.

,

группы экспертов, предлагается использование функции принадлежности, принимающей для заданного аргумента значения из некоторого интервала, ширина которого определяется разбросом характеристик, представленных экспертами. Такую функцию можно назвать функцией принадлежности интервального нечеткого множества. В зависимости от значения аргумента ширина интервала может изменяться в диапазоне от 0 до 1.

Рассмотрим алгоритм построения функции принадлежности интервального нечеткого множества. Пусть требуется для множества А найти значения функции принадлежности по результатам опроса т экспертов [1]

МА(ХІ)=[^А (хі}’ ЦА (хі)]’ ХієХ’ -І=1’--’п-

*А ^ А

Каждому из экспертов предъявляется количественное значение Х] и определяется субъективное значение функции принадлежности ^* (Х]), получаемое от 1

эксперта, соответствующее значению для множества А*. Далее находится среднее значение функции принадлежности, используя среднее арифметическое, задаваемое формулой [2]

с 1 ^ *

Определяется отклонение от среднего значения по формуле

и) _<

I т-

Определяются предварительная верхняя и предварительная нижняя границы

С с

по формулам Цд рх (Х|)= /Ла (Х]) + у(Х|), |д,™(Х|)= /Ла (х^ - У(Х]) соответственно.

Определяется максимальное значение тах(ц“рх(х^) и минимальное значение тт( ^ А™ (Х])) соответственно для верхней и нижней границ.

Значения /Ла (х.]) и ЦА (Х]) определяются по формулам:

~( )_ йВАРХ(х])-т1п^АШК(х]))

Иа(х]) ^ ,

у(х]) ((хі>-и !і(хл)) '

ЙД(Х]) -

(шах^д (х]))-т1п^д (х])))

НИЖ/ ч • / НИЖ/ чч

На (х.])-шш^д (х]))

(шах^7х (х]))-ш1п(цАиж(х]))) производятся нормировки верхней и нижней границ. Верхняя граница не должна превышать 1, а нижняя граница не должна быть меньше 0.

Пункты 1-5 повторяются для всех количественных значений шкалы X, тем самым определяются все значения функции Л (Х]).

Проведенный анализ позволяет сделать вывод: присвоение ключевым словам , , , принятии решений функции принадлежности интервального нечеткого множества, позволит произвести классификацию ключевых слов, что делает возможным осуществлять эффективный поиск с учетом качества данных.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Берштейн Л. С., Целых А. М., Тимошенко Р. П. Об использовании интервальной функции принадлежности нечеткого множества. Известия высших учебных заведений. Северо-Кавказский регион. Технические науки. Ростов - на - Дону: Изд-во Ростовского гос-университета, 1999. №1. 106с. С.3-8.

2. . . ., . . . : . пособие. М.: Гардарика, 1998. 326с.

i Надоели баннеры? Вы всегда можете отключить рекламу.