УСОВЕРШЕНСТВОВАНИЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ КОМПЛЕКСОВ НА ОСНОВЕ ИЕРАРХИЧЕСКИХ СИСТЕМ НЕЧЁТКОГО

Сорокин Александр Александрович

УСОВЕРШЕНСТВОВАНИЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ КОМПЛЕКСОВ НА ОСНОВЕ ИЕРАРХИЧЕСКИХ СИСТЕМ НЕЧЕТКОГО ВЫВОДА

Сорокин А. А.1

(ФГБОУВО Астраханский государственный технический университет, Астрахань)

Предложены положения по усовершенствованию вычислительных комплексов, основанных на использовании иерархических систем нечеткого вывода. Положения связаны с предварительной подготовкой данных и последующей интерпретацией результатов. Подготовка данных основана на выполнении операций по нормализации входных параметров к шкале с одинаковым диапазоном значений при условии, что эти значения имеют положительную корреляцию с выходной переменной. Реализация положений основана на использовании кусочных функций. Использование положений позволяет упростить формирование продукционных правил в базе знаний системы нечеткого вывода. Исследование поведения изменения значений выходных оценок в зависимости от количества уровней в иерархической системе нечеткого вывода позволило выявить свойство, связанное с группированием этих оценок в окрестностях численных значений термов, которые описывают выходную переменную. Это позволило отнести иерархическую систему нечеткого вывода к классификатору анализируемых объектов по их состоянию с учетом критериев проводимой оценки. Принадлежность к определенному классу определяется величиной итоговой оценки. Для идентификации групп объектов с близкими свойствами внутри классов предложена совокупность операций, основанная на последовательном использовании алгоритма горной кластеризации, евклидовой метрики и метрики Хаусдорфа. Применение операций позволяет выделять типичных представителей исследуемых классов, а затем определять объекты, которые наиболее близки к ним по параметрам с учетом установленных ограничений на отклонения. Проведенный эксперимент подтвердил работоспособность предложенных положений.

Ключевые слова: иерархическая система нечеткого вывода, нормализация, кластеризация, метрика Хаусдорфа, классификатор объектов, алгоритм горной кластеризации.

1. Введение

В настоящее время одной из тенденций развития систем обработки информации стало решение задач по агрегированию

1 Александр Александрович Сорокин, к.т.н., доцент (alsorokin.astu@mail.ru).

разнородных данных для идентификации оценки состояния различных объектов. Подобное направление получило название Big Data (аналитика больших данных) [19, 20]. Положения по агрегированию разнородной информации часто используются для реализации систем поддержки принятия решений (СППР), которые получили распространение во время управления хозяйственными процессами различных отраслей экономики. К подобным отраслям относятся банковский сектор, телекоммуникационные, транспортные и другие виды компаний [10, 17, 21].

В [8, 9] описывается, что одной из сложностей идентификации интегральных оценок является реализация оператора агрегирования разнородных параметров. Часто сложности вызваны тем, что величины параметров могут оцениваться по различным метрическим шкалам, иметь разный уровень влияния на итоговый результат. Идентификация одинаковых значений интегральной оценки часто происходит при различных комбинациях значений входных величин. Для разрешения подобных сложностей нашли применение экспертные системы [5, 13]. Методы теории нечетких множеств часто используются как теоретическая основа подобных систем обработки информации. В работах [9, 14] указывается, что одним из ограничений систем нечеткого вывода (СНВ) является усложнение структуры правил и увеличение их числа при возрастании количества входных переменных. В работах [2, 14-16] для упрощения структуры правил предлагается агрегирование групп входных переменных при помощи отдельных СНВ с последующим их объединением в единый вычислительный комплекс - иерархическую СНВ (ИСНВ). Как показывает обзор [3, 9, 12], специфика функционирования ИСНВ требует дальнейшего развития положений по предварительной подготовке исходных данных и постобработки полученных значений итоговой оценки.

Цель работы: предложение положений по предварительной подготовке и постобработки данных для иерархических систем нечеткого вывода.

2. Анализ особенностей функционирования систем нечеткого вывода

В рамках исследований принимается, что в основе рассматриваемых СНВ заложен алгоритм Сугено (АС). При прочих равных условиях преимущества АС над алгоритмом Мамдани (АМ) с учетом анализа [9, 14] заключается в том, что:

- АС использует более простую операцию дефаззификации, что сокращает затраты времени на выполнение расчетов;

- выходная переменная СНВ на основе АС обладает более широким диапазоном выходных значений;

В процессе функционирования СНВ на основе АС можно выделить следующие основные этапы обработки информации:

- Фаззификация - преобразование переменной из четкой численной формы x в нечеткую % при помощи оператора преобразования /лТ - (функции принадлежности) ФП:

(1) X = (x).

Задача ФП - определить степень принадлежности значения переменной х к элементам терм-множества Т% = [т%} , где к - номер терма в терм-множестве, которое описывает переменную %; в качестве ФП обычно используются треугольные, трапецеидальные, гауссовы, синглтоны и др. виды функций.

- Агрегирование подусловий правил в зависимости от значений входных переменных в нечеткой форме; в рамках проводимых исследований будут рассматриваться правила типа MISO (англ. multiple input, single output), которые для агрегирования используют операцию логического «И» - «л»:

(2) ta if (% =Kz1) л ..л (%n =ткп) ^ (У = ткч, X

где a - номер правила; <%, ..., %n> - множество входных переменных, а n - их порядковый номер во множестве входных переменных X = {%n}; ,...,тКп% - значения термов из терм-

множеств, используемых для описания входных переменных; 7i, ..., in - номера термов в терм-множествах; i^uzz - выходная переменная в нечеткой форме; Te,v - значение терма выходной переменной, в - номер терма в терм-множестве; Е,- коэффи-

циент доверия (КД). Выходное значение правила рю применительно к АС может быть определено следующим образом:

п

(3) рш = £ш-рго^дх),...,мЛхп))=&• П^(х>)•

1=1

- Получение численного значения выходной переменной выполняются при помощи соотношения вида

( о Л о

(4) Уаыг = ТРа£гк,„ 1 ТРт,

У

\®=1 /

т,

т=1

где - численное значение терма , входящего в терм-

множество, которое описывает выходную переменную в СНВ, а Q - общее количество правил вида (2), входящих в базу знаний (БЗ) СНВ.

Основное ограничение применения СНВ связано с сильным ростом количества правил в зависимости от количества переменных и термов, которые их описывают. Как показывает анализ [2, 3, 12, 14-16], для устранения подобного ограничения предлагается использовать ИСНВ. В процессе формирования ИСНВ множества входных переменных X1 = {х„} разделяются на ш\ непересекающихся подмножеств:

(5) X1 з X1,...,Xlmi : X1 п...nXlmi = 0 .

После этого для каждого подмножества переменных формируется отдельная СНВ. В результате формируется множество

СНВ первого уровня иерархии - F1 = {} . Функционирование

СНВ первого уровня иерархии формирует множество переменных X2. Эти переменные аналогично (5) разделяются на Ш2 непересекающиеся подмножества переменных, для которых формируются СНВ второго уровня иерархии F2. Подобные операции выполняются пока не идентифицируется множество содержащие набор целевых переменных Yo. Так как в рамках исследований рассматриваются СНВ на основе правил вида MISO, то множество Yo содержит одну выходную переменную yout.

Часто при разработке СНВ эксперту необходимо для каждой переменной предложить терм-множество, где каждому тер-

му соответствует отдельная ФП со «своими» специфичными характеристиками. В результате семантическое значение двух идентичных термов, используемых для описания переменных, имеющих положительную и отрицательную корреляцию с выходной переменной, будут различаться. Реализация идентичности семантических значений термов подобных переменных приведет к тому, что аналогичные обозначения термов будут находиться в различных частях шкал абсолютных (естественных) значений входных переменных. Подобное порождает неопределенность при формировании БЗ СНВ и может привести к ошибкам при формировании правил. Для сокращения подобных ошибок целесообразно, чтобы у идентичных термов были близкие семантические значения, одинаковая хронология следования термов на шкале значений входных переменных, а сами входные переменные имели положительную корреляцию с выходной переменной. Для этого необходимо приведение различных значений входных переменных к единой шкале оценки.

3. Преобразование значений входных переменных к единой форме представления

Задачей предлагаемых положений по преобразованию входных переменных является обеспечение результата, когда семантические значения термов и хронология шкалы оценки параметра имеют положительную корреляцию с семантическими значениями термов и численными значениями шкалы выходной переменной. Использование подобных положений позволит обеспечить формирование выходной поверхности СНВ, показывающей закономерность взаимодействия входных переменных в монотонно неубывающем виде. Реализация этого возможна за счет нормализации значений входных переменных отложенных на разных метрических шкалах. Примеры операторов нормализации значений входных переменных, подаваемых на вход СНВ, в виде линейной функции описаны в работе [9]: (6) х = f (х ): x е [0,11,

v ' norm J norm v ест / norm L ' J '

где fnorm - оператор нормализации, Хест - фактическое значение параметра. Однако операторы в работе [9] не учитывают нели-

нейного характера закономерности между значением входной и выходной переменной. Для разрешения этого предлагается выполнять нормализацию входных параметров при помощи кусочных функций ,/^0™(х ). Подобное можно представить в виде

Рщ (Хст): Хст е[ С, С X

(7) х = (х ) = <

погт ^ погт V ест '

РН„Х( Хест ): Хесх ,

где р - оператор преобразования естественного значения переменной на отрезке [х^, х^) шкалы оценки параметра Хест.

Количество участков и их граничные точки, вид функций нормализации на этих участках определяются экспертами или с учетом нормативных документов, регулирующих обращение с оцениваемым объектом. В рамках исследований реализацию подобных операторов предлагается выполнять на основе уравнения прямой, проходящих через две точки, которые характеризуют изменение закономерности влияния значения входной переменной на выходную. В зависимости от специфики переменной предлагаются три основных вида операторов нормализации при помощи кусочных функций:

- для переменных, которые имеют положительную корреляцию на рис. 1а (сплошная линия) или отрицательную корреляцию на рис. 1а (пунктирная линия) с выходной оценкой;

- для переменных, которые имеют точку оптимума для значения выходной оценки, пример показан на рис. 1б.

Примером параметра, имеющего «точку оптимума», является температура помещения, где находится технологическое оборудование. Значение «благоприятной температуры» занимает относительно «узкий» участок на шкале оценки значений этого параметра, а выход за допустимые границы его значения ухудшит эксплуатационные свойства оборудования.

Ч? и, и*

I 4

а б

Рис. 1. Вид операторов нормализации значений параметров

Анализ работ [3, 9, 12] показал, что еще одним свойством СНВ является неравномерная чувствительность к изменению значений входных переменных. Результатом подобного становится группировка выходных оценок в окрестностях определенных точек, что приводит к снижению разнообразия оценок и возникновению сложностей идентификации ситуации по значению интегральной оценки. Таким образом, возникает обоснованное предположение, что последовательное применение СНВ еще больше усилит группировку выходных значений в окрестностях определенных точек. Для проверки подобного предположения в следующем разделе описываются результаты эксперимента, посвященному исследованию закономерностей распределения выходных оценок в ИСНВ.

4. Исследование закономерностей

функционирования иерархических систем нечеткого вывода

Учитывая результаты сравнения алгоритмов, заложенных в основе функционирования СНВ, дальнейшие рассуждения ведутся из допущения, что при формировании ИСНВ используется алгоритм Сугено. Исследовались ИСНВ следующих видов:

- с однотипными базами правил, в которых семантическое значение выходной переменной равно минимальному семантическому значению входных переменных, далее «СНВ тип 1»;

- с однотипными базами правил, в которых семантическое значение выходной переменной равно максимальному семантическому значению входных переменных, далее «СНВ тип 2»;

Для анализа была построена ИСНВ, состоящая из пяти уровней иерархии. Общее количество входных переменных составило 32, и каждая СНВ, входящая в состав исследуемого вычислительного комплекса, агрегировала две переменные. С учетом соотношения (7) значения входных, промежуточных и выходной переменных задавались в диапазоне от 0 до 100 баллов. Каждый эксперимент включает в себя две серии: ФП для входных переменных СНВ из первой серии показаны на рис. 2а; ФП для входных переменных СНВ из второй серии показаны на рис. 2б.

Вид образующих поверхностей элементарных СНВ для:

- первой серии первого эксперимента показан на рис. 3а;

- второй серии первого эксперимента показан на рис. 3б;

- первой серии второго эксперимента показан на рис. 3в;

- второй серии второго эксперимента показан на рис. 3г. Описание значений переменных проводилось аналогично

рекомендациям в работе [6] при помощи следующих термов: КБ - низкий; КМ - скорее низкий; КМ1 - ближе к низкому, чем к среднему; КМ2 - ближе к среднему, чем к низкому; Ъ - средний; РМ - скорее высокий; РМ1 - ближе к среднему, чем к высокому; РМ2 - ближе к высокому, чем к среднему; РБ - высокий. Во всех сериях для описания выходных переменных использовались константы, в первой - пять, а во второй - семь. Когда выходная переменная описывается пятью термами, за

каждым термом закреплялись следующие значения: КБ = 0, КМ = 25, Ъ = 50, РМ = 75, РБ = 100 баллов. Когда выходная переменная описывается семью термами, за каждым термом закреплялись следующие значения: КБ = 0, КМ1 = 16,67, КМ2 = 33,33, Ъ = 50, РМ1 = 66,67, РМ2 = 83,33, РБ = 100 баллов.

в г

Рис. 3. Поверхности порождаемые СНВ Сугено

В процессе проведения эксперимента на вход первой переменной подавались изменяемые значения в диапазоне от 0 до 100 баллов с шагом 5 баллов, а на другие входы - различные комбинации значений. Комбинации значений включали диапазоны от 0 до 100 баллов с шагом 5 баллов, а также фиксированные значения по 10, 20, 30, 40, 50, 60, 70, 80, 90 и 100 баллов. Учитывая большое количество данных, на рис. 4 приведены за-

кономерности для случаев, когда на входы синхронно подавались значения в диапазоне от 0 до 100 баллов с шагом 5 для:

- первой серии первого эксперимента показан на рис. 4а;

- второй серии первого эксперимента показан на рис. 4б;

- первой серии второго эксперимента показан на рис. 4в;

- второй серии второго эксперимента показан на рис. 4г.

в г

Рис. 4. Закономерности поведения СНВ

Во всех экспериментах заметна тенденция группировки выходных значений в окрестностях значений термов выходной переменной, при увеличении количества иерархий эта тенденция становится более явной. Выходные значения пятого уровня иерархии имеют ступенчатый характер, тогда как выходные значения СНВ первого уровня иерархии имеют более плавный вид. Общий анализ результатов экспериментов позволяет сделать заключение, что:

- при увеличении количества иерархий в вычислительной системе наблюдается группировка выходных значений по определенным областям;

- количество формируемых групп с одинаковыми значением выходной оценки пропорциональна количеству термов, которые описывают выходную переменную;

- устойчивость результатов группировки наблюдалась после четвертого уровня иерархии;

- области концентрации значений привязаны к значениям термов выходных переменных.

Таким образом, при увеличении уровней иерархии модель, построенная при помощи ИСНВ, теряет чувствительность и ее выходные значения устойчивы относительно значений ФП выходной переменной. В результате ИСНВ фактически становится классификатором оцениваемых объектов по группам состояний. Классификационная способность ИСНВ пропорциональна мощности терм-множества выходной переменной. Общим признаком объектов одного класса является итоговая оценка. Классификатор позволяет разделить исходное множество объектов на подмножества объектов с оценками, соответствующими значениям термов выходной переменной. Подобная классификация позволяет, например, ранжировать объекты по очередности оказания управляющих воздействий, построить график распределения комплексного состояния объектов по определенной территории и решить ряд других задач, в которых важно знать усредненное состояние элементов.

Для оказания управляющего воздействия на определенный элемент необходимо определить, к какой подгруппе внутри выделенного класса этот объект относится. Спецификой подобной задачи является то, что объекты внутри каждой из подгрупп должны незначительно отличаться друг от друга в пределах ограниченных рамок. Следующим этапом исследования стало предложение положений для разделения класса объектов на подгруппы, в которых различие объектов ограничено установленными допусками.

5. Разделение объектов одного класса на подгруппы близких элементов

Как описывается в работах [1, 4, 6, 11] задачи распределения объектов по группам с близкими свойствами при условии неизвестности общего количества групп решаются методами кластеризации. Анализ [1, 4, 6, 11] показал, что алгоритмы кластеризации можно разделить на два вида:

- алгоритмы, в которых проводится расчет «усредненного» центра кластера, с учетом свойств анализируемых объектов, примерами являются алгоритмы ^-средних и с-средних;

- алгоритмы, в которых в роли центра кластера выступают определенные вершины анализируемой выборки, а сами объекты выделяются в группу относительно близости к этим вершинам, примером является алгоритм горной кластеризации (АГК) и его модификации.

Учитывая, что в рамках проводимых исследований необходимо выделять объекты близкие к некоторому образцу, который нужно идентифицировать в исходном множестве то применение АГК более целесообразно, так как с его помощью изначально определяется вершина, являющаяся центром некоторой группы.

Работа АГК заключается в выполнении следующей последовательности операций [1, 4, 6, 11]:

1. Задается функция ¿(Хд, Хр) c помощью которой рассчитывается расстояние между элементами Хд и Хр (описываемые векторами < ,..., хчп > и < хр ,..., хр >), включенными в анализируемое множество Ь = {Хг}: г = 1, Я , где Я - общее количество элементов множества; часто функция ¿(Хд, Хр) определяется как евклидово расстояние:

( п \112

(8) 3(Лп,Хр) = X(хП -хР)2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

м=1

2. Элементы выборки, которые могут быть определены как центры кластеров, обозначаются в виде подмножества

Н = {ht}: t = 1,T, часто справедливо L = H.

3. Для элементов ht рассчитывается метрика 3, показывающая возможность формирования кластера в ее окрестности:

R

(9) 3] =Re~r5(hЛ) ,

r=1

где у - константа, описывающая показатель масштаба расстояния между объектами; часто величина определяется как Udmean, где dmean - среднее расстояние между элементами множества L, в результате формируется множество значений полученных

метрик {3]} = V1;

4. Центром первого кластера hc.i назначается элемент ht с максимальным значением метрики 3] :

(10) hc.i = argmax({3t1}) .

5. При определении центра последующего кластера влияние предыдущего кластера исключается, - это выполняется за счет повторного расчета метрик оставшихся вершин ht, для этого от текущего значения 3] оставшихся точек ht отнимается вклад уже определенного центра кластера hc.i:

(11) 3 =3 .e-P-s(h',hci),

v ' t t t.max '

где в - положительная константа, характеризующая размер кластера (часто полагают в = у);

6. Центром второго кластера hc.2 назначается элемент ht с максимальным значением 3f :

(12) hc2 = argmax({32}).

7. Операции 5 и 6 выполняются до наступления условия

(13) 3vt <3 ,

v ' t.max ^доп'

где v - номер итерации описываемого алгоритма, 3.доп - минимально допустимое значение метрики 3 (например,

3t.доп ~ 0,1 31 t.max).

Включение определенной вершины в кластер с центром кг,с определяется на основании степени принадлежности цн , которую можно определить соотношением

(14) Ми, = 1 -5Ь, A.1/\1,max,

где 8к тах - расстояние между центром кластера и максимально удаленной от него вершиной.

Применение описанных операций ограничивается тем, что часто интерес представляет часть объектов, включенных в кластер Иг, при условии, что эти объекты находятся в окрестности центра кластера на расстоянии не более величины е.

Таким образом, возникает задача выделения из кластера Иt

подмножества элементов И/, для которых расстояние между вершиной кг и любым элементом выделенного подмножества Иг не должно превышать величины е. Решение задачи проводится при помощи использования метрики Хаусдорфа [7]. Сущность применения этой метрики заключается в том, что объект Ь с И/ признается элементом подмножества И/, если расстояние 8^ ^ меньше наперед заданного числа е - радиуса окрестности. С учетом [3, 15] предлагается интерпретация метрики Хаусдорфа в виде решения й (И/) о включении й (И?) = 1 или не включении й(И?) = 0 вершины кг в подмножество И/ :

IX 8 * <е,

(15) й (И/) = ] 8 Л1

1°А л., >/

если условие выполняется для нескольких центров кластеров, то объект ставится в соответствие с кластером, расстояние до центра которого минимально.

После формирования подгрупп И/ для всех центров кластеров может остаться подмножество элементов И^, для которых й(И/) = 0 . Для этого подмножества проводится повторное определение центров кластеров при помощи соотношений (8)-(13) с последующим определением вершин, для которых вы-

полнимо условие (15). Выполнение операций остановится, когда все вершины будут распределены по кластерам или останутся вершины в окрестности, которых не будут включены другие вершины. Такие вершины признаются кластерами, которые содержат один элемент. С учетом (8)-(15) разделение групп, полученных ИСНВ можно описать последовательностью операций:

1. Расчет центров кластеров в каждом из выделенных классов объектов, имеющих определенную интегральную оценку.

2. Выделение объектов, которые наиболее близки к рассчитанным центрам кластеров.

3. Расчет центров кластеров для элементов, оставшихся внутри класса.

После формирования групп элементов с близкими свойствами для каждой из групп возможно формирование общего управляющего воздействия в виде сценария а^ . Совокупность

сценариев аЕг для класса объектов образует множество сценариев воздействий ¥у на объекты, получивших определенную оценку у0^. Объединение совокупностей сценариев ¥у образует множество управляющих воздействий Y на все множество L анализируемых элементов:

эксперт ^тах утах

(16) УЩ ^ а: : и<=% : 0^у =

1=1 у=1

Таким образом, совокупность теоретических положений (1)—( 16) формирует аналитический комплекс для обработки информации, позволяющий из множества исследуемых объектов выделять подмножества элементов с одинаковой интегральной оценкой, а затем из каждого подмножества выделять группы объектов с близкими значениями оцениваемых параметров.

6. Исследование работоспособности предложенных положений

В рамках исследований построена ИСНВ для выделения близких по заданным геометрическим размерам элементов вы-

борки. В качестве выборки использована база данных цветов ирисов, содержащаяся в файле «Iris.data» [18]. Атрибуты каждого из объектов и диапазон и значений следующие:

- длина чашелистика (англ. sepal length): 4,3 ^ 7,9 см;

- ширина чашелистика (англ. sepal width): 2,0 ^ 4,4 см;

- длина лепестка (англ. petal length): 1,0 ^ 6,9 см;

- ширина лепестка (англ. petal width): 0,1 ^ 2,5 см.

В рамках эксперимента необходимо сформировать подмножество элементов, которое будет соответствовать условиям: длина чашелистика примерно 5,4 см и более; ширина чашелистика примерно 3,0 см и более; длина лепестка примерно 4,0 см; ширина лепестка примерно 1,2 см. Для описания входных переменных используются ФП, показанные на рис. 1а, агрегирование переменных проводится при помощи СНВ, поверхность БЗ которой показана на рис. 2а. Операторы для преобразования входных переменных от абсолютных значений к относительным с учетом положений (6), (7) и условий задачи имеют вид:

- для длины чашелистика:

(17)

pSL = г norm

PSL

.т\, norm PSL

Jr 2, norm PSL

Jr 3, norm PSL

.г 4, norm

= 0: pf e [0; 4,7); = 250 • pf -1175: pS2L e [4,7; 4,9); = 100 • p2L - 440: p2L e [4,9; 5,4); = 100: p2L e [5,4; + <»).

для ширины чашелистика:

(18) p2W = ,

.г norm

p:

p2w

Jr2,norm p2W

.г 3, norm p2W

.г 4,norm

= 100: pSW e [0; 3,0); = -50 • p2W + 250: pf e [3,0; 3,5); = -150 • p2W + 600: p2W e [3,5; 4,0); = 0: p2W e [4,0; +<»).

- для длины лепестка:

(19) pPL = <

г norm

farm = 0: PpL e [0; 2,0);

pPLo

ppL

г 3, norm PPL

± 4, norm

pPL Jr 5, norm

pPL .г 6, norm

= ж. pP2L _ 220: ppL e [2,0; 3,5); = 100- ppL _ 300: ppL e [3,5; 4,0); = _ 125-PpL _ ^: PPL e [4,0; 5,2); = _250-ppL +1350: p5PL e[5,2; 5,4); = 0: pPL e [5,2; + <»).

для ширины лепестка:

' „Р№ П • „Р№ г- гп. п

Р\,погт = 0 • Р е [0; 0,6);

(20) ppw =

.г norm

vPW

.г 2, norm PPW

.г 3,norm PPW

.г 4, norm ppw

±5,nor

vpw

xo,nor

= \87,5 • Рррп - \\2,5 • Рррп е [0,6; \,0); = \25 • ррп - 50 • ррп е [\,0; \,2); = -62,5 • ррп +175: ррп е [\,2; \,6); = -187,5 • ррп + 375 • ррп е [\,6; 2,0); = 0: рРп е [2,0; + <ю).

Анализ соотношений (17)-(20) показал, что до преобразования длина чашелистика имеет положительную корреляцию с итоговой оценкой, ширина чашелистика - отрицательную, а длина и ширина лепестка имеют точки оптимума соответственно в точках 4,0 и 1,2 см.

На первом уровне иерархии СНВ №1 агрегировала пара-

SL

метРы Pn0rm

и pSW

У norm '

СНВ №2 агрегировала параметры ррОггт и ррпт . На втором уровне иерархии СНВ №3 агрегировала переменные, полученные при помощи СНВ №1 и СНВ №2. Результат распределения выходных значений в соответствии с нумерацией в базе данных показан на рис. 5а. Группировки выходных оценок в порядке их возрастания - на рис. 5б. Анализ рис. 5 показывает выполнение закономерности о группировки значений выходной переменной в определенных областях.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 5. Выходные значения исследуемой ИСНВ

Перечень объектов выборки, которые наилучшим образом соответствуют задачи классификации, приведены в таблице 1.

Таблица 1. Перечень элементов набравших по 50 баллов выходной оценки

Номер Длина Ширина Длина Ширина

элемента чашелисти- чашелистика, лепестка, лепестка,

в выборке ка, см см см см

75 6,4 2,9 4,3 1,3

83 5,8 2,7 3,9 1,2

89 5,6 3 4,1 1,3

95 5,6 2,7 4,2 1,3

96 5,7 3 4,2 1,2

97 5,7 2,9 4,2 1,3

98 6,2 2,9 4,3 1,3

100 5,7 2,8 4,1 1,3

Дисперсия 0,09 0,01 0,02 0,00

Анализ таблицы 1 показывает низкий разброс параметров объектов внутри выборки, что подтверждается малым значением дисперсии. Анализ других выборок показал, что при одинаковом значении интегральной оценки может наблюдаться большой разброс значений параметров. Примером является выборка объектов, набравших 50 баллов, которая приведена в таблице 2. Для выделения групп объектов с близкими параметрами потребовалась их кластеризация.

Таблица 2. Перечень элементов набравших по 50 баллов выходной оценки

Номер Длина Ширина Длина Ширина

элемента чашелистика, чашелистика, лепестка, лепестка,

в выборке см см см см

54 5,5 2,3 4 1,3

58 4,9 2,4 3,3 1

61 5 2 3,5 1

63 6 2,2 4 1

72 6,1 2,8 4 1,3

78 6,7 3 5 1,7

80 5,7 2,6 3,5 1

84 6 2,7 5,1 1,6

90 5,5 2,5 4 1,3

93 5,8 2,6 4 1,2

94 5 2,3 3,3 1

107 4,9 2,5 4,5 1,7

134 6,3 2,8 5,1 1,5

Дисперсия 0,33 0,08 0,42 0,08

С использованием положений (8)-(13) определены три вершины, которые можно назначить центрами кластеров, ими стали объекты номер 90, 94, 134. При помощи метрики Евклида было определено расстояние от центров кластеров до остальных объектов класса, результаты расчета представлены в таблице 3.

С учетом (15) принимается, что объект относится к определенному кластеру, если расстояние между ним и центром кластера не более 1 см (е< 1). Если условие выполнимо для нескольких вершин сразу, то объект признается относящимся к тому центру, до которого расстояние минимально. На основании таблицы 2 сформирован перечень групп объектов, наиболее близких к центрам кластеров, который представлен в таблице 4, также в таблице приведены значения дисперсии по каждому из параметров внутри всех полученных групп объектов.

Таблица 3. Расстояния от объектов до центров кластеров

Номер Расстояние Расстояние Расстояние

элемента до вершины до вершины до вершины

в выборке №90, см №94, см №134, см

54 0,20 0,91 1,46

58 0,97 0,14 2,37

61 0,92 0,36 2,27

63 0,66 1,22 1,38

72 0,67 1,43 1,14

78 1,69 2,60 0,50

80 0,62 0,79 1,79

84 1,26 2,18 0,33

90 0,00 0,93 1,41

93 0,33 1,12 1,26

94 0,93 0,00 2,33

107 0,88 1,41 1,57

134 1,41 2,33 0,00

Таблица 4. Распределение объектов по кластерам

Номер Длина Ширина Длина Ширина

элемента чашелистика, чашелистика, лепестка, лепестка,

в выборке см см см см

Кластер №1

54 5,5 2,3 4 1,3

63 6 2,2 4 1

72 6,1 2,8 4 1,3

80 5,7 2,6 3,5 1

90 (центр кластера) 5,5 2,5 4 1,3

93 5,8 2,6 4 1,2

107 4,9 2,5 4,5 1,7

Дисперсия 0,16 0,04 0,08 0,06

Кластер №2

58 4,9 2,4 3,3 1

61 5 2 3,5 1

94 (центр кластера) 5 2,3 3,3 1

Дисперсия 0,00 0,04 0,01 0,00

Продолжение таблицы 4

Номер элемента в выборке Длина чашелистика, см Ширина чашелистика, см Длина лепестка, см Ширина лепестка, см

Кластер №3

78 6,7 3 5 1,7

84 6 2,7 5,1 1,6

134 (центр кластера) 6,3 2,8 5,1 1,5

Дисперсия 0,12 0,02 0,00 0,01

Анализ таблиц 2 и 4 показывает, что в выделенных группах снизилась дисперсия по всем параметрам, характеризующим состояние объекта. Подобное позволяет придти к выводу, что внутри групп находятся объекты с более близкими значениями параметров.

7. Заключение

В ходе исследований, предложены положения по предварительной подготовке и постобработке данных для иерархических систем нечеткого вывода. Предварительная подготовка данных заключается в реализации операции нормализации значений входных различных параметров к единой шкале. Реализация положений основана на использовании кусочных функций. После нормализации все параметры приобретают положительную корреляцию с выходной оценкой. Применение предложенных положений упрощает формирование базы правил системы нечеткого вывода, поскольку ее выходная поверхность, интерпретирующая результат взаимодействия входных переменных, принимает монотонно неубывающий характер. Анализ закономерностей изменения оценок в зависимости от количества уровней иерархий в вычислительной системе позволил установить свойство группировки выходных оценок в окрестностях значений термов, описывающих выходную переменную. В результате ИСНВ становится классификатором анализируемых объектов

по группам состояний. Принадлежность к группе определяется величиной итоговой оценки.

Для распределения объектов внутри класса предложена последовательность операций, позволяющих определить объекты, которые могут выступать в роли центра группы, а затем выделять из класса группу объектов, которые наиболее близки к центрам. Реализация положений основана на совместном использовании алгоритма горной кластеризации, Евклидовой метрики и метрики Хаусдорфа. Проведенный эксперимент по оценке элементов множества согласно заранее установленных условий, подтвердил работоспособность предложенных положений. В результате была сформирована группа объектов, которая полностью соответствуют поставленному заданию, эти объекты получили максимальную оценку и были выделены группы объектов, которые частично соответствовали требованиям поставленной задачи. Внутри групп были выделены типичные представители, а потом определены перечни наиболее близких к ним объектов.

Предложенные теоретические положения расширяют возможности использования систем нечеткого вывода в процессе анализа объектов различных видов сложных систем.

Литература

1. АНАНЧЕНКО И.В., ЗУДИЛОВА Т.В., ПОЛИН Я.А., ОСЕТ-РОВА И.С. О применимости алгоритмов кластеризации для борьбы со спамом в социальных сетях // Современные наукоемкие технологии. - 2020. - №4-2. - С. 190-194.

2. ВЕРЕТЁХИН А.В. Управление уровнем эколого-экономической безопасности промышленного предприятия с применением нечетко-множественного инструментария // Вестник Забайкальского государственного университета. - 2017. - Т. 23, №6. - С. 128-138. - DOI: 10.21209/2227-9245-2017-23-6-128138.

3. ЗЁРНЫШКИН А.Е., СИЗОВ А.С., ДОБРИЦА В.П., ГОЛОВИН А.А., ХАЛИН Ю.А. Модель оценки привлекательности поставщика товарно-материальных ценностей логистиче-

ских компаний // Вестник Брянского государственного технического университета. - 2019. - № 3(76). - С. 78-85.

4. ЗУБКОВА Т.М., НАТОЧАЯ Е.Н. Использование горного алгоритма для оценки затрат при проектировании программных проектов // Программные продукты и системы. - 2018. - №1. -С.134-139.

5. КАРЕЛИН А.Е., БЕРЕЗА А.Н. Экспертная система для поддержки принятия решений оператора в системе электроснабжения города // Инженерный вестник Дона. - 2019. -№4(55). - С. 28.

6. ЛЕОНЕНКОВ А.В. Нечеткое моделирование в среде MATLAB и fuzzyTech. - СПб.: БХВ-Петербург, 2005. - 736 с.

7. ЛЕОНТЬЕВ В.К. О мерах сходства и расстояниях между объектами // Журнал вычислительной математики и математической физики. - 2009. - Т. 49, №11. - С. 2041-2058.

8. НИКИТИН В.В., БОБИН Д.В., НАЗАРОВ А.А. Моделирование интегрального показателя комплексной оценки объектов исследования // Вестник Чувашского университета. - 2015. -№3. - С. 172-177.

9. ПЕГАТ А. Нечеткое моделирование и управление. - М.: Бином. Лаборатория знаний, 2017. - 800 с.

10. ПОЛЕШКИНА И.О., ВАСИЛЬЕВА Н.В. Технология Blockchain как инструмент управления цепями поставок с участием воздушного транспорта // Научный вестник Московского государственного технического университета гражданской авиации. - 2020. - Т. 23, №2. - С. 72-86.

11. ПТАШКО Е.А., УХОБОТОВ В.И. Автоматическая генерация нечетких правил для управления мобильным роботом с гусеничным шасси на основе числовых данных // Вестник ЮжноУральского государственного университета. Серия: Вычислительная математика и информатика. - 2017. - Т. 6, №3. - С. 60-72.

12. САНАЕВА Г.Н., ПРОРОКОВ А.Е., БОГАТИКОВ В.Н., ВЕНТ Д.П. Иерархическая система нечеткого регулирования процесса получения ацетилена окислительным пиролизом природного газа // Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная

техника и информатика. - 2020. - №1. - С. 7-17. - DOI: 10.24143/2072-9502-2020-1-7-17.

13. ЧУВИКОВ Д.А. Универсальные алгоритмы взаимодействия экспертной системы и системы имитационного моделирования // T-Comm: Телекоммуникации и транспорт. - 2017. -Т. 11, №4. - С. 34-40.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

14. ШТОВБА С.Д. Проектирование нечетких систем средствами MATLAB. - М.: Горячая линия-Телеком, 2007. - 288 с.

15. Alrashoud M. Hierarchical Fuzzy Inference System for Diagnosing Dengue Disease // IEEE Int. Conf. on Multimedia & Expo Workshops (ICMEW), Shanghai, China, China. - 2019. - P. 31-36. -DOI: 10.1109/ICMEW.2019.00013.

16. ALRASHOUD M., HAZZA E., ALQAHTANI F., AL-HAMMADI M., ABHARI A., GHONEIM A. Cognitive and Hierarchical Fuzzy Inference System for Generating Next Release Planning in SaaS Applications // IEEE Access. - 2019. - Vol. 7. -P. 102966-102974. - DOI: 10.1109/ACCESS.2019. 2929214.

17. ELBAHRI F.M., AL-SANJARY O.I., ALI M.A.M., NAIF Z.A., IBRAHIM O., MOHAMMED M. N. Difference Comparison of SAP, Oracle, and Microsoft Solutions Based on Cloud ERP Systems: A Review // IEEE 15th Int. Colloquium on Signal Processing & Its Applications (CSPA), Penang, Malaysia, 2019. - P. 65-70. -DOI: 10.1109/CSPA.2019.8695976.

18. Iris data set, Machine Learning Repository. - URL: https:// archive.ics.uci.edu/ml/datasets/iris

19. LIU Y., HE J., GUO M., YANG Q., ZHANG X. An Overview of Big Data Industry in China // China Communications. - 2014. -Vol. 11(12). - P. 1-10. - DOI: 10.1109/CC.2014.7019834.

20. LU R., JIN X., ZHANG S., QIU M., WU X. A Study on Big Knowledge and Its Engineering Issues. IEEE Transactions on Knowledge and Data Engineering, Vol.: 31, Iss.: 9. - 2019. -P. 1-14. - DOI: 10.1109/TKDE.2018.286686.

21. PEREIRA S., KARIA D. AI Use Cases in Operational Support System and Business Support System // 3rd Int. Conf. on Communication and Electronics Systems (ICCES), Coimbatore, India. -2018. - P. 15-20. - DOI: 10.1109/CESYS.2018.8724092.

IMPROVEMENT OF INFORMATION-ANALYTICAL COMPLEXES BASED ON HIERARCHICAL SYSTEMS OF FUZZY OUTPUT

Alexandr Sorokin, Astrakhan State Technical University, Astrakhan, Cand.Sc., associate professor (alsorokin.astu@mail.ru).

Abstract: Provisions for the improvement of computing .systems based on the use of hierarchical fuzzy inference systems associated with preliminary data preparation and subsequent interpretation of the results are proposed. Data preparation is based on performing operations to normalize the input parameter values to a scale with the same range of values, provided that these values have a positive correlation with the values of the output variable. The implementation of the provisions is based on the use of piecewise functions. The use of provisions makes it possible to simplify the formation of production rules in the knowledge base of the fuzzy inference system. The study of the behavior of changes in estimates depending on the number of levels of hierarchies in the computing system made it possible to identify a property associated with the grouping of output estimates in the vicinity of the values of the terms that describe the output variable. This made it possible to refer the hierarchical system offuzzy inference to the classifier of the analyzed objects by their state, taking into account the criteria of the assessment. Belonging to a certain class is determined by the value of the integral final grade. For the identify groups of objects with similar properties within classes, a set of operations is proposed based on the sequential use of the mountain clustering algorithm, the Euclidean metric and the Hausdorff metric. The use of operations makes it possible to single out typical representatives of the studied classes, and then determine the objects that are closest to them in terms of parameters, taking into account the established restrictions on deviations. The experiment carried out confirmed the efficiency of the proposed provisions.

Keywords: hierarchical system of fuzzy inference, normalization of input variables, clustering, Hausdorff metric, object classifier, mountain clustering algorithm.

УДК 004.8 ББК 22.18

DOI: 10.25728/ubs.2020.88.5

Статья представлена к публикации членом редакционной коллегии Г.А. Угольницким.

Поступила в редакцию 12.08.2020.

Опубликована 30.11.2020.

УСОВЕРШЕНСТВОВАНИЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ КОМПЛЕКСОВ НА ОСНОВЕ ИЕРАРХИЧЕСКИХ СИСТЕМ НЕЧЁТКОГО Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Сорокин Александр Александрович

Похожие темы научных работ по математике , автор научной работы — Сорокин Александр Александрович

IMPROVEMENT OF INFORMATION-ANALYTICAL COMPLEXES BASED ON HIERARCHICAL SYSTEMS OF FUZZY OUTPUT

Текст научной работы на тему «УСОВЕРШЕНСТВОВАНИЕ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИХ КОМПЛЕКСОВ НА ОСНОВЕ ИЕРАРХИЧЕСКИХ СИСТЕМ НЕЧЁТКОГО»