Научная статья на тему 'Построение диагностических экспертных систем на основе нейронных сетей'

Построение диагностических экспертных систем на основе нейронных сетей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
628
153
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Соловьев В.М.

В работе рассмотрены вопросы построения диагностических экспертных систем (ДЭС) на основе нейронных сетей (НС) с латеральным торможением. Предложены методы обучения таких сетей. Проанализированы вопросы получения диагностической информации в гетерогенной вычислительной сети и использования априорной информации о значимости диагностических признаков. Результаты работы могут быть использованы при построении нейросетевых диагностических систем (кластеризаторов).

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Construction of diagnostic expert systems on the basis of neural networks

In work questions of construction of diagnostic expert systems (DES) on the basis of neural networks (NN ) with lateral braking are considered. Methods of training of such networks are offered. Questions of reception of the diagnostic information in the heterogeneous computer network and uses of the aprioristic information on the importance of diagnostic attributes are analyses. Results of work can be used at construction NN diagnostic systems (clustering).

Текст научной работы на тему «Построение диагностических экспертных систем на основе нейронных сетей»

9. McNaughton R. Testing and generating infinite sequences by a finite automaton// Information and Control. 1966. Vol. 9. P. 521-530.

10. Wilke T. An algebraic theory for regular languages of finite and infinite words// Inter. J. of Algebra and Computation. 1993. Vol. 3. P. 447-489.

11. RamseyF.D. On a problem of formal logic// Proc. London Math. Soc. 1929. Vol.30. P. 338-384.

12. Molchanov V.A. Nonstandard approach to general rational languages // Contributions to General Algebra 13, Proceedings of the Dresden Conference 2000 (AAA60) and the Summer School 1999, Verlag Johannes Heyn, Klagenfurt. 2001. P. 233-244.

удк 681.322:681.5

построение диагностических экспертных систем на основе нейронных сетей

В. М. соловьев

Саратовский государственный университет,

кафедра математической кибернетики и компьютерных наук

E-mail: solovyevvM@info.sgu.ru

в работе рассмотрены вопросы построения диагностических экспертных систем (дЭС) на основе нейронных сетей (нС) с латеральным торможением. Предложены методы обучения таких сетей. Проанализированы вопросы получения диагностической информации в гетерогенной вычислительной сети и использования априорной информации о значимости диагностических признаков. результаты работы могут быть использованы при построении нейросетевых диагностических систем (кластеризаторов).

1. постановка задачи

13. Альбеверио С., Фенстад Й., Хеэг-Крон Р., Линдст-рем Т. Нестандартные методы в стохастическом анализе и математической физике. М.: Мир, 1990. 616 с.

14. Молчанов В.А. О естественном продолжении теории рациональных языков на языки произвольных слов // Математика. Механика: Сб. науч. тр. Саратов: Изд-во Сарат. ун-та, 2004. Вып. 6. С. 90-93.

15. Молчанов В.А. Нестандартные сходимости в пространствах отображений // Сиб. мат. журн. 1992. Т. 33, № 6. С. 141-153.

16. ЛаллеманЖ. Полугруппы и комбинаторные приложения. М.: Мир, 1985.

17. Кон П. Универсальная алгебра. М.: Мир, 1968.

Construction of Diagnostic Expert systems on the Basis of Neural Networks

V.M. solovyev

In work questions of construction of diagnostic expert systems (DEs) on the basis of neural networks (NN) with lateral braking are considered. Methods of training of such networks are offered. Questions of reception of the diagnostic information in the heterogeneous computer network and uses of the aprioristic information on the importance of diagnostic attributes are analyses. Results of work can be used at construction NN diagnostic systems (clustering).

Традиционно для определения технического состояния сложных систем применяются статистические и эвристические методы диагностирования. В них используется небольшое число диагностических параметров, большие размеры выборок значений параметров (генеральные совокупности), техническое состояние легко определяется только по этим параметрам [7]. Если же техническое состояние трудно определимо и число диагностических параметров становится большим, то применяются диагностические экспертные системы (ДЭС). Однако если размеры выборок значений параметров малы, то ДЭС на основе статистических и эвристических методов не позволяют решить задачу определения технического состояния с достаточной достоверностью [4]. Обладая лишь информацией о симптомах дефекта по нескольким случайно выбранным диагностическим параметрам, невозможно построить приемлемую диагностическую модель. Поэтому возникла необходимость в построении новых ДЭС, использующих технологию добычи знаний (Data Mining) из больших массивов диагностических данных по малым выборкам. Необходимо разработать методы построения таких ДЭС на основе интеллектуальной технологии Data Mining, используемой для нахождения диагностических моделей и отношений, скрытых в сетевых базах диагностических данных.

Современные диагностические средства гетерогенных вычислительных сетей для определения технического состояния используют отобранные из базы диагностических данных X ограниченные выборки параметров вычислительной сети {Xs} е X. При этом техническое состояние сети состоит из m категории A = л (м, g, v) и характеризуется конечным числом симптомов S, определяемым по значениям диагностических параметров . Необходимо найти оператор (установить диагноз), удовлет-

воряющий заданной глубине и достоверности определения технического состояния вычислительной сети, позволяющий на основании значений диагностических параметров найти соответствующее им техническое состояние Y.

2. НЕЙРОННАЯ СЕТЬ С ЛАТЕРАЛЬНЫМ ТОРМОЖЕНИЕМ

В настоящее время наиболее массовое применение нейронных сетей (НС) отмечается в задачах классификации и кластеризации (категоризации) данных [5, 6]. Эти две задачи интеллектуальных вычислений существенно отличаются друг от друга. Задачей классификаторов является установление принадлежности образа к одному из формально определенных классов. Формальные признаки класса могут быть определены посредством правил логического вывода типа «если... - то ...» и эти правила стали основой построения традиционных экспертных систем. Термин «класс» определяется в них как совокупность предметов или понятий (образов), выделенных и сгруппированных в определенном признаковом пространстве или по определенным правилам. Под классификацией понимается отнесение некоторого образа к классу, выполняемое по этим формальным правилам и по совокупности признаков. Кластер (категория) определяет лишь некоторые общие свойства образов и связи между ними. Задача кластеризации как задача определения отношения данного образа к некоторой категории гораздо менее определена, чем задача отношения к классу. Границы различных категорий являются нечеткими, расплывчатыми и обычно сама категория понимается не через формальное определение, а только в сравнении с другими категориями. Границы классов, напротив, определены достаточно точно. Образ относится к данному классу, если известно, что он обладает необходимым числом признаков, характерных для этого класса.

Проблема кластеризации более сложная в сравнении с классификацией [1, 2]. Особенность ее заключается в том, что помимо отнесения образа к какой-либо группе требуется определить сами эти группы, т.е. сформировать категории. В случае обучения с учителем формирование категорий происходит методом проб и ошибок на основе примеров с известными ответами, предоставляемыми экспертом. Формирование категорий весьма напоминает процесс обучения у живых организмов, поэтому обычно эксперта называют «супервизором» или учителем. Учитель управляет обучением при помощи изменения параметров связей и реже - самой архитектуры сети. Задачей кластеризации является формирование обобщающих признаков в совокупности примеров. При увеличении числа примеров несущественные, случайные признаки сглаживаются, а часто встречающиеся - усиливаются, при этом происходит постепенное уточнение границ кластеров. Хорошо обученная НС способна извлекать признаки из новых примеров, ранее неизвестных диагностической системе, и принимать на их основе решения [3]. Обучаемые нейронные сети могут производить из данных скрытые знания, т.е. создавать навык формирования категорий, но его логическая структура обычно остается скрытой от пользователя. Производство знаний из накопленных данных - одна из особенностей самоорганизующихся сетей (карт) Кохонена (Kohonen Self-organizing Map, SOM), ориентированных на кластерный анализ.

Нейрофизиологи доказали, что в мозге нейроны располагаются в определенном порядке. Внешние физические воздействия вызывают отклик нейронов только из определенной области мозга. Самоорганизующиеся карты Кохонена в некоторой степени напоминают процессы, происходящие в мозге. Пусть для определения технического состояния вычислительной сети выбраны три параметра: утилизация сети, число искаженных пакетов и число широковещательных пакетов в сети (их может быть любое количество). Эти три параметра являются координатами в трехмерном пространстве и с определенной достоверностью описывают техническое состояние вычислительной сети (выбрано признаковое пространство). Тогда каждой точке в этом пространстве будет соответствовать определенное техническое состояние сети, рис. 1, а. Так как диагностические параметры имеют разную физическую природу и размерность, их необходимо пронормировать в интервал [0,1], в результате чего все точки попадут в единичный куб. Из рис. 1, а видно, как расположены в нормированном признаковом пространстве векторы, представляющие техническое состояние сети, причем легко заметить участки (кластеры),

где они группируются, т.е. у них схожие значения признаков-симптомов, а значит, и кластеры с большой долей вероятности могут определить техническое состояние. Но так можно поступить только в случае, когда параметров немного и пространство легко визуализировать. В примере пространство трехмерное, а как можно изобразить четырехмерное пространство или и-мерное? Необходимо найти способ, которым можно преобразовать п-мерное признаковое пространство в простую для анализа, желательно двумерную систему. Для этого можно использовать самоорганизующуюся карту Кохонена (БОМ) - карту особенностей. В первом приближении ее можно представить в виде сети, изготовленной из резины (рис. 1, б).

а б

Рис. 1. Признаковое пространство технического состояния вычислительной сети (а), состояния вычислительной сети после наложения БОМ (б)

Предварительно «скомкав», набрасывают эту сеть на признаковое пространство, а далее берут один вектор технического состояния (точку в этом пространстве) и находят ближайший к нему узел сети. После этого узел подтягивают к выбранной точке, а так как сетка «резиновая», вместе с этим узлом, но в меньшей степени, подтягиваются и соседние узлы. Затем выбирают другую точку, и процедура повторяется. В результате получают карту, расположение узлов которой совпадает с расположением основных кластеров в исходном признаковом пространстве. Полученная таким образом самоорганизующаяся карта обладает рядом замечательных свойств. Узлы ее располагаются так, что симптомам, похожим между собой, соответствуют соседние узлы карты в заданном метрическом пространстве (рис. 1, б). Таким образом, сеть выполняет отображение входного многомерного пространства на двумерную решетку с сохранением топологической упорядоченности входных данных. Симптомы со схожими наборами параметров попадут в один узел или в соседние узлы, т.е. решается задача поиска похожих состояний сети и формирование категорий.

Карта особенностей позволяет также представить диагностическую информацию в простой и удобной для анализа форме путем нанесения раскраски. Для этого раскрашивают узлы полученной карты цветами, соответствующими интересующим признакам. После нанесения раскраски получают зоны, которые соответствуют зонам определенного технического состояния, в том числе и зонам, отнесенным к отказам сети. Попадание параметров в эти зоны или приближение к ним позволяет принять решение на устранение дефектов или реконфигурацию сети. Можно также получить информацию о зависимостях между «независимыми» параметрами. Нанеся на карту раскраску, соответствующую различным симптомам, можно получить так называемый «атлас», хранящий в себе информацию о состоянии вычислительной сети. При анализе состояния сети, сравнивая расположение цветов в «атласе», порожденных различными симптомами, можно получить полную информацию о причинно-следственных связях в сети. Таким образом, самоорганизующаяся карта может быть представлена в

виде слоеного пирога, каждый слой которого имеет соответствующую раскраску, порожденную симптомами. Полученный «атлас» может использоваться для анализа закономерностей, имеющих место среди исследуемого набора диагностических данных. Процесс анализа при помощи SOM сводится к получению проекций признаковых пространств соответствующих метрик (свертки пространств) и анализу образующихся кластеров. Таким образом, имея самоорганизующуюся карту вычислительной сети (обученную сеть Кохонена) и зная информацию о некоторых симптомах (признаках), можно достаточно достоверно судить о состояниях вычислительной сети, с которыми до этого диагностическая система была незнакома. Если нужно узнать что-либо, даже о произвольных диагностических параметрах, то необходимо отобразить их на карте и проанализировать соседей. Такая НС позволяет извлекать информацию из диагностической базы данных, основываясь на нечетких характеристиках, на боковом (латеральном) анализе соседей.

Самоорганизующиеся карты Кохонена состоят из слоя М нейронов (слоя Кохонена), образующего решетку на плоскости из прямоугольных или гексагональных ячеек, и входного сенсорного слоя из N нейронов, предназначенного для распределения входных данных между М нейронами, работающими одновременно. Нейроны в SOM латерально связаны, и каждая связь имеет определенный вес - м>}-р характер которой описывается топологической зависимостью (рис. 2, а). Причем каждому нейрону слоя Кохонена сопоставляется множество состояний входного признакового пространства, обладающих близкими свойствами. Нейроны связаны с ближайшими к нему нейронами сильными возбуждающими связями. Затем на некотором расстоянии возбуждение сменяется латеральным торможением, а далее вновь проявляются слабые возбуждающие связи.

Рис. 2. График топологической зависимости между нейронами (а), изменения контрастности активности нейрона (б)

При предъявлении на входе сети вектора диагностических параметров результатом работы сети будет один наиболее возбужденный нейрон (нейрон-победитель):

1(х) - к, причем -Х\\ < Цм^ —= 1,2,...,М,

где /(х) - индекс «нейрона-победителя», X - входной вектор диагностических параметров, м>к, м>}- - векторы весов «нейрона победителя» иу-го «соседнего» нейрона соответственно. Нейрон-победитель определяет кластер, к которому принадлежит входной вектор диагностических параметров. Таким образом, каждый нейрон соответствует определенному кластеру. Каждый нейрон слоя Кохонена связан с каждым нейроном из входного слоя, число которых равно размерности анализируемых векторов диагностических параметров. Веса связей полагают равными нормированным значениям входных векторов:

■ —

л

б

а

где Wjt- значение веса связи от /-го входного нейрона кj-му нейрону сети Кохонена, х\,xf - соответственно нормируемый вектор и все возможные вектора из множества входных векторов xf с X. Тогда активность j-го нейрона будет:

у=/4х*>,,.-©),

я

где f - функция активации нейрона (обычно сигмоида), 0 - порог активации нейрона (обычно вначале равный нулю).

При поступлении на вход вектора диагностического параметра начальное возбуждение получают все нейроны SOM, скалярное произведение которых с входным вектором превышает порог. В дальнейшем среди них выбирается один, для которого возбуждение максимально. Это достигается за счет обратных связей между нейронами по принципу латерального торможения. Каждый нейрон получает тормозящее (отрицательное) воздействие со стороны всех остальных нейронов, пропорционально степени их возбуждения, и испытывает возбуждающее (положительное) воздействие самого на себя. Вес латеральных связей в нейронном слое нормируется таким образом, что суммарный вес является возбуждающим только для нейрона с максимальной исходной активностью, а остальные нейроны испытывают торможение:

/с+1)=/[/(о-тт^х/(01

Для всех нейронов, кроме одного, значение аргумента функции активации становится отрицательным, что обращает их активность yJ в нуль. В своем взаимодействии самопроизвольно нейроны в слое Кохонена за счет увеличения числа итерации t могут усилить возбуждение нейрона-победителя (рис. 2, б). Процесс прекращается при установлении стабильного состояния, когда вектор диагностических параметров станет искомым отображением на карту признаков. Он и указывает на тот кластер, к которому принадлежит введенный диагностический параметр. Такой механизм определяется как «победитель забирает все» (Winner Take All, WTA). Суть работы сетей с латеральным торможением - применение механизма WTA.

2.1. Модель нейронной сети

Существует множество алгоритмов кластеризации, основанных на использовании мер близости между типичными объектами. Типичные объекты в них определяются через среднее арифметическое значение признаков по выборке, представляющей кластер. Каждый из алгоритмов имеет свою область применения и степень проработки, но распространенным недостатком всех их является отсутствие четкой формализации задачи. В большинстве своем совершается прямой переход от идеи кластеризации к алгоритму, в результате неизвестно, что хотят найти [3]. Поэтому формализации задач кластерного анализа с помощью НС придается большое значение.

Алгоритмы кластеризации строятся на основе итерационного метода динамических ядер, когда задана выборка векторов данных {х^} в пространство векторов диагностических признаков X, {х^} е X. Каждому кластеру будет соответствовать некоторое ядро у ] в пространстве кластеров У.., у] е У. Для каждых х^ е X и у. е У. определяется мера близости dj. Для каждого набора изМядер у1,у2,...,ут и любого разбиения {х^} на кластеры {х5} = УХУ]У1 и.-.и^, определяется критерий качества:

0 = 0(у1,у2,...,у'",У1,У2,...,Ут) = X £ ау

Требуется найти набор ядер у1,у2,...,ут и разбиение {х*5} = и^г и.-.и^,, минимизирующие Б.

Задача кластеризации разбивается на две. Во-первых, для фиксированного набора ядер у1 ,у2 ,...,ут находят разбиение {лс5} = У^ и У2 и.-.и^,, минимизирующее критерий качества Б. При этом действует дополнительное решающее правило: если для х? е X минимальное значение dJ достигается при нескольких значениях i, выбор между ними может быть сделан произвольно. Во-вторых, для каждого

кластера Ур] — \,1,...,т, полученного на первом этапе, находят ядра у} е у, минимизирующие критерий качества Di для каждого /:

Начальные значения набора ядер и кластеры могут выбираться произвольно, либо по эвристическому правилу. На каждом шаге итерационных вычислений меры близости критерий качества D уменьшается, а отсюда следует сходимость процесса разбиения, т.е. после конечного числа шагов разбиение {х5} = У1 и У2 и... II Ут

устанавливается. . £ Если ядру у] сопоставляется элемент НС, вычисляющий по входному вектору х1 меру близости d ,,

то решающее правило кластеризации, основанное на механизме WTA, будет следующим: элемент НС

принадлежит кластеру У, если выходной сигнал элемента больше всех остальных, т.е. мера близости

dj наименьшая.

Пространство кластеров технического состояния сети У, совпадает с пространством диагностических параметров X (техническое состояние определяется диагностическими признаками), а мера

£ .

близости dj - положительно определенная квадратичная форма от х1 = у] - обычно квадрат евклидовою расстояния. Это одна из простейших задач кластеризации. Тогда ядро у], минимизирующее D,, есть центр тяжести кластера У :

У'

где |у| - число элементов, составляющих кластер у. В этом случае также упрощается и разделяющее правило. Мера близости dj векторов диагностических признаков х^ и ядра кластера технического состояния у-1 определяется коэффициентом корреляции:

-мх){у] -му)

ост.

Мх ——^¿Х!, п - размерность пространства данных; М =— ^.у1, т - число кластеров; ох =

и" ' я—~ п—--

= * ~Мх)2;°у =,1—У' ~Му)2. Диагностические данные предварительно обрабатываются

-Л/

(нормируются и центрируются) по правилу х —>

Точно также будут нормированы и центрированы векторы ядер у]. Поэтому все обрабатываемые векторы и ядра принадлежат сечению единичной евклидовой сферы ||Х|| = 1 гиперплоскостью ^ х^ = 0. Задача поиска ядра заданного кластера У имеет следующее решение: !

У

X? Е 7,

В рассмотренной задаче кластеризации, когда ядро кластера определяются как нормированное среднее арифметическое диагностических параметров вычислительной сети, а решающее правило основано на вычислении меры близости как корреляции векторов диагностических признаков и ядер кластеров технического состояния, нейронная сеть, реализующая такой метод динамических ядер, является самоорганизующейся сетью Кохонена. В определении ядер у] для SOM, как видно, входят суммы

„5

К

еУ:

что позволяет накапливать (суммировать) новые динамические ядра, обрабатывая один из примеров {х5} и пересчитывая у! после появления нового примера.

Карта признаков самоорганизации Кохонена ^ОМ) является типичной нейронной сетью с латеральным торможением. Она может выполнять функции кластеризатора, для обучения которого используются выборки данных с заранее не заданной классификацией - несупервизорное обучение [8]. Задача НС - определить принадлежность входного вектора диагностических параметров 5-го экземпляра х5 = {л^ ,х2 ,...,х^}т к одному из М возможных кластеров технического состояния вычислительной сети, представленных векторными центрами (ядрами) у1,у2,...,ут латеральных связей = {и^, ] = 1,2,..., М, где Т - символ транспонирования. При этом каждый нейрон представляет собой ^-мерный вектор-столбец {щ,м>2,...,\\>ы}т. Экземпляр ьй компоненты входного набора векторов х5 в момент времени t будет ^(0, а вес ьго входа,-го узла НС - wJ■i(f), г = 1,2,...,И,_/ = 1,2,...,М. При соответствующих значениях порогов активации 0 каждый нейрон-победитель с заданной точностью будет определяться мерой близости dJ - квадратом евклидового расстояния между векторами, задаваемым

5 ■

входным вектором х1 и ядром ,-го кластера у]. Чем меньше это расстояние, тем больше мера близости входного вектора к типичному объекту кластера. Считается, что вектор х? принадлежит,-му кластеру, если расстояние ^ до центра ,-го кластера минимально. Кроме того, требуется определить набор из М ядер кластеров у ,у ,...,ут и разбиение {х5} на кластеры:

{х"} = ¥1Ш2[].М¥т.

Причем разбиение должно удовлетворять критерию минимизации суммы расстояний от принадлежащих ему точек до ядра кластера:

т

б = -> ШИ1,

7=1

где для каждого кластера У

Таким образом, минимизируется мера близости ^ по всем положениям ядер кластеров у■ и всем разбиениям пространства диагностических признаков {х5} на т кластеров у технического состояния вычислительной сети.

Число кластеров т заранее не определяется, поэтому возможна ситуация слияния кластеров у, если их ядра ближе, чем расстояние от типичного объекта до ядра в одном из них. Использовать критерий слияния кластеров можно для синтеза НС. Вначале принимают эмпирическую гипотезу о достаточном числе кластеров, строят их, минимизируя Q, затем некоторые кластеры у объединяют и повторяют минимизацию Q с новым числом кластеров.

2.2. Синтез диагностического кластеризатора

Для реализации описанной выше модели необходимо определить меру соседства нейронов в сети. Меру их близости отображают зоны топологического соседства нейронов на карте признаков в различные моменты времени - NEJ(t), множество нейронов, которые считаются соседями нейрона] в момент времени t. В процессе синтеза зоны соседства уменьшаются с течением времени. Алгоритм формирования диагностического кластеризатора на основе карт признаков можно представить в следующем виде.

1. Инициализация сети. Весовым коэффициентам сети присваиваются малые случайные значения. Общее число синаптических весов WJj - М • N. Начальная зона соседства задается размером поля NE.

2. Предъявление сети новых диагностических данных

х5.

3. Вычисление расстояния (метрики) до всех нейронов сети. Расстояния между предъявленным входным вектором диагностических признаков и каждым ,-м нейроном является мерой близости вычисляемой как квадрат евклидового расстояния между векторами:

=

1=0

где х^ (0 - экземпляр /-й компоненты входного набора векторов в момент времени t, Wji (?) - вес связи /-го входа .-го нейрона в момент времени ?.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. Выбор нейрона с наименьшим расстоянием. Выбирается нейрон.*, для которого расстояние dj наименьшее.

5. Коррекция весов нейрона и его соседей. Производится подстройка весов для нейрона и всех нейронов из его кластера NE. Новые значения весов будут определяться из следующего выражения:

где г(?) - шаг обучения, уменьшающийся с течением времени [0 < г(?) < 1].

6. Возвращение к п. 2, если не достигнута сходимость. Сходимость считается достигнутой, если вес латеральных связей стабилизировался и шаг обучения в п. 5 уменьшился до нуля.

Если число входных векторов в обучающей выборке достаточно велико по отношению к выбранному числу кластеров, то после обучения вес будут определять центры кластеров, распределенные в пространстве диагностических параметров таким образом, что функция плотности этих центров будет аппроксимировать функцию плотности вероятности входных векторов. Кроме того, вес будет организован таким образом, что топологически близкие узлы НС будут соответствовать физически близким входным векторам в смысле евклидова расстояния. Такая самоорганизующаяся сеть Кохоне-на способна функционировать в условиях помех, когда зафиксировано в ходе обучения определенное число кластеров. Веса латеральных связей будут модифицироваться медленно и подстройка весов закончится после обучения НС.

2.3. Обучение нейронной сети

Упорядоченность нейронов на решетке достигается в процессе обучения сети за счет механизма латерального взаимодействия WTA. В основу алгоритма обучения положены процессы, происходящие в коре головного мозга. В процессе обучения векторы подаются на входы всех нейронов сети и подстраивают синаптический вес нейронов. Обучающая выборка представлена лишь входными векторами, и нейронной сети предлагается самой найти скрытые закономерности в массиве данных. В процессе обучения самоорганизующаяся карта Кохонена определяет такие значения весов, чтобы при отображении входного пространства диагностических параметров на двухмерную решетку в выходном пространстве максимально сохранялась топологическая упорядоченность. Такой алгоритм обучения состоит из двух фаз. В первой фазе имеет место глобальное топологическое упорядочивание векторов весов. Множество подвергаемых обучению нейронов первоначально включают все нейроны слоя Ко-хонена, определяемые первоначально заданной зоной топологического соседства NEj(t)max. Эта зона ограничивается в конце первой фазы ближайшими нейронами вплоть до нейрона победителя NEJ(t) ^ 0. Во второй фазе вектора весов сходятся к точному значению центров кластеров у1 ,у2 ,...,ут.

Входные векторы - это предварительно пронормированные векторы, которые последовательно предъявляются НС. Желаемые векторы не определяются. После того как было предъявлено достаточное число входных векторов, синаптические веса сети определяют кластеры. Кроме того, веса организуются так, что топологически близкие узлы НС чувствительны к похожим диагностическим параметрам. На каждом шаге обучения из исходного набора диагностических данным случайно выбирается один из векторов, а затем производится поиск наиболее похожего на него вектора весов нейронов. При этом выбирается нейрон-победитель, который наиболее похож на вектор входов. Под похожестью понимается расстояние между векторами, вычисляемое в евклидовом пространстве. После того как найден нейрон-победитель, производится корректировка весов НС. При этом вектор, описывающий нейрон-

{const,<s?<< 0 ,d>a{t)

победитель, и векторы, описывающие его соседей, перемещаются в направлении входного вектора. Исходная НС «деформируется», как показано на рис. 1, б. При этом для модификации весовых коэффициентов используется выражение

wp (t+1) = wp (0+r(0[xf (0 - Wji (0],

где t - дискретное время итерационного процесса обучения (эпохи обучения). Обычно вектор xf(t) выбирается случайно из обучающей выборки на итерации t. Шаг обучения r(t) - это функция, характеризующая латеральные свойства нейронов. Эта функция разбивается на две части, собственно функцию расстояния (соседства) и функцию скорости обучения:

r{t) = f(\\rc-rt\,t)-a{t),

где /(||гс — А|||,0 - функция расстояния между обучаемым j-м нейроном и его соседом, a(t) - функция скорости обучения. Обычно применяют одну из двух функций от расстояния, простую константу:

'<a(t)

или Гауссову функцию:

d2

r(d,t) = e'2ff4t).

Лучшее качество обучения получается при использовании более сложной Гауссовой функции расстояния. Величину a(t) называют радиусом обучения. Она выбирается достаточно большой на начальном этапе обучения и постепенно уменьшается так, что в конечном итоге обучается один нейрон-победитель. Наиболее часто используется функция, линейно убывающая от времени. Функция скорости обучения a(t) - это функция, убывающая во времени. Наиболее часто используется также два варианта функции, линейную и обратно пропорциональную времени:

/ч А

a(t) =-,

t + B

где A и B - константы. Применение этой функции приводит к тому, что все векторы из обучающей выборки вносят примерно равный вклад в результат обучения. Теперь двухфазный процесс обучения выглядит так: на первоначальном этапе выбирается достаточно большое значение скорости обучения и радиуса обучения, что позволяет расположить векторы в соответствии с распределением в выборке, а затем производится точная подстройка весов, когда значения параметров скорости обучения много меньше начальных. В случае использования при обучении линейных зависимостей первоначальный этап грубой подстройки может быть пропущен.

Алгоритм действий при обучении диагностического кластеризатора можно представить в следующем виде:

1. Выбрать и настроить параметры обучения. Выбрать функцию расстояния f(\\fc — rt ||, t) и функцию скорости a(t), установить значение параметров a(t), NEj(t) и констант A и B, количество эпох t и начальные веса связей Wjft).

2. Выбор и просмотр обучающих выборок. Выбирается источник обучающих данных, в котором поля диагностических данных будут использованы для обучения карты. Диагностические данные предварительно нормируются, т.е. входной вектор преобразуется к единичному.

3. Настройка параметров визуализации и анализа. Настраиваются параметры визуализации построенных карт. Под визуализацией понимают метод представления полученной карты в виде, удобном для анализа. Визуализация определяется топологической матрицей расстояний, представляющей структуру кластеров полученной карты. Кроме того, при визуализации выбирается окраска, порождаемая компонентами диагностических данных, позволяющая представить связи отдельных диагностических параметров. К параметрам визуализации относят размеры карты и ячеек, цвета и форма ячеек

(четырех- или шестиугольная), режим назначения границ кластеров, принципы сглаживания цветов, максимальное количество кластеров, максимальное количество слоев (размер атласа).

4. Процесс обучения карты Кохонена. Вычисляются весовые коэффициенты нейронов путем подачи на вход полученной карты множества входных диагностических данных из обучающей выборки. В ходе вычислений определяется нейрон-победитель, используя механизм WTA. В результате вектор весов нейрона и его соседей смещается в направлении вектора входных данных. Время обучения задается количеством эпох и останавливается автоматически по прохождению заданного числа итераций.

5. Визуализация обученных карт. В результате обучения формируется набор узлов НС, отображаемый в виде двумерной решетки. Каждая карта, входящая в НС, представляет собой проекцию компонент многомерных диагностических данных на плоскость. Визуализация и заключается в получении этих проекций и анализу образующихся кластеров. Для визуализации структуры кластеров, полученных в ходе обучения, используется матрица расстояний. Элементы матрицы определяют расстояния между весовыми коэффициентами нейрона и его ближайшими соседями. К визуализации также относится и анализ статистики по построенным и обученным картам: минимальное значение по кластеру, максимальное значение по кластеру, среднее значение по кластеру, стандартное отклонение (дисперсия) в кластере, минимальное значение по ячейке, максимальное значение по ячейке, среднее значение по ячейке, стандартное отклонение (дисперсия) по ячейке.

2.4. работа с нейронной сетью и интерпретация результатов анализа

Если процесс обучения самоорганизующейся карты Кохонена по результатам визуализации дал приемлемые результаты, то НС готова к диагностированию вычислительной сети. Для этого на ее вход подаются рабочие выборки из множества диагностических данных. Результатом работы НС будет проверка гипотез и определение, к какому кластеру технического состояния ближе всего входные данные. В одном сеансе работы с нейронной сетью может быть создано и проанализировано несколько рабочих выборок. Рабочая выборка х*{ е Х8 по своей структуре похожа на обучающую выборку, а отличается только значениями предъявляемых векторов. Рабочую выборку можно сформировать вручную, набрав значения диагностических параметров. Это используется в основном для тестирования НС. Во время работы с нейронной сетью обычно рабочая выборка импортируется из диагностической базы данных и предварительно нормируется, как и обучающая выборка. Перед началом процесса анализа рабочая выборка может быть просмотрена. В нейронной сети с рабочей выборкой можно проводить анализ (расчет), эксперимент, сортировку, получать статистику, вести поиск определенных массивов данных, редактировать и выполнять другие операции. Основная операция анализа - это пересчет карты. При пересчете переобучение карты не происходит, т.е. новая матрица расстояний не создается, а лишь выясняется, в какие ячейки на карте Кохонена попадают векторы из рабочей выборки. Процесс пересчета может быть длительным, зависящим от размеров карты и рабочей выборки. Результат анализа можно либо визуализировать аналогично обучающей выборке и принять решение, либо импортировать в ДЭС для получения логического вывода. При визуализации в атлас будут включены карты по обучающим и рабочим выборкам, путем совмещения которых можно анализировать результат. Для выполнения визуальных процедур анализа в карты можно устанавливать метки, которые позволяют выводить все параметры ячеек и тем самым вести более подробный анализ в численных значениях. Эти же численные данные могут передаваться и в ДЭС. Необходимо помнить, что большое количество меток усложняет анализ карт. По картам, построенным на рабочих выборках, также можно провести статистический анализ, аналогичный описанному выше. При визуализации можно посмотреть и результат эксперимента - это ячейка на построенной карте, соответствующая диагностическому набору данных.

При использовании ДЭС, созданных на основе SOM, важно отметить, что кластеризация с помощью самоорганизующихся карт отличается от визуального анализа. В них номер узла НС (диагноз), к которому отнесен экземпляр диагностических данных, и фактический номер кластера в общем случае не всегда совпадают. Разделяя экземпляры данных, ДЭС производит субъективную кластеризацию,

не имеющую того реального физического смысла в вычислительной сети, которыми администратор сети наделяет классы технического состояния. Результаты кластеризации могут быть наделены фактическим смыслом путем постановки в соответствие номеру каждого узла номера того фактического класса технического состояния вычислительной сети, к которому относится большая часть экземпляров данных обучающей выборки, отнесенных ДЭС к данному узлу. Для этого может быть использована дополнительная карта Кохонена (классификатор), обученная по следующему алгоритму.

1. Реализуется обучающий эксперимент, где определяются по экземплярам соответствующих данных фактические классы технических состояний. Решается задача классификации. Производится обучение ДЭС для всех экземпляров обучающей выборки.

2. Для каждого узла карты Кохонена подсчитывается число экземпляров диагностических данных, относящихся к каждому из фактических классов технических состояний.

3. Каждому узлу карты ставится в соответствие тот фактический класс, к которому относится большая часть экземпляров данных, отнесенных к данному узлу. Определение соответствия производится путем записи пары (кортежа) «номер узла - номер класса».

Алгоритм можно рекомендовать для использования в диагностических экспертных системах в случае, когда реальный принцип деления экземпляров данных на кластеры совпадает или близок к методам классификации или когда размер обучающей выборки, т.е. совокупности значений диагностических параметров и сопоставленных им номеров кластеров, недостаточен для кластеризации. При этом экземпляры одного и того же кластера имеют близкие значения диагностических параметров, т.е. кластеры хорошо разделяются и имеют явно выраженные центры, вокруг которых достаточно плотно сосредоточены экземпляры диагностических параметров, относящихся к данному классу технического состояния.

3. выбор метрического пространства признаков

Качество предложенных алгоритмов несупервизорного обучения и методы кластеризации сильно зависят от метрики - меры расстояния между разделяемыми объектами. Существенное различие результатов работы алгоритмов в разных метриках убеждает в важности и необходимости правильного выбора метрики в пространстве диагностических данных [3]. Метрика, в свою очередь, зависит от того, какие переменные выбраны для описания технического состояния объектов, т. е. от выбора переменных и выделения диагностических параметров. Проблема выбора и масштабирования переменных - это в общем случае задача нелинейного отображения исходного пространства переменных в более удобное для дальнейшего анализа пространство. Выбор наиболее «информативных» диагностических параметров обычно производится с помощью эвристических правил на основании априорной информации. Проблема выбора метрики в диагностических нейросетевых моделях возникает из-за «неэвклидовости» пространств диагностических параметров в силу их многомерности. Метрика трансформирует меру расстояния в многомерном пространстве диагностических параметров, выявляя существенные различия между значениями переменных. При распознавании технического состояния вычислительной сети предполагается, что есть дополнительная априорная информация, определяющая важность или несущественность диагностических данных.

Пусть p(xf, с) есть функция плотности вероятности совместного распределения параметра xf в пространстве диагностических данных и дополнительной информации с, где переменная xf е X - случайная величина. Условное распределение р(с | xf ) определяет важность диагностического параметра. Разность распределений диагностических параметров может быть измерена расхождением Кульба-ка-Лейблера:

D[p(c | xf)jp(c | xf + dx)~\ - dxT J{x)dx,

где J{x) = EpM4) jt^logP(c I xf )][j~logp(c \ xf )f| информационная матрица фишера Ep(clxf ^ условное математическое ожидание дополнительной информации с о диагностическом параметре xf.

Информационная матрица Фишера Д(х) представляет собой тензор новой метрики в исходных евклидовых координатах. Новая локальная метрика с1р (х, х + сЬс) в пространстве диагностических параметров определяется соотношением

¿12р(х,х + с1х) е 0[р(с | х^1 )||/?(с | х^ + й6с)] = dxтJ(x)dx.

тт 5 г 5 5 5 тГ г -,т

Для многомерных признаковых пространств х = {х1 ,х2 ,...,хЛГ} и М!] = рассто-

яние между точками определяется на основании неравенства Г. Минковского [4]:

у,

¡=1

где р > 1 - целое неотрицательное число.

Евклидово расстояние является частным простым случаем метрики Г. Минковского. Изменяя р, можно получить неограниченное число других метрик. Однако на практике ограничиваются легко вычисляемыми метриками, топологически близкими к фактическому признаковому пространству. Очевидно, чем ближе выбранная метрика к реальному признаковому пространству, тем точнее будет производиться кластеризация.

При построении ДЭС возникает задача автоматического выбора наилучшей метрики из множества заданных для каждого конкретного кластера технического состояния вычислительной сети.

Пусть Р = {р} - множество заданных метрик ёр, р = 1,2,..., L Lp - число метрик. Тогда, очевидно, метрика ё р для заданных кластеров является наилучшей, если число принимаемых ошибочных решений ДЭС при этой метрике минимально. Алгоритм итеративного подбора метрик может иметь следующий вид.

1. Установить счетчик метрик: р = 1.

2. Принять в качестве текущей метрики ё метрику ёр.

3. Произвести обучение НС на выбранной обучающей выборке х^ с X.

4. Методом тестирования х? с X определить число ошибочных решений для р-й метрики в отношении категорий технического состояния, для которых известен К-й фактический кластер и диагностический параметр х1 .

5. Еслир > Lp - перейти к п. 6, иначе увеличить счетчик метрикр : р = р + 1: и перейти к п. 2.

6. В качестве лучшей принимается та метрика ёр, для которой число ошибочных решений минимально.

Таким образом, подобранные метрики предполагают, что все признаки, по которым производится кластеризация, являются одинаково значимыми (информативными). Однако из практики диагностирования вычислительной сети известно, что диагностические параметры разделяются на информативные и неинформативные. В отношении некоторых параметров может быть заранее известно или предполагается, что они являются наиболее информативными, но степень их значимости точно неизвестна и не позволяет производить кластеризацию только на основе данного параметра или исключить данный параметр в случае его малозначимости. Если использовать такую априорную информацию при обучении НС, то, очевидно, кластеризация будет производиться с меньшим числом ошибок. Для самоорганизующихся карт Кохонена задача состоит в том, чтобы использовать априорную информацию о значимости диагностических параметров при подборе метрики.

Пусть в качестве метрики выбрано евклидово расстояние. Априорная информация о значимости признаков в SOM может быть использована путем введения в выражение метрики положительно определенной коэффициентной функции к(г). В этом случае метрика может быть задана в одной из следующих форм:

или с1]=(о-^(0]2.

/=1 1=1

Чем информативнее 1-й признак, тем меньшее значение должна принимать функция к(г) и, наоборот, чем менее значимый диагностический параметр - тем большее. Вариантов задания таких функции может быть много, рассмотрим наиболее практически значимые. Во-первых, если априорно известно об информативности только некоторых диагностических параметров, то для параметров, которые предположительно значимее других, к(г) полагают равными значению к, 0 < к < 1. Если о некотором диагностическом параметре известно или предполагается, что он неинформативный или малозначимый, то такой параметр либо вообще исключается, либо функцию к(г) полагают равной значению к < 1. Для параметров, о которых неизвестна априорная информация о значимости, функцию к(г) полагают равной 1. Во-вторых, значимость диагностических параметров определяется степенью их влияния на фактический номер кластера, к которому относится экземпляр диагностических данных. В этом случае, функцию к(г) можно положить равной дополнению до единицы модуля коэффициента корреляции г-го диагностического параметра и фактического кластера:

Vx? sX:k(i) = 1-

(.xf-Mx)(yJ-My)

4. ВыВоды

Использование НС Кохонена в качестве кластеризатора технического состояния вычислительной сети при соответствующем выборе метрики признакового пространства позволяет достичь приемлемых результатов диагностирования даже для небольших обучающих выборок. В этом основное преимущество предлагаемого метода при решении задач диагностирования вычислительных сетей над эвристическими алгоритмами, лежащими в основе традиционных ДЭС и требующими большого объема статистических данных. Описанный метод кластеризации позволяет рекомендовать предложенные модели и алгоритмы для использования в диагностических экспертных системах, для гетерогенных вычислительных сетей нового поколения. Однако следует отметить, что результаты работы таких кластеризаторов критичны к степени близости используемой метрики к реальному разделению диагностических параметров на кластеры, а выбор наилучшей метрики может быть достаточно долгим и трудоемким.

Библиографический список

1. Kohonen T. Self-organizing maps. Berlin etc: Springer, 1995. XV. 362 p.

2. БовельЕ.И., ПаршинВ.В. Нейронные сети в системах автоматического распознавания речи // Зарубежная радиоэлектроника. 1998. №4. С. 50-57.

3. Горбань А.Н., Дунин-Барковский В.Л., Кирдин А.Н. и др. Нейроинформатика. Новосибирск: Наука. Сиб. предприятие РАН, 1998. 296 с.

4. Иванов В.В. Методы вычислений на ЭВМ: Справ.

пособие. Киев: Наук. думка, 1986. 584 с.

5. Куссуль Э.М. Ассоциативные нейроподобные структуры. Киев: Наук. думка, 1990.

6. Нейрокомпьютеры и интеллектуальные роботы. /Под. ред. Н.М. Амосова. Киев: Наук. думка, 1991. 272 с.

7. Сигорский В.П. Математический аппарат инженера. 2-е изд., стереотип. Киев:Техшка, 1977. 768 с.

8. Уоссермен Ф. Нейрокомпьютерная техника: Теория и практика. М.: Мир, 1992. 237 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.