Розглядаетъся методолог1я проектування нейронных мереж для прогпозування. За допомогою пакета Ыеиго-Рго V 0.25 проведено навчання нейронног мережКНМ). Подано приклад реал{зацп нейромереж1 та опис етатв и роз-робки з функцшного опису моде;п НМ до оцтки п часовых г апаратурних характерыстик. Структурна модель НМ при-
ведена в кодах моей VHDL. За допомогою пакета Synpli-fyPro 7.0 синтезовано npucmpiü на мкросхемах ciMeücmea Virtex-II XC2V6000. Здшснена оцтка оптимальност1 вико-рыстання синтезованог модел1 НМ. Приведет структуры НМ, апаратурнг вытрати зведеш в таблицю.
УАК 004.93:007.52
Г. Сетлак
ИСПОЛЬЗОВАНИЕ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ ДЛЯ РЕШЕНИЯ ЗАДАЧ КЛАССИФИКАЦИИ В МЕНЕДЖМЕНТЕ
В работе представлены результаты исследования возможности ыспользованыя различных видов искусственных нейронных сетей для решения задач классификации. Целью исследований были анализ и оценка используемых методов классификациы.
1 ВВЕДЕНИЕ
Проблемы классификации являются одними из наиболее часто возникаемых и решаемых задач как в повседневной хозяйственной деятельности, так и в экономическом анализе этой деятельности организации. Решение задач классификации заключается в разработке, конструкции таких правил и закономерностей, которые позволили бы распознать определённые явления или объекты и определить их принадлежность к каким-то классам (группам, категориям). Задача значительно усложняется, если при определении классов необходимо брать во внимание очень большое количество характеристик исследуемых объектов и явлений (как например, при оценке конкурентоспособности предприятия), тем более, если эти характеристики слабо определены или трудно формализуемы.
Раньше для решения задач классификации использовались так называемые таксономические методы. При этом таксономия рассматривается как статистическая научная дисциплина, занимающаяся разработкой основ и процедур классификации. Главная трудность во всех стандартных статистических методах заключается в том, что большая часть знаний, используемых для классификации, представляет собой распределение случайных переменных. Особенно большие проблемы появляются при использовании непараметрических методов классификации для многомодальных распределений [1,2]. В последние годы для решения сложных задач классификации всё чаще используются искусственные нейронные сети. На основе многочисленных исследований подтверждено, что нейронные сети обеспечивают высокую эффективность распознавания [2,5]. При этом отличаются исключительной устойчивостью перед случайными помехами. Нейронные сети приспособлены для обнаружения сложных зависимостей при отсутствии априорных
знаний об исследуемых процессах или объектах. Кроме этого нейронные сети отлично работают со всеми наиболее сложными распределениями данных. Поэтому с успехом используются везде, где производилось оценивание при помощи статистических методов анализа, таких как регрессионный, кластерный, дискриминантный анализ или временные ряды, в том числе и для решения задач классификации.
Целью данной работы является анализ и оценка возможностей использования для решения задач классификации в стратегическом анализе различных видов нейронных сетей, в том числе многослойного персептро-на, радиальной базисной функции, нейронной карты Кохонена, вероятностной нейронной сети. Практическая реализация и анализ выполнены с использованием программного пакета Statistica Neural Networks 4.0Е [1].
2 ПОСТАНОВКА ЗАДАЧИ. ОСНОВНЫЕ ПОЛОЖЕНИЯ
В работе решается задача стратегического менеджмента: выбор наиболее перспективных рынков сбыта для изготавливаемых изделий домашнего хозяйства. Это одна из многочисленных задач классификации, решаемых в процессе функционирования каждой производственной системы. Анализ возможностей использования для решения задач классификации различных видов нейронных сетей в работе выполняется на данных маркетингового анализа рынка изделий, а именно пылесосах. В качестве классифицируемых наблюдений используем информацию о пылесосах, которые нужно распределить по четырём классам, т.е. рынкам сбыта. Входные параметры, характеризующие каждый пылесос, приведены в табл.1. Первый столбец таблицы содержит описание каждой характеристики, тип которой указан во втором столбце. Третий столбец содержит сокращённое имя соответствующего параметра, под которым он фигурирует в программном пакете Statistica Neural Networks.
Выходной параметр классификации - один из четырёх классов рекомендуемого рынка сбыта (в пакете STNN ему соответствует сокращение CLASS). Описания рынков представлены в таблице 2.
Таблица 1 - Параметры, характеризующие изделия (пылесосы)
Описание Тип Сокращение
Мощность электродвигателя, Вт число ENGINE_W
Цена число PRICE
Тип системы фильтрации воздуха {да, нет} FLTR_SYS
Наличие автоматических функций {да, нет} AUTOFUNC
Автоматическое свёртывание шнура {да, нет} AUTOCORD
Регулятор мощности {да, нет} SPD_CTRL
Система понижения шума {да, нет} NOISSYS
Функция влажной уборки {да, нет} WASH
Эстетика внешнего вида {да, нет} VIEW
Дополнительные возможности {да, нет} FEATURE
Известная марка изготовителя {да, нет} BRAND
Уровень сервисного обслуживания {низкий, средний, высокий} SERVICE
Таблица 2 - Описание типов рынков сбыта пылесосов
КЛАСС КЛАСС 1 КЛАСС 2
ОПИСАНИЕ КЛАССА ОСНОВНЫЕ КРИТЕРИИ Большой спрос покупателей на самые высококачественные изделия (требуется высокая мощность электродвигателя, могут это быть очень дорогие изделия, с хорошими фильтрами, с автоматикой, со всеми дополнительными возможностями, с отличным сервисом, с хорошим дизайном, известная марка производителя). Средний класс покупателей, спрос которых на дорогие изделия меньший, но требования к изделию довольно большие. Спрос на изделия по средней цене, с большой мощностью электродвигателя, с хорошими фильтрами, с автоматикой, с системой понижения шума, без дополнительных возможностей, но с хорошим сервисом, с хорошим дизайном, не требуется известность марки производителя
КЛАСС КЛАСС 3 КЛАСС 4
ОПИСАНИЕ КЛАССА ОСНОВНЫЕ КРИТЕРИИ Небольшой спрос покупателей на изделия по умеренным ценам и среднего качества, требуется высокая мощность, с хорошими фильтрами, с автоматикой, тихо работающие, не требуются дополнительные возможности, с отличным сервисом, с хорошим дизайном, не требуется известность марки производителя Малый спрос покупателей вообще, предпочтения изделиям подешевле. Требуется средняя мощность, низкая цена, фильтры - любые, не нужна автоматика и не требуются никакие дополнительные возможности, не важна громкость работы, достаточно минимальный сервис, не важен дизайн и не требуется марка.
Для решения таких задач идентификации и классификации объектов в стратегическом менеджменте в представляемых исследованиях используются искусственные нейронные сети. В течение последних десятилетий появилось огромное количество публикаций по теории искусственных нейронных сетей и практическим вопросам их реализации [3,5], поэтому в данной работе представим только основные положения из теории нейронных сетей, необходимые для дальнейшего понимания исследуемой проблемы.
Каждая искусственная нейронная сеть представляет собой множество соединённых определённым образом простых элементов - нейронов, что в результате даёт огромную вычислительную мощность параллельной обработки данных. Задача нейронной сети заключается в
преобразовании информации требуемым образом. Конкретный вид выполняемого нейронной сетью преобразования данных обуславливается не только характеристиками входящих в её структуру нейронов, но и особенностями её архитектуры, а именно топологией межнейронных связей, направлением и способами передачи информации между нейронами, а также способами обучения сети.
В задаче классификации, принимая, что во входном векторе образов можно выделить несколько классов, нейронная сеть должна отнести каждое наблюдение к одному из классов или, в более общем случае, оценить вероятность принадлежности наблюдения к каждому из классов. В ситуации, когда классифицируемый входной сигнал не соответствует ни одному из образцов (напри-
мер, нарушен случайными помехами), в искусственных нейронных сетях производится процесс распознавания, а позже в результате распознания - классификация.
Для моделирования нейронных сетей в работе использовался программный пакет Statistica Neural Networks 4.0Е [1] ( STNN). STNN является одним из наиболее современных по технологии и по рабочим характеристикам среди нейронно-сетевых пакетов, предлагаемых сейчас на рынке программного обеспечения. Главные преимущества этого программного пакета - это прежде всего такие возможности, как "Интеллектуальный исследователь задач" (Intelligent Problem Solver, IPS) - основанная на методах искусственного интеллекта система построения архитектуры сети и нейро-генетический отбор данных (Neuro-Genetic Input Selection), который выполняет выбор нужных входных переменных. Этот пакет включает в себя средства для создания, редактирования, обучения, оптимизации и анализа нейронных сетей, а также решения разнообразных задач, среди которых и задача классификации. Модуль IPS - "Интеллектуальный исследователь задач" используется на этапе конструирования нейронной сети, позволяет автоматически выбрать тип сети, архитектуру и способ обучения, рассматривая поиск лучшего варианта как оптимизационную задачу. Нейро-генетический агоритм отбора входных данных {PRIVATE "TYPE=PICT, ALT=[Net-work Example]"} соединяет в себе возможности генетических алгоритмов и нейронные сети типа PNN/GRNN (PNN - вероятностные нейронные сети, GRNN - обоб-щенно-регрессионые нейронные сети) для автоматического поиска оптимальных комбинаций входных переменных, в том числе и в тех случаях, когда между ними имеются корреляции и нелинейные зависимости. Необыкновенно высокая скорость обучения по PNN/GRNN-алгоритму дает возможность применить генетический алгоритм и, более того, дает возможность в реальном времени проводить собственные эксперименты на чувствительность данных.
В STNN классификацию можно осуществлять с помощью нейронных сетей следующих типов: многослойного персептрона, линейной сети, нейронных сетей ради-Таблица 3 - Виды используемых активацш
альной базисной функции, сети Кохонена и вероятностной нейронной сети. Представим более подробно все виды нейронных сетей, используемые в исследованиях при помощи STNN для решения задач классификации.
2.1 МНОГОСЛОЙНЫЙ ПЕРСЕПТРОН
Многослойный персептрон является прямонаправлен-ной нейронной сетью, характеризирующейся передачей информации от входного уровня через К дополнительных укрытых слоёв к выходному слою. В стандартной структуре многослойного персептрона каждый г-тый узел в к -том слое соединяется посредством синапти-ческих весов Wiу со всеми узлами предыдущего слоя
(£-1). Выходные сигналы рассчитываются следующим
N
образом: в скрытом слое: = /( ^ ^yXj—Qj), в выход-
i = 1
N
ном слое: Yi = f( ^WyYj-Q'j), где 0у, 0у'- величины J = 1
смещения, х}-(]= 1, 2,..., Ю- входные сигналы, W^,\V'i}--синаптические веса, Д х ) ~ активационная функ-
ция. Каждый слой сети рассчитывает нелинейное преобразование от линейной комбинации сигналов предыдущего слоя. В качестве нелинейности в скрытых слоях чаще всего используется сигмоидальная функция, описываемая по формуле (1), табл.3) или гиперболический тангенс (табл.3, формула (2)). Отметим такие ценные свойства сигмоидальной функции, как простое выражение для ее производной, а также то, что сигмоидальная функция дифференцируема на всей оси абсцисс. Следует также отметить, что хотя многослойный персептрон был первой моделью искусственной нейронной сети, разработанной Розенблаттом в 1956 году [6], однако эффективное использование его в исследованиях возможно только после 1986 г., т.е. после разработки для обучения этих сетей Алгоритма Обратного Распространения Ошибок (англ.Back-propagation) [4-7].
1НЫХ функций
Нелинейная сигмоидальная f{net)= \ , , ß >0 (1) 1 + е*"* 1 } ftnet) 0.3 net
Гиперболический тангенс i -ßnet /(nei) = I77^'ß>0 (2) ......1 f(net) ^ -i net
Радиально-симметричная net2 finet) = e 2CT / Дп«) к
У Vitrei
-а CT
В настоящее время эта модель нейронных сетей заслуженно получила знание, широкое распространение и применение для решения задач в различных областях. Многослойный персептрон может формировать на выходе произвольную многомерную функцию при соответствующем выборе количества слоев, диапазона изменения сигналов и параметров нейронов. Многослойный персептрон узнан универсальным апроксиматором функций, что подтверждено в многочисленных исследованиях.
2.2 НЕЙРОННАЯ СЕТЬ РАДИАЛЬНО-
БАЗИСНЫХ ФУНКЦИЙ
В общем случае под термином сеть радиально-базис-ных функций (Radial Basis Function Network, RBFN, RBF-сеть) понимается любая нейронная сеть, которая содержит скрытый слой нейронов с радиально симметричной функцией активации, каждый из которых предназначен для хранения отдельного эталонного вектора в виде вектора весов (так называемый шаблонный слой). Сеть радиально-базисных функций в наиболее простой форме представляет собой сеть с тремя слоями: обычным входным слоем, выполняющим распределение данных образца для первого слоя весов, скрытым слоем и выходным слоем. В общем случае архитектура RBFN может включать в себя такие сети, как обобщенно регрессионные (General Regression) и вероятностные нейронные сети (Probabilistic Neural Networks). Однако, чаще всего под парадигмой RBFN понимается структура, предложенная в [4,5]. Архитектура этой нейронной сети представлена на рис.1.
Рисунок 1 - Архитектура нейронной сети радиальной базисной функции
Связи элемента скрытого слоя определяют центр радиальной функции для данного скрытого элемента. Ввод для каждого элемента выбирается равным евклидовой норме
где п - число входных элементов х.
Внутренний слой нейронов-образцов полностью связан с выходным линейным слоем. Синаптические веса всех нейронов скрытого слоя равны единице. Введём обозначение: с=(с1, с2,..., ср) - вектор координат центра активационной функции нейрона скрытого слоя; Оу -
ширина активационной функции /-того нейрона скрытого слоя. Радиально-симметричная активационная функция нейронов скрытого слоя (здесь это функция Гаусса) будет рассчитываться по формуле: Дх,с)=
г \
Р<
ехр
чУ
2а
(смотри (3) табл. 1).
(4)
¿=1
Кх; j = 1
Сети RBF имеют ряд преимуществ перед многослойными персептронами. Во-первых, они моделируют произвольную нелинейную функцию с помощью всего одного промежуточного слоя, и тем самым нет необходимости решать вопрос о числе слоев. Во-вторых, параметры линейной комбинации в выходном слое можно полностью оптимизировать с помощью хорошо известных методов линейного моделирования, которые работают быстро и не испытывают трудностей с локальными минимумами, которые являются главной проблемой при обучении многослойных персептронов. Поэтому сеть RBF обучается очень быстро.
2.3 ВЕРОЯТНОСТНАЯ НЕЙРОННАЯ СЕТЬ
Вероятностные нейронные сети (Probabilistic Neural Networks - PNN) предназначенью для решения задач классификации, по своей сути представляют собой паР У Р U А
ских методов. В работе [8] было впервые представлено, как для классификации образов можно использовать нейронную сеть, в которой реализуются статистические методы. В основу классификации в сети PNN положено использование методов Байеса (Bayes). Идея состоит в том, что для каждого образца можно принять решение на основе выбора наиболее вероятного класса из тех, которым мог бы принадлежать этот образец. Такое решение требует оценки функции плотности вероятности для каждого класса. В статистическом методе Байеса минимизируется ошибка, выбирая модель с такими параметрами, при которых плотность вероятности будет наибольшей. Все выходы нейронной сети можно интерпретировать как оценки вероятности принадлежности элемента некоторому классу и сеть фактически учится оценивать функцию плотности вероятности. При решении задачи классификации можно оценить плотность вероятности для каждого класса, сравнить между собой вероятности принадлежности различным классам и выбрать наиболее вероятный.
Вероятностная нейронная сеть имеет по меньшей мере три слоя: входной, радиальный и выходной (смотри рис.2). Радиальные элементы берутся по одному на каждое обучающее наблюдение. Каждый из них представляет гауссову функцию с центром в этом наблюдении. Каждому классу соответствует один выходной элемент. Каждый такой элемент соединен со всеми радиальными
элементами, относящимися к его классу, а со всеми остальными радиальными элементами он имеет нулевое соединение. Таким образом, выходной элемент просто складывает отклики всех элементов, принадлежащих к его классу. Значения выходных сигналов получаются пропорциональными ядерным оценкам вероятности принадлежности соответствующим классам, и пронормировав их на единицу, мы получаем окончательные оценки вероятности принадлежности классам. В программном пакете БТЫИ в вероятностную нейронную сеть может быть добавлен четвертый слой, содержащий матрицу потерь. Она умножается на вектор оценок, полученный в третьем слое, после чего в качестве ответа берется класс, имеющий наименьшую оценку потерь.
X, A'j х,
Г, П П
Рисунок 2 - Архитектура вероятностной нейронной
сети
2.4 НЕЙРОННАЯ СЕТЬ КОХОНЕНА
Сети Кохонена принципиально отличаются от выше представленных типов сетей [9] тем, что сеть Кохонена обучается без надзора (или иначе так называемое "обучение без учителя"), при котором обучающие данные содержат только значения входных переменных и не содержат соответствующие им выходные значения. Сеть состоит из М нейронов (для решения представленной задачи в исследованиях рассматриваем сеть из четырёх нейронов), образующих прямоугольную решетку на плоскости (рис.3). Элементы входных сигналов подаются на входы всех нейронов сети. В процессе работы алгоритма настраиваются синаптические веса нейронов. Для настройки сети определяется мера соседства нейронов (мера близости). На рисунке 4 показаны зоны топологического соседства нейронов на карте признаков в различные моменты времени. NEj{t) - множество нейронов, которые считаются соседями нейрона / в момент времени £. Зоны соседства уменьшаются с течением времени. В начале обучения весовым коэффициентам сети присваиваются малые случайные значения. Общее число синаптических весов равно М ■ N. Затем для всех нейронов вычисляются расстояния dj до входного сигнала и выбирается наилучший нейрон/* по формуле [9]:
N-1
j* = arg min dj = arg min ^ (*,. (r) - wtj (t))2 , (5)
J i ;=о
где x{ - i-й элемент входного сигнала в момент времени
VI'(£) - вес связи от г-го элемента входного сигнала к нейрону / в момент времени £. Затем производится подстройка весов для лучшего нейрона /* и всех нейронов из его зоны соседства ЫЕ. Новые значения весов рассчитываются таким образом: (/ + 1) = и-'у (г) + /-(^) ■ (х, (/) — (/)]> гДе - шаг обучения, уменьшающийся с течением времени (положительное число, меньше единицы). Далее предъявляется новое наблюдение и процесс повторяется. При решении задач классификации в сетях Кохонена используется так называемый порог доступа, который играет роль максимального расстояния, на котором происходит распознавание. Если уровень активации выигравшего нейрона превышает это пороговое значение, то сеть считается не принявшей никакого решения.
выходные нейроны
щщ
Х0 X1 XN-1 вход
Рисунок 3 - Архитектура нейронной сети Кохонена
•*~NEj(0) — NEj(ti) -NE/tj,)
Рисунок 4 - Зоны топологического соседства на карте признаков в различные моменты времени
3 АНАЛИЗ РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ
Для классификации с использованием нейронной сети входные данные должны быть предварительно подготовлены и некоторым образом преобразованы (например, промасштабированы, дополнены в случае неполных данных). Эта фаза обработки в программе STNN называется "предобработка" (pre-processing). Она состоит в выборе функций преобразования для всех входных переменных. Аналогичная процедура постобработки - "постобработка" (post-processing) заключается в выборе функций, обрабатывающих выходные переменные. Для поиска лучшей архитектуры и оптимального метода обучения был использован Intelligent Problem Solver. С его помощью исходные данные были разбиты случайным образом на три подмножества: 33 случая составили обучающую выборку, 16 случаев - тестовое множество и 16 случаев -контрольное. Затем производился поиск нескольких лучших сетей, среди которых были отобраны 10 разного качества (определяемого средней ошибкой) и сложности для каждого типа нейронных сетей.
Таблица 4 - Характеристики выбранных нейронных сетей в результате их анализа в STNN
Тип Сети Input HL1 HL2 TError Verror ТеЕггог TPerf VPerf TePerf Training
MLP-3 7 2 - 0.3378 0.3295 0.41686 0.6970 0.8125 0.4375 BP50,CG50, CG2b
MLP-4 6 3 3 0.3109 0.3197 0.42458 0.7273 0.7510 0.4375 BP50,CG50, CG2b
RBFN 12 9 - 0.3373 0.3791 0.39128 0.7179 0.6923077 0.4615385 KM, KN, PI
PNN 4 33 - 0.2979 0.3448 0.422884 0.7577 0.75 0.5
Для поиска лучшей архитектуры нейронной сети типа многослойный персептрон были отдельно исследованы сети, содержащие один скрытый слой (далее обозначаем MLP-3, так как число всех его слоев равно трём) и два скрытых слоя (MLP-4). В результате выполненного IPS - "Интеллектуальным исследователем задач" анализа значимости входных параметров были определены оптимальные структуры нейронных сетей и в исследованиях использовались только действительно необходимые параметры. В связи с этим рассматривались и оценивались по 10 конфигураций сетей с различными входными параметрами. В таблице 4 представлены характеристики лучших нейронных сетей всех исследуемых типов кроме сети Кохонена, которые были выбраны в результате их анализа при помощи пакета STNN.
Столбцы TError, VError и ТеЕггог содержат ошибки классификации на обучающем, тестовом и контрольном подмножествах соответственно. Пропорции успешно опознанных случаев для каждого подмножества содержатся в столбцах TPerf, VPerf, и TePerf. Последний столбец "Training" содержит последние три (или менее) алгоритмы обучения, которые были использованы на сети и код завершения последнего из них. В случае многослойных персептронов все алгоритмы обучения завершились, как только была получена наилучшая с"~ь, ~о 'с~ь дос~игну~а минимальная "он~рольная ошибка. Для многослойных персептронов каждому методу обучения соответствует аббревиатура его названия и количество итераций ("эпох"):
- BP (Back Propagation) - обратного распространения;
- CG (Conjugate Gradient Descent) - метод спуска по сопряжённым градиентам.
Лучшая сеть MLP-3 представлена на рис.5. Архитектура лучшего четырёхслойного персептрона изображена на рис.6. Как показали результаты, оба рассмотренные виды многослойных персептронов (с одним и двумя скрытыми слоями) обладают равноценными способностями для успешной классификации изделий по целевым рынкам сбыта. При этом вероятность ошибки будет порядка 33%. Следует заметить, что хотя лучшую производительность показали довольно простые архитектуры (с небольшим числом нейронов), более сложные также имеют хороший потенциал и редко демонстрировали склонности к переобучению. Небольшие разбросы в ошибках классификации для разных подмножеств свидетельствуют о том, что обучающая, конечная и контрольная выборки оказались вполне репрезентативными.
Рисунок 5 - Конфигурация лучшей MLP-3 сети
Рисунок 6 - Конфигурация лучшей MLP-4 сети
В результате поиска оптимальной архитектуры сети радиальной базисной функции также были выбраны 10 конфигураций сетей, из которых была выбрана лучшая нейронная сеть, характеристики который представлены в общей табл.4. Значения столбцов в этой таблице для RBFN аналогичны приведенным выше. Второй скрытый слой в сетях данного типа отсутствует, поскольку нейроны (радиальные элементы) в единственном промежуточном слое уже нелинейны (каждый воспроизводит гауссову поверхность отклика) и достаточны для моделирования произвольной функции. Для сетей этого типа используются отличные от персептрона алгоритмы обучения, так как здесь используется совершенно другой принцип классификации. Если персептрон разбивает пространство входных данных посредством гиперплоскостей, то сеть радиальной базисной функции разбивает его гиперсферами. Сокращениям в столбце "Training" соответствуют следующие методы обучения:
- KM (K-Means) - алгоритм К-средних для назначения радиальных центров;
- KN (K-Nearest Neighbour) - алгоритм К-ближайшего соседства для определения отклонений (радиусов) радиальных элементов;
- PI (Pseudo-Invert) - минимально-квадратичный алгоритм оптимизации для линейного выходного слоя.
Архитектура лучшей сети радиальной базисной функции изображена на рис. 7.
Рисунок 7 - Структура лучшей нейронной сети радиальной базисной функции
В результате можно отметить, что все исследованные
...............р_.....ч______ид_.....ч___________________________
классификации. Можно утверждать, что число неправильно распознанных объектов при использовании сети радиальной базисной функции не будет превышать 3435%, что сравнимо с результатом для многослойных пер-септронов (для них было порядка 33%). Для более точного обучения RBF-сети рекомендуется использовать большую выборку исходных данных, чтобы исключить случаи просто "удачной настройки" для заданных подмножеств, а также избежать лишнего сокращения множества анализируемых признаков объекта. RBF-сеть более гибкая в настройке параметров выходного слоя, чем MLP, значительно быстрее обучается, но требует дополнительной памяти (для точного моделирования требуется большее число элементов, по сравнению с персептро-ном).
Для анализа и оценки использования для решения выше представленной задачи при помощи вероятностных нейронных сетей IPS выбрал 12 структур нейронных сетей, с архитектурными отличиями только во входном слое. Все выбранные PNN-сети обучались и отбирались с разбиением исходных данных на тренировочное, тестовое и контрольное подмножества в размерах 33/16/16, поэтому скрытый слой содержит одинаковое количество нейронов (равное мощности обучающего подмножества). Второй скрытый слой отсутствует, так как он используется только при наличии у эксперта матрицы потерь, дифференцирующей штрафы (априорно) при неправильной классификации объекта. Классификационные ошибки также приблизительно одинаковы и не лучше, чем у других, рассмотренных выше типов нейронных сетей. На рис.8 представлена структура луч-
шей вероятностной нейронной сети. На выходе данного типа сети получаются оценки вероятности принадлежности соответствующим классам (выходной слой состоит из 4-х элементов). Поэтому, исходя из довольно большой ошибки классификации и большого перекрытия функций вероятности принадлежности разным рынкам, можно сделать вывод, что работа вероятностной нейронной сети явно продемонстрировала необходимость в более полной и репрезентативной выборке входных данных (п ежде всего об чающих). Для об -чения Р№1-сети требуется лишь один параметр - степень сглаживания, что может быть как достоинством, так и недостатком. Обучение этой сети происходит мгновенно (можно провести эксперименты с большим числом данных, например, для отбора анализируемых параметров), но сеть получается очень большой, поскольку она старается по сути вместить в себя все обучающие данные. Сети этого типа оказались самыми быстрыми в настройке и позволили по-новому взглянуть на исходные данные, а также объяснить полученные результаты классификации. Основным преимуществом является
в----тн~т~~"й-------в------------ г-----в, ~т~ ~б~~г—т
их интерпретацию и использование. Ещё один плюс -возможность использования матрицы потерь, задающей веса ошибок для разных классов, или коэффициенты, учитывающие априорные плотности распределения во входных данных.
Рисунок 8 - Структура лучшей вероятностной нейронной сети
Преимущество сети Кохонена перед другими сетями заключается в том, что она может спроектировать классы, например, на двумерную поверхность, визуализировать таким образом данные и дать более тонкое понимание человеку о границах и взаимосвязях различных групп объектов. Для её работы не нужно никакой информации о входных классах, напротив, сеть может помочь выявить такие закономерности в исходных данных, о которых эксперт даже не подозревал. Конечный вариант из всех исследованных сетей Кохонена представлен на рис.9. Для обучения этой сети был использован стандартный алгоритм Кохонена (Kohonen Training), который содержит пакет Statistica Neural Networks.
Для представленной на рис.9 сети, параметры процедуры обучения были выбраны следующим образом:
- первая диалоговая итерация:700 эпох; частота обучения от 0,8 до 0,05; соседство от 2 до 0,01;
- вторая итерация: 10000 эпох; частота обучения от 0,05 до 0,01; соседство от 0,1 до 0.
есть не ожидаемые. Следует предполагать, что при анализе реальных и полных экономических данных, использование сети Кохонена представляется очень полезным, как для классификации, так и для анализа структуры входных данных, определения значимости признаков объектов. Однако результат и эффективность её использования очень зависит от человека, отбирающего входные данные и интерпретирующего выходные. На примере решаемой задачи видно, что эксперт должен стараться выделить не только используемые им количественные характеристики объекта, но и качественные, психологические факторы, влияющие на результат классификации.
Рисунок 9 - Конфигурация лучшей нейронной сети Кохонена
В конце первой диалоговой итерации обучения функция ошибки алгоритма Кохонена достигла значений 0,3506 на обучающем множестве и 0,9072 на контрольном. Следует отметить, что эта функция ошибки не имеет ничего общего с ошибками для других сетей. Сеть Кохонена предполагает, что выходной её слой состоит из радиальных элементов, представляющих центры кластеров. Ошибка вычисляется как расстояние от входного случая до ближайшего из центров. Во время второй итерации функции ошибки незначительно изменились до значений 0,3434 и 0,9075 соответственно. Визуально результат работы обученной сети Кохонена позволяет наблюдать "топологическая карта". Она отображает степени активации нейронов выходного слоя для каждого исследуемого случая и позволяет подписать найденные кластеры. Вид топологической карты для решаемой задачи (и сети) изображён на рис.10.
На нём отображена область активации для пылесоса №5 (код Н_СУЕ370), который предполагается продавать на первом рынке сбыта (смотри табл. 2). Метки возле узлов позволяют определить не только к какому классу был отнесён текущий объект, но и оценить, как близко он отстоит от других кластеров. Каждому рынку соответствует метка вида "ш#", где # - номер рынка. Размер закрашенной области узла на топологической карте говорит об уровне его активации для данного объекта. Лучшему совпадению с центром кластера соответствует полностью чёрный квадрат. Анализ работы сети при классификации входных данных показал, что сеть довольно уверенно отделяет 4-й рынок изделий от всех других, то есть соответствующий кластер получился достаточно изолированным. Хуже дело обстоит с другими рынками. Для рынков 1, 2 и 3 наблюдается перекрытие кластеров, что часто приводит к ошибкам и неоднозначностям в классификации. Первое предположительное объяснение этому может основываться на соображении о недостаточно большой и недостаточно репрезентативной выборке входных данных. Иначе это можно объяснить ещё тем, что разметка кластеров производится человеком, поэтому он не всегда в состоянии распознать кластеры, им не предусмотренные, то
Omt ОмЗ От? □«3 О Om«
□ О о □ Om4
□ m2 ОтЭ □ml О □ Om4
□ liÖ О EJml jsml Q
О riil о 0m1 Offll □ О
Om5 От2 Dm3 D Üm2 Qua
Рисунок 10 - Топологическая карта сети Кохонена
Главным достоинством нейронной сети Кохонена является то, что она позволяет выполнять разведочный анализ данных для изучения их структуры, выявлять новые классы, чего без существенных модификаций, не могут другие типы сетей. Гибкие алгоритмы обучения дают большие возможности исследований. Уникальным достоинством сети Кохонена является возможность визуализации .N-мерного пространства признаков объекта на двумерной топологической карте.
ВЫВОДЫ
В данной работе рассмотрены способности к классификации четырёх типов сетей: многослойного персепт-рона, радиальной базисной функции, вероятностной и сети Кохонена. Анализ их работы производился на задаче стратегического управления, состоящей в распределении различных моделей изделий (пылесосов) по четырём рынкам сбыта. Полученные ошибки классификации оказались приблизительно равными, но на выборке из 65 пылесосов труднее обучались RBFN и PNN, чем MLP, что не могло не повлиять на качество их работы. Следует предполагать, что на реальных полноценных данных результат мог бы быть совершенно другой. Для корректной работы и реального применения нейронных сетей необходимо их обучать на достаточно обширных выборках входных данных, причём чем больше входных анализируемых признаков, чем выше сложность сети и моделируемой функции, тем больше должна быть вы-
борка. Также необходимым является использование механизма контрольной кросс-проверки. При решении задач классификации в менеджменте, где рассматриваемые экономические показатели характеризуются большим разнообразием и субъективной природой, необходимо также использовать качественные параметры, основанные на психологических особенностях восприятия, а не только численные или логические (как было представлено выше).
Нейронные сети на сегодняшний день представляют собой единственно доступный гибкий инструмент, имеющий потенциал к универсализации областей его применения. Использование нейронных сетей позволит менеджеру эффективно обрабатывать всю имеющуюся информацию, автоматически выявлять и обобщать сложные зависимости между входными и выходными данными, а затем использовать их для своевременного принятия важных экономических решений. Результаты решения выше представленных задач классификации могут использоваться специалистами по маркетингу для рыночного позиционирования аналогичных товаров и построения соответствующих производственной, ценовой, сервисной, рекламной и других стратегий фирмы.
ПЕРЕЧЕНЬ ССЫЛОК
1. Statistics Neural Networks, Addendum for Version 4.0, Statsoft, Inc., 1999.
2. Witkowska D. Sztuczne sieci neuronowe i metody statystyc-zne.-Warszawa: Wyd С. H. BECK, 2002.- 201 str.
3. Ed. Nalecz M. Sieci neuronowe.-Т.б.-Warszawa: Akadamicka Oficyna, Wydawnicza EXIT, 2000.-833 s.
4. Rutkowska D., Pilinski M. , Rutkowski L.: Sieci neuronowe, algorytmy genetyczne i systemy rozmyte.- Warszawa:, PWN , 1997, 411 s.
5. Zurada J., Barski M., Jedruch W. Sztuczne sieci neuronowe.- Warszawa: PWN, 1997, 375 s.
6. Rosenblatt F.: The Perceptron: A Probabilistic Model for information storage and organization in the Brain // Psychological Review, 1958, v.65, pp. 386-408.
7. Rumelhart D.E, Hinton G.E., Williams R.J: Learning representation by back-propagating errors // Nature,1986, vol.323, pp.533-536.
8. Specht D.F. Probabilistic Neural Networks // Neural Net-works,1990, V.3, pp. 109-118.
9. Kohonen T. Self-organizing Maps // Proc. IEEE, 78, no.9, pp. 1464-1480.
10. Камоцки А.В., Павлюк E.В.(студенты Киевского Института прикладного системного анализа): Отчет по курсовой работе (не опубликован), 2001, Киев.
Надшшла 2.12.03 f tк:ля доробки 20.01.04
This paper introduces the results on the research using artificial neural networks to the problem classification. The aim of
this research was to compare and analysis of the used methods
classification.