Научная статья на тему 'Многослойная адаптивная нечеткая вероятностная нейронная сеть в задачах классификации текстовых документов'

Многослойная адаптивная нечеткая вероятностная нейронная сеть в задачах классификации текстовых документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
595
76
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
классификация / адаптивная нечеткая вероятностная нейронная сеть / пересекающиеся классы / нейроны в точках данных / classification / adaptive fuzzy probabilistic neural network / overlapping classes / neurons in the data points / класифікація / адаптивна нечітка імовірнісна нейронна мережа / класи / що перетинаються / нейрони в точках даних

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бодянский Е. В., Рябова Н. В., Золотухин О. В.

Рассмотрена задача классификации текстовых документов на основе нечеткой вероятностной нейронной сети в режиме реального времени. В массиве текстовых документов может быть выделено различное количество классов, к которым могут относиться данные документы. При этом предполагается, что данные классы могут иметь в n-мерном пространстве различную форму и взаимно перекрываться. Предложена архитектура многослойной адаптивной нечеткой вероятностной нейронной сети, которая позволяет решать задачу классификации в последовательном режиме по мере поступления новых данных. Предложен алгоритм обучения многослойной адаптивной нечеткой вероятностной нейронной сети, а также решена задача классификации на основе предложенной архитектуры в условиях пересекающихся классов, что позволяет относить один экземпляр текстового документа к разным классам с различной степенью вероятности. Архитектура классифицирующей нейронной сети отличается простотой численной реализацией и высокой скоростью обучения, и предназначена для обработки больших массивов данных, характеризующихся векторами признаков высокой размерности. Предлагаемая нейронная сеть и метод еe обучения предназначены для работы в условиях пересекающихся классов, отличающихся как формой, так и размерами.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Бодянский Е. В., Рябова Н. В., Золотухин О. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MULTILAYER ADAPTIVE FUZZY PROBABILISTIC NEURAL NETWORK IN CLASSIFICATION PROBLEMS OF TEXT DOCUMENTS

The problem of text documents classification based on fuzzy probabilistic neural network in real time mode is considered. A different number of classes, which may include such documents, can be allocated in an array of text documents. It is assumed that the data classes can have an n-dimensional space of different shape and mutually overlap. The architecture of the multlayer adaptive fuzzy probabilistic neural network, which allow to solve the problem of classification in sequential mode as new data become available, is.proposed. An algorithm for training the multilayer adaptive fuzzy probabilistic neural network is proposed, and the problem of classification is solved on the basis of the proposed architecture in terms of intersecting classes, which allows to determine the belonging a single instance of a text document to different classes with varying degrees of probability. Classifying neural network architecture characterized by simple numerical implementation and high speed training, and is designed to handle large data sets, characterized by the feature vectors of high dimension. The proposed neural network and its learning method designed to work in conditions of overlapping classes, differing both the form and size.

Текст научной работы на тему «Многослойная адаптивная нечеткая вероятностная нейронная сеть в задачах классификации текстовых документов»

НЕИРОШФОРМАТИКА ТА 1НТЕЛЕКТУАЛЬН1 СИСТЕМИ

НЕИРОИНФОРМАТИКА И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ

NEUROINFORMATICS AND INTELLIGENT SYSTEMS

УДК004.912:004.8

Бодянский Е. В.1, Рябова Н. В.2, Золотухин О. В.3

1Д-р техн. наук, профессор, профессор кафедры искусственного интеллекта Харьковского национального университета

радиоэлектроники, Харьков, Украина

2Канд. техн. наук, доцент, и.о. зав. кафедрой искусственного интеллекта Харьковского национального университета

радиоэлектроники, Харьков, Украина

3Ассистент кафедры искусственного интеллекта Харьковского национального университета радиоэлектроники,

Харьков, Украина

МНОГОСЛОЙНАЯ АДАПТИВНАЯ НЕЧЕТКАЯ ВЕРОЯТНОСТНАЯ НЕЙРОННАЯ СЕТЬ В ЗАДАЧАХ КЛАССИФИКАЦИИ ТЕКСТОВЫХ _ДОКУМЕНТОВ_

Рассмотрена задача классификации текстовых документов на основе нечеткой вероятностной нейронной сети в режиме реального времени. В массиве текстовых документов может быть выделено различное количество классов, к которым могут относиться данные документы. При этом предполагается, что данные классы могут иметь в и-мерном пространстве различную форму и взаимно перекрываться. Предложена архитектура многослойной адаптивной нечеткой вероятностной нейронной сети, которая позволяет решать задачу классификации в последовательном режиме по мере поступления новых данных. Предложен алгоритм обучения многослойной адаптивной нечеткой вероятностной нейронной сети, а также решена задача классификации на основе предложенной архитектуры в условиях пересекающихся классов, что позволяет относить один экземпляр текстового документа к разным классам с различной степенью вероятности. Архитектура классифицирующей нейронной сети отличается простотой численной реализацией и высокой скоростью обучения, и предназначена для обработки больших массивов данных, характеризующихся векторами признаков высокой размерности. Предлагаемая нейронная сеть и метод ее обучения предназначены для работы в условиях пересекающихся классов, отличающихся как формой, так и размерами.

Ключевые слова: классификация, адаптивная нечеткая вероятностная нейронная сеть, пересекающиеся классы, нейроны в точках данных.

НОМЕНКЛАТУРА

AFPNN - Adaptive Fuzzy Probabilistic Neural Network; EPNN - Enhanced Probabilistic Neural Network; FLVQ - Fuzzy LVQ;

FPNN - Fuzzy Probabilistic Neural Network; PNN - Probabilistic Neural Network; WTA - Winner Take All; Cj - среднее арифметическое; N - количество нейронов в скрытом слое; wi (N) - обучающая выборка; П - параметр шага обучения; D - евклидово расстояние (метрика); j - нейрон-победитель; j * - индекс прототипа-победителя; k - номер наблюдения;

© Бодянский Е. В., Рябова Н. В., Золотухин О. В., 2015 DOI 10.15588/1607-3274-2015-1-5

I - ширина активационной функции; т - число возможных классов; N - объем обучающей выборки; и - арность векторов;

N^1 - количество векторов, относящихся к классу Х; [Л

с>1J - выходной сигнал скрытого слоя; Р - априорная вероятность; р - относительная частота появления образов; р(х) - функция плотности вероятностей; д* - нейрон-победитель внутри блока; ир - уровень принадлежности;

- синаптический вес;

щ>1 - транспонированный вектор синаптических весов; х(к, /) - сигнал вектора-образа, который участвовал в классификации;

x(k, j) - сигнал вектора-образа, с известной классификацией;

x ft) - синаптические веса в скалярной форме;

x (k) - и-мерный вектор признаков с номером классифицируемого образа k;

а - параметр ширины активационной функции.

ВВЕДЕНИЕ

На сегодняшний день классификация текста считается достаточно сложной проблемой. Классификация текста является деятельностью, которая становится все более значимой в наши дни. Это обусловлено огромным объемом доступной информации и проблемой поиска информации. К тому же большинство используемых баз данных являются политематическими с большим количеством категорий, которые превращают задачу классификации текста в более сложную.

Возникли новые проблемы, среди которых наиболее острой является информационная перегруженность и, как следствие, необходимость классификации последовательно поступающих документов в режиме реального времени. Эта задача весьма актуальна, например, для информационных агентств, разнообразных Интернет-издательств, которые должны постоянно классифицировать поток поступающих текстовых документов, в том числе новостных сообщений, аналитических обзоров, дайджестов, статей, докладов и т.п. При этом документы, подлежащие классификации, как правило, характеризуются разнородностью (политематичностью), т.е. затрагивают сразу несколько тем, как весьма различных, так и очень близких.

On-line классификация такого рода текстовых документов не является тривиальной задачей, поскольку в небольшом фрагменте текста может содержаться весьма ценная информация, и отнесение к соответствующему классу нельзя игнорировать, а близко расположенные классы могут пересекаться и/или сливаться. Поэтому желательно учесть принадлежность анализируемого документа к каждому из потенциально интересующих пользователя классов.

В то же время большинство известных методов классификации относят текстовый документ к одному из четко различимых классов. Отсутствие возможности получить наиболее актуальную и полную информацию по конкретной теме делает бесполезной большую часть накопленных ресурсов. Поскольку исследование конкретной задачи требует все больших трудозатрат на непосредственный поиск и анализ информации по теме, многие решения принимаются на основе неполного представления о проблеме.

1 ПОСТАНОВКА ЗАДАЧИ

Пусть задан массив, содержащий N текстовых документов, описываемых «-мерными векторами-признаками, при этом часть документов является классифицируемыми, а часть нет. Предполагается также априорно, что в массиве может быть выделено m различных классов, к которым могут относиться данные документы. При этом предполагается также, что данные классы могут иметь в m -мерном пространстве различную форму и взаимно перекрываться. Необходимо создать классифицирую-

щую нейро-фаззи систему, которая позволит производить простой и эффективный метод классификации при условии взаимно перекрывающихся классов и предложить архитектуру классифицирующей нечеткой вероятностной сети, которая позволит разбивать подающие на обработку документы как с точки зрения Байесовской, так и нечеткой классификации одновременно. Сеть должна быть простой в реализации и пригодной для обработки поступающих наблюдений в последовательном online режиме.

2 ОБЗОР ЛИТЕРАТУРЫ

Достаточно эффективным средством для решения задачи классификации текстовых документов являются вероятностные нейронные сети, введенные Д. Ф. Шпех-том [1], обучение которых производится по принципу «нейроны в точках данных», что делает его крайне простым и быстрым. В [2-4] были введены модификации PNN, предназначенные для обработки текстовой информации и отличающиеся наличием элементов конкуренции в процессе обучения и возможностью коррекции рецепторных полей ядерных активационных функций. В [5-7] были введены нечеткие модификации вероятностных сетей, в том числе и для обработки текстов [8], позволяющие решать задачу классификации в условиях пересекающихся классов. Вместе с тем, использование PNN и FPNN в задачах обработки текстов усложняется в случаях, когда объемы анализируемой информации велики, а векторы признаков (образы) имеют достаточно высокую размерность. Это затруднение объясняется тем, что как в PNN, так и в других нейронных сетях, обучаемых по принципу «нейроны в точках данных» [9], количество нейронов первого скрытого слоя (слоя образов) определяется числом векторов-образов обучающей выборки N, что, естественно, приводит к снижению быстродействия и требует хранения всех данных, использованных в процессе обучения сети, что естественно затрудняет работу в on-line режиме. Для преодоления этого недостатка в [10] была предложена улучшенная вероятностная нейронная сеть, где первый скрытый слой образован не образами, а прототипами классов, вычисленных с помощью обычного ^-среднего (HCM) в пакетном режиме. Поскольку в задачах классификации число возможных классов m обычно существенно меньше объема обучающей выборки N, EPNN гораздо лучше приспособлена для решения реальных задач, чем стандартная PNN.

Вместе с тем, можно отметить такие основные недостатки EPNN, как возможность обучения только в пакетном режиме, когда обучающая выборка задана заранее, и четкий результат классификации (отнесение предъявляемого образа только к одному классу), в то время как при обработке текстовых документов достаточно часто возникает ситуация, когда анализируемый текст с различными уровнями принадлежности может одновременно относиться сразу к нескольким, возможно пересекающимся классам. В связи с этим в [11] была предложена нечеткая вероятностная сеть, где в первом скрытом слое производится адаптивное уточнение прототипов с помощью WTA-правила обучения Т. Кохонена [12], а выходной слой оценивает уровни принадлежности посту-

пающих на обработку образов к тем или иным классам с помощью процедуры нечетких С-средних (FCM) [13]. Такая сеть содержит минимально возможное количество нейронов, равное числу классов и потому характеризуется высоким быстродействием. Вместе с тем же сеть не учитывает ни размеры классов, ни частоту появления образов в каждом из этих классов, что естественно ограничивает еe возможности при обработке данных, чьи прототипы уда -лены друг от друга на различное расстояние, которые к тому же может изменяться с течением времени. 3 МАТЕРИАЛЫ И МЕТОДЫ

Классические вероятностные нейронные сети Д. Ф. Шпехта предназначены для решения задач байесовской классификации (распознавания образов на основе байесовского подхода), состоящего в том, что класс с наиболее плотным распределением в области неклассифицированного предъявляемого образа x (k) будет иметь преимущество по сравнению с другими классами. Также будет иметь преимущество и класс с высокой априорной вероятностью. Так, для трех возможных классов A, B и С в соответствии с байесовским правилом выбирается класс

А, если PaPa (x) > PbPb (x) AND PaPa (x) > PcPc (x).

Стандартная PNN состоит из входного (рецепторно-го) слоя, первого скрытого, именуемого слоем образов, второго скрытого, называемого слоем суммирования, и выходного слоя, образованного компаратором, выделяющим максимальное значение на выходе второго скрытого слоя.

Исходной информацией для синтеза сети является обучающая выборка образов, образованная «пакетом» «-мерных векторов x(1), x(2),..., x(k),..., x( N) c известной классификацией. Предполагается также, что Na векторов относятся к классу A, Nb к классу B и Nc к классу С, т.е. Na + Nb + Nc = N, а априорные вероятности могут быть рассчитаны с помощью элементарных соотношений:

Pa =

Na

N

, PB =

Nb

N

, Pc =■

N

С N

pa + pB + Pc = 1.

Количество нейронов в слое образов сети Шпехта равно N (по одному нейрону на каждый образ), а их синаптические веса определяются значениями компонент этих образов по принципу «нейроны в точках данных» так, что щ = х{ (I), I = 1,2,...,и; I = 1,2,..., N, или в

векторной форме щ = х(1) = (х1(/), х2(1),..., хи (1))Т.

Очевидно, что обучение в данном случае сводится к одноразовой установке весов, что делает его крайне простым.

Каждый из нейронов слоя образов имеет колоколо-образную функцию активации, с помощью которой предъявляемый сети сигнал x(k) преобразуется в скалярный выход нейрона с|г](к) = Ф(||x(k) -Щ/||, ст) чаще всего на основе гауссиана

0f](k) = extf-I*^

2ст

В [11] было показано, что в задачах нечеткой классификации более естественно использовать распределение Коши в виде

o\'](k) =-

1

1 +

||x(k) ~ wl

2ст2

где параметр ст задает ширину,

I = 1(Л),2(A),..., NA (A),NA +1(Б),...,N а + Nв (B), NA + + Nв + 1(С),..., N (С).

Для упрощения численной реализации входные векторы рекомендуется предварительно нормировать на

гиперсферу [12] так, что ||х(к )|| = | |щ|| = 1, что ведет к более простой форме активационной функции

ст2

с[г](к) =-СТ-.

' ст2 + (1 + щ/х( к))

Слой суммирования образован обычными сумматорами, число которых равно числу классов (в рассматриваемом случае - три), которые просто суммируют выходы нейронов слоя образов, а выходной компаратор выделяет класс с максимальным выходным сигналом второго слоя.

Поскольку при работе с текстовыми документами N может быть велико, работа в опНпе-режиме с помощью стандартной РМЫ весьма затруднительна. Именно по этой причине в [10] была введена крайне простая архитектура, число нейронов в которой равно числу классов (в нашем примере три), а классификация производится с помощью оценки расстояния до прототипов классов, вычисленных с помощью среднего арифметического

1 N

c, = — X x(k, j), j = 1,2,...,m, ^ k=1

"7 N,

в нашем случае т = 3, ] = 1 соответствует классу А, ] = 2 - Б и ] = 3 - С.

Понятно, что такая элементарная схема не способна оценить ни размеры классов, ни их взаимное перекрытие.

Для устранения указанных недостатков и предлагается многослойная адаптивная нечеткая вероятностная нейронная сеть, архитектура которой приведена на рис. 1.

Первый скрытый слой содержит т однотипных блоков (на рис.1 - А, В и С) по числу возможных классов, которое может изменяться в процессе опИпе-обучения. Каждый из блоков содержит одинаковое число нейронов N + 1^а = NБ = N = NN), при этом в каждом блоке N нейронов (в нашем примере 3) обучаются по принципу «нейроны в точках даннных», а один нейрон С] (сА,СБ, СС ) вычисляет прототипы классов. В каждом блоке между отдельными нейронами и между блоками в целом по внутриблочным и межблочным латеральным связям организуется процесс «конкуренции» по Кохонену, позволяющий оценить как центроиды (прототипы) классов, так и их размеры. Второй скрытый слой

2

2

при этом очевидно, что

-1 < cos( x(1, j), 2

»а

Рисунок 1 - Многослойная адаптивная нечеткая вероятностная сеть сумматоров аналогичен слою в сети Шпехта, в третьем скрытом слое коррекции априорных вероятностей под-считываются частоты появления образов в каждом из классов, а выходной слой-компаратор реализует собственно классификацию предъявленного образа.

Процесс обучения сети начинается с установки начальных синаптических весов всех нейронов. Для архитектуры, приведенной на рис. 1, необходимо иметь девять (NN ■ m) классифицированных образов по три на каждый класс A, B и С. Так, например,

x(1, A) = w1(0), x(2, A) = w2(0), x(3, A) = w3(0),

x(4, B) = w4 (0), x(5, B) = w5 (0), x(6, B) = w6(0),

x(7, C) = w7 (0), x(8, C) = w8 (0), x(9, C) = w9 (0),

ca(0) = 3 i x(k,A),cb(0) = 3 i x(k,B),cc(0) = 3 i x(k,C).

3 k=1 3 k=4 3 k=7

Далее векторы-образы, участвовавшие в формировании начальных условий, не используются и все последующие сигналы будут обозначаться x(k, j), если они относятся к обучающей выборке x(k), если они подлежали классификации.

Итак, пусть на вход сети подается первый образ x(1, j), относительно которого известна его принадлежность к конкретному классу A или В или С. В результате межблочной конкуренции определяется прототип победитель j * (при этом j не обязательно равно j *), вектор параметров которого с,*(0) в смысле принятой метрики (обычно евклидовой) наиболее близок к входному сигналу x(1, j), т. е.

j* = arg mm ((x(1, j), cp (0))) = arg min ||x(1, j) - Cp (0)||2 =

p

T

= arg max x (1, j) c p (0) = arg max cos(x(1, j),

ср (0)) = хТ (1, /)ср (0) < 1 и 0 < ||х(1, /) - ср (0)|| < 4.

При этом возможно возникновение двух взаимоисключающих ситуаций:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- входной вектор х(1, /) и прототип-победитель

с/*(0) принадлежат одному классу, т. е. / = / *;

- входной вектор х(1, /) и победитель С/* (0) принадлежат разным классам, т. е. / = / *.

Далее производится настройка параметров нейронов и прототипов с помощью нечеткого ЬУС) правила обучения [14]

с, (1) =

Cj* (0) + n(1)(x(1, j) - Cj* (0)), если j = j* Cj* (0) - n(1)(x(1, j) - с,* (0)), если j * j* с, (0), если j -й нейрон не победил,

здесь 0 < п(1) < 1 - параметр шага обучения, выбираемый обычно из эмпирических соображений.

Далее в случае пересекающихся классов несложно определить уровень принадлежности образа х(1, /) к каждому из т имеющихся классов в виде [14]

Up (1) =

||x(1, j ) - Cp (1)||-2

, p = 1, 2,..., m.

£||x(1, j) - сг (1)||

l=1

1-2

На этом этап межблочной конкуренции заканчивается. На этапе внутриблочной конкуренции в блоке, соответствующем классу / рассчитываются расстояния

В(С/ (1), Wq (0)) = ||с/ (1) - Wq (0)|| , где q пробегает все

номера нейронов, соответствующих /-ому классу Далее внутри / -го блока рассчитывается свой победитель

q *(0) = а^тт(В(су- (1), wq (0)), ближайший к прототи-

q

пу / -го класса и в случае, если выполняется условие

В(с / (1), w/* (0)) < В (с / (1), х(1, /)), вектор центра 9 *-й функции активации заменяется на х(1,/), увеличивая тем самым размеры класса, т.е. Wq*(1) = х(1, /). В противном случае все Wq (0) остаются неизменными, увеличивая

на единицу только свой индекс так, что wq (1) = wq (0).

Таким образом, в процессе обучения по принципу «нейроны в точках данных» включаются только наблюдения, далеко отстоящие от текущего значения прототипа.

Пусть к моменту поступления к -го наблюдения обучающей выборки сформированы все прототипы с/ (к — 1) и векторы параметров нейронов Wl (к -1) общим числом Ыт. Тогда процесс обучения первого скрытого слоя может быть записан в виде следующей последовательности шагов:

- поступление на вход сети вектора-образа х(к, /) с известной классификацией;

- определение прототипа-победителя с/* (к — 1) такого, что

cp (0)) V p = 1,2,..., m,

j *(k -1) = arg min(D (x(k, j), c p (k -1))), p = 1,2,..., m;

- настройка параметра прототипа-победителя так, что

Cj (k) =

cj* (k -1) + n(k)(x(k, j) - Cj* (k -1)), если j = j*; Cj*(k-1)-n(k)(x(k, j) -Cj*(k-1)), если j Ф j*; Cj (k -1), если j -й нейрон не победил,

расчет уровней принадлежности 11-2

Up (k) =

||x(k, j) - Cp (k )||"

, p = 1, 2,..., m;

|x(k, j) - c1 (k )||

l=1

-2

- расчет внутриблочных расстояний в j -м классе D(Cj (k), wq (k -1)), где q-все индексы нейронов j -блока;

- определение внутриблочного победителя (k -1)

такого, что q *(k -1) = arg min(D(c j (k), wq (k -1)),

q

- при выполнении условия D(c j (k), wj* (k -1)) < D(c j (k), x(k, j)) производится замена wq* (k) = x(k, j) и wq (k) = wq (k -1).

Процесс обучения этого слоя производится до исчерпания обучающей выборки, т. е. завершается вычислением всех c j (N) и всех Nim весов wi (N).

Одновременно с этим в третьем скрытом слое происходит процесс подсчета относительных частот появления образов из разных классов

N

p, =■

J

] N

На этом процесс обучения многослойной адаптивной нечеткой вероятностной нейронной сети завершается.

Пусть на вход обученной сети поступает некий неклассифицированный образ х(к), к > N. Этот сигнал поступает на все Ыт нейронов сети, на выходах которых появляются значения

ст2

с?](к) =-!-СТ^-.

' ст2 + (1 + Щ>Т (N)х(к))

Здесь же в первом скрытом слое вычисляются уровни принадлежностей к каждому из возможных классов

u,(k) =

|x(k) - Cj (N )|-2

m

x(k) - Ci (N)||-

l=1

В принципе, можно говорить о принадлежности х(к) к конкретному классу по максимальному значению принадлежности, однако в этом случае речь идет только о нечеткой классификации [14], а не байесовской.

Далее сумматоры второго скрытого слоя вычисляют плотности вероятностей

42](k) = £ 0W(k), j = 1,2,...,

f<

m,

q

а д пробегает все номера нейронов (всего N +1), соответствующих _/-му классу

В третьем скрытом слое вычисляются произведение

с;3](к) = /[?{к) = Р/Р/ (х(к))

N

и, наконец, компаратор выходного слоя вычисляет класс победитель j **(k), которому с наибольшей вероятностью принадлежит предъявленный образ x(k).

При предъявлении последующих образов x(k +1), x(k + 2),... классификация происходит аналогично предыдущему образу

4 ЭКСПЕРИМЕНТЫ

В качестве экспериментальных данных использовалась выборка «20 Newsgroups», которая представляет собой набор из примерно 20000 новостных документов, разделенных на 20 различных групп. Этот текстовый корпус стал популярным набором данных для экспериментов в области интеллектуальной обработки текстовой информации. Одной из отличительных особенностей этой коллекции является значительный разброс в размерах документов, что осложняет задачу обработки информации. Исходная выборка данных была разделена на обучающую и тестирующую (60% и 40% соответственно).

Для эксперимента было выбрано 150 документов из различных категорий. После предварительной обработки было получено 61118 терминов для формирования вектора признаков для работы вероятностных нейронных сетей. Для оценки качества классификации использовались внешние меры полноты и точности).

5 РЕЗУЛЬТАТЫ

Результаты сравнения производительности простой FPNN и AFPNN для одинакового количества признаков представлены в табл. 1.

В ходе эксперимента рассматривалось, прежде всего, качество работы AFPNN. В табл. 2 представлен результат работы метода для значения параметра ширины активаци-онной функции ст = 0,05. Показано, что в результате работы формируется набор значений вероятностей принадлежности входного текстового объекта к нескольким классам.

6 ОБСУЖДЕНИЕ

Предложенная авторами нейро-фаззи сеть позволяет решать задачу с точки зрения как нечеткой, так и вероятностной классификации, что обеспечивает ей преимущество по сравнению с классическими Байесовскими сетями и вероятностными нейронными сетями, все из которых не могут решать задачу в условиях перекрывающихся классов. Становится возможным определить более точные значения вероятностей принадлежности входящего текстового объекта к каждому из потенциально возможных классов. Данный метод предусматривает возможность обработки информации по мере ее поступления, характеризуется простотой реализации и высокой скоростью обработки информации.

2

Таблица 1 - Сравнительная характеристика качества классификации с использованием стандартной БРМЫ и АБРНЫ

Название класса Количество документов Точность Отзыв

FPNN AFPNN FPNN AFPNN

comp.graphics 100 0,73 0,81 0,78 0,83

comp.os.ms-windows.misc 80 0,65 0,69 0,71 0,79

comp. sys. ibm .pc .hard ware 70 0,63 0,67 0,69 0,76

comp. sys .mac .hard ware 20 0,60 0,61 0,64 0,72

Таблица 2 - Пример работы классификации с параметром ширины активационной функции ст = 0,05

№ входящего текстового объекта Вероятность принадлежности к первому классу Вероятность принадлежности ко второму классу Вероятность принадлежности к третьему классу

1 1 1,2412 10-144 1,0302 10-132

2 0,24081 9,1785 10-16 0,75919

3 6,2498 10-81 1 7,7081 10-68

4 5,427 10-56 1 2,3617 10-64

5 3,6966 10-12 1 2,5228 10-45

ВЫВОДЫ

Рассмотрена задача одновременной online нечеткой и вероятностной классификации текстовых документов, поступающих на обработку последовательно в реальном времени.

Введена архитектура классифицирующей нейронной сети, отличающаяся простотой численной реализации и высокой скоростью обучения и предназначенная для обработки больших массивов данных, характеризующихся векторами признаков высокой размерности. Предлагаемая нейронная сеть и метод ее обучения предназначены для работы в условиях пересекающихся классов, отличающихся как формой, так и размерами. БЛАГОДАРНОСТИ

Работа выполнена в рамках госбюджетной научно-исследовательской темы Харьковского национального университета радиоэлектроники №265-1 «Методы создания общей онтологической базы социально-економической образовательно-научной сети с целью интеграции в европейское пространство» при поддерже национального проекта TRUST: Towards Trust in Quality Assurance Systems программы «Tempus» Европейской комиссии (регистрационный номер 516935-TEMPUS- 1-2011-1-FITEMPUS-SMGR).

СПИСОК ЛИТЕРАТУРЫ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Specht D. F. Probabilistic neural networks / D. F. Specht // Neural Networks. - 1990. - Vol. 3 (1). - P. 109-118.

2. Бодянский Е. В. Семантическое аннотирование текстовых документов с использованием модифицированной вероятностной нейроной сети / Е. В. Бодянский, О. В. Шубкина // Системные технологии. - Днепропетровск, 2011. - Вып. 4 (75). - С. 48-55.

3. Bodyanskiy Ye. Semantic annotation of text documents using modified probabilistic neural network / Ye. Bodyanskiy, O. Shubkina// Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications: 6th IEEE Intеrnational Conferences, Prague, 15-17 September 2011: - Prague: Czech Technical University In Prague, 2011. - P. 328-331.

4. Bodyanskiy Ye. Semantic annotation of text documents using evolving neural network based on principle «Neurons at Data Points» / Ye. Bodyanskiy, O. Shubkina // Workshop on Inductive Modelling «IWIM 2011» : 4th Interational Conference, Zhukyn-Kyiv, 4-10 July 2011: Kyiv: IRTC ITS, 2011. - P. 31-37.

5. Bodyanskiy Ye. A learning probabilistic neural network with fuzzy inference / Ye. Bodyanskiy, Ye. Gorshkov, V. Kolodyazhniy,

J. Wernstedt // Artificial Neural Nets and Genetic Algorithms «ICANNGA 2003» : 6th International Conference, Roanne, France April 23-25 April 2003 : proceedings. - Wien : SpringerVerlag, 2003. - P. 13-17.

6. Bodyanskiy Ye. Resource-allocating probabilistic neuro-fuzzy network / Ye. Bodyanskiy, Ye. Gorshkov, V. Kolodyazhniy // European Union Society for Fuzzy Logic and Technology «EUSFLAT 2003» : 3rd Internetional Conference, Zittau : proceedings. - Zittau : University of Applied Sciences at Zittau/ Goerlitz, 2003. - P. 392-395.

7. Bodyanskiy Ye. Probabilistic neuro-fuzzy network with non-conventional activation functions / Ye. Bodyanskiy, Ye. Gorshkov, V. Kolodyazhniy, J. Wernstedt // Knowledge-Based Intelligent Information and Engineering Systems : 7th International Conference KES 2003, Oxford, 3-5 September 2003 : proceedings. - Berlin-Heidelberg-New York : Springer, 2003. -P. 973-979. - (Lecture Notes in Computer Science, Vol. 2774).

8. Бодянский Е. В. Классификация текстовых документов с помощью нечеткой вероятностной нейронной сети / Е. В. Бодянский, Н. В. Рябова, О. В. Золотухин // Восточноевропейский журнал передовых технологий - 2011. - № 6/2 (54). -С.16-18.

9. Zahirniak D. R. Pattern recognition using radial basis function network / D. R. Zahirniak, R. Chapman, S. K. Rogers, B. W. Suter, M. Kabriski, V. Pyatti // Aerospace Application of Artificial Intelligence: 6 International Conference, 5-8 June 1990

: proceedings. - Dayton : Ohio, 1990. - P. 249-260.

10. Ciarelli P. M. An enhanced probabilistic neural network approach applied to text classification / P. M. Ciarelli, E. Oliveira // Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications : 14th Iberoamerican Conference CIARP 2009, Jalisco, 15-18 November 2009 : proceedings. - Berlin-Heidelberg : Springer-Verlag, 2009. - P. 661-668. - (Lecture Notes in Computer Science, Vol. 5856).

11. Bodyanskiy Ye. Modified probabilistic neuro-fuzzy network for text documents processing / Ye. Bodyanskiy, I. Pliss, V. Volkova // International Journal Computing. - 2012. - 11. - № 4. - P. 391-396.

12. Kohonen T. Self-Organizing Maps / T. Kohonen. - Berlin: Springer, 1995. - 362 p.

13.Bezdek J. C. Convergence theory for fuzzy c-means: Counterexamples and repairs / J. C. Bezdek, R. J. Hathaway, M. J. Sabin, W. T. Tucker // IEEE Transaction on Systems, Man, and Cybernetics.-1987. - SMC-17. - № 5.- P. 873-877.

14. Bezdek J. C. Fuzzy Models and Algorithms for Pattern Recognition and Image Processing / J. C. Bezdek, J. Keller, R. Krishnapuram, N. R. Pal // N.Y: Springer Science + Business Media, Inc., 2005. - 776 p.

Статья поступила в редакцию 17.10.2014.

После доработки 22.12.2014.

Бодянський С. В.1, Рябова Н. В.2, Золотухш О. В.3

'Д-р техн. наук, професор, професор кафедри штучного штелекту Харгавського нащонального ушверситету радюелектрошки, Харкiв, Укра!на

2Канд. техн. наук, доцент, в.о. зав. кафедрою штучного штелекту Харгавського нащонального ушверситету радюелектрошки, Харгав, Украша

3Асистент кафедри штучного iнтелекту Харгавського нацiонального унiверситету радiоелектронiки, Харкiв, Украша

БАГАТОШАРОВА АДАПТИВНА НЕЧ1ТКА ИМОВ1РН1СНА НЕЙРОННА МЕРЕЖА В ЗАДАЧАХ КЛАСИФ1КАЦ11 ТЕКСТОВЫХ ДОКУМЕНТ1В

Розглянуто задачу класифжацп текстових документiв на основi нечгтко! iмовiрнiсноi нейронно! мережi в режи]ш реального часу У масивi текстових документа може бути видiлено рiзну кiлькiсть класiв, до яких можуть вiдноситися данi документи. При цьому передбачаеться що данi класи можуть мати в и-вимiрному просторi рiзну форму i взаемно перекриватися. Запропонована архитектура багатошарово! адаптивно! нечiткоi iмовiрнiсноi нейронно! мережi, яка дозволяе виршувати задачу класифiкацii в послiдовному режимi по мiрi надходження нових даних. Запропонований алгоритм навчання багатошарово! адаптивно! нечгтко! iмовiрнiсноi нейронно!' мережi, а також виршена задача класифiкацii на основi запропоновано! архгтектури в умовах переачних класiв, що дозволяе вщносити один екземпляр текстового документа до рiзних класiв з рiзним ступенем iмовiрностi. Архитектура класифiкуючоi нейронно! мережi вiдрiзняеться простотою чисельно! реалiзацiею i високою швидкiстю навчання, i призначена для обробки великих масивiв даних, що характеризуються векторами ознак високо! розмiрностi. Пропонована нейронна мережа i метод !! навчання призначенi для роботи в умовах переачних клаав, що вiдрiзняються як формою, так i розмiрами.

Ключовi слова: класифжащя, адаптивна нечiтка iмовiрнiсна нейронна мережа, класи, що перетинаються, нейрони в точках даних.

Bodyanskiy Ye. V.1, Ryabova N. V.2, Zolotukhin O. V.3

*Dr.Sc., Professor, Professor of Department of Artificial Intelligence, Kharkiv National University of Radioelectronics, Kharkiv, Ukraine

2PhD., Associate Professor, Acting Head of Department of Artificial Intelligence, Kharkiv National University of Radioelectronics, Kharkiv, Ukraine

3Assistant of the Department of Artificial Intelligence, Kharkiv National University of Radioelectronics, Kharkiv, Ukraine

MULTILAYER ADAPTIVE FUZZY PROBABILISTIC NEURAL NETWORK IN CLASSIFICATION PROBLEMS OF TEXT DOCUMENTS

The problem of text documents classification based on fuzzy probabilistic neural network in real time mode is considered. A different number of classes, which may include such documents, can be allocated in an array of text documents. It is assumed that the data classes can have an n-dimensional space of different shape and mutually overlap. The architecture of the multlayer adaptive fuzzy probabilistic neural network, which allow to solve the problem of classification in sequential mode as new data become available, is.proposed. An algorithm for training the multilayer adaptive fuzzy probabilistic neural network is proposed, and the problem of classification is solved on the basis of the proposed architecture in terms of intersecting classes, which allows to determine the belonging a single instance of a text document to different classes with varying degrees of probability. Classifying neural network architecture characterized by simple numerical implementation and high speed training, and is designed to handle large data sets, characterized by the feature vectors of high dimension. The proposed neural network and its learning method designed to work in conditions of overlapping classes, differing both the form and size.

Keywords: classification, adaptive fuzzy probabilistic neural network, overlapping classes, neurons in the data points.

REFERENCES

1. Specht D. F. Probabilistic neural networks, Neural Networks, 1990, Vol. 3 (1), pp. 109-118.

2. Bodyanskiy Ye. V., Shubkina O. V. Semanticheskoe annotirovanie tekstovyh dokumentov s ispol'zovaniem modificirovannoj verojatnostnoj nejronoj seti, Sistemnye tehnologii. Dnepropetrovsk, 2011, Vyp.4 (75), pp. 48-55.

3. Bodyanskiy Ye., Shubkina O. Semantic annotation of text documents using modified probabilistic neural network, Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications: 6th IEEE International Conferences, Prague, 15-17 September 2011. Prague, Czech Technical University In Prague, 2011, pp. 328-331.

4. Bodyanskiy Ye., Shubkina O. Semantic annotation of text documents using evolving neural network based on principle «Neurons at Data Points», Workshop on Inductive Modelling «IWIM 2011», 4th Interational Conference, Zhukyn-Kyiv, 4—10 July 2011. Kyiv, IRTC ITS, 2011, pp. 31-37.

5. Bodyanskiy Ye., Gorshkov Ye., Kolodyazhniy V., Wernstedt J. A learning probabilistic neural network with fuzzy inference, Artificial Neural Nets and Genetic Algorithms «ICANNGA 2003», 6th International Conference, Roanne, France April 23—25 April 2003, proceedings. Wien, Springer-Verlag, 2003, pp. 13-17.

6. Bodyanskiy Ye., Gorshkov Ye., Kolodyazhniy V. Resource-allocating probabilistic neuro-fuzzy network, European Union Society for Fuzzy Logic and Technology «EUSFLAT 2003», 3rd Internetional Conference, Zittau, proceedings. Zittau, University of Applied Sciences at Zittau/Goerlitz, 2003, pp. 392-395.

7. Bodyanskiy Ye., Gorshkov Ye., Kolodyazhniy V., Wernstedt J. Probabilistic neuro-fuzzy network with non-conventional

activation functions, Knowledge-Based Intelligent Information and Engineering Systems, 7th International Conference KES 2003, Oxford, 3-5 September 2003, proceedings. Berlin-Heidelberg-New York, Springer, 2003, pp. 973-979. (Lecture Notes in Computer Science, Vol. 2774)

8. Bodyanskiy Ye. V., Ryabova N. V., Zolotukhin O. V. Klassifikacija tekstovyh dokumentov s pomoshh'ju nechetkoj verojatnostnoj nejronnoj seti / Ye.V. Bodyanskiy, // Vostochno-evropejskij zhurnal peredovyh tehnologij, 2011, №6/2 (54), pp. 16-18

9. Zahirniak D. R., Chapman R., Rogers S. K., Suter B. W., Kabriski M., Pyatti V. Pattern recognition using radial basis function network, Aerospace Application of Artificial Intelligence, 6 International Conference, 5-8 June 1990, proceedings. Dayton, Ohio, 1990, pp. 249-260.

10. Ciarelli P. M., Oliveira E. An enhanced probabilistic neural network approach applied to text classification, Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, 14th Iberoamerican Conference CIARP 2009, Jalisco, 15-18 November 2009, proceedings. Berlin-Heidelberg, Springer-Verlag, 2009, pp. 661-668. - (Lecture Notes in Computer Science, Vol. 5856)

11. Bodyanskiy Ye., Pliss I., Volkova V. Modified probabilistic neuro-fuzzy network for text documents processing, International Journal Computing, 2012, 11, No.4, pp. 391-396.

12. Kohonen T. Self-Organizing Maps. Berlin, Springer, 1995, 362 p.

13. Bezdek J. C., Hathaway R.J., Sabin M. J., Tucker W. T. Convergence theory for fuzzy c-means: Counterexamples and repairs, IEEE Transaction on Systems, Man, and Cybernetics, 1987, SMC-17, No. 5, pp. 873-877.

14. Bezdek J. C., Keller J., Krishnapuram R., Pal N. R. Fuzzy Models and Algorithms for Pattern Recognition and Image Processing. N.Y, Springer Science + Business Media, Inc., 2005, 776 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.