Научная статья на тему 'Автоматическая классификация текстовых документов'

Автоматическая классификация текстовых документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
5953
719
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ / ТЕКСТОВЫЙ ДОКУМЕНТ / КЛАССИФИКАЦИЯ ТЕКСТОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Епрев А. С.

В данной статье приводится обзор некоторых актуальных методов и подходов, применяемых при решении задач классификации текстовых документов

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Автоматическая классификация текстовых документов»

УДК 004.931

АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ

А.С. Епрев

В данной статье приводится обзор некоторых актуальных методов и подходов, применяемых при решении задач классификации текстовых документов.

Введение

Классификация (категоризация, рубрикация) текстовых документов является задачей автоматического определения документа в одну или несколько категорий (рубрик, тематик) на основании содержания документа. В зарубежной литературе получил широкое распространение термин Text Categorization [1,2].

В настоящее время мы имеем дело с постоянно увеличивающимся объемом обрабатываемой и накапливаемой информации, что делает задачу классификации все более актуальной. Использование классификаторов, позволяет ограничить поиск необходимой информации относительно небольшим подмножеством документов.

Помимо сужения области поиска в поисковых системах задача классификации имеет практическое применение в следующих областях:

• фильтрация спама;

Данная работа посвящена, обзору методов и подходов, применяемых на различных этапах решения задачи классификации текстов.

Copyright © 2010 А.С. Епрев.

Омский государственный университет им. Ф.М. Достоевского. E-mail: [email protected]

1. Формализация задачи

Задача классификации текстов может быть формализована [2] как задача аппроксимации неизвестной функции Ф : D х C ^ {0,1} (каким образом документы должны быть классифицированы) через функцию Ф : D х C ^ {0,1}, именуемую классификатором, где C = {ci, ...,qC|} — множество возможных категорий, a D = {d1;... d|D|} _ множество документов,

}0, если dj £ с»;

Ф(Ф ^0=^ '

I 1, если dj £ Q.

Документ dj называют положительным примером, категории с, если Ф^-,с) = 1, и отрицательным, в противном случае.

Если в задаче каждому документу d- £ D может соответствовать только одна категория ci £ C, то имеет место однозначная классификация, а если произвольное количество категорий 0 < n- < |C| — многозначная классификация. Далее будет рассматриваться случай многозначной классификации, если не сказано иного.

Выделяют особый вид классификаторов — бинарные (двоичные), множество категорий которых состоит из двух элементов (cj и его дополнения Ci). Бинарный классификатор для {ci, Ci} определяется функцией фi : D ^ {0,1}, которая является аппроксимацией неизвестной функции Фi : D ^ {0,1},

Нахождение классификатора для множества категорий C = {с1,..., С|с|}

| C| {ci, cCi}

i = 1,..., |C|, Таким образом, классификатор ф представляет собой множество бинарных классификаторов,

2. Автоматическая классификация

При решении задач автоматической классификации текстовых документов используются методы информационного поиска (Information Retrieval, IE) [3,4] и машинного обучения (Machine Learning, ML) [4-6],

Документы на есстественном языке преобразовываются в удобную для машинной обработки форму — индексируются. В процессе индексирования происходит выделение признаков из документа,

ci

чения, при котором просматривается множество документов с заранее опре-

ci cCi

сификатора, чтобы новый (ранее не просмотренный) документ, отнесенный к ci C

мо множество документов D, для которых значения функции Ф^-, ci) известны для каждой пары (d-, ci) £ D х C,

D

неперееекающихея подмножества [2]:

• набор для обучения (обучающая выборка) L;

• набор для проверки (тестирующая выборка) T,

На обучающем множестве L строится классификатор и определяются значения его параметров, при которых классификатор выдает лучший результат. На тестовом наборе T происходит вычисление эффективности, построенного классификатора. Индексирование документов, построение классификатора и вычисление его эффективности являются темами следующих разделов,

3. Индексирование документов

Индексирование документов в задачах классификации текстов не представлено разнообразием методов и подходов. Обычно документ после индексации представляется как вектор в некотором пространстве (пространстве признаков), в котором каждому терму (признаку) ставится в соответствие его вес (значимость) :

dj (uij, • • •, и|t|j),

где T — словарь, т,е, множество термов, которые встречаются в |L| обучающих классификатор документах, и 0 ^ и— ^ 1 определяет значимость терма tk в dj

Подходы к индексированию различаются в методе определения термов и способе вычисления весов.

Обычно термами являются слова, встречающиеся в документе (за исключением так называемых стоп-слов, т.е. нейтральных слов, таких как союзы, предлоги, местоимения и т.п.). Слова, как правило, подвергаются морфологическому разбору или стеммингу (специальный алгоритм для определения морфологического корня слова [7]), В классификации текстов также используется подход к использованию не отдельных слов в качестве термов, а словосочетаний, которые выделяются при помощи синтаксического разбора предложений или статистически, что придает таким термам семантически большую значимость [9,10],

Вес и— может просто определять наличие терма в документе, в таком случае и— £ {0,1}, Но обычно в качестве весовых значений используются вещественные числа из диапазона 0 ^ и— ^ 1. Такие веса имеют статистическую или вероятностную природу и зависят от метода построения классификатора.

Для определения веса терма можно привлекать дополнительную информацию, Например, если терм находится в заголовке документа, то его вес можно увеличить на несколько процентов. Документы в наборе, как правило, имеют разную длину, поэтому полученные веса принято нормализовывать. С обзором подходов к вычислению весов термов можно ознакомиться в статье [11],

3.1. Класс весовых функций t/ * id/

Наиболее популярным классом статистических весовых функций является t/ * id/, в котором определены два интуитивных правила: чем чаще терм tk

dj

в большем количестве документов терм tk встречается, тем менее отличительным он является (inverse document frequency). Существует множество вариантов t/ * id/. Приведем один из них:

где и- — ве с i-ro терма в документе d- tf- — частота встречав мости i-ro терма в рассматриваемом документе (term frequency), id/ = log N/n — логарифм отношения количества документов в коллекции к количеству документов, в которых

i

формуле, нормализованы таким образом, что сумма квадратов весов каждого документа равна единице,

4. Уменьшение размерности пространства признаков

Эмпирический закон Хипса [13] связывает рост количества обрабатываемых

T

дов классификации напрямую зависит от размерности пространства признаков, Поэтому в задачах классификации часто прибегают к сокращению числа используемых термов, т, е, к уменьшению значения |Т| до |T'| ^ |Т|,

Побочным эффектом уменьшения размерности пространства признаков (УР) является переобучение (overfitting), когда классификатор слишком хорошо работает на документах из обучающего набора и достаточно плохо на документах, не участвующих в обучении.

Для УР можно прибегнуть к выбору термов из существующих (feature selection) или к созданию искусственных (feature extraction),

4.1. Выбор признаков

Существуют различные методы выбора термов: оставлять наиболее встречающиеся термы в документах или выбирать наиболее значимые, используя различные функции полезности.

Наиболее простой подход к уменьшению размерности пространства признаков заключается в нахождении значений df (tk) (document frequency — количество документов из L, в которых встречается терм tk) и выборе наиболее встречающихся, Янг в своей работе [14] показывает возможность уменьшения размерности пространства признаков в 10 раз без потери эффективности и отмечает, что уменьшение в 100 раз приводит к незначительным ухудшениям работы классификатора.

Рассмотрим теперь некоторые функции полезности f (tk,ci), характеризующие значимость терма tk в некотором документе для категории ci. Чтобы

C

tfij ' idfi

среднее значение

|с I

/ (tk ) = P (ci)/(tk ,Ci)

i=1

или максимальное

JCI

f (tfc) = rnaxi=1f (tfc ,Ci).

Широкое распространение получили функции полезности «прирост информации», «взаимная информация» и «метод хи-квадрат».

Прирост информациии (Information Gain, IG) определяется по формуле

/С(г*,с) = 5] V p(i,c).iog_^£>

c€{ci,ci} £€{tk}

где, например, P(tfc, ci) — вероятность того, что терм tk не встречается в некотором документе d и документ d определен в категорию ci.

Взаимная информация (Mutual Information, MI):

Л/f 77+ 1 P{tk}Ci)

MI(tk, Ci) = log-

Р(^) ■ Р(Сі)

И критерий хи-квадрат:

2 _ |£| • \Pitk, Сі) • Р(4, с*) - Р(4, Сі) ■ Р(гк, Сі)]2 Х Р(ік) ■ Р(їк) ■ Р(ъ) ■ Р(Сі) '

С подробным сравнением этих методов уменьшения размерности можно ознакомится в статье [14],

4.2. Извлечение признаков

Для уменьшения размерности пространства признаков могут применяться методы кластеризации термов и латентно-семантическое индексирование, в результате которых образуются (извлекаются) новые признаки, способствующие увеличению эффективности классификации [1],

При кластеризации признаков происходит объединение в группы термов с высокой попарной семантической близостью, представления этих групп или их центроиды используются в качестве признаков для уменьшения размерности пространства,

Бейкер и Маккалум в своей работе [15] описывают метод кластеризации, при котором уменьшение размерности пространства в 1000 раз приводит к потере эффективности классификации всего на 2%,

В качестве исходных данных в латентно-семантическом индексировании (Latent Semantic Indexing, LSI) используется матрица термы-на-документы. Столбцы этой матрицы - документы, а строки - термы. Элементами этой матрицы являются веса термов в документах. Задача уменьшения размерности пространства заключается в нахождении сингулярного разложения матрицы.

Разложение матрицы A е Rmxn в произведение двух ортогональных матриц U е Rmxm V е Rnxn и диагональной матрицы D = diag(ai,..., op) е Rmxn; Где p = min(m, n), называется сингулярным [16]:

A = UDVT.

Элементы ai > 0 диагональной матрицы D являются корнями собственных чисел матрицы AAT Если в матрице D оставить только k наибольших чисел, то произведение полученной диагональной матрицы D' и двух ортогональных U V A k

A' = UD'VT.

Теперь каждый документ и признак можно представить как линейную ком-k

5. Методы построения классификаторов

В литературе можно встретить различные методы построения классификаторов, Некоторые из них строят двоичные функции Ф: D х C ^ {0,1},а некоторые — вещественные функции CSV : D х C ^ [0,1] (Categorization Status Value), Если используются первые, то имеет место точная классификация, если вторые — пороговая, классификация. Для последних необходимо определить множество пороговых значений ri для i = 1,..., |C| (вычисляются экспериментально на обучающем наборе), которые позволяют рассматривать вещественные значения CSV как двоичные:

Ф ) = \ 0, если CSVi(dj) < Ti; j’ i 11, если CSVi(dj) ^ Ti,

Стоит отметить, что в некоторых приложениях вещественные функции могут с успехом использоваться без необходимости преобразования к двоичным. Например, классификаторы с такими функциями могут строить «рейтинг» категорий для документа, просматривая который человек утверждает определенные из них.

Далее будут рассмотрены некоторые из классических методов построения текстовых классификаторов, которые могут служить отправной точкой для разработки более эффективных методик,

5.1. Деревья решений

ci

представляет собой дерево, узлами которого являются термы tk, каждое ребро обозначено условием ^ или < а листья помечены как q или ci. Чтобы

классифицировать документ d- в категорию q или ci, необходимо пройти по

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 1. Дерево решений для категории с*.

узлам дерева начиная с корня, сравнивая веса терма в документе со значениями на ребрах. На практике обычно используют бинарные деревья решений, в которых принятие решения перехода по ребрам осуществляется простой проверкой наличия терма в документе.

Один из способов автоматического построения деревьев решений заключается в последовательном разбиении множества обучающих документов С на классы, до тех пор пока в классе не останется документов, определенных только в одну из категорий с* или с*. На каждом этапе в качестве узла дерева выбирается терм Ьк и определяется затем множество документов разбивается на два класса: ^ и

Обычно построенное дерево решений является сильно детализированным (эффект переобучения), поэтому применяются различные алгоритмы усечения дерева. Широкое применение получили алгоритмы ГОЗ 1181 и С4.5 1191.

5.2. Решающие правила

Этот класс классификаторов строит правила классификации вида «если выполняется формула, то категория», В статье |21| можно ознакомиться с системой классификации документов СОХБТІїиЕ, Эта система использовалась агентством Ііеиїегз дня классификации новостных сообщений. Правила классификации составлялись экспертами вручную. Вот одно из таких правил:

if (wheat & farm) or

(wheat & commodity) or (bushels & export) or (wheat & tonnes) or (wheat & whinter and (- soft))

then

WHEAT

else

(-> WHEAT).

Одним из способов автоматического построения правил классификации является перебор всевозможных правил в виде формул определенного вида,. В статье [22] описывается алгоритм, который применяется при решении задач медицинской направленности. Алгоритм строит формулы вида,:

C = Ii U I2 U ... U Iq,

где Ii - это конъюнкция pi признаков. Пространство признаков размерностью порядка нескольких десятков состоит из различных медицинских показателей. Время работы алгоритма экспоненциально зависит от размерности пространства признаков.

Другой подход заключается в построении формул на основе деревьев решений. Каждому пути от корня до листа в дереве решений соответствует правило, где условиями будут являться проверки из узлов, встретившихся на пути. Чтобы получить формулу для категории ci, нужно объединить все правила для путей, листьями которых является ci.

5.3. Метод наименьших квадратов

В методе наименьших квадратов (Linear Least-Squares Fit, LLSF) [23] с каждым документом dj связывают два вектора: входной вектор весов термов I(dj) размерности ITI и выходной вектор весов категорий O(dj) размерности ICI. Задача классификации сводится к определению вектора O(dj) по вектору I (dj):

MI (dj) = O(dj),

M I CI x I TI

Построение классификатора заключается в нахождении матрицы М минимизирующей норму || МI — O||f, где I — матрица раз мера IT I x ILI, столбцы которой являются векторами I (dj), O — матрица раз мера IC I x ILI, столбцы которой являются векторами O(dj), и || V||F — норма Фробениуса для матрицы n x m

F=

\

nm

ЁЕ'4 ■

i=1 j = 1

Метод наименьших квадратов позволяет минимизировать корень из суммы квадратов всех ошибок при обучении классификатора. Матрицу М получают

через сингулярное разложение матрицы, построенной на обучающем множестве, а элементы Шгк определяют СВЯЗЬ между категорией С И термоМ

5.4. Адаптивные линейные классификаторы

В классе линейных классификаторов категории и документы представлены векторами С = т |і) и С = (^, ...,^| т ]) соответственно, В качестве

) используется значение косинуса угла между векторами с] и сц

cos(dj, ci)

ITI

^ ^ Uki ' Ukj k=1

\

ITI

Е

k=1

U

ki

\

ITI

Е

k=1

и

kj

Адаптивные линейные классификатора (On-Line Linear Classifiers) [24-26] осуществляют построение классификатора на первом просмотренном документе и постоянно совершенствуют его на последующих.

Один из методов автоматического построения классификатора для категории ci заключается в следующем. Изначально c = (1,..., 1), Затем для каждого документа dj £ £, представленного век тором dj с двоичными весами, вычисляется CSVi(dj) и вносятся поправки в ci, если результат классификации неверен : если dj £ Q, тогда веса wki для k, таких, что wkj- = 1, увеличивают на некоторую фиксированную величину a > 0 и понижают на эту же величину в том случае, dj £ ci

Такой подход позволяет продолжить обучение классификатора после его построения, Кроме того, термы с маленькими весами wki, которые не оказывают влияния на результаты классификации, можно выбросить из рассмотрения, тем самым уменьшить размерность пространства признаков.

5.5. Метод ПоссЫо

Использовать метод ЕоееЫо [27] для построения линейного классификатора впервые было предложено в работе [28], Для каждой категории с, вычисляем вектор С* = (и^, . . . , и|Т|,) ПО формуле

\ л V-''-

ши = /3' Е ттт-т- Е

d ^ ID+1 dTD- ID

dj £D- dj €d-

где — вес терма в документе — £ £ | Ф(ф, с,) = 1} и Д- =

£ £ | Ф(ф, с,) = 0} Параметры в и 7 определяют значимость положительных и отрицательных примеров, В случае, когда в = 1 и 7 = 0 вектор С будет являться центроидом положительных примеров категории с*.

5.6. Метод k-NN

Метод к-ближайших соседей (к-Хеагезї Хс^Ыэоигз, к-ХХ) |29| в отличие от других не требует обучения. Дня того чтобы найти категории, соответствующие документу (•, классификатор сравнивает ( со всеми документами из обучающей выборки £: для каждого Є £ вычисляется «расстояние» р((, ), Далее из

обучающей выборки выбираются к документов, ближайших к (•, Для категорий вычисляются функции ранжирования ) по формуле

где (dj) — это ближайшие к документов из С к dj.

Параметр к обычно выбирается в интервале 20... 50, Документ dj определен в категории, для которых CSVi(dj) ^ ri. Данный метод дает высокую эффективность, по при этом требователен к вычислительным ресурсам па этапе классификации.

5.7. Метод опорных векторов

Метод опорных векторов (Support Vector Machine, SVM) 1311 заключается в нахождении гиперплоскости в пространстве признаков R|T!, разделяющей его па две части: положительные примеры в одной и отрицательные в другой — у которой минимальное расстояние до ближайших примеров максимально.

dz £Lk (dj )

Рис. 2. Метод опорных векторов. Две классифицирующих разделяющих прямых (гиперплоскости), но только Н2 разделяет два множества с большим отступом

В том случае, когда такой разделяющей гиперплоскости не существуют (проблема линейной иеразделимости), используют подход, заключающийся в не-

реходе от исходного пространства признаков к новому, в котором обучающая выборка окажется линейно разделимой.

Для классификаторов на базе метода опорных векторов, как правило, не требуется уменьшать размерность пространства признаков; они довольно устойчивы к переобучению и хорошо масштабируются [31]. Подробную информацию о методе опорных векторов можно найти в работах [32,33],

5.8. Метод Байеса

В вероятностном классификаторе [34] используется векторное представление документов, а функции ) рассматриваются в терминах условных веро-

ятностей Р(с^С/) (вероятность того, что документ, предетавленный вектором С/, соответствует категории с*). Работа вероятностного классификатора заключается в вычислении значений Р (с^Ц) для г =1... |С | и нахождении наибольшей такой вероятности:

Н (1/) = а^шах Р (с^Ц).

Условную вероятность Р (с^Ц) согласно теореме Байеса можно переписать как

РШ) = тр,),-.Р(с‘). (1)

Р (1.7 )

где Р(с*) — это априорная вероятность того, что документ определен в категорию с*, Р(1/1с*) — вероятность найти документ, представленный вектором , в категории с* и Р(С/) — вероятность того, что случайно выбранный документ будет иметь вектор

По сути Р(с*) является отношением количества документов из обучающей выборки £, отнесенных в категорию с*, к количеству всех документов из £:

\ _ \i-dj Е С \ (1^ Е Сг}\

[г) \с\ •

Чтобы ВЫЧИСЛИТЬ Р(С/ (и Р(С/)) необходимо сделать допущение о том,

что вхождение термов в документ зависит от категории, но не зависит от других термов этого документа. Таким образом, Р(1/|с*) можно записать как

|Т |

Р(1 |с*) = Д Р(^ |с*).

А=1

В СВОЮ очередь Р(^А/ |с*) можно определить как отношение количества документов из обучающей выборки £, отнесенных в категорию с* и содержащих терм к общему количеству всех документов из £, отнесенных в категорию с*:

Р (^fcj1 ci)

|{dj G С 1 dj G Ci 7 G dj}|

|{dj G С 1 dj G Cj}|

Из-за предположения о независимости признаков такой классификатор называют «наивный байесовский» (Naive Bayes Classifier) [9,20,31,35].

5.9. Другие методы

В литературе можно встретить и другие методы построения классификаторов, такие как байесовские [36,37] и нейронные [24-26,38-40] сети, методы с использованием генетических алгоритмов [41,42] и N-грамм [43],

6. Оценка эффективности

Эффективность классификатора Фj является качественной оценкой результатов его работы на тестирующей выборке T, Эффективность используется для сравнения различных методов классификации.

При однозначной классификации эффективность классификатора можно рассматривать как отношение верно классифицированных документов к общему количеству документов. Но в случае использования бинарных классификаторов (при многозначной классификации) такое отношение не пригодно ДЛЯ оценки эффективности. Причиной этому является ТО, ЧТО категории Cj И Cj обычно не сбалансированы, то есть одна из них содержит намного больше документов, чем другая, В таком случае построение классификатора, который бы давал высокую эффективность, является тривиальной задачей — достаточно, чтобы классификатор сопоставлял всем документам наиболее часто встречающуюся категорию. Но о практической применимости такого классификатора не может быть и речи.

Как результат, для бинарных классификаторов часто применяется оценка эффективности как комбинация точности (precision) и полноты (recall). Точность p — доля верно классифицированных в cj документов, а полнота r — отношение верно классифицированных В Cj документов к общему количеству

Cj

Cj

ко восемь оказались правильно классифицированы. Таким образом, точность p = 8/10. Но в тестирующей выборке было 12 документе в, отнесенных в Cj, получаем, что r = 8/12,

В задачах многозначной классификации эффективность, которая заключается в вычислении точности и полноты для каждой категории индивидуально, необходимо усреднить. Существует два подхода усреднения (таблица 1): микроусреднение (которое учитывает «вес» категории) и макроусреднение (для которого все категории равны). Наиболее часто используется макроподход, потому что именно он позволяет рассмотреть категории независимо от их встречаемости в корпусе документов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Классификаторы можно настроить на увеличение точности в ущерб простоте (и наоборот) изменением значений п в CSV : D ^ {0,1} [1], Поэтому только комбинация точности и полноты может служить хорошей оценкой эффективности, Наиболее популярным способом объединения этих двух оценок является функция

= ((З2 + 1 )рг 13 /32р + г ’

Таблица 1. Усреднение точности и полноты; А* = {1^ € Т | Ф(1, с*) = 1}, А = {1 € Т | Ф(^-, с*) = 1}

Точность, р г

Микроусреднение |С| < п Д| г=1 Р = |С| £|я<1 г=1 |С | ^|^г п Д| г=1 Г “ |С| !><| г=1

Макроусреднение 1 г П ^ р=м£ 1Д1 1 \Ь< п

где 0 ^ в ^ го, Обычно в качестве значения в используется единица, и функция принимает, вид в котором точность и полнота находятся в равных весовых категориях:

2Рг 1 — —.— • р + г

Заметим, что для классификатора, который назначает всем документам часто встречающуюся категорию, р = 1 и г = 0 таким образом, ^з = 0 для любого в-Аналогично и для классификатора, который всем документам будет назначать все категории, в таком случае р = 0и г = 1, а^з = 0 для люб ых вВ некоторых приложениях классификации текстов, таких как фильтрация спама (бинарный классификатор для определения электронного письма в одну из двух категорий - «спам» и его дополнения «не спам»), точность имеет большее значение, чем полнота, потому что отнесение «хорошего» письма в категорию «спам» является большей ошибкой, чем принятие нежелательного сообщения как «не спам». Оценкой эффективности может служить ^з, где 0 ^ в < 1 чт0 позволяет больше внимания уделять точности чем полноте, А выбором значения 1 < в < го внимание уделяетеся полноте в ущерб точности,

7. Сравнение классификаторов

Сравнение методов построения классификаторов является довольно сложной задачей по причине того, что разные входные данные могут приводить к различным результатам. Чтобы провести сравнение различных классификаторов, необходимо выполнить их построение и вычисление эффективности на одинаковых наборах документов для обучения и тестирования. Широкое распространение получил корпус текстов Н,е^еге-21578 [44], для которого существуют фиксированные разбиения на обучающее и тестирующее множества.

Таблица 2. Сравнение эффективности различных классификаторов [40]

Метод Микро r Микро p Микро F1 Макро F1

Метод опорных векторов .8120 .9137 .8599 .5251

Метод к-ближайших соседей .8339 .8807 .8567 .5442

Метод наименьших квадратов .8507 .8489 .8498 .5008

Нейронная сеть .7842 .8785 .8287 .3765

Метод Байеса .7688 .8245 .7956 .3886

В таблице 2 приведены результаты эксперименте, опубликованных в работе [40], Построение классификаторов и оценка их эффективности проводилась с использованием разбиения «ModApte» коллекции документов Reuters-21578, Это разбиение задает 90 категорий, 9603 документа содержатся в обучающем наборе и 3299 документов в тестирующем,

С результатами других экспериментов можно ознакомиться в [10] (сравниваются байесовские сети, деревья решений, методы Байеса и опорных векторов) и [31] (сравниваются методы Баейса, Roeehio, k-ближайших соседей, опорных векторов и деревья решений). Автор статьи [40] отмечает, что его результаты немного отличаются от опубликованных в [31], но классификатор, построенный на базе метода опорных векторов, также имеет небольшое преимущество перед остальными,

8. Ансамбли классификаторов

Использование комбинации классификаторов позволяет повысить точность классификации [45], Идея заключается в построении k классификаторов Ф1,..., Фk и объединении их результатов классификации, В машинном обучении широкое распространение получили методы «bagging» и «boosting» [46], которые основаны на изменении обучающего множества,

В методе «bagging» построение k классификаторов фj осуществляется независимо друг от друга на обучающих множествах, полученных из исходного случайной заменой документов (размер обучающего множества остается прежним, просто одни документы отсутствуют, а другие встречаются несколько раз), Результат классификации определяется простым большинством голосов элементов ансамбля,

k

классификаторов, при котором па классификатор фj оказывают влияние ф 1ф i-1. Классификатор ф j строится на исходном обучающем множестве, документы dj которого участвуют в обучении с некоторыми весовыми коэффициентами hj, После обучения классификатор фj проверяется на исходной обучающей выборке и происходит пересчет коэффициентов. Коэффициент hj+1 уменьшается, если документ dj классифицирован верно, и увеличивается в противном случае, В методе «boosting» используется взвешенная линейная комби-

нация голосов элементов ансамбля,

В работе [47] приводятся теоретическое обоснование и результаты эксперимента, которые показывают, что комбинации независимых классификаторов наиболее эффективны, В последнее время большую популярность получили методы, в которых обучение отдельных элементов ансамбля осуществляется независимо на различающихся подмножествах признаков [48,49],

Литература

1. Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. 2002. V. 34, N. 1. P. 1-47.

2. Sebastiani F. Text Categorization // Text Mining and Its Applications. WIT Press, Southampton, UK, 2005. P. 109-129.

3. Manning C., Raghavan P., Schutze H. Introduction to Information Retrieval. Cambridge University Press, 2008. 544 p.

4. Adam Berger. Statistical Machine Learning for Information Retrieval. Carnegie Mellon University, 2001. 143 p.

5. Witten I. H., Frank E. Data Mining: Practical Machine Learning Tools and Techniques (Second Edition). Morgan Kaufmann, 2005. 525 p.

6. Paliouras G., Karkaletsis V., Spvropoulos C. D. Machine Learning and Its Applications: Advanced Lectures (Lecture Notes in Computer Science / Lecture Notes in Artificial Intelligence). Springer, 2001. 325 p.

7. Bill Frakes. Stemming algorithms // Information Retrieval: Data Structures and Algorithms. Englewood Cliffs, US. 1992. P. 131-160.

8. Thorsten Joachims. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization // Proceedings of International Conference on Machine Learning (ICML). 1997. 26 p.

9. Lewis D.D. An evaluation of phrasal and clustered representations on a text categorization task // Proceedings of SIGIR-92, 15th ACM International Conference on Research and Development in Information Retrieval. ACM Press, US. 1992. P. 37-50.

10. Dumais S.T., Platt J., Heckerman D., Sahami M. Inductive learning algorithms and representations for text categorization // Proceedings of CIKM-98, 7th ACM International Conference on Information and Knowledge Management, Bethesda, MD. 1998. P. 148-155.

11. Salton G, Buckley C. Term-Weighting Approaches in Automatic Text Retrieval // Information Processing and Management. 1988. P. 513-523.

12. Lewis D.D., Ringuette M. A comparison of two learning algorithms for text categorization // Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, US. 1994. P. 81-93.

13. Heaps H.S. Information Retrieval: Computational and Theoretical Aspects. Academic Press, 1978. 368 p.

14. Yang Y. Pedersen J.O. A comparative study on feature selection in text categorization // Proceedings of ICML-97, 14th International Conference on Machine Learning. Morgan Kaufmann Publishers, San Francisco, US: Nashville, US. 1997. P. 412-420.

15. Baker L.D., McCallum А.К. Distributional clustering of words for text classification // Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval, Melbourne, Australia. 1998. P. 96-103.

16. Meltzer T. SVD and its Application to Generalized Eigenvalue Problems. 2004. 16 p.

17. Mitchell Т. M. Machine Learning. McGraw Hill, New York, 1997. 414 p.

18. Quinlan J. Induction of decision trees // Machine Learning. 1998. V. 1, N. 1. P. 81-106.

19. Quinlan J. C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993. 302 p.

20. Li Y. H., Jain A. K. Classification of Text Documents // The Computer Journal. 1998. V. 41, N. 8. P. 537-546.

21. Hayes P.J., Weinstein S.P. Construe: A System for Content-Based Indexing of a Database of News Stories // Proceedings of the Second Annual Conference on Innovative Applications of Intelligence. 1990.

22. Marshall R.J. Generation of Boolean classification rules // Proceedings of Computational Statistics, Utrecht, The Netherlands. 2000. P. 355-360.

23. Yang Y., Chute C. G. An example-based mapping method for text categorization and retrieval // ACM Trans. Inform. Svst. 1994. V. 12, N. 3. P. 252-277.

24. Schutze H., Hull D. A., Pedersen J. O. A comparison of classifiers and document representations for the routing problem // Proceedings of SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval, Seattle. 1995. P. 229-237.

25. Ng H. Т., Goh W. B., Low K. L. Feature selection, perceptron learning, and a usability case study for text categorization // Proceedings of SIGIR-97, 20th ACM International Conference on Research and Development in Information Retrieval, Philadelphia. 1997. P. 67-73.

26. Dagan I., Karov Y., Roth D. Mistake-driven learning in text categorization // Proceedings of EMNLP-97, 2nd Conference on Empirical Methods in Natural Language Processing, Providence, RI. 1997. P. 55-63.

27. Rocchio J.J. Relevance feedback in information retrieval // The SMART Retrieval System: Experiments in Automatic Document Processing. 1971. P. 313-323.

28. Hull D. A. Improving text retrieval for the routing problem using latent semantic indexing // Proceedings of SIGIR-94, 17th ACM International Conference on Research and Development in Information Retrieval, Dublin, Ireland. 1994. P. 282-289.

29. Yang Y. Expert network: effective and efficient learning from human decisions in text categorisation and retrieval // Proceedings of SGIR-94, 17th ACM International Conference on Research and Development in Information Retrieval, Dublin, Ireland. 1994. P. 13-22.

30. Vapnik V., The Nature of Statistical Learning Theory. Springer-Verlag, 1995. 188 p.

31. Joachims T. Text categorization with support vector machines: learning with many relevant features // Proceedings of ECML-98, 10th European Conference on Machine Learning, Chemnitz, Germany. 1998. P. 137-142.

32. Воронцов К. В. Лекции по методу опорных векторов. 2007. 18 с.

URL: http://www.ccas.ru/voron/download/SVM.pdf (дата обращения: 12.12.2009)

33. Cristianini N., Shawe-Taulor J. An Introduction to Support Vector Machines and Other Kernel-based Learning Methods. Cambridge University Press, 2000. 189 p.

34. Lewis, D.D. Naive (Bayes) at forty: The independence assumption in information retrieval // Proceedings of ECML-98, 10th European Conference on Machine Learning,

Chemnitz, Germany. 1998. P. 4-15.

35. Koller D., Sahami M. Hierarchically classifying documents using very few words // Proceedings of ICML-97, 14th International Conference on Machine Learning, Nashville. 1997. P. 170-178.

36. Heckerman D. A Tutorial on Learning With Bayesian Networks // Learning in graphical models. 1999. P. 301-354.

37. L. M. de Campos, A. E. Romero. Bayesian network models for hierarchical text classification from a thesaurus // International Journal of Approximate Reasoning. 2009. V. 50, N. 7. P. 932-944.

38. Lam S.L., Lee D.L. Feature reduction for neural network based text categorization // Proceedings of DASFAA-99, Taiwan. 1999. P. 195-202.

39. Ruiz М., Srinivasan P. Hierarchical Text Categorization Using Neural Networks // Information Retrieval. 2002. V. 5, N. 1. P. 87-118.

40. Yang Y., Liu X. A re-examination of text categorization methods // Proceedings of SIGIR-99, 22nd ACM International Conference on Research and Development in Information Retrieval, Berkeley, CA. 1999. P. 42-49.

41. Wong M. L., Cheung K. S. Data Mining Using Grammar Based Genetic Programming and Applications. Kluwer Academic Publishers, 2002. 228 p.

42. Lankhorst M. Automatic Word Categorization with Genetic Algorithms // Proceedings of the ECAI’94 Workshop on Applied Genetic and other Evolutionary Algorithms. 1994.

43. Cavnar W. B., Trenkle J. M. N-Gram-Based Text Categorization // Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. 1994. P. 161-175.

44. Lewis D. The Reuters-21578 text categorizationtest collection. 1999.

URL: http://www.daviddlewis.com/resources/testcollections/reuters21578/ (дата обращения: 12.12.2009)

45. Dietterich T. G. Machine learning research: four current directions // AI Magazine. 1997. V. 18. P. 97-136.

46. Quinlan J. R. Bagging, Boosting, and C4.5 // Proceedings of AAA/IAAI. 1996. P. 725730.

47. Oza N. C., Turner K. Decimated input ensembles for improved generalization // Proceedings of the International Joint Conference on Neural Networks, Washington, DC. 1999.

48. Brvll R. Attribute bagging: improving accuracy of classifier ensembles by using random feature subsets // Pattern Recognition. 2003. V. 36. P. 1291-1302.

49. Bay S. D. Nearest neighbor classifiers from multiple feature subsets // Intelligent data analysis. 1999. V. 3. P. 191-209.

i Надоели баннеры? Вы всегда можете отключить рекламу.