УДК 004.852 Дата подачи статьи: 04.03.2014
ТРАНСДУКТИВНОЕ ОБУЧЕНИЕ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ В ЗАДАЧЕ КЛАССИФИКАЦИИ ТЕКСТОВ
А.Г. Шаграев, аспирант; И.А. Бочаров, магистрант; В.Н. Фальк, д.т.н., профессор (Национальный исследовательский университет «Московский энергетический институт», ул. Красноказарменная, 14, г. Москва, 111250, Россия, [email protected] [email protected], [email protected])
Во многих задачах текстовой классификации возникают проблемы с получением достаточного количества размеченных документов для обучающей выборки. При этом обычно имеется значительное количество доступных не-
размеченных текстов. В данной статье рассматривается метод, используя который, можно значительно улучшить качество классификации, имея довольно малую по сравнению с тестовой выборкой обучающую выборку.
Предложен нестандартный способ формирования признакового описания текстов на естественных языках, учитывающий специфику написания новостных текстов.
Помимо этого, рассматриваются модификации классического линейного метода решения задачи классификации - логистической регрессии. Для оптимизации параметров логистической регрессии применяется модифицированный метод стохастического градиентного спуска. При обучении регрессии используется модифицированный функционал потерь, увеличивающий зазор между классами.
Предлагается также оригинальный метод трансдуктивного обучения логистической регрессии. Для его осуществления вводится специальный функционал качества для неразмеченной коллекции, который позволяет существенно увеличить полноту классификации. Для проверки применимости разработанных модификаций метода логистической регрессии используется процедура обратного скользящего контроля. По результатам приведенных в статье вычислительных экспериментов становится очевидным положительное влияние авторских модификаций метода логистической регрессии и трансдуктивного обучения на качество классификации.
Ключевые слова: машинное обучение, классификация текстов, линейные классификаторы, логистическая регрессия, трансдуктивное обучение.
TRANSDUCTIVE LEARNING LOGISTIC REGRESSION FOR THE TEXT CLASSIFICATION PROBLEM
Shagraev A.G., Postgraduate Student; BocharovI.A, Undergraduate; Falk V.N., Dr.Sc. (Engineering), Professor (National Research University "MPEI", Krasnokazarmennaya St. 14, Moscow, 111250, Russian Federation, alex-shagraev@yandex. ru bocharovia@gmail. com, falkvn@yandex. ru)
Received 04.03.2014
Abstract. In many classification problems there are difficulties with obtaining sufficient amount of labeled documents for train set. At the same time, usually we have many unlabeled documents. This paper describes how to increase the quality of classifier predictions when having relatively small train set in comparison with test set.
Non-standard method of forming feature vectors for natural language texts, using peculiar properties of news articles, is described.
The paper also describes modifications of a classical linear classifier (logistic regression). We use a modification of stochastic gradient descent in order to optimize classifier's parameters. In addition, we use modified loss functional (enlarging the margin between classes) to train logistic regression.
Apart from that, we suggest original method of transductive learning for logistic regression classifier. To perform transductive learning we define quality functional for unlabeled documents which helps to increase classification recall significantly. To test implemented modifications of logistic regression we use "inverse" cross-validation technique. Experimental results from using implemented modifications make the positive impact of authors' modifications of logistic regression classifier and transductive learning on classification quality obvious.
Keywords: machine learning, text classification, linear classifiers, logistic regression, transductive learning.
Автоматическая классификация текстов- одна из ключевых современных задач информационного поиска, возникающая при разработке поисковых систем, новостных агрегаторов, спам-фильт-ров и т.д. [1].
Несмотря на огромное количество публикаций, посвященных способам решения этой задачи, вопрос применимости линейных классификаторов до сих пор остается без удовлетворительного ответа: как правило, линейные классификаторы (наивный байесовский классификатор, метод Роккио и др.) значительно уступают в качестве нелинейным [2].
Вместе с тем использование линейных моделей во многих ситуациях является более предпочтительным благодаря таким их свойствам, как компактность, интерпретируемость, высокая скорость применения и т.д.
В настоящей работе исследуются возможности улучшения показателей качества классического линейного метода классификации - логистической регрессии [3] для задачи классификации текстов.
Трансдуктивным называется обучение, в процессе которого известно множество объектов, для которых необходимо получить предсказания. Та-
кое обучение применимо на практике и в ситуациях, когда это множество не фиксировано, но изменяется достаточно медленно для того, чтобы при каждом изменении можно было подобрать модель заново. Естественно, что в таких ситуациях может оказаться оправданным применение именно линейных классификаторов в силу высокой скорости их обучения.
Кроме того, оказывается, что трансдуктивное обучение является хорошим способом построения более качественных моделей в ситуациях, когда размер обучающей выборки явно недостаточен. Для подтверждения этого факта будем использовать процедуру обратного скользящего контроля [4], заключающегося в том, что размеченная коллекция делится на k приблизительно равных по размеру подмножеств, каждое из которых поочередно является обучающей выборкой, а объединение остальных - тестовой. Такой метод моделирует ситуацию, когда тестовый набор сильно превосходит по количеству элементов обучающий в отличие от стандартной процедуры скользящего контроля, в которой каждое подмножество поочередно выступает в роли тестовой выборки, а объединение остальных - в качестве обучающей.
Показатели качества рассматриваемых в настоящей работе методов исследуются на известной новостной коллекции Reuters-21578 [5].
Определения и постановка задачи бинарной классификации
В данном разделе в основном приняты такие же терминология и обозначения, как в [6]. Будем считать, что заданы множество объектов X, множество ответов У={-1, +1} и существует неизвестная целевая функция у : Х^У, значения которой измерены на некотором конечном подмножестве ХсХ. Множество пар Х={(х, у)\хеХ, у=у (х)}, будем называть обучающей выборкой.
Множество объектов для простоты будем считать пространством т--мерных вещественных векторов, то есть X=Rm
Необходимо построить решающую функцию а : X ^ У, принадлежащую некоторому классу функций 0, которая была бы как можно более качественным приближением к целевой функции. Методом обучения ц будем называть функцию, ставящую в соответствие любой обучающей выборке некоторую решающую функцию ц(Х1)=а.
Для измерения качества приближения целевой функции используем стандартные метрики точности и полноты классификации, измеренные для класса +1:
X [й(х) = У = +1]
(*, у еХ'
Р ( а, X') =-
Я ( а, X') =
X [а (X) = +1] '
(*, у еХ'
X [а (X) = У = +1]
(х, У> еХ'_
X [ У = +1] :
(х, У) ЕХ'
^ (а, X') = 2 •
а в качестве интегральной меры качества - значение ^1-меры:
Р (а, X') • К (а, X') Р (а, X') + К (а, X') .
Здесь при помощи квадратных скобок обозна-
г 1 Р
чается пороговая функция: [ Р ] = <! — для любого условия Р.
Метрики будут измеряться методом многократного стратифицированного скользящего контроля.
Задачи мультиклассификации и нечеткой классификации (то есть задачи, в которых |У|>2, а каждый объект может принадлежать более чем одному классу) будем сводить к нескольким задачам бинарной классификации - по одной на каждый из имеющихся классов. Метрики качества для этих задач вычисляются отдельно по каждому классу, а затем усредняются.
Представление текстов на естественных языках
Для решения задач классификации текстов на естественных языках необходимо разработать способ представления текста в виде набора вещественных признаков. Другими словами, необходимо иметь возможность составлять признаковое описание произвольного документа.
Будем считать, что при определении множества документов, для которых решается задача классификации, задаются непустое множество термов ..., ^т} и множество документов D={dь d2, ..., dN}, каждый из которых является
вектором термов: di = ^,ж2,..., ^Т , 1^^
(множество всех различных слов, входящих в документ di, будем обозначать Ь^¿)).
Введем функцию у: N^[0, 1] и определим с ее помощью функцию ю: значение которой
для документа di и слова ^^ равняется сумме значений функции у по позициям вхождения слова Wj в документ 4:
'(4 > ^) = Е У (к) •["/ = ^ ].
В настоящей работе значения функции у определяются формулой
У ('") = т
1 + ехр (-к1к2) + ехр (-к1 (к2 +1 - г))
где к\ и к2 - параметры алгоритма.
Таким образом, всякому документу di ставится в соответствие последовательность
х,. = (<» (а,, ), ю (а., ^),..., ю (а., wm))Т,
которая и будет являться признаковым описанием документа di.
Такой способ получения построения признакового пространства оказывается более адекватным задаче классификации именно новостей, поскольку учитывает специфику их написания: как правило, новости содержат важные для рубрикации слова именно в начале текстов. Значения параметров к\ и к2 можно выбирать по критерию скользящего контроля [4].
Логистическая регрессия
В методе логистической регрессии для задачи классификации подбирается вектор коэффициентов Ь=(ю\, ..., ^т)г, который используется для осуществления предсказаний:
/ (X) =--Ц-^ = СТ (( X, В ) .
1 ' 1 + ехр (-(X, В)
Значения решающей функции в таком случае определяются формулой a(x)=sign(Дx)-т), где т -коэффициент, конкретное значение которого выбирается исходя из конкретных требований к по-
к=1
казателям качества решающей функции (как правило, с ростом т увеличивается точность решения, но уменьшается полнота). В частности, коэффициент т можно выбирать таким образом, чтобы значение — -меры было максимальным.
В методе логистической регрессии параметры модели подбираются оптимизацией величины функционала потерь Q = ^ Ь (- у •( Ь, х)), где Ь
(х, У еХ1
- логит-функция: Ь(х)=^(1+ехр(х)).
Выражение для частной производной функционала потерь по к-му компоненту вектора Ь запишется следующим образом:
д12 _ ^ У ■х к
UQ _ у _У к_
дЬк
(x, у) eX' 1 + exp ( - у •( b, x))
Для нахождения величин bk, 1<k<m, используется метод градиентного спуска [2]. Впрочем, непосредственное применение метода градиентного спуска на практике оказывается слишком трудоемким, поэтому используются стохастические методы градиентного спуска [7]. В настоящей работе используется модифицированный метод стохастического градиентного спуска, в котором на каждой итерации модификация производится с учетом двух случайно выбранных документов, принадлежащих различным классам [8].
Кроме того, для достижения большего зазора (margin) между классами используется модифицированный функционал потерь [8], в котором аргумент логит-функции смещается на величину о, являющуюся параметром алгоритма, также определяемым методом скользящего контроля:
б = Е 1 (-у •( ь, X+о).
(*, у 1
Трансдуктивное обучение
Рассмотрим теперь некоторое конечное множество объектов Х'сХ, на элементах которого значения целевой функции неизвестны. Оптимизация параметров модели с использованием объ-
ектов из множества X' классическим способом, таким образом, невозможна.
Введем теперь иной функционал потерь, использующий элементы множества X':
б = X 1 (-У <Ь, X + о) + Х X а((Ъ, х)),
(х,у)еХ' хеХ"
где к - параметр алгоритма. Слагаемое ^ ст ((Ь, х)) обеспечивает наличие положитель-
ХЁХ ''
ных предсказаний на неразмеченной коллекции. Таким образом, потенциальный эффект заключается в повышении полноты классификации на тестовом множестве, что особенно актуально в ситуации недостаточного размера обучающей выборки. При этом присутствие классического функционала потерь не позволяет потерять в точности. Выбором величины коэффициента 1 можно регулировать соотношение приобретенной полноты и потерянной точности.
Результаты численных экспериментов
При проведении экспериментов рассмотрены десять наиболее крупных рубрик. В качестве метрики используется средневзвешенная по рассматриваемым рубрикам величина — -меры, вычисленная методом многократного стратифицированного скользящего контроля [4]. При этом для демонстрации полезности предлагаемого метода в случае чрезвычайно малой длины обучающей выборки приводятся также результаты «обратного» скользящего контроля, когда только одно из подмножеств выступает в роли обучающего множества, тогда как объединение всех остальных - в качестве тестового.
На графике приведены результаты измерения качества классического метода логистической регрессии (LR), стратифицированного метода логистической регрессии со смещениями (sbLR) и трансдуктивного стратифицированного метода логистической регрессии (tsbLR). По горизонтальной оси отложена доля объектов выборки, отби-
1,00 0,90 0,80 0,70 0,60 0,50 0,40 0,30 0,20 0,10 0,00
□ sbLR
tsbLR
Результаты измерения качества классического метода логистической регрессии Quality assessment results of logistic regression classical method
0,10
0,20
0,25
0,50
0,80
раемых в обучающую коллекцию. Например, если эта доля составляет 0,10, то осуществляется разбиение выборки на десять подмножеств, каждое из которых по очереди выступает в качестве обучающего множества, а объединение остальных - в качестве тестового множества. Значение 0,80 соответствует стандартной процедуре скользящего контроля по пяти подмножествам.
Из графика видно, что модифицированный метод логистической регрессии (sbLR) значительно превосходит по качеству классический метод (LR) в ситуациях, когда длина обучающей выборки мала по сравнению с длиной тестовой выборки. В ситуации, когда обучающая выборка имеет достаточный размер, показатели методов сравниваются.
Таким образом, предлагаемый метод можно использовать в ситуациях, когда получение достаточной по объему обучающей выборки по тем или иным причинам невозможно.
Литература
1. Sebastiani F. Machine Learning in Automated Text Categorization. URL: http://nmis.isti.cnr.it/sebastiani/Publications/ ACMCS02.pdf (дата обращения: 05.01.2014).
2. Manning C.D., Raghavan P., Schütze H. Introduction to Information Retrieval. Cambridge, England: Cambridge Univ. Press, 2008.
3. Genkin A., Madigan D., Lewis David D. Sparse logistic regression for text categorization-2005. URL: http://dimacs.rut-gers.edu/Research/MMS/loglasso-v3a.pdf (дата обращения: 05.01.2014).
4. Воронцов К.В. Обзор современных исследований по проблеме качества обучения алгоритмов. URL: http://www. ccas.ru/frc/papers/voron04twim.pdf (дата обращения: 05.01.2014).
5. Lewis David D. Representation and Learning in Information Retrieval. PhD Thesis, Department of Computer Science, Univ. of Massachusetts, 1992.
6. Воронцов К.В. Комбинаторные оценки качества обучения по прецедентам // Доклады РАН. 2004. Т. 394. № 2.
7. Bottou L. Large-Scale Machine Learning with Stochastic Gradient Descent. URL: http://leon.bottou.org/publications/pdf/ compstat-2010.pdf (дата обращения: 05.01.2014).
8. Шаграев А.Г., Фальк В.Н. Линейные классификаторы в задаче классификации текстов // Вестн. МЭИ. 2013. № 4. C. 204-209.
References
1. Sebastiani F. Machine learning in automated text categorization. Available at: http://nmis.isti.cnr.it/sebastiani/Publications/ ACMCS02.pdf (accessed January 5, 2014).
2. Manning C.D., Raghavan P., Schütze H. Introduction to information retrieval. Cambridge, England, Cambridge Univ. Press, 2008, 496 p.
3. Genkin A., Madigan D., Lewis David D. Sparse logistic regression for text categorization-2005. Available at: http://di-macs.rutgers.edu/Research/MMS/loglasso-v3a.pdf (accessed January 5, 2014).
4. Vorontsov K.V. Obzor sovremennykh issledovaniy po probleme kachestva obucheniya algoritmov [Reviews on modern researches on learning algorithms quality problem]. Available at: http://www.ccas.ru/frc/papers/voron04twim.pdf (accessed January 5, 2014)
5. Lewis David D. Representation and learning in information retrieval. PhD thesis, Department of Computer Science, Univ. of Massachusetts, 1992.
6. Vorontsov K.V. Combinatorical qualitative assessment for use case lerning. Doklady RÄN [RAS reports]. 2004, vol. 394, no. 2, pp. 75-178.
7. Bottou L. Large-scale machine learning with stochastic gradient descent. Available at: http://leon.bottou.org/publications/ pdf/compstat-2010.pdf (accessed January 5, 2014).
8. Shagraev A.G., Falk V.N. Linear classifiers for the text classifying problem. Vestnik MEI [The Bulletin of Moscow Power Engineering Institute]. 2013, no. 4, pp. 204-209.