УДК 519.767.6 Дата подачи статьи: 26.02.15
DOI: 10.15827/0236-235X.114.089-099
ОБОГАЩЕНИЕ МОДЕЛИ ВАО-ОР-ШОЕПБ СЕМАНТИЧЕСКИМИ СВЯЗЯМИ ДЛЯ ПОВЫШЕНИЯ КАЧЕСТВА КЛАССИФИКАЦИИ ТЕКСТОВ
ПРЕДМЕТНОЙ ОБЛАСТИ
А.Б. Нугуманова, кандидат наук, старший преподаватель, yalishaj@yandex.kz (Восточно-Казахстанский государственный технический университет им.. Д. Серикбаева, ул. Серикбаева, 19, г. Усть-Каменогорск, 070010, Республика Казахстан); И.А. Бессмертный, д.т.н.., профессор, igor_bessmertny@hotmail.com (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, Кронверкский просп., 49, г. Санкт-Петербург, 197101, Россия (Университет ИТМО));
П. Пецина, кандидат наук, профессор, pecina@ufal.mff.cuni.cz (Карлов университет, Малостранская пл., 25, г. Прага, 11800, Чешская Республика); Е.М. Байбурин, системный аналитик, ebaiburin@ektu.kz (Восточно-Казахстанский государственный технический университет им.. Д. Серикбаева, ул. Серикбаева, 19, г. Усть-Каменогорск, 070010, Республика Казахстан)
Статья посвящена результатам исследования методов повышения качества автоматической классификации текстов на основе статистического подхода. В качестве базовой модели представления текстов рассматривается Bag-of-words - самая распространенная и простая модель представления текста, используемая во многих задачах автоматической обработки текстов. Она представляет тексты как наборы слов без учета их порядка и связей, поэтому при использовании этой модели семантическая близость двух текстов оценивается по количеству совпадающих слов. В результате тексты, содержащие малое количество общих слов, считаются семантически далекими друг от друга. Эта особенность модели Bag-of-words, обусловленная игнорированием семантических связей, представляет серьезную проблему в такой актуальной задаче обработки естественного языка, как автоматическая классификация текстов. Авторы предлагают обогатить модель Bag-of-words семантическими связями, которые извлекаются из этих же текстов на основе статистики совместной встречаемости слов, то есть новый способ построения и применения матрицы семантических связей, которая затем используется для отображения представлений текстов в пространство связанных слов. Конечной целью работы является доказательство превосходства построенной модели по сравнению с моделью Bag-of-words при выполнении бинарной классификации текстов. Для сравнения этих двух моделей была реализована серия экспериментов на стандартной коллекции Reuters 21578. Результаты экспериментов демонстрируют улучшение качества классификации текстов по сравнению с известными методами.
Ключевые слова: семантические связи, модель Bag-of-words, бинарная классификация, сингулярное разложение.
Модель Bag-of-words («набор слов») - самая популярная и простая модель представления текста, применяемая во многих задачах Text Mining [1, 2]. Модель представляет текст как набор слов без учета их взаимного расположения и взаимных связей. При ее использовании семантическая близость двух текстов (двух наборов слов) оценивается по количеству совпадающих слов. Это означает, что два текста, в которых мало общих слов или вообще нет, считаются семантически и тематически неблизкими. Игнорирование семантических связей между словами - главный недостаток модели Bag-of-words. Другой ее важный недостаток в том, что тексты как наборы слов проецируются в пространство высокой размерности и высокой разреженности, что обусловлено объемом используемого словаря. Как результат, возникает феномен «проклятия размерности», характеризующийся экспоненциальным ростом сложности вычислений из-за увеличения размерности данных. По этой причине модель Bag-of-words часто комбинируется с техниками редукции признакового пространства [3].
На преодоление недостатков модели Bag-of-words в последние годы направлено множество ис-
следований. Большинство из них фокусируются на способах перехода от традиционного представления текстов в разреженном и зашумленном пространстве Bag-of-words к представлению в новых, семантически более богатых пространствах, в которых алгоритмы машинного обучения достигали бы лучших результатов [4]. Это означает, что так или иначе, но все эти исследования манипулируют наборами семантически связанных слов, разница только в подходах к выбору и формированию этих наборов.
Среди существующих подходов можно выделить три основных класса работ. Первый класс работ объединяет подходы, формирующие наборы семантически связанных слов на основе концептов, второй - на основе контекстных векторов, третий -на основе латентных семантических связей.
Подход, используемый в данной работе, можно отнести ко второму классу. Авторы придерживаются точно такой же стратегии обогащения представлений текста семантическими связями, как в модели контекстных векторов: то есть строится матрица семантических связей, которая используется как оператор, отображающий тексты из про-
странства Bag-of-words в пространство контекстных векторов. Вклад данной работы заключается в новом способе построения и использования матрицы семантических связей. Предлагается трехэтапная процедура извлечения самых устойчивых и значимых связей, которые ее формируют.
Конечной целью работы является доказательство превосходства построенной модели по сравнению с моделью Bag-of-words при выполнении бинарной классификации текстов. Для сравнения этих двух моделей была реализована серия экспериментов на стандартной коллекции Reuters 21578. Результаты экспериментов демонстрируют улучшение качества классификации текстов по сравнению с известными методами.
Состояние проблемы и текущие исследования
Подходы на основе модели концептов. В числе популярных расширений модели Bag-of-words, позволяющих учитывать семантические связи, модель Bag-of-concepts и ее вариации [5-9]. Модель описывает представления текстов с помощью концептов, которые трактуются как категории, объединяющие семантически связанные слова. В работе [10] отмечается, что концепты как дескрипторы обладают тремя важнейшими преимуществами по сравнению со словами.
Во-первых, концепты менее избыточны, чем слова. Они позволяют «сворачивать» синонимы, так что, например, Российская Федерация и Россия понимаются как один термин.
Во-вторых, концепты обладают большей дискриминационной силой, чем слова. Они позволяют
определять смысл многозначных слов по их окружению, так что, например, Apple в сочетании с Mac понимается как бренд, а не как фрукт.
В-третьих, концепты более эффективны, чем слова, при оценке близости текстов. Они позволяют выявить близость между двумя текстами, даже если те не содержат ни одного общего слова, как, например, тексты «Пеле - выдающийся бомбардир» и «Эдсон Арантис ду Насименту - лучший форвард» (рис. 1).
В приведенном примере под концептами понимаются синонимические ряды, объединяющие слова с одинаковыми или близкими значениями, что характерно для ранних работ в этой области [11, 12]. В более поздних работах под концептами понимаются уже не только ряды синонимов, но и другие категории связанных слов, например, семантические или тематические кластеры [6, 8, 9, 13, 14].
Важнейшей задачей, которая возникает при использовании модели Bag-of-concepts, является выбор концептов, соответствующих (близких) данному тексту [15]. Обычно концепты и тексты индексируются с помощью слов, то есть каждому концепту сопоставляется вектор C =(ci, c2, ..., cn), где n - объем используемого словаря; ct (i = 1, n) -веса слов в концепте, определяющие их важность для данного концепта. Аналогично каждому тексту сопоставляется вектор D =(w1, w2, ..., wn), где wt (i = 1, n) - это веса тех же слов в этом тексте. Близость между концептом и текстом оценивается при помощи какого-либо критерия, оперирующего значениями этих векторов. В результате определяется
Bag-of-words |\, Bag-of-concepts
Рис. 1. Отображение текстов в пространство концептов Fig. 1. Texts display into concept space
набор из к самых близких тексту концептов, который и образует представление текста в новом пространстве. В работе [15] предлагаются две формулы для оценки близости между концептами и текстами. Первая формула предназначена для оценки контекстной близости на основе косинусной меры:
Еп
Sim (C, D) = -
(1)
4z n= if2 \fe n=iw2
Вторая формула предназначена для оценки ранговой близости на основе коэффициента корреляции Спирмена, определяющего, насколько совпадает порядок слов в концепте и в тексте:
Corr (C, D ) =
(rank (w, C) - rank (wj, D)) (2)
t (t 2-l) ,
где T - это количество слов, входящих одновременно и в текст, и в концепт; rank - функция, возвращающая ранг (позицию) заданного слова в заданном тексте или в концепте.
Покажем, для чего нужна ранговая близость, на примере концепта «Женский футбол». Для указанного концепта высший приоритет имеют слова «женский» и «футбол». Если сравнивать два текста ««Женский футбол - это захватывающее зрелище» и «Когда мужчины смотрят футбол, женские чары теряют силу», то очевидно, что, хотя оба текста содержат слова «женский» и «футбол», они имеют разное отношение к рассматриваемому концепту. Первый текст полностью коррелирует с этим концептом, а второй вообще не связан с ним. Здесь, помимо контекстной близости, важен относительный порядок слов в тексте. Поэтому в статье [15] предлагается использовать комбинированную оценку близости на основе контекстной и ранговой близости:
Rel (C,D) = (l + Sim (C,D)) ■ (l + Corr (C,D)) . (3)
Подходы на основе модели контекстных векторов. Еще одним расширением модели Bag-of-words, позволяющим учитывать связи между словами, является модель контекстных векторов [4, 16-19]. Как следует из названия, модель формирует так называемые контекстные векторы слов, показывающие зависимость каждого слова от всех других слов используемого пространства. В этом состоит принципиальное отличие модели контекстных векторов от модели концептов, которая учитывает не все, а только избранные зависимости (связи) между словами.
Выделяют два основных способа вычисления контекстных связей между словами: низкоуровневый (на основе дистрибутивного анализа) и высокоуровневый (на основе специальных таксономий) [4]. При низкоуровневом способе для оценки контекстных связей используются частоты или вероятности совместного появления слов [18, 19]. При
высокоуровневом способе для оценки контекстных связей используются расстояния между семантическими классами, соответствующими словам в онтологии или в тезаурусе [20]. Например, очень часто для таких целей используется тезаурус WordNet [16, 21].
Контекстные векторы n-мерного пространства, записанные вместе, образуют квадратную матрицу «термины-на-термины» размерности nxn (табл. 1). Эту матрицу также часто называют матрицей попарных связей или матрицей зависимостей, поскольку каждый ее элемент (i, j) (i, j = l, n) - не что иное, как численное выражение семантической связи между i-м и j-м словами (терминами).
Таблица 1
Матрица семантических связей, образованная контекстными векторами
Table 1
A semantic link matrix created from context vectors
С1 С2 Cn
Термин 1 Термин 2 Термин n
Термин 1 С11 С12 C1n
Термин 2 С21 С22 C2n
Термин n Cn1 Cn2 Cnn
Матрица семантических связей играет ключевую роль в формировании семантически обогащенных представлений текстов в пространстве контекстных векторов [16, 19]. По сути она является оператором перехода из одного пространства дескрипторов в другое.
Действительно, пусть текст ё в исходном п-мер-ном пространстве несвязанных терминов имеет
представление ё =(^1, W2, ..., где Wl, W2, ..., ^п - это веса терминов в рассматриваемом тексте. Матрица семантических связей (назовем ее Я) позволяет отобразить это исходное представление текста ё в новое представление ёиеи,, отражающее связи между словами и в то же время сохраняющее информацию исходного представления:
^ = ё • ЯТ. (4)
Формула (4) дает сжатую форму записи представления текста в пространстве контекстных векторов. Развернув формулу, получим, что такое представление текста - не что иное, как линейная комбинация контекстных векторов:
(г
dnew = d ■ RT =(WU W2
Y
(5)
= ^ + w2C2 +... + ™пс,т.
Подходы на основе латентной семантической модели. Еще один класс подходов, преодолевающих ограничение модели Bag-of-words, направлен на создание представлений текстов с помощью латентных тематик. Формирование таких пред-
)
W
n
Термины
Тематики
Важность темати к
Термины
О)
S >
о cl
mxk
x
kxk
Рис. 2. Латентный семантический анализ Fig. 2. Latent semantic analysis
x
kxn
ставлений осуществляется путем факторизации матрицы «документы-на-термины» [22, 23]. Наиболее популярным методом среди подходов данного класса является латентный семантический анализ (LSA), который в качестве факторизации использует сингулярное разложение [24]. Сингулярное разложение позволяет заменить исходную матрицу размерности mxn ортогональными матрицами размерностей mxkи kxn соответственно и диагональной матрицей размерности kxk (рис. 2). При такой замене большая часть малозначимой и случайной информации теряется, зато отчетливей проявляются скрытые тематические тренды. По сути эти скрытые тренды представляют те же самые тематические концепты, только извлеченные особым способом.
Тот же принцип извлечения скрытых тематик лежит в основе метода неотрицательной матричной факторизации (NMF) [25, 26], но вместо сингулярного разложения он использует разложение матрицы в произведение двух неотрицательных матриц (рис. 3). В работе [27] оба указанных метода (LSA и NMF) сравниваются по их способности к улучшению качества классификации текстов и делается вывод о превосходстве метода LSA.
Предлагаемый подход к автоматической классификации текстов
Основная идея предлагаемого подхода. В данной работе предлагается обогащать представления текстов семантическими связями, которые извлека-
ются из этих же текстов. Под извлечением семантических связей, как обычно, понимается задача распознавания отношений, имеющих место между двумя и более сущностями в тексте [28]. Для извлечения семантических связей используется статистика совместной встречаемости слов. Идея, лежащая в основе этого подхода, лаконично выражена в следующей знаменитой фразе: «You shall know a word by the company it keeps» [29]. Авторы опираются на эту идею, полагая, что чем чаще два слова встречаются «в одной компании» (в данном случае в текстах одной тематики), тем сильнее между ними семантическая связь.
Статистику совместной встречаемости слов предоставляет матрица «документы-на-термины», описывающая распределение слов (терминов) в текстах (документах обучающей коллекции). Как следует из названия матрицы, ее строками являются документы, столбцами - термины, а элементами - частоты употребления терминов в документах (рис. 4). Поскольку «такие частотные матрицы имеют склонность быть разреженными и зашум-ленными, особенно если обучающая коллекция относительно мала в размерах» [30], авторы считают
Термины
_Л_
t1 t2 ...
Тема 1
Тема 2
Рис. 4. Матрица «документы-на-термины» Fig. 4. The matrix "document-term "
Термины
Термины
mxk
x
kxn
Рис. 3. Неотрицательная матричная факторизация Fig. 3. Non-negative matrix factorization
О)
ET
а
И
° I
-О ^ £ §
О) *
о CI
dl d2
целесообразным до использования этой матрицы применить к ней два основных преобразования: редукцию и сингулярное разложение.
Редукция матрицы «документы-на-тер-мины». Первое преобразование матрицы «доку-менты-на-термины» заключается в редукции размерности этой матрицы, то есть в отбрасывании части ее столбцов и строк. Редукция необходима для извлечения семантических связей, которые относятся к интересующей нас теме (предметной области). Первым делом отсекаем «лишние» столбцы матрицы, соответствующие терминам других тем. Для этой цели можно использовать различные дискриминационные критерии [31, 32]. В данном случае используется критерий Пирсона (Хи-квадрат), который оценивает распределение каждого термина в текстах рассматриваемой темы (позитивном множестве) и текстах других тем (негативном множестве):
2_ (Л + В + С + В)(ЛБ - ВС)2
1 =(Л + В)(Л + С)(В + Б)(С + Б)' (6)
где А, В - количество документов позитивного множества, содержащих и не содержащих данный термин соответственно; С, Б - количество документов негативного множества, содержащих и не содержащих данный термин соответственно [31]. Значение данного критерия тем выше, чем чаще термин встречается в документах позитивного множества и чем реже в документах негативного множества. Этот факт позволяет нам отобрать термины с самыми высокими значениями критерия, то есть ключевые слова рассматриваемой темы.
Затем отсекаем «лишние» строки матрицы, соответствующие документам негативного множества. В результате получаем редуцированную матрицу «документы-на-термины», строки которой соответствуют текстам рассматриваемой темы, а столбцы - ее ключевым словам (рис. 5).
Сингулярное разложение матрицы «доку-менты-на-термины». Второе преобразование матрицы «документы-на-термины» состоит в ее сингулярном разложении. Сингулярное разложение - это способ представления произвольной чис-
Ключевые
термины
,-А-
t1 t2
Данная тема
Рис. 5. Редуцированная матрица «документы-на-термины»
Fig. 5. A reduced matrix "document-term "
ловой матрицы А размерности тхп (т>п) в виде произведения трех матриц:
А=иБУГ, (7)
где и и V - ортогональные матрицы размерностей тхп и пхп соответственно (столбцы этих матриц называют левыми и правыми сингулярными векторами); - диагональная матрица размерности тхп (ее диагональные элементы называют сингулярными числами) (рис. 6).
Согласно теореме Эккарта-Янга, сингулярное разложение позволяет снизить шум и разреженность исходной матрицы, заменяя ее матрицей той же размерности, но меньшего ранга, в которой сохранена только самая значимая информация [33]. Более формально эта теорема звучит следующим образом.
Теорема 1 (Эккарт-Янг). Пусть дана матрица А размерности тхп, для которой известно сингулярное разложение и которую требуется аппроксимировать матрицей Ак с заданным рангом к<г=гапк(А). Если в матрице 5 оставить к наибольших сингулярных значений, а остальные заменить нулями, то разложение
Ак=ШкV (8)
= x Sl
S2 x
S3
\ / 1 » fT
\ U J > V
Sn
nxn
mxn mxn mxn Рис. 6. Сингулярное разложение произвольной матрицы Fig. 6. Random matrix singular decomposition
aj m
ч
о m ?
dl d2
даст наилучшее приближение исходной матрицы A ранга k в смысле нормы Фробениуса. Если при этом элементы матрицы отсортированы по убыванию "1>"2>"а>0, то выражение (5) может быть записано в другой форме:
Ak=UkSkVkT, (9)
где Uk и Vk - это матрицы, полученные выделением первых к столбцов из матриц и и V соответственно (рис. 7). Сингулярное разложение, представленное равенством (6), называется экономным, поскольку в случае, когда k намного меньше т и п, оно позволяет произвести существенное сжатие исходной информации.
Сжатие понимается в том смысле, что часть информации, передаваемой исходной матрицей, теряется, а сохраняется только самая важная (доминантная) информация. Потеря информации происходит за счет пренебрежения малыми сингулярными числами, поэтому, чем больше сингулярных чисел отброшено, то есть чем меньше ^ тем значительнее эта потеря.
Построение матрицы семантических связей «термины-на-термины» и ее использование для обогащения представлений текстов. Редуцированную и очищенную от шума матрицу «доку-менты-на-термины» будем использовать для построения матрицы семантических связей «тер-
мины-на-термины». Поскольку в матрице «доку-менты-на-термины» каждый термин представляет собой вектор-столбец, семантическую связь между любыми двумя терминами можно трактовать как близость или расстояние между соответствующими этим терминам векторами, используя любые известные меры близости или расстояния [34]. В данной работе используем косинусную меру:
r = cos T T ) = , (10)
где Tt,Tj - вектор-столбцы матрицы «документы -
на-термины», соответствующие i-му и j-му терминам соответственно (г, j пробегают весь список терминов); Гц - значение близости, элемент матрицы семантических связей (рис. 8).
Определение косинуса в первом квадранте декартовых координат позволяет утверждать, что максимально возможное значение близости между терминами равно 1, а минимально возможное - 0. Поскольку нас интересуют только самые сильные и устойчивые связи, не будем принимать во внимание значения близости ниже некоторого порога. Иными словами, будем отсекать слабые связи, обнуляя элементы матрицы, значения которых меньше порогового значения.
Л
A k
mxn
U
mxk
x
5k
x
kxk
Рис. 7. Экономная форма сингулярного разложения Fig. 7. An economical form of singular decomposition
VkT
kxn
d1 d2
о cl
Термины
_A_
CP
0)
Термины
_Л._
tj ...
Гц
Рис. 8. Переход от матрицы «документы-на-термины» к матрице семантических связей «термины-на-термины» Fig. 8. A transition from the matrix "document-term " to the "term-term " semantic link matrix
Использование матрицы семантических связей «термины-на-термины» для формирования новых представлений текстов. Построенная матрица семантических связей R=(r¿) используется для отображения представлений текстов в пространство связанных слов. В работе [16] для выполнения такого отображения используется формула (4). Если говорить в целом, то применение этой формулы увеличивает в представлениях текстов веса тех слов, которые имеют сильные семантические связи с другими словами. Увеличение весов происходит даже для тех слов, которые первоначально имели нулевые веса, то есть отсутствовали в исходных представлениях текстов. На следующем примере покажем, что в некоторых случаях это может негативно повлиять на качество работы классификатора.
Пример. Пусть коллекция из трех текстов индексируется ключевыми словами sea, cargo и cruise:
Text1={2sea, ícargo, Ocruise} ={2, 1, 0},
Text2={lsea, 0cargo, 2cruise} ={1, 0, 2},
Text3={2sea, 0cargo, icruise} ={2, 0, 1}.
Известно, что текст 1 относится к теме «Морские грузоперевозки», а текст 2 не относится к этой теме. Про текст 3 ничего не известно, однако отсутствие в этом тексте слова cargo и присутствие слова cruise позволяют предположить, что он, как и текст 2, относится, скорее, к теме «Морские путешествия», чем к теме «Морские грузоперевозки». Математическая оценка близости между текстами (на основе косинусной меры) не вносит ясности, так как оказывается, что текст 3 одинаково близок и к тексту 1, и к тексту 2:
Cos (Text3, Textl) = Cos (Text3, Text2) =
2 • 2 + 0-1+ 1 0
2 + 02 + 12л/2
2 +12 + 02 5
= = 4 = 0,8,
R=
Г2
2-1 +0-0 + 1- 2 4 по . .- — — — — 0,8.
л/22 + 02 +12V12 + 02 + 22 5 Матрица семантических связей для темы «Морские грузоперевозки» имеет вид
sea c arg o cruit sea 110 c arg o 110 cruise 0 0 1
Подстановка этой матрицы в формулу (4) позволяет получить новые представления текстов, обогащенные семантическими связями: Textl={3sea, 3cargo, 0cruise} ={3, 3, 0}, Text2={1sea, 1cargo, 2cruise} ={1, 1, 2}, Text3={2sea, 2cargo, 1cruise} ={2, 2, 1}. Очевидно, в представлении текста 3 появилось ранее отсутствовавшее там слово cargo. Причем вес слова cargo благодаря сильной связи со словом sea увеличился с 0 до 2. Как результат, близость между текстом 3 и текстом 1 тоже увеличилась и
даже стала больше, чем близость между текстом 3 и текстом 1:
Cos (Text3, Textl) =
2 • З + 2 • З +10
S
2 + 22 + 12л/З
2 + З2 + 02
l2
í 0,942,
9л/2
Cos (Text3, Text2) =
2 •l + 2 •l +12
2 + 22 +12
TT
2 +12 + 22
0,8l6.
3%/б
Таким образом, в результате использования формулы (4) мы получили в представлении текста 3 ненужное там слово cargo, обеспечившее ложное «смещение» текста 3 к теме «Морские грузоперевозки». Приведенный пример демонстрирует несостоятельность формулы (4) в случае бинарной классификации, когда тексты из разных тем имеют общие ключевые слова. В приведенном примере таким общим для двух тем словом являлось слово sea, которое привело к включению в новое представление текста слова cargo, невзирая на его нулевой вес в исходном представлении текста. В данной работе авторы предлагают модифицировать формулу (4) с учетом наличия нулевых весов в исходных представлениях текстов.
Пусть дано исходное представление текста в виде вектора Text=(wi, ..., w„), где Wi (i = 1,n) - веса слов в этом тексте; n - размерность пространства слов. Пусть задана матрица семантических связей R=(r,j), где i, j = 1, n . Тогда веса слов w \ (i = (1, n) в
новом представлении текста Text'=(w\, дем определять по правилу:
w. =
0
! w,
при
= 0;
Г у Л
, w„
при wt Ф 0.
w 'n) бу-
(11)
Эксперименты
Исходные данные для классификации. Для проведения экспериментов по бинарной классификации текстов была использована стандартная коллекция Reuters-21578, состоящая из 21 578 документов, распределенных между 135 пересекающимися темами. Как и в работах [1, 35], для классификации были использованы только 12 самых крупных тем коллекции. Для каждой выбранной темы сформировано по 100 корпусов, содержащих все документы этой темы (позитивное множество) и примерно столько же выбранных случайным образом документов из других тем (негативное множество). При формировании корпусов соблюдались предустановленная разбивка документов на обучающие и тестовые, а также баланс между их
w
количеством. В таблице 2 приведены примеры корпусов для каждой из 12 выбранных тем.
Таблица 2
Примеры корпусов для одного эксперимента для каждой из 12 тем
Table 2
Samples корпусов for one experiment for each of 12 subjects
№ Количество документов в корпусе Количество слов в корпусе
Тема классификации Всего Из них относящихся к данной теме (позитивное множество) Всего Из них ключевых слов Из них ключевых слов, относящихся к данной теме
1 acq 4073 2117 20464 2595 1084
2 corn 408 208 5836 394 271
3 crude 1001 507 10853 929 747
4 earn 6874 3751 22500 4978 182
5 grain 1017 507 9514 791 512
6 interest 772 388 8405 717 428
7 money-fx 1174 595 10696 1144 780
8 oilseed 316 161 5271 286 210
9 ship 551 277 7647 581 405
10 sugar 304 153 5435 317 237
11 trade 874 441 9641 1159 962
12 wheat 513 264 6474 437 270
Метод и способ оценки результатов классификации. Классификация проводилась с помощью свободно распространяемого пакета вычислений R. В качестве алгоритма классификации использовалась машина опорных векторов (Support Vector Machine - SVM). В качестве итоговой оценки результатов классификации по каждой из 12 выбранных тем использовалось среднее значение F-меры в серии из 100 экспериментов. F-мера - это очень популярная мера оценки качества классификации, представляющая собой среднее гармоническое между точностью (P) и полнотой (R) классифика-
m 2Р х R ции: F1 =-.
Р + R
Каждый участвующий в эксперименте корпус текстов сначала подвергался токенизации (делению на слова), затем очищался от стоп-слов. Стем-минг и лемматизация не проводились. При формировании представлений документов использовались не все слова, а только ключевые, то есть те, для которых значение критерия Хи-квадрат превысило критическое значение 6,6 (рис. 9). Это критическое значение было определено по специальной таблице, исходя из числа степеней свободы (для данной задачи равное 1) и уровня значимости, равного 1 % [36]. (Следует отметить, что попутно были проверены другие критические значения в диапазоне от 1 до 10, то есть авторы увеличивали
Термины Значение Chi2 ф
Термин 1
Термин 2
Термин N
Рис. 9. Формирование списка ключевых слов с помощью фильтра по критерию Хи-квадрат
Fig. 9. Forming a list of keywords using a Chi-square filter
или сокращали список ключевых слов, регулируя его длину с помощью фильтра по критическому значению. Серия промежуточных экспериментов показала, что для задачи бинарной классификации список ключевых слов, определяемый значением 6,6, является оптимальным, то есть применение этого значения стабильно обеспечивает лучший результат классификации по сравнению с другими критическими значениями как при использовании традиционной модели Bag-of-words, так и при использовании рассматриваемой модели.)
Веса ключевых слов в представлениях документов вычислялись с помощью метрики Tf-Idf, которая равна частоте слова в документе Tf, умноженной на обратную документную частоту Idf, то есть на величину, обратную частоте данного слова во всех документах рассматриваемой выборки:
Weigth(term) = Tf-Idf
Сформировав представления документов в пространстве несвязанных ключевых слов Bag-of-words, авторы выполнили классификацию этих документов и использовали полученные результаты в качестве опорных, ориентируясь на которые, можно было бы судить об изменении качества классификации при обогащении представлений документов с помощью матрицы семантических связей.
Результаты классификации. Сравнительные результаты классификации представлены в табличном виде (табл. 3) и в графическом (рис. 10).
Как следует из приведенных результатов, прироста качества классификации удалось добиться в 10 темах из 12. В теме acq (второй по величине в коллекции Reuters) прирост качества нулевой, а в теме oilseed - отрицательный. Однако даже с учетом этих двух негативных результатов средний прирост качества по всем темам является положительным и составляет 1,6 %. Следует отметить также положительные выбросы для тем interest и sugar.
В будущих исследованиях предстоит выяснить причины ухудшения качества классификации в теме oilseed, которое наблюдается на фоне благополучных результатов классификации в остальных
Chi2>6.6
5,9%
6,0% 5,0% 4,0% 3,0% 2,0% 1 0% 0 0% -1 0% -2 0% 1,4% U% 0,9% 1,0% 0 0% ,3% 1,5% 1,2% 1,5% 0,9% 1 1
acq corn crude earn grain interest money-fx S oilseed ship sugar trade wheat
Рис. 10. Прирост качества классификации при использовании предлагаемой модели
Fig. 10. Classification quality improvement using the offered model
темах. Еще большего внимания заслуживает исследование причин положительных выбросов, в которых могут лежать возможные пути дальнейшего совершенствования предлагаемых методов.
Таблица 3 Результаты классификации текстов предлагаемым методом
Table 3
Text classification results using the offered method
В заключение отметим, что в данной работе построена математическая модель автоматической классификации текстов на основе известного подхода Bag-of-words, улучшенного за счет вовлечения в процесс классификации информации о семантических связях между словами, выявляемыми на основе статистики совместной встречаемости слов. Для редуцирования размерности матриц, порождаемых в процессе решения данной задачи, применены редукция и сингулярное разложение. Тестирование предложенного метода, проведенное на подмножестве стандартного корпуса документов КеШ:еге-21578, показало некоторое улучшение качества классификации по комбинированному критерию, объединяющему точность и полноту классификации. Результаты проведенного исследо-
вания демонстрируют, что традиционные статистические методы анализа текстов могут быть улучшены за счет других статистических методов. Вместе с тем наблюдаемые в ходе экспериментов как положительные, так и отрицательные выбросы полученных значений показателя качества классификации требуют дальнейших исследований.
Литература
1. Joachims T. Learning to classify text using support vector machines: Methods, theory and algorithms. Kluwer Academic Publ., 2002, p. 205.
2. Wallach H.M. Topic modeling: beyond bag-of-words. Proc. 23rd Intern. Conf. on Machine learning. ACM, 2006, pp. 977-984.
3. Yang Y., Pedersen J.O. A comparative study on feature selection in text categorization. ICML, 1997, vol. 97, pp. 412-420.
4. Kalogeratos A., Likas A. Text document clustering using global term context vectors. Knowledge and information systems,
2012, vol. 31, no. 3, pp. 455-474.
5. Sahlgren M., Coster R. Using bag-of-concepts to improve the performance of support vector machines in text categorization. Proc. 20th Intern. Conf. on Computational Linguistics, Association for Computational Linguistics, 2004, p. 487.
6. Huang A. et al. Clustering documents using a Wikipedia-based concept representation. Advances in Knowledge Discovery and Data Mining, Springer Berlin Heidelberg, 2009, pp. 628-636.
7. Shehata S., Karray F., Kamel M.S. An efficient concept-based mining model for enhancing text clustering. Knowledge and Data Engineering, IEEE Transactions on, 2010, vol. 22, no. 10, pp. 1360-1371.
8. Egozi O., Markovitch S., Gabrilovich E. Concept-based information retrieval using explicit semantic analysis. ACM Transactions on Inform. Systems (TOIS), 2011, vol. 29, no. 2, p. 8.
9. Boubekeur F. and Azzoug W. Concept-based indexing in text information retrieval. Int. J. Comput. Sci. Inf. Technol., vol. 5,
2013, pp. 119-136.
10. Huang L. et al. Learning a concept-based document similarity measure. Journ. of the American Society for Information Science and Technology, 2012, vol. 63, no. 8, pp. 1593-1608.
11. Gonzalo J., Verdejo F., Chugur I. and Cigarrán J. Indexing with WordNet synsets can improve Text Retrieval. Proc. COLING/ACL Workshop Usage of WordNet for Natural Language Processing, 1998, pp. 38-44.
12. Gómez J.M. et al. Concept indexing for automated text categorization. Natural Language Processing and Information Systems, Springer Berlin Heidelberg, 2004, pp. 195-206.
13. Wang P., Domeniconi C. Building semantic kernels for text classification using Wikipedia. Proc. 14th ACM SIGKDD Intern. Conf. on Knowledge discovery and data mining, ACM, 2008, pp. 713-721.
14. Turdakov D.Y. Word sense disambiguation methods. Programming and Comp. Soft., 2010, vol. 36, no. 6, pp. 309-326.
15. Dinh D., Tamine L. Combining global and local semantic contexts for improving biomedical information retrieval. Advances in Information Retrieval. Springer Berlin Heidelberg, 2011, pp. 375-386.
16. Billhardt H., Borrajo D., Maojo V. A context vector model for information retrieval. Journ. of the American Society for Inform. Sc. and Technology, 2002, vol. 53, no. 3, pp. 236-249.
17. Chen K.J., You J.M. A study on word similarity using context vector models. Computational Linguistics and Chinese Language Processing, 2002, vol. 7, no. 2, pp. 37-58.
18. Carrillo M., López-López A. Concept Based Representations as complement of Bag of Words in Information Retrieval. Artificial Intelligence Applications and Innovations, Springer Berlin Heidelberg, 2010, pp. 154-161.
19. Cheng X. et al. Coupled term-term relation analysis for document clustering. Neural Networks (IJCNN), The 2013 Intern. Joint Conf. on. IEEE, 2013, pp. 1-8.
20. Agirre E. et al. A study on similarity and relatedness using distributional and WordNet-based approaches. Proc. of Human Language Technologies: The 2009 Annual Conf. of the North American
Тема Среднее значение F-меры, % Прирост качества, %
Опорный результат (BOW) Предлагаемая модель
acq 96,6 96,6 0,0
corn 88,8 90,2 1,4
crude 94,8 95,9 1,1
earn 97,3 98,2 0,9
grain 90,2 91,2 1,0
interest 87,5 92,8 5,3
money-fx 95,0 96,2 1,2
oilseed 89,7 88,1 -1,6
ship 93,7 95,2 1,5
sugar 79,0 84,9 5,9
trade 89,9 90,8 0,9
wheat 91,0 92,5 1,5
Chapter of the Association for Computational Linguistics, ACL, 2009, pp. 19-27.
21. Patwardhan S., Pedersen T. Using WordNet-based context vectors to estimate the semantic relatedness of concepts. Proc. EACL 2006 Workshop Making Sense of Sense-Bringing Computational Linguistics and Psycholinguistics Together, 2006, vol. 1501, pp. 1-8.
22. Mashechkin I., Petrovsky M., Popov D., Tsarev D. Automatic text summarization using latent semantic analysis. Programming and Comp. Soft., 2011, vol. 37, no. 6, pp. 299-305.
23. Машечкин И.В., Петровский М.И., Царев Д.В. Методы вычисления релевантности фрагментов текста на основе тематических моделей в задаче автоматического аннотирования // Вычислительные методы и программирование: Новые вычислительные технологии. 2013. Т. 14. № 1. С. 91-102.
24. Deerwester S.C., Dumais S.T., Landauer T.K., Furnas G.W., Harshman R.A. Indexing by latent semantic analysis. JAsIs, 1990, no. 41 (6), pp. 391-407.
25. Xu W., Liu X., Gong Y. Document clustering based on nonnegative matrix factorization. In: Proc 26th Annual Intern. ACM SIGIR Conf. on Research and Development in Information Retrieval, 2003, pp. 267-273.
26. Tsarev D., Petrovskiy M., Mashechkin I. Using NMF-based text summarization to improve supervised and unsupervised classification. IEEE 2011 11th Int. Conf. on Hybrid Intelligent Systems (HIS), 2011, pp. 185-189.
27. Stevens K. et al. Exploring topic coherence over many mod-
els and many topics. Proc. 2012 Joint Conf. on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, ACL, 2012, pp. 952-961.
28. Banko M., Etzioni O., Center T. The tradeoffs between open and traditional relation ex-traction. In ACL, 2008, vol. 8, pp. 28-36.
29. Firth J.R. A synopsis of linguistic theory 1930-1955. In Studies in linguistic analysis (Spec. vol. of the Philological society), Oxford, Blackwell, 1957, pp. 1-32.
30. Slonim N., Tishby N. The power of word clusters for text classification. In 23rd European Colloquium on Inform. Retrieval Research, 2001, vol. 1.
31. Yang Y., Pedersen J.O. A comparative study on feature selection in text categorization. ICML, 1997, vol. 97, pp. 412-420.
32. Fedorenko D., Astrakhantsev N., Turdakov D. Automatic recognition of domain-specific terms: an experimental evaluation. SYRCoDIS, 2013, pp. 15-23.
33. Eckart C., Young G. The approximation of one matrix by another of lower rank. Psychometrika, 1936, no. 1 (3), pp. 211-218.
34. Chen S., Ma B., Zhang K. On the similarity metric and the distance metric. Theoretical Comp. Sc., 2009, vol. 410, no. 24, pp. 2365-2376.
35. McCallum A., Nigam K. A comparison of event models for naive Bayes text classification AAAI-98 workshop on learning for text categorization. 1998, vol. 752, pp. 41-48.
36. Lancaster H.O. Chi-Square Distribution. John Wiley & Sons, Inc. 1969, 356 p.
DOI: 10.15827/0236-235X.114.089-099 Received 26.02.15
SEMANTIC RELATIONS IN TEXT CLASSIFICATION BASED ON BAG-OF-WORDS MODEL
Nugumanova AB., Ph.D., Senior Lecturer, yalisha@yandex.kz (D. Serikbayev East Kazakhstan State Technical University, Serikbaev St. 19, Ust Kamenogorsk, 070010, Republic of Kazakstan);
Bessmertny I.A., Dr.Sc. (Engineering), Professor, igor_bessmertny@hotmail.com (The National Research University of Information Technologies, Mechanics and Optics, Kronverksky Ave. 49, St. Petersburg,
197101, Russian Federation);
Pecina P., Ph.D., Professor, pecina@ufal.mjf.cuni.cz (Charles University, Malostranskaya Sq. 25, Prague, 11800, Czech Republic);
Baiburin Е.M., System Analyst, ebaiburin@ektu.kz (D. Serikbayev East Kazakhstan State Technical University, Serikbaev St. 19, Ust Kamenogorsk, 070010, Republic of Kazakstan)
Abstract. The paper contains the results of research concerning quality improvement of automatic text classification based on statistical approach. It considers Bag-of-words model as a basis model of text representation. This is the most popular and the simpliest text representation model that is used in many tasks of automated language processing. The model represents texts as sets of words ignoring their order and relations. Therefore, the semantic similarity of two texts is assessed by a number of matching pairs of words. So, the texts containing few common words are meant to be semantically far from each other. Due to ignoring semantic links, this feature of Bag-of-words model creates a serious problem in such important task of natural language processing as automatic text classification. This paper proposes to enrich Bag-of-words model by semantic links from these texts extracted based on the joint word appearance statistics. Particularly, the contribution of this work consists in a new method of building and using of a semantic links matrix that is further used to display text representations to a space of linked words. The final purpose of this work is proving that the proposed model is more efficient in binary text classification than the traditional Bag-of-words approach.
In order to compare these two models the authors carried out a set of experiments based on the standard Reuters 21578 texts collection. The results of the experiments demonstrate improvement of classification quality comparing to known methods.
Keywords: semantic relations, Bag-of-words, binary text classification, SVD.
References
1. Joachims T. Learning to classify text using support vector machines: Methods, theory and algorithms. Kluwer Academic Publ., 2002, 205 p.
2. Wallach H.M. Topic modeling: beyond bag-of-words. Proc. of the 23rd int. Conf. on Machine learning. ACM, 2006, pp. 977-984.
3. Yang Y., Pedersen J.O. A comparative study on feature selection in text categorization. ICML. 1997, vol. 97, pp. 412-420.
4. Kalogeratos A., Likas A. Text document clustering using global term context vectors. Knowledge and information systems. 2012, vol. 31, no. 3, pp. 455-474.
5. Sahlgren M., Coster R. Using bag-of-concepts to improve the performance of support vector machines in text categorization. Proc. of the 20th Int. Conf. on Computational Linguistics, Association for Computational Linguistics. 2004, p. 487.
6. Huang A. Clustering documents using a Wikipedia-based concept representation. Advances in Knowledge Discovery and Data Mining. Springer Berlin Heidelberg Publ., 2009, pp. 628-636.
7. Shehata S., Karray F., Kamel M. S. An efficient concept-based mining model for enhancing text clustering. IEEE Transactions on Knowledge and Data Engineering. 2010, vol. 22, no. 10, pp. 1360-1371.
8. Egozi O., Markovitch S., Gabrilovich E. Concept-based information retrieval using explicit semantic analysis. ACM Transactions on Information Systems (TOIS). 2011, vol. 29, no. 2, p. 8.
9. Boubekeur F., Azzoug W. Concept-based indexing in text information retrieval. Int. J. Comput. Sci. Inf. Technol. 2013, vol. 5, pp. 119-136.
10. Huang L. Learning a concept-based document similarity measure. Journ. of the American Society for Information Science and Technology. 2012, vol. 63, no. 8, pp. 1593-1608.
11. Gonzalo J., Verdejo F., Chugur I., Cigarrán J. Indexing with WordNet synsets can improve Text Retrieval. Proc. COLING/ACL Workshop Usage of WordNet for Natural Language Processing. 1998, pp. 38-44.
12. Gómez J.M. Concept indexing for automated text categorization. Natural Language Processing and Information Systems. Springer Berlin Heidelberg Publ., 2004, pp. 195-206.
13. Wang P., Domeniconi C. Building semantic kernels for text classification using Wikipedia. Proc. of the 14th ACM SIGKDD Intern. Conf. on Knowledge discovery and data mining. ACM Publ., 2008, pp. 713-721.
14. Turdakov D.Y. Word sense disambiguation methods. Programming and Computer Software. 2010, vol. 36, no. 6, pp. 309-326.
15. Dinh D., Tamine L. Combining global and local semantic contexts for improving biomedical information retrieval. Advances in Information Retrieval. Springer Berlin Heidelberg Publ., 2011, pp. 375-386.
16. Billhardt H., Borrajo D., Maojo V. A context vector model for information retrieval. Journ. of the American Society for Information Science and Technology. 2002, vol. 53, no. 3, pp. 236-249.
17. Chen K.J., You J.M. A study on word similarity using context vector models. Computational Linguistics and Chinese Language Processing. 2002, vol. 7, no. 2, pp. 37-58.
18. Carrillo M., López-López A. Concept Based Representations as complement of Bag of Words in Information Retrieval. Artificial Intelligence Applications and Innovations. Springer Berlin Heidelberg Publ., 2010, pp. 154-161.
19. Cheng X. Coupled term-term relation analysis for document clustering. IEEE 2013 Int. Joint Conf. on Neural Networks (IJCNN). 2013, pp. 1-8.
20. Agirre E. A study on similarity and relatedness using distributional and WordNet-based approaches. Proc. of Human Language Technologies: the 2009 Annual Conf. of the North American Chapter of the Association for Computational Linguistics. ACL Publ., 2009, pp. 19-27.
21. Patwardhan S., Pedersen T. Using WordNet-based context vectors to estimate the semantic relatedness of concepts. Proc. EACL 2006 Workshop Making Sense of Sense-Bringing Computational Linguistics and Psycholinguistics Together. 2006, vol. 1501, pp. 1-8.
22. Mashechkin I, Petrovsky M., Popov D., Tsarev D. Automatic text summarization using latent semantic analysis. Programming and Computer Software. 2011, vol. 37, no. 6, pp. 299-305.
23. Mashechkin I., Petrovsky M., Tsarev D. Methods of text fragment relevance estimation based on the topic model analysis in the text summarization problem. Vychislitelnye metody i programmirovanie [Computing Methods and Programming]. 2013, vol. 14, no. 1, pp. 91-102.
24. Deerwester S.C., Dumais S.T., Landauer T.K., Furnas G.W., Harshman R.A. Indexing by latent semantic analysis. JAsIs. 1990, no. 41 (6), pp. 391-407.
25. Xu W., Liu X., Gong Y. Document clustering based on non-negative matrix factorization. Proc. of the 26th Annual Int. ACMSIGIR Conf. on Research and Development in Information Retrieval. ACM Publ., 2003, pp. 267-273.
26. Tsarev D., Petrovsky M., Mashechkin I. Using NMF-based text summarization to improve supervised and unsupervised classification. IEEE 2011 11th Int. Conf. on Hybrid Intelligent Systems (HIS). 2011, pp. 185-189.
27. Stevens K. Exploring topic coherence over many models and many topics. Proc. 2012 Joint Conf. on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. ACL Publ., 2012, pp. 952-961.
28. Banko M., Etzioni O., Center T. The tradeoffs between open and traditional relation ex-traction. ACL. 2008, vol. 8, pp. 28-36.
29. Firth J.R. A synopsis of linguistic theory 1930-1955. Studies in Linguistic Analysis. (1-32), Oxford, Blackwell, 1957.
30. Slonim N., Tishby N. The power of word clusters for text classification. 23rd European Colloquium on Information Retrieval Research. 2001, vol. 1.
31. Yang Y., Pedersen J.O. A comparative study on feature selection in text categorization. ICML. 1997, vol. 97, pp. 412-420.
32. Fedorenko D., Astrakhantsev N., Turdakov D. Automatic recognition of domain-specific terms: an experimental evaluation. SYRCoDIS. 2013, pp. 15-23.
33. Eckart C., Young G. The approximation of one matrix by another of lower rank. Psychometrika [Psychometrics]. 1936, no. 1 (3), pp. 211-218.
34. Chen S., Ma B., Zhang K. On the similarity metric and the distance metric. Theoretical Computer Science. 2009, vol. 410, no. 24, pp. 2365-2376.
35. McCallum A., Nigam K. A comparison of event models for naive Bayes text classification. AAAI-98 Workshop on Learning for Text Categorization. 1998, vol. 752, pp. 41-48.
36. Lancaster H. O. Chi-SquareDistribution. John Wiley & Sons Publ., 1969.