Научная статья на тему 'Методы и алгоритмы рубрикации текстов'

Методы и алгоритмы рубрикации текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
372
64
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РУБРИКАЦИЯ ТЕКСТОВ / TEXT CATEGORIZATION / МАШИННОЕ ОБУЧЕНИЕ / MACHINE LEARNING / БАЗА ЗНАНИЙ / KNOWLEDGE BASE / ИЕРАРХИЧЕСКАЯ РУБРИКАЦИЯ / HIERARCHICAL CATEGORIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Щеголев Алексей Алексеевич, Азарова Эльмира Руслановна

Рассматриваются существующие методы для задачи автоматической рубрикации текстовых документов основанные на базах знаний, машинном обучении и методы иерархической рубрикации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Щеголев Алексей Алексеевич, Азарова Эльмира Руслановна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Presentation of existing techniques for automatic categorization task of text documents based on the knowledge bases, machine learning and techniques of hierarchical categorization.

Текст научной работы на тему «Методы и алгоритмы рубрикации текстов»

- при объемной доле наполнителя 30% наивысшие значения предела прочности на изгиб (1,29 базового) и модуля упругости (1,41 базового) достигнуты с фракцией 100 мкм. При объемной доле наполнителя 50% высокие прочностные качества ПКМ достигнуты с фракциями 25...100 мкм (до трехкратного базового уровня!);

- применение наполнителя фракции 8 мкм снижает прочностные характеристики ПКМ, однако при этом достигается эффект получения тиксотропного связующего, что расширяет технологические возможности изготовления изделий.

Литература:

1. Функциональные наполнители для пластмасс/. Под ред. М.Ксантоса. Пер. с англ. под ред. Кулезнева В.Н. - Спб.: Научные основы и технологии. - 2010 г. - 462 с.

2. Наполнители для полимерных композиционных материалов: учеб. пособие/ Л.Г.Панова. Саратов: Сарат гос. тех. ун-т, 2010 г. - 68 с.

3. Холодников Ю.В. Промышленные композиты./ Химическое и нефтегазовое машиностроение. - №12. 2012 г.- с 34-36.

МЕТОДЫ И АЛГОРИТМЫ РУБРИКАЦИИ ТЕКСТОВ

Щеголев Алексей Алексеевич

старший преподаватель кафедры экономики, управления, финансового права и информационных технологий

Ставропольского филиала МПГУ, город Ставрополь

Азарова Эльмира Руслановна

ассистент кафедры прикладной информатики Северо-Кавказского федерального университета,

город Ставрополь

АННОТАЦИЯ

Рассматриваются существующие методы для задачи автоматической рубрикации текстовых документов основанные на базах знаний, машинном обучении и методы иерархической рубрикации.

ABSTRACT

Presentation of exiting techniques for automatic categorization task of text documents based on the knowledge bases, machine learning and techniques of hierarchical categorization.

Ключевые слова: Рубрикация текстов, машинное обучение, база знаний, иерархическая рубрикация.

Keywords: text categorization, machine learning, knowledge base, hierarchical categorization.

Задача рубрикации текстов связана со многими другими задачами обработки текстовых документов. Рубрикация (отнесение документов к рубрикам, т.е. к темам) применяется в информационном поиске, фильтрации новостных лент, классификации веб-страниц.

В 80-е годы XX века наиболее популярным подходом к рубрикации текстовых документов был метод, основанный на базах знаний. В данном методе эксперт в предметной области работал над созданием системы автоматической рубрикации текстов. Система состояла из правил (условий) и с учетом этих условий документы разделялись по рубрикам. Данный метод очень затратный в плане человеко-часов. В начале 90-е метод был улучшен применением машинного обучения. Модель обучалась на ранее размеченной коллекции документов и на ее основе рубрицировала новые документы. Методы, с использованием машинного обучения и баз знаний, давали лучшие результаты чем просто методы на основе баз знаний [7, с. 109-129].

Сегодня существуют различные подходы к решению задачи автоматической рубрикации текстовых документов: методы иерархической рубрикации; методы, основанные на базах знаний и методы, основанные на машинном обучении

Методы иерархической рубрикации. А. Сан в статье [8, с. 521-528] предлагает метод иерархический рубрикации, основанный на дереве рубрик, которое анализируется сверху вниз. Дерево рубрик - это структура рубрик, организованная в виде дерева. Каждая рубрика может быть присвоена одной родительской рубрике, а документы могут быть при-

своены как листьям деревьев (то есть самым глубоким по иерархии рубрикам), так и внутренним вершинам (это означает, что документ принадлежит рубрике, соответствующей это вершине и всем рубрикам, которые расположены ниже данной вершине по иерархии).

Для каждой рубрики строится бинарный «локальный» рубрикатор, который определяет принадлежит ли документ данной рубрике или нет. Также строится рубрикатор по поддеревьям (англ. subtree-classifier), который определяет принадлежит ли документ поддереву текущей рубрики (то есть какой-либо из подрубрик) или нет. В результате для документа изначально определяется поддерево дерева иерархии, которому он принадлежит (на основе рубрикаторов по поддеревьям), а затем и сама рубрика (на основе локальных рубрикаторов для рубрик найденного поддерева).

В результате обучения рассматриваемых рубрикаторов, строится модель, способная рубрицировать новые документы. В качестве классификатора машинного обучения в рассматриваемом методе используется SVM. Метод иерархической рубрикации показывает 88,7% микроусредненной F-меры на коллекции новостных документов Reuters-21578 [8, с. 521-528].

Метод комбинированной иерархической рубрикации. В статье [2, с. 14] Васильев предлагает метод комбинированной иерархической рубрикации. Решающие правила для отнесения документов к рубрикам получаются путем комбинирования результатов работы нескольких базовых методов рубрикации. Всего метод разделяется на три уровня: уро-

вень базовых классификаторов, уровень комбинированных классификаторов, уровень иерархического классификатора.

На первом уровне для каждой рубрики строится бинарное решающее правило с помощью базовых методов: SVM.

LLSF, АйаВоой и логические правила на специальном языке и другие [2, с. 14]. Все предложенные методы основаны на обучении на размеченной коллекции документов, кроме метода логических правил (каждая рубрика задается экспертом в виде формулы специального вида). При этом производится подбор методов извлечения признаков, снижение размерности и оценивание параметров для каждого из базовых методов.

На втором уровне для каждой рубрики строится отдельный комбинированный классификатор на основе бинарных классификаторов первого уровня, построенных для данной рубрики.

В статье [2, с. 14] Васильев использует бэггинг: из базовых методов первого уровня выбирается метод, имеющий наибольшую F-меру на тестовых подмножествах валидаци-онного датасета.

На третьем уровне осуществляется построение иерархического классификатора, объединяющего результаты работы классификаторов второго уровня (например, при определении принадлежит ли текст к рубрике, определяется принадлежит ли он к родительской рубрике). Данный уровень применим для иерархической классификации документов и не используется для обычной рубрикации.

Рассмотренный метод комбинированной иерархической рубрикации показывает 97,0% микроусредненной F-меры на коллекции новостных документов Reuters-21578 (70% обученных рубрик) [2, с. 14]. Возможно значение F-меры уменьшиться, если обучить метод на всю коллекции.

Методы на основе баз знаний. Методы на основе баз знаний используют базу знаний для построения модели рубрикации текстовых документов, например, тезаурус или онтологию. На основе этой базы эксперты строят правила отнесения документов к рубрикам, например, в форме формул. Рассмотрим самые распространённые из этих методов.

Метод на основе тезауруса. М. Агеев и Н. Лукашевич [1, с. 25-40]. предложили метод рубрикации на основе тезауруса РуТез1. Тезаурус - это иерархическая сеть, состоящий из понятий, терминов и отношений между ними (например, синонимия, антонимия и др.). Изначально строится тематическое представление содержания документа, то есть для каждого понятия из тезауруса, встретившего в документе, определяется его вес для документа, который в свою очередь вычисляется на основе частоты встречаемости понятия из тезауруса в документе и оценки значимости понятия (зависит от того к какому тематическому узлу принадлежит понятие, тематический узел - это группа понятий из тезауруса, встречающихся в документе, и имеющие связи между собой в тезаурусе). Затем строится описание каждой рубрики коллекции понятиями тезауруса.

Алгоритм рубрицирования ищет в документе все понятия из тезауруса РуТез, затем определяется множество возможных рубрик (путем поиска найденных понятий в формулах, описывающих рубрики). Для каждой рубрики из полученного множества рассчитывается ее вес на основе весов по-

нятий и их расположения (рядом расположенные понятия из одного конъюнкта дают больший вес). В свою очередь вес понятия получается следующим образом. Сначала моделируется тематическое представление документа путем объединения близких по смыслу понятий в тематические узлы, каждый такой узел имеет центр (наиболее частотное понятие или понятие из заголовка). Полученные тематические узлы делятся на основные (соответствующие основной теме документа) и локальные (соответствующие только некому фрагменту). В зависимости от того какому тематическому узлу принадлежит понятие и как часто оно встречается в документе рассчитывается вес этого понятия. В результате документу присваиваются те, рубрики вес которых больше некоторого заданного порога.

Рассмотренный метод показывает высокие результаты на наборе данных РОМИП1 - 72,9% микроусреденной F-меры. Проблема рассмотренных методов, основанных на тезаурусе, заключается в том, что они требуют большого количества человека-часов для описания формулой каждой рубрики.

Метод на основе онтологии. М. Джэник [4, с. 268-275] предложил метод автоматической рубрикации текстовых документов, основанный на онтологии. Онтология - это формальное описание некоторой области знаний, сделанное с помощью концептуальной схемы, которая состоит из классов (в случае задачи рубрикации терминов или понятий), связей между ними и правил, принятых в этой области [3, с. 56-70]. В рассматриваемом методе в качестве источника для онтологии выбрана Википедия2. Метод построения онтологии представляет собой модифицированный подход, основанный на DBpedia3.

Данный метод рубрикации разделен на три этапа: создание семантического графа, поиск тематического доминирующего подграфа и рубрикацию на основе найденного подграфа.

Рассмотренный метод сравнивался с методом машинного обучения (Наивный Байес) на коллекции новостных документов CNN4 и на статьях Википедии. Результаты предложенного метода 80,77 % аккуратности (accuracy) против 94,21% Наивного Байеса на коллекции CNN, и соответственно 67,28% против 83,29% на статьях Википедии.

Основное преимущество рассмотренного метода в том, что для него не нужна размеченная коллекция текстовых документов, достаточно иметь только сами документы. Однако у данного метода есть недостатки: он показывает не самые лучшие результаты (работает хуже методов машинного обучения) и требует ручного отражения рубрик коллекции на рубрики онтологии, если происходит рубрикация не по рубрикам онтологии.

Методы на основе машинного обучения. Методы машинного обучения с учителем на основе размеченной коллекции текстовых документов создают модель, которая способна рубрицировать новые документы. В отличие от методов рубрикации на основе баз знаний, данные методы не требуют ручного написания формул для каждой рубрики или ручного отражения рубрик базы знаний в рубрики коллекции документов. Общая схема работы методов машинного обучения: извлечение признаков из документов, отбор наилуч-

1 http://romip.ru/

2 https://www.wikipedia.org/

3 http://wiki.dbpedia.org/

4 http://edition.cnn.com/

ших признаков и обучение выбранного классификатора на полученных признаках.

Методы извлечения признаков. Для того, чтобы классификатор мог рубрицировать документы, их необходимо представить в виде вещественного вектора признаков фиксированной длины. Это представление называется извлечением признаков. Но прежде чем извлекать признаки часто производят предварительную обработку документов. В общем случае она заключается в переводе всех букв документа в строчные, удалении стоп-слов (т.е. слов, которые не несут абсолютно никакой смысловой нагрузки: цифр, пунктуации, местоимений, предлогов, союзов и т.д.), стемминге (привидении слова к его основе) или лемматизации (привидении слова к лемме - его нормальной, словарной форме).

Выделяются следующие виды извлечения признаков: извлечение слов, кластеризация слов и извлечение фраз (и их кластеризация) [5, с. 212-217].

Извлечение слов. Это самый распространенный и эффективный метод извлечения признаков. Документ разбивается на отдельные слова (после предварительной обработки все слова текста разделены пробельными символами, поэтому это сделать легко). То есть документ представлен в виде списка слов, идущих друг за другом. Затем выделяются и упорядочиваются отдельные слова. Пусть M - общее количество извлеченных слов. Тогда в самом простом случае каждый документ представляется в виде бинарного вектора длины M, где 1 в i-ой компоненте означает, что соответствующее слово встречается в документе и 0 иначе. Модель, при которой из документа выделяют отдельные слова (юниграм-мы), называют «мешок слов» (англ. bag of words), потому что документ представляется как неупорядоченный набор отдельных слов [5, с. 212-217].

Кластеризация слов. Еще один метод извлечения признаков также связан с извлечением слов из документов, отличие в том, что вектор документа представляется другим способом. Все документы разбиваются на слова, на основе всей коллекции составляется словарь всех слов. Далее производится кластеризация (разделение на кластеры/классы) всех слов из словаря. Кластеризация может проводиться следующими способами (количество кластеров K является параметром):

1. на основе контекста слов.

Пусть словарь коллекции документов состоит из M упорядоченных слов, контекстом слова считаются слова на расстоянии k от него. Тогда каждое слово представимо в виде бинарного вектора длины M, где i-я компонента равна 1, если i-е слово из словаря входит в контекст рассматриваемого слова, и 0 иначе. Полученные вектора слов разделяются на K кластеров. В результате каждый документ представляется в виде бинарного вектора длины K, где соответствующая компонента равна 1, если в документе присутствует слово из соответствующего кластера, и 0 иначе [5, с. 212217].

2. на основе модели word2vec5.

Word2vec основывается на глубоком анализе данных, в результате которого каждое слово из коллекции документов представляется в виде вещественного вектора фиксированной длины. Если для вектора слова искать наиболее близкие по косинусу вектора, то это будут вектора близких по смыс-

лу или часто встречающихся вместе с рассматриваемым словом слов. Кластеризация и представление документов происходит также как и в предыдущем пункте, за исключением того, что кластеризуются вектора из модели word2vec [10, с. 9301-9308].

Фразы и кластеризация фраз. Данный подход полностью аналогичен рассмотренному выше методу извлечения слов, за исключением того, что из документа извлекаются не только слова, но N-граммы (последовательности подряд идущих слов длины N) или по-другому фразы. Иногда в задачах обработки текстовых документов к юниграммам добавляют биграммы (N = 2), триграммы (N = 3) и т.д. Извлеченные фразы также могут быть взвешены с помощью меры TF-IDF. Кластеризация фраз происходит точно таким же образом как и описанная выше кластеризация слов [6, с. 885-888].

В статье [5, с. 212-217] Льюис сравнивает рассмотренные методы извлечения признаков на коллекции новостных документов Reuters. Наилучшие результаты показывает метод извлечения слов.

Методы отбора признаков. Часто генерируются очень большие вектора признаков. Для задачи рубрикации, эффективность некоторых алгоритмов снижается при росте размерностей векторов, например, для нейронных сетей [7, с. 109-129]. Поэтому целесообразно сокращать размерности векторов признаков, выбирая наиболее важные, возможно немного теряя в точности. Методы понижающие размерности называются методами извлечения признаков. Существуют две разновидности методов отбора признаков: отбор фиксированного числа признаков, вне зависимости от общего количества признаков, и отбор некоторой доли признаков от общего числа.

Описание методов. Полученные после отбора вектора признаков подаются классификатору машинного обучения. В результате получается обученная модель, которая способна рубрицировать документы по рубрикам из тренировочных данных. Далее описываются основные методы машинного обучения, которые применяются для рубрицирования текстовых документов и показывают наилучшие результаты. Помимо рассматриваемых методов существуют методы на основе деревьев принятия решений, нейронных сетях, метода Роше, Наивного Байеса и другие, однако все они показывают результаты хуже [9, с. 69-90], чем рассматриваемые методы на основных тестовых коллекциях задачи рубрикации и поэтому не рассматриваются в данной работе.

Методы машинного обучения показывают результаты, схожие с методами на основе баз знаний [9, с. 69-90], но в то же время не требуют ручного построения правил или отображений рубрик.

Список литературы:

1. Агеев М. С., Добров Б. В., Лукашевич Н. В. Автоматическая рубрикация текстов: методы и проблемы //Учёные записки Казанского государственного университета. - 2008.

- Т. 150. - №. 4. - С. 25-40

2. Васильев В. Г. Комплексная технология автоматической классификации текстов//Компьютерная лингвистика и интеллектуальные технологии. М.: РГГУ. - 2008. - №. 7.

- С. 14.

5 https://code.google.com/archive/p/word2vec/

3. Лапшин В. А. Онтологии в компьютерных системах //М.: Научный мир. - 2010.

4. Janik M., Kochut K. J. Wikipedia in action: Ontological knowledge in text categorization //Semantic Computing, 2008 IEEE International Conference on. - IEEE, 2008. - P. 268-275.

5. Lewis D. D. Feature selection and feature extraction for text categorization //Proceedings of the workshop on Speech and Natural Language. - Association for Computational LinguiSics, 1992. - P. 212-217.

6. Li S., Li J., Songet T. A novel topic model for automatic term extraction // Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval / ACM. 2013. P. 885-888

7. Sebafliani F., "Text Categorization" // Text Mining and Its Applications, A. Zanasi, ed., 2005. - P. 109-129.

8. Sun A., Lim E. P. Hierarchical text classification and evaluation //Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on. - IEEE, 2001. - P. 521-528.

9. Yang Y. An evaluation of Satirical approaches to text categorization //Information retrieval. - 1999. - T. 1. - №. 1-2. -P. 69-90.

10. Yuang Y. et al. A New Study Based on Word2vec and Clufler for Document Categorization // Journal of Computational Information Syflems. - 2014. - T. 10. - №. 21. - P. 9301-9308.

i Надоели баннеры? Вы всегда можете отключить рекламу.