Научная статья на тему 'Классификация текстовых документов на основе технологии text Mining'

Классификация текстовых документов на основе технологии text Mining Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2000
305
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АНАЛИЗ ТЕКСТА / КЛАССИФИКАЦИЯ ДОКУМЕНТОВ / МОДЕЛЬ ВЕКТОРНОГО ПРОСТРАНСТВА / ТЕРМ-ДОКУМЕНТНАЯ МАТРИЦА / TF-IDF / НЕЙРОННАЯ СЕТЬ / TEXT MINING / DOCUMENTS CLASSIFICATION / VECTOR SPACE MODEL / TERM-DOCUMENT MATRIX / NEURAL NETWORK

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алексеев А.А., Катасёв А.С., Кириллов А.Е., Кирпичников А.П.

Данная работа посвящена решению проблемы документооборота Арбитражного суда Республики Татарстан. На основе технологии интеллектуального анализа текста происходит классификация судебных актов по определенным категориям. Классификация документов является одной из основных задач разрабатываемой системы поддержки принятия судебных решений в рамках данного научного проекта, что в дальнейшем позволит перейти от ручной обработки документов к автоматизированной.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алексеев А.А., Катасёв А.С., Кириллов А.Е., Кирпичников А.П.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Классификация текстовых документов на основе технологии text Mining»

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

УДК 004.891.2

А. А. Алексеев, А. С. Катасёв, А. Е. Кириллов, А. П. Кирпичников

КЛАССИФИКАЦИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ НА ОСНОВЕ ТЕХНОЛОГИИ TEXT MINING

Ключевые слова: анализ текста, классификация документов, модель векторного пространства, терм-документная матрица, TF-IDF, нейронная сеть.

Данная работа посвящена решению проблемы документооборота Арбитражного суда Республики Татарстан. На основе технологии интеллектуального анализа текста происходит классификация судебных актов по определенным категориям. Классификация документов является одной из основных задач разрабатываемой системы поддержки принятия судебных решений в рамках данного научного проекта, что в дальнейшем позволит перейти от ручной обработки документов к автоматизированной.

Keywords: text mining, documents classification, vector space model, term-document matrix, TF-IDF, neural network.

This work is devoted to solving the problem of documents workflow of the Tatarstan Republic Arbitration Court. The technology based text mining takes place classification of judicial acts by certain categories. Document classification is one of the main tasks of the developed system of judicial decisions support in the framework of the scientific project. That will further allow moving from manual to automated document processing.

В настоящее время во многих сферах человеческой деятельности применяются интеллектуальные информационные технологии, призванные повысить эффективность решения различного рода задач. Одной из таких технологий является Text Mining [19] -интеллектуальный анализ текстовой информации -алгоритмический процесс обнаружения не известных ранее знаний из текста, а также выявления основных понятий и взаимосвязей между ними. Как правило, процесс извлечения новых знаний из текстовой информации является нетривиальным и достаточно трудоемким [7].

Одной из задач интеллектуального анализа данных является задача классификации [8,10]. В частности, классификация текстовых документов - задача информационного поиска, которая заключается в определении одной из нескольких категорий для документа на основании его содержания. Процесс классификации текстов может быть осуществлен тремя разными способами: вручную, автоматически на основе заданного экспертом набора правил [1,12] и автоматически на основе методов машинного обучения [4,6]. В последнем случае набор правил принятия решений по классификации текстовых документов формируется автоматически на основе обучения классификатора на данных из обучающей выборки.

Данные для обучения представляют собой набор эталонных образов из всех классов текстовых документов. При анализе текстов на основе методов машинного обучения, таких как нейронная сеть, в обучающей выборке необходимо вручную назначить класс для каждого обучающего примера (документа). Назначение класса является более простой задачей по сравнению с экспертным формированием набора правил классификации [5]. При этом метка класса может формироваться во время функционирования системы. Так, например, в электронных почтовых клиентах имеется возможность указывать тип письма («спам» / «не спам»). Это позволяет сформировать обучающую

выборку для дальнейшего построения нейросетевого классификатора (спам-фильтра) [???]. Следовательно, классификация документов на основе методов машинного обучения представляет собой пример обучения с учителем (человеком), определяющим набор классов и формирующим обучающую выборку [18].

Согласно [2], большинство методов автоматической классификации текстов основаны на концепции «похожести» различных документов одного класса. Такие документы содержат в себе похожие слова и их сочетания.

Пусть множество анализируемых документов представлено в виде D={d1, ..., di ..., dn}, а множество категорий документов С={с1, ..., с„ ..., ст}. Тогда для каждой категории необходимо сформировать следующее множество признаков: Е(С) =иЕ(с,), где Е(сг)=^[, ..., и', ...Л>.

Полученный таким образом набор признаков называется словарем, состоящим из лексем, которые в свою очередь характеризуют соответствующий класс текстового документа.

Каждый из анализируемых текстовых документов имеет набор признаков, на основании которых его можно соотнести с некоторым классом ...,

^, ..., ty,>. Множество признаков всех документов должно совпадать с множеством признаков классов, т.е. Е (С) = Е (Б) = ).

Таким образом, решение о принадлежности текста di к категории сг принимается путем вычисления Е (^) п Е (сг). Задача существующих методов классификации состоит в выборе набора признаков и построении набора правил, на основании которых будет формироваться решение о принадлежности документа к определенному классу. Следовательно, задача классификации состоит в построении функции Е', близкой к Е, где Е -функция цели, аргументами которой являются значения с>, а на выхо-

де формируется результат принадлежности или непринадлежности документов dt к категории cr.

Множество исходных текстовых документов до начала процесса построения классификатора разбивается на два набора [16]:

- обучающее множество, на основе которого строится интеллектуальный классификатор;

- тестовое множество, на котором оценивается точность классификатора.

Анализ текстовых документов методами Text Mining выполняется в 5 шагов [2] (см. рис. 1):

1) Поиск информации. На этом шаге происходит определение документов, подготавливаемых для дальнейшей обработки и анализа. При небольшом количестве исходных документов пользователи информационной системы могут сами выбрать нужные документы для анализа. Если документов достаточно много, то желательно использовать алгоритмы автоматического выбора документов.

2) Предобработка текстов. Происходит преобразование текста документа в форму, удобную для применения алгоритмов Text Mining. На выходе данного этапа формируется текст без лишних слов, не влияющих на результат анализа.

3) Извлечение требуемой информации. Данный этап предназначен для формирования набора основных понятий (терминов) обрабатываемого текста для их дальнейшего анализа.

4) Применение методов Text Mining. Это главный шаг анализа, на котором формируются новые знания и скрытые в тексте закономерности.

5) Анализ и интерпретация полученных результатов. Представление результатов анализа в форме, удобной для пользователя, например, на естественном языке или в графическом виде.

Рис. 1 - Этапы анализа текстовых документов методами Text Mining

Рассмотрим приемы, используемые на этапе предварительной обработки. На данном этапе одним из основных приемов является токенизация текста, т.е. разбиение текстового документа на отдельные абзацы (токенизация по абзацам), отдельные предложения (токенизация по предложениям), отдельные слова (токенизация по словам). Результаты данного разбиения называются токенами.

После токенизации, как правило, следует фильтрация stop-слов, которые не содержат в себе никакого смысла, например, союзы, предлоги, артикли, междометия, частицы и т.п. Список stop-слов со-

ставляется заранее в зависимости от языка обрабатываемого текста. В данном приеме предварительной обработки stop-слова удаляются из текста.

Следующим шагом является стэмминг или лем-матизация, где происходит нормализация слов. Все слова в текстовом документе приводятся к нормальной форме, в частности, в единственном числе, именительном падеже, без особенностей устной речи. Недостатком в данном приеме может являться нарушение семантики предложений, словосочетаний, поэтому необходимо так же, как и в токенизации, учитывать язык текста. Наиболее известным алгоритмом нормализации слов русского языка является Snowball, основная идея которого заключается в нахождении однокоренных слов и отсечения у них окончаний, суффиксов и т.п.

N-граммы, как альтернативный вариант удаления stop-слов, представляет собой часть текстовой строки, содержащей N символов. Например, слово «data» можно представить в виде 3-грамм «_da», «dat», «ata», «ta_» или 4-грамм «_dat», «data», «ata_». При этом, N-граммы имеют одно существенное преимущество по сравнению со стэммингом или удалением stop-слов: они менее чувствительны к грамматическим ошибкам в тексте, не требуют лингвистического представления слов и более независимы от языка анализируемых текстовых документов. Однако N-граммы не позволяют уменьшить число неинформативных слов в документе.

Преобразование регистра слов. На данном этапе производится преобразование символов слов к одному регистру (верхнему или нижнему). Примером могут служить слова «text», «Text», «TEXT», приводимые к нижнему регистру «text».

Для представления текста в форме, удобной для дальнейшего анализа, используется модель векторного пространства VSM (Vector Space Model). Векторная модель - представление набора документов векторами из одного общего для всего набора многомерного пространства [21].

В модели векторного пространства часто используется терм-документная матрица или матрица термин-документ (term-document matrix - TDM), представляющая собой математическую матрицу, где каждая строка соответствует термину, а столбец - документу в наборе [22]. На пересечении строк и столбцов хранятся значения, которые указывают значимость (вес) термина в тексте.

Выделяют следующие способы вычисления функций взвешивания:

- бинарная частота (1, когда термин встречается в тексте, и 0, когда не встречается);

- относительная частота TF (term frequency), определяемая по следующей формуле:

term_ number document_ length где terms number - количество раз встречаемого слова в документе, document length - длина данного документа (количество слов в документе);

- мера TF-IDF (IDF - inverse document frequency). Численное значение IDF для каждого термина определяется по следующей формуле:

TF --

, documents number

IDF = log-=-

documents _ with _ term _ number

где documentsnumber - общее количество документов, documents_with_term_number - количество документов, в которых содержится термин.

Для терминов, встречающихся в большом числе документов, IDF стремится к нулю (если термин содержится во всех документах, IDF равен нулю). Это позволяет выделить наиболее значимые термины. Значение коэффициента TF-IDF определяется, как произведение меры TF на меру IDF. Причем, мера TF выступает в качестве повышающего сомножителя, а мера IDF - в качестве понижающего. В большинстве задач информационного поиска это позволяет заметно улучшить качество получаемой выборки [20].

Таким образом, выделяя в наборе текстовых документов численные значения TF*IDF для наиболее значимых терминов в рамках заданных категорий документов, можно сформировать обучающую выборку для построения классификатора, например на базе искусственной нейронной сети [3,9,11].

В данной работе для апробации технологии Text Mining использован набор текстовых документов из Арбитражного суда Республики Татарстан [13-15]. В качестве среды моделирования применялась аналитическая платформа Deductor Studio Academic, на базе которой была создана и обучена нейронная сеть со следующими параметрами:

- 33 нейрона во входном слое, 1 скрытый слой с 4-мя нейронами, 4 выходных нейрона;

- активационная функция: сигмоида.

Для оценки качества классификационных моделей применяется матрица классификации. Как известно, задача классификации заключается в отнесении предъявленного объекта к одному из заранее определенных классов на основе набора признаков данного объекта. Таким образом, входные данные для классификационной модели представляют собой признаки (атрибуты) классифицируемых объектов, а на выходе классификационной модели должна формироваться метка класса, к которому относится объект с данным набором признаков. При этом она должна быть категориального вида.

Для каждого примера классификации модель формирует на выходе метку класса, к которой относится объект с набором признаков, указанных в примере. Если метка класса, сформированная моделью, совпадает с целевой меткой класса из примера, то такой пример (объект) является правильно распознанным, в противном случае - неправильно распознанным. Соотношение числа правильно и неправильно распознанных объектов служит критерием качества модели. Чем больше объектов выборки было распознано правильно, тем лучше модель.

После обработки всей выборки будет получено некоторое количество правильно и неправильно распознанных объектов, при этом известно, к какому классу будет ошибочно отнесен тот или иной пример. Тогда можно будет построить таблицу, каждый столбец и строка которой будут соответствовать одному из классов («antimonopoliya», «pristavi», «licensiya», «postavka»). При этом заголовок строки

указывает на фактическую принадлежность объекта к определенному классу, а заголовок столбца - на то, как объект был распознан. На пересечении каждых строки и столбца можно указать количество объектов, которые относятся к классам, указанным в строках, но при этом были распознаны как класс, указанный в столбце [17].

В таблице 1 показан пример матрицы классификации по методу нейронных сетей для выборки TF-IDF класса «апйтошроИуа».

Таблица 1 - Матрица классификации для нейронной сети по классу «antimonopoHya» (обучающие данные)

Фактически Классифицировано

False True Итого

False 127 0 127

True 0 28 28

Итого 127 28 155

Для оценки точности работы нейросетевого классификатора сформирована тестовая выборка из 42 судебных актов: 9 документов по первой категории, 12 по второй, 11 по третьей, 10 по четвертой. Как и в обучающей выборке, акты были представлены в матрице термин-документ по мерам TF-IDF. Нейронная сеть показала результат безошибочной классификации.

Для более детальной проверки внесем в тестовые выборки преднамеренные ошибки и подадим данные выборки на вход сети. В TF-IDF выборке один документ из «апйтопороИуа» был отмечен как документ класса «postavka», один судебный акт из «postavka» отмечен как «апйтошроИуа». Результаты классификации представлены в таблице 2.

Таблица 2 - Матрица классификации для нейронной сети (тестовые данные с ошибками)

Фактически Классифицировано

False True Итого

False 32 1 33

True 1 8 9

Итого 33 9 42

Таким образом, нейронная сеть распознала все внесенные ошибки в тестовых выборках. Полученные в настоящей работе результаты будут использованы для построения интеллектуальной системы анализа и классификации судебных документов, что позволит достичь следующих требований:

- исключить процесс ручного распределения дел по категориям судебных споров;

- снизить количество ошибок определения категорий споров;

- улучшить контроль рассмотрения дел применительно к конкретным категориям споров, исходя из установленных для них сроков;

- осуществить поддержку принятия решений путем информирования о существенных обстоятельст-

вах, подлежащих установлению для конкретной категории спора.

Планируется внедрение и использование разрабатываемой системы в деятельности Арбитражного суда Республики Татарстан.

Литература

1. Абдулхаков А.Р., Катасёв А.С. Кластерный метод редукции нечетких правил в базах знаний интеллектуальных систем // XVIII Международная конференция по мягким вычислениям и измерениям. -СПб, 2015. - С. 25-28.

2. Барсегян А.А., Куприянов М.С., Холод И.И., Тесс М.Д., Елизаров С.И. Анализ данных и процессов: учеб. пособие. - 3-е изд., перераб. и доп. - СПб.: БХВ-Петербург, 2009. - 512 с.: ил.

3. Глова В.И., Катасев А.С., Корнилов Г.С. Кластеризация значений входных параметров нечеткой нейронной сети // Вестник Казанского государственного технического университета им. А.Н. Туполева. - 2009. - № 1. - С. 74-78.

4. Катасёв А.С. Модели и методы формирования нечетких правил в интеллектуальных системах диагностики состояния сложных объектов // Диссертация на соискание ученой степени доктора технических наук / Казанский национальный исследовательский технологический университет. Казань, 2014. - 256 с.

5. Катасёв А.С., Абдулхаков А.Р. Оптимизация баз знаний экспертных систем в сфере потребительского кредитования // Проблемы анализа и моделирования региональных социально-экономических процессов: IV Международная научно-практич. конференция. - Казань, 2013. - С. 110113.

6. Катасёв А.С., Ахатова Ч.Ф. Гибридная нейронечеткая модель интеллектуального анализа данных для формирования баз знаний мягких экспертных диагностических систем // Наука и образование: электронное научно-техническое издание. - 2012. - № 12. - С. 34.

7. Катасёв А.С., Ахатова Ч.Ф. Симбиоз методов искусственного интеллекта при обнаружении нелинейных зависимостей в базах данных // Информатика, вычислительная техника и инженерное образование, №2, 2010.

8. Катасёв А.С., Катасёва Д.В. Интеллектуальный анализ временных рядов для формирования нечетких правил диагностики состояния водоводов в нефтяной отрасли // Международная конференция по мягким вычислениям и измерениям. - 2014. - Т. 1. - С. 85-88.

9. Катасёв А.С., Катасёва Д.В. Разработка нейросетевой системы классификации электронных почтовых сообщений // Вестник Казанского государственного энергетического университета. - 2015. - № 1(25). - С. 68-78.

10. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейросетевая технология классификации электронных почтовых сообщений // Вестник технологического университета. - 2015. - Т. 18, № 5. - С. 180-183.

11. Катасёв А.С., Катасёва Д.В., Кирпичников А.П. Нейро-сетевое прогнозирование инцидентов информационной безопасности предприятия // Вестник технологического университета. - 2015. - Т. 18. - № 9. - С. 215-218.

12. Катасёв А.С., Корнилов Г.С., Аникин И.В. Адаптивная нейронечеткая модель формирования баз знаний экспертных систем // Международная конференция по мягким вычислениям и измерениям. - 2009. - Т. 1. - С. 219-222.

13. Катасёва Д.В. Интеллектуальный анализ временных рядов для прогнозирования нагрузок в сфере экономического правосудия // VIII Международная научно-практическая конференция «Логистика и экономика ре-сурсоэнергосбережения в про-мышленности» (ЛЭРЭП-8-2014). - 2014. - С. 311-313.

14. Катасёва Д.В. Методы анализа и прогнозирования временных рядов // Международная молодежная научная конференция «XXII Туполевские чтения (школа молодых ученых)» - 2015. - С. 115-120.

15. Катасёва Д.В. Моделирование временных рядов в сфере экономического правосудия // Логистика и экономика ре-сурсоэнергосбережения в промышленности. IX Международная научно-практическая конференция. - 2015. - С. 292-295.

16. Ландэ Д.В., Снарский А.А. Интернетика: Навигация в сложных сетях: модели и алгоритмы. М.: ЛИБРОКОМ, 2009. - 264 с.

17. Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям: учебное пособие. - 2-е изд., испр. - СПб.: Питер, 2013. - 704 с.: ил.

18. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze. An Introduction to Information Retrieval. Cambridge University Press New York, NY, USA ©2008. - 496 p.

19. Fayyad U., Piatetsky-Shapiro G., Smyth P. From Data Mining to Knowledge Discovery: an Overview // Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996. - pp. 1-34.

20. Ingo Feinerer, Kurt Hornik, David Meyer. Text Mining Infrastructure in R. Journal of Statistical Software. - V. 25, Issue 5, March 2008. - 54 p.

21. Jiawei Han, Micheline Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann; 2 edition, January 13, 2006. - 800 p.

22. Yanchang Zhao. R and Data Mining: Examples and Case Studies. Elsevier, 2012. - 154 p.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

© А. А. Алексеев - аспирант кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: alex.alexeev.jr@gmail.com; А. С. Катасёв - к-т. техн. наук, доц. кафедры систем информационной безопасности КНИТУ-КАИ, e-mail: kat_726@mail.ru; А. Е. Кириллов - судья Арбитражного суда РТ, e-mail: buky2000@yandex.ru; А. П. Кирпичников - д-р. физ.-мат. наук, профессор, зав. кафедрой интеллектуальных систем и управления информационными ресурсами КНИТУ, kirpichnikov@kstu.ru.

© A. A. Alexeev - Postgraduate Student the Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: alex.alexeev.jr@gmail.com; A. S. Katasev - PhD, Associate Professor of Information Security Systems Department, KNRTU named after A.N. Tupolev, e-mail: kat_726@mail.ru; A. E. Kirillov - judge of the Arbitration court of Tatarstan Republic, e-mail: buky2000@yandex.ru; А. P. Kirpichnikov - Dr. Sci, Prof, Head of Intelligent Systems & Information Systems Control Department, KNRTU, e-mail: kirpichnikov@kstu.ru.

i Надоели баннеры? Вы всегда можете отключить рекламу.