Выбор алгоритмов машинного обучения для классификации текстовых документов

Дементьев Владислав Евгеньевич; Киреев Сергей Хаирбекович

ИНФОРМАЦИОННЫЕ ПРОЦЕССЫ И ТЕХНОЛОГИИ. СБОР, ХРАНЕНИЕ И ОБРАБОТКА ИНФОРМАЦИИ

УДК 004.85 Б01 10.24412/2782-2141-2022-2-22-52

Выбор алгоритмов машинного обучения для классификации текстовых документов

Дементьев В.Е., Киреев С.Х.

Аннотация. С увеличением доступности электронных документов и быстрым ростом количества систем обмена данными задача автоматической категоризации документов стала ключевым методом организации поиска информации и знаний. Правильная классификация электронных документов, онлайн-новостей, блогов, электронных писем и цифровых библиотек требует интеллектуального анализа текста, применения машинного обучения и методов обработки естественного языка для получения значимых знаний. В статье ставится задача анализа современных используемых важных методов и методологий, которые используются при классификации текстовых документов. Целью работы является классификация известных проблем, которые необходимо решить при представлении текста с помощью методов машинного обучения. К результатам работы относятся сравнительные выводы по методам классификации документов и интеллектуальному анализу текста с акцентом на существующую литературу, а также приведены некоторые возможности классификации неструктурированных данных и обнаружения знаний. Практическая значимость работы заключается в итоговых рекомендациях по применению подходов на основе Хи-квадрат, отбора и извлечения признаков, автоматической классификации документов, алгоритмов машины опорных векторов (8УЫ), байесовского класификатора и к-ближайших соседей. Показано, что выявление признаков, отражающих семантическое содержание, является одним из важных направлений исследований. БУМ-классификатор признан одним из наиболее эффективных методов классификации текстов при сравнении управляемых алгоритмов машинного обучения.

Ключевые слова: интеллектуальный анализ текста, веб-анализ, классификация документов, поиск информации, машина опорных векторов, наивныйй байесовский классификатор, к-ближайших соседей, выбор признаков, извлечение признаков, онтологии.

Введение

Исследования интеллектуального анализа текста приобретают все большее значение в последнее время из-за увеличения количества электронных документов из различных источников. К ресурсам неструктурированной и полуструктурированной информации относятся системы обмена данными (в т. ч. системы связи общего пользования (ССОП), правительственные электронные хранилища, статьи, базы данных, чаты, электронные библиотеки, онлайн-форумы, электронная почта и хранилища блогов. Поэтому правильная классификация и получение знаний из этих ресурсов является важной областью исследований.

Обработка естественного языка (ЫЬР), интеллектуальный анализ данных и методы машинного обучения целесообразно использовать совместно для автоматической классификации и обнаружения шаблонов (паттернов) в электронных документах. Основная цель интеллектуального анализа текста состоит в том, чтобы обеспечить автоматическое быстрое извлечение информации из текстовых ресурсов и реализацию таких служб, как поиск, классификация (контролируемая, неконтролируемая и полууправляемая) и обобщение. На настоящий момент существует несколько подходов к предобработке документов по их аннотированию, представлению и классификации. Рассматриваемая задача состоит из нескольких этапов: корректная аннотация к документам, надлежащее представление документов, уменьшение размерности для решения алгоритмических проблем [1] и соответствующая функция классификатора для получения хорошего обобщения и предотвращения некорректной подгонки. Извлечение, интеграция и классификация электронных документов из различных источников и получение знаний из этих документов важны для исследовательских сообществ.

На настоящий момент ССОП являетюся основным источником текстовых документов, объем доступных текстовых данных постоянно увеличивается, и примерно 80 % информации хранится в неструктурированном текстовом формате [2], в виде отчетов, электронной почты, просмотров и новостей и т. д. В [3] показано, что примерно 90 % мировых данных хранятся в неструктурированных форматах, поэтому информационные бизнес-процессы требуют, чтобы мы перешли от простого поиска документов к обнаружению знаний. На настоящий момент остро стоит проблема необходимости автоматического извлечения полезных знаний из текстовых данных и формализации данной области человеческого анализа [4]. Кроме того существуют смежные области, которые не относятся к области накопления текстовой информации, но в той или иной степени используют результаты и наработки в плане семантического, контекстного или других видов анализа символов [5-8]. В данном случае можно упомянуть формализованные сообщения, отправления или содержание передаваемого траффика. Для этих областей разработки поисковых систем на основе символьного или других видов анализа являются высокоактуальными и востребованными.

Тренд, основанный на содержании онлайн-новостных статей, настроений и событий, является новой темой для исследований в сообществе интеллектуального анализа данных и текстового анализа [9]. С этой целью современные подходы к классификации текстов представлены в [10], в котором обсуждались три проблемы: представление документов, построение классификатора и оценка классификатора. Таким образом, построение структуры данных, которая может представлять документы, и построение классификатора, который можно использовать для определения метки класса документа с высокой точностью, являются ключевыми моментами в классификации текста.

Одной из целей исследования является обзор доступных и известных работ, поэтому предпринята попытка собрать все, что известно о классификации и представлении документов. В статье сделана попытка обзора известных синтаксических и семантических вопросов, онтологии предметной области, проблемы токенизации, а также сделан акцент на различных методах машинного обучения для классификации текста с использованием существующей литературы. В смежных областях исследований интеллектуального анализа текста существует достаточно подходов, в частности:

- методы извлечения информации (ТЕ) направлены на извлечение конкретной информации из текстовых документов. Это первый подход, предполагающий, что интеллектуальный анализ текста по существу соответствует извлечению информации;

- информационный поиск (ИР) - это поиск документов, содержащих ответы на вопросы. Для достижения этой цели используются статистические показатели и методы для автоматической обработки текстовых данных и сравнения с заданным вопросом. Поиск информации в более широком смысле имеет дело со всем спектром обработки информации, от поиска данных до поиска знаний [11];

- обработка естественного языка (ЫЬР) предназначена для достижения лучшего понимания естественного языка с помощью компьютеров и семантического представления документов для улучшения процесса классификации и поиска информации. Семантический анализ - это процесс лингвистического разбора предложений и абзацев на ключевые понятия, глаголы и имена собственные. Используя технологию, основанную на статистике, эти слова затем сравниваются на основе таксономии;

- онтология - это явное и абстрактное модельное представление уже определенных конечных наборов терминов и понятий, участвующих в управлении знаниями, разработке знаний и интеллектуальной информационной интеграции [12].

В этой статье осуществлен системный обзор литературы и выполнены стандартные шаги для поиска, отбора, извлечения данных и составления отчетов. Прежде всего, выполнен поиск соответствующих документов, презентаций, исследовательских отчетов и программных документов, которые в целом касались классификации документов или интеллектуального

анализа текста. Определены соответствующие электронные базы данных и веб-сайты. Потенциально релевантные статьи определены с использованием электронных баз данных и веб-сайтов, таких как IEEE Explore, Springer Linker, Science Direct, ACM Portal и поисковая система Google. Для наилучшего и последовательного поиска была принята стратегия систематического поиска. Правильные ключевые слова, запросы и фразы были получены из желаемого исследовательского вопроса. Эти ключевые слова распределялись по категориям, а связанные ключевые слова упорядочивались. Также были использованы некоторые возможности электронных библиотек, такие как сортировка по годам и т. д. Ключевые слова для поиска уточнялись, с целью определения наиболее релевантных. Для эффективного поиска, использовался логический вывод, например: Классификация, текст ИЛИ рекомендации. Использовалось сочетание таких слов, как Интеллектуальный анализ текста, Анализ тенденций и онтологий, Классификация документов и анализ субъективности и т. д.

Каждый результат поиска проверялся и оценивался, чтобы определить релевантность включения и исключения в соответствии с критериями, по которым составили две категории статей, например, в 2000 году, или до 2000 года и после 2000 года. Были использованы следующие исследования: Результаты написаны на английском языке, Исследование проведено после 1980 года, Опубликованные и/или неопубликованные исследования, сосредоточенные на классификации документов, машинном обучении и обработке естественного языка (NLP). Для поиска доказательств и проверки качества статей, проведено углубленное изучение результатов, полученных в ходе исследования. В будущих работах авторы постараются сделать этот шаг более акцентированным и эффективным. Кроме того, составлены некоторые отчеты с использованием таблиц и графиков на основе существующих исследований.

Основная часть статьи построена следующим образом. Поочередно представлены обзор подходов к представлению документов, модели классификации документов, новые и гибридные методы, сравнительное изучение различных методов, основные обсуждения и выводы.

Представление документов

Представление документов является одним из методов предварительной обработки, который используется для уменьшения сложности документов и упрощения их обработки, документ должен быть преобразован из полнотекстовой версии в векторное представление документа. Представление текста является важным аспектом в классификации документов и обозначает отображение документа в компактную форму его содержимого. Текстовый документ обычно представляется в виде вектора весов терминов (признаков слов) из набора терминов (словаря), где каждый термин встречается по крайней мере один раз в определенном минимальном количестве документов. Основной характеристикой проблемы классификации текста является чрезвычайно высокая размерность текстовых данных. Количество потенциальных функций часто превышает количество обучающих документов. Представление документа состоит в том, что он составлен из совместного набора терминов, имеющих различные закономерности появления. Классификация текста является важным компонентом во многих задачах управления информацией, однако в связи со взрывным ростом веб-данных крайне желательны алгоритмы, которые могут повысить эффективность классификации при сохранении точности [13].

Предварительная обработка документов или уменьшение размерности (DR) позволяет эффективно обрабатывать и представлять данные. В современной литературе много дискуссий о предварительной обработке и DR, и было предложено много моделей и методов. DR - очень важный шаг в классификации текста, поскольку нерелевантные и избыточные функции часто снижают производительность алгоритмов классификации как по скорости, так и по точности классификации, а также повышают их тенденцию к уменьшению переобучения.

Методы DR можно разделить на подходы к извлечению признаков (FE) [14] и выбору признаков (FS), что будет представлено ниже.

A. Извлечение признаков

Процесс извлечения признаков (или предварительной обработки) заключается в четком определении границ каждой языковой структуры и устранении зависящих от языка факторов, токенизации, удаления стоп-слов и стемминга, насколько это возможно [15]. FE -это первый этап предварительной обработки, который используется для представления текстовых документов в понятном формате word. Таким образом, удаление стоп-слов и основных слов является задачами предварительной обработки [16]. Документы в текстовой классификации представлены большим количеством признаков и большинство из них могут быть неуместными или зашумленными [17]. DR - это исключение большого количества ключевых слов, предпочтительно на основе статистического процесса, для создания вектора с низкой размерностью [18]. В последнее время большое внимание уделяется методам DR, поскольку эффективное уменьшение размера делает задачу обучения более эффективной и экономит больше места для хранения [19]. Обычно подход, используемый для извлечения признаков (рис. 1), выглядит следующим образом:

- токенизация: документ обрабатывают как строку, а затем разбивают на список токенов;

- удаление стоп-слов: Стоп-слова, такие как «а», «и», «не» ... и т. д., Являются общими, поэтому второстепенные слова следует удалить;

- морфологический поиск: Применение базового алгоритма, который преобразует другую словоформу в аналогичную каноническую форму. Этот шаг представляет собой процесс объединения токенов с их корневой формой, например, соединение для соединения, вычисление для вычисления и т. д.

Рис. 1. Процесс классификации документов В. Выбор признаков

После извлечения признаков (ЕЕ), важным шагом в предварительной обработке и классификации текста является выбор признаков (Е5) для построения векторного пространства, что повышает масштабируемость, эффективность и точность текстового классификатора. В общем, хороший метод выбора признаков должен учитывать характеристики предметной области и алгоритма [20]. Основная идея Е8 заключается в выборе подмножества функций из исходных документов. Е8 выполняется путем сохранения слов с наивысшей ценностью в соответствии с заранее определенной метрикой важности слова [17]. Выбранные признаки сохраняют первоначальный физический смысл и обеспечивают лучшее понимание данных и процесса обучения [14]. Для классификации текста основной проблемой является высокая размерность пространства признаков. Почти каждая текстовая область имеет большое количество признаков, большинство из которых не являются релевантными и полезными для задачи классификации текста, и даже некоторые

шумовые признаки могут резко снизить точность классификации [21]. Следовательно, FS обычно используется в классификации текста для уменьшения размерности пространства признаков и повышения эффективности и точности классификаторов.

В машинном обучении существует в основном два типа методов выбора признаков: оболочки и фильтры. Оболочки используют точность классификации некоторых алгоритмов обучения в качестве своей функции оценки. Поскольку оболочкам приходится обучать классификатор для каждого оцениваемого подмножества признаков, они обычно занимают гораздо больше времени, особенно при большом количестве признаков. Таким образом, оболочки, как правило, не подходят для классификации текста. В отличие от оболочек, фильтры выполняют FS, независимо от алгоритма обучения, который будет использовать выбранные признаки. Чтобы оценить объект, фильтры используют метрику оценки, которая измеряет способность признаков дифференцировать каждый класс [22]. При классификации текста текстовый документ может частично соответствовать многим категориям. Необходимо найти наиболее подходящую категорию для текстового документа. На практике применяется подход, при котором термин (слово) частота/обратная частота документа (TF-IDF) обычно используется для взвешивания каждого слова в текстовом документе в соответствии с тем, насколько оно уникально. Другими словами, подход TF-IDF учитывает релевантность слов, текстовых документов и конкретных категорий.

Некоторые из литературных источников показывают, что ведутся работы по эффективному отбору признаков для оптимизации процесса классификации. Новый метод выбора признаков представлен в [22], в котором степени отклонения от распределения меток используются для выбора информативных признаков. Для улучшения категоризации текста используется алгоритм выбора признаков, основанный на оптимизации муравьиной колонии, который представлен в [23]. Также в [24] авторы ввели новый метод взвешивания, основанный на статистической оценке важности проблемы категоризации слов. В [25] предложен новый метод масштабирования, называемый взвешиванием признаков, зависящих от класса (CDFW), с использованием наивного байесовского классификатора (N8).

В процессе работы над статьей было изучено множество показателей оценки признаков, среди которых следует отметить информационный прирост (Ю), частоту терминов, хи-квадрат, ожидаемую перекрестную энтропию, отношение шансов, вес доказательств текста, взаимную информацию, индекс Джини, частоту терминов и частоту документов (TF/DF) (табл. 1) и т. д. Таким образом, качественная метрика выбора признаков должна учитывать проблемную область и характеристики алгоритма.

Авторы в [26] сосредоточились на методах представления документов и демонстрируют, что выбор представления документов оказывает глубокое влияние на качество классификатора. Они использовали текстовый классификатор на основе центроида, который представляет собой простую и надежную схему классификации текста, и сравнили четыре различных типа представлений документов: #-граммы, отдельные термины, фразы и КОЯ, который представляет собой логическое представление документов. #-граммы представляют собой представление на основе строк без какой-либо лингвистической обработки. Подход с одним термином основан на словах с минимальной лингвистической обработкой. Фразеологический подход основан на лингвистически сформированных фразах и отдельных словах. КОЯ основан на лингвистической обработке и представлении документов в виде набора логических предикатов. В [27] авторы представляют значительно более эффективную индексацию и классификацию больших хранилищ документов, например, для поддержки поиска информации по всем корпоративным файловым серверам с частыми обновлениями файлов.

С. Представление документов на основе семантики и онтологии

Этот раздел посвящен методам семантики, онтологии, языку и связанным с ними вопросам классификации документов. Согласно [28], статистических методов недостаточно для интеллектуального анализа текста. Лучшая классификация будет выполнена при наблюдении

рассматриваемой семантики. Онтология - это модель данных, представляющая набор понятий в пределах предметной области и взаимосвязи между этими понятиями. Она используется для рассуждений об объектах внутри этой области. Онтология - это явное и абстрактное модельное представление уже определенных конечных наборов терминов и понятий, участвующих в управлении знаниями, разработке знаний и интеллектуальной информационной интеграции [12]. Характеристики объектов и сущностей (индивидов, экземпляров) являются реальными, а ассоциация (отношения) с атрибутом используется для названий двух понятий или сущностей. Онтология делится на три категории: Онтология естественного языка (NLO), Онтология предметной области (DO) и Экземпляр онтологии (OI) [29]. NLO - это связь между общими лексическими лемами утверждений, основанных на естественном языке, DO - это знание конкретной предметной области, а OI - это автоматически сгенерированная веб-страница, которая ведет себя как объект. Язык веб-онтологий (OWL) - это язык поддержки онтологий, производный от американского языка разметки агентов DAPRA (DAML) и основанный на онтологии, выводе и европейском языке обмена онтологиями (OIL) [30]. OWL утверждает, что является расширением в рамках описания ресурсов (RDF) [31]. В выражении логических утверждений, поскольку он не только описывает классы и свойства, но также предоставляет понятия пространства имен, импорта, отношения мощности между классами и перечисляемыми классами. Онтология была предложена для обработки семантических неоднородности при извлечении информации из различных текстовых источников, таких как Интернет [32].

Таблица 1 - Методы выбора признаков

Коэффициент усиления (GR) 2 2 Р(t,c)log-P^ GR(t c ) _ с« tefcP ) P (C) (tk 'c 4 _ - 2_P ( с ) log P ( с ) cejc 1

Информационный выигрыш (IG) K K IG(w) _ -2P(Cj)logP(Cj) + P(w)^ZP(Cj W)logP(Cj \w) + K _ _ + 2 P(Cj w) log P(Cj w) _ H (samples) - H (samples w) j _i

Хи-квадрат 2 И *( #(Cj. f ) # C. J)-# (Cj./)■# (^ f ))2

2 ' 'Cj ( #(Cj, f ) + #(Cj, f ))x( # (Cj, f ) + #(Cj, f ))x((Cj, f ) + # (Cj, f ))x(# (Cj, f ) + # (Cj, f ))

Коэффициент взаимосвязи информации (CMI) CMI (c|s )_ h (C ) - h (c|äi, s2,...„ sn )

Частота появления документов (DF) DF ( tk )_ P(tk )

Частость (TF) tf j , d] ) _ f7 j max k freqK

Обратная частота документа (IDF) kl _ log# dd ,)

Период s ( t )_ P (t e yt e x )

Взвешенный коэффициент (WR) WR(w) _ P(w) x OR(w)

Коэффициент отклонения (OR) P(j\c>)(l-P(f> -Cj )) OR(f>, Cj ) _ log \ \- (1 - P ( fC ))(P ( f - Cj ))

Алгоритмы машинного обучения автоматически создают классификатор, изучая характеристики категорий из набора классифицированных документов, а затем используют классификатор для классификации документов по предопределенным категориям. Однако у этих методов машинного обучения есть некоторые недостатки:

- для обучения классификатора необходимо собрать большое количество обучающих текстовых терминов, процесс очень трудоемкий. Если предопределенные категории изменились, необходимо собирать новый набор терминов обучающего текста;

- большинство из этих традиционных методов не учитывают семантические отношения между словами, поэтому трудно повысить точность этих методов классификации [10];

- проблема переводимости с одного естественного языка на другой естественный язык.

Эти типы недостаков указывают на то, что системы машинного обучения

сталкиваются с проблемами. Такие вопросы обсуждаются в литературе, некоторые из них могут быть решены, если у нас есть машиночитаемая онтология [33], и именно поэтому это важная потенциальная область для исследований.

В процессе интеллектуального анализа текста онтология может использоваться для предоставления экспертных, базовых знаний о предметной области. Некоторые исследования показывают важность онтологии домена в процессе классификации текста, в [32] представлена автоматическая классификация входящих новостей с использованием иерархической онтологии новостей, основанной на этой классификации, с одной стороны, и на профилях пользователей, с другой стороны, механизм персонализации системы способен обеспечить персонализированный документ для каждого пользователя на его мобильном устройстве для чтения. Очередной метод автоматической классификации и ранжирования на основе онтологий представлен в [34], где веб-документы характеризуются набором взвешенных терминов, категории которых представлены онтологией. В [35] авторы представили подход к интеллектуальному анализу онтологии из естественного языка, в котором они рассмотрели специфичный для предметной области словарь для телекоммуникационных документов.

Исходя из вышеперечисленного возникает вопрос, как включить пользовательский контекст и предпочтения в виде онтологии для классификации неструктурированных документов по полезным категориям и использования контекстного интерпретатора свободного текста (CFTТ) [36], который выполняет синтаксический анализ и лексико-семантическую обработку предложений, для получения описания содержимого неструктурированных документов, имеющих отношение к контексту пользователя. В [37] авторы представили метод категоризации текста, основанный на онтологических знаниях, который не требует обучающего набора. Также в [38] предложена система автоматического классификатора документов, основанная на онтологии и Наивном байесовском классификаторе.

Онтологии показали свою полезность в таких прикладных областях, как управление знаниями, биоинформатика, электронное обучение, интеллектуальная интеграция информации [39], информационное посредничество [40] и обработка естественного языка [41]. Теперь это позиционная и сложная область для классификации текста.

Семантический анализ - это процесс лингвистического разбора предложений и абзацев на ключевые понятия, глаголы и имена собственные. Используя технологию, основанную на статистике, эти слова затем сравниваются с таксономией (категориями) и группируются в соответствии с релевантностью [42]. Лучшая классификация будет выполнена при рассмотрении целевой семантики, поэтому семантическое представление текста или веб-документа является ключевой задачей для классификации документов и управления знаниями. В последнее время многие исследователи обращались к такого рода проблемам. Авторы в [43] представляют проблемы неоднозначности в тексте на естественном языке и представляют новый метод решения проблемы неоднозначности при извлечении понятия/сущности из текста, который может улучшить процесс классификации документов. Представление и классификация многоязычного текста является одной из основных и сложных проблем в их классификации.

В [44] представлена идея составления рабочего процесса и рассмотрены важные вопросы семантического описания таких сервисов, как сервисы для конкретной задачи интеллектуального анализа текста. Кроме того, в интеллектуальном анализе текста есть еще две открытые проблемы: многозначность, синонимия. Многозначность относится к тому факту, что слово может иметь несколько значений. Различение возможных значений слова (называемое устранением неоднозначности смысла слова) непросто и требует контекста, в котором появляется это слово. Синонимия означает, что разные слова могут иметь одно и то же или сходное значение. Некоторые из проблем естественного языка, которые следует учитывать в процессе интеллектуального анализа текста, показанные в обзоре [45], перечислены в табл. 2.

Таблица 2 - Семантические проблемы классификации документов

Разделение предложений Как определяются границы предложений в документе.

Токенизация Документы маркируются, а токены привязываются или аннотируются по слову или фразе. Это важно, потому что многие компоненты текста нуждаются в четкой идентификации токенов для анализа.

Пометка части речи (pos) Описание характеристик части речи и аннотации данных, что позволяет компонентам присваивать тег pos информации о токене.

Список стоп-слов Определяется список стоп-слов и какие термины в какой области следует рассматривать как стоп-слово.

Морфологический поиск Сводятся слова к их основам и определяется степень влияния на смысл документов.

Зашумленные данные Определяются шаги для очищения документа от зашумленных данных.

Смысл слова Выясняется значение слов в тексте, устраняется проблема двусмысленности.

Словосочетания Определяются сложные, специализированные и технические термины.

Синтаксис Проводится синтаксический или грамматический анализ. Определяются зависимости от данных и анафорических проблем.

Представление текста Определяется важность терминов для представления документов, например, фразы, слово или понятие, существительное или прилагательное, а также какие методы для этого целесообразно использовать.

Домен и данные, стоящие за онтологией Определяется терминологическая область текста, доступность данных и их связь для построения онтологии.

Семантическое представление документов является сложной областью для исследований в области интеллектуального анализа текста. При правильном внедрении этого подхода будет улучшена классификация и процесс поиска информации.

Методы машинного обучения

Документы могут быть классифицированы тремя способами: неконтролируемыми, контролируемыми и полуконтролируемыми методами. В последнее время было предложено множество методов и алгоритмов для кластеризации и классификации электронных документов. В этом разделе основное внимание уделяется методам контролируемой классификации, новым разработкам и освещаются некоторые возможности и проблемы с использованием существующей литературы.

Автоматическая классификация документов по заранее определенным категориям является объектом активного внимания, поскольку скорость использования ССОП быстро возросла. За последние несколько лет задача автоматической классификации текста широко изучена, и в этой области наблюдается устойчивый прогресс, включая такие подходы к машинному обучению, как байесовский классификатор, дерево решений, ^-ближайших соседей (к-ЫЫ), машины опорных векторов ^УМ), нейронные сети, скрытый семантический анализ, метод КоссИю, нечеткая корреляция и генетические алгоритмы и т. д. Обычно контролируемые методы обучения используются для автоматической классификации текста, когда предварительно определенные метки категорий присваиваются документам на основе вероятности, предложенной обучающим набором помеченных документов. Некоторые из этих методов описаны ниже.

A. Алгоритм А. Rocchio

Алгоритм Rocchio [46] представляет собой метод векторного пространства для маршрутизации или фильтрации документов при информационном поиске, построения вектора прототипа для каждого класса с использованием обучающего набора документов, т. е. среднего вектора по всем векторам обучающего документа, которые принадлежат классу Ci, и вычисления сходства между тестовым документом и каждым из векторов прототипа, которые присваивают классу тестового документа с максимальным сходством, рис. 2.

С = а * сеп^гаёс - в * сеп^гаё— (1)

Когда задана категория, вектору документов, принадлежащих к этой категории, присваивается положительный вес, а векторам остальных документов присваивается отрицательный вес. Из положительно и отрицательно взвешенных векторов получается вектор-прототип этой категории.

Релевантный

Оптимальный

О Релевантный

Не релевантный

Рис. 2. Оптимальный запрос ЯасеЫа для разделения релевантных и не релевантных документов

Этот алгоритм [47] прост в реализации, вычислительно оптимален, быстро обучаем и имеет механизм обратной связи по релевантности, но низкую точность классификации. Линейная комбинация слишком проста для классификации, а константы а и в являются эмпирическими. Это широко используемый алгоритм обратной связи по релевантности, который работает в модели векторного пространства [48]. Исследователи использовали вариацию алгоритма ЯассМа в контексте машинного обучения, то есть для изучения профиля пользователя из неструктурированного текста [49], [50], целью этих приложений является автоматическое создание текстового классификатора, способного различать классы документов.

В. К- ближайших соседей (к-ЫЫ)

Алгоритм к-ближайших соседей (к-ЫЫ) [51 ] используется для проверки степени сходства между документами и к обучающими данными и для хранения определенного количества классификационных данных, тем самым определяя категорию тестовых документов. Этот метод представляет собой алгоритм мгновенного обучения, который классифицирует объекты на основе ближайшего пространства признаков в обучающем наборе [52]. Обучающие наборы отображаются в многомерное пространство признаков. Пространство признаков разбивается на области в зависимости от категории обучающего набора. Точка в пространстве признаков присваивается определенной категории, если она является наиболее частой категорией среди к ближайших обучающих данных. Обычно евклидово расстояние используется при вычислении сходства между векторами. Ключевым элементом этого метода является наличие меры сходства для идентификации соседей конкретного документа [52]. Этап обучения состоит только из сохранения векторов признаков и категорий обучающего набора. На этапе классификации вычисляются расстояния от нового вектора, представляющего входной документ, до всех сохраненных векторов и выбираются к ближайших выборок. Аннотированная категория документа прогнозируется на основе ближайшей точки, отнесенной к определенной категории.

argmax; £sim(D^D)*ô(C(Dj),i) .

j=1

(2)

Вычисление сходства между тестовым документом и каждым соседом и назначение тестовому документу класса, который содержит большинство соседей представлено на рис. 3.

A

A A AA A

B

A

A*-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

B

M-U1.....>B

ir B

A

B

."02""'

B

Рис. 3. Выбор k-ближайших соседей

Этот метод эффективен, непараметричен и прост в реализации. По сравнению с алгоритмом Rocchio рассматриваются более локальные характеристики документов, однако время классификации велико и трудно найти оптимальное значение к. Для анализа k-NN и алгоритма Rocchio некоторые недостатки каждого из них выявлены в [53]. В [54] предложен новый алгоритм, который включает взаимосвязь тезаурусов на основе концептов в категоризацию документов с использованием классификатора k-NN, в то время как в [55] представлено использование фраз в качестве основных признаков в задаче классификации электронной почты и проведена обширная эмпирическая оценка с использованием больших коллекций электронной почты и протестирована с помощью трех текстовых классификаций. алгоритмы, а именно наивный байесовский классификатор и два классификатора k-NN, использующие взвешивание TF-IDF и сходство соответственно. Метод классификации к-ближайших соседей отличается своей простотой и широко используется для классификации текста. Этот метод хорошо работает даже при выполнении задач классификации документов с несколькими категориями. Основным недостатком этого метода является то, что он использует все функции при вычислении расстояния и делает метод вычислительно интенсивным, особенно когда размер обучающего набора растет. Кроме того, точность классификации к-ближайших соседей сильно снижается из-за наличия зашумленных или нерелевантных признаков.

C. Дерево решений

Дерево решений перестраивает ручную категоризацию обучающих документов путем построения четко определенных запросов true/false в виде древовидной структуры. В структуре дерева решений листья представляют соответствующую категорию документов, а ветви представляют соединения объектов, которые ведут к этим категориям. Хорошо организованное дерево решений может легко классифицировать документ, поместив его в корневой узел дерева и позволяя ему проходить через структуру запросов, пока он не достигнет определенного листа, который представляет цель классификации документа.

Метод классификации дерева решений отличается от других инструментов поддержки принятия решений рядом преимуществ. Главным преимуществом дерева решений является его простота в понимании и интерпретации даже для неопытных пользователей. Кроме того, объяснение данного результата может быть легко воспроизведено с помощью простых математических алгоритмов и обеспечить консолидированное представление логики классификации, рис. 4.

E

✓Ts

/1 Е2 Е3

\ Е11 Е12

Рис. 4. Дерево решений

Экспериментально можно показать, что задачи классификации текстов часто включают в себя большое количество релевантных признаков [56]. Следовательно, тенденция дерева решений обосновывать классификации на как можно меньшем количестве тестов может привести к снижению производительности при классификации текста. Однако при наличии небольшого количества структурированных атрибутов производительность, простота и понятность деревьев решений для моделей, основанных на семантике, обладают всеми преимуществами. В [57] описано применение деревьев принятия решений для персонализации рекламы на веб-страницах.

Основной риск внедрения дерева решений заключается в том, что оно чрезмерно подгоняет обучающие данные с появлением альтернативного дерева, которое хуже классифицирует обучающие данные, но лучше классифицирует документы, подлежащие классификации [58]. Это связано с тем, что алгоритм классификации дерева решений предназначен для эффективной классификации обучающих данных, однако пренебрегает производительностью классификации других документов. Кроме того, огромная и чрезмерно сложная структура дерева строится из набора данных с очень большим количеством записей.

D. Классификация Правил Принятия решений

Метод классификации правил принятия решений использует основанный на правилах вывод для классификации документов по их аннотированным категориям [59], [60]. Алгоритмы создают набор правил, описывающих профиль для каждой категории. Правила обычно создаются в формате «ЕСЛИ условие, ТО заключение», где часть условия заполняется признаками категории, а часть заключения представлена именем категории или другим правилом, подлежащим проверке. Набор правил для определенной категории затем создается путем объединения каждого отдельного правила из той же категории с логическим оператором, обычно использующим «и» и «или». Во время выполнения задач классификации не обязательно должно выполняться каждое правило в наборе правил. В случае обработки набора данных с большим количеством признаков для каждой категории рекомендуется реализовать эвристику, чтобы уменьшить размер набора правил, не влияя на производительность классификации. В [61] представлен гибридный метод обработки на основе правил и нейронных сетей обратного распространения для фильтрации спама, вместо использования ключевых слов в этом исследовании поведение рассылки спама используется в качестве функций для описания электронных писем.

Основным преимуществом реализации метода решающих правил для задач классификации является построение локального словаря для каждой отдельной категории на этапе извлечения признаков [59]. Местные словари способны различать значение конкретного слова для разных категорий. Однако недостатком метода решающих правил является невозможность отнести документ к категории исключительно из-за того, что правила из разных наборов правил применимы друг к другу. Кроме того, изучение и обновление методов принятия решений требует широкого привлечения экспертов-людей для создания или обновления наборов правил. Как и метод классификации деревьев решений, метод правил принятия решений плохо работает, когда число отличительных признаков велико.

E. Наивный Байесовский алгоритм

Наивный байесовский классификатор - это простой вероятностный классификатор, основанный на применении теоремы Байеса с сильными допущениями независимости. Более

описательным термином для базовой вероятностной модели была бы модель независимых признаков. Эти предположения о независимости признаков делают порядок признаков неуместным и, следовательно, наличие одного признака не влияет на другие признаки в задачах классификации [62]. Эти допущения делают вычисление байесовского классификационного подхода более эффективным, но это допущение серьезно ограничивает его применимость. В зависимости от точного характера вероятностной модели наивные байесовские классификаторы могут быть обучены очень эффективно, требуя относительно небольшого объема обучающих данных для оценки параметров, необходимых для классификации. Поскольку предполагаются независимые переменные, необходимо определять только отклонения переменных для каждого класса, а не всю ковариационную матрицу.

Из-за своих явно чрезмерно упрощенных допущений наивные байесовские классификаторы часто работают намного лучше во многих сложных реальных ситуациях, чем можно было бы ожидать. Сообщалось, что наивные байесовские классификаторы на удивление хорошо работают для многих приложений классификации в реальном мире при некоторых конкретных условиях [63-67].

Преимущество наивного байесовского классификатора заключается в том, что для оценки параметров, необходимых для классификации, требуется небольшой объем обучающих данных. Байесовский подход к классификации приводит к правильной классификации до тех пор, пока правильная категория является более вероятной, чем другие. Вероятности категории не обязательно должны быть оценены очень хорошо. Другими словами, общий классификатор достаточно надежен, чтобы игнорировать серьезные недостатки в лежащей в его основе наивной вероятностной модели.

Основным недостатком наивного байесовского подхода к классификации является его относительно низкая производительность классификации по сравнению с другими дискриминационными алгоритмами, такими как БУМ с его более высокой эффективностью классификации. Поэтому было проведено много активных исследований, чтобы выяснить причины, по которым наивный байесовский классификатор терпит неудачу в задачах классификации, и улучшить традиционные подходы, внедрив некоторые эффективные и действенные методы [63, 65-68].

р () , (3)

р № )=Щр^ • (4)

/ Ч / N N / , ч 1 +

где р (С, ) = р (С = е, ) = * и р () =-.

* М + 1

к=1

Наивный Байес уже много лет является одним из популярных методов машинного обучения. Его простота делает фреймворк привлекательным для различных задач, и достигаются разумные результаты, хотя это обучение основано на нереалистичном предположении о независимости. По этой причине также было много интересных работ по исследованию наивного Байеса. В [69] показаны очень хорошие результаты, при выборе наивного Байеса с БУМ для классификации текста, также авторы в [70] доказывают, что наивный Байес с самоорганизующимися картами (БОМ) дает очень хорошие результаты при кластеризации документов. Авторы в [71] предлагают наивную байесовскую модель классификации текста с методом взвешивания Пуассона и показывают, что новая модель предполагает, что документ генерируется с помощью многомерной модели Пуассона. Они используют нормализацию частоты терминов для каждого документа для оценки параметра Пуассона, в то время как традиционный мультиномиальный классификатор оценивает свои

параметры, рассматривая все обучающие документы как уникальный огромный обучающий документ. В [72] показано, что наивный Байес может на удивление хорошо работать в задачах классификации, где сама вероятность, вычисленная наивным Байесом, не важна. Авторы в обзоре [73] описали, что имеется большой интерес к наивному байесовскому классификатору для фильтрации спама. Таким образом, этот метод наиболее широко используется в электронной почте, веб-контенте и категоризации спама.

Наивный Байес хорошо работает с числовыми и текстовыми данными, прост в реализации и вычислениях по сравнению с другими алгоритмами, однако предположение об условной независимости нарушается реальными данными и негативными результатами, в случае сильной корреляции функций и не учитывают частоту встречаемости слов.

F. Искусственная нейронная сеть (ANN)

Искусственные нейронные сети строятся из большого числа элементов с входным веером на порядок больших величин, чем в вычислительных элементах традиционных архитектур, рис. 5 [74, 75]. Эти элементы, а именно искусственный нейрон, объединены в группу с использованием математической модели обработки информации, основанной на коннекционистском подходе к вычислениям. Нейронные сети делают свой нейрон чувствительным к хранящемуся набору. Он может быть использован для устойчивого к искажениям хранения большого количества случаев, представленных векторами высокой размерности. Для решения задач классификации документов реализованы различные типы нейросетевых подходов. В некоторых исследованиях используется однослойный персептрон, который содержит только входной слой и выходной слой из-за его простоты реализации [76]. Входные сигналы подаются непосредственно на выходы через серию весов. Таким образом, его можно считать самым простым видом сети прямой связи. Широко реализован для задач классификации многослойный персептрон, который является более сложным и состоящим из входного слоя, одного или нескольких скрытых слоев и выходного слоя в своей структуре [74].

Входы

X]

*\^Веса

Рис. 5. Искусственная нейронная сеть

Основным преимуществом реализации искусственной нейронной сети в задачах классификации является возможность обработки документов с многомерными объектами, а также документов с зашумленными и противоречивыми данными. Кроме того, линейное ускорение процесса сопоставления в отношении большого числа вычислительных элементов обеспечивается вычислительной архитектурой, которая по своей сути является параллельной, где каждый элемент может сравнивать свое входное значение со значением сохраненных случаев независимо от других [75].

Недостатками искусственных нейронных сетей является их высокая вычислительная стоимость, требующая увеличения использования процессора и физической памяти, а также тот факт, что они чрезвычайно сложны для понимания обычными пользователями.

В последние годы нейронные сети стали применяться в системах классификации документов для повышения эффективности. Модели категоризации текста с использованием нейронной сети обратного распространения (BPNN) и модифицированной нейронной сети обратного распространения (MBPNN) предложены в [76] для классификации документов. Эффективный метод выбора объектов используется для уменьшения размерности, а также для повышения производительности. Представлен новый метод классификации документов на основе нейронных сетей [77], который помогает компаниям более эффективно управлять патентными документами.

ANN может получать входные данные Xi, поступающие через пресинаптические соединения, синаптическая эффективность моделируется с использованием реальных весов Wi, а отклик нейрона представляет собой нелинейную функцию f его взвешенных входных данных. Выходной сигнал нейрона j для паттернаp равен Opj, где

OPj(netj) = . (5)

netj + bias * Wbias + £ OpkWjk . (6)

к

Нейронная сеть для классификации документов дает хорошие результаты в сложных областях и подходит как для дискретных, так и для непрерывных данных (наиболее для непрерывной области). Тестирование проходит очень быстро, однако обучение происходит относительно медленно, а полученные результаты пользователям труднее интерпретировать, чем выученные правила (по сравнению с деревом решений), эмпирическая минимизация рисков (ERM) заставляет ANN минимизировать ошибку обучения, что может привести к переобучению.

G. Нечеткая корреляция

Нечеткая корреляция может работать с нечеткой информацией или неполными данными, а также преобразовывать значение свойства в нечеткие множества для классификации нескольких документов [78]. В [79] авторы исследуют проблемы многоклассовой категоризации текста, используя машину нечетких опорных векторов «один против одного». В [47] представили усовершенствование решающего правила и разработали новый алгоритм f-k-NN (fuzzy k-NN) для улучшения производительности категоризации, когда распределение классов неравномерно, и показали, что новый метод более эффективен. Поэтому в последнее время исследователи проявляют большой интерес к использованию нечетких правил и наборов для повышения точности классификации, путем включения нечеткой корреляции или нечеткой логики с алгоритмом машинного обучения и методами выбора признаков для улучшения процесса классификации.

H. Генетический алгоритм

Генетический алгоритм [80] направлен на поиск оптимальных характеристических параметров с использованием механизмов генетической эволюции и выживания наиболее приспособленных в естественном отборе. Генетические алгоритмы позволяют устранить вводящие в заблуждение суждения в алгоритмах и повысить точность классификации документов. Это адаптивный вероятностный алгоритм глобальной оптимизации, который моделируется в естественной среде биологической и генетической эволюции и широко используется из-за своей простоты и надежности. Известны примеры нескольких исследований использования этого метода для улучшения процесса классификации текстов. В [81] авторы ввели генетический алгоритм для категоризации текста и использовали для построения и оптимизации пользовательского шаблона, а также ввели имитацию отжига для устранения недостатков генетического алгоритма. В ходе экспериментального анализа они показывают, что улучшенный метод выполним и эффективен для классификации текстов.

I. Машина опорных векторов ^КМ)

Машины опорных векторов (БУМ) являются одним из методов дискриминационной классификации, которые обычно считаются более точными. Метод классификации БУМ основан на принципе минимизации структурных рисков из теории вычислительного обучения [82]. Идея этого принципа состоит в том, чтобы найти гипотезу, гарантирующую наименьшую истинную ошибку. Кроме того, БУМ хорошо обоснованы и очень открыты для теоретического понимания и анализа [83].

БУМ нуждается как в положительном, так и в отрицательном обучающем наборе, что необычно для других методов классификации. Эти положительные и отрицательные обучающие наборы необходимы БУМ для поиска поверхности принятия решений, которая наилучшим образом отделяет положительные и отрицательные данные в трехмерном пространстве, так называемой гиперплоскости. Признаки документа, которые находятся ближе всего к поверхности принятия решения, называются опорным вектором. Производительность классификации БУМ остается неизменной, если документы, которые не принадлежат к опорным векторам, удаляются из набора обучающих данных [62].

Метод классификации БУМ отличается от других своей выдающейся эффективностью классификации [62, 84-88]. Кроме того, он может обрабатывать документы с большим пространством ввода и отбрасывает большинство нерелевантных функций. Однако основным недостатком БУМ является их относительно сложные алгоритмы обучения и категоризации, а также большие затраты времени и памяти на этапе обучения и классификации. Кроме того, при выполнении задач классификации возникает путаница из-за того, что документы могут быть отнесены к нескольким категориям, поскольку сходство обычно рассчитывается индивидуально для каждой категории [62].

Рис. 6. Иллюстрация оптимального разделения гиперплоскости, гиперплоскостей и опорных векторов

Рис. 7. Отображение нелинейного входного пространства на многомерное пространство

Таким образом, БУМ - это контролируемый метод обучения для классификации, позволяющий определить линейную разделяющую гиперплоскость, которая максимизирует запас, т. е. оптимальную разделяющую гиперплоскость (ОБН) и максимизирует запас между двумя наборами данных. Чтобы вычислить запас, строятся две параллельные

о

■мх+Ъ=+1

гиперплоскости, по одной с каждой стороны разделяющей гиперплоскости, которые «прижимаются» к двум наборам данных, рис. 6, 7. Интуитивно понятно, что хорошее разделение достигается за счет гиперплоскости, которая имеет наибольшее расстояние до соседних точек данных обоих классов, поскольку, как правило, чем больше запас, тем ниже ошибка обобщения классификатора.

Максимизация выигрыша эквивалентна:

1 „ (я \

minimize — ю ю + C

wbZi 2

I Zi

V i=1

subject to y (wTx -b) + Z -1 > 0,1 < i < N . (9)

Zi > 0, 1 < i < N

Вводя множители Лагранжа а, в, лагранжиан равен:

1 N N г , . -, N

2. 2=1 i= 1 L 4 7 J i=1

(10)

1 T N . f N Л fN Л N

= -w w+Z(C- a -^%-I £щУгХ Iw-I Zay Ib+Za.

2 ¿=1 V ¿=1 J V г =1 J ¿=1

Авторы в [89] внедрили и измерили производительность ведущих контролируемых и неконтролируемых подходов к категоризации многоязычного текста; они выбрали машины опорных векторов (SVM) в качестве репрезентативных контролируемых методов, а также методы скрытого семантического индексирования (LSI) и самоорганизующихся карт (SOM) для неконтролируемых методов для реализации системы. В [90] авторы анализируют и сравнивают ансамбли SVM с четырьмя различными методами построения ансамблей, а именно bagging, AdaBoost, Arc-X4 и модифицированный AdaBoost. Двадцать наборов реальных данных из репозитория UCI используются в качестве эталонов для оценки и сравнения производительности этих классификаторов ансамбля SVM по их точности классификации.

В [91] разработан оптимальный алгоритм SVM с использованием нескольких оптимальных стратегий, таких как новое определение веса важности, выбор признаков с использованием схемы взвешенной энтропии, оптимальные настройки параметров. В [69] показано, что SVM является наилучшим методом классификации документов.

Гибридные методы

В последнее время в области машинного обучения и интеллектуального анализа текста предложено много новых гибридных методов и техник. Концепция объединения классификаторов предложена в качестве нового направления для улучшения производительности отдельных классификаторов. В последнее время было предложено много методов для создания ансамбля классификаторов. Механизмы, которые используются для построения ансамбля классификаторов [92], включают:

i) Использование различных подмножеств обучающих данных с помощью одного метода обучения;

ii) Использование различных параметров обучения с помощью одного метода обучения (например используя разные начальные веса для каждой нейронной сети в ансамбле);

iii)Используя различные методы обучения [93].

Преимущества локальных по сравнению с глобальными наборами функций и локальных по сравнению с глобальными словарями в категоризации текста были рассмотрены в [94]. Локальные объекты являются объектами, зависящими от класса, в то время как глобальные объекты являются объектами, независимыми от класса. Локальные словари являются словарями, зависящими от класса, в то время как глобальные словари являются независимыми от класса словарями. Наилучшая категоризация текста достигается с использованием местных особенностей и местных словарей [94].

В [69] предложен новый гибридный подход к классификации текстовых документов, использующий метод наивного Байеса на входе для векторизации необработанных текстовых данных в сочетании с классификатором БУМ на выходе для отнесения документов к нужной категории. Они показывают, что предложенный гибридный подход наивного байесовского векторизатора и классификатора БУМ улучшил точность классификации по сравнению с одним наивным байесовским классификационным подходом. В [70] представлен еще один гибридный метод наивного Байеса с самоорганизующейся картой (БОМ). Предлагаемый байесовский классификатор используется во внешнем интерфейсе, в то время как БОМ выполняет шаги индексации для извлечения наилучших совпадений.

Таким образом, в контексте объединения нескольких классификаторов для категоризации текста ряд исследователей показали, что объединение различных классификаторов может повысить точность классификации [95]. Из сравнения между лучшим индивидуальным классификатором и комбинированным методом видно, что производительность комбинированного метода выше [96-98].

Гибридный метод предложен в [99], в котором нейронная сеть обратного распространения оценки фазы обучения (ЬРЕБР) улучшает традиционную БРЫЫ. И использовать метод разложения по сингулярным значениям (БУП), чтобы уменьшить размерность и построить скрытую семантику между терминами, и показать, что ЬРЕБР намного быстрее, чем традиционный БРЫ, что повышает производительность традиционного БРЫ. Технология БУП может не только значительно снизить высокую размерность, но и повысить производительность. Таким образом, БУП стремится к дальнейшему совершенствованию точности и эффективности систем классификации документов.

В [100] предлагается новый гибридный метод классификации текста, который требует меньше обучающих данных и меньше вычислительного времени, и показывает, что классификация текста, требующая меньшего количества документов для обучения, вместо использования слов, отношения слов, т. е. правила ассоциации из этих слов, используется для получения набора признаков из предварительно классифицированных текстовых документов. Концепция наивного байесовского классификатора затем используется для производных признаков, и, наконец, для окончательной классификации была добавлена только одна концепция генетического анализа.

В [53] предложен гибридный алгоритм, основанный на грубом наборе переменной точности, чтобы объединить сильные стороны методов к-ЫЫ и КоссЫо для повышения точности классификации текста и преодоления недостатков алгоритма КоссЫо.

Авторы в [101] предлагают новый гибридный подход к классификации веб-документов, основанный как на графических, так и на векторных представлениях. Алгоритм к-ЫЫ показывает, что предлагаемые графовые и векторные подходы работают лучше с точки зрения точности классификации наряду со значительным сокращением времени классификации.

В [102] предложены два метода модификации стандартного БРЫ и принятия метода пространства семантических признаков (БЕБ) для уменьшения количества измерений, а также построения скрытой семантики между терминами, и показано, что модифицированные методы повысили производительность стандартного БРЫ и были более эффективными, чем стандартный БРЫ. Метод БЕБ не только значительно уменьшает размерность, но и повышает производительность и, следовательно, может быть использован для дальнейшего совершенствования точности и эффективности систем классификации текста.

В [103] представлен полууправляемый метод обучения ББЕЛЫК для задачи классификации. Он использует использование как маркированных, так и немаркированных данных, использует представления как традиционного ИК, так и контролируемого обучения для проведения маркировки данных и полагается на критерий для управления процессом маркировки данных.

Новый алгоритм f-k-NN (нечеткий k-NN), предложенный в [104] для улучшения решающего правила и дизайна, чтобы улучшить производительность классификации, когда распределение классов неравномерно, и показать, что новый метод более эффективен. Подход [105] представляет собой нетривиальное расширение методологии классификации документов от фиксированного набора классов к иерархии знаний, подобной генной онтологии.

В [106] авторы предложили новый подход к автоматическому обнаружению неявной риторической информации из текстов, основанный на методах эволюционных вычислений для управляения поиском риторических связей в текстах на естественном языке. А в [107] авторы представляют методологию сегментации рукописных документов по их отдельным сущностям, а именно текстовым строкам и словам.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

В [108] комбинация алгоритмов обучения, основанных на сходстве, и связанных с ними стратегий порогового значения значительно влияет на общую производительность классификации текста. После исследования двух классификаторов на основе сходства (k-NN и Rocchio) и трех распространенных методов определения порога (RCut, PCut и SCut) они описали новый алгоритм обучения, известный как сеть ассоциаций ключевых слов (KAN), и новую стратегию определения порога (RinSCut) для повышения производительности по сравнению с существующими методами, и показали что новые подходы дают лучшие результаты.

Предложен новый метод машинного обучения для построения моделей ранжирования при поиске документов [109]. Он направлен на использование преимуществ как традиционных методов поиска информации (IR), так и методов контролируемого обучения для IR.

Основная задача авторов в [110] состоит в том, чтобы исследовать эффективность использования нескольких слов для представления текста с точки зрения эффективности классификации текста. Во-первых, предлагается практический метод для реализации извлечения нескольких слов из документов на основе синтаксической структуры. Во-вторых, представлены две стратегии представления общей концепции и представления подтемы для представления документов с использованием извлеченных нескольких слов. Предлагаемый метод запускается в [111] для задач классификации текста только с немаркированными документами и заголовочным словом каждой категории для изучения, а затем он автоматически изучает текстовый классификатор с помощью методов начальной загрузки и проекции объектов.

Сравнительное исследование

Увеличение количества текстовых данных требует привлечения интеллектуального анализа текста, машинного обучения и методов и методологий обработки естественного языка для организации и извлечения шаблонов и знаний из документов. В данной статье основное внимание уделено существующей литературе и методам представления и классификации документов. Представление текста - важнейший вопрос. Большая часть литературы дает описание синтаксического решения для представления текста. Однако модель представления зависит от информации, которая необходима. Концептуальная база или семантическое представление документов требуют большего внимания.

На производительность алгоритма классификации при интеллектуальном анализе данных в значительной степени влияет качество источника данных. Нерелевантные и избыточные функции данных не только увеличивают стоимость процесса интеллектуального анализа данных, но и в некоторых случаях ухудшают качество результата [112]. Каждый алгоритм имеет свои преимущества и недостатки.

Однако в [10] автор сравнивает различные методы классификации текстов и должен иметь в виду, что сравнения надежны только тогда, когда основаны на экспериментах, проведенных одним и тем же автором в тщательно контролируемых условиях. Вместо этого они являются более проблематичными, когда они связаны с различными экспериментами, выполняемыми разными авторами. В этом случае на результаты могут влиять различные «фоновые условия», часто посторонние по отношению к самому

алгоритму обучения. Они могут включать, среди прочего, различные варианты предварительной обработки (выделение и т. д.), индексацию, уменьшение размерности и значений параметров классификатора и пр.

Снижение производительности в [113] охарактеризовало контролируемое исследование большого количества методов выбора фильтра для классификации текста. Было рассмотрено более 100 вариантов пяти основных критериев отбора признаков с использованием четырех хорошо известных алгоритмов классификации: наивного байесовского подхода (NB), классификатора в стиле Rocchio, метода k-NN и системы SVM. В качестве тестовых площадок были выбраны две эталонные коллекции: Reuters-21578 и небольшая часть Reuters Corpus версии 1 (RCV1), что делает новые результаты сопоставимыми с опубликованными результатами. Они показали, что методы отбора признаков, основанные на статистике х2, последовательно превосходили методы, основанные на других критериях (включая получение информации) для всех четырех классификаторов и обоих наборов данных, и что дальнейшее повышение производительности было получено путем объединения некоррелированных и высокопроизводительных методов отбора признаков. Результаты, которые они получили, используя только 3 % доступных функций, являются одними из лучших, включая результаты, полученные с полным набором функций. Эмпирические результаты их исследования предполагают использование методов фильтрации, которые включают статистику х2, комбинирование их с DF или IG и исключение редких слов. Такие методы были неизменно лучше.

В [114] авторы обсуждали, что в некоторых исследованиях сравнивались методы выбора признаков или преобразования пространства признаков, в то время как в некоторых других сравнивалась производительность различных алгоритмов. В последнее время растет интерес к подходам на основе SVM, различные исследования показали, что SVM превосходит другие алгоритмы классификации. Авторы решили исследовать этот вопрос и сравнили SVM с k-NN и наивным Байесом в задачах двоичной классификации. Важным вопросом является сравнение оптимизированных версий этих алгоритмов; из их результатов видно, что все классификаторы достигли сопоставимой производительности в большинстве задач. Одним из неожиданных результатов является то, что SVM не был явным победителем, несмотря на довольно хорошие общие показатели. Если с k-NN используется подходящая предварительная обработка, этот алгоритм продолжает достигать очень хороших результатов и хорошо масштабируется в зависимости от количества документов, чего нельзя сказать о SVM. Что касается наивного Байеса, то он также характеризуется хорошей производительностью.

В [115] рассматривается производительность различных алгоритмов классификации и влияние алгоритма выбора признаков на классификатор логистической регрессии, как он контролирует частоту ложных обнаружений (FDR) и, таким образом, повышает эффективность классификатора логистической регрессии. Согласно анализу, SVM имеет больше параметров, чем логистическая регрессия и классификатор дерева решений, большую часть времени обладает самой высокой точностью классификации, однако очень трудоемкий из-за большего количества параметров, требует больше времени вычислений. По сравнению с SVM логистическая регрессия эффективна с точки зрения вычислений, ее результаты обычно имеют статическое значение. Однако она не удовлетворяет требованиям, когда набор данных содержит явные структуры данных.

В [116] для классификации спама предлагается сжатие на основе четырех алгоритмов машинного обучения, которые являются наивными байесовскими (NB), нейронными сетями (NN), машиной опорных векторов (SVM) и машиной векторов релевантности (RVM). Представлена эмпирическая оценка для них на эталонных корпусах фильтрации спама. Эксперименты выполняются на основе различного размера обучающего набора и размера извлеченных объектов. Экспериментальные результаты показывают, что NN-классификатор непригоден для использования отдельно в качестве инструмента отбраковки спама. Как

правило, характеристики классификаторов SVM и RVM явно превосходят характеристики классификатора NB. По сравнению с SVM показано, что RVM обеспечивает аналогичный результат классификации с меньшим количеством векторов релевантности и гораздо более быстрым временем тестирования, несмотря на более медленную процедуру обучения, они показывают, что RVM более подходит, чем SVM, для классификации спама с точки зрения приложений, требующих низкой сложности.

В [117] данные электронной почты были классифицированы с использованием четырех различных классификаторов (Нейронная сеть, классификатор SVM, Наивный байесовский классификатор и простой классификатор J48). Эксперимент был проведен на основе разного размера данных и разного размера объектов. Окончательный результат классификации должен быть «1», если это окончательно спам, в противном случае он должен быть «0». В этой статье показано, что простой классификатор J48, который создает двоичное дерево, может быть эффективным для набора данных, который может быть классифицирован как двоичное дерево.

В [108] показано, что двумя основными областями исследований в области статистической категоризации текста являются: алгоритмы обучения на основе сходства и связанные с ними стратегии порогового значения. Сочетание этих методов существенно влияет на общую эффективность категоризации текста. После исследования двух классификаторов на основе сходства (k-NN и Rocchio) и трех распространенных методов определения порога (RCut, PCut и SCut) они описали новый алгоритм обучения, известный как сеть ассоциаций ключевых слов (KAN), и новую стратегию определения порога (RinSCut) для повышения производительности по сравнению с существующими методами. Обширные эксперименты были проведены с наборами данных Reuters-21578 и 20-Newsgroups и показали, что новые подходы дают лучшие результаты.

По сравнению с ANN, SVM лучше улавливает присущие данным характеристики и внедряет принцип структурной минимизации рисков (SRM), который минимизирует верхнюю границу ошибки обобщения (лучше, чем эмпирический принцип минимизации рисков). Также способность к обучению может быть независимой от размерности пространства признаков и глобальных минимумов по сравнению с локальными минимумами, однако существуют некоторые трудности при настройке параметров и выборе ядра.

Заключение

В статье представлен обзор методов представления документов для машинного обучения. Результаты работы представляют собой анализ методов отбора признаков и алгоритмов классификации. В ходе исследования было подтверждено, что предобработка информации и статистика являются наиболее часто используемыми и хорошо выполняемыми методами отбора признаков, однако в последнее время многие другие методы FS предлагаются как единый или гибридный метод, показали хорошие результаты и нуждаются в дополнительном изучении для эффективного процесса классификации. Для автоматической классификации документов было предложено несколько алгоритмов или комбинаций алгоритмов в качестве гибридных подходов, среди этих алгоритмов классификаторы Хи-квадрат, SVM, NB и k-NN показаны наиболее подходящими в существующей литературе.

Большинство исследователей в области классификации текстов предполагают представление документа в виде мешка (набора) слов (BOG), хотя, согласно [28], статистических методов недостаточно для интеллектуального анализа текста. Представление текста -важнейший вопрос. Большая часть литературы дает описание синтаксического решения для представления текста. Однако модель представления зависит от необходимой информации. Концептуальная база или семантическое представление документов требуют дополнительных исследований. Оптимальная классификация выполняется в ходе семантических соображений.

В этой статье обсуждались возможности представления документов с семантической и онтологической базой. С добавлением онтологии и семантики для представления

документов улучшается точность и оптимизируется процесс классификации. Таким образом, выявление признаков, отражающих семантическое содержание, является одним из важных направлений исследований. Общие проблемы множественного обучения в зашумленных данных - это чрезвычайно сложная проблема, которая только сейчас формулируется и, вероятно, потребует дополнительной работы для успешной разработки стратегий по выявлению основной природы многообразия.

Для автоматической классификации документов было предложено несколько алгоритмов или комбинаций алгоритмов в качестве гибридных подходов. Среди этих алгоритмов SVM, NB, kNN и их гибридная система с комбинацией различных других алгоритмов и методов выбора признаков объявляются наиболее подходящими в существующей литературе. NB хорошо справляется с фильтрацией нежелательной почты и категоризацией электронной почты, требует небольшого объема обучающих данных для оценки параметров, необходимых для классификации. Наивный Байес хорошо работает с числовыми и текстовыми данными, прост в реализации по сравнению с другими алгоритмами, однако предположение об условной независимости нарушается реальными данными и работает очень плохо, когда функции сильно коррелированы и не учитывают частоту встречаемости слов.

SVM-классификатор признан одним из наиболее эффективных методов классификации текстов при сравнении управляемых алгоритмов машинного обучения [118]. SVM лучше улавливает присущие данным характеристики и внедряет принцип структурной минимизации рисков (SRM), который минимизирует верхнюю границу ошибки обобщения (лучше, чем эмпирический принцип минимизации рисков). Способность к обучению может быть независимой от размерности пространства признаков и глобальных минимумов по сравнению с локальными, однако, у SVM были обнаружены некоторые трудности при настройке параметров и выборе ядра.

Если с k-NN используется подходящая предварительная обработка, то этот алгоритм продолжает достигать очень хороших результатов и хорошо масштабируется с количеством документов, чего нельзя сказать о SVM [119, 120]. Что касается наивного Байеса, то он также достиг хорошей производительности при соответствующей предварительной обработке. Алгоритм k-NN функционирует удовлетворительно, поскольку рассматриваются более локальные характеристики документов, однако время классификации велико и трудно найти оптимальное значение k.

Для повышения производительности и точности процесса классификации документов требуются дополнительные исследования. Для получения полезных знаний из растущего объема электронных документов требуются новые методы и решения. Ниже приведены некоторые возможности классификации неструктурированных данных и обнаружения знаний:

- модернизация методов выбора признаков для улучшения процесса классификации;

- сокращение времени обучения и тестирования классификатора и повышение точности классификации;

- для фильтрации нежелательной почты и категоризации электронной почты у пользователя могут быть папки, такие как электронные счета, электронная почта и т. д., следовательно может потребоваться классификация каждого входящего электронного письма и последующего автоматического перемещения его в соответствующую папку;

- автоматическое распределение папок для загруженных статей, документов из текстовых редакторов и из ССОП;

- использование семантики и онтологии для классификации документов и информационного поиска;

- тенденции майнинга, т. е. маркетинговые, деловые и финансовые тенденции (тенденции фондовой биржи) формируют электронные документы (онлайн-новости, истории, мнения и события);

- потоковый текст требует разработки новых методов управления информацией;

- автоматическая классификация и анализ настроений, мнений и извлечение из них знаний;

- классификация и группирование полуструктурированных документов сопряжены с некоторыми проблемами и новыми возможностями;

- для восстановления смысла слов, используемых в определенном контексте, необходима реализация процедуры классификации текста на основе семантики;

- информационное извлечение полезных знаний из электронных документов и вебстраниц, таких как продукты и результаты поиска для получения полных шаблонов;

- идентификация или сопоставление семантически схожих данных из ССОП является важной проблемой для многих практических приложений.

Таким образом, информация, интеграция и сопоставление схем требуют дополнительного изучения.

Литература

1. A. Dasgupta, "Feature selection methods for text classification.", In Proceedings of the 13th ACMSIGKDD international conference on Knowledge discovery and data mining, pp. 230 -239, 2007.

2. Raghavan, P., S. Amer-Yahia and L. Gravano eds., "Structure in Text: Extraction and Exploitation." In. Proceeding of the 7th international Workshop on the Web and Databases(WebDB), ACM SIGMOD/PODS 2004, ACM Press, Vol 67, 2004.

3. Oracle corporation, WWW,oracle.com, 2008.

4. Merrill lynch, Nov.,2000. e-Business Analytics: Depth Report. 2000.

5. Дементьев В.Е., Чулков А.А. Метод автоматизированной идентификации признаков протоколов сетей передачи данных // Информация и космос. 2021. № 1. С. 87-94.

6. Дементьев В.Е., Чулков А.А. Модель протокола сети передачи данных в условиях деструктивных кибернетических воздействий. Часть 1 // Защита информации. Инсайд. 2021. № 1 (97). С. 62-68.

7. Дементьев В.Е., Чулков А.А. Модель протокола сети передачи данных в условиях деструктивных кибернетических воздействий. Часть 2 // Защита информации. Инсайд. 2021. № 2 (98). С. 68-76.

8. Дементьев В.Е., Чулков А.А. Методика оценки защищенности протоколов сети передачи данных в условиях деструктивных кибервоздействий // Известия Тульского государственного университета. Технические науки. 2021. № 2. С. 265-276.

9. Pegah Falinouss "Stock Trend Prediction using News Article's: a text mining approach" Master thesis -

2007.

10. Sebastiani, F., "Machine learning in automated text categorization" ACM Computing Surveys (CSUR) 34, pp.1 - 47, 2002.

11. Andreas Hotho "A Brief Survey of Text Mining" 2005.

12. D.Fensel, "Ontologies: Silver Bullet for Knowledge Management and e-Commerce", Springer Verlag, Berlin, 2000.

13. Shang, W., Huang, H., Zhu, H., Lin, Y., Qu, Y., and Wang Z., " A Noval Feature Selection Algorithm for text catogorization." Elsevier, science Direct Expert system with application -2006, 33(1), pp.1-5, 2006.

14. Liu, H. and Motoda, "Feature Extraction, constraction and selection: A Data Mining Perpective.", Boston, Massachusetts(MA): Kluwer Academic Publishers.

15. Wang, Y., and Wang X.J., " A New Approach to feature selection in Text Classification", Proceedings of 4th International Conference on Machine Learning and Cybernetics, IEEE- 2005, Vol.6, pp. 38143819,2005.

16. Lee, L.W., and Chen, S.M., "New Methods for Text CategorizationBased on a New Feature Selection Method a and New Similarity Measure Between Documents", IEA/AEI, France 2006.

17. Montanes,E., Ferandez, J., Diaz, I., Combarro, E.F and Ranilla, J., " Measures of Rule Quality for Feature Selection in Text Categorization", 5th international Symposium on Intelligent data analysis , Germeny-2003, SpringerVerlag 2003, Vol2810, pp.589-598, 2003.

18. Manomaisupat, P., and Abmad k., "Feature Selection for text Categorization Using Self Orgnizing Map", 2nd International Conference on Neural Network and Brain, 2005,IEEE press Vol 3, pp.1875-1880, 2005.

19. Yan, J., Liu, N., Zhang, B., Yan, S., Chen, Z., Cheng, Q., Fan, W., and Ma, W., "OCFS: Optimal Orthogonal centroid Feature selection for Text Categorization." 28 Annual International conference on Reserch and Informational reterival, ACM SIGIR, Barizal, , pp.122-129, 2005.

20. Zi-Qiang Wang, Xia Sun, De-Xian Zhang, Xin Li "An Optimal Svm-Based Text Classification Algorithm" Fifth International Conference on Machine Learning and Cybernetics, Dalian,pp. 13-16 , 2006.

21. Jingnian Chen a,b,, Houkuan Huang a, Shengfeng Tian a, Youli Qua Feature selection for text classification with Naïve Bayes" Expert Systems with Applications 36, pp. 5432-5435, 2009.

22. Hiroshi Ogura, Hiromi Amano, Masato Kondo "Feature selection with a measure of deviations from Poisson in text categorization" Expert Systems with Applications 36, -pp 6826-6832, 2009.

23. Mehdi Hosseinzadeh Aghdam, Nasser Ghasem-Aghaee, Mohammad Ehsan Basiri "Text feature selection using ant colony optimization", Expert Systems with Applications 36 pp.6843-6853, 2009.

24. P. Sccuy, G.W.Mineanu "Beyoned TFIDF weighting for text Categorization in the Vector Space Model",

2003.

25. E. Youn, M. K. Jeong , "Class dependent feature scaling method using naive Bayes classifier for text datamining" Pattern Recognition Letters , 2009.

26. G. Forman, E. Kirshenbaum, "Extremely Fast Text Feature Extraction for Classification and Indexing", Napa Valley California, USA. CIKM'08, October 26-30, 2008.

27. Mostafa Keikha, Ahmad Khonsari, Farhad Oroumchian, " Rich document representation and classification: An analysis" , Knowledge-Based Systems 22 , pp.67-71, 2009.

28. Yah, As., Hirschman, L., and Morgan, A.A. "Evaluation of text data mining for databasecuration: lessons learned from the KDD challenge cup." Bioinformatics 19-(supp.1), pp.i331-i339, 2003.

29. B. Omelayenko., "learning og ontologies for the Web: the analysis of existent approaches", in the proceeding of thelnternational Workshop on Web Dynamics, 2001.

30. OWL Web Ontology Language, viewed March 2008 http://www.w3.org/TR/owl-features.

31. Sean B. Palmer, "The Semantic Web, an introduction", 2007.

32. Lena Tenenboim, Bracha Shapira, Peretz Shoval "Ontology-Based Classification Of News In An Electronic Newspaper" International Conference "Intelligent Information and Engineering Systems" INFOS 2008, Varna, Bulgaria, June-July 2008.

33. Mu-Hee Song, Soo-Yeon Lim, Dong-Jin Kang, and SangJo Lee, "Automatic Classification of Web pages based on the Concept of Domain Ontology", Proc. of the 12th AsiaPacific Software Engineering Conference, 2005.

34. Jun Fang, Lei Guo, XiaoDong Wang and Ning Yang "Ontology-Based Automatic Classification and Ranking for Web Documents" Fourth International Conference on Fuzzy Systems and Knowledge Discovery -FSKD -2007.

35. Alexander Maedche and Ste_en Staab "Mining Ontologies from Text" LNAI 1937, pp. 189-202, 2000. SpringerVerlag Berlin Heidelberg, 2000.

36. Ching Kang Cheng, Xiao Shan Pan, Franz Kurfess "Ontology-based Semantic Classification of Unstructured Documents", 2000.

37. Maciej Janik and Krys Kochut "Training-less Ontologybased Text Categorization" , 2007.

38. Yi-Hsing Chang, Hsiu-Yi Huang "An Automatic Document Classifier System Based On Naïve Bayes Classifier And Ontology" Seventh International Conference on Machine Learning and Cybernetics, Kunming, 2008.

39. G. Wiederhold and M. Genesereth, "The conceptual basis for mediation services",IEEE Expert / Intelligent Systems, 12(5):38-47, 1997.

40. S. Staab, J. Angele, S. Decker, M. Erdmann, A. Hotho, A. Maedche, H.-P. Schnurr, R. Studer, and Y. Sure. "Semantic community web portals", In Proceedings of the 9th International World Wide Web Conference, Amsterdam, The Netherlands, May, 15-19, 2000. Elsevier, 2000.

41. S. Staab, C. Braun, I. Bruder, A. D'usterh'oft, A. Heuer, M. Klettke, G. Neumann, B. Prager, J. Pretzel, H.-P. Schnurr, R. Studer, H. Uszkoreit, and B. Wrenger. Getess, "Searching the web exploiting german texts", In Proceedings of the 3rd international Workshop on Cooperating Information Agents. Upsala, Sweden, 1999, LNAI 1652, pp. 113-124. Springer, 1999.

42. http://www.nstein.com/en/tme_intro.php- 2008.

43. H.M.Al Fawareh, S.Jusoh, W.R.S.Osman, "Ambiguity in Text Mining", IEEE-2008.

44. M. Sarnovsky, M. Parali "Text Mining Workflows Construction with Support of Ontologies" 6th International Symposium on Applied Machine Intelligence and Informatics- SAMI 2008.

45. A.Stavrianou, P. Andritsos, N. Nicoloyannis "Overview and semantic issues of text mining", SIGMOD Record, 2007, Vol.36,N03, 2007.

46. Rocchio, J; "Relevance Feedback in Information Retrieval", In G. Salton (ed.). The SMART System: pp.67-88.

47. Willian W. Cohen and Yoram Singer, "Context-sensitive learning method for text categorization", SIGIR' 96, 19th International Conference on Research and Develeoement in Informational Retrieval, pp-307-315, 1996.

48. Ittner, D., Lewis, D., Ahn, D; "Text Categorization of Low Quality Images", In: Symposium on Document Analysis and Information Retrieval, Las Vegas, NV .pp. 301-315, 1995.

49. Balabanovic, M., Shoham Y.: FAB; "Content-based, Collaborative Recommendation", Communications of the Association for Computing Machinery 40(3) pp. 66-72, 1997.

50. Pazzani M., Billsus, D; "Learning and Revising User Profiles", The Identification of Interesting Web Sites. Machine Learning 27(3) pp. 313-331, 1997.

51. Tam, V., Santoso, A., & Setiono, R. "A comparative study of centroid-based, neighborhood-based and statistical approaches for effective document categorization", Proceedings of the 16th International Conference on Pattern Recognition, pp.235-238, 2002.

52. Eui-Hong (Sam) Han, George Karypis, Vipin Kumar; "Text Categorization Using Weighted Adjusted k-Nearest Neighbor Classification", Department of Computer Science and Engineering. Army HPC Research Centre, University of Minnesota, Minneapolis, USA. 1999.

53. [Duoqian Miao , Qiguo Duan, Hongyun Zhang, Na Jiao, "Rough set based hybrid algorithm for text classification",Expert Systems with Applications -2009 .

54. Bang, S. L., Yang, J. D., & Yang, H. J. "Hierarchical document categorization with k-NN and concept-based thesauri. Information Processing and Management", pp. 397-406, 2006.

55. Matthew Changa, Chung Keung Poon_, "Using Phrases as Features in Email Classification", The Journal of Systems and Software, doi: 10.1016/j.jss, 2009.

56. Joachims, T; "Text Categorization With Support Vector Machines: Learning with Many Relevant Features", In: European Conference on Machine Learning, Chemnitz, Germany 1998, pp.137-142, 1998.

57. Kim, J., Lee, B., Shaw, M., Chang, H., Nelson, W; "Application of Decision-Tree Induction Techniques to Personalized Advertisements on Internet Storefronts", International Journal of Electronic Commerce 5(3) pp.45-62, 2001.

58. Russell Greiner, Jonathan Schaffer; AIxploratorium - Decision Trees, Department of Computing Science, University of Alberta,Edmonton,ABT6G2H1, Canada. 2001. URL:http://www.cs.ualberta.ca/ ~aixplore/ learning/ DecisionTrees.

59. Chidanand Apte, Fred Damerau, Sholom M. Weiss.; "Towards Language Independent Automated Learning of Text Categorization Models", In Proceedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 23-30. 1994.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

60. Chidanand Apte, Fred Damerau, Sholom M. Weiss; "Au tomated Learning of Decision Rules for Text Cate gorization", ACM Transactions on Information Systems (TOIS), Vol. 12 , Issue 3, pp. 233 - 251. 1994.

61. Chih-Hung Wu, "Behavior-based spam detection using a hybrid method of rule-based techniques and neural networks", Expert Systems with Applications, pp. 4321-4330, 2009.

62. Heide Brucher, Gerhard Knolmayer, Marc-André Mittermayer; "Document Classification Methods for Organizing Explicit Knowledge", Research Group Information Engineering, Institute of Information Systems, University of Bern, Engehaldenstrasse 8, CH - 3012 Bern, Switzerland. 2002.

63. Andrew McCallum, Kamal Nigam; "A Comparison of Event Models for Naïve Bayes Text Classification", Journal of Machine Learning Research 3, pp. 1265-1287. 2003.

64. Irina Rish; "An Empirical Study of the Naïve Bayes Classifier", In Proceedings of the IJCAI-01 Workshop on Empirical Methods in Artificial Intelligence. 2001.

65. Irina Rish, Joseph Hellerstein, Jayram Thathachar; "An Analysia of Data Characteristics that affect Naïve Bayes Performance", IBM T.J. Watson Research Center 30 Saw Mill River Road, Hawthorne, NY 10532, USA. 2001.

66. Pedro Domingos, Michael Pazzani; "On the Optimality of the Simple Bayesian Classifier under Zero-One Loss, Machine Learning", Vol. 29, No. 2-3, pp.103-130. 1997.

67. Sang-Bum Kim, Hue-Chang Rim, Dong-Suk Yook,Huei-Seok Lim; "Effective Methods for Improving Naïve Bayes Text Classification", 7th Pacific Rim International Conference on Artificial Intelligence, Vol. 2417. 2002.

68. Susana Eyheramendy, Alexander Genkin, Wen-Hua Ju, David D. Lewis, and David Madigan; "Sparce Bayesian Classifiers for Text Categorization", Department of Statistics, Rutgers University.2003.

69. Dino Isa, Lam Hong lee, V. P Kallimani, R. RajKumar, " Text Documents Preprocessing with the Bahes Formula for Classification using the Support vector machine", IEEE, Traction of Knowledge and Data Engineering, Vol-20, N0-9 pp-1264-1272, 2008.

70. Dino Isa,, V. P Kallimani Lam Hong lee, "Using Self Organizing Map for Clustering of Text Documents", ", Elsever , Expert System with Applications-2008.

71. Sang-Bum Kim, Kyoung-Soo Han, Hae-Chang Rim, and Sung Hyon Myaeng, "Some Effective Techniques for Naive Bayes Text Classification", IEEE Transactions On Knowledge And Data Engineering, Vol. 18, No. 11, Pp-1457-1466 , November 2006.

72. P. Domingos and M. J. Pazzani, "On the Optimality of the Simple Bayesian Classifier under Zero-One Loss," Machine Learning, vol. 29, nos. 2/3, pp. 103-130, 1997.

73. Thiago S.Guzella, Walimir M. Caminhas "A Review of machine Learning Approches to Spam Filtering", Elsever , Expert System with Applications-2009.

74. Miguel E. Ruiz, Padmini Srinivasan; "Automatic Text Categorization Using Neural Network",In Proceedings of the 8th ASIS SIG/CR Workshop on Classification Research, pp. 59-72. 1998.

75. Petri Myllymaki, Henry Tirri; "Bayesian Case-Based Reasoning with Neural Network", In Proceeding of the IEEE International Conference on Neural Network'93, Vol. 1, pp. 422-427. 1993.

76. Hwee-Tou Ng, Wei-Boon Goh, Kok-Leong Low; "Feature Selection, Perceptron Learning, and a Usability Case Study for Text Categorization, In Proceedings of the 20th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 67-73. 1997.

77. Bo Yu, Zong-ben Xu, Cheng-hua Li,"Latent semantic analysis for text categorization using neural network", Knowledge-Based Systems 21- pp. 900-904, 2008.

78. Trappey, A. J. C., Hsu, F.-C., Trappey, C. V., & Lin, C.-I., "Development of a patent document classification and search platform using a back-propagation network", Expert Systems with Applications, pp. 755-765, 2006.

79. Que, H. -E. "Applications of fuzzy correlation on multiple document classification.Unpublished master thesis", Information Engineering epartment, Tamkang University, Taipei, Taiwan-2000.

80. Tai-Yue Wang and Huei-Min Chiang "One-Against-One Fuzzy Support Vector Machine Classifier: An Approach to Text Categorization", Expert Systems with Applications, doi: 10.1016/j.eswa.2009.

81. Wang Xiaoping, Li-Ming Cao. Genetic Algorithm Theory, Application and Software [M].XI'AN:Xi'an Jiaotong University Press, 2002.

82. ZHU Zhen-fang, LIU Pei-yu, Lu Ran, "Research of text classification technology based on genetic annealing algorithm" IEEE,, 978-0-7695-3311-7/08, 2008.

83. Vladimir N. Vapnik, "The Nature of Statistical Learn ing Theory", Springer, NewYork. 1995.

84. Thorsten Joachims, "Text Categorization with Sup Vector Machines: Learning with Many Relevant Features" ECML-98, 10th European Conference on Machine Learning, pp. 137-142. 1998.

85. YiMing Yang, Xin Liu; "A Re-examination of Text Categorization Methods, School of Computer Science", Carnegie Mellon University. 1999.

86. Saurav Sahay, "Support Vector Machines and Docu ment Classification"URL:http://www-static.cc.gatech.edu/~ssahay/sauravsahay7001 -2.pdf.

87. Soumen Chakrabarti, Shourya Roy, Mahesh V. Soundalgekar;, " Fast and Accurate Text Classification via Multiple Linear Discriminant Projection" , The International Journal on Very Large Data Bases (VLDB), pp.170-185. 2003.

88. Yi Lin, "Support Vector Machines and the Bayes Rule in Classification", Technical Report No.1014, Department of Statistics, University of Wiscousin, Madison. 1999.

89. Chung-Hong Lee a, Hsin-Chang Yang, "Construction of supervised and unsupervised learning systems for multilingual text categorization", Expert Systems with Applications, pp. 2400-2410, 2009.

90. Shi-jin Wang, Avin Mathew, Yan Chen , Li-feng Xi , Lin Ma, Jay Lee, "Empirical analysis of support vector machine ensemble classifiers", Expert Systems with Applications, pp. 6466-6476, 2009.

91. Zi-Qiang Wang, Xia Sun, De-Xian Zhang, Xin Li "An Optimal Svm-Based Text Classification Algorithm" Fifth International Conference on Machine Learning and Cybernetics, Dalian, 2006.

92. Wikipedia Ensembles of classifiers, http://en.wikipedia.org/ wiki/ Ensembles_of_ classifiers, 2008.

93. M. Ikonomakis, S. Kotsiantis, V. Tampakas, "Text Classification Using Machine Learning Techniques", Wseas Transactions on Computers, issue 8, volume 4, pp. 966-974, 2005.

94. How, B. C. and Kiong, W. T. (2005). An examination of feature selection frameworks in text categorization. In AIRS. 558-564.

95. Bao Y. and Ishii N., "Combining Multiple kNN Classifiers for Text Categorization by Reducts", LNCS 2534, pp. 340- 347, 2002.

96. Bi Y., Bell D., Wang H., Guo G., Greer K., "Combining Multiple Classifiers Using Dempster's Rule of Combination for Text Categorization", MDAI, 2004, 127-138, 2004.

97. Sung-Bae Cho, Jee-Haeng Lee, "Learning Neural Network Ensemble for Practical TextClassification", Lecture Notes in Computer Science, Volume 2690, p. 1032- 1036, 2003.

98. Nardiello P., Sebastiani F., Sperduti A., "Discretizing Continuous Attributes in AdaBoost for Text Categorization", LNCS, Volume 2633, pp. 320-334, 2003

99. "Cheng Hua Li , Soon Choel Park, "An efficient document classification model using an improved back propagation neural network and singular value decomposition" Expert Systems with Applications 36 ,pp- 3208-3215, 2009.

100. S. M. Kamruzzaman and Farhana Haider; "Hybrid Learning Algorithm For Text Classification", 3rd International Conference on Electrical & Computer Engineering ICECE 2004, 28-30 December 2004, Dhaka, Bangladesh.

101. Alex Markov and Mark Last, "A Simple, StructureSensitive Approach for Web Document Classification",Springer, AWIC 2005, LNAI 3528, pp. 293-298, 2005.

102. Cheng Hua Li, Soon Cheol Park, "Combination of modified BPNN algorithms and an efficient feature selection method for text categorization. "Information Processing and Management 45, 329-340, 2009.

103. Ming Li , Hang Li , Zhi-Hua Zhou ,"Semi-supervised document retrieval", Information Processing and Management 45, pp, 341-355 -2009.

104. Wenqian Shang, Houkuan Huang, Haibin Zhu, Yongmin Lin Youli Qu, and Hongbin Dong "An Adaptive Fuzzy kNN Text Classifier", Springer, ICCS LNCS 3993, pp. 216 - 223, 2006.2006, Part III.

105. H.Kim, and S.S. Chen, "Associative Naïve Bayes Classifier: Automated Linking Of Gene Ontology To Medline Documents" Pattern Recognition doi:10.1016/j.patcog. 2009.

106. John Atkinson a, Anita Ferreira b, Elvis Aravena, "Discovering implicit intention-level knowledge from naturallanguage texts", Knowledge-Based Systems -2009.

107. G. Louloudis, B. Gatos, I. Pratikakis2, C. Halatsis, "Text Line and Word Segmentation of Handwritten Documents", Pattern Recognition doi:10.1016/j.patcog.2008.12.016, 2009.

108. Kang Hyuk Lee, Judy Kay, Byeong Ho Kang, and Uwe Rosebrock, "A Comparative Study on Statistical Machine Learning Algorithms and Thresholding Strategies for Automatic Text Categorization", pp. 444-453, 2002. Springer-Verlag Berlin Heidelberg 2002.

109. Ming Li, Hang Li, Zhi-Hua Zhou "Semi-supervised document retrieval" Information Processing and Management -2008.

110. Wen Zhang a, Taketoshi Yoshida a, Xijin Tang "Text classification based on multi-word with support vector machine", Knowledge-Based Systems 21 -pp. 879-886, 2008.

111. Youngjoong Ko a, Jungyun Seo, "Text classification from unlabeled documents with bootstrapping and feature projection techniques", Information Processing and Management 45 -, pp. 70-83, 2009.

112. Wu W, Gao Q, Wang M "An efficient feature selectionmethod for classification data mining" WSEAS Transactions on Information Science and Applications, 3: pp 2034-2040. 2006.

113. Monica Rogati , Yiming Yang "High-Performing Feature Selection for Text Classification Monica Rogati, Monica Rogati",CIKM'02, November 4-9, 2002, McLean, Virginia, USA., 2002.

114. Fabrice Colas and Pavel Brazdil, "Comparison of SVM and Some Older Classification algorithms in Text Classification Tasks" ,"IFIP International Federation for Information Processing", Springer Boston Volume 217, Artificial Intelligence in Theory and Practice, pp. 169-178, 2006.

115. Hanuman Thota , Raghava Naidu Miriyala , Siva Prasad Akula, .Mrithyunjaya Rao , Chandra Sekhar Vellanki ,Allam Appa Rao, Srinubabu Gedela , "Performance Comparative in Classification Algorithms Using Real Datasets", JCSB/Vol.2 February 2009.

116. Bo Yu a,, Zong-ben Xu b , "A comparative study for content-based dynamic spam classification using four machine learning algorithms", 2008, Elsevier , Knowledge Based Systems 21 ,pp. 355-362,2008.

117. Youn and Dennis McLeod, "A Comparative Study for Email Classification, Seongwook Los Angeles", CA 90089, USA, 2006.

118. Y.Yang,and X.Liu, "An re-examination of text categorization", Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Berkeley, pp.42-49,August 1999.

119. Pingpeng Yuan, Yuqin Chen, Hai Jin, Li Huang "MSVM-kNN: Combining SVM and k-NN for Multi-Class Text Classification"978-0-7695-3316-2/08,2008, IEEE DOI 10.1109/WSCS.2008

120. Fabrice Colas and Pavel Brazdil, "Comparison of svm and some older classification algorithms in text classification tasks", Artificial Intelligence in Theory and Practice (2006), pp. 169-178, 2006.

References

1. A. Dasgupta, "Feature selection methods for text classification.", In Proceedings of the 13th ACMSIGKDD international conference on Knowledge discovery and data mining, pp. 230 -239, 2007.

2. Raghavan, P., S. Amer-Yahia and L. Gravano eds., "Structure in Text: Extraction and Exploitation." In. Proceeding of the 7th international Workshop on the Web and Databases(WebDB), ACM SIGMOD/PODS 2004, ACM Press, Vol 67, 2004.

3. Oracle corporation, WWW,oracle.com, 2008.

4. Merrill lynch, Nov.,2000. e-Business Analytics: Depth Report. 2000.

5. Dementiev V.E., Chulkov A.A. Metod avtomatizirovannoj identifikacii priznakov protokolov setej peredachi dannyh. Informaciya i kosmos /Method of automated identification of signs of protocols of data transmission networks. Information and Cosmos]. 2021. No. 1. pp. 87-94 (in Russian).

6. Dementiev V.E., Chulkov A.A. Model' protokola seti peredachi dannyh v usloviyah destruktivnyh kiberneticheskih vozdejstvij. CHast' 1. Zashchita informacii [Model of a data transmission network protocol in conditions of destructive cybernetic influences. Part 1. Information protection]. Insider. 2021. No. 1 (97). pp. 62-68 (in Russian).

7. Dementiev V.E., Chulkov A.A. Model' protokola seti peredachi dannyh v usloviyah destruktivnyh kiberneticheskih vozdejstvij. CHast' 2. Zashchita informacii [A model of a data transmission network protocol in conditions of destructive cybernetic influences. Part 2. Information protection]. Insider. 2021. No. 2 (98). pp. 6876 (in Russian).

8. Dementiev V.E., Chulkov A.A. Metodika ocenki zashchishchennosti protokolov seti peredachi dannyh v usloviyah destruktivnyh kibervozdejstvij [Methodology for assessing the security of data transmission network protocols in conditions of destructive cyber actions]. Proceedings of Tula State University. Technical sciences. 2021. No. 2. pp. 265-276 (in Russian).

9. Pegah Falinouss "Stock Trend Prediction using News Article's: a text mining approach" Master thesis -

2007.

10. Sebastiani, F., "Machine learning in automated text categorization" ACM Computing Surveys (CSUR) 34, pp.1 - 47, 2002.

11. Andreas Hotho "A Brief Survey of Text Mining" 2005.

12. D.Fensel, "Ontologies: Silver Bullet for Knowledge Management and e-Commerce", Springer Verlag, Berlin, 2000.

13. Shang, W., Huang, H., Zhu, H., Lin, Y., Qu, Y., and Wang Z., " A Noval Feature Selection Algorithm for text catogorization." Elsevier, science Direct Expert system with application -2006, 33(1), pp.1-5, 2006.

14. Liu, H. and Motoda, "Feature Extraction, constraction and selection: A Data Mining Perpective.", Boston, Massachusetts(MA): Kluwer Academic Publishers.

15. Wang, Y., and Wang X.J., " A New Approach to feature selection in Text Classification", Proceedings of 4th International Conference on Machine Learning and Cybernetics, IEEE- 2005, Vol.6, pp. 3814-3819, 2005.