Научная статья на тему 'Классификация информационных ресурсов с использованием методов кластеризации'

Классификация информационных ресурсов с использованием методов кластеризации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
185
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ / CLASSIFICATION / КЛАСТЕРИЗАЦИЯ / CLUSTERING / СУФФИКСНОЕ "ДЕРЕВО" / SUFFIX TREE / ЛАТЕНТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ / LATENT SEMANTIC ANALYSIS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Перевалова А. Ю.

Для кластеризации электронных документов предлагается метод STC, рассматриваются достоинства и недостатки данного метода, основные этапы кластеризации. Выдвинуто предложение по устранению недостатков.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Перевалова А. Ю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE USE OF CLUSTERING METHOD FOR INFORMATION RESOURCE CLASSIFICATION

The use of STC method for electronic documents clustering is proposed, the advantages and disadvantages of this method and the main stages of clustering are discussed. A suggestion for improvements is made.

Текст научной работы на тему «Классификация информационных ресурсов с использованием методов кластеризации»

мационных атак, реализуемых в вычислительных сетях. Примером могут служить атаки на отказ в обслуживании (DoS - Denial of Service) и распределенные атаки на отказ в обслуживании (DDoS - Distributed Denial of Service).

С точки зрения эффективности борьбы с распространением DDoS-трафика, наибольшим потенциалом обладают системы защиты, развернутые на уровни вычислительных площадок и узлов агрегации региональных провайдеров, так как обладают следующими преимуществами:

1) непосредственный, физический доступ клиентских хостов к глобальной сети, которые могут быть как непосредственными участниками бот-сетей, так и целью информационной атаки. Данное обстоятельство позволяет локализовать/отключить от сети провайдера только лишь инфицированный хост/сегмент сети как вредоносный или создать резервные маршруты в случае атаки на него;

2) провайдер регионального уровня имеет доступ, как правило, к нескольким магистральным линиям, что позволяет, используя средства маршрутизации трафика, достаточно эффективно локализовать и/или блокировать вредоносный трафик, идущий как в сеть провайдера, так и из нее;

3) имеется большое количество детальных данных о проходящем через сеть провайдера трафике для последующего анализа.

Главной особенностью анализа сетевого трафика в сети провайдера является большой объем обрабатываемых данных. Учитывая проведенные исследования и приведенные данные [2], было выявлено, что задача анализа и выявления аномального трафика обладает следующими специфическими особенностями:

1) отсутствует общепризнанная модель описания сетевого трафика;

2) информативность полученных данных при анализе зависит от загруженности исследуемых каналов связи: в слабо нагруженных каналах информативность падает из-за неустойчивого поведения трафика, в сильно нагруженных - из-за их максимальной загруженности;

3) наблюдается свойство «самоподобия» трафика вычислительной сети [3];

4) при анализе резких всплесков сетевого трафика следует учитывать сезонные колебания, а также другие нарушения стационарности.

Таким образом, для решения задачи выделения из общего трафика сети провайдера вредоносного, наиболее подходящим на первых шагах исследования является применение методов кластерного анализа, использование которых позволит выделить характеристические признаки и построить модель описания сетевого трафика в сетях провайдеров регионального уровня. Построенная модель может применяться для эффективной идентификации и последующей локализации и/или блокирования вредоносного трафика.

Библиографические ссылки

1. Cisco Visual Networking Index: Forecast and Methodology, 2012-2017 [Электронный ресурс]. URL: http://www.cisco.com/en/US/solutions/collateral/ns341/ns 525/ns537/ns705/ns827/white_paper_c11-481360_ ns827_ Networking_Solutions_White_Paper.html (дата обращения 09.09.2013).

2. Щербакова Н. Г. Анализ IP-трафика методами DATA MINING. Проблема классификации // Проблемы информатики. 2012. № 4. С. 30-46.

3. Федорова М. Л. Об исследовании свойства самоподобия трафика мультисервисной сети // Вестник ВГУ. Сер. Системный анализ и информационные технологии. 2010. С. 46-54.

References

1. Cisco Visual Networking Index: Forecast and Methodology, 2012-2017 [Jelektronnyj resurs]. URL: http://www.cisco.com/en/US/solutions/collateral/ns341/ns 525/ns537/ns705/ns827/white_paper_c11-481360_ ns827_Networking_Solutions_White_Paper.html(dataobr ashhenija 09.09.2013).

2. Shherbakova N. G. Analiz IP trafika metodami DATA MINING. Problema klassifikacii. // Problemy informatiki. 2012. № 4. S. 30-46.

3. Fedorova M. L., Ledeneva Ob issledovanii svojstva samopodobija trafika mul'tiservisnoj seti // Vestnik VGU, Serija Sistemnyj analiz i informacionnye tehnologii. 2010. S. 46-54.

© Моисеев Е. Ю., 2013

УДК 004.056

КЛАССИФИКАЦИЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ КЛАСТЕРИЗАЦИИ

А. Ю. Перевалова

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Россия, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-шаП: [email protected]

Для кластеризации электронных документов предлагается метод БТС, рассматриваются достоинства и недостатки данного метода, основные этапы кластеризации. Выдвинуто предложение по устранению недостатков.

Ключевые слова: классификация, кластеризация, суффиксное «дерево», латентно-семантический анализ.

Решетневскуе чтения. 2013

THE USE OF CLUSTERING METHOD FOR INFORMATION RESOURCE CLASSIFICATION

A. Yu. Perevalova

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russia. E-mail: [email protected]

The use of STC method for electronic documents clustering is proposed, the advantages and disadvantages of this method and the main stages of clustering are discussed. A suggestion for improvements is made.

Keywords: classification, clustering, suffix tree, latent semantic analysis.

В современных организациях существует большое количество электронных документов разной степени конфиденциальности, доступ к которым не регламентирован. Это приводит к тому, что по неосторожности работник может удалить или переместить важную информацию. Чтобы этого избежать, необходимо построить систему информационной безопасности с разграничением доступа к ресурсам. Построение любой системы информационной безопасности начинается с анализа информационных ресурсов, а именно их классификации. Но проанализировать большой объем данных вручную достаточно сложно.

Решением этой проблемы может служить автоматизированная классификация документов. Без информации о классифицируемых документах заранее определить количество классов невозможно, поэтому целесообразно применять методы кластеризации. Главное отличие кластеризации от классификации состоит в том, что при кластеризации происходит разбиение множества документов на кластеры - подмножества, параметры которых заранее неизвестны. Количество кластеров может быть произвольным или фиксированным.

Для автоматизированной кластеризации документов могут быть применены следующие методы: LSA/LSI, суффиксные «деревья» STC, Scatter/Gather, K-means.

Единственным методом кластеризации документов на неопределённое число кластеров из перечисленных является иерархический нечисловой метод STC. Его преимущества состоят в том, что кластеры, полученные с помощью этого метода, имеют читаемое название, могут пересекаться и быть использованы для описания рубрик. Однако у данного метода имеются и недостатки:

1) метод способен работать только на ограниченной коллекции документов;

2) проблемы синонимии и омонимии (приводят к ошибочному отнесению документа к кластеру).

Решением первой проблемы является выделение ключевых понятий. В отличие от STC, метод LSA (Latent Semantic Analysis - неявный семантический анализ) лишен второго недостатка, но обладает рядом других: отсутствие подходящего названия для полученных кластеров, полученные кластеры не пересекаются, игнорируется порядок слов в документах. Поэтому в рамках поставленной задачи самостоятельно данный метод применяться не может.

В методе LSA индекс TF-IDF (Term Frequency -Inverse Document Frequency) определяет частоту встречаемости слова в конкретном документе: TF-IDF = TF * IDF

Все индексы TF-IDF для всех терминов и всех документов заносятся в единую матрицу. Два термина/документа будут тем более похожи по смыслу, чем ближе будут соответствующие строки матрицы [1].

Для решения второй проблемы STC предлагается вычисление индексов для синонимов и омонимов.

В процессе кластеризации информационных ресурсов (документов) можно выделить следующие этапы [2] (см. рисунок).

1. Поиск информации.

2. Предварительная обработка документов. Выполняются необходимые преобразования с документами для представления их в виде, с которым работает метод STC. Так как метод STC является нечисловым, необходимо удалить цифры. На смысловую нагрузку и дальнейшее определение категории документа это не повлияет.

3. Извлечение информации. Чтобы сократить большой объем кластеризируемой информации из выбранных документов, выделяются ключевые понятия (устойчивые словосочетания), над которыми в дальнейшем будет выполняться анализ. Среди ключевых понятий проводится поиск синонимов и омонимов путем сравнения со словарями, вычисляются индексы, строится матрица.

4. Построение суффиксного «дерева» для набора документов: построение «дерева» происходит следующим образом. На рёбрах «дерева» - слово или словосочетание. Каждой вершине «дерева» соответствует фраза. В тех вершинах «дерева», которые имеют потомков, имеются ссылки на документы, в которых встречается фраза, соответствующая вершине. Множества документов, на которые указывают эти ссылки, образуют базовые кластеры [3].

Если в процессе построения «дерева» при движении по «дереву» встречается омоним, то происходит расчет индекса этого термина, а затем сравнение с индексом поступившего термина в матрице. Если расстояние между строками матрицы меньше п (значение будет подобрано после практической реализации), происходит дальнейшее построение по этой ветке «дерева», иначе создается новая ветка с поступившим термином в главном узле.

Если базовые кластеры пересекаются более чем по половине содержащихся в них слов, то происходит объединение кластеров. Также если 2 базовых кластера являются синонимами, происходит их объединение. Объединённый базовый кластер будет содержать документы, содержащиеся в обоих кластерах.

5. Интерпретация результатов. Этап заключается или в представлении результатов на естественном языке, или в их визуализации в графическом виде.

Этапы кластеризации информационных ресурсов

Для кластеризации информационных ресурсов предлагается схема программной системы, состоящая из следующих модулей: морфологический модуль, модуль определения частых наборов слов, модуль построения «дерева» и дополнительно - словари синонимов и омонимов.

На вход подаются документы в определенном формате, затем они подвергаются отчистке от пунктуации и цифровой информации, слова приводятся к нормальной форме. После выделения ключевых понятий осуществляется поиск омонимов (по ребрам «дерева»). В случае их нахождения вычисляются индексы, составляется матрица, строится суффиксное «дерево». После завершения построения выполняется проверка, группировка.

Таким образом, в данной работе были рассмотрены достоинства и недостатки метода 8ТС. Предложено решение обнаружения синонимов и омонимов путем интеграции с методом Ь8Л. Представлена схема программной системы для автоматизированной кластеризации текстовой информации.

Библиографические ссылки

1. Кириченко К. М., Герасимов М. Б. Обзор методов кластеризации текстовых документов //

Диалог'2001 : материалы Междунар. конф. СПб. : STAR, 2001.

2. Барсегян А. А., Куприянов М. С., Степанен-ко В. В., Холод И. И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP. 2-е изд., перераб. и доп. СПб. : БХВ-Петербург, 2007.

3. Vector Space Model для семантической классификации текстов [Электронный ресурс]. URL: http://habrahabr.ru/sandbox/18635/ (дата обращения: 15.09.2013).

References

1. Kirichenko K. M, Gerasimov M. B. Obzor metodov klasterizacii tekstovyh dokumentov // Dialog'2001 : Materialy mezhdunarodnoj konferencii. SPb. : STAR, 2001.

2. Barsegjan A. A., Kuprijanov M. S., Stepanenko V. V., Holod I. I. Tehnologii analiza dannyh: Data Mining, Visual Mining, Text Mining, OLAP. 2-e izd., pererab. i dop. SPb. : BHV-Peterburg, 2007.

3. Vector Space Model dlja semanticheskoj klassifikacii tekstov. Available at: http://habrahabr.ru/sandbox/18635/ (accessed 15 September 2013).

© Перевалова А. Ю., 2013

i Надоели баннеры? Вы всегда можете отключить рекламу.