Научная статья на тему 'Методика кластеризации текстовых документов на основе их сокращенного представления'

Методика кластеризации текстовых документов на основе их сокращенного представления Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
295
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАСТЕРИЗАЦИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ / РЕДАКЦИЯ ДОКУМЕНТА / CLUSTERING OF TEXT DOCUMENTS / EDITION DOCUMENT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Власов Владислав Александрович, Данилкин Федор Алексеевич

Рассмотрена методика кластеризации текстовых документов, обладающая повышенным быстродействием по сравнению существующими методиками, за счет использования их сокращенного представления. Основным назначением методики является нахождение кластеров, содержащих различные редакции одного документа, содержащие исправления и дополнения к тексту

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Власов Владислав Александрович, Данилкин Федор Алексеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

TECHNIQUE OF THE CLUSTERING OF TEXT DOCUMENTS ON THE BASIS OF THEIR REDUCED REPRESENTATION

The technique of a clustering of the text documents, possessing the increased speed in comparison by existing techniques, at the expense of use of their reduced representation is considered. Basic purpose of a technique is finding of the clusters containing various editions of one document, containing corrections and additions to the text

Текст научной работы на тему «Методика кластеризации текстовых документов на основе их сокращенного представления»

The realization of checking the database logical structure correctness with a tablo. The algorithm’s target audience are the companies work with databases, consulting firms, serving databases, universities to learn the basics of relational database theory. In the absence of such software on the market that utilize testing by board as the main tool checks the database structure, the algorithm is essentially new.

Key words: database, join-dependences, functional-dependences, a tablo, the sweep

method.

Baranchikov Alexey Ivanovich, candidate of technical science, docent, [email protected], Russia, Ryazan, Ryazan State Radio-Engineering University,

Drozhzhin Igor Vladimirovich, postgraduate, [email protected], Russia, Ryazan, Ryazan State Radio-Engineering University,

Gromov Aleksey Yurievich, assistant, [email protected], Russia, Ryazan, Ryazan State Radio-Engineering University

УДК 004.021

МЕТОДИКА КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ НА ОСНОВЕ ИХ СОКРАЩЕННОГО ПРЕДСТАВЛЕНИЯ

В. А. Власов, Ф.А. Данилкин

Рассмотрена методика кластеризации текстовых документов, обладающая повышенным быстродействием по сравнению существующими методиками, за счет использования их сокращенного представления. Основным назначением методики является нахождение кластеров, содержащих различные редакции одного документа, содержащие исправления и дополнения к тексту

Ключевые слова: кластеризация текстовых документов, редакция документа

Введение

На практике довольно часто встречается задача разбиения набора текстовых документов на семейство непересекающихся множеств, в каждом из которых элементы являются последовательными редакциями одного и того же документа, с учетом исправлений и добавлений, а также исключенных фрагментов текста.

Любые документы имеют некоторую физическую структуру, состоящую из набора информационных полей, в которых хранится закодированная определенным образом текстовая информация на естественном языке, сведения о визуальном представлении текста и прочая информация.

Два документа могут содержать одинаковый или похожий текст, написанный напримерна русском или английском языке, однако физически быть реализованными в различных форматах хранения информационных полей, что не обеспечивает возможности непосредственного сравнения файлов.

Существует множество методик [1], позволяющих производить кластеризацию текстовых документов на основании содержания естественного языка, и основаны на модели векторного пространства, расширении алгоритма к-внутригрупповых средних, генетических алгоритмах или специальном кластерном анализе. Существуют и еще более сложныенауч-ные методики[2]. В таких методиках алгоритмическая сложность является довольно высокой, а сама кластеризация документов происходит по тематике текста и ключевым словам.

В статье предлагается рассмотрение методики разбиения набора текстовых документов на кластеры, включающие различные редакции одного логического документа. Методика основана на сравнении входящих в документ элементов естественного языка, а также формировании адаптируемой базы кластеризации, позволяющей существенно уменьшить число потенциальных сравнений элементов для документов.

Извлечение слов естественногоязыка из документа

Предполагаемая методика кластеризации множества текстовых документов Б на основе содержимого естественного языка требует, чтобы оригинальный документ d е Б приводился в форму, в которой он является представимым в виде упорядоченной последовательности Ж значимых элементов естественного языка w = пр^Ж, и соответствующего каждому из них значения специальной величины - квантитета к, которая отражает степень выделения элемента в оригинальном документе.

Упорядоченное множество значимых элементов естественного языка Ж получаются из документа, посредством первоначального извлечения текста на естественном языке из оригинального формата информационных полей, и последующего удаления незначимых элементов, таких как знаков препинания, предлогов и союзов, а также некоторых глаголов и местоимений, которые не являются ключевыми элементами текста.

Далее для каждого значимого элемента текста на естественном языке w устанавливается в соответствие величина квантитета к = Quantitet(w), формируемая в соответствии с особенностями визуального форматирования текста, такого как размер и гарнитура шрифта, величины отступов и так далее, где Quantitet является инъективным отображением множества всех элементов w в множество действительных чисел в интервале [0,1] включительно.

После осуществления преобразования множества документов Б по предлагаемой схеме, каждому документу d ставится в соответствие упорядоченное множество Ж. Практическая реализация преобразования фи-

зического документа в набор элементов естественного языка, с учетом визуального оформления документа, а также дополнительные подробности предоставлены в [3].

Методика может быть улучшена на основании использования того факта, что при выполнении сравнения слов естественного языка, можно не учитывать конкретную грамматическую форму, в которой оно входит в текст. Для этого необходимо осуществить преобразование всех слов в начальную форму, в соответствии с грамматическими правилами естественного языка, на котором написан текст.

Схематично предполагаемый метод преобразования документа показан на рис.1.

Оригинальный документ

Зііглезвиє текста Некс'орын первый ййзгцтекев& содержащим

Інйнй преГиИнанйй. гі] їййжй-— ЧґгїФ йёмОлйбйШкй

- с.ловэ с оптлческим выделением, н-э пример полужирный шрифт или курсивный.

Неногорый второй абзац текста, содержащий некоторую информацию...

Рис І.Составлениехарактеристики документа

После осуществления преобразования слов естественного языка в начальную форму, каждому документу d теперь уже ставится в соответствие упорядоченное множество F, включающий последовательность элементов f в начальной форме. Для элементов f сохраняется инъективное

отображение Quantitet. Практическая реализация приведения слов в начальную форму, на примере русского языка, а также дополнительные подробности предоставлены в [2].

Основная идея кластеризации текстовых документов на основе содержимого естественного языка заключается в отнесении документов d из множества D к тому или иному классу, на основе упорядоченного множества F элементов естественного языка в начальной форме, имеющих связанное с ними значение квантитета k, представляющего собой характеристику документа.

Разбиение документов на непересекающиеся множества На основании вышеизложенного, возможно введение инъективного отображения TextList, которое для каждого документа d устанавливает в соответствие ему характеристику документа F, то есть

"d$F= TextList^)) а ^ є В))

Задача состоит в осуществлении разбиения множества документов В на упорядоченное множество О непересекающихся подмножеств - кла-

Кл ра«трр>1(1ти к-л документ*

рюво IV пильной Форме Квйіпиїєт

заглавие 0.3

г£КСт о.а

нвкоторьіі 0.5

ЛерВЫИ 0.5

ЭНЙК1-! 0.6

препинание 0.6

-іемілов-ажио 0.55

стеров g, таких что

"іД?("і ((і Є {0,1, |})л (g = ПРіО) А ("^(<І Є g) А (<і Є Б))))

Решением задачи является выполнение последовательности действий, в течение которых осуществляется определение принадлежности очередного входного документа к некоторому существующему кластеру g, или же создание нового кластера g, в случае невозможности произведения соответствующей классификации.

Распределение документов по кластерам g выполняется в виде последовательности итераций, количество которых равно числу кластеризуемых документов. В каждой итерации формируется свое упорядоченное множество Оі, где і є {0,1,_ \Б|}, содержание которого определяется в соответствии с документами, которые на текущий момент уже отнесены в соответствующие им кластеры.

Схематично метод разбиения документов показан на рис.2.

Рис 2. Распределение документов по кластерам

Для каждого из кластеров g вводится характеристика г, где г є Яі которая на каждой на і -ой итерации является упорядоченным множеством слов /, представленных в начальной форме, с сопоставленным инъективным отображением Quantitet. Характеристика г является однозначно определенной для каждого кластера g, на основании инъективного отображения Яерге8еЫег, так что

"g$г ("к {{к є{0,1, _ \Оі |})а С? = прк° )а (г = пркЯі)

А (г = Яерге8еШег^))))

Распределение документов по кластерам осуществляется на основании метрики, которая является расстоянием между входным документом и характеристикой кластера. Метрика определяется как двухмерное инъективное отображение из множества, являющегося декартовым произведением характеристик кластеров г на текстовые определения документов на естественном языке ^, в множество действительных чисел в интервале [0,1] включительно, так что

"r"d$F$c("k(к є {0,1,_|Ri}) л (г = прkRi) а (г = прkRi)

а (Г = TextList(d))л (d є D)л (е = Compare(r,Г))) Итерационный процесс кластеризации документов состоит из последовательного решения следующих задач на каждой і -ой итерации:

*

формирование обновленной характеристики г кластера g, где g є Оі, и поиск подходящегокластера для очередного документа.

Схематично итерационный процесс отображен на рис. 3.

Рис 3. Итерационный процесс кластеризации документов

Входные документы могут поступать в итерационный процесс в произвольном порядке, и целевой результат по их разбиению на классифицирующие подмножества не изменяется в зависимости от этого. Для удобства формального описания процесса, осуществляется введение отображения ВоеИпт из множества документов во множество натуральных чисел, которое означает фактически номер очередного входного документа

е Э) л (ё2 е Э)

((ЭосМиш() = ЭосЫиш(ё2)) ® (ё = ё2)))

Процесс разбиения документов на кластеры может быть представлен в виде следующего соотношения:

"ёЗО((ёе Э)л (3Е3/(Е = TextList(ё))л

(/ = ЭосМиш(ё)) л 3g (3С30/30/+1 Vg("к(ке {0,1,...|0/}) л (^ = пркО/) л (3г(г = Яерге8еШег^)) л ("с(с е С) л (с = Сошраге(г,Е))) л (3г = а^шах с) л

^(г = Керге-^еМег(g)) ) л (^* = g и{ё}))л

(О/+1 = (О/ \{е})и * }) ) л ((/ = \Э\)®(0 = О/+1))))

В соотношении вводится множество С, которое содержит текущие рассчитанные значения метрических расстояний между входным документом ё и кластером g. В множестве С определяется максимальное ненулевое значение, и находится соответствующий ему кластер, в который осуществляется включение документа. Учитывается случай, при котором ни один из существующих на текущей итерации кластеров g не подходит для входного документа, тогда в качестве г = а^шах с будет получено пустое множество, и фактически будет создана новый кластер.

В случае, если ни одного кластера g еще не существует, что происходит в начале работы итерационного процесса, этап сопоставления входного документа с существующими характеристиками кластеров пропускается, а также создается новая пустая характеристика, и происходит переход к следующей итерации.

Формирование характеристики для кластера Формирование характеристики для кластера осуществляется на основании отображения Кepгesenteг, которое переводит кластер g в набор слов с сопоставленными значениями квантитетов.

Характеристика кластера фактически содержит все слова из входящих в него документов, с сохранением порядковых позиций элементов, учетом повторяющихся фрагментов текста, а также квантитетов, в случая их существования.

Если последовательности слов в документах являющихся совпадающими, а значения квантитетов - различаются, то в результирующей характеристике кластера осуществляется использование усредненного значения, сформированного в соответствии с количеством документов, в которых рассматриваемая последовательность слов имеет одинаковое значение квантитета.

Если очередной документ кластера содержит последовательность слов, не определенную в характеристике класса, возможно осуществления

добавления этой последовательности в конец характеристики.

Поиск подходящегокластера для документа

Поиск подходящегокластера для документа осуществляется на основании двухместного инъективного отображения Compare, которое переводит множество упорядоченных пар из слов, определяемых для характеристики кластера и текущего документа, в действительное число с в интервале [0,1] включительно, являющегося значением метрики.

Вычисление метрического расстояния с между характеристиками кластера и текущего документа фактически определяется на основании подсчета количества единичных слов f и словосочетаний из m последовательно расположенных слов (fj, f ... fm) в упорядоченных множествах F и r, которые следуют в одинаковом порядке, и имеют схожие значения квантитетов.

Процесс определения метрического расстояния осуществляется следующим образом. Сначала из упорядоченных множеств F и r выбирает такое, размерность которого является наибольшей. Далее для каждого элемента наибольшего из упорядоченных множеств, производится последовательное сравнение с элементами меньшего упорядоченного множества, и определяется количество слов f , расположенных в аналогичной последовательности. Итак, первый метрическое расстояние с вводится в соотношении

"F"r$c$C( ((F < |r|) A ("k1 (k1 е {0,1,...|r }) А (fk1 = r) А (Vk2 (k2 е {kb k1 +1. |F|}) A (fk2 = прк2 F) A ((fk1 = fk2 ) ® (k1 е C))))) v (F\ < |r|) A ("k1 (k1 е {0,1,.F|}) A (fk1 = прк1 F) A ("k2 (k2 е {kl, k1 +1,. |r|}) A (fk2 = Ш2 r) A ((fk1 = fk2 )®(k2 е C)))) a(c = |C|))

Метрическое расстояние может рассчитываться и с учетом последовательности слов фиксированной длины, то есть выполнении сравнения не единичных слов, а словосочетаний длины m. Такой метод расчета аналогичен предыдущему, однако вместо слова f в сравнении принимают участия последовательности из m последовательно расположенных слов (fb f2 ••• fm).

Возможно использование и модифицированного процесса определения метрического расстояния, в котором сравнивается не только последовательность слов f , но также и номера позиций, в которых эти слова расположена в соответствующих упорядоченных множествах F и r .

Практически целесообразно осуществлять введение метрического расстояния с с учетом последовательности слов длины m = 2 . В таком

48

случае уменьшается вероятность получения высокого значения расстояния метрики для непохожих документов, произошедшего из-за наличия множества одинаковых слов в идентичной взаимной последовательности в документах, однако составляющих различные предложения. Если выбрать значения m > 3, то даже незначительные различия в документах будут приводит к снижению метрического расстояния.

*

Если с < с , то значение с признается равным нулю, для того, чтобы отнесение входного документа к очередному кластеру не было разре-

*

шено. Значение параметра с выбирается исходя из эмпирических соображений, и обозначает минимальное значение метрического расстояния между характеристикой документа и характеристикой кластера, при котором документ можно считать отнесенным к кластеру.

*

Целесообразно выбрать значение с от0.25 до 0.4, рекомендуемое значение составляет 0.33, в соответствии с которым будут создаваться новые кластеры, если значение метрического расстояния между характеристикой документа и характеристикой кластера не достигло хотя бы 33% .

Заключение

Таким образом, рассмотренная методика позволяет осуществлять кластеризацию документов по содержимому естественного языка, с выделением кластеров на основе редакций логического документа, обладающих исправлениями и добавлениями. Методика применима для кластеризации документов на рабочих станциях пользователей, так и сетевых хранилищах.

Рассмотренная методика обладает достаточно высокой производительностью, поскольку уменьшает число сравнений элементов характеристик документов, за счет введения обобщенных характеристик кластеров, с которыми производятся последующие сравнения.

Методика может быть применена к любым типам текстовых документов, для которых возможно построение характеристики, как это было показано в статье. Кроме того, если характеристика документов имеет связанные значения квантитетов, качество кластеризации может быть значи-тельноулучшено.

Список литературы

1. Nicholas O. Andrews, Edward A. Fox: Recent Developments in Document Clustering //Department of Computer Science, Virginia Tech (2007).

2. MoisesGoldszmidt, MehranSahami: A Probabilistic Approach to Full-Text Document Clustering // Computer Science Department, Stanford University (1998).

3. Власов В.А.Преобразование слов русского языка в начальную форму // Сборник тезисов докладов IX Всероссийской межвузовской кон-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ференции молодых ученых. Спб.: ИТМО, 2012.

4. Власов В. А. Адаптивное извлечение взвешенного текстового содержимого из электронных документов// Сборник тезисов докладов VIII региональной магистерской научной конференции Тульского государственного университета. Тула: Издательство ТулГУ, 2013.

Власов Владислав Александрович, магистрант; [email protected], Россия, Тула, Тульский государственный университет,

Данилкин Федор Алексеевич, д-р техн. наук, проф., [email protected], Россия, Тула, Тульский государственный университет

TECHNIQUE OF THE CLUSTERING OF TEXT DOCUMENTS ON THE BASIS OF THEIR REDUCED REPRESENTATION

V.A. Vlasov, F.A.Danilkin

The technique of a clustering of the text documents, possessing the increased speed in comparison by existing techniques, at the expense of use of their reduced representation is considered. Basic purpose of a technique is finding of the clusters containing various editions of one document, containing corrections and additions to the text

Keywords: clustering of text documents, edition document

VlasovVladislavAleksandrovich, magistrand, [email protected], Russia, Tula, Tula State University

DanilkinFedorAlekseyevich, doctor of technical science, professor, fdanil-kin@yandex. ru, Russia, Tula, Tula State University

i Надоели баннеры? Вы всегда можете отключить рекламу.