Исследование метода поиска дубликатов Веб документов с применением концептуальных структур

Нуриахметов В.Р.

word combinations from a text, including variants when words in a word combination are not adjacent.

Key words: full-text search, systems of technical support, conceptual graphs, conceptual lattices.

BogatyrevMikhail Yurievich, Dr. Sci., professor, okkamboamail.ru, Russia, Tula, Tula State University,

Nuriahmtov Vadim Raiphovich, postgraduate student, [email protected], Russia, Tula, Tula State University,

Vakurin Vladimir Sergeevich, postgraduate student, [email protected], Russia, Tula, Tula State University

УДК 004.912

ИССЛЕДОВАНИЕ МЕТОДА ПОИСКА ДУБЛИКАТОВ ВЕБ-ДОКУМЕНТОВ С ПРИМЕНЕНИЕМ КОНЦЕПТУАЛЬНЫХ

СТРУКТУР

В.Р. Нуриахметов

Рассматриваются вопросы детектирования дубликатов поисковыми машинами. Работа содержит некоторые результаты исследований возможностей применения семантических моделей текста в виде концептуальных графов для поиска дубликатов веб-документов.

Ключевые слова: поиск в интернете, нечеткие дубли, концептуальные структуры, концептуальные графы.

Большое количество документов в Интернете имеют копии, что непосредственно сказывается на результатах поисковых машин. Появляется проблема выявления дублей в веб-области поисковых систем. Актуальность проблемы обусловлена значительным расширением индексных баз поисковых систем, на обработку которых требуются значительные временные затраты и большие дисковые пространства. Также в последнее время набирает обороты схема искусственного увеличения популярности сайтов за счет обмена статьями, что приводит к еще большему количеству дублей веб-документов.

Методы решения данной проблемы можно разделить на два класса: online (на лету или в момент запроса) и offline (в момент индексации базы) кластеризация веб контента. Метод offline кластеризации используется при создании индексных баз поисковых систем.

В данном исследовании предлагается подход по выявлению дублирующихся документов на этапе online обработки запроса пользователя. Для определения дублей веб-документов будет использована семантическая информация текста.

Предлагаемый подход базируется на концептуальном представлении текста в виде концептуальных графов.

Концептуальные графы и их особенности. Концептуальный граф признан в качестве одной из семантических моделей, применяемых для анализа текстов. Вместе с концептуальными решетками концептуальные графы относятся к концептуальным структурам, которые являются одним из формальных представлений знаний [6]. Концептуальный граф - это двудольный направленный граф, состоящий из двух типов узлов: концептов и концептуальных отношений [1]. На рисунке показан пример концептуального графа для предложения «Система управления контентом - программный продукт, представляющий собой комплексную систему для управления содержанием сайта».

Пример концептуального графа (прямоугольники - концепты, эллипсы - отношения)

Обзор. Большинство работ посвящены off-line методам, при которых кластеризация происходит на этапе индексации сайтов путем вычисления значения некоторой хеш-функции. Документы считаются дубликатами, если значения их цифровых подписей совпадают или близки. Можно выделить синтаксический (выбор последовательностей символов, лексем)

и лексический (выбор представительных слов) методы вычисления цифровой подписи документов [2].

Самым распространенным синтаксическим методом является подход на основе шинглирования (от слова shingles-чешуйки) [3], при котором вычисляются хеш-коды для всех фрагментов документа. Вначале вычисляются контрольные суммы (шинглы) для всех подцепочек символов -п-грамм (или слов, предложений и т.д.) так, чтобы подцепочки перекрывались, шли внахлест. Затем в соответствии со схемой рандомизации выбирается подмножество этих хеш-кодов, частичное совпадение которых говорит о сходстве документов. Метод шинглирования нашел широкое применение в различных поисковых системах [5]. Он позволяет значительно уменьшить размер образа документа и упростить задачу кластеризации. В то же время кластеризация остается тяжелой вычислительной задачей и, как правило, требует инверсии отношения документ-шингл.

В лексических методах используется отбор множества представительных слов на основе показателей значимости этих слов. В работе [4] документ представляется множеством слов, которые входят в лексикон, то есть в набор описательных слов. Затем вычисляется хэш-код документа, вероятность сходства которого для двух документов равна мере сходства документов по метрике косинуса.

Постановка задачи. Пусть х = (хх,....,хй) - вектор характеристик объекта предметной области, й - кол-во характеристик объекта. Каждая характеристика есть вектор атрибутов хх = (х1г,....,хы). Например, хг - запись базы данных, в данном случае часть веб-документа - сниппет (небольшой отрывок текста из найденной поисковой машиной страницы сайта). Тогда вектором атрибутов для сниппета является набор его ключевых слов. У каждого ключевого слова есть свои атрибуты хи = (а1г,....,а1А), И - количество атрибутов ключевого слова.

X = (х1,...., хп) - множество объектов предметной области, в данном случае - это множество сниппетов веб-документов, полученных из запроса пользователя.

Пусть V = (/, ]) - общая функция схожести двух документов хг и х;,

отображающая й2-мерный вектор на диапазон вещественных чисел от 0 до 1:

Цу = {1, если х и х . дубли, 0, иначе}.

Для определения дублей необходимо определить функцию V такую, которая является оптимальной аппроксимацией Вц для всех

I, ], гдех,,х, е X .

7^7 17]

Сравнение документов будем осуществлять на основе сравнения ключевых слов и их атрибутов:

К= {к1, если х1г и х2у совпали, 0, иначе\,

Управление, вычислительная техника и информационные технологии Kaxij = k2, если Vav и Va2J совпали, < k2, иначе\, S j = ki + k2.

Если два ключевых слова совпадают и все их атрибуты также совпадают, то суммарный коэффициент S = 1 для этих двух ключевых слов.

Принятие решения о схожести документов происходит по следующей формуле:

K + K

K =у-K xi + Kaxi-, гдеК > К , (1)

j ^ NumAllKeyWord 'J кр W

где K.. - коэффициент схожести двух сравниваемых документов; Kxi - коэффициент схожести двух сравниваемых ключевых слов; Kaxi - коэффициент схожести атрибутов у двух сравниваемых ключевых слов; NumAllKeyWord - количество выявленных ключевых слов у сравниваемого документа; K - пороговый коэффициент схожести, при котором достигаются наилучшие показатели схожести двух документов.

Методы оценки эффективности алгоритма поиска дубликатов. Метрики для оценки текстового поиска основаны на отношении принадлежности (релевантности) документа запросу (кластеру).

Наилучшую характеристику эффективности работы алгоритмов информационного поиска дают метрики точности (precision) и полноты (recall) [9].

Точность - способность системы выдавать в списке результатов только документы, действительно являющиеся дубликатами:

NumCorrectDoc

precision =-,

NumCorrectDoc + NomInCorrectDoc

где NumCorrectDoc - количество найденных пар дубликатов, совпадающих с релевантными парами; NomInCorrectDoc - количество найденных пар дубликатов, не совпадающих с релевантными парами.

Полнота - способность системы находить дубликаты без учета количества ошибочно определенных недубликатов:

„ NumCorrectDoc

recall =-,

NumCorrectDoc + NomNotFoundCorrectDoc

где NumCorrectDoc - количество найденных пар дубликатов, совпадающих с

релевантными парами; NomNotFoundCorrectDoc - количество не найденных

пар дубликатов, совпадающих с «релевантными» парами.

F-мера является гармоническим средним и часто используется как единая метрика, объединяющая метрики полноты и точности:

2 * precision * recall precision + recall

Соотношение полноты и точности, а также значение F-меры зависят от пороговых значений схожести, при которых два документа считаются дубликатами.

Описание алгоритма. Решение о принятии схожести двух документов основывается на сравнении ключевых слов и их атрибутов в документах.

Рассмотрим алгоритм определения ключевых слов и их атрибутов из документа. Первым этапом является разбиение сравниваемых документов на предложения, вторым этапом - построение концептуальных графов предложений.

Построение концептуальных графов из текстов естественного языка можно разделить на несколько этапов.

1.Разделение текста ЕЯ (естественный язык) на предложения.

2.Разделение предложений на слова, знаки пунктуации и другие символы.

3.Удаление стоп-слов.

Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа [7]. Заранее составлены списки таких слов, и в процессе предварительной обработки они удаляются из текста. Типичным примером таких слов являются вспомогательные слова и артикли, например: "так как", "кроме того" и т. п.

4.Стэмминг - морфологический поиск [8].

Он заключается в преобразовании каждого слова к его нормальной форме. Нормальная форма исключает склонение слова, множественной формы, особенности устной речи и т. п. Например, слова "сжатие" и "сжатый" должны быть преобразованы в нормальную форму слова "сжимать".

5.Определение морфологических признаков каждого элемента предложения.

б.Определение концептуальных отношений (синтаксический разбор предложения).

7.Выбор концептов из списка элементов предложения.

Для выявления ключевых слов и их атрибутов анализируются отношения: атрибут (определяет описывающий концепт) и генетив (определяет концепт - часть целого) [11]. Правило «генетив» применяется справа налево в отличие от правила «атрибут», которое применяется слева направо. Это означает, что при применении правила «генетив» главным является второй концепт, а зависимым - первый. При применении правила «атрибут», наоборот, главный первый концепт, зависимый - второй. Такое применение правил обусловлено более качественным разбором предложения. Применение правил в таком порядке было выбрано после многочисленного тестирования алгоритма построения концептуальных графов на различных предложениях.

В конечном итоге, схожесть двух документов определялось по формуле (1).

Методика исследования. Для исследования было взято несколько десятков отобранных сниппетов, выдаваемых поисковой системой Яндекс. Каждое описание веб-страницы представляло текст, состоящий из 2-5 предложений. Таким образом, в качестве механизма предварительной кластеризации использовалась выдача поисковой системой ограниченного количества релевантных запросу документов. Методом экспертной оценки были определены дублирующиеся документы для 10 запросов.

Для удовлетворения задачи представления каждого из объектов предметной области X в виде вектора использовался разработанный текстовый анализатор SemText, который выявлял в каждом предложении ключевые слова и их атрибуты (связные слова). Таким образом, сниппеты рассматривались как объекты, имеющие две характеристики: ключевые слова и их атрибуты.

С помощью сравнения ключевых слов и их атрибутов определялись коэффициенты схожести двух документов. Экспериментально было выявлено, что наилучшие показатели схожести двух документов достигаются при пороге K > 0,6. При таком коэффициенте документы считались дублями.

Результаты исследования. Работа алгоритма проверялась при нескольких коэффициентах к, к2 для того, чтобы определить уровень влияния атрибутов ключевых слов на эффективность алгоритма поиска дубликатов, результаты приведены в таблице. Для оценки эффективности рассчитывались точность (precision), полнота (recall) и F-мера.

Показатели точности, полноты и Г-меры алгоритма поиска дубликатов с применением концептуальных структур

Коэффициент Precision Recall F

k = 0.5, к2 = 0.5 1 0,47 0,64

к = 0.7, к2 = 0.3 1 0,60 0,75

к = 0,9, к2 = 0,1 1 0,80 0,89

Наилучшая эффективность работы алгоритма достигнута при соотношении коэффициентов к1 = 0,9, к2 = 0,1 (наилучшие показатели «полноты»), т.е. влияние атрибутов ключевых слов на сравнение двух документов не очень велико. При этом в них хранится дополнительная информация, которую возможно использовать для поиска дублей веб-документов. При этом «точность» алгоритма высока. Это обусловлено тем, что анализируются только ключевые слова, которые в полной мере отображают содержание документа, и при сравнении двух документов не возникает ошибочно найденных дублей.

Заключение. Для решения поставленной задачи поиска дубликатов веб-документов, представленных в виде нескольких предложений, предлагается алгоритм, выделяющий из текста документа ключевые слова и их атрибуты путем построения концептуальных графов и сравнивающий полученные характеристики документов. Таким образом, задача определения дубликатов веб-документов базируется на сравнении ключевых слов и их атрибутов. Экспериментальные результаты доказывают эффективность предлагаемого алгоритма поиска дубликатов веб-документов.

В дальнейшем планируется расширение количества отношений, участвующих в поиске ключевых слов и их атрибутов. Будет оптимизирован текстовый анализатор SemText в направлении улучшения построения концептуальных графов, а также расширения числа поддерживаемых языков. Работа выполнена при поддержке РФФИ: грант №11-07-97542.

Список литературы

1. Богатырев М. Ю., Латов В.Е., Столбовская И.А. Применение концептуальных графов в системах поддержки электронных библиотек // RCDL 2007: сб. трудов участников конференции. Переславль, 2007. С.150-157.

2. Цыганов Н.Л., Циканин М.А. Исследование методов поиска дубликатов веб-документов с учетом запроса пользователя // Интернет-математика 2007: сб. работ участников конкурса. Екатеринбург: Изд-во Урал. ун-та, 2007. С. 211-222.

3. Syntactic clustering of the Web / A.Broder [et al.] // Proc. of the Sixth International World Wide Web Conference, 1997.

4. Collection statistics for fast duplicate document detection / A.Chowdhury [et al.] // ACM Transactions on Information Systems. 20(2). 2002. P. 171-191

5. Carpineto C., Romano G. Concept Data Analysis: Theory and Applications N.Y.: Wiley, 2004.

6. Dean J., Henzinger M. Finding related web pages in the World Wide Web // Proc. of the Eighth International World Wide Web Conference, 1999. P. 389-401

7. Kolatch E., Toye J., Dorr B. Look Alike // Sound Alike Algorithms for Assessing Drug Name Similarities. 2004.

8. Overmyer S., Lavoie B., Rambow O. Conceptual modeling through linguistic analysis using LIDA // Proc. of 23rd International Conference on Software Engineering (ICSE'01). 2001. P. 401- 410.

9. Saeki M., Horai H., Enomoto H.. Software Development process from natural language specification // Proc. of 11th International Conference on Software Engineering. 1989. P. 64-73.

10. Sowa J.F. Conceptual Graphs for a Data Base Interface // IBM Journal of Research and Development. 20(4). 1976. P. 336-357.

11. Sowa J.F. Knowledge Representation: Logical, Philosophical, and Computational Foundations // Brooks Cole Publishing Co., Pacific Grove, CA, 2000.

Нуриахметов Вадим Раифович, аспирант, vadm-nuriahmetov@yandex. ru, Россия, Тула, Тульский государственный университет

INVESTIGATING TECHNIQUES OF DUPLICATE WEB DOCUMENTS DETECTION WITH USING CONCEPTUAL STRUCTURES

V.R. Nuriahmetov

This paper deals with the detection of duplicates by search engines. The work presents some results of research capabilities of semantic text models in the conceptual graphs form for find duplicate web documents.

Key words: internet search, fuzzy duplicates, conceptual structures, conceptual

graphs.

Nuriahmetov Vadim Raifovich, postgraduate, [email protected], Russia, Tula, Tula State University

УДК 004.9:378.1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ИНФОРМАЦИОННО-ОБРАЗОВАТЕЛЬНАЯ СРЕДА ВУЗА КАК ФАКТОР ПОВЫШЕНИЯ КАЧЕСТВА ОБУЧЕНИЯ

В.Б. Вишневецкий

Даны определение и признаки информационно-образовательной среды вуза. Рассмотрены основные области применения информационных технологий в деятельности вуза и их объединение в информационно-образовательную среду.

Ключевые слова: информационно-образовательная среда вуза, информационные технологии, Интернет-технологии, образовательный процесс, дистанционное обучение, метод мультимедиа.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нуриахметов В. Р.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Нуриахметов В. Р.

INVESTIGATING TECHNIQUES OF DUPLICATE WEB DOCUMENTS DETECTION WITH USING CONCEPTUAL STRUCTURES

Текст научной работы на тему «Исследование метода поиска дубликатов Веб документов с применением концептуальных структур»