Принципы построения многомерного пространства терминов в процессе анализа предметно-ориентированной коллекции документов

Хруничев Роберт Вячеславович

УДК 002.513.5

Р. В. Хруничев

ПРИНЦИПЫ ПОСТРОЕНИЯ МНОГОМЕРНОГО ПРОСТРАНСТВА ТЕРМИНОВ В ПРОЦЕССЕ АНАЛИЗА ПРЕДМЕТНО-ОРИЕНТИРОВАННОЙ КОЛЛЕКЦИИ ДОКУМЕНТОВ

R. V. Khrunichev

PRINCIPLES OF CONSTRUCTION OF THE MULTIDIMENSIONAL SPACE OF TERMS IN THE ANALYSIS OF OBJECT-ORIENTED COLLECTION OF DOCUMENTS

Рассматривается проблема информационного поиска в предметно-ориентированной коллекции документов, возможность осуществления поиска документов посредством применения модифицированной модели поиска, основанной на векторной модели. Модернизация векторной модели заключается в возможности применения предметно-ориентированного словаря терминов на этапе предварительной обработки текста, что позволяет сократить количество термов для последующего частотного анализа текста. Закон Ципфа и принцип Луна, применяемые на этапе частотного анализа, также позволяют значительно сократить количество анализируемых термов. Приведен принцип построения многомерного пространства терминов, основанного на векторах, описывающих документ. Приведены принципы формирования данных векторов. Перечислены преимущества применения предметно-ориентированного словаря в процессе построения пространства термов, заключающиеся в возможности выделения составных термов и, за счет этого, более точного позиционирования документа в выдаче при запросе.

Ключевые слова: предметно-ориентированная коллекция документов, частотный анализ текста, хранилище данных, пространство термов.

The paper considers the problem of information retrieval in object-oriented collection of documents, the possibility of searching for documents by means of the application of the modified search model, based on the vector model. Modernization of the vector model is the ability to use object-oriented glossary of terms at the stage of preliminary processing of the text, allowing to reduce the number of terms for subsequent frequency analysis of the text. Zipf's rule and the principle of Luhn, used during the frequency analysis, can also significantly reduce the number of analyzed terms. The paper shows the principle of construction of the multidimensional space of terms, based on the vectors that describe the document. The principles of these vectors formation are given. The article also lists the advantages of the object-oriented vocabulary application in the process of constructing the space of terms, consisting in the possibility of separating of composite terms, and through this, more accurate positioning of the document in its issue upon request.

Key words: object-oriented collection of documents, frequency analysis of the text, data warehouse, space of terms.

Введение

В современных условиях довольно остро стоит вопрос о возможности анализа и использования знаний, накопленных в достаточно больших объемах. Постоянно множащееся количество документов становится уже не источником знаний и накопленного опыта, а их свалкой, в которой обнаружить нужную информацию просто не представляется возможным. По этой причине в последние годы стало появляться много поисковых систем, ориентированных на решение различных задач [1]. В основном эти системы обслуживают глобальный поиск в сети Internet, а на задачи поиска более низкого уровня, имеющие не меньшее, а порой и большее значение, внимание обращается в недостаточной степени, поскольку разработка таких систем поиска не принесет большой прибыли и сами системы имеют ограниченный спектр применения [2, 3]. Большое количество предприятий, обслуживающих различные отрасли народного хозяйства, или не имеют поисковых систем, или эти системы в недостаточной мере удовлетворяют потребности данных структур. В связи с этим возникает необходимость совершенствования поисковых систем или их адаптации с учетом конкретных условий использования или конкретной области применения. Под конкретными условиями следует понимать использование поисковых систем в хранилищах данных, содержащих предметно-ориентированную коллекцию документов.

В организациях, на предприятиях и прочих учреждениях, занимающихся определенным видом деятельности, такие хранилища содержат достаточно много документов, и ориентироваться в них становится всё труднее. Кроме того, редко, а точнее почти никогда, данные коллекции предметно-ориентированных документов являются структурированными, что могло бы значительно облегчить поиск в них нужной информации. Единственным выходом из сложившейся ситуации видится применение информационно-поисковых систем.

Перечь поисковых систем достаточно велик, но они являются интеллектуальной собственностью компаний-разработчиков, если говорить о масштабных системах; кроме того, они содержат утилиты, которые вряд ли могут быть применимы к анализу документов в предметноориентированных хранилищах данных, например утилиты глубокого лингвистического анализа текстовой информации [4]. Применение таких поисковых систем будет дорогостоящим, нецелесообразным и малоэффективным, поскольку не будут задействованы все их возможности. Поисковые же системы, не обладающие большим количеством вспомогательных утилит и основанные на простых алгоритмах, дают невысокие результаты поиска. К таким утилитам можно отнести утилиты лингвистического анализа, снятия проблемы синонимии, омонимии и др.

Данное направление исследования является перспективным в силу расширения масштабов компьютеризации и модернизации, в том числе и предприятий промышленного комплекса, перевода всего, или почти всего, документооборота в электронную форму, повышения компьютерной грамотности и прочих критериев. В совокупности все эти критерии указывают на то, что потребность в поисковых системах для предметно-ориентированных хранилищ данных будет только возрастать. А поскольку коммерчески выгодными являются только глобальные системы поиска, ориентированные на поиск информации преимущественно в сети Интернет, то проекты узкоспециализированного поиска оказываются в тени или в стороне от профессионального поиска. В связи с этим актуальность данной проблемы только возрастает, и однозначного решения, во всяком случае пока, нет.

Задача состоит в модификации одного из алгоритмов поиска с учетом конкретных условий применения, в частности для возможности поиска и анализа документов в предметноориентированных хранилищах данных.

Анализ показал, что наиболее распространены и часто используются алгоритмы, основанные на векторных моделях. Во-первых, данные алгоритмы имеют хорошее теоретическое обоснование; во-вторых - результаты применения алгоритмов удобны для ранжирования; в-третьих -используется достаточно простой статистический аппарат для формирования вектора, описывающего документ; в-четвертых - дают наглядность в отображении семантически сходных документов. В частности самым подходящим и удобным алгоритмом для решения задачи анализа предметно-ориентированной коллекции документов является алгоритм, использующий косинусную метрику в сочетании с частотным анализом текста [5].

Векторная модель поиска

В общем виде векторную модель можно представить как

где ^ - терм; І, - документ.

Это простая векторная модель, описывающая документ вектором с входящими «1» или не входящими «0» в него терминами. Применяя предварительный частотный анализ, данную модель можно преобразовать к виду

где wtj - вес терма в документе І¡.

Любую векторную модель предваряет лингвистическая обработка текста на естественном языке [4]. Например, для векторной модели, основанной на косинусной метрике, характерны

предварительная разметка, нормализация и комментирование термов текста. Разметка позволяет извлечь термы из «сырого» текста. Нормализация обеспечивает приведение всех термов к некоторой единой начальной форме. Комментирование предполагает создание для каждого терма метки, указывающей на часть речи, которой принадлежит терм [6].

Поэтапное уменьшение пространства анализируемых термов

Применение предметно-ориентированного словаря. Поскольку речь идет об анализе предметно-ориентированной коллекции документов, то, используя предварительную, на начальной стадии, обработку текста с применением словаря данной предметной области, можно снять задачи разметки, нормализации и комментирования. Кроме того, применение словарей позволит значительно упростить задачу выделения термов и составных термов. Так как такой подход ориентирован на пользователя-специалиста, то, применяя словарь, можно очистить текст от слов, не несущих смысловой нагрузки, заранее избавиться от неинформативной части текста. Такой подход позволит значительно облегчить последующий частотный анализ. Задача нормализации текста в этом случае также теряет свою актуальность, поскольку в словаре все термы приведены в нормальной форме [7].

Частотный анализ текста. После выполнения предобработки текста задача частотного анализа упрощается настолько, насколько неинформативным был текст, т. е. число слов для анализа сократится в Ы1Ык, где N - общее число слов в документе, Ык - число информативных слов. За счет уменьшения общего количества слов для анализа можно увеличить количество значимых слов, т. е. повысить разрешающую способность. Ранг термов, несущих смысловую нагрузку, после применения предметно-ориентированного словаря увеличится, что не могло быть выявлено в тексте, содержащем неинформативные, но имеющие высокий ранг слова (рис. 1) [5].

Чтобы осуществить задачу поиска документов в хранилище данных, необходимо на основе частотного анализа сформировать вектор, описывающий документ, и построить пространство терминов. Для построения пространства терминов требуется метрика для описания подобия между запросом и документом. Необходимо использовать характеристики документов и запроса. Предполагается, что лингвистическое подобие документа и запроса подразумевает тематическое подобие, т. е. выражает фактически релевантность документа. В связи с этим можно применять частотный анализ для обработки всей коллекции документов и на его основе выделять лингвистическое подобие документов и запроса [5].

Применение закона Ципфа и его вывода о том, что произведение частоты термина на его ранг есть величина постоянная, равная С = /к ■ гк, значительно упрощает задачу выбора размерности пространства терминов. Размерность пространства терминов, в соответствии с законом Ципфа, можно определить из соотношения С »Ыкт /10. После подбора экспериментальным путём оптимальных границ разрешающей способности множество терминов Ык сократится до - множество терминов после частотного анализа (рис. 2).

Рис. 2. Поэтапное уменьшение множества анализируемых термов

Формирование векторного пространства коллекции документов

Формирование вектора, описывающего документ. После частотного анализа термов главной задачей является формирование векторного пространства коллекции документов С, которое будет иметь размерность /10 . Принцип решения этой задачи заключается в создании вектора, описывающего документ:

где О - множество документов в предметно-ориентированном хранилище данных; М - множество термов после обработки текста на естественном языке посредством применения предметно-ориентированного словаря и частотного анализа текста.

Определение частоты терма или составного терма. Компоненты вектора (1) - термы

или составные термы, образующие пространство, а wJ■j - вес соответствующего терма или составного терма, который определяется по формуле [5, 8]:

где //г - частота термина їг в документе а/; /г - обратная документальная частота для термина tj в коллекции документов С, содержащей В документов; Д- - количество документов в коллекции С, содержащих термин tj . Вывод: чем выше частота термина в документе, тем выше его

вес, но термин должен не часто встречаться во всей коллекции документов, поскольку по закону Ципфа и применяемому к нему принципу Луна такие термы выпадут за границы разрешающей способности как термы с низким рангом и большой частотой [5, 8, 9].

Величина Wji в формуле (2) не является бинарной и изменяется в диапазоне (0-1), что позволяет повысить эффективность поиска, оценить степень соответствия документа запросу, упростить задачу ранжирования векторов й ■ в выдаче документов при поиске. Если документ

не содержит тех или иных термов, то соответствующий компонент вектора будет иметь значение равное нулю.

Построение пространства термов. После того как вся коллекция документов в хранилище данных проанализирована и каждый документ этой коллекции описан своим уникальным вектором, пространство термов можно изобразить в виде [Ыкт /10] -мерного пространства, каждый вектор в котором позиционируется единственно верным образом.

dj =[/, ^;.. ./, wj1;.. .tjm , wjm ], ./ =1,В; І =1,М,

(1)

Wj1 = и ■ /г

(2)

Условно изобразим пространство двух терминов (рис. 3). Здесь вектор q - вектор-запрос пользователя; ( - вектор, описывающий документ О1 по терминам и ¿2 . Поскольку для вычисления подобия векторов используется косинусная метрика, то чем меньше угол фг-, тем больше соответствие документа запросу. Углы а и Ь характеризуют зависимость векторов ( и (2 по терминам ¿1 и ¿2 , т. е. показывают частотную зависимость данных документов по соответствующим терминам [5].

Еще одним существенным преимуществом применения предметно-ориентированного словаря является то, что он позволяет выделять в тексте устойчивые словосочетания, т. е. определять термины не по отдельности и для каждого из них подсчитывать вес, а подсчитывать число вхождений данного словосочетания в исходный текст. Предположим, что в тексте термины ¿1 и ¿2 встречаются как в виде устойчивого словосочетания (образуют терм ¿3 ), так и по отдельности. Тогда, например, документ О1, описываемый вектором (, в котором данные термины являются устойчивым словосочетанием, будет в большей степени соответствовать запросу, в котором поиск осуществляется по данному словосочетанию (угол у меньше, чем углы а и Ь). Степень соответствия документа О1 запросу q будет меньше, если поиск осуществляется по одному из терминов ¿1 или ¿2 (угол у больше, чем углы а и Ь ), чем документа О2 , описываемого вектором (2, в котором термины ¿1 и ¿2 определяются как независимые. Если термины ¿1 и ¿2 в документе О1, описываемом (, будут также независимыми, то его местоположение, согласно рис. 3, изменится на (. Это приведет к тому, что вектор (2 будет больше соответствовать запросу q, чем вектор (, но семантическое содержание О1 больше соответствует запросу, чем О2 .

Заключение

Таким образом, применение предметного словаря позволяет увеличить степень независимости векторов, описывающих документы, значительно упрощая задачу ранжирования документов в выдаче при запросе. Предметно-ориентированные словари содержат термы или составные термы, которые позволяют увеличить независимость векторов, исключая или уменьшая

его вес в векторе, описывающем документ. Анализ предметно-ориентированной коллекции документов является специфическим, поскольку она содержит документы, тематика которых определена заранее, и, таким образом, может быть применена предобработка текста. В глобальных поисковых системах нет возможности для такого анализа, т. к. тематическая направленность запрашиваемого документа заранее неизвестна. Подобные преимущества делают поиск в предметно-ориентированных хранилищах данных значительно проще, позволяют модификацией существующих алгоритмов добиться более высоких результатов поиска.

СПИСОК ЛИТЕРАТУРЫ

1. СеменовЮ. А. Современные поисковые системы / Ин-т теорет. и эксперимент. физики. - М., 2010. - 17 с.

2. Основы технологии поиска в современных информационно-поисковых системах. [Электронный ресурс]. Режим доступа: www.fa-kit.ru/users/admin/Lect-IPS-01.htm.

3. Ландэ Д. В. Поиск знаний в INTER.NET. Профессиональная работа. - М.: Изд. дом «Вильямс», 2005. - 272 с.

4. Захаров В. П. Лингвистические средства информационного поиска в Интернете // Библиосфера. -2005. - № 1. - С. 63-71.

5. Сычев А. В. Математические модели документального поиска. [Электронный ресурс]. - Режим доступа: download.yandex.ru/class/sychev/present5.ppt.

6. Тактаев С. А. Поиск информации в компьютерных сетях: новые подходы. [Электронный ресурс]. Режим доступа: http://www.taktaev.com.

7. Маннинг К. Д., Прабхакар Рагхаван, Шютце Х. Введение в информационный поиск. - М.: Изд. дом «Вильямс», 2011. - 528 с.

8. Трегубов А. А., Пескова О. Ю. Статистические характеристики текстовых документов. Технологии информационного общества - Интернет и современное общество: VII Всерос. объед. конф. - СПб.: СПбГУ, 2004. - С. 73-76.

9. Закон Ципфа. [Электронный ресурс]. Режим доступа: http://webpavilion.ru/статьи/закон-ципфа.

Статья поступила в редакцию 30.11.2011, в окончательном варианте - 19.12.2011

ИНФОРМАЦИЯ ОБ АВТОРЕ

Хруничев Роберт Вячеславович - Рязанский государственный радиотехнический университет; Центр дистанционного обучения; инженер кафедры «Системы автоматизированного проектирования вычислительных средств»; hrunichev_robert@mail.ru.

Khrunichev Robert Vyacheslavovich - Ryazan State of Radio Engineering University; Center of Distance Learning; Engineer of the Department "Systems of Computer-Aided Design of Computational Tools"; hrunichev_robert@mail.ru.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хруничев Роберт Вячеславович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хруничев Роберт Вячеславович

PRINCIPLES OF CONSTRUCTION OF THE MULTIDIMENSIONAL SPACE OF TERMS IN THE ANALYSIS OF OBJECT-ORIENTED COLLECTION OF DOCUMENTS

Текст научной работы на тему «Принципы построения многомерного пространства терминов в процессе анализа предметно-ориентированной коллекции документов»