Научная статья на тему 'ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА ПОИСКА ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ'

ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА ПОИСКА ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
19
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОИСК / МЕТОДЫ ИСКУССТВЕННОГО ИНТЕЛЛЕКТА / ПОИСК ДОКУМЕНТОВ / КЛАСТЕРИЗАЦИЯ / КЛАСТЕРНЫЙ АНАЛИЗ / ВЕКТОРНАЯ МОДЕЛЬ ДОКУМЕНТАЛЬНОГО ПОИСКА / КОРРЕЛЯЦИОННЫЙ АНАЛИЗ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / SEARCH / METHODS OF ARTIFICIAL INTELLIGENCE / DOCUMENT SEARCH / CLUSTERING / CLUSTER ANALYSIS / VECTOR MODEL OF DOCUMENTARY SEARCH / CORRELATION ANALYSIS / DATA MINING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Анисимов Д. М.

В данной работе представлена модель автоматизированной интеллектуальной поисковой системы полнотекстовых документов, которая основана на векторной модели документального поиска и кластеризации результатов выдачи поискового запроса.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

INTELLIGENT SEARCH SYSTEM OF FULL-TEXT DOCUMENTS

This paper presents a model of an automated intelligent search of engine full-text documents, which is based on the vector model of documentary search, and the clustering of search query results.

Текст научной работы на тему «ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА ПОИСКА ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ»

УДК 004.63:004.8

ИНТЕЛЛЕКТУАЛЬНАЯ СИСТЕМА ПОИСКА ПОЛНОТЕКСТОВЫХ ДОКУМЕНТОВ

Анисимов Д.М., магистрант, направление подготовки 09.04.02 Информационные системы и технологии, Оренбургский государственный университет, Оренбург e-mail: jonecuper@gmail.com

Научный руководитель: Пирязев М.М., кандидат экономических наук, доцент кафедры информатики, Оренбургский государственный университет, Оренбург e-mail: mpiryazev@yandex.ru

Аннотация. В данной работе представлена модель автоматизированной интеллектуальной поисковой системы полнотекстовых документов, которая основана на векторной модели документального поиска и кластеризации результатов выдачи поискового запроса.

Ключевые слова: поиск, методы искусственного интеллекта, поиск документов, кластеризация, кластерный анализ, векторная модель документального поиска, корреляционный анализ, интеллектуальный анализ данных.

Anisimov D.M., master student, training direction 09.04.02 Information systems and technologies, Orenburg State University, Orenburg e-mail: jonecuper@gmail.com

Scientific adviser: Piryazev M.M., Candidate of Economic Sciences, Associate Professor, Department of Informatics, Orenburg State University, Orenburg e-mail: mpiryazev@yandex.ru

Abstract. This paper presents a model of an automated intelligent search of engine full-text documents, which is based on the vector model of documentary search, and the clustering of search query results.

Keywords: search, methods of artificial intelligence, document search, clustering, cluster analysis, vector model of documentary search, correlation analysis, data mining

Полнотекстовый поиск (англ. full-text search) - автоматизированный поиск документов, при котором поиск ведётся не по именам документов, а по их содержимому, всему или существенной части [1]. Согласно векторной модели документального поиска, которая представлена на рисунке 1, сами документы и поисковые запросы представляются как векторы в N-мерном евклидовом пространстве. Компоненты, составляющие такие векторы, соответствуют N терминам, образующим пространство терминов. Смысловая близость [2] документов, являющаяся также и релевантностью поискового запроса, выражается с помощью аппарата корреляционного анализа, через подобие векторов.

Для вычисления меры близости используется косинусная метрика.

INTELLIGENT SEARCH SYSTEM OF FULL-TEXT DOCUMENTS

информационное

прост раке m Öd

nOUCKQ

Рисунок 1 - Векторная модель документального поиска

Таким образом, объект исследования 01:

где

МТ1 - метод поиска документов; МО^- - векторная модель документального поиска;

СР^к - средство автоматизации поиска. В общем виде описание модели документального поиска имеет вид кортежа [3]:

< D, 0, R(d, а) > ,

где

D - множество представлений документа; 0 - множество представлений информационной потребности (запроса);

^ - средства моделирования представлений документа, запросов и их отношений; R(d,q) - функция ранжирования, определяющая порядок распределения документов в поисковой выдаче.

Соответственно, для векторной модели: документы О = {01,021 ... От] разбиваются на словарь терминов [4] V = ...,£„} с помощью регулярных выражений [7]. Затем проводится индексирование всех документов по словарю терминов. Вычисляются веса I в документах D, как отношение частоты вхождения термина с индексом I в документ D. к суммарной частоте вхождения данного

термина по всем документам: и^ = —. Таким образом, каждый документ взвешивается и принимает вид Ц: ^ = ...и^ ...м^. причем Ф О,

... = весам и^ (¡, к(ч уникальные Г и I) = < Т. W >. Аналогично будет выглядеть вектор весов для поискового запроса: (2$: = \viwi ...и^ .

Метрика в векторном пространстве размерности п, определяющая степень близости двух документов [5], представлена с помощью коэффициентов корреляции, мерой косинуса:

Но перебор всех коэффициентов корреляции между поисковым запросом и исходными документами потребует больших вычислительных затрат при большом числе документов. Для решения этой проблемы похожие документы на основе порогового значения коэффициента корреляции ср группируются в кластеры [7], где документы более тесно связаны друг с другом, нежели с другими кластерными группами. Далее в каждом кластере находится центроид С. Затем коэффициенты корреляции, при нахождении релевантных запросу документов, определяются только между самим запросом и центроидами кластеров, и если центроид релевантен запросу, то можно продолжать поиск по всем элементам данного кластера. На основе вышеперечисленного выделены признаки, характеризующие объект исследования (таблица 1).

Таблица 1 - Признаки, характеризующие объект исследования

Признак Нормализованное значение признака

= { £ 1, , ■ ■ ■ , ^} - индексированный словарь уникальных терминов х1

О¿\ Б 1 = и1, ■ ■ .ик ■ ■ .и^- вектор весов документа х2

С ) - корреляционные коэффициенты х3

(}< : у/1,■ ■ .ик ■ ■ вектор весов поискового запроса х4

и1 (Й , Р0 = У - вес термина 1 в документе 01 х5

Й (£0 - частота вхождения термина под номером 1 в документ 01 х6

Р (й) = - суммарная частота вхождения данного термина по всем документам х7

т - количество документов х8

п - размерность векторного пространства х9

ср - пороговое значение коэффициента корреляции х10

С с = - ■ X . = 1 — - центроид кластера П || <3 х11

||Б У - евклидова норма в векторном пространстве х12

тС - число всех документов кластера х13

Таким образом, может быть построена целевая функция поиска:

,

)

где

СА - класс автоматизации поиска полнотекстовых документов; х. - нормализованные признаки; Rpv - область допустимых значений; t. - оперативность поиска;

чпах

Ьх - релевантность результата поискового запроса.

Алгоритм поиска на основе разработанной модели представлен в виде обобщенной диаграммы состояний [4] на рисунке 2.

Рисунок2-Алгоритмпоиска

Литература

1. Navarro G., Baeza-Yates R., Sutinen E., Tarhio J. Indexing Methods for Approximate String Matching // IEEE Data Engineering Bulletin. - 2001. - Vol.24(4).-pp.19-27.

2. Барахнин В. Б., Нехаева В. А., Федотов А. М. О задании меры сходства для кластеризации текстовых документов // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. - 2008. - Т. 6. -Вып. 1. - С. 3-9.

3. Барахнин В. Б., Ткачев Д. А. Кластеризация текстовых документов на основе составных ключевых термов // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. - 2010. - Т. 8. - Вып. 2. -С. 5-14.

4. Буч Г. Язык UML. Руководство пользователя / Г. Буч, Д. Рамбо, А. Джекобсон, 2-е изд. - М.: ДМК Пресс; - СПб.:Питер, 2004.-432с.

5. Зейн А. Н. Исследование и разработка методов автоматической кластеризации интернет-пользователей и Интернет-ресурсов для персонализации поиска: дис. канд. техн. наук: 05.13.11 / А.Н. Зейн - М., 2014. - 303 с.

6. Фридл Дж. Регулярные выражения, 3-е издание / Дж. Фридл - Пер. с англ. - СПб.: Символ-Плюс, 2008. - 608 с.

7. Киселев М. Метод кластеризации текстов, основанный на попарной близости термов // Сборник работ участников конкурса «Интернет-математика 2007». - Екатеринбург: Изд-во Уральского университета, 2007. - С. 74-83.

i Надоели баннеры? Вы всегда можете отключить рекламу.