Научная статья на тему 'ОБЗОР МЕТОДОВ ГЛОБАЛЬНОГО ПОЛНОТЕКСТОВОГО ПОИСКА'

ОБЗОР МЕТОДОВ ГЛОБАЛЬНОГО ПОЛНОТЕКСТОВОГО ПОИСКА Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
47
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННО - ПОИСКОВАЯ СИСТЕМА / БЫСТРЫЙ ПОИСК / ВЫБОРКА ДАННЫХ / ПОИСКОВЫЙ ИНДЕКС

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Силаев К.О., Силаева А.Н.

Приводится обзор информационно - поисковых систем, обеспечивающих быстрый поиск и обработку распределенных данных. Обосновывается выбор определенной системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

GLOBAL OVERVIEW OF THE METHODS OF THE FULL - TEXT SEARCH

It provides an overview of information - search engine, providing a quick search and processing of distributed data. Justifies the choice of a particular system.

Текст научной работы на тему «ОБЗОР МЕТОДОВ ГЛОБАЛЬНОГО ПОЛНОТЕКСТОВОГО ПОИСКА»

УДК 004.021

Силаев К. О. студент магистратуры

1 курс, факультет «Вычислительные системы» Томский государственный университет систем управления и

радиоэлектроники (ТУСУР) Россия, г. Томск Силаева А.Н. студент магистратуры

2 курс, факультет «Вычислительные системы» Томский государственный университет систем управления и

радиоэлектроники (ТУСУР) Россия, г. Томск Silaev K. O. master student

1 course, Department of «Computing systems» Tomsk State University of Control Systems and Radio Electronics (TUSUR)

Russia, Tomsk Silaeva A.N. master student

2nd course, Department of «Computing systems» Tomsk State University of Control Systems and Radio Electronics (TUSUR)

Russia, Tomsk

ОБЗОР МЕТОДОВ ГЛОБАЛЬНОГО ПОЛНОТЕКСТОВОГО ПОИСКА GLOBAL OVERVIEW OF THE METHODS OF THE FULL - TEXT SEARCH Аннотация: приводится обзор информационно - поисковых систем, обеспечивающих быстрый поиск и обработку распределенных данных. Обосновывается выбор определенной системы.

Ключевые слова: информационно - поисковая система, быстрый поиск, выборка данных, поисковый индекс.

Abstract: it provides an overview of information - search engine, providing a quick search and processing of distributed data. Justifies the choice of a particular system.

Keywords: information - search engine, quick search, data sampling, search index.

В ходе исследовательских мероприятий планируется решить определенную задачу. Эта задача состоит в создании индексов для быстрого поиска и обработки распределенных данных для создания сервисов и языков управления рабочим потоком распределенных вычислений, которые оптимизированы по использованию памяти и ресурсов локального диска и отказоустойчивы при работе с большими объемами данных, при этом позволяют кэшировать промежуточные результаты.

Для решения задачи необходимо создание полнотекстового поиска, то есть автоматизированного поиска документов, при котором поиск ведётся не по именам документов, а по их содержимому.

Из всего множества систем выделим информационно-поисковые системы (системы выборки данных) и информационно-поисковые системы строящие поисковый индекс.

Существующие информационные системы, работающие с электронными тестовыми документами, можно условно разделить на две категории:

• информационно-поисковые системы (information retrieval systems);

• системы выборки данных (data retrieval systems).

Такое разделение условно, так как многие современные информационные системы совмещают в себе свойства, как систем выборки данных, так и информационно-поисковых систем.

Основные отличия информационно-поисковых систем от систем выборки данных, представленных в таблице 1.

Информационно-поисковые Системы выборки

системы данных

Соответствие данных частичное точное

поисковому запросу

Классификация документов вероятностная детерминированная

Язык запросов естественный искусственный

Критерии выборки вероятностная функция булева функция

документов релевантности релевантности

Устойчивость к ошибкам в устойчивы неустойчивы

данных и запросах

Реляционные СУБД являются классическим примером систем выборки данных, где в качестве языка запросов используется тот или иной диалект языка запросов SQL. Язык SQL искусствен и позволяет задавать поисковые запросы лишь для поиска на точное соответствие или поиска по заданному шаблону.

Современные системы выборки данных обеспечивают надёжное и эффективное хранение данных, а также обладают высокой скоростью выполнения поисковых запросов пользователей. А информационно -поисковые системы предназначены для решения более общей задачи поиска, чем поиск на точное соответствие, и где конечной целью поиска является выбор релевантной поисковому запросу информации, степень релевантности которой можно определить как степень её смысловой близости к поисковому запросу, а это в свою очередь ведёт к тому что поисковые запросы в такого рода системах должны быть основаны на естественном языке, т.е. на том же языке в котором сформулирована исходная информация.

И системы выборки данных и информационно поисковые системы, работают с некоторой коллекцией документов. Исходную коллекцию

документов можно рассматривать как список записей, то есть документов, где каждая запись содержит в себе некоторый список слов, состоящих из символов алфавита.

В современных информационных системах в исходном множестве документов может содержаться дополнительная информация, описывающая документы, которая так же может использоваться, для осуществления поиска.

Большинство современных информационно-поисковых систем, для осуществления поиска строят на основе исходной информации, логические и физические структуры данных, представляющие собой поисковый индекс, который позволяет реализовать некоторую заданную модель информационного поиска. Преобразование информации в информационно -поисковых системах, строящих поисковый индекс, обычно состоит из следующих базовых этапов:

1) Анализ данных исходного множества текстовых документов и их преобразование в вид, удобный для построения полнотекстового индекса вычислительной машиной, выделение из документов содержательной информационной основы.

2) Анализ данных полученных в пункте 1 и последующее построение поискового индекса. В данном случае индекс является представлением данных, логическая модель которого определяет способ обработки и интерпретации данных и позволяет осуществлять информационный поиск.

3) Преобразование поисковых запросов в формат, позволяющий использовать поисковый индекс для вычисления функции релевантность запросов и документов и выборки релевантных запросу документов.

При обработке информации и построении поискового индекса потенциально можно использовать достаточно широкий спектр методов анализа текстовой информации документов, как например методы статистического, семантического, синтаксического и лингвистического анализа текста. Однако методы, анализирующие семантику и синтаксис текстовой информации, вплоть до настоящего времени не получили широкого распространения ввиду своей сложности и относительно низкой эффективности. Наибольшее распространение получили методы, использующие статистический анализ документов.

На данном этапе исследовательской работы было принято решение остановить свой выбор на информационно-поисковой системе, позволяющей использовать поисковый индекс.

i Надоели баннеры? Вы всегда можете отключить рекламу.