Научная статья на тему 'Классификация информационно-поисковых систем'

Классификация информационно-поисковых систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2845
215
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОИСК ИНФОРМАЦИИ / INFORMATION SEARCH / ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ / INFORMATION RETRIEVAL SYSTEMS / КЛАССИФИКАЦИЯ / CLASSIFICATION / ОБРАБОТКА ТЕКСТА / TEXT PROCESSING / СБОР ДАННЫХ / DATA COLLECTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Брезицкая В.В., Зеленков П.В., Прохорович Г.А., Перанцева А.В., Храпунова В.В.

В настоящее время активно ведутся работы по созданию систем поиска информации. Данные алгоритмы внедряются в корпоративные СППР, включая системы аэрокосмической отрасли. Приведена классификация существующих поисковых систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Брезицкая В.В., Зеленков П.В., Прохорович Г.А., Перанцева А.В., Храпунова В.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CLASSIFICATION OF INFORMATION SEARCH SYSTEMS

Currently the work to create information retrieval systems is developed. These algorithms are implemented in corporate Decision Support Systems, including aerospace. This research presents classification the existing search systems.

Текст научной работы на тему «Классификация информационно-поисковых систем»

Решетнеескцие чтения. 2015

УДК 004.031, 004.75

КЛАССИФИКАЦИЯ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

В. В. Брезицкая, П. В. Зеленков, Г. А. Прохорович, А. В. Перанцева, В. В. Храпунова

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

В настоящее время активно ведутся работы по созданию систем поиска информации. Данные алгоритмы внедряются в корпоративные СППР, включая системы аэрокосмической отрасли. Приведена классификация существующих поисковых систем.

Ключевые слова: поиск информации, информационно-поисковые системы, классификация, обработка текста, сбор данных.

CLASSIFICATION OF INFORMATION SEARCH SYSTEMS

V. V. Brezitskaya, P. V. Zelenkov, G. A. Prohorovich, A. V. Perantseva, V. V. Hrapunova

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation

Currently the work to create information retrieval systems is developed. These algorithms are implemented in corporate Decision Support Systems, including aerospace. This research presents classification the existing search systems.

Keywords: information search, information retrieval systems, classification, text processing, data collection.

Разработка алгоритмов сбора и обработки информации в сети Интернет является чрезвычайно актуальной задачей. От качества собранных данных зависит принятие того или иного решения. Особое внимание качеству алгоритмов сбора и обработки информации уделяют в модулях поддержки принятия решений в корпоративных системах [1-4]. Также актуальной является задача сбора информации из разнородных сетей: Интернет, корпоративная сеть, сеть предприятия/филиала [5-7].

В данной работе представлена классификация существующих систем поиска информации в сети Интернет. Данные системы отличаются алгоритмами обработки информации, принципами организации хранения данных и т. п. Также необходимо отметить, что и задачи данных систем отличаются друг от друга.

Перейдем к рассмотрению классов данных систем:

1. Поисковые системы, реализованные по принципу каталогов - поисковые каталоги.

Для решения задачи упрощения навигации по существующим ресурсам были созданы системы, называемые поисковыми каталогами. К таким системам относятся, например, Yahoo и OpenDirectory.

В рассматриваемом классе систем информационные ресурсы регистрируются их создателями, после чего проходят проверку и корректировку модераторами. Далее ресурсы получают экспертную оценку «полезности», по результату которой информационный ресурс занимает определенную позицию в иерархии по авторитетности представленной информации.

В простейших каталогах информационные ресурсы упорядочены по нескольким общим группам (категориям, разделам, рубрикам) в виде иерархической

структуры. Поэтапное прохождение всей структуры, последовательное уточнение искомой информации после n-го количества шагов приводит к интересующему пользователя ресурсу.

В более сложно организованных каталогах помимо иерархической организации информации представлены механизмы поиска информации по запросам пользователя. Однако согласно описанной структуре данного класса систем, работа поисковых механизмов ограничивается поиском лишь в кратких аннотациях сайтов.

Особого внимания заслуживают современные каталоги, отличающиеся расширенной, а иногда и полной индексацией содержимого сайтов и мощными механизмами контекстного поиска в индексных базах.

Следует заметить, что некоторые поисковые каталоги имеют также собственный рейтинг (например, Topping). Такие системы используют в качестве неявных экспертных оценок информацию о посещаемости сайтов и учитывают позиции, которые эти сайты занимают в рейтинге ресурсов определенной тематики. Данный подход позволяет повышать качество поиска в каталоге, предоставляя более авторитетную информацию, позволяет сократить время поиска необходимой информации.

2. Следующий класс - полнотекстовые поисковые системы.

Для поиска страниц, содержащих требуемую информацию, существует класс поисковых систем, называемых полнотекстовыми поисковыми системами.

Структура такой системы может быть представлена следующим образом:

Spider («паук») - часть поисковой системы, предназначенная для перебора страниц Интернета с целью

Математические методы моделирования, управления и анализа данных

занесения информации о них в базу данных поисковой системы. «Паук» анализирует содержимое страницы и сохраняет его в некотором специальном виде на сервере поисковой машины, которой принадлежит. В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах. Механизм Crawler предназначен для направления «Паука» по ссылкам.

Indexer (индексатор) - производит анализ текста, собранного «Пауком».

Database - хранилище данных для найденных и обработанных html-страниц.

Searchengine (система выдачи результатов) -именно данный компонент несет в себе основные алгоритмы обработки запросов и формирования информационных выдач. В нем запрограммированы механизмы ранжирования документов в соответствии с их релевантностью.

Webserver - сервер поисковой машины, осуществляющий взаимодействие между пользователем и остальными компонентами системы.

Системы рассматриваемого класса осуществляют поиск страниц, извлечение гипертекстовых ссылок на этих страницах, индексацию найденной информации в базе данных (Яндекс, Google). В основе каждого поискового механизма лежат уникальные для каждой системы алгоритмы, определяющие политику работы системы.

3. Следующий класс поисковых систем - метапо-исковая система.

Метапоисковая система (также называемая мета-краулером или мультипоточной системой) - это поисковый инструмент, посылающий ваш запрос одновременно на несколько поисковых систем, каталогов и, иногда, в так называемую невидимую (скрытую) систему - собрание онлайновой информации, не проиндексированной традиционными поисковыми системами (Nigma, MetaCrawler, www.iboogie.tv). Собрав результаты, метапоисковая система удаляет дублированные ссылки и в соответствии со своим алгоритмом объединяет / ранжирует результаты в общем списке.

Если рассматривать задачу реализации поискового механизма в СППР, то наиболее целесообразно воспользоваться алгоритмами и подходами реализации метапоисковых систем.

Библиографические ссылки

1. Система поиска, анализа и обработки мульти-лингвистических текстов, интегрированная с информационно-поисковыми системами / И. В. Ковалев [и др.] // Вестник СибГАУ. 2013. № 1(47). С. 48-52.

2. Модели и методы оптимизации сбора и обработки информации / Н. А. Распопин [и др.] // Вестник СибГАУ. 2012. № 2(42). С. 69-72.

3. Модельно-алгоритмическое обеспечение поддержки принятия решений в информационных системах управления / Ф. А. Акланов [и др.] // Вестник СибГАУ. 2014. № 3(55). С. 10-15.

4. Information search module based on multilin-guistic thesauruses / M. V. Karaseva [et al.] // IOP Conference Series: Materials Science and Engineering 17. Сер. XVII International Scientific Conference "Reshetnev Readings". 2015. С. 012011.

5. Мультилингвистическая модель распределенной системы на основе тезауруса / П. В. Зеленков [и др.] // Вестник СибГАУ. 2008. № 1(18). С. 26-28.

6. Модуль обработки информационных запросов пользователей в сеть Интернет для корпоративных информационно-управляющих систем / П. В. Зеленков [и др.] // Вестник СибГАУ. 2009. № 3 (24). С. 69-74.

7. Карасева М. В., Карцан И. Н., Зеленков П. В. Метапоисковая мультилингвистическая система // Вестник СибГАУ. 2007. № 3(16). С. 69-70.

References

1. Kovalev I., Polianski K., Zelenkov P., Brezitskaya V., Sidorova (Prohorovich) G. Sistema poiska i obrabotki multilingvisticheskih tekstov, integrirovannaya s informachionno-poiskovumi sistemami // Vestnik Sib-GAU. 2013. No. 1(47), рр. 48-52.

2. Raspopin N., Karaseva M., Zelenkov P., Kaiukov E., Kovalev I. Modeli i algoritmu optimizacii sbora i obrabotki informachii // Vestnik Sib GAU. 2012. No. 2(42), рp. 69-72.

3. Aklanov F., Kovalev D., Yueva E., Zelenkov P., Pershakova K. Modelno-algoritmicheskoe obespechtnie poddergki priniatiia resheniia v informationnih sistemah upravlenia // VestnikSibGAU. 2014. No. 3(55), pр. 10-15.

4. Karaseva M. V., Bachurina E. P., Zelenkov P. V., Brezitskaya V. V. Information search module based on multilinguistic thesauruses // IOP Conference Series: Materials Science and Engineering 17. Сер. XVII International Scientific Conference "Reshetnev Readings", 2015, рp. 012011.

5. Zelenkov P., Kovalev I., Karaseva M., Rogov S. Multilingvistik model raspredelennoy sistemu na osnove tesarusa // Vestnik SibGAU. 2008. No. 1(18), рp. 26-28.

6. Zelenkov P., Selivanova M., Brezitskaya V., Hohlov A. Modul obrabotki informationnih zaprosov pol-zovatelei v seti Internet dla korporativnih informationno-upravlaushih system // Vestnik SibGAU. 2009. No. 3(24), рp. 69-74.

7. Karaseva M., Kartsan I., Zelenkov P. Meta-poiskovaia multilingvisticheskaya sistema // Vestnik SibGAU. 2007. No. 3(16), рp. 69-70.

© Брезицкая В. В., Зеленков П. В., Прохорович Г. А., Перанцева А. В., Храпунова В. В., 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.