Научная статья на тему 'Разработка персональной документальной информационно-поисковой системы для сети Интернет'

Разработка персональной документальной информационно-поисковой системы для сети Интернет Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
174
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА / INFORMATION RETRIEVAL SYSTEM / ПОИСКОВЫЙ РОБОТ / SEARCH ROBOT / ИНДЕКСАТОР / INDEXER / ИНДЕКСЫ / INDEXES / СТЕММИНГ / STEMMING / АЛГОРИТМ ПОРТЕРА / PORTER'S ALGORITHM / РЕЛЕВАНТНОСТЬ / RELEVANCE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Андреева К. А., Шайдуров Р. С.

Рассматриваются проблемы релевантности в информационном поиске, пригодность традиционной архитектуры «больших» поисковых систем (Google, Яндекс, Mail.ru, Yahoo! и т. д.) для реализации персональной поисковой системы. Продемонстрированы показатели быстродействия спроектированной поисковой системы, а также освещены ее дальнейшие пути развития.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF PERSONALIZED DOCUMENTARY INFORMATION RETRIEVAL SYSTEM FOR THE INTERNET

The problem of relevance in the information retrieval existing nowadays, also the suitability of the traditional architecture of “The Big” search engines (such as Google, Yandex, Mail.ru, Yahoo! and etc.) for creation of personalized search engine are presented. Some speed parameters of created search engine and future ways of development are demonstrated.

Текст научной работы на тему «Разработка персональной документальной информационно-поисковой системы для сети Интернет»

Программные средства и информационные технологии

УДК 004.942

РАЗРАБОТКА ПЕРСОНАЛЬНОЙ ДОКУМЕНТАЛЬНОЙ ИНФОРМАЦИОННО-ПОИСКОВОЙ

СИСТЕМЫ ДЛЯ СЕТИ ИНТЕРНЕТ

К. А. Андреева1, Р. С. Шайдуров2

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31 Е-mail: [email protected], [email protected]

Рассматриваются проблемы релевантности в информационном поиске, пригодность традиционной архитектуры «больших» поисковых систем (Google, Яндекс, Mail.ru, Yahoo! и т. д.) для реализации персональной поисковой системы. Продемонстрированы показатели быстродействия спроектированной поисковой системы, а также освещены ее дальнейшие пути развития.

Ключевые слова: информационно-поисковая система, поисковый робот, индексатор, индексы, стемминг, алгоритм Портера, релевантность.

DEVELOPMENT OF PERSONALIZED DOCUMENTARY INFORMATION RETRIEVAL SYSTEM FOR THE INTERNET

K. A. Andreeva1, R. S. Shaydurov2

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, Russian Federation 660014 E-mail: [email protected], [email protected]

The problem of relevance in the information retrieval existing nowadays, also the suitability of the traditional architecture of "The Big" search engines (such as Google, Yandex, Mail.ru, Yahoo! and etc.) for creation of personalized search engine are presented. Some speed parameters of created search engine and future ways of development are demonstrated.

Keywords: information retrieval system, search robot, indexer, indexes, stemming, Porter's algorithm, relevance.

Одним из наиболее прогрессивных и всеохватывающих научных направлений на сегодняшний день является развитие и усовершенствование интернет-технологий, что вызывает постоянный рост числа пользователей Всемирной сети. Однако из-за этого возникает проблема релевантности в информационном поиске, а именно, существующие поисковые системы (Google, Яндекс, Mail.ru, Yahoo! и т. д.) не всегда релевантно удовлетворяют пользовательские запросы. Одной из причин возникновения данной проблемы является отсутствие в современных поисковых системах простой, эффективной и удобной в использовании функции персонализации, благодаря чему получение удовлетворяющего пользователя результата представляется довольно проблематичным.

В настоящей работе ставится задача разработки персональной документальной информационно-поисковой системы для сети Интернет («малой» ПС), спроектированной на основе методов, алгоритмов и теорий построения «больших» ПС, перечисленных выше, но отличающейся от них наиболее простой, эффективной и удобной функцией персонализации.

На основе анализа доступных сведений и авторских теоретических исследований были выделены следующие основные компоненты (модули) поисковой системы:

- поисковый робот - осуществляет обход вебстраниц и выкачивает содержащуюся в них информацию, добавляя в первоначальный набор адресов сайтов новые;

- индексатор - преобразовывает полученную поисковым роботом информацию в инвертированный индекс (перебирает все скачанные страницы, нумерует их, удаляет из их текста нетекстовый «мусор», извлекает из текста слова, осуществляет стемминг с помощью алгоритма Портера и помещает слова в индекс вместе с информацией о страницах, с которых они были взяты);

- индекс - построенные индексатором инвертированные индексы, записанные в базу данных (своеобразный словарь, в котором основы слов упорядочены по алфавиту, а при каждой основе записано, с какой страницы она взята (номер страницы) и словопозиция этого слова на данной странице);

- интерфейс для работы пользователя - осуществляет взаимодействие пользователя и непосредственно поисковой системы (ввод поискового запроса и получение результата в виде списка ссылок на страницы в Интернете) [1-3].

Для реализации вышеупомянутой поисковой системы была выбрана ОС Linux Debian; языки программирования - Perl (версия 5.12.x), JavaScript с использованием библиотеки jQuery и технологии AJAX,

Решетневскуе чтения. 2014

CSS, Shell; СУБД - PostgreSQL (версия 9.x) [3]; вебсервер - Apache (версия 2.4.x) [3].

Показатели быстродействия полученной поисковой системы представлены в таблице.

Показатели быстродействия персональной информационно-поисковой системы

Таблица БД За 1,5 ч работы За 8,5 ч работы

Индекс 1 156 776 6 443 433

Словарь 60 319 222 340

Сайт 83 1067

Веб-страница 1 301 7 383

Очередь 18 683 78308

На основании проделанной работы можно сделать вывод, что выбранные для реализации информационно-поисковой системы программные средства показали себя с хорошей стороны, позволив добиться достаточного быстродействия и надежности программного продукта. Также выбранная архитектура программного продукта, являющаяся традиционной архитектурой «больших» поисковых систем, показала свою пригодность и для реализации персональной поисковой системы. По результатам тестирования никаких отклонений обнаружено не было. Все фактические результаты совпали с ожидаемыми.

Полученный программный продукт имеет множество возможных путей развития. Например, возможна адаптация поисковой системы для конкретных пред-

метных областей. Это может достигаться за счет создания словаря ключевых терминов предметной области. Также возможно совершенствование математических алгоритмов определения релевантности поиска, создание сайта для коллективного использования поисковой системы, повышение быстродействия за счет распараллеливания работы на несколько компьютеров.

Библиографические ссылки

1. Ашманов И., Иванов А. Оптимизация и продвижение сайтов в поисковых системах. 3-е изд. СПб. : Питер, 2011. 464 с.

2. Маннинг К. Д., Рагхаван П., Шютце Х. Введение в информационный поиск : пер. с англ. М. : Вильямс, 2011. 528 с.

3. Уорсли Дж., Дрейк Дж. PostgreSQL. СПб. : Питер, 2003. (Для профессионалов). 496 с.

References

1. Ashmanov I., Ivanov A. Optimization and Site Promotion in search engines. St. Petersburg, 2011, 464 p.

2. Ch. D. Manning, P. Raghavan, H. Schutze. Introduction to Information Retrieval. Moscow, 2011, 528 p.

3. John C. Worsley, Joshua D. Drake. Practical PostgreSQL. St. Petersburg, 2003, 496 p.

© Андреева К. А., Шайдуров Р. С., 2014

УДК 591.87

ГЕНЕРИРОВАНИЕ НЕЙРОСЕТЕВЫХ КЛАССИФИКАТОРОВ КООПЕРАТИВНЫМИ БИОНИЧЕСКИМИ АЛГОРИТМАМИ ОПТИМИЗАЦИИ

Ш. А. Ахмедова

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660014, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected]

Разработаны новые самонастраивающиеся коллективные бионические алгоритмы, позволяющие решать задачи безусловной оптимизации как с вещественными, так и с бинарными переменными, основная идея которых заключается в кооперативной работе уже известных алгоритмов стайного типа. Исследование эффективности полученных эвристик, проведенное на множестве тестовых задач, показало их работоспособность и целесообразность использования. На базе данных алгоритмов разработана и реализована программная система для автоматического генерирования нейросетевых классификаторов, примененная для решения различных практических задач.

Ключевые слова: стайные алгоритмы, самонастройка, нейронные сети, прогнозирование.

PREDICTORS BASED ON NEURAL NETWOTKS GENERATED BY CO-OPERATIVE BIONIC

OPTIMIZATION ALGORITHMS

Sh. A. Akhmedova

Siberian State Aerospace University named after academician M. F. Reshetnev 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660014, Russian Federation E-mail: [email protected]

New self-tuning collective bionic algorithms, which basic idea consists of co-operative work of already well-known swarm algorithms, were developed for solving unconstrained optimization problems as with real-parameter variables, so with binary variables. Investigation of the effectiveness of obtained heuristics conducted on the set of test problems

i Надоели баннеры? Вы всегда можете отключить рекламу.