Научная статья на тему 'Научный поиск в интернете'

Научный поиск в интернете Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
319
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОИСКОВЫЕ СИСТЕМЫ / GOOGLE / АКАДЕМИЯ GOOGLE / WEB OF SCIENCE / КАТАЛОГИЗАЦИЯ ИНТЕРНЕТ-САЙТОВ / SEARCH ENGINE / GOOGLE SCHOLAR / WEBSITE CATALOGING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Смирнов Ю.В.

В статье проводится анализ поисковой системы Google, а также систем научного поиска: Академии Google и Web of Science. Отмечаются важность систематического поиска, и основные трудности при его реализации в поисковых системах Интернета. В конце статьи делается вывод о необходимости обучения людей, как улучшить релевантность поиска.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SCIENTIFIC SEARCH IN INTERNET

In the article the author analyzes Google search engine and scientific search systems: Google Scholar and Web of Science. The author marks the impotance of classification search and main difficulties of its implementation into Web search engines. The article ends with the conclusion, that it is necessary to train people how to improve the search relevance.

Текст научной работы на тему «Научный поиск в интернете»

ю.в.смирнов научный поиск в интернете

В статье проводится анализ поисковой системы Google, а также систем научного поиска: Академии Google и Web of Science. Отмечаются важность систематического поиска, и основные трудности при его реализации в поисковых системах Интернета. В конце статьи делается вывод о необходимости обучения людей, как улучшить релевантность поиска.

Ключевые слова: поисковые системы, Google, Академия Google, Web of Science, каталогизация интернет-сайтов.

Y. Smirnov

scientific search in internet

In the article the author analyzes Google search engine and scientific search systems: Google Scholar and Web of Science. The author marks the impotance of classification search and main difficulties of its implementation into Web search engines. The article ends with the conclusion, that it is necessary to train people how to improve the search relevance.

Key words: search engine, Google, Google Scholar, Web of Science, website cataloging.

ю.в.смирнов научный поиск в интернете

При написании научных работ, от небольших статей до монографий для научных работников, очень важно иметь не только доступ к информации, но и удобные поисковые средства, которых в настоящее время достаточно много.

Одним из основных типов поиска на сегодняшний день является поиск в Интернете, в котором практически монопольное положение занимает поисковая система Google. Ее популярность может продемонстрировать не только статистика, но и большинство языков мира, в которых уже появилось слово «загуглить», означающее «поиск в Интернете с помощью Google».

Причина такой популярности кроется в таких достоинствах как:

- простота и удобство использования;- сортировка результатов поиска от наиболее релевантных к менее;

- отображение не только адреса страницы (сайта), но и заголовка страницы с небольшим экстрактом, содержащим поисковый запрос, который позволяет составить первое впечатление о релевантности страницы;

- возможность уточнения запроса, к которой можно отнести:

- уточнение запроса по типу информации (Все, Новости, Картинки, Карты, Видео, Книги, Авиабилеты, Приложения);

- уточнение языка отображаемых результатов поиска;

- уточнение временных рамок запроса (выбрать из списка период создания страниц, либо задать собственный временной интервал);

- возможность использования расширенного поиска;

- уточнение запроса с помощью специальных операторов и пунктуации (например: символ «*» (звездочка) служит для замены любого слова в запросе);

- возможность включить/отключить безопасный поиск, который исключает неприемлемый контент и изображения сексуального характера из результатов.

Другие поисковые системы также обладают одним или несколькими вышеперечисленными достоинствами, однако каждая поисковая система обладает и собственным алгоритмом поиска, что и делает ее уникальной.

Алгоритм поиска Google учитывает такие особенности естественных языков как синонимичность, избыточность и многозначность. Логика сортировки результатов по релевантности в поисковой системе Google кратко и емко описана в книге «Электронные библиотеки. Информационно-коммуникационная среда обитания»: «Логика ранжирования результатов основана на предположении, что все люди имеют схожие проблемы и вопросы, и вам, вероятнее всего, нужно то же, что и другим таким же. Комбинирование этих двух методов - формулирования запросов на естественном языке и выдачи результатов в соответствии с популярностью - оказалось чрезвычайно эффективным.» [1, с. 155]

Кроме поиска по просторам Интернета, компания Google предлагает и систему научного поиска - Google Scholar [2], которая предоставляет доступ к полным текстам статей из многих рецензируемых журналов. В этой системе реализованы очень полезные для научных работников функции:

- формирование библиографического описания;

- импорт цитат в программы для управления библиографической информацией (например: EndNote, BibTeX и др.)

- индексы цитирования.

Однако у Академии Google также есть ряд недостатков:

- отсутствие данных об охвате индексируемых научных журналов;

- отсутствие информации о частоте обновления базы данных;

- отсутствие тематического поиска;

- недостаточное развитие системы уточнения запросов.

В отличие от Академии Google, для поисковой системы сайта Web of Science [3], представляющего собой реферативную базу данных публикаций в научных журналах и разрабатываемую компанией Thomson Reuters, была создана удобная система уточнения запросов. Все доступные типы уточнения поиска располагаются в боковой панели слева (например: базы данных, направления исследования, авторы, годы публикаций, языки, страны/территории и т.д.)

В каждом из этих типов предлагается небольшой список наиболее часто встречающихся вариантов во всех документах основного запроса.

Кроме вышеуказанной системы уточнения запросов, в этой поисковой системе предоставлена возможность воспользоваться операторами поиска (например: «AND» для поиска записей содержащих все условия) и символами усечения (например: «*» (звездочка) для замены любого количества символов в том числе и нулевого).

По многим параметрам Академия Google и Web of Science схожи, однако стоит учитывать, что только первая предоставляет полнотекстовый поиск, в то время как вторая предоставляет поиск только по библиографическим данным и не содержит полных текстов индексируемых публикаций.

Обе описанные нами поисковые системы, также как и большинство других подобных им являются системами вербального поиска, т. е. базирующиеся на естественном языке. Некоторые системы в своих поисковых алгоритмах (например: Google) стараются учесть особенности естественных языков такие как синонимичность, избыточность и многозначность, что несомненно улучшает релевантность результата поиска, однако отсутствие систематического поиска усложняет поиск информации.

В качестве подтверждения этих слов приведем один из тезисов учебника «Аналитико-синтетическая переработка информации»: «Отечественные библиотековеды считают, что именно систематический поиск естественен для читателей, так как вся система образования построена по систематическому принципу и обучение ведется не по "ключевым словам", а по "дисциплинам", отраслям знания, областям науки и практической деятельности.» [4, с. 178]

Некоторые поисковые системы Интернета пытаются создавать каталоги интернет-сайтов (например: Каталог Яндекса [5], который представляет собой аннотированные ссылки на сайты, собранные вручную редакторами компании Яндекс) или делать собственные тематические указатели (например: направления исследований в Web of Science). Однако этот исключительно интеллектуальный труд требует затрат на содержание штата сотрудников, к чему большинство поисковых систем Интернета пока не готовы.

Одним из выходов может служить обязательное указание автором публикации индекса кодированного информационно-поискового языка (ИПЯ) (например: Универсальной десятичной классификации (УДК)), позволяющего не только отнести документ к соответствующей отрасли знания, но и улучшить релевантность поиска, включая независимость от языка составления документа. Уже сейчас авторы самостоятельно проставляют ключевые слова в своих публикациях. Это уже стало, можно сказать, стандартом оформления научных публикаций.

Использование кодированных ИПЯ несет для авторов некоторые трудности, поскольку индексированию документов обучают только учащихся и студентов библиотечных специальностей, а практику индексирования многие проходят по месту работы. Также стоит отметить, что многие выпускники этих специальностей не всегда могут сами проставить классификационный индекс.

Но и эти трудности решаемы. Необходимо либо ввести факультативный курс по месту учебы по использованию кодированных ИПЯ, включающий как теорию, так и практику индексирования, либо создать недорогие и несложные учебные пособия.

Говоря о введении подобного курса необходимо отметить, что многие пользователи поисковых систем Интернета, в частности Google, не знакомы с такими функциями как уточнение запроса с помощью специальных операторов и пунктуации, которые могут значительно улучшить релевантность поиска. Поэтому нам кажется целесообразным вводить комплексный курс по информационному поиску.

С этим предложением согласятся не все, но не стоит забывать, что с появлением Интернета количество произведенной человечеством информации постоянно увеличивается, а без умения быстро получать релевантную информацию человек в ней просто «утонет».

список литературы

1. Земсков, А. И. Электронные библиотеки. Информационно-коммуникационная среда обитания : учебн. пособие / А. И. Земсков, Я. Л. Шрайберг. - М. : ГПНТБ России, 2012. - 402 с.

2. Академия Google. URL: https://scholar.google.ru/ (Дата обращения: 02.02.2016)

3.Web of Science. URL: http://apps.webofknowledge.com/ (Дата обращения: 02.02.2016)

4. Аналитико-синтетическая переработка информации : учебник / Н. И. Гендина и др. ; науч. Ред. А. В. Соколов ; координатор проекта Л. В. Трапезникова. - Санкт-Петербург : Профессия, 2013. - 336 с.

5. Яндекс каталог. URL: https://yaca.yandex.ru/ (Дата обращения: 02.02.2016)

сведения об авторе

СМИРНОВ Юрий Викторович, научный сотрудник, Государственная публичная научно-техническая библиотека России

i Надоели баннеры? Вы всегда можете отключить рекламу.