Научная статья на тему 'Поиск научной и учебной информации в сети Интернет'

Поиск научной и учебной информации в сети Интернет Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
5462
571
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НАУЧНАЯ ИНФОРМАЦИЯ / УЧЕБНАЯ ИНФОРМАЦИЯ / ИНФОРМАЦИОННЫЙ ПОИСК / ИНТЕРНЕТ / РЕЛЕВАНТНОСТЬ / SCIENTIFIC INFORMATION / EDUCATIONAL INFORMATION / SEARCH FOR INFORMATION / INTERNET / RELEVANCE

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Демин Игорь Святославович

Статья посвящена вопросам поиска достоверной научной и учебной информации в сети Интернет. Основной проблемой контекстного поиска в поисковых машинах является значительная доля информации, определенной в данной статье как «неконструктивная»: вторичной, низкого качества, дублирующей и т.п. Предлагаются меры по разработке фильтра для поисковых машин, призванного ограничить неконструктивную информацию и тем самым предоставить пользователям, в первую очередь студентам, механизм поиска качественной информации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Searching the Internet for scientific and educational information

The main purpose of this article is to describe and measure the problem of searching the Internet for reliable scientific and educational information. Generally, web search engines return a considerable part of poor quality and irrelevant information, mentioned as "non-constructive" in this article. Some principal ideas are proposed to create a practical mechanism of restricting non-constructive information in search results.

Текст научной работы на тему «Поиск научной и учебной информации в сети Интернет»

нем существует). Поэтому изучать микросреду можно или применительно к конкретному субъекту рынка (школе, вузу, другому образовательному учреждению) или в самом общем плане, на уровне моделирования.

4. Котлер Ф. Основы маркетинга. Краткий курс: пер. с англ. М., 2005.

Поступила в редакцию 4.07.2008 г.

1. Панкрухин А.П. Маркетинг образовательных услуг в высшем и дополнительном образовании. Режим доступа: http://mou.marketologi.ruy content.html. Заглавие с экрана.

2. Рубин Ю.Б. Конкуренция: упорядоченное взаимодействие в профессиональном бизнесе. М., 2006.

3. Ковалев В.А. Потребитель как субъект рынка образовательных услуг: автореф. дис. ... канд. эконом. наук. Омск, 2004.

Tolstyakov R.R. The effect of the factors of marketing micro-environment on competitiveness of an educational establishment. In the article the interconnections between the segments of the educational service market and the factors of marketing microenvironment are analyzed, the specific nature of the competitiveness of an educational establishment is revealed.

Key words: marketing of educational services, segments of the educational market, macro-environment, competitiveness.

ПОИСК НАУЧНОЙ И УЧЕБНОЙ ИНФОРМАЦИИ В СЕТИ ИНТЕРНЕТ

И.С. Демин

Статья посвящена вопросам поиска достоверной научной и учебной информации в сети Интернет. Основной проблемой контекстного поиска в поисковых машинах является значительная доля информации, определенной в данной статье как «неконструктивная»: вторичной, низкого качества, дублирующей и т.п. Предлагаются меры по разработке фильтра для поисковых машин, призванного ограничить неконструктивную информацию и тем самым предоставить пользователям, в первую очередь студентам, механизм поиска качественной информации.

Ключевые слова: научная информация; учебная информация; информационный поиск; Интернет; релевантность.

В своем развитии Интернет прошел целый ряд этапов, каждый из которых проявлял свои достоинства и недостатки. Если на начальном этапе развития сети главным их источником была малая доступность, то сейчас ситуация изменилась на противоположную: Интернет чересчур доступен для его пополнения. Создание сайтов давно перестало быть узкопрофессиональным делом, не говоря уже о бесчисленных форумах и блогах. Взрывной характер расширения сети породил неконтролируемый поток информации, которую принято называть «неконструктивной»: информации вторичной, недостоверной, непрофессиональной, низкокачественной, нарушающей этические нормы и требования законов, обремененной спамоподобным контентом. Глобальный гипертекст, задуманный своими создателями и предшествующими им теоретиками как свободная

среда обмена человеческими знаниями, превратился в высоко коммерциализированную среду, в которой все методы получения прибыли хороши.

Саморегуляция, одна из принципиальных основ Интернета, вызывает все больше критики. Романтическая идея свободного информационного пространства все чаще рассматривается как утопическая. Не случайно в последние годы так усилились призывы «навести порядок» в сети законодательными средствами. Лишить Интернет анонимности (вплоть до регистрации и установления личности любого пользователя), потребовать обязательной государственной регистрации всех крупных сайтов, установить ответственность провайдеров за информацию, размещаемую клиентами - такие вопросы уже обсуждаются парламентами самых разных стран.

Но насколько эффективны подобные меры? Очевидно, в плане искоренения материалов экстремистских, аморальных, провокационных, грубо нарушающих авторское право они могут принести скорые плоды. Однако искоренить неконструктивную информацию, не нарушающую действующих законов, они не в состоянии. А именно такие ресурсы и представляют собой основной объем данных, усложняющих информационный поиск.

Внушительные масштабы неконструктивного контента представляет себе каждый, кто имел дело с поиском научной информации в сети. Результаты контекстного поиска по любому из научных терминов возвращают такое количество «шумового» материала, что отдельные вкрапления профессионального материала воспринимаются в прямом смысле слова как исключение. Немаловажно и то, что в сети отсутствуют ясные критерии разграничения профессиональной и непрофессиональной информации; в этом электронные источники существенным образом отличаются от бумажных, выработавших за многие годы ряд приемов и индикаторов профессиональной ценности: авторитет научных издательств, грифы органов управления наукой и образованием, рецензирование и т. д.

Возможно, со временем Интернет обзаведется подобными индикаторами. Однако сейчас мы имеем дело с весьма неоднородной, слабо структурированной средой. Именно в такой среде привыкли обитать сегодняшние студенты, для которых Интернет зачастую играет роль не столько информационной, сколько коммуникативно-развлекательной среды. Что же касается собственно информационного поиска, то его эффективность оставляет желать лучшего, учитывая, что у учащегося пока нет достаточных знаний в предметной области, позволяющих отличить конструктивную информацию от шумовой и качественную от недостоверной. Повторение и бесконечная перекомпиляция одних и тех же рефератов - печальная и массовая тенденция учебных работ - происходит не только от нерадивости студентов, сколько от невозможности отыскать качественную научную информацию в Интернете.

С чем же сталкивается современный учащийся в попытке отыскать информацию по тому или иному учебному вопросу? Воз-

вращаемые поисковиками ресурсы можно разделить на несколько групп.

Конструктивная информация - оригинальная информация, обладающая признаками научности и достоверности.

Дублирующая информация - информация, дословно копирующая другие источники конструктивного типа (из числа найденных в том же сеансе поиска). При значительной доле такой информации поиск существенно зашумляется.

Вторичная информация - информация, качество которой вызывает сомнение: вторичные компиляции, упрощения и т. п. Типичным примером являются многочисленные «сборники рефератов». Хотя в подобных «рефератах» могут содержаться достоверные и полезные данные, доверять им нельзя: наряду с ними попадается информация чрезвычайно низкого качества, не поддающаяся проверке. Материалы зачастую лишены ссылок на источники; в других случаях авторы «рефератов» указывают фальшивые или несуществующие источники, чтобы проверяющий не смог обнаружить явные заимствования. Вдобавок многократное копирование рефератов с сайта на сайт приводит к ухудшению качества: теряются рисунки и схемы, на которые есть ссылки в тексте, искажаются формулы. Помимо рефератов такую информацию содержит ряд сайтов компаний, которые размещают на своих ресурсах примитивные «сборники статей» или «справочники экономических терминов». Эти достаточно примитивные сборники рассчитаны на то, чтобы привлечь посетителей на страницу, заполненную рекламой и ссылками на услуги, предоставляемые компанией. Часто информация в таких справочниках ужимается до самого минимального уровня, чтобы освободить больше пространства страницы для баннеров и ссылок.

Аннотирующая информация - в такой информации за искомым термином не стоит никакого раскрывающего контента. Это может быть название или оглавление книги (текст которой не приводится), программа конференции или учебного курса и т. п. Такая информация вполне достоверна, но ценна только в определенном контексте. Во многих случаях она зашумляет поиск. Примером может быть случай, когда пользователь пытается найти определение какого-либо науч-

ного термина, а в ответ получает десятки ссылок на Интернет-магазины, продающие книгу со схожим названием.

Посторонняя информация - информация, не имеющая отношения к раскрытию сущности искомого термина. Ее появление вызвано контекстным характером поиска информации, на котором основана работа поисковых машин. В результате помимо научного контента отыскиваются также новостные сообщения, художественные и публицистические произведения, в которых встречаются термины поисковой строки, а также омонимические выражения. Например, по запросу «Адам Смит», помимо биографии и трудов шотландского экономиста, можно найти ссылки на «Евгения Онегина» или фильмографию актера с тем же именем.

К сожалению, практика показывает, что конструктивная информация занимает весьма малую долю результатов поисковых запросов. Для проверки данного утверждения был проведен следующий эксперимент: в поисковых машинах (были выбраны наиболее популярный российский поисковик Ян-

декс и международный - Google) вводились различные экономические термины, связанные с вузовской программой по экономике. Первые 50 результатов просматривались и оценивались с точки зрения типа возвращаемой информации.

Результаты, как выяснилось, зависели от содержания и формулировки термина, используемого в запросе. В том случае, когда речь шла о специфическом экономическом термине, использование которого в ином значении маловероятно, например, «паутинообразная модель ценообразования» или «эластичность спроса по доходам», доля конструктивной информации в запросе достигала 25-30 % в Google и 15-20 % в Яндексе, процент же вторичной информации был, соответственно, около 60 и 70 %. (рис. 1). К этому следует прибавить некоторый процент аннотирующей информации и несколько примеров дублирующей. Посторонняя информация в первых 50 ссылках отсутствовала (она появлялась лишь к концу первой сотни результатов).

□ Google ■ Яндекс

Рис. 1. Диаграмма различных видов информации при пользовании поисковыми системами Интернета. Поиск специфического экономического термина

Рис. 2. Диаграмма различных видов информации при пользовании поисковыми системами Интернета. Поиск широко употребимого термина

Данная картина наблюдалась для запросов, возвращающих в обоих поисковиках не менее 50 тыс. результатов. Если же речь шла об узком термине (10-30 тыс. результатов), то доля конструктивной информации падала до 10 %, в то время как вторичная информация достигала 80 %. В этом случае первые десять ссылок, как правило, указывали только на вторичную информацию (в то время как для более частых терминов результаты возглавляла конструктивная информация).

Несколько иная информация возникала в тех случаях, когда термин был так широко употребим, что возвращал более миллиона результатов (например, «государственный

бюджет»). Разумеется, в этом случае заметной была доля посторонней информации (за счет новостных сообщений, например, «парламент Грузии утвердил государственный бюджет»). Конструктивная информация показывала почти стабильный результат в 22 %, а вторичная достигала 45-60 % (рис. 2).

Таким образом, печальные предположения подтвердились. Доля конструктивной информации в результатах запроса составляла всего 20-25%, в то время как вторичная информация низкого качества практически все-

гда преобладала (общее среднее значение -64%). Остальное приходилось на другие виды неконструктивной информации. В отдельных случаях первые десять ссылок (стандартный размер страницы результатов поисковика) содержали только вторичную информацию.

Есть ли способы повысить релевантность научных запросов? Определенную роль могут сыграть узконаправленные каталоги и порталы, но их создание требует определенных усилий, и потому возможности их ограничены десятками или сотнями, но не десятками сотен ссылок. Кроме того, внесение ссылок в такие порталы требует времени, что не позволяет получать доступ к новейшей информации. Достаточно надежным способом было бы создание системы семантического поиска, однако на сегодняшнем уровне речь может идти только об ограниченных прототипах.

Можно предложить определенные меры и в рамках контекстного поиска. Для этого нужно ограничить число неконструктивных результатов, возвращаемых в результате запроса, произведя соответствующую фильтрацию материала.

Достаточно просто ограничить количество вторичной информации в запросах. Де-

ло в том, что основная масса такой информации размещается на ограниченном числе популярных сайтов - «баз рефератов» и псевдоэнциклопедий. Исключение таких сайтов сократит список шумовых результатов в несколько раз.

Подобная система исключения лишних сайтов работает в отечественной поисковой системе Nigma.ru. Однако алгоритм исключения носит контекстный характер, так что при ограничении по слову «реферат» в списке все же остается некоторое число сайтов рефератов, даже если заглавие найденной страницы носит название «Бесплатные рефераты», а частью доменного имени является сочетание «referat». Тем не менее это является существенным шагом вперед к интеллектуальному поиску.

Дублирующая информация может быть также исключена путем группировки дублей в один результат с несколькими ссылками. Это позволит избежать повторного просмотра одного и того же текста на разных сайтах.

Что касается аннотирующей информации, то ее можно также несколько ограничить. Например, можно поставить фильтр на сайты книжных магазинов, дающих значительное число аннотаций. Впрочем, информацию о наличии книги по интересующему вопросу вряд ли можно считать излишней. Можно продумать систему объединения ссылок на одинаковую книгу в единый ре-

зультат, как это предложено для дублирующей информации.

Построение подобной поисковой системы требует существенных усилий и времени. К сожалению, Nigma.ru, как и другие поисковые системы, реализующие новые методы поиска, существенно отстают по масштабам поиска от гигантов вроде Яндекса, Рамблера или Google. Более простым путем было бы создание системы разбора ссылок, возвращаемых существующими крупными поисковиками. Технические, равно как и юридические, аспекты такой реализации требуют серьезного рассмотрения. Но следует заметить, что проблема переполнения сети неконструктивными материалами вполне назрела, причем ситуация имеет тенденцию к ухудшению.

Поступила в редакцию 4.07.2008 г.

Demin I.S. Searching the Internet for scientific and educational information. The main purpose of this article is to describe and measure the problem of searching the Internet for reliable scientific and educational information. Generally, web search engines return a considerable part of poor quality and irrelevant information, mentioned as “non-constructive” in this article. Some principal ideas are proposed to create a practical mechanism of restricting non-constructive information in search results.

Key words: scientific information, educational information, search for information, Internet, relevance.

i Надоели баннеры? Вы всегда можете отключить рекламу.