Научная статья на тему 'Невидимый Интернет'

Невидимый Интернет Текст научной статьи по специальности «Экономика и бизнес»

CC BY
421
310
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕВИДИМЫЙ ИНТЕРНЕТ / ИНТЕРНЕТ / ПОИСКОВЫЕ МАШИНЫ / ПОЛУЧЕНИЕ ИНФОРМАЦИИ В ИНТЕРНЕТЕ

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Ющук Е. Л.

Не весь Интернет доступен для поисковых машин, таких как Яндекс или Google. Основная часть Интернета недоступна через них, но любой человек может получить в нее доступ. Исследованию феномена невидимого Интернета и посвящена статья.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Невидимый Интернет»

№ 9 (51), 2008 г.

Аграрный вестник Урала

101

Государственная поддержка АПК - Интернет технологии

а также потребность хозяйствующих субъектов в бюджетной поддержке.

Учеными Уральской ГСХА с использованием вышеприведенной методики были проведены расчеты необходимых объемов государственной поддержки молочного животноводства при различных стратегиях развития данной отрасли. Так, например, при переходе на беспривязное содержание КРС (при строительстве 50 комплексов со средним поголовьем коров 1200 животных и с продуктивностью не менее 7000 кг) для обеспечения уровня продовольственной безопасности

Среднего Урала в данном виде продукции, потребуется около 12 млрд руб. бюджетных субсидий - при реализации сценария перехода к расширенному воспроизводству.

Наши расчеты свидетельствуют о том, что темпы прироста государственной поддержки не позволят в полном объеме реализовать мероприятия Государственной программы развития АПК Свердловской области на период до 2012 года. Необходим пересмотр объемов государственной поддержки, с доведением её уровня до 78% от расходной части бюджета.

В целом считаем, что подходы к определению размеров государственной бюджетной поддержки сельхозтоваропроизводителей должны быть научно обоснованы и согласовываться с целями и задачами, обозначенными как в государственных, так и региональных программах развития агропромышленного комплекса. Планирование субсидий должно учитывать в обязательном порядке уровень продовольственного самообеспечения населения, который характеризует продовольственную независимость как региона, так и государства в целом.

Литература

1. Методика планирования бюджетных субсидий для сельскохозяйственного производства / Под ред. Г.В. Беспахотно-го. - Екатеринбург: Изд-во Урал.ГСХА, 2006. - 49 с.

2. Сёмин А.H., Шарапова В.М., Шарапова Н.В. Государственная поддержка сельхозтоваропроизводителей: вопросы теории и практики. - Екатеринбург: Изд-во Урал.ГСХА, 2007. - 224 с.

3. Сёмин А.H., Курбатов А.П., Мезенин Н.А., Бобылев Д.С. и др. Бюджетная поддержка сельхозтоваропроизводителей: эффективность и приоритеты. - Екатеринбург: Изд-во Урал.ГСХА, 2006. - 112 с.

а

НЕВИДИМЫЙ ИНТЕРНЕТ

Е.Л. ЮЩУК,

кандидат экономических наук, Член Международного общества профессионалов конкурентной разведки SCIP, доцент Высшей Экономической Школы - бизнес-школы при Институте Экономики УрО РАН, г. Екатеринбург

Ключевые слова: невидимый интернет, интернет, поисковые машины, получение информации в интернете.

Научно-технический прогресс неумолимо повсеместно внедряется в повседневную жизнь населения России. Он затрагивает абсолютно все слои общества, сказывается на благосостоянии и эмоциональной атмосфере любого из индивидуумов. К наиболее значимым факторам, непосредственно воздействующим на жизнедеятельность человека, можно отнести процесс обмена информацией. Интернет, на наш взгляд, на сегодняшний день можно назвать вершиной достижений человечества в деле поиска и обмена информацией, ее генерирования и распространения. Но то, что мы с вами видим на экранах мониторов, на самом деле лишь малая часть глобальной информационной паутины, опутавшей весь земной шар.

Феномен Невидимого Интернета и принципы работы с ним детально описаны в лучшей, на наш взгляд, книге Криса Шермана и Гэри Прайса «Невидимый Интернет» [1].

«Видимый» Интернет - это та часть ресурсов, содержимое которой может быть обнаружено с помощью поисковых машин. К Невидимому Интернету относятся ресурсы, которые существуют в Глобальной Сети и к которым можно получить доступ, если знать, где эти ресурсы находятся. Однако с помощью поисковых машин найти содержимое ресурсов Невидимого Интернета нельзя. По мнению разных авторов, к Видимому Интернету относится порядка 20-

30% содержимого Сети. Самые смелые источники называют цифру не более 50%. Таким образом можно утверждать, что Невидимый Интернет - это основная часть ресурсов, доступных простому пользователю.

Каковы же причины существования Невидимого Интернета?

Невидимый Интернет существует в силу целого ряда причин, среди которых причины как технического, так и организационного характера. Некоторые ресурсы могут быть индексированы поисковыми машинами с технической точки зрения, но те попросту пока что не успели обнаружить содержимое страницы. Некоторые виды контента не индексируются поисковыми машинами потому, что они сознательно настроены так, чтобы игнорировать те или иные ресурсы. К другим ресурсам доступ ограничили владельцы страниц. Некоторые страницы имеют такой формат, который пока не поддерживается поисковыми машинами.

Вот что говорят о Невидимом Интернете и причинах его существования Крис Шерман и Гэри Прайс:

«Парадокс невидимого Интернета в том, что легко понять, почему он существует, но трудно точно его определить в конкретных, специфических терминах. Невидимый Интернет трудно точно определить и классифицировать по нескольким причинам:

1. Большинство страниц невидимого Интернета могут быть проиндексирова-

ны технически, но не индексируются, ■потому что поисковые системы решили их не индексировать. Это очень важный момент для Невидимого Интернета - что поисковики просто решили исключить из индексации страницы определенного содержания. Мы не говорим о страницах со «взрослым» содержанием или спамерских сайтах, вовсе наоборот. Большинство «невидимых» сайтов имеют высококачественный контент. Просто эти ресурсы не могут быть найдены с помощью поисковых машин общего назначения, т.к. они были в свое время заблокированы.

Есть много причин, почему так происходит. Если поисковая система изменит свою политику по отношению к страницам подобного рода, то эти страницы станут частью видимого Интернета.

2. Довольно легко классифицировать сайты как часть видимого или невидимого Интернета, если посмотреть на то, каким образом они работают. Некоторые сайты используют технологию баз данных, что действительно сложно сделать поисковой машине. Это действительно невидимый Интернет. Другие сайты, однако, используют сочетание файлов, которые содержат текст и которые содержат мультимедиа, а поэтому часть из них может быть проиндексирована, а часть - нет. Такие сайты нельзя отнести четко к видимой или к невидимой части Интернета.

3. Некоторые сайты могут быть про-

Invisible Web, internet, search engines, information in the internet.

102

Аграрный вестник Урала

№ 9 (51), 2008 г.

индексированы поисковыми машинами, но это не делается потому, что поисковые машины считают это непрактичным, например, по причине стоимости или потому, что данные настолько ко-роткоживущие, что индексировать их просто бессмысленно - прогноз погоды, точное время прибытия конкретного самолета, совершившего посадку в аэропорту и т.п.».

Мы рассмотрим каждую из основных причин существования Невидимого Интернета более подробно.

Ограничения возможностей поисковых машин

1. Физические ограничения скорос-

ти. Поисковые машины имеют физические ограничения по скорости поиска новых страниц. Ежесекундно идёт негласное соревнование: в Интернете

появляются новые страницы, а поисковые машины наращивают свою мощь. Кроме добавления новых страниц в Интернете происходят еще и исчезновение старых, а также внесение изменений в содержимое существующих, что также оттягивает на себя часть ресурсов поисковых машин. В этой постоянной гонке Интернет выигрывает у поисковых машин с большим перевесом.

2. Поиск информации - мероприятие довольно дорогостоящее. Содержание серверов, рассылка «пауков» (программ роботов-сборщиков информации) по Интернету, индексация, исключение сдвоенной информации - это всё довольно дорогое удовольствие.

Понимая, что проиндексировать все документы в Интернете все равно не удастся, а затраты надо приводить в соответствие с доходами, владельцы поисковых машин вводят собственные ограничения в работе своих систем. Например, ограничивают глубину проникновения «паука» на сайте, общее количество страниц в индексе, пропускают старые страницы, на которые никто никогда не ходит. Или ограничивают частоту повторных посещений сайта «пауком», в результате чего часть страниц устаревает. В любом случае, когда принимается решение ввести ограничение на работу поисковой машины, это автоматически означает, что существуют страницы, которые могли бы быть проиндексированы, но проиндексированы не были. Это имеет необычный побочный эффект: большие сайты могут, порой, проигрывать небольшим.

3. Принцип попадания страниц в индекс при помощи «пауков».

«Паук» попадает только на те страницы, на которые есть ссылки с других страниц, либо которые внесены в очередь на индексирование вручную - путём заполнения формы «Добавить стра-

ницу» (“Add URL”). Соответственно, если на страницу никто не ссылался, и никто о ней не сообщал поисковой системе вручную, то такая страница не будет проиндексирована (найдена).

Кроме того, если даже «паук» регулярно посещает страницу, то он делает это с определенной периодичностью. Если в промежутке между двумя посещениями страница изменится, то это изменение некоторое время будет неизвестно поисковой системе и ее пользователям.

Таким образом, существуют две задержки по времени в индексировании страниц: когда страница создана, но еще неизвестна поисковой машине, и когда паук проиндексировал страницу, но не посетил её повторно.

4. Необычные слова на странице, интересующей пользователя.

Страница, которая нужна пользователю, может содержать слова, иные, чем пользователь обычно вводит в поисковую строку. В результате пользователь, не обладающий достаточно высокой квалификацией в поиске информации в Интернете, не может найти нужную страницу с помощью поисковой машины.

5. Предпочтение поисковой машиной быстроты поиска, а не его глубины.

Выбор между «максимально быстро» и «максимально полно» существует в любой отрасли, связанной с получением и обработкой информации. Поисковая машина обычно сориентирована владельцами на наиболее быстрое получение результатов, пусть даже в ущерб полноте. Поэтому некоторые страницы, индексирование которых трудоёмко, остаются за пределами базы данных, попадающей на сервер поисковой машины.

Хотя бывают исключения из этого правила. Существуют специализированные поисковые машины, которые ищут информацию именно глубоко, а не быстро. Но они при этом «ходят» на тематические сайты. Примером такой специализированной поисковой машины может служить, по информации Гэри Прайса, LawCrawler (http://lawcrawler.lp.findlaw. com) или Politicalinformation.com (http:// www.politicalinformation.com).

6. Ориентация поисковых машин на поиск текстов в разных вариантах.

Поисковые машины исторически были сориентированы на поиск текстов. Сначала - текстов, представленных в формате HTML, затем стали добавляться и другие форматы - например, Word (.doc), Adobe Acrobat (.pdf), Flash. Однако все эти форматы все равно содержат тексты. Индексировать изображения или, например, звуковые файлы (не названия звуковых

Интернет технологии

файлов, а именно сам звук), поисковые машины пока не научились.

Типы контента в Невидимом Интернете

Разные типы контента по разным причинам могут стать частью невидимого Интернета.

1. Быстрое устаревание или изменение информации.

Некоторые виды информации устаревают или меняются столь стремительно, что «пауки» не в состоянии ее проиндексировать своевременно. При этом часто владельцы поисковых машин вообще не пускают пауков на такие страницы, дабы не тратить ресурсы на бесполезное занятие. Примером такого контента может служить погода в режиме реального времени.

2. Страница состоит преимущественно из документов в таких форматах, которые не поддерживаются поисковыми машинами. Например, страница содержит только изображение.

3. Содержимое страницы генерируется по запросу.

Примером такой страницы может быть расчёт цены автомобиля, в зависимости от комплектации и материала отделки салона. Для получения такой страницы пользователь пошагово заполняет формы на сайте, и конечный результат каждый раз формируется заново. Содержимое такой страницы не может быть проиндексировано по той простой причине, что без запроса страницы не существует, а заполнять формы «паук» не умеет.

4. Содержимое баз данных.

Результат из базы данных появляется тоже только после ввода определенного запроса в форму обращения к базе данных. Паук, как и в предыдущем случае, не может ни заполнить форму запроса, ни проиндексировать содержимое самой базы данных.

5. Страница не вводилась в форму добавления сайта и при этом на нее не ведут никакие ссылки.

Паук никаким образом не может узнать о существовании подобной страницы, поэтому ее не посещает.

Такие страницы, кстати, могут представлять большой интерес для конкурентной разведки, поскольку на практике известны случаи, когда на них содержались эксклюзивные предложения для некоторых клиентов.

Мы сталкивались с ситуацией, когда компания смогла вычислить алгоритм составления адресов таких страниц конкурентном, после чего была долгое время в курсе всех его специальных предложений - до смены системного администратора конкурента и механизма формирования адресов таких страниц.

Литература

1. Chris Sherman & Gary Price «The Invisible Web».

2. Arthur Weiss «Secondary Source Information» // Материалы тренинга на Десятой Европейской конференции SCIP (Лондон, 2005 г.).

3. Ющук Е.Л. Конкурентная разведка: маркетинг рисков и возможностей. - М.: Вершина, 2006.

4. Kahaner, Larry. Competitive Intelligence. — Simon & Shuster, 1997.

5. Burwell, Helen P. Online Competitive Intelligence: increase your profits using cyber-intelligence. — Facts on Demand Press, 1999.

i Надоели баннеры? Вы всегда можете отключить рекламу.