Научная статья на тему 'ИСТОРИЯ РАЗВИТИЯ ПОИСКОВЫХ СИСТЕМ И АЛГОРИТМЫ ИХ РАБОТЫ'

ИСТОРИЯ РАЗВИТИЯ ПОИСКОВЫХ СИСТЕМ И АЛГОРИТМЫ ИХ РАБОТЫ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1067
123
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БОТ / ВЕБ-СТРАНИЦА / ПОИСКОВАЯ СИСТЕМА / КАТАЛОГ / ALTAVISTA / ЗАПРОС / RAMBLER / APORT / YANDEX / ИНТЕРНЕТ / СРЕДСТВА ПОИСКА / ПРОИНДЕКСИРОВАННАЯ ИНФОРМАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Калмыков Михаил Александрович, Медникова Оксана Васильевна

Самый первый сайт в интернет-сети появился спустя 8 лет после создания самой сети. И уже довольно скоро человечество столкнулось с важной задачей: организация хранения и доступа к конкретным веб-страницам, количество которых не медленно росло. В числе первых решений этой задачи была разработка каталогов сайтов, где хранились ссылки на различные ресурсы. Сгруппированы эти ссылки были в соответствии с тематикой. Первым таким проектом был сайт Yahoo, который открылся в апреле 1994 года. Потом была разработана система поиска информации по каталогу, поиск работал исключительно с имеющимися в каталоге ресурсами, а не всеми ресурсами в сети интернет. Современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Например, крупнейший каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов. В статье рассматривается история поисковых систем.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

HISTORY OF THE DEVELOPMENT OF SEARCH ENGINES AND ALGORITHMS OF THEIR WORK

The very first site on the Internet network appeared 8 years after the creation of the network itself. And quite soon, humanity was faced with an important task: the organization of storage and access to specific web pages, the number of which was not slowly growing. Among the first solutions to this problem was the development of site directories, where links to various resources were stored. These links were grouped according to the subject. The first such project was Yahoo, which opened in April 1994. Then a system for searching for information in the catalog was developed, the search worked exclusively with the resources available in the catalog, and not with all the resources on the Internet. Today's catalogs, containing a huge amount of resources, provide information about only a very small part of the Internet. For example, the network's largest directory, DMOZ (or the Open Directory Project), contains information on 5 million resources, while the Google search engine database consists of more than 8 billion documents. The article discusses the history of search engines.

Текст научной работы на тему «ИСТОРИЯ РАЗВИТИЯ ПОИСКОВЫХ СИСТЕМ И АЛГОРИТМЫ ИХ РАБОТЫ»

УДК 004

ИСТОРИЯ РАЗВИТИЯ ПОИСКОВЫХ СИСТЕМ И АЛГОРИТМЫ ИХ РАБОТЫ

Калмыков Михаил Александрович

Магистр, Федеральное государственное автономное образовательное учреждение высшего образования "Российский университет транспорта" mica 2011@mail.ru

Медникова Оксана Васильевна

Доцент, кандидат технических наук, Федеральное государственное автономное образовательное учреждение высшего образования "Российский университет транспорта"

Самый первый сайт в интернет-сети появился спустя 8 лет после создания самой сети. И уже довольно скоро человечество столкнулось с важной задачей: организация хранения и доступа к конкретным веб-страницам, количество которых не медленно росло. В числе первых решений этой задачи была разработка каталогов сайтов, где хранились ссылки на различные ресурсы. Сгруппированы эти ссылки были в соответствии с тематикой. Первым таким проектом был сайт Yahoo, который открылся в апреле 1994 года. Потом была разработана система поиска информации по каталогу, поиск работал исключительно с имеющимися в каталоге ресурсами, а не всеми ресурсами в сети интернет. Современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Например, крупнейший каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов. В статье рассматривается история поисковых систем.

Ключевые слова: бот, веб-страница, поисковая система, каталог, AltaVista, запрос, Rambler, Aport, Yandex, интернет, средства поиска, проиндексированная информация.

HISTORY OF THE DEVELOPMENT OF SEARCH ENGINES AND ALGORITHMS OF THEIR WORK

Kalmykov Mikhail Alexandrovich

Master's Degree, Federal State Autonomous Educational Institution of Higher Education "Russian University of Transport" mica 2011@mail.ru

Mednikova Oksana Vasilyevna

Associate Professor, Candidate of Technical Sciences, Federal State Autonomous Educational Institution of Higher Education "Russian University of Transport"

The very first site on the Internet network appeared 8 years after the creation of the network itself. And quite soon, humanity was faced with an important task: the organization of storage and access to specific web pages, the number of which was not slowly growing. Among the first solutions to this problem was the development of site directories, where links to various resources were stored. These links were grouped according to the subject. The first such project was Yahoo, which opened in April 1994. Then a system for searching for information in the catalog was developed, the search worked exclusively with the resources available in the catalog, and not with all the resources on the Internet. Today's catalogs, containing a huge amount of resources, provide information about only a very small part of the Internet. For example, the network's largest directory, DMOZ (or the Open Directory Project), contains information on 5 million resources, while the Google search engine database consists of more than 8 billion documents. The article discusses the history of search engines.

Keywords: bot, web page, search engine, catalogue, AltaVista, query, Rambler, Aport, Yandex, Internet, search tools, indexed information.

Первым запущенным проектом «WebCrawler» выпущенный Брайаном

полноценной поисковой системой стал Пинкертоном в 1994 году. Это был первый

поисковый бот, полностью индексирующий вебстраницы. Главным преимуществом этой системы стала возможность искать информацию по абсолютно любым ключевым словам во всей сети интернет. Затем, в том же 1994 году увидела свет разработка Майкла Малдина Lycos. Данная поисковая система была запущена с каталогом более 54 тысяч документов и ее основным преимуществом была беспрерывная пополняемость каталога. Таким образом, уже в 1996 году Lycos проиндексировал более 60 миллионов документов - самое большое количество документов среди всех систем того времени.

В 1995 году была выпущена AltaVista, быстро ставшая лидером среди поисковых систем на долгие годы. Ее популярность была обоснована тем, что пользователь мог использовать естественный язык при формулировке запросов, а также формулировать сложные запросы. Помимо возможности формулировки запросов, у AltaVista было еще одно важное преимущество: система поддерживала достаточно большое количество языков, даже редких, например, китайского и японского. В 1996 году для русского языка было запущено морфологическое расширение. [1]

В 1996 году свет увидели 2 новых российских поисковых системы: Rambler и Aport. Выход первых отечественных поисковых систем дал новый виток развития российского интернета, что позволило русскоязычным пользователям формулировать запросы на русском языке.

В 1997 году в рамках исследовательского проекта в Стэнфордском университете, Сергей Брин и Ларри Пейдж разработали всем известный Google - поисковую систему, ставшую самой известной в мире. Ее преимуществом был поиск, учитывавший морфологию,

орфографические ошибки в запросах и повышенную релевантность в результатах выдачи запросов.

В том же 1997 году в России официально анонсировали Yandex, так же ставшую самой популярной поисковой системой, но уже в русскоязычном интернете. Вход Yandex на российский рынок поисковых систем привел к росту конкуренции поисковых систем в России. Все стремились улучшить свою систему поиска и индексации, предлагали, как можно больше все новых сервисов и услуг.

В современной сети интернет доминирующее положение занимают 3 международных поисковых системы - Google, Bing и Yahoo. Каждая из них имеет собственные базы и алгоритмы поиска. Большая часть остальных систем работает с использованием результатов 3 вышеперечисленных. Например, российская система Mail.ru активно использует базу Google, а AltaVista, Lycos и AllTheWeb -используют базу Yahoo. Лидирующую позицию в рейтинге поисковых систем в России занимает

Яндекс, за ним идут Google, Mail.ru, Rambler, Yahoo и Bing. [3]

Перейдем к рассмотрению алгоритмов работы поисковых систем.

Для работы поисковой системы используются так называемые средства поиска и структурирования. Их еще часто называют поисковыми механизмами. В число этих механизмов входят следующие средства: агенты, пауки, краулеры, база данных. Все они используются для сбора информации о документах, которые можно найти в интернете. Фактически, все это узконаправленные программы, которые занимаются поиском страниц в сети. Они проводят анализ страниц, находят в их содержании гипертекстовые ссылки и затем производят индексацию найденной информации. Проиндексированную информацию эти механизмы записывают в базу данных. Для каждого механизма используется свой набор правил, который позволяет им определить способ поиска и обработки документов. Некоторые из них следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые не обращают на ссылки, которые ведут к не текстовым файлам никакого внимания. Иные игнорируют ссылки на ресурсы типа баз данных WAIS. Алгоритмы некоторых других просматривают в первую очередь наиболее популярные страницы.

Теперь подробнее рассмотрим каждый механизм.

Начнем с агентов. Агент - один из самых обученных поисковых механизмов. Агент умеет не только искать страницы. Например, одна из их возможностей - выполнение транзакций от имени пользователя. Они умеют искать сайты с конкретной тематикой и возвращать результат в виде отсортированного по посещаемости списка найденных сайтов. Помимо индексации страниц, агенты могут так же находит и индексировать иные ресурсы. Их алгоритмы могут быть нацелены на извлечение информации из существующих баз данных. В целом не важно, какую информацию агенты индексируют, в любом случае они отдают ее в базу данных поискового механизма.

Агенты различаются направленностью индексации. Некоторые агенты могут индексировать каждое встреченное слово в найденном документе. Некоторые индексируют только сотню самых приоритетных слов в документе. Некоторые индексируют весь размер документа и число содержащихся в нем слов. Существуют так же агенты, индексирующие только заголовки документов. От того, как построен индексатор зависит вид выполняющегося поисковым механизмом поиска, а также то, как будет интерпретирована полученная информация. [2]

Перейдем к такому механизму как Spider или паук. Паук- это программа, скачивающая

веб-страницы способом аналогичным браузеру пользователя. Разница состоит в том, что браузеры отображают информацию, содержащуюся на странице, в то время как spider не имеет графической составляющей и работает напрямую с html-разметкой страницы. При желании пользователь может просмотреть разметку страницы нажав комбинацию клавиш Ctrl+U.

Crawler или краулер. Эта часть системы производит выделение всех ссылок, расположенных на странице. Смысл краулера определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, основываясь на найденных ссылках производит поиск новых для поисковой системы документов.

База данных - это хранилище всех данных, которые поисковая система скачивает и анализирует. Иногда базу данных называют индексом поисковой системы.

Рассмотрим алгоритм поиска информации. Пользователь для того, чтобы найти интересующую его информацию использует поисковую систему. Он открывает страницу поисковой системы, вводит в форму поиска необходимый ему запрос. В этом запросе используются ключевые слова, даты и иные критерии. Используемые в форме поиска критерии должны соответствовать тем критериям, которые используют агенты для индексации найденной в документах информации.

Далее база данных находит предмет запроса, основанный на указанной в форме поиска информации. Затем формирует и возвращает список соответствующих запросу документы, подготовленные базой данных. Для того, чтобы правильно сформировать порядок списка выдачи документов, база данных использует алгоритм ранжирования. В лучшем случае, первыми в списке выдаче размещаются документы, наиболее релевантные запросу пользователя. В зависимости от поисковой системы могут быть использованы различные алгоритмы ранжирования. Основные характеристики, по которым определяется релевантность документа выглядит следующим образом:

1. Количество слов в тексте документа совпадающих с запросом пользователя

2. HTML-тэги содержащие эти слова

3. Местоположение искомых слов в документе.

4. Удельный вес слов, относительно которых определяется релевантность, в общем количестве слов документа. [1]

Приведенные выше характеристики являются основными и используются во всех поисковых системах. Но есть так же факторы, которые используются не самыми популярными, но достаточно известными системами, таких как, например, AltaVista. Среди этих факторов рассматривают:

1. Продолжительность нахождения документа в базе данных поискового сервера. Этот фактор весьма полезен, так как он говорит о том, что информация на сайте достаточно достоверна и с большей вероятностью подойдет пользователю, чем другой сайт такой же тематики, запущенный неделю или две назад.

2. Так называемый «индекс цитируемости» - количество ссылок на страницу, ведущих с других страниц уже имеющихся в базе данных поисковой системы. [3]

В соответствии с вышеописанными факторами база данных формирует и возвращает пользователю ранжированный список HTML-документов. Способ показа сформированного списка документов зависит от поискового механизма. Некоторые механизмы показывают исключительно ссылки, другие отображают гсылки вместе с несколькими начальными предложениями документа, или же просто заголовок документа вместе с мылкой.

После того, как пользователь нажмет на ссылку, документ запрашивается у сервера, на котором хранится нужный документ.

На этом знакомство с историей развития поисковых систем и алгоритмами их работы можно завершить. Вышеописанная информация рассказывает краткую историю развития поисковых систем, поверхностно рассказывает об основных механизмах работы поисковых систем. Несомненно, существует большое количество тонкостей, которые необходимо изучить, но это довольно сложно описать в рамках одной статьи, так как необходим больший опыт работы.

ЛИТЕРАТУРА

1. Медникова О.В., Анистратов А.В., Титов А.М. Цифровая экономика в россии: проблемы и развитие Сборник: Цифровая трансформация в экономике интеграции. Развитие экосистемы: наука, практика, образование. материалы II международной научно-практической конференции. Москва, 2020. - С. 208-211.

2. Гетман В.А., Медникова О.В. Применение цифровых сервисов систем контроля версий в программной разработке. \ Гетман В.А., Медникова О.В.. сборник: Цифровая трансформация в экономике транспортного комплекса. Москва, 2021. С. 75-79.

3. Интернет вещей. https://en.wikipedia.org/wiki/Интернет_из_вещей. Дата доступа 17.04.2022.

i Надоели баннеры? Вы всегда можете отключить рекламу.