Сравнительный анализ современных поисковых систем Comparative analysis of modern search systems
Голубева Д.М.
Студент 2 курса магистратуры, ф-т информационных технологий, Тверской государственный технический университет,
РФ, г.Тверь e-mail: sel [email protected]
D. M. Golubeva
2rd year student of magistracy, faculty of information technology, Tver State Technical University, Russia, Tver e-mail: sel [email protected]
Бочкова А.А.
Студент 2 курса магистратуры, ф-т информационных технологий, Тверской государственный технический университет,
РФ, г.Тверь e-mail: sel [email protected]
A. A. Bochkova
2rd year student of magistracy, faculty of information technology, Tver State Technical University, Russia, Tver e-mail: anna. bo4kowa@yandex. ru
Аннотация.
В век информационных технологий огромную роль играет интернет, а любое путешествие по просторам интернета невозможно без специальных поисковых систем, позволяющих комфортно просматривать любимые вебстраницы. Первоочередной задачей любой поисковой системы является доставление людям именно той информации, которую они ищут. В статье рассматриваются популярные среди пользователей поисковые система мира. Цель исследования состоит в анализе и сравнении поисковых систем, наиболее востребованных. В работе приведен алгоритм и расчеты нахождения лучшей поисковой системы, в зависимости от установленных критериев и весовых коэффициентов. Данный алгоритм поможет многим пользователям глобальной сети в правильном выборе поисковой системы, чтобы осуществлять быстрый поиск нужной информации в кратчайшие сроки.
Annotation.
In the age of information technology, the Internet plays a huge role, and any journey through the Internet is impossible without special search engines that allow you to comfortably view your favourite web pages. The primary goal of any search engine is to deliver people exactly the information they are looking for. The article considers popular search engines of the world among users. The aim of the research is to analyze and compare the search engines most in demand. In this paper the algorithm and calculations of finding the best search system are presented, depending on the established criteria and weighting factors. This algorithm will help many users of the global network in the right choice of the search engine to perform a quick search of the necessary information in the shortest possible time.
Ключевые слова: поисковая система, рейтинг, интернет, точность поиска, полнота поиска.
Key words: search system, rating, the Internet, search accuracy, completeness of search
На сегодняшний день поисковые системы являются сложнейшими и громадными механизмами, представляющие собой не только инструмент для нахождения любой необходимой информации, но и довольно увлекательные сферы для бизнеса. Работа с помощью поисковых систем позволяет многим пользователям глобальной сети осуществлять быстрый поиск нужной информации в кратчайшие сроки. Данная работа является актуальной, т.к. поисковые системы уже долгое время являются обязательной частью интернета и жизни общества.
В рамках данной статьи будет произведен анализ популярных среди пользователей поисковых систем мира и их сравнение. Для осуществления поставленной цели осуществим подбор и анализ популярных поисковых систем мира. Рейтинг популярных систем мира по данным исследовательской компании NetMarketShare представлен на рисунке 1. [1]
Рисунок 1 Рейтинг поисковых систем мира по популярности на май 2016 года
Популярными поисковыми системами в России по данным российского онлайн - сервиса Liveinternet на ноябрь 2017 года являются следующие [2]:
1. Яндекс - 50,7%;
2. Google - 45%;
3. Mail - 3,9%;
4. Rambler - 0,2%;
5. Bing - 0,1%.
Опираясь на данные статистики, в рамках данной статьи рассматриваемыми системами будут Google, Yandex, Bing, Mail.ru и Rambler.
Google - На сегодняшний день, система Google является общепризнанным лидером среди поисковых систем мира. Появление системы произошло в 1996 году, а корпорации Google - двумя годами позже. Google - это не только поиск, но и еще более 50 сервисов, включая самый популярный браузер Google Chrome. По мнению многих специалистов, Google Chrome самый быстрый браузер в мире, на сегодняшний день. Что касается оценки пользователей, то претензий к скорости работы не было выявлено, браузер открывает страницы практически мгновенно.
Yandex - Крупнейшая поисковая система. Появление системы произошло 23 сентября 1997 года. В последние годы Яндекс активно выходит на международный уровень. Сейчас он имеет версии сервиса в Беларуси, Украине, Казахстане и Турции. В последнее время Yandex активно продвигает свой собственный браузер.
Bing - Поисковик компании Microsoft, который быстро набирает популярность. Появление Bing произошло 1 июня 2009 года. На 2016-й год ее можно назвать быстроразвивающейся поисковой системой с достаточной долей рынка, и это позволяет назвать её конкурентом Google.
Mail.ru - Поисковая система, появление которой произошло 16 октября 2006 года. Сейчас ей принадлежат такие сервисы, как «Одноклассники» - социальная сеть для нахождения новых и старых знакомых, виртуального общения, обмена информацией между пользователями, которые смогут разделить общие интересы и увлечения, «Мой мир» - сеть, для поиска новых знакомых, друзей, одноклассников, обмена сообщениями, размещения фото и видео, поиска групп по интересам и Афиша, Агент, «Вопросы и ответы», Майл Деньги —около 40 крупнейших
сервисов в Рунете, среди которых и сам поиск. Mail.ru занимает третью строчку после Google и Яндекс среди популярных поисковиков в России.
Rambler - Поисковая система, существовавшая с 1996 по 2011 года. На сегодняшний день это крупнейший российский интернет-портал. Поиск по Rambler осуществляется силами движка Яндекса, объективных причин падения его популярности нет.
Рассмотрим пятерку поисковых систем по двум главным характеристикам: по полноте и точности поиска. Качество поиска в информационно-поисковых системах можно определить двумя критериями -точностью и полнотой. Точность определяется соотношением между найденными релевантными и нерелевантными документами, а полнота поиска - общим количеством найденных документов. Релевантным будем считать документ, который удовлетворяет запросу пользователя. Нерелевантные документы, сравниваемые с релевантными, иногда могут называться шумом, по аналогии с теорией передачи информации. Релевантные документы в таком случае называют сигналом, а эффективность поиска оценивают по соотношению "сигнал - шум".[3]
Назначим весовые коэффициент - параметры, которые отражают в сравнении с другими критериями относительную важность, значимость, «вес» данных критериев. Сумма всех весов должна быть равной 1, поэтому для точности поиска весовому коэффициенту даем значение, равное 0.8, для полноты поиска - 0.2. Оформим результаты в виде таблицы 1.
Таблица 1 - Весовые коэффициенты
Критерий Весовой коэффициент
Точность поиска 0,8
Полнота поиска 0,2
Сформулируем тринадцать запросов на разные темы и выполним каждый запрос в каждой из пяти исследуемых поисковых системах. Из полученных списков результатов выберем следующую информацию:
1. Общее количество найденных документов (Д).
2. Количество релевантных документов различной ценности (РД)
Количество релевантных документов оценивается при просмотре текста первых 10 найденных документов. Также определяется ценность найденной информации (степень удовлетворения найденном документом информационных потребностей). Ценность информации оценивается по 3-х бальной шкале: 2 балла - информация имеет ценность, 1 балл - информация имеет частичную ценность, 0 баллов - информация не имеет ценности. [3] Результаты выполнения запросов сведем в таблицу 2.
Таблица 2 - Результаты выполнения запросов
№ т е м ы Bing Google Mail.ru Rambler Yandex
Д РД Д РД Д РД Д РД Д РД
2 1 0 2 1 0 2 1 0 2 1 0 2 1 0
1 1 810 000 9 1 0 3 180 000 10 0 0 7 000 000 5 2 3 41 000 000 9 1 0 40 000 000 9 1 0
2 116 000 8 2 0 711 000 10 0 0 2 000 000 8 1 1 943 000 10 0 0 942 000 9 1 0
3 420 000 7 2 1 2 330 000 8 2 0 1 000 000 9 1 0 3 000 000 8 0 2 2 000 000 9 0 1
4 62 000 8 2 0 964 000 10 0 0 1 000 000 8 1 1 3 000 000 9 1 0 2 000 000 9 0 1
5 2 340 000 8 1 1 2 380 000 8 0 2 7 000 000 7 1 2 20 000 000 9 0 1 17 000 000 9 0 1
6 103 000 7 0 3 1 020 000 10 0 0 1 000 000 9 0 1 3 000 000 10 0 0 2 000 000 10 0 0
7 746 000 9 0 1 5 430 000 9 0 1 13 000 000 10 0 0 3 000 000 9 0 1 1 000 000 9 0 1
8 19 900 7 2 1 214 000 10 0 0 18 000 9 1 0 9 000 8 0 2 9 000 10 0 0
9 42 400 9 1 0 140 000 9 0 1 766 000 7 1 2 431 000 9 0 1 430 000 10 0 0
1 0 999 000 10 0 0 4 190 000 9 0 1 9 000 000 9 1 0 6 000 000 10 0 0 4 000 000 10 0 0
1 1 1 940 000 10 0 0 683 000 000 9 1 0 9 000 000 10 0 0 7 000 000 10 0 0 6 000 000 9 0 1
1 2 73 700 9 1 0 812 000 8 1 1 863 000 9 0 1 834 000 9 1 0 869 000 10 0 0
1 3 115 000 10 0 0 301 000 10 0 0 3 000 000 9 0 1 2 000 000 10 0 0 2 00 0 000 10 0 0
Выполним первичную обработку результатов. Для этого сведем их в таблицу 3.
Для нахождения лучшей поисковой системы для начала вычислим средние арифметические значения показателей для каждой поисковой системы Д, РД(0), РД(1) и РД(2).
Далее необходимо определить место каждой поисковой системы по критерию "Полнота поиска". Для его определения места будем использовать среднее количество найденных документов Д. Наилучшей считается та система, которая нашла больше документов. Ей присваивается первое место, самой худшей - место N ( где N - это количество всех исследуемых систем). Коэффициент точности поиска Р для каждой поисковой системы определим по формуле:
Р = _а_
а+Ь ,
где а - число релевантных документов, которые выдала поисковая система в ответ на запрос,
Вопросы студенческой науки Выпуск №16, декабрь 2017
а = 0.5 * РД(1)+ РД(2) ; Ь - число документов, которые полностью не имеют ценность, Ь = РД(0). Далее необходимо определить место каждой поисковой системы по критерию "Точность поиска". Лучшей будет считаться система, которая имеет большее значение коэффициента точности поиска Р. Ей присваивается первое место, самой худшей - место N ( где N - это количество исследуемых систем).
Следующим шагом будет вычисление коэффициента поискового шума S по формуле: S=1 - Р
В заключении необходимо вычислить по следующей формуле рейтинг каждой исследуемой системы Я: 111
Я-^СЫ-ч, +1)
¡=1
где 1 - номер критерия оценки поисковой системы, т - это количество критериев оценки, ■да - весовой коэффициент для критерия оценки 1, qi - это место ПС по критерию оценки 1. N - общее количество исследуемых
систем.
Таблица 3 - Результаты сравнительного анализа поисковых систем
Критерий Bing Google Mail.ru Rambler Yandex
Полнота поиска (Д) 675923,1 1719615,385 4203615,4 6939769,2 6019230,8
Место(полнота поиска) 6 5 4 1 3
Среднее количество пертинентных документов (РД2) 8,5 9,23 8,38 9,23 9,46
Среднее количество частично пертинентных документов (РД1) 0,92 0,31 0,69 0,23 0,15
Среднее количество непертинентных документов (РД0) 0,53 0,46 0,92 0,53 0,38
Коэффициент точности поиска (Р) 0,94 0,953 0,904 0,945 0,961
Место (точность поиска) 5 3 6 4 1
Коэффициент поискового шума 0,056 0,046 0,095 0,054 0,038
Рейтинг (Д) 2,8 4,6 2,4 4,4 5,8
По результатам расчетов лучшей поисковой системой Интернет из исследуемых - является Yandex. В
процессе выполнения данной работы был проведен анализ популярных среди пользователей поисковых систем. Была проанализирована пятерка систем, а именно поисковые системы Yandex, Google, Mail.ru Bing, и Rambler, произведено их сравнение и, была выбрана лучшая система. Опираясь на расчеты, можно с уверенностью сказать, что таковой является Яндекс. Поставленные задачи были полностью выполнены. Результат работы поможет пользователям сети выбрать быструю и надежную поисковую систему, выполняющую запросы с наибольшей точностью и за максимально короткие промежутки времени. Также не стоит забывать, что от содержания самого запроса зависит и скорость его воспроизведение, поэтому рекомендациями составления запроса могут выступить: учет морфологии слов, четкость и составление запроса из нескольких слов, адекватно передающих содержание необходимой информации.
Список используемой литературы:
1. Рейтинг топ 5 самых лучших отечественных и мировых поисковых систем: [Электронный ресурс]. М. -URL: bestseoblog.ru (дата обращения: 22.11.17)
2. Статистика сайта. Переходы из поисковых систем: [Электронный ресурс]. М. - URL: liveinternet.ru (дата обращения: 22.11.17)
3. Мировые информационные ресурсы[Текст]:Учебное пособие/ В.К.Иванов; под. ред .В. К.Иванова. -Тверь:Изд-во ин-та ТвГТУ, 2012. - 37с.: беспл. для студентов ин-та