Инновационные технологии и их роль в формировании феномена Google

Брень Дмитрий Дмитриевич

УДК 654.19;002.2

ИННОВАЦИОННЫЕ ТЕХНОЛОГИИ И ИХ РОЛЬ В ФОРМИРОВАНИИ

ФЕНОМЕНА GOOGLE

Брень Дмитрий Дмитриевич -аспирант,

кафедра средств массовых коммуникаций, Институт филологии, журналистики и межкультурной коммуникации Южного федерального университета, пер. Университетский, 93, г. Ростов-на-Дону, 344006. E-mail: intomyhaven@yandex. ru.

Bren Dmitriy Dmitriyevich -Post-Graduate,

Department of Means of Mass Communications, Institute of Philology, Journalism and Intercultural Communication of Southern Federal University, Universitetsky Lane, 93, Rostov-on-Don, 344006. E-mail: [email protected].

Приводится краткий анализ основных технологий, находящихся в основе сервисов компании Google Inc., их особенностей и принципов функционирования. Рассматриваются как технологические (файловая система GFS), так и программные аспекты (алгоритм Google PageRank, операционная система Android) в качестве компонентов единого феномена Google в современной медиасреде.

Ключевые слова: Google, Android, Google File System, GFS, PageRank, Интернет, медиасреда, поисковые системы.

A brief review of the most important technological features used by Google Inc. is being given in this article. Both hardware (file system GFS) and software features (Google PageRank, operation system Android) are under the author's examination as the parts of a whole that's called Google Phenomenon in the modern media space.

Keywords: Google, Android, Google File System, GFS, PageRank, Internet, media space, search engines.

Поиск путей организации информационных потоков является одной из актуальных проблем современной медиажурналистики. Тенденция к преображению самой структуры Интернета, способов и средств рапростране-ния, хранения и обмена информации наметилась еще в середине прошлого десятилетия. Сегодня можно говорить о значительном объеме преобразований в современной медиасре-де, лидером которой, по мнению ряда аналитиков, стал еще в 2005 г. американский публицист Тим О'Рейли - глава интернациональной корпорации Google [1].

Воплощение главной миссии Google - «организовать всю имеющуюся в мире информа-

цию, сделав ее доступной и удобной для использования» - без постоянных технологических инноваций была бы неосуществимой в мире, где количество информации удваивается раз в два года, а количество пользователей, имеющих доступ к сети Интернет, постоянно увеличивается [2]. Поэтому все компоненты Google - от приложений и сервисов до программных компонентов и алгоритмов, лежащих в их основе, - подвергаются постоянным обновлениям. И в случае со многими такими нововведениями Google является первопроходцем, задавая своим примером тенденции для других крупных сервисов, таких как Facebook, Amazon, Microsoft и др. [3].

Говоря о Google, мы чаще всего подразумеваем самое популярное и самое распространенное детище этой корпорации - Google Search, поисковую систему, уже больше десяти лет держащую первенство на аутентичном рынке. Ее функционирование невозможно без целого ряда важных технических и научных нововведений, взаимоинтегрированных и объединенных в сложную систему, многие из которых являются уникальными.

Первым техническим нововведением компании Google можно считать инновационный поисковой алгоритм PageRank (дословно с английского - «рейтинг страницы») - разработка Ларри Пейджа и Сергея Брина. Рассмотрим его подробнее.

Известно, что всякая поисковая система состоит из нескольких основных взаимосвязанных компонентов: модуля сканирования, базы данных, модулей индексирования, модуля поиска и ранжирования. Модуль сканирования состоит из программ, предназначенных для сканирования страниц на ссылки и занесения их в базу данных поисковой системы. Таких программ (роботов или просто «ботов») три.

Spider, или робот-паук, скачивает ту или иную интернет-страницу в виде кода HTML и выделяет из ее тела все внутренние ссылки. В задачи паука входит также анализ служебной информации о стране. Некоторые пауки обрабатывают не только ссылки, но и так называемые «редиректы» - переадресации с сайта на сайт. Crawler, или путешествующий паук, автоматически переходит по всем этим ссылкам и таким образом формирует базу новых, еще не знакомых поисковой системе компонентов. Наконец, Indexer, или робот-индексатор, анализирует результаты, выданные первыми двумя программами, разбивая файл на составные части - заголовок, тело и т.п., подсчитывает частоту использования тех или иных слов, обращает внимание на стилевые и структурные особенности текста. Результаты работы этот робот заносит в специальный файл-индекс поисковой системы [4]. Страницы, посещенные роботами, хранятся в базе данных поисковой системы, из которой можно легко получить доступ к любой странице для последующего взаимодействия с ней.

Модуль индексирования добавляет в базу данных информацию о той или иной странице -

ключевые слова, изображения, ссылки, по которым страница доступна и т.п. Модуль поиска берет своей целью получение и обработку запросов пользователей, для чего обращается к базе данных. И, наконец, модуль ранжирования сортирует страницы по релевантности, т.е. упорядочивает их так, чтобы первыми в результатах поиска оказывались наиболее соответствующие запросам пользователей страницы.

Такая архитектура, привычная для большинства поисковых систем, тем не менее оставляет нерешенной часть проблем, связанных с поиском данных. Во-первых, ранжирование по анализу идентичности текста страницы и текста запроса оставляет лазейку администраторам сайтов в желании продвинуть свои страницы активно использующих такое понятие, как поисковый спам. При подобного рода махинациях администратор может запросто поднять рейтинг сайта, заполняя текстовое содержимое ключевыми словами без изменений или просто добавляя в HTML-код страницы наиболее популярные поисковые запросы, хотя никакой информации по ним страница могла и не содержать. Кроме того, отдельным вопросом остается так называемая «глубокая паутина» (англ. Invisible web) -страницы, не индексируемые поисковыми системами. Сюда входят, например, вебстраницы, динамически генерируемые по запросам к онлайн-базам данных [5].

Борьба с «глубокой паутиной» и поисковым спамом - это отдельная проблема, над решением которой специалисты работают уже не первый год. Однако в начале нового века, на заре своего существования, Google предложил в качестве средства борьбы с этим явлением использование так называемого индекса цитирования - показателя поисковой системы, вычисляемый на основе числа ссылок на данный ресурс с других ресурсов Интернета. На основе индекса цитирования Google проводит процедуру ссылочного ранжирования найденных страниц, сортируя их по релевантности, т.е. по семантическому соответствию поискового запроса и поискового образа документа. Google был первой поисковой системой, в механизме поиска которой был задействован этот метод [6].

Обновление Caffeine, объявление о завершении работы над которым появилось в официальном блоге Google 9 июня 2010 г., пред-

ложило пользователям широкий ассортимент нововведений. Оно коснулось не только алгоритма поиска, но и всей поисковой системы, которая расширила результаты выдач по запросам за счет добавления в результаты поиска мультимедийных материалов (фотографий и видеофайлов), а также за счет поиска по социальным сетям, таким как Facebook и Twitter. Введение Caffeine потребовало полной переработки файловой системы Google, существующей без изменений с последнего десятилетия прошлого века: на место старой GFS (Google File System) пришла система GFS2, основным принципом работы которой стала высокая скорость отклика на пользовательский запрос. Ранее этот принцип приносился в жертву обеспечению высокой пропускной способности. Введение Caffeine и обновление файловой системы обусловило существование поисковой системы Google в том виде, в котором она известна сегодня, и сделало возможным внедрение множества новых функций и сервисов [7], описание которых -тема для отдельной статьи.

Последнее масштабное обновление поискового механизма Google Panda учитывает в придачу к авторитетности ресурсов, скорости их загрузки и распространенности упоминаний о них в Сети еще и качество размещаемого на них контента. Показатель качества Panda высчитывает с учетом большого количества факторов, в том числе релевантность размещенной рекламы, соответствие содержания, заголовка страницы и ключевых слов поисковому запросу, качество текста на странице и др. [8]. Полный список факторов, влияющих на ранжирование сайтов согласно алгоритму Panda, составляет больше сотни одновременно анализируемых параметров.

Таким образом, следует отметить, что совершенствование и доработка поискового механизма - это неотъемлемая часть политики Google с самого начала существования этой компании. Использование сложных и взаимосвязанных систем, при поисковой выдаче учитывающих большое количество самых разнообразных факторов, и практически полная независимость этих факторов от человеческого влияния делают Google привлекательным для рядового пользователя - совокупность работы множества инноваций в рамках единого поискового алгоритма на выходе дает наиболее релевантный результат.

Еще одно революционное новшество корпорации Google File System (или GFS), уникальная разработка по оптимизированному хранению данных на носителях сверхбольшого объема. Разработка GFS была необходимым условием функционирования поисковой системы Google Search - ибо корректная работа алгоритма PageRank требовала создания файловой системы, способной одновременно удерживать и обрабатывать огромные массивы данных. Основные критерии создания GFS:

1. Обеспечение стабильности хранения и взаимодействия с файлами, расположенными на недорогих машинах. В самом деле - файловые хранилища сверхбольших объемов строятся на основе значительного количества носителей, которые, как правило, являются недорогими, а следовательно, нередко дают сбои, грозящие потерей информации [9].

2. Высокая производительность при работе как с самыми большими (в сотни гигабайт), так и с самыми маленькими (в несколько килобайт) файлами - причем в больших количествах.

3. Способность оперативно и без сбоев считывать данные как в виде непрерывного потока, так и в виде отдельных сегментов.

4. Отсутствие проблем в дозаписи обновленных данных в произвольные участки конкретных файлов.

5. Адекватная обработка одновременных запросов нескольких пользователей к одному и тому же файлу или его отдельному сегменту. Если дело касается масштабов GFS, счет таких запросов может идти на сотни и тысячи. Решение этой задачи заключается в использовании атомарности операций добавления данных в каждый конкретный файл с обеспечением между этими действиями своеобразной иерархии, при которой запросы на чтение файла, например, будут выполняться после запросов на запись [9].

6. Высокая пропускная способность, которая более предпочтительна, чем маленькая задержка.

Архитектура файловой системы Google представляет собой множество серверов, хранящих фрагменты данных (так называемых чанк-серверов - от англ. chunk, что в переводе означает «кусок», «фрагмент»), связанных между собой единым мастер-сервером (или просто мастером), хранящим метаданные: на-

звания файлов, сведения о доступе к ним и об их расположении. Особая роль в функционировании файловой системы Google уделена клиенту - службе, осуществляющей запрос к файлам, хранящимся на чанк-машинах [9]. Следует отметить, что клиентом в GFS является именно программная служба, а не пользователь - файловая система Google несовместима с операционными системами и используется для автоматизированного взаимодействия между вычислительными системами корпорации - человеческий фактор здесь отсутствует. Взаимодействие между клиентом и чанками происходит напрямую - мастер-сервер в данном случае лишь выполняет роль своеобразного контроллера, перенаправляющего пользователя к необходимому сегменту данных. Кроме того, важной функцией мастер-сервера является хранение и обработка метаданных: помимо названий и адресов файлов, о которых уже было сказано, эти метаданные включают в себя также историю изменений, внесенных в каждый из чанков. По этой истории мастером ведется журнал взаимодействия между пользователем и файловой системой, в результате чего в случае необходимости можно совершить откат на несколько последних действий.

Массивные объемы постоянно изменяющихся данных файловая система Google защищает от сбоев двумя взаимосвязанными способами: через репликацию и быстрое восстановление. Репликация данных проходит автоматически - каждый чанк троекратно копируется на свободные серверы, после чего мастер-сервер может обратиться к ближайшей копии, если оригинал запрашиваемых данных по той или иной причине окажется поврежден. Поиск и восстановление поврежденных кластеров, равно как и вообще любой запрос к информации, хранящейся в файловой системе, осуществляется за небольшое время по команде мастера - эту функцию до недавнего времени брал на себя механизм MapReduce. Этот алгоритм - еще одна инновационная разработка Google, представляющая собой модель распределенных вычислений над сверхбольшими объемами данных, одним из которых как раз является GFS. Принцип действия MapReduce заключается в большом количестве одновременных процессов: соответственно map - просмотра списка файлов, и reduce - свертывания этого списка с возвра-

щением мастер-серверу информации о выявленных проблемах [9].

Развитие файловой и поисковой системы Google всегда были взаимосвязаны, и в 2009 г., с выходом поискового алгоритма Caffeine, сервисы Google претерпели значительные изменения, что потребовало обновления GFS. На место старой файловой системы пришла GFS2, получившая кодовое название «Google Colossus». Алгоритм MapReduce был признан устаревшим и вытеснен базой данных BigTable, для использования в связке с которой было разработано обновление Google Colossus. Как уже было сказано, основным различием между прежней GFS и ее обновлением стало принципиально иное распределение приоритетов: такие приложения, как Gmail или Google Maps, не существовавшие во времена оригинальной GFS, требовали возможности обработки данных в реальном времени, без чего вполне можно было обойтись в те времена, когда файловая система Google обслуживала лишь поисковый механизм.

Таким образом, файловая система Google обеспечивает данным на носителях сверхбольшого объема не только возможность быстрой обработки, но и безопасность хранения. Оптимизированная в 2009 г., GFS стала единой основой для всех сервисов Google, система которых постоянно увеличивается, дорабатывается и дополняется.

Говоря о технологиях, лежащих в основе Google, нельзя обойти стороной относительно недавно появившуюся операционную систему Android, контролирующую первую по размерам долю рынка смартфонов и уже давно используемую в своих устройствах такими крупнейшими компаниями, как Samsung, Sony, HTC, LG и др.

Следует отметить, что Android не является инновационной разработкой Google в полном смысле слова. Работу над этой операционной системой и приложениям к ней ведет бизнес-объединение Open Handset Alliance (OHA), включающее в себя 84 крупные корпорации, и Google - главная из них. Android является неотъемлемой частью феномена Google, и детальное рассмотрение этой операционной системы в рамках данной статьи позволит лучше понять, как Google позиционирует себя на рынке мобильных устройств и что ждет корпорацию в будущем.

Заинтересованность большого количества крупных компаний в развитии и продвижении

ОС Android привела к тому, что эта система установлена на большинстве современных мобильных устройств - от смартфонов до планшетных компьютеров.

Как и в случае с аналогами в Интернете, приложения сервисов Google на устройствах под управлением Android для своей работы требуют привязки к личному Google-аккаунту пользователя - учетной записи, с помощью которой обеспечивается синхронизация всех личных данных. Благодаря авторизации смартфонов на базе Android эта ОС тоже в каком-то смысле становится частью системы сервисов Google, расширяя функциональность приложений за счет возможности их использования без привязки к стационарному компьютеру.

Нельзя не отметить, что практика привязки мобильных устройств к личным учетным записям воплощена не только в смартфонах Android. Ближайшие конкуренты Google на рынке мобильных устройств, Apple и Microsoft, активно используют схожие механизмы для авторизации своих продуктов - это Apple ID и Windows Live ID соответственно. Однако ни Apple, ни Microsoft не обладают столь разветвленной системой веб-сервисов, как та, что предлагает Google - сфера использования их идентификаторов ограничена буквально десятком сервисов на каждую корпорацию, причем среди них едва ли можно найти полноценные приложения. Средства аутентификации, используемые в Apple и Microsoft, лишь незначительно расширяют функциональность продуктов и программ этих компаний - и лишь у Google идентификатор является полноценным системообразующим механизмом, без которого невозможно не только взаимодействие большинства сервисов в рамках индивидуальных потребностей владельца аккаунта, но и зачастую вообще их полноценное функционирование.

Итак, операционная система Android завоевала лидирующее положение на рынке мобильных устройств и стала полноценным компонентом феномена Google в мировом информационном пространстве.

Таким образом, подход Google к развитию своих продуктов и продвижению на рынке связан главным образом с наукоемкими алгоритмами, которые никто в такой мере и в та-

Поступила в редакцию

ком объеме еще не применял. Многие из технологий, положенных в основу сервисов Google, засекречены, многие - сугубо утилитарны и не представляют интереса для рассмотрения в данной работе. В нашем исследовании сделана попытка анализа основных аппаратных и программных инноваций Google, которые были столь революционны и впечатляющи, что в значительной мере изменили законы медиасреды и определили ее дальнейшее развитие.

Литература

1. O'Reilly T. What Is Web 2.0 II O'Reilly Media: сайт. URL: http:IIoreilly.comIweb2IarchiveIwhat-is-web-20.html (дата обращения: 11.05.2011).

2. Маркелов Р. Количество интернет-пользователей в России увеличилось до 46,5 миллиона человек // Российская газета: сайт. URL: http:IIwww.rg.ruI 2011I04I25Isite-site-anons.html (дата обращения: 15.05.2011).

3. Если Xerox PARC изобрела PC, то Google изобрел интернет [Электронный ресурс] // Хабра-хабр: сайт. URL: http:IIhabrahabr.ru/post/151190I (дата обращения: 02.06.2013).

4. Поисковые системы: состав, функции, принцип работы. URL: http:IIwww.seonews.ru/masterclasses/po-iskovyie-sistemyi-interneta-yandeks-google-rambler-ya-hoo-sostav-funktsii/ (дата обращения: 22.05.2013).

5. Шестаков Д. Структура русскоязычной части глубинного Веба // Интернет-математика 2005. Автоматическая обработка веб-данных. М., 2005. С. 320 - 341.

6. Проекты, изменившие интернет. URL: http:II1webcent.ru/proekty_izmenivshie_internet/ (дата обращения: 13.03.2014).

7. Брень Д. Google как система веб-приложений: типологическая характеристика и перспективы развития. URL: http:IIwww.relga.ru/EnvironIWebObjectsItgu-www.woa/wa/Main?textid=3050&level1=main&level2=a rticles (дата обращения: 25.03.2014).

8. Новый поисковой алгоритм Google Panda пришел в рунет. Чего ожидать? URL: http:IIwww.inter-face.ruIhome.asp?artId=26352 (дата обращения: 17.05.2013).

9. Распределенная файловая система GFS (Google File System) // Хабрахабр: сайт. URL: http:IIhabra-habr.ru/post/73673 (дата обращения: 02.06.2013).

15 мая 2014 г.

Инновационные технологии и их роль в формировании феномена Google Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Брень Дмитрий Дмитриевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Брень Дмитрий Дмитриевич

Innovative Technologies and their Role in the Formation of Google Phenomenon

Текст научной работы на тему «Инновационные технологии и их роль в формировании феномена Google»