2019. 03. 027. Гузенбауэр М. Google Scholar обошел всех? Сравнение размеров 12 научных поисковых систем и библиографических баз данных. Gusenbauer M. Google Scholar to overshadow them all? Comparing the sizes of 12 Academic search engines and bibliographic databases // Scientometrics. - 2019. - Vol. 118, n 1. - p. 177-214. - doi: https://doi. Org/10. 1007/s11192-018-2958-5

Егерев С.В.

Выводы авторов также показывают, что вознаграждение, учитывающее продуктивность рецензента, может привести к процессу отрицательного отбора. Будут привлекаться внешне мотивированные рецензенты и отвергаться истинно продуктивные рецензенты с сильной внутренней и просоциальной мотивацией. Внутренняя мотивация повышает любопытство и «когнитивную гибкость». Эти факторы имеют большое значение для решения сложных задач, требующих глубокой обработки информации. При понижении внутренней мотивации последствия для качества рецензирования могут оказаться негативными.

Ценность исследования, проведенного авторами, заключается в том, что полученная информация предоставляет редакторам эмпирические данные об эффективности нематериальных вознаграждений в зависимости от характеристик ученых.

С.В. Егерев

2019.03.027. ГУЗЕНБАУЭР М. GOOGLE SCHOLAR ОБОШЕЛ ВСЕХ? СРАВНЕНИЕ РАЗМЕРОВ 12 НАУЧНЫХ ПОИСКОВЫХ СИСТЕМ И БИБЛИОГРАФИЧЕСКИХ БАЗ ДАННЫХ. GUSENBAUER M. Google Scholar to overshadow them all? Comparing the sizes of 12 academic search engines and bibliographic databases // Scientometrics. - 2019. - Vol. 118, N 1. - P. 177-214. -DOI: https://doi.org/10.1007/s11192-018-2958-5.

Ключевые слова: научная поисковая система; научная библиографическая база данных; число запросов; размер базы; итерационный анализ; метрики; Google Scholar.

Автор статьи, сотрудник Университета Кеплера (Линц, Австрия), продолжает развивать наукометрические исследования, в частности он анализирует размер онлайновых научных баз данных. Используемый им метод подразумевает, что число запросов выступает как показатель количества доступных записей в базах. Итерационная оптимизация числа запросов позволяет определить максимальное количество обращений для большинства баз ASEBD (Academic Search Engines and Bibliographic Databases - ASEBD). Этот метод запросов дает воспроизводимые результаты, поэтому информация о размерах базы может быть быстро обновлена.

В настоящее время научные поисковые системы и библиографические базы данных являются стандартным средством доступа к современным научным публикациям. Услуги баз и поисковиков делают постоянно растущий запас научных знаний доступным для ученых путем фильтрации наиболее актуальной информации. Студенты и ученые начинают свой поиск в Интернете с баз ASEBD, которые позволяют им выполнять исследования на современном уровне. Благодаря стремительному развитию Интернета с конца 1990-х годов поиск с помощью научных баз становится все более популярным и все чаще заменяет работу с традиционными автономными системами поиска информации. Сегодня свои информационные услуги предлагают многочисленные онлайн-поставщики данных и онлайн-издатели, такие как ProQuest, Ebsco, Thomson Reuters и Elsevier,

Большие системы на основе поисковых роботов, такие как Google Scholar, Microsoft Academic и Scirus, начали создавать огромные объемы научных данных с открытым бесплатным доступом. В научных кругах база Google Scholar стала наиболее популярным источником информации. Она смогла создать значительный ресурс общедоступных документов, хотя и не все документы представлены в полнотекстовой форме. С точки зрения комфортности представления Google Scholar также является непревзойденным онлайн-источником научных документов. Сегодня база Google Scholar -одна из самых востребованных научных поисковых систем, однако она не является единственной системой, которую используют ученые (с. 183). По мере увеличения числа поисковых систем расширяются и функциональные возможности доступа к результатам поиска. Так, Microsoft Academic, перезапустив поисковый сервис в 2017 г., сегодня пытается на равных конкурировать с Google Scholar1.

Помимо баз Google Scholar и Microsoft Academic существует множество других крупных междисциплинарных поисковых систем, библиографических баз данных и других информационных служб, которые также борются за своего пользователя. Пользователи в научных кругах могут выбрать сервис, однако они не имеют возможности определить наилучший для себя вариант. Есть и дру-

1 Harzing A.-W., Alakangas S. Microsoft Academic is one year old: The Phoenix is ready to leave the nest // Scientometrics. - 2017. - Vol. 112, N 3. - P. 1887-1894.

гие группы пользователей, заинтересованных в оценке доступного размера баз данных, например информационные работники в научно-исследовательских институтах и библиотеках. Поэтому знание сферы действия той или иной поисковой системы важно не только для академических пользователей, но и для всех специалистов в области информации.

Стало очевидно, что рост предложения со стороны баз ASEBD помимо позитива - улучшения сервиса - привел и к проблемам в достижении его прозрачности. В частности, сфера охвата базы данных Google Scholar остается загадкой и источником спекуляций. Исследователи уже давно отмечают закрытость базы Google Scholar: «Закрытость Google Scholar находится на одном уровне с северокорейским правительством» (цит. по: с. 183). Также отмечается, что база данных разрастается неоптимальным образом - через накопление огромных коллекций нерелевантного и / или ненаучного контента. Тем не менее эта база поощряет научные исследования собственных параметров - размера алгоритмов.

Исследование размеров Google Scholar имеет давнюю традицию. Действительно, уже через два года после запуска Google Scholar, в конце 2004 г., была предпринята попытка оценить размер ресурса1. Исследование показало, что охват базой Google Scholar списков Thomson Scientific и других крупнейших ресурсов составил 78,5%. Позже было обнаружено, что Google Scholar содержит в общей сложности более 86 млн записей (там же). С использованием метода подсчета количества хитов2 в запросах (Query Hit Count -QHC) в работе Е. Ордуна-Малеа с соавторами3 найдено, что размер базы превосходит предыдущие оценки и составляет 176 млн документов, включая статьи, цитаты и патенты. Тем не менее из-за непрозрачности базы Google Scholar методы оценки ее размеров остаются неточными (там же). Авторы процитированной работы задаются важным вопросом: или база Google Scholar не хочет со-

1 Mayr P., Walter A.-K. An exploratory study of Google Scholar // Online information review. - 2007. - Vol. 31. - P. 814-830.

2 Хит - запрос к веб-серверу для получения файла. - Прим. реф.

3 Methods for estimating the size of Google Scholar / Orduna-Malea E., Ayllôn J.M., Martin-Martin A., Delgado Lôpez-Côzar E. // Scientometrics. - 2015. -Vol. 104, N 3. - P. 931-949.

общать о своем размере поиска, или, возможно, на самом деле не способна оценить собственный масштаб?

Выявление размера и темпов роста базы Google Scholar позволяет определить размер и темп роста массива научных данных в целом. Научные базы уже оценивались с использованием запросов к нескольким спискам журналов с учетом перекрытия баз ASEBD, с применением запросов к доменам высшего уровня, а также с использованием пустых или «абсурдных» запросов для получения величины QHC (с. 183-184).

До последнего времени научные базы изучались по отдельности или их сравнивали попарно или кратно (с. 184). При этом отсутствовал обновленный сравнительный обзор размеров наиболее популярных баз. Одна из причин этого - различие используемых методов оценки, что затрудняет сравнение размера баз. Автор статьи намерен определить размер Google Scholar в сравнении с другими крупными многодисциплинарными базами ASEBD. Таким образом, цель исследования - оценить размеры научных баз с помощью метода, который применим для большинства систем. Автор исходит из того, что все базы, ориентированные на широкого пользователя, предоставляют некоторую форму реакции на запрос. Следовательно, его цель - получение максимального количества записей данной базы с помощью одного запроса. Интерес представляет информация, фактически доступная пользователю, а не знания, просто индексированные в системе. Если базы данных содержат большое количество статей, но они недоступны, то это хранилище никак не помогает пользователю в поиске. Таким образом, для оценки количества фактически доступных знаний автор использует те же инструменты, что и пользователь.

Для мониторинга комплекса научных баз требуется метод, включающий разные базы, поскольку базы различаются по критериям функциональности, объему хранения, алгоритмам обработки данных и синтаксису запросов. Соответственно, существует множество критериев оценки качества поисковых систем, например актуальность, объективность и точность (с. 178). Автор использует единственный критерий - размер поисковой системы, т.е. ее размер, представленный числом ресурсов, доступных конкретному

пользователю. Этот выбор - обзор Дж. Ортеги1. На момент публикации этого обзора к доступным базам и поисковым системам относились: AMiner, Bielefeld Academic Search Engine (BASE), CiteSeerX, Google Scholar, Microsoft Academic, Q-Sensei Scholar, Scirus и World Wide Science. Базу Scirus проанализировать не удалось, поскольку ее услуги были прекращены в 2014 г.

Автор следовал итерационному методу, используемому в последнее время в ряде исследований в области информационных метрик. Суть этого метода заключается в том, что размер научной базы определяется с помощью запросов с различными конструкциями строк поиска. Оценки размера базы, полученные на основе запроса, сопоставляются с официальными данными о размерах. Эту информацию предоставляют провайдеры базы или авторы других научных исследований. Ранее этот метод применялся для оценки объема обычных поисковых систем (с. 185). С точки зрения этого исследования база Google Scholar представляет особый случай. Несмотря на то что это одна из наиболее часто используемых баз, она наименее изучена и проверена. Данный метод, по-видимому, является одним из немногих возможных.

С использованием различных запросов автор получил различные оценки величины QHC для каждого запроса. Максимальное значение QHC было принято как лучшая оценка общего количества записей базы данных. Для определения степени достоверности полученных значений QHC выполнены два сравнительных теста. Во-первых, собраны официальные данные о размерах, предоставленные самими операторами баз. Во-вторых, получены данные других (ранних) исследований, в которых изучались размеры баз с использованием различных методов. Если максимальная величина QHC по данному исследованию была в пределах правдоподобного диапазона при сравнении с другими данными, она признавалась правдоподобной. Таким образом, было определено, соответствуют ли и в какой степени результаты оценки величины QHC официальному заявлению поставщика о размере базы. Автор заключает, что если значение QHC правдоподобно для одной базы данных, то оно также будет правдоподобно и для других баз данных. Данный метод

1 Ortega J.L. Academic search engines: A quantitative outlook. - Oxford: Chandos publishing, 2014. - (Chandos information professional series).

позволяет вычислить временные лаги между датой публикации и соответствующим индексированием в базе.

При составлении запросов сочетание 100 наиболее часто встречающихся терминов, всех цифр и английского алфавита увеличивало величину QHC почти на 2%. Чтобы исключить потенциальное языковое смещение, автор дополнительно расширил запрос введением русских букв и китайских иероглифов, однако это не привело к какому-либо изменению максимального значения QHC.

Результаты статьи, основанные на вычислении величины QHC, впервые дали оценки размера баз ProQuest и Ebsco Host и показали, что размер базы Google Scholar, возможно, был недооценен в пределах от 8 до 55% (с. 199). По оценке автора, база Google Scholar, имеющая 389 млн записей, в настоящее время является наиболее полной научной поисковой системой. Далее следуют World Wide Science и ProQuest, каждая из которых предоставляет научную информацию на основе примерно 300 млн записей. За этими базами следуют системы BASE, Web of Science и Ebsco Host. Каждая из них содержит более 100 млн записей. Несколько меньше по размерам базы Scopus, Web of Science (Core Collection) и Q-Sensei. Каждая из них содержит около 60 млн записей. Две базы -AMiner и Microsoft Academic - не сообщают данные, которые можно было бы использовать для сравнительной оценки их размеров. Для трех баз - Google Scholar, ProQuest и Web of Science - с помощью двух различных методов получено одинаковое максимальное значение QHC.

Остается неясным, почему Google Scholar не сообщает о размере ресурса. Учитывая нестабильный характер величины QHC для базы Google Scholar, можно предположить, что база либо испытывает трудности с точной оценкой своего размера, либо не хочет признавать, что размер ресурса заметно колеблется. Возможно, для компании Google важно донести до тех, кто ищет информацию, то, что она предлагает структурированный, надежный и стабильный источник знаний.

В исследовании было также обнаружено, что значения QHC значительно варьировались от самых маленьких (база Cite SeerX, «вернувшая» 8 401 126 хитов) до самых больших (база Google Scholar, «вернувшая» 389 000 000 хитов). Полученные результаты базы Google Scholar демонстрируют, что проведенное исследова-

ние обладает новизной, поскольку совершенствует основанные на запросах методы оценки баз А8ЕВБ и показывает применимость этих методов в качестве адекватных быстрых индикаторов размеров большинства научных баз. Используемый метод позволил оценить множество различных научных баз и сравнить их размеры. Когда же получаемые значения QHC неправдоподобны, можно применять другие наукометрические методы.

Мониторинг научных баз А8ЕВБ особенно необходим в эпоху экспоненциального роста объемов информационной и научной продукции.

С. В. Егерев

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Егерев С. В.