Дискуссии
УДК 01 ББК 78.5
СТАТИСТИКИ ЦИТИРОВАНИЯ1 © Роберт Адлер, Джон Эвинг, Питер Тейлор, 2011
Доклад Международного математического союза (IMU) в сотрудничестве с Международным советом промышленной и прикладной математики (ICIAM) и Институтом математической статистики (IMS).
Перевод с английского под редакцией А. П. Василевича
Настоящий доклад посвящен использованию и злоупотреблениям данными цитирований при оценке научных исследований. Сейчас все более распространенной становится идея о том, что оценка исследовательской деятельности должна осуществляться с помощью «простых и объективных» методов. Сами эти «простые и объективные» методы обычно интерпретируются как библиометрические, то есть как данные цитирований и связанные с ними статистики. Существует убеждение, что статистики цитирований по сути своей более точны, поскольку они оперируют числами, а не сложными суждениями, и, следовательно, позволяют обходить субъективность экспертной оценки. Но это убеждение является необоснованным.
• Опора на статистические данные не является более точной, если эти данные неправильно используются. Данные статистики и в самом деле могут вводить в заблуждение, если их неправильно используют или неправильно понимают. Представляется, что интерпретация и обоснованность статистик цитирований в современной библиомет-рике основывается по большей части на субъективном опыте и интуиции.
• Числа вроде бы «объективны», но их объективность может быть иллюзорной. Оценка смысла цитирования может быть даже более субъективной, чем экспертная оценка. Поскольку в области цитирований субъективный характер оценки менее очевиден, те, кто использует данные цитирований, имеют меньше шансов осознать их ограниченность.
• Использование только данных цитирований дает в лучшем случае неполное, а зачастую поверхностное понимание научного исследования -понимание, пригодное только тогда, когда оно подкрепляется другими оценками. Числа по сути отнюдь не лучше, чем разумное суждение.
• Использование данных цитирований для оценки научных исследований в конечном счете означает использование основанных на цитатах статистик для ранжирования объектов - журналов, статей, людей, программ и дисциплин. Статистические инструменты, используемые для ранжирования этих объектов, часто неправильно понимаются и неправильно используются.
• Для ранжирования журналов наиболее часто используется импакт-фактор. Это простое среднее, выводимое из распределения цитирований некоторой совокупности статей в журнале. Среднее улавливает только небольшое количество информации об этом распределении и является довольно грубой статистикой. Кроме того, при оценке журналов с помощью цитирований обнаруживается много сопутствующих факторов, так что любое сравнение журналов по импакт-факторам требует большой осторожности. Использовать лишь только импакт-фактор при оценке журнала - это все равно, что при оценке здоровья человека учитывать только его вес.
• Что касается статей, то вместо того, чтобы при сравнении отдельных статей полагаться на фактическое количество ссылок на них, люди часто заменяют его импакт-фактором журналов, в которых опубликованы статьи. Они считают, что более высокий импакт-фактор должен означать более высокий уровень цитирования. Но зачастую это совсем не так! Это широко распространенное неправильное использование статистических данных, с которым следует бороться, когда и где бы оно ни встретилось.
• При сопоставлении отдельных ученых сравнивать полные списки цитирований бывает затруднительно. Как следствие, были предприняты попытки найти простые статистики, которые выражали бы всю сложность списка цитирований
1 Доклад перепечатан по разрешению и рекомендации Международного математического союза
ученого одним числом. Наиболее заметным из них является й-индекс, который, похоже, становится все более популярным. Но даже эпизодические проверки й-индекса и его вариантов показывают, что все они являются наивной попыткой решить сложную проблему анализа списков цитирований. Они охватывают лишь небольшой объем информации о распределении цитирований ученого, упуская из внимания важнейшие данные, определяющие оценку научного исследования.
Обоснованность таких статистик, как импакт-фактор и й-индекс, не является ни хорошо понятой, ни хорошо изученной. Связь этих статистик с качеством научных исследований иногда устанавливается на основе «опыта». Оправданием для тех, кто полагается на них, является их «доступность». Немногочисленные попытки исследовать эти статистики были направлены исключительно на демонстрацию их корреляции с некоторыми другими мерами качества, а не на определение того, как лучше всего можно получить полезную информацию из данных цитирований. Мы не отбрасываем статистики цитирований как инструмент оценки качества научных исследований: данные цитирований и статистики могут нести вполне ценную информацию. Мы допускаем, что оценки должны быть практичными, и по этой причине легко получаемые статистики цитирований почти наверняка будут частью всего процесса. Вместе с тем, данные цитирований дают лишь ограниченное и неполное представление о качестве научных исследований, а статистики, полученные на основе данных цитирований, порой неправильно понимаются и используются. Научные исследования слишком важны, чтобы измерять их ценность только одним грубым инструментом.
Мы надеемся, что те, кто связан с оценками, познакомятся с комментариями и деталями этого доклада, чтобы не только осознать ограниченность статистик цитирований, но и понять, как их лучше использовать. Если мы устанавливаем высокие стандарты проведения научных исследований, то мы, безусловно, должны установить столь же высокие стандарты для оценки их качества.
Объединенный комитет по количественной оценке исследований
Роберт Адлер, Израильский технологический институт (Тесйтоп), Джон Эвинг (председатель), Американское математическое общество, Питер Тейлор, Университет Мельбурна
Из задач комитета
Стремление к большей прозрачности и подотчетности в академическом мире создало «культуру чисел», когда учреждения и отдельные лица пола-
гают, что справедливые решения могут достигаться путем алгоритмической оценки некоторых статистических данных; будучи не в состоянии измерить качество (что является конечной целью), лица, принимающие решения, заменяют качество числами, которые они измерить могут. Эта тенденция требует комментариев от тех, кто профессионально «имеет дело с числами», -математиков и статистиков.
Введение
Научные исследования имеют важное значение. Они в значительной мере определяют прогресс в нашем современном мире и дают надежду на то, что мы можем решить некоторые из кажущихся неразрешимыми проблем, стоящих перед человечеством, - от окружающей среды до роста народонаселения. В связи с этим правительства и учреждения по всему миру осуществляют значительную финансовую поддержку научных исследований. Естественно, они хотят знать, разумно ли инвестируются их деньги; они хотят оценить качество научных исследований, за которые они платят, чтобы принимать обоснованные решения относительно будущих инвестиций.
Это явление далеко не ново: люди оценивали научные исследования на протяжении многих лет. Новым является убеждение, что хорошая оценка должна быть «простой и объективной» и что это может быть достигнуто прежде всего на основе подсчетов (статистик) по данным цитирований, а не на основе сочетания разных методов, включающих экспертные оценки самих ученых. Эта точка зрения предельно ясно выражена в начальном абзаце одного из недавних докладов:
«После следующего, завершающегося в 2008 году, цикла правительство намерено заменить нынешний метод определения качества университетских научных исследований - UK Research Assessment Exercise (RAE). В центре внимания новой системы будут подсчеты, а не экспертные оценки, и ожидается, что основной индекс качества в этой системе будет библиометрическим (использующим подсчет журнальных статей и их цитирований)» [1, с. 3].
Те, кто ратует за объективность в такой простой форме, полагают, что научные исследования слишком важны, чтобы полагаться на субъективные суждения. Они считают, что основанные на цитированиях подсчеты вносят ясность в процесс ранжирования и устраняют неясности, присущие оценкам другого вида. Они полагают, что тщательно подобранные метрики (= системы подсчетов) являются независимыми и свободны от систематических ошибок. Но самое главное, они считают, что такие метрики позволяют сравнивать все
составляющие научных исследований - журналы, статьи, людей, программы и даже целые дисциплины - просто, эффективно и без использования субъективных экспертных оценок.
Но такая вера в точность, независимость и эффективность подсчетов неуместна.
• Во-первых, точность этих показателей является иллюзорной. Общеизвестно, что статистики могут лгать, когда они неправильно используются. Злоупотребления статистиками цитирований получили широкое распространение и являются вопиющими. Несмотря на неоднократные попытки предостеречь от таких злоупотреблений (например, от злоупотребления импакт-фактором), правительства, учреждения, да и сами ученые продолжают делать необоснованные или даже ложные заключения из неправильно использованных статистик цитирований.
• Во-вторых, использование метрик, основанных исключительно на цитированиях, попросту заменяет один вид оценок другим. Вместо субъективной экспертной оценки мы получаем субъективную интерпретацию смысла цитирования. Те, кто призывают полагаться исключительно на подсчеты, основанные на цитированиях, неявно предполагают, что каждое цитирование означает одно и то же в отношении цитируемого научного исследования - его «импакт» (влияние). Это предположение не доказано и, весьма вероятно, неверно.
• В-третьих, хотя статистики дают нам ценную информацию для понимания мира, в котором мы живем, они обеспечивают только его частичное понимание. В современном мире иногда модно провозглашать мистическую веру в то, что численные измерения превосходят другие формы понимания. Те, кто пропагандирует использование статистик цитирований в качестве замены более полного понимания научного исследования, неявно придерживаются таких убеждений. Мы должны не только использовать статистики правильно - мы должны использовать их разумно.
Мы спорим не с попыткой оценивать исследование, но, скорее, с требованием, что такие оценки должны опираться преимущественно на «простой и объективный» показатель, основанный на цитировании. Это требование часто интерпретируется как необходимость поиска легких для подсчета чисел, которые выстроят в ряд публикации, или людей, или программы. Исследование обычно имеет множество целей, как непосредственных, так и более отдаленных, и поэтому его значимость, естественно, должна оцениваться при помощи не одного, а нескольких критериев. Математики знают, что имеется много предметов, как реальных, так и абстрактных, которые не могут быть просто упорядочены в том смысле, что каждые два из них можно сравнить. Сравнение часто требует
более сложного анализа, который иногда так и не позволяет решить, какой из двух предметов «лучше». Правильным ответом на вопрос «Что лучше?» иногда является: «Смотря как посмотреть!»
Предложение использовать для оценки качества исследования сразу несколько методов делалось и ранее (см., например, [2] или [3]). Публикации могут быть оценены множеством способов, не только при помощи цитирований. Мерилом профессионального качества исследователя могут быть такие знаки оценки его заслуг, как количество приглашений, членство в редакциях и награды. В некоторых дисциплинах и в некоторых странах определенную роль может играть субсидирование грантами. Важной составляющей общей оценки может быть и экспертная оценка, мнение коллег-ученых. (Мы не должны отказываться от экспертной оценки только потому, что она иногда страдает от предвзятости; во всяком случае, у нас не меньше оснований отказаться от статистических данных, связанных с цитированием, если учесть случаи их неправильного применения.) Это небольшой пример комбинации критериев, на основании которых может быть сделана оценка. Много путей ведет к хорошей оценке, и их относительная значимость меняется в зависимости от дисциплины. Несмотря на это, «объективные» статистические данные, основанные на цитированиях, часто становятся наиболее предпочтительным методом оценки. Соблазн простого способа и несложных чисел (еще лучше - одного числа), кажется, побеждает здравый смысл и трезвый расчет.
Данный доклад написан учеными-математиками, чтобы указать на неправильное применение статистических данных в оценке научного исследования. Естественно, неправильное применение иногда касается оценки исследований в самой математике, и это - одна из причин для написания этого доклада. Особая традиция цитирования в математике, состоящая в низком количестве ссылок на журналы, статьи и авторов, делает эту науку особенно уязвимой перед злоупотреблениями статистиками, основанными на цитированиях. Мы полагаем, однако, что все ученые, так же как и широкая общественность, должны стремиться использовать правильные научные методы при оценке исследований.
Кое-кто в научном сообществе обошелся бы вообще без статистик, основанных на цитированиях, цинично реагируя на прошлые злоупотребления, но это будет означать отказ от ценного ин-
Исследование обычно имеет множество целей, как непосредственных, так и более отдаленных, и потому его значимость, естественно, должна оцениваться при помощи не одного, а нескольких критериев.
струмента. Статистики, основанные на цитировании, могут играть роль в оценке исследования при условии, что они используются правильно, интерпретируются с осторожностью и составляют только часть процесса. Ссылки дают информацию о журналах, статьях и людях. Мы не хотим спрятать эту информацию; мы хотим пролить на нее свет.
Именно в этом и состоит цель настоящего доклада. Первые три раздела посвящены способам, при помощи которых данные цитирований могут быть использованы (и неправильно использованы) для оценки журналов, статей и людей. В следующем разделе обсуждаются разнообразные значения ссылок и вытекающие из них ограничения на статистики, основанные на цитированиях. Последний раздел рекомендует, как разумно использовать статистики, и призывает при получении оценок наряду со статистиками, основанными на цитировании, использовать и другие данные, даже если от этого оценки становятся менее простыми.
«Все должно быть сделано как можно более простым, но не чересчур простым», - сказал однажды Альберт Эйнштейн1'1. Этот совет одного из выдающихся ученых мира особенно уместен при оценке научных исследований.
Ранжирование журналов: импакт-фактор2)
Импакт-фактор был создан в 1960-х годах как способ измерять ценность журналов путем вычисления среднего числа цитирований на статью за определенный промежуток времени [4]. Среднее число вычисляется на основе данных, собранных Thomson Scientific (бывший Институт научной информации) и публикующихся в Journal Citation Reports. Thomson Scientific извлекает ссылки более чем из 9000 журналов, добавляя информацию о каждой статье и ее ссылках в собственную базу данных каждый год [5]. Используя данную информацию, можно рассчитать, как часто конкретная публикация цитируется в последующих статьях, которые были опубликованы в журналах, включенных в перечень индексируемых публикаций. (Заметим, что Thomson Scientific индексирует менее половины математических журналов, охватываемых Mathematical Reviews и Zentralblatt, двумя
ведущими реферативными журналами по мате-
3) \
матике .)
Величина импакт-фактора для данного журнала в данном году вычисляется путем расчета среднего количества ссылок на статьи в этом журнале, опубликованные в течение двух предыдущих лет, причем принимаются во внимание все ссылки в статьях, опубликованные в этом конкретном году (строго в рамках перечня журналов, индексируемых Thomson Scientific). Если импакт-фактор журнала составляет 1,5 в 2007 году, то это означает,
что в среднем статьи, опубликованные в нем в течение 2005 и 2006 годов, были 1,5 раза процитированы в статьях 2007 года, изданных журналами из перечня индексируемых журналов.
Thomson Scientific сам использует импакт-фактор как один из факторов при отборе журналов, которые индексируются [5]. С другой стороны, он поддерживает более широкое использование импакт-фактора, чтобы сравнивать журналы.
«Импакт-фактор может быть учтен при решении вопроса комплектации библиотек, предоставляя администратору информацию о журналах, которые уже есть в наличии, и журналах, для которых решается вопрос об их приобретении. Эти данные должны рассматриваться наряду со сведениями о стоимости и тираже, для того чтобы принимать рациональные решения о покупке журналов» [6].
Многие авторы отмечали, что нельзя судить об академической ценности журнала, используя одни только данные о ссылках, и авторы настоящей статьи полностью согласны с этим. В дополнение к этому общему наблюдению импакт-фактор подвергся критике и по другим причинам (см. [7-12]).
(i) Определение импакт-фактора как среднего числа не совсем правильно. Поскольку многие журналы содержат редко цитируемые вспомогательные публикации, такие как письма или редакционные статьи, эти публикации не учитываются в знаменателе импакт-фактора. С другой стороны, пусть и нечасто, но эти публикации все же цитируются, и эти ссылки учитываются в числителе. Следовательно, импакт-фактор - не совсем среднее количество ссылок на статью. Если в журналах помещается большое количество таких «вспомогательных» публикаций, это отклонение может быть значительным. Во многих областях, включая математику, это отклонение минимально.
(ii) Двухлетний период, используемый при определении импакт-фактора, предназначался для того, чтобы сделать статистический показатель современным [4]. Для некоторых областей, таких как биомедицинские науки, это целесообразно, потому что на большинство опубликованных статей ссылаются вскоре после публикации. В других областях, таких как математика, большинство ссылок выходит за рамки двухлетнего периода. Анализ совокупности из более 3 миллионов недавних ссылок в математических журналах (база данных Math. Reviews), показывает, что примерно 90% ссылок на журнал выходит за пределы этого двухлетнего окна. Следовательно, импакт-фактор основывается всего лишь на 10% ссылочной активности и игнорирует подавляющее большинство
4)
ссылок .
График показывает возраст ссылок из статей, опубликованных в 2003 году, и охватывает четыре различные области. Ссылки на статьи, опубликованные в 20012002 годах, - это те, которые вносят вклад в импакт-фактор, а все остальные ссылки не имеют отношения к импакт-фактору. Данные взяты из Thomson Scientific.
Ведет ли двухлетний интервал импакт-фактора к недоразумениям? Для математических журналов ответ на этот вопрос не так однозначен. Thomson Scientific вычисляет пятилетние импакт-факторы, которые, как он указывает, хорошо коррелируют с обычными (двухлетними) импакт-факторами [13]. Используя базу цитирований Math. Reviews, можно вычислить «импакт-факторы» (т. е. среднее число ссылок на 1 статью) для совокупности ста наиболее цитируемых математических журналов, используя периоды в 2, 5 и 10 лет. Приведенная ниже диаграмма показывает, что 5- и 10-летние импакт-факторы в общем следуют 2-летнему импакт-фактору.
«Импакт-факторы» для 2, 5 и 10 лет для 100 математических журналов. Данные из базы цитирований Math. Reviews.
Единственным существенным выбросом является журнал, который в течение части этого времени не публиковал статьи. Менее значимые отклонения соответствуют журналам, которые публикуют относительно небольшое количество статей каждый год, и диаграмма просто отражает нормальную изменчивость в импакт-факторах для таких журналов. Очевидно, что изменение числа «заданных годов» при расчете импакт-фактора приводит к изменению рейтинга журналов, но эти изменения, как правило, умеренны, за исключением небольших журналов, где величина импакт-фактора также зависит от выбора «исходного года» (см. ниже).
(ш) Импакт-фактор значительно варьируется в зависимости от выбора дисциплины [8]. Это различие отчасти связано с наблюдением (и): если в некоторых дисциплинах много ссылок случается за пределами двухлетнего окна, то импакт-фак-торы для журналов будут намного ниже. С другой стороны, различие отчасти возникает просто из-за того, что традиции цитирования отличаются от дисциплины к дисциплине и ученые ссылаются на статьи с различной частотой и по различным причинам. (Мы подробно остановимся на этом наблюдении позже, потому что смысл ссылки чрезвычайно важен.) Из этого следует, что, используя импакт-факторы, невозможно никаким разумным способом сравнить два журнала, представляющие разные дисциплины.
Среднее количество ссылок на статью по различным дисциплинам, показывающее, что практики цитирования заметно различаются. Данные от Thomson Scientific [8].
Импакт-фактор может значительно изменяться от года к году, и эти изменения, как правило, больше для небольших журналов [8]. Например, для журналов, публикующих меньше чем 50 статей, среднее изменение импакт-фактора с 2002 по 2003 год составляло почти 50%. Это, конечно, полностью ожидаемо, потому что объем выборки для небольших журналов весьма мал. С другой стороны, часто сравнивают журналы за фиксированный год, игнорируя высокую годовую вариабельность данных для небольших журналов.
(V) Журналы, которые публикуют статьи на других языках, кроме английского, скорее всего, получают меньше ссылок, поскольку большая часть научного сообщества не может читать (или не читает) их. Тем самым на импакт-фактор может влиять тип журнала, а не одно только качество. Журналы, которые публикуют, например, обзорные статьи, часто получают гораздо больше ссылок, чем журналы, которые этого не делают, и, следовательно, имеют более высокие (иногда существенно более высокие) импакт-факторы [8].
(и) Наиболее существенная критика импакт-фактора заключается в том, что не вполне ясен его смысл. При использовании импакт-фактора для сравнения двух журналов нет никакой априорной модели, в которой было бы исходно определено, что означает, что какой-то журнал «лучше». Единственная модель происходит от самого импакт-фактора - журнал с большим импакт-фактором и считается лучше. При классическом статистическом подходе сначала определяется модель, затем формулируется гипотеза (неважно какая), а потом применяется статистическая процедура, в зависимости от результатов которой можно принять или опровергнуть выдвинутую гипотезу. Извлечение информации (а возможно, и построение модели) из данных является принятым способом статистического анализа, но в нашем случае не вполне ясно, как осмыслить полученную информацию. Каким образом импакт-фактор оценивает качество? Является ли он наилучшей статистической величиной для оценки качества? Что в точности измеряет им-пакт-фактор? (См. также наше дальнейшее обсуждение значения цитирования). Отметим, что весьма немного известно о том, какой должна быть модель, описывающая качество журналов, и о том, как она могла бы быть связана с импакт-фактором.
Все шесть приведенных выше критических замечаний об импакт-факторе вполне валидны, но означают лишь то, что импакт-фактор недостаточно продуман, хотя и не бесполезен. Например, им-пакт-фактор может быть использован в качестве отправной точки для того, чтобы разбить все журналы на группы и затем с помощью других критериев составить более подробный рейтинг и убедиться в разумности деления на группы. Однако использование импакт-фактора для сравнительной оценки журналов требует большой осторожности. Например, импакт-фактор не может быть применен для сравнения журналов, относящихся к различным дисциплинам, а при их упорядочивании в соответствии с импакт-фактором необходимо учитывать тип самих журналов. Кроме того, следует уделять большое внимание годовым колебаниям импакт-фактора, особенно для небольших журналов, и иметь при этом в виду, что незначительные различия могут быть отнесены на счет чисто случайных колебаний. Важно осознавать, что в некоторых областях знания импакт-фактор может не полностью отражать все цитирования, так как, с одной стороны, учитываются не все журналы, а с другой стороны, рассматриваемый период времени слишком короток. Статистические данные, основанные на более длительном периоде времени и большем количестве анализируемых журналов, могли бы повысить качество оценки. Наконец, цитируемость является лишь только одним способом оценки журналов и должна быть
дополнена другой информацией (это и есть основная идея данной статьи).
Все эти соображения касаются, в сущности, любого упорядочивания на основе статистических данных. Необдуманная оценка журналов на основе их импакт-фактора за какой-либо конкретный год является некорректным использованием статистических данных. Следует отдать должное агентству Thomson Scientific, которое соглашается с этим утверждением и (в мягкой форме) предупреждает об этом всех тех, кто использует импакт-фактор:
«При оценке полезности журналов Thomson Scientific учитывает не только импакт-фактор, что рекомендуется делать и другим. Импакт-фактор не может быть использован без учета многочисленных показателей, влияющих на цитируемость, например, среднего числа ссылок в одной статье. Импакт-фактор должен быть дополнен компетентной экспертной оценкой» [6].
К сожалению, этот совет слишком часто игнорируется.
Ранжирование работ
Импакт-фактор и подобные ему статистические данные, связанные с цитируемостью, могут быть неверно истолкованы при определении рейтинга журналов. Однако существует более глубокое и более коварное заблуждение: использование импакт-фактора для сравнения отдельных работ, людей, исследовательских программ или даже целых областей знания. Эта проблема становится все более актуальной во многих странах и для многих дисциплин; она усугубляется принятыми недавно методами оценки национальных исследований.
В определенном смысле, это явление не новое. К ученым часто обращаются с просьбой оценить чей-либо список публикаций, в ответ на что регулярно слышны такие комментарии, как «она публикуется в хороших журналах» или «большая часть его работ опубликована в журналах низкого уровня». Такого рода оценки могут быть вполне разумными: качество журналов, в которых ученый обычно (или даже постоянно) публикует свои статьи, является одним из многочисленных показателей, которые могут быть использованы для общей оценки исследований данного ученого. Тем не менее, использование импакт-фактора усилило тенденцию приписывать свойства журнала каждой статье в нем (а также каждому автору статьи).
Thomson Scientific в неявном виде придерживается следующей позиции:
2 Выражение «национальный» (national) является общепринятым в англоязычной литературе по отношению к стране (государству) в целом. - Прим. ред.
«Возможно, наиболее важным в недавно начавшемся использовании импакт-фактора является его применение для оценки научной деятельности. С помощью импакт-фактора можно составить довольно полное представление о престиже журналов, в которых публикуются ученые» [6].
Вот некоторые примеры того, как интерпретируется эта рекомендация (по свидетельству математиков из разных частей света).
Пример 1. Недавно мой университет ввел новую классификацию журналов на основе Science Citation Index Core. Все журналы были разделены на три группы в зависимости от одного только их импакт-фактора. В список лидеров попало 30 журналов, среди которых нет ни одного математического. Второй список содержит 667 журналов, включая 21 математический журнал. Публикация в журнале из первого списка повышает поддержку исследований со стороны университета в три раза; публикация в журналах второго списка - в два раза. Публикация в основном списке приносит 15 баллов; публикация в любом журнале перечня Thomson Scientific приносит 10 баллов. Для повышения в должности требуется определенное минимальное количество баллов.
Пример 2. В моей стране постоянные сотрудники университетов аттестуются раз в шесть лет. Несколько подряд успешно пройденных аттестаций открывают возможность для академического роста. Помимо резюме, важнейшим фактором при оценке является рейтинг пяти опубликованных статей. В последние годы за каждую статью дается 3 очка, если она опубликована в журнале из первой трети списка Thomson Scientific, 2 очка, если из второй трети, и 1 очко, если статья опубликована в журнале из последней трети (деление журналов на эти три группы происходит на основе импакт-фактора).
Пример 3. Каждый сотрудник нашего факультета оценивается при помощи формулы, включающей в себя число статей (с поправками в случае соавторства), умноженное на импакт-фактор журналов, в которых они опубликованы. На этой формуле частично основано повышение в должности и прием на работу.
В этих примерах, как и во многих других рассказанных нам случаях, импакт-фактор, явным или неявным образом, используется для сравнения отдельных статей, а также их авторов: если импакт-фактор у журнала A больше, чем у журнала B, то, безусловно, статья из A должна быть лучше статьи из B, а автор статьи из A лучше автора статьи из В. В некоторых случаях это рассуждение распространяется и на оценку факультетов или даже целых областей знания.
Давно известно, что распределение числа цитирований по статьям в одном журнале крайне неравномерно и близко к так называемому степенному закону [7, 14]. Последствия этого можно продемонстрировать на конкретном примере.
Ниже приводится распределение цитируемости по статьям в журнале Proceedings of the American Mathematical Society за период 2000-2004 годов. Proceedings публикует короткие статьи, как правило, менее десяти страниц каждая. За этот период журналом была опубликована 2381 работа (около 15 000 страниц). На основе данных Math. Reviews о цитировании за 2005 год, среднее количество цитирований одной статьи (то есть импакт-фактор) равно 0,434.
Журнал Transactions of the AMS публикует более длинные статьи, которые, как правило, значительнее как по объему, так и по содержанию, чем статьи из Proceedings. За тот же период времени Transactions опубликовал 1165 работ (более 25 000 страниц), с числом цитирований от 0 до 12. Среднее количество цитирований одной статьи равно 0,846, что примерно в два раза больше, чем для Proceedings.
Теперь предположим, что из двух математиков один опубликовал статью в Proceedings, а другой -в Transactions. При упомянутых выше подходах второй математик должен быть оценен выше первого, поскольку статья второго математика опубликована в журнале с большим импакт-фактором (причем в два раза большим!). Но насколько правомерно такое мнение? Действительно ли статьи из Transactions of the AMS в два раза лучше статей из Proceedings?
Когда мы утверждаем, что отдельная статьи из Transactions лучше (в смысле цитируемости) отдельной статьи из Proceedings, мы должны сравнивать не средние статьи в этих журналах, а соответствующие вероятности: какова вероятность того, что мы не правы? То есть какова вероятность того, что у случайно выбранной статьи из Proceedings по крайней мере столько же цитирований, сколько у случайно выбранной статьи из Transactions?
Элементарное вычисление дает величину 62%. Это означает, что мы неправы в 62% случаев, и случайно выбранная статья из Proceedings будет по крайней мере не хуже случайно выбранной статьи из Transactions, несмотря на то что импакт-фактор у Proceedings равен всего лишь половине импакт-фактора у Transactions ! Таким образом, мы чаще ошибаемся, чем оказываемся правы. Большинству людей это кажется удивительным, хотя это всего лишь следствие сильно ассиметричного распределения цитируемости по статьям и слишком короткого интервала времени, используемого для вычисления импакт-фактора (что является причиной высокого процента нецитируемых ра-бот)5). Это показывает важность точного статистического анализа по сравнению с интуитивным представлением.
Описанная ситуация характерна для всех журналов; два выбранных нами журнала не являются какими-то особенными. (Например, Journal of the AMS за тот же период имеет импакт-фактор 2,63, что в шесть раз больше, чем у Proceedings. Однако в 32% случаев выбранная наугад статья из Proceedings в смысле цитирования ничуть не хуже статьи из Journal).
Таким образом, хотя и неверно было бы утверждать, что импакт-фактор совсем ничего не говорит об отдельных статьях в журнале, он дает весьма расплывчатую информацию и может ввести в глубокое заблуждение.
Можно заключить, что мало разумного в рассуждениях, подобных представленным в трех приведенных выше примерах и использующих им-пакт-фактор как приближение к реальному количеству цитирований одной отдельной статьи. Высказывание утверждений, которые неверны в более чем половине (или хотя бы трети) случаев, безусловно, является некорректным методом проведения оценки.
Коль скоро мы осознаем бессмысленность использовать импакт-фактор для оценки количества цитирований отдельной статьи, не имеет смысла
использовать им, Хотя и неверно было бы утвер-
пакт-фактор и для ждать, что импакт-фактор совсем
оценки авторов ничего не говорит об отдельных
статей исследо- статьях в журнале, он дает весьма
вательских про- расплывчатую информацию и может
грамм, которыми ввести в глубокое заблуждение.
они занимаются, и тем более областей знаний, в которых они работают. Импакт-фактор, как и вообще средние показатели, является не слишком пригодной величиной для того, чтобы делать содержательные сравнения без привлечения дополнительной информации.
Конечно же, ранжирование людей совсем не то же самое, что ранжирование их статей. Однако если требуется оценить чьи-либо статьи, принимая цитируемость как меру качества, то следует начать с рассмотрения числа цитирований каждой статьи. Импакт-фактор журнала, в котором опубликована статья, не является адекватной заменой этого числа.
Ранжирование ученых
Хотя импакт-фактор - наиболее известная статистика, основанная на цитировании, недавно появились и другие показатели, которые сейчас активно популяризируются.
Вот три из них, предназначенные для оценки людей.
^индекс: Ученый имеет индекс h, если h из его п статей цитируется как минимум h раз каждая, в то время как оставшиеся (п-И) статей цитируется менее, чем h раз каждая. Это самая популярная из упомянутых выше статистических величин. Ее ввел Дж. Е. Хирш [16] в попытке оценить числом научную продукцию ученого, приняв за основу «хвост» кривой распределения цитируемости его статей. Целью было ввести единую величину для оценки и количества цитирований, и их распределения.
т-индекс: т-индекс ученого определяется как отношение его ^индекса к числу лет, прошедших после первой публикации этого ученого. Этот показатель был предложен тем же Хиршем в упомянутой выше статье. Его идея заключается в том, чтобы компенсировать молодым ученым недостаток времени на то, чтобы опубликовать много работ и набрать большое количество цитирований.
g-индекс: ^-индекс ученого определяется как наибольшее п, для которого п наиболее цитируемых работ автора в общей сложности цитируются по крайней мере п раз. Этот показатель предложил Лео Эгг в 2006 году [17]. ^индекс не принимает во внимание тот факт, что некоторые из п наиболее цитируемых статей могут быть очень высоко цитируемыми. ^-индекс призван исправить этот недостаток.
Существуют и другие индексы, и их много. В их числе модификации названных выше, в которых учитывается возраст работ или количество авторов [18-20].
В своей работе Хирш пишет, что он предлагает ^индекс как «легко вычислимую величину, которая дает оценку важности, значимости и масштаба влияния совокупного вклада ученого в науку» [16].
Далее он добавляет, что «этот показатель может служить полезным средством для сравнения различных лиц, конкурирующих за один и тот же ресурс, когда критерием оценки являются научные достижения».
Ни одно из этих утверждений не подтверждается убедительными доказательствами. В поддержку своего утверждения, что й-индекс является мерой важности и значимости совокупного вклада ученого в науку, Хирш приводит данные анализа й-индекса для выборки, состоящей из лауреатов Нобелевской премии (и, отдельно, членов Национальной академии). Он показывает, что члены этих групп, как правило, имеют высокий й-индекс. Можно заключить, что коль скоро ученый является лауреатом Нобелевской премии, он имеет высокий й-индекс. И все же без дополнительной информации мы вряд ли способны сделать заключение о том, что некто станет Нобелевским лауреатом или членом Национальной академии, если известно только то, что у него высокий й-индекс. А именно такая информация нужна, чтобы установить состоятельность й-индекса.
В своей статье Хирш также утверждает, что можно использовать й-индекс для сравнения двух ученых:
«Я утверждаю, что два человека, имеющие одинаковую величину й, сопоставимы с точки зрения их научного вклада, даже если их общее число статей или их общее число цитирований очень разные. И наоборот, из двух людей (одного и того же научного возраста) с одинаковым количеством работ или одинаковым количеством цитирований и сильно различающимися й-значениями тот, у которого й больше, вероятно, является ученым более высокого уровня» [16, с. 1].
Эти утверждения не в ладах со здравым смыслом. (Представьте себе двух ученых, у каждого из которых есть по 10 работ и на каждую из них есть по 10 ссылок, но при этом у одного из них есть еще 90 работ, на каждую из которых ссылаются по 9 раз. Или, например, у одного ровно 10 работ, и на каждую из них ссылаются ровно по 10 раз, а у другого - ровно 10 работ, и на каждую из них ссылаются по 100 раз. Неужели кто-то и вправду будет считать этих людей эквивалентными?) .
Хирш превозносит достоинства й-индекса, утверждая, что «й-индекс предпочтительнее других численных критериев, которые обычно используются для оценки научной деятельности исследователей...» [16, с. 1], но не определяет смысл слова «предпочтительнее», равно как и не объясняет, почему хотят найти именно «критерий с одним числом».
Хотя данный подход и подвергался критике, но до настоящего момента ему недоставало серьезного анализа. Большая часть анализа состояла
в демонстрации «сходящейся валидности», т. е. того, что й-индекс хорошо коррелирует с другими измерениями публикаций и цитирования, такими как количество опубликованных работ или общее число цитирований. Такая корелляция не очень впечатляет, так как все эти величины являются функциями одной и той же основной сущности -самих публикаций. В одной интересной статье об й-индексе [21] проводится более тщательный анализ и показывается, что й-индекс (точнее говоря, да-индекс) «хуже», чем простое среднее число ссылок на работы. Отметим, что даже здесь авторы не в состоянии адекватно определить, что значит «хуже». При применении классической статистической парадигмы [21] й-индекс оказывается менее надежным, чем другие показатели.
Были разра-
, Именно понимание должно быть це-
ботаны разные лью оценки исследований, а не толь-варианты й-ин- ко обеспечение того, чтобы любые декс^ приспо- два человека могли быть сравнимы. собленные для
сравнения качества исследователей не только в рамках одной дисциплины, но также для сравнения качества исследований в различных областях [19, 22]. Некоторые полагают, что й-индекс может быть использован для сравнения различных институтов и их подразделений [23]. В основном все это - неимоверно наивные попытки описать весь сложный процесс цитирования одним числом. Действительно, основное преимущество этих новых показателей над обычными гистограммами цитирований состоит в том, что индекс избавляет нас от излишних деталей, что делает любых двух исследователей сравнимыми между собой. Однако даже на простых примерах видно, что отброшенная информация необходима, чтобы понимать сущность исследования. Несомненно, что именно понимание должно быть целью оценки исследований, а не только обеспечение того, чтобы любые два человека могли быть сравнимы.
В некоторых случаях й-индекс или его варианты используются государственными органами, оценивающими исследования. Это не что иное, как использование данных не по назначению. К сожалению, слишком велик соблазн определить рейтинг каждого ученого, оперируя всего одним числом; может статься, что этим соблазнится и широкая общественность, которая и в более простых случаях оказывается неспособна понять, что может и что не может следовать из тех или иных статистических величин.
Смысл цитирования
Те, кто продвигает мысль об использовании статистики цитирований в качестве основной меры качества исследований, не дают ответа на главный
вопрос: что означает цитирование? Они собирают большое количество данных о цитировании, обрабатывают их, получают из них статистические показатели, а затем утверждают, что сделанные на этой основе оценки «объективны». Однако мы можем делать заключения лишь на основании интерпретации статистических показателей, а интерпретация основана на понимании смысла цитирования, которое само по себе достаточно субъективно.
Как ни странно, в литературе, написанной в поддержку такого подхода, очень трудно найти четкие заявления о смысле цитирования.
«Идея, стоящая за индексацией цитирований, принципиально проста. Если признать, что ценность информации определяется теми, кто ее использует, что может быть лучше для оценки качества работы, чем измерение влияния, которое она производит на сообщество в целом. В этом случае наибольшее количество членов научного сообщества (т. е. тех, кто использует или цитирует исходный материал) определяет влияние или воздействие идеи и ее автора на наш объем знаний» [24].
«Хотя измерить числом качество отдельных ученых затруднительно, общее мнение состоит в том, что лучше публиковать больше, чем меньше, и что количество ссылок на работу (с учетом общих традиций цитирования в данной области) является адекватной мерой ее качества» [21, с. 1003]. «Частота цитирования отражает качество журнала и пользу, которую из него извлекают...» [25, с. 535]. «Когда врач или специалист в области биомедицины цитирует журнальную статью, это указывает, что цитируемый журнал каким-то образом повлиял на него» [14, с. 7].
«Цитаты - признание интеллектуального долга» [26].
Важные для нас термины - «качество», «значение», «влияние» и «интеллектуальный долг». Термин «импакт» стал родовым понятием, описывающим придание цитированию какого-либо веса или смысла. Термин впервые возник в короткой статье, которую написал в 1955 году Е. Гарфилд, продвигая идею индекса цитирования. Он пишет:
«Таким образом, в случае весьма значимых работ индекс цитирования имеет количественное значение, поскольку он может помочь историку в измерении степени влияния работы, т. е. ее импакт-фактора» [27, с. 3].
Довольно ясно, что здесь, как во всех других случаях, термин «импакт-фактор», или «степень влияния», предполагает, что цитирующая работа «построена» на цитируемой, т. е. цитирование является механизмом, посредством которого исследования продвигаются вперед.
Существует обширная литература о фактическом смысле цитирований, и из нее следует, что процесс цитирования является более сложным, чем можно было предположить, опираясь на эти расплывчатые заявления. Например, в работе 1983 года об оценке исследований Мартин и Ир-вайн пишут:
«В основе всех этих проблем с использованием цитирования в качестве меры качества лежит наше непонимание причин того, почему авторы ссылаются на одни работы, а не на другие. (...) Простой анализ цитирований предполагает опору на весьма рациональную модель цитирования, согласно которой цитирование происходит по преимуществу с учетом научной признанности предыдущей работы, имеющей высокое качество или важность, и у данной работы существует равная вероятность быть процитированной разными авторами...» [28, с. 69].
В своей работе 1988 года о смысле цитирования [29] Коззенс утверждает, что цитирование является результатом одной из двух линий поведения при оформлении научных публикаций - «признательной» и «риторической». Цитирования первого типа несут в себе смысл, который мы чаще всего ожидаем в таких случаях, - признание того, что цитирующая работа имеет «интеллектуальный долг» по отношению к цитируемой. Цитирования второго типа имеют совершенно другой смысл: это просто ссылка на предшествующую работу, объясняющую какой-то результат, быть может, даже вовсе не принадлежащий цитируемому автору. Такие «риторические» цитирования являются просто средством ведения научного обсуждения, а не признания интеллектуального долга. Конечно, в некоторых случаях цитирование может нести в себе оба этих смысла.
По наблюдениям Коззенс, большинство цитирований имеют «риторический» характер.
Это подтверждается опытом большинства практикующих математиков. (Например, в базе данных Math. Reviews из более чем 3 миллионов ссылок почти 30% приходится на книги, а не на исследовательские статьи в журналах.) Почему это важно? Потому что в отличие от «признательных» ссылок, которые, как правило, относятся к фундаментальным работам, выбор того, какие работы цитировать «риторически», зависит от многих факторов: известности цитируемого автора (эффект «гало»), отношения между цитирующим и цитируемым, доступности соответствующего журнала (являются ли журналы, имеющиеся в открытом доступе, более цитируемыми?),
Смысл цитирования не так прост, и статистические показатели, основанные на цитировании, далеко не так «объективны», как утверждают их сторонники.
Разумное использование статистики
желания для удобства сослаться на несколько результатов, содержащихся в одной работе, и так далее. Немногие из этих факторов имеют непосредственное отношение к «качеству» цитируемой работы.
Даже когда цитирование носит «признательный» характер, оно может быть обусловлено различными мотивами, в том числе «степенью известности, отрицательной репутацией, рабочим характером информации, убедительностью, положительной репутацией, желанием предупредить читателя или общественным мнением» [30]. В большинстве случаев цитирование бывает обусловлено более чем одним из них. Некоторые заметные результаты могут пострадать из-за эффекта «стирания», если сразу же включаются в другие работы, которые в свою очередь служат основой для дальнейших ссылок.
Некоторые ссылки не просто не являются выражением «признательности» за выдающиеся исследования, а служат скорее предупреждением об ошибочных результатах. Можно привести много примеров таких «предупреждающих» цитирований.
Социология цитирования является сложным предметом, который выходит за рамки настоящего доклада. Однако даже наше беглое обсуждение показывает, что цитирование имеет сложный смысл и статистические показатели, основанные на цитировании, далеко не так «объективны», как утверждают их сторонники.
Некоторые могут возразить, что поиск смысла цитирований не играет особой роли, поскольку статистические показатели, основанные на цитировании, хорошо коррелируют с некоторыми другими мерами качества исследований (скажем, экспертной оценкой).
Например, упоминавшееся ранее сообщение в Evidence утверждает, что основанные на цитировании статистические показатели могут (и должны) заменить другие формы оценки из-за этой корреляции:
«Есть свидетельства, что библиометрические методы могут давать показатели качества исследований, приводящие примерно к тем же результатам, что и оценка другими исследователями» [1, с. 9].
Судя по всему, из этого делается заключение, что основанные на цитировании статистические показатели, независимо от их точного смысла, должны заменить другие методы оценки, потому что они с ними хорошо коррелируют. Даже если не принимать во внимание порочный круг в этом рассуждении, нелепость такого предложения всякому очевидна.
Ревностные попытки чрезмерно довериться объективным метрикам (статистическим показателям) для оценки исследований не являются ни новым, ни единичным явлением. Оно красноречиво описано в вышедшей в 2001 году популярной книге «Damned lies and statistics» («Проклятая ложь и статистика»), написанной социологом Дж. Бестом:
«Есть культуры, представители которых верят, что некоторые объекты имеют магическую силу; антропологи называют эти объекты фетишами. В нашем обществе своего рода фетишем является статистика. Мы склонны придавать статистическим показателям магический смысл, как будто они что-то большее, чем просто числа. Мы относимся к ним как к образцу истины, как если бы они перерабатывали сложность и запутанность реальности в простоту и ясность. Мы используем их для того, чтобы свести сложные социальные проблемы к более понятным оценкам, процентам и отношениям. Статистика дает направление решению проблем, она показывает нам, о чем и насколько сильно мы должны беспокоиться. В некотором смысле социальная проблема становится статистической, и, поскольку мы относимся к статистике как к истине в последней инстанции, она становится своего рода фетишем, имеющим магический контроль над тем, как мы рассматриваем социальные проблемы. Мы считаем, что статистика - это факты, которые мы открыли, а не просто выдуманные нами самими числа» [31, с. 160].
Эту мистическую веру в волшебную силу статистики цитирований можно найти в документации для программ, как национальных, так и ведомственных, оценки качества исследовательской работы. Можно найти ее и в работах, использующих й-индекс и его модификации.
Это отношение проявляется также в современных попытках улучшить импакт-фактор при анализе цитат путем использования более сложных математических алгоритмов, в том числе алгоритмов классификации страниц [15, 32]. Сторонники этого подхода заявляют о его эффективности, что не оправдывается анализом и плохо поддается оценке. Так как они основаны на более сложных расчетах, предположения (зачастую скрытые), которые стоят за ними, большинству людей не так просто разгля-деть7). Предполагается, что мы должны относиться к цифрам и рейтингам с благоговением - как к истине, а не как к тому, что создано нами.
Научные исследования - это не первый вид публично финансируемой деятельности, подвер-
Если в практической медицине принято консультироваться с врачами, то в области статистики, безусловно, следует советоваться со статистиками.
гающейся тщательному рассмотрению: за последние десятилетия люди пытались произвести количественные оценки производительности всего, начиная с систем образования (школ) и до здравоохранения (больниц и даже отдельных хирургов).
В некоторых случаях к делу подключались специалисты по статистике, чтобы проконсультировать тех, кто занимается оценками, по поводу разумных подсчетов и правильного использования статистических данных. Если в практической медицине принято консультироваться с врачами, то в области статистики, безусловно, следует советоваться со статистиками (и прислушиваться к их советам). Два прекрасных примера можно найти в работах [33, 34]. Хотя каждый из них имеет дело с оценкой производительности, а не с научными исследованиями (мониторинг производительности государственного сектора в первом и в здравоохранения / образования во втором), каждый дает представление о разумном использовании статистики в оценке научных исследований.
Работа Гольдштейна и Шпигельхайтера, в частности, имеет дело с использованием League Tables (рейтингов3) на основе простейших числовых показателей (например, достижений студентов или медицинских результатов), и в особенности это относится к оценке научных исследований с помощью рейтинга журналов, статей или авторов с использованием статистики цитирований. В своей работе авторы описывают состоящую из трех частей основу для любой оценки эффективности.
Данные
Каков бы ни был мыслимый объем собранных статистических данных, он не сможет преодолеть ключевых сомнений относительно пригодности или полноты этих данных» [34, с. 389].
Это важное замечание для оценок производительности, основанных на цитировании.
Импакт-фактор, например, основан только на тех данных, которые получены по журналам из перечня Thomson Scientific. (Заметим, что импакт-фактор сам по себе является основным критерием отбора журналов в этот перечень.) Некоторые ставят под сомнение целостность таких данных [35]. Другие указывают на то, что иные наборы данных могут быть более полными [36]. Некоторые группы продвинули идею использования Google Scholar для внедрения статистики, основанной на цитировании, например h-индекса, но данные, содержащиеся в Google Scholar, часто неточны (так как, например, имена авторов, автоматически извлекаются из публикаций в Сети). Индекс цитирования
3 Специфический вид рейтинга. См. http://en.wikipedia.org/ wiki/League_table. - Прим. ред.
отдельных ученых иногда трудно получить, поскольку в некоторых ситуациях и в некоторых странах бывает непросто однозначно определить авторство, и это может стать огромным препятствием для сбора точных данных по цитатам. Зачастую не принимаются во внимание некоторые данные, которые относятся к анализу цитирования. А из статистики, основанной на ошибочных данных, делаются ошибочные выводы.
Статистический анализ и представление информации
«Мы обратим особое внимание на выбор подходящей статистической модели, на досадную неопределенность в представлении всех результатов, на методы коррекции результатов с учетом возмущающих факторов и, наконец, на то, до какой степени мы можем доверять имеющимся рейтингам» [34, с. 390].
Как мы уже писали ранее, в большинстве случаев, в которых статистики цитирования используются для оценки работ, людей и программ, никакой конкретной модели заранее не определяется. Сами данные подводят к идее модели, которая часто оказывается весьма расплывчатой. Образуется порочный круг, когда объекты оцениваются выше, потому что у них (в базе данных) более высокий рейтинг. Неопределенности любого из этих рейтингов уделяется недостаточное внимание, и мало анализируется, как эта неопределенность (например, ежегодные изменения импакт-фактора) будет влиять на рейтинги. Наконец, второстепенные факторы (например, конкретная дисциплина, тип статей, которые публикует журнал, является ли конкретный ученый экспериментатором или теоретиком), часто игнорируются в таких рейтингах, особенно если они осуществляются в оценке результатов в национальном масштабе.
Интерпретация и влияние
«Сравнения, которые обсуждаются в данной работе, вызывают большой общественный интерес, и, очевидно, это та область, где особое внимание к недостаткам является одновременно жизненно важным и наиболее вероятно игнорируется. Являются ли скорректированные результаты в какой-либо степени справедливой мерой «качества» какого-либо учреждения - это один вопрос; с другой стороны, аналитики должны также знать о потенциальном влиянии результатов в отношении будущего изменения поведения учреждений и отдельных лиц, желающих улучшить свой последующий «рейтинг» [34, с. 390].
Оценка научных исследования также вызывает большой общественный интерес. Результаты оценки отдельного ученого могут оказать серьезное и долгосрочное влияние на его карьеру; оценка
Цитированная литература
отдела может изменить шансы на успех в далеком будущем, а что касается дисциплин, то набор оценок может разделить их на процветающие и «застойные». Поскольку дело столь важно, надо, конечно, отдавать себе отчет в применимости и ограничениях используемых инструментов.
В какой степени цитирование измеряет качество исследований? Кажется, что количество цитирований коррелирует с качеством, и есть интуитивное понимание того, что высококачественные статьи много цитируются. Но, как говорилось выше, некоторые статьи, особенно в некоторых дисциплинах, много цитируются по причинам, отличным от высокого качества, так что из того, что статьи много цитируются, не следует, что они обязательно высокого качества. Необходимо лучше понять точную природу интерпретации рейтингов на основе статистик цитирований. Кроме того, если статистики цитирований играют центральную роль в оценке научных исследований, ясно, что авторы, редакторы и даже издатели найдут способы управлять системой в своих интересах [37]. Долгосрочные последствия этого неясны и не изучены.
Статью Гольдштейна и Шпигельхальтера очень ценно прочитать сегодня, потому что из нее становится ясно, что чрезмерная зависимость от простой статистики в оценке научных исследований не является изолированной проблемой. Правительства, учреждения и частные лица боролись с подобными проблемами в прошлом и в других контекстах, и они нашли способы лучше понять статистические инструменты и дополнить их другими средствами оценки. Гольдштейн и Шпигельхаль-тер заканчивают свою работу в позитивном оптимистическом ключе:
«Наконец, хотя мы в целом настроены критично ко многим нынешним попыткам составить мнения об учреждениях, мы не хотим создать впечатление, что мы считаем, что все такие сравнения не имеют смысла. Нам кажется, что сравнение учреждений и попытка понять, почему они отличаются, являются чрезвычайно важным направлением деятельности и лучше всего проводить его в духе сотрудничества, а не конфронтации.
Пожалуй, это единственный надежный способ получения объективной информации, которая может привести к пониманию и, в конечном итоге, к совершенствованию процедуры. Реальной проблемой с упрощенными процедурами, которые мы подвергли критике, является то, что они отвлекают от этой достойной цели как внимание, так и ресурсы» [34, с. 406].
Было бы трудно найти лучшие слова, чтобы сформулировать цели, которые должны ставить перед собой все те, кто причастен к организации оценки исследований.
1. Evidence Report, 2007. The use of bibliometrics to measure research quality in the UK higher education system. - URL: http://bookshop.universitiesuk.ac.uk/ downloads/bibliometrics.pdf
2. Martin B. R. The use of multiple indicators in the assessment of basic research // Scientometrics. - 1996. -Vol. 36, N 3. - P. 343-362.
3. Carey A. L., Cowling M. G., Taylor P. G. Assessing research in the mathematical sciences // The Austral. Math. Soc. Gaz. - 2007. - Vol. 34, N 2. - P. 84-89.
4. Garfield E. Agony and the ecstasy - the history and meaning of the journal impact factor : presented at the Intern. congr. on peer review a. bibliomedical publication. Chicago, Sept. 16, 2005. - URL: http://garfield. library.upenn.edu/papers/jifchicago2005.pdf
5. Thomson: selection. - URL: http://scientific.thomson. com/free/essays/selectionofmaterial/journalselection
6. Thomson: impact factor. - URL: http://scientific.thom-son.com/free/essays/journalcitationreports/impactfactor
7. Seglen P. O. Why the impact factor for journals should not be used for evaluating research // BMJ. - 1997. -Vol. 314. - P. 497.
8. Amin M., Mabe M. Impact factor: use and abuse // Perspectives in Publishing. - 2000. - N. 1. - P. 1-6.
9. Monastersky R. The number that's devouring science // The Chronicle of Higher Education. - 2005. - Vol. 52, N 8.
10. Ewing J. Measuring journals // Notices of the AMS. -
2006. - Vol. 53, N 9. - P. 1049-1053.
11. Adler R. The impact of impact factors // IMS Bull. -
2007. - Vol. 36, N 5. - P. 4.
12. Hall P. Measuring research performance in the mathematical sciences in Australian universities // The Austral. Math. Soc. Gaz. - 2007. - Vol. 34, N 1. - P. 26-30.
13. Garfield E. Long-term vs. short-term journal impact (part II) // The Scientist. - 1998. - Vol. 12, N 14. - P. 12.
14. Garfield E. Why are the impacts of the leading medical journals so similar and yet so different? // Current Comments. - 1987. - N 2.
15. Stringer M. J., Sales-Pardo M., Nunes Amaral L. A. Effectiveness of journal ranking schemes as a tool for locating information // PLoS ONE. - 2008. - Vol. 3, N 2. - P. E1683.
16. Hirsch J. E. An index to quantify an individual's scientific research output // Proc. of the Nat. Acad. of Sciences of the USA. - 2006. - Vol. 102, N 46. - P. 1656916573.
17. Egghe L. Theory and practice of the g-index // Scien-tometrics. - 2006. - Vol. 69, N 1. - P. 131-152.
18. Universal behavior of a research productivity index / P. D. Batista [et al.] : preprint, 2005. - URL: http://arxiv.org/ftp/physics/papers/0510/0510142.pdf
19. Batista P. D., Campiteli M. G., Kinouchi O. Is it possible to compare researchers with different scientific interests? // Scientometrics. - 2006. - Vol. 68, N 1. -P. 179-189.
20. Sidiropoulos A., Katsaros D., Manolopoulos Y. Generalized h-index for disclosing latent facts in citation networks. Vl : preprint, 2006. - URL: http://delab.csd.auth. gr/papers/LinkKDD06skm.pdf
21. Lehmann S., Jackson A. D., Lautrup B. E. Measures for measures // Nature. - 2006. - Vol. 444, N 21. -P. 1003-1004.
22. Molinari J. F., Molinari A. A new methodology for ranking scientific institutions // Scientometrics. - 2008. -Vol. 75, N 1. - P. 163-174.
23. Kinney A. L. National scientific facilities and their science impact on nonbiomedical research // Proc. of the Nat. Acad. of Sciences of the USA. - 2007. - Vol. 104, N 46. - P. 17943-17947.
24. Thomson: history. - URL: http://scientific.thomson.com/ free/essays/citationindexing/history
25. Garfield E. Citation analysis as a tool in journal evaluation // Science. - 1972. - Vol. 178, N 4060. -P. 471-479.
26. Thomson: fifty years. - URL: http://scientific.thomson. com/free/essays/citationindexing/50y-citationindexing
27. Garfield E. Citation indexes for science: a new dimension in documentation through association of ideas // Science. - 1955. - Vol. 122, N 3159. - P. 108-111.
28. Martin B. R., Irvine J. Assessing basic research // Research Policy. - 1983. - Vol. 12. - P. 61-90.
29. Cozzens S. E. What do citations count? The rhetoric-first model // Scientometrics. - 1989. - Vol. 15, N 5/6. -P. 437-447.
30. Brooks T. Evidence of complex citer motivations // J. of the Amer. Soc. for Information Science. - 1986. -Vol. 37, N 1. - P. 34-36.
31. Best J. Damned lies and statistics: untangling the numbers from the media, politicians, and activists. - Berkeley : Univ. of California Press, 2001.
32. Bergstrom C. Eigenfactor: measuring the value and pre-sitige of scholarly journals // College a. Research Libr. News. - 2007. - Vol. 68, N 5. - P. 314-316.
33. Performance indicators: good, bad, and ugly; Report of a working party on performance monitoring in the public services / S. Bird [et al.] // J. of the Royal Statist. Soc. A. - 2005. - Vol. 168, pt. 1. - P. 1-27.
34. Goldstein H., Spiegelhalter D. J. League tables and their limitations : statistic. iss. in comparisons of institut. performance // J. of the Royal Statist. Soc. A. - 1996. -Vol. 159, N 3. - P. 385-443.
35. Rossner M., Van Epps H., Hill E. Show me the data // J. of Cell Biology. - 2007. - Vol. 179, N 6. -P. 1091-1092.
36. Meho L., Yang K. Impact of data sources on citation counts and rankings of LIS faculty: Web of Science vs. Scopus and Google Scholar // J. of the Amer. Soc. for Inform. Science a. Technology. - 2007. - Vol. 58, N 13. -P. 2105-2125.
37.Macdonald S., Kam J. Aardvark et al.: quality journals and gamesmanship in management studies // J. of Inform. Science. - 2007. - Vol. 33, N 6. - P. 702-717.
Примечания
1) В Reader's Digest от октября 1977 года эта цитата была приписана Эйнштейну. Похоже, что она была извлечена из следующей настоящей его цитаты: «Едва ли можно отрицать, что высшей целью всех теорий является то, чтобы сделать основные элементы как можно более простыми и немногочисленными, не поступаясь при этом адекватным представлением ни единого опытного данного». Из Спенсеровской лекции «О методе теоретической физики», прочитанной Эйнштейном в Оксфорде (10 июня 1933 г.); опубликовано также в Philosophy of Science. - 1934. - Vol. 1, N 2. - P. 163-169.
2) Хотя в этом разделе мы сосредоточились на им-пакт-факторе Thomson Scientific, отметим, что Thomson продвигает также использование и двух других статистик. Добавим, что аналогичные статистики, основанные на подсчете среднего числа цитирований в журналах, могут быть получены из других баз данных, включая Scopus, Spires, Google Scholar и (по математике) базу данных Math. Reviews. Последняя включает цитаты из более чем 400 математических журналов за период с 2000 г. по настоящее время. Это те журналы, которые реферируются в Math. Reviews с 1940 года. База содержит более 3 миллионов ссылок.
Thomson Scientific указывает (март 2008 г.), что рассматривает журналы в следующих категориях:
• математика (217);
• прикладная математика (177);
• междисциплинарная математика (76);
• математическая физика (444);
• вероятность и статистика (96).
Категории перекрываются, а общее число журналов составляет около 400.
В отличие от этого, Math. Reviews каждый год анализирует более 1200 журналов, из которых более 800 журналов составляют «ядро» (в том смысле, что каждая статья в журнале включена в Math. Reviews). Zentralblatt охватывает примерно столько же математических журналов.
4) База данных цитирований в Math. Reviews включает (по состоянию на март 2008 г.) более чем 3 миллиона ссылок приблизительно из 400 журналов, изданных с 2000 г. по настоящее время. Ссылки согласованы с разделами в базе данных Math. Reviews и охватывают период в несколько десятков лет. В отличие от Science Citation Index, сюда включено цитирование и из книг, и из журналов. Любопытно, что примерно 50% цитирований относится к публикациям предыдущего десятилетия, 25% ссылок приходится на статьи, появившиеся в десятилетие до него, 12,5% - в предшествующее десятилетие и так далее. Для каждой дисциплины характерна, конечно, своя картина.
5) Высокая неравномерность распределения цити-руемости по статьям в сочетании с коротким интервалом времени (рассматриваются ссылки на статьи, опубликованные за последние пять лет, в статьях, опубликованных за последний год) означает, что много статей имеют либо мало ссылок, либо не имеют их вообще. Интуитивно понятно, что это приводит к слишком частому равенству количества цитирований у двух произвольно выбранных статей.
Тот факт, что многие статьи не имеют цитирований (или их число очень мало), также является следствием большого временного интервала, характерного для цитирования в математических статьях: очень часто перед появлениям первого цитирования проходит много лет. Если рассматривать более длительный период времени как для источников цитирований, так и для самих статей, то количество цитирований заметно возрастет и станет легче различать журналы по этому показателю. Именно такой подход используется в [15]. Там показано, что для достаточно длительного периода времени распределение цитирований по статьям оказывается лог-нормальным. Таким образом, появляется механизм,
позволяющий сравнивать журналы в терминах соответствующих распределений, что, безусловно, более продумано, чем использование импакт-фактора. И тем не менее, при этом опять-таки учитывается только цити-руемость и ничего более.
6) Чтобы показать, как много информации теряется при использовании только й-индекса, приведем реальный пример одного уважаемого математика, находящегося а середине своей карьеры, который опубликовал 84 научных работы. Распределение цитирований выглядит следующим образом:
Обратите внимание, что чуть менее 20% публикаций имеют 15 или больше цитирований. Распределение действительных подсчетов цитирований для этих 15 работ таково:
В анализе Хирша, однако, вся эта информация выброшена. Он лишь констатирует, что 1ъиндекс равен 15,
Роберт Адлер, Джон Эвинг, Питер Тейлор, 2011, № 4, с. 69-83 т. е. что 15 лучших работ имеют 15 или больше цитирований.
7 Алгоритм из работы [32] использует алгоритм страничного ранжирования, который придает каждой цитате вес, а затем вычисляет «импакт-фактор», используя средневзвешенные для цитирований. Сильной стороной алгоритмов страничного ранжирования является то, что они принимают во внимание «ценность» цитат.
С другой стороны, их сложность может быть опасной, потому что окончательные результаты труднее понять. В этом случае все «самоцитатирования» отбрасываются, т. е. отбрасываются все цитаты из статей в данном журнале J на статьи, опубликованные в том же J в течение предыдущих пяти лет. По сути это нельзя назвать «самоцитированием», но рассмотрение некоторых данных базы цитат Math. Reviews позволяет предположить, что это приводит к выбрасыванию примерно одной трети всех цитирований.
Алгоритм из работы [15] интересен отчасти потому, что он пытается рассмотреть различные временные рамки цитирований, а также вопрос о сравнении случайно выбранных статей в одном журнале со статьями в другом. В этом случае сложность алгоритмов также затрудняет для большинства людей получение оценки имеющихся результатов. На с. 2 этой работы принимается примечательная гипотеза: «Наше первое предположение, что статьи, опубликованные в журнале J, имеют нормальное распределение „качества"...». Это кажется противоречащим обычному опыту.
Материал поступил в редакцию 11.07.2011 г.
Сведения об авторах: Адлер Роберт - профессор
Израильского технологического института (Technion), Хайфа, Эвинг Джон - в 1995-2008 гг. исполнительный директор Американского математического общества,
Тейлор Питер - профессор университета Мельбурна (Австралия)