Краткое описание наукометрических показателей основанных на цитируемости

Цыганов Андрей Владимирович

УДК 001.89 + 519.24 ББК 72.4

КРАТКОЕ ОПИСАНИЕ НАУКОМЕТРИЧЕСКИХ ПОКАЗАТЕЛЕЙ, ОСНОВАННЫХ НА ЦИТИРУЕМОСТИ

Цыганов А. В.1

(Санкт-Петербургский государственный университет)

Даны определения некоторых наиболее популярных наукометрических индексов, основанных на цитируемости публикаций в научных журналах. Обсуждаются примеры их возможного использования при проведении различных экспертных мероприятий.

Ключевые слова: наукометрические показатели, индекс Хирша.

1. Введение

Когда зритель приходит в музей или картинную галерею, то он оценивает достоинства той или иной картины по очень простому принципу: она ему либо нравится, либо нет. При этом зрителю нет никакого дела до мнения профессиональных искусствоведов или физического состояния картины.

Однако когда тот же зритель становится покупателем, то он заказывает полную экспертизу картины, т.е. учитывает не только мнение профессиональных искусствоведов, но и заказывает и архивный, и рентгеновский, и химический и другие объективные анализы картины для определения ее стоимости.

Так и в науке, для налогоплательщиков и их представителей, которые и оплачивают деятельность ученых, кроме субъективного мнения профессиональных экспертов необходимы и объективные показатели. Наукометрические показатели в сово-

1 Андрей Владимирович Цыганов, профессор, доктор физикоматематических наук (andrey-ts@yandex.ru).

купности и являются такими инструментами оценки деятельности ученых.

Каждый год в наукометрии разрабатывается и затем проверяется на практике несколько десятков различных показателей. В том числе и показатели для общественных и гуманитарных наук, для технических наук и Computer Science и т.д., которые не основываются только на цитируемости публикаций статей. Причем в последнее время основной упор делается не на сравнение показателей различных ученых, а на сравнение разных индексов одного и того же ученого и извлечения информации именно из этого сравнения.

Два основных недостатка, которые выделяют все специалисты по наукометрии:

1. Так как наукометрические показатели легко вычислить, то велик риск их неадекватного использования в качестве единственного критерия оценки многогранной научно-исследовательской деятельности ученого.

2. Использование наукометрических показателей в качестве критериев оценки научной деятельности провоцирует ученых к «накрутке» этих показателей различными способами.

В качестве противодействия такой «накрутке» показателей предлагается использовать не один показатель, а разные совокупности наукометрических показателей, в том числе и постоянно создающихся новых показателей.

Во всем мире оптимизация процесса экспертной оценки в рамках частных и государственных научных фондов, венчурных инвестиционных фондов, индустриальной экспертизы и т.д. обеспечивается постоянным экспериментом, конкуренцией и многообразием различных методов учета наукометрических показателей. Как следствие, и инвесторы, и индустрия, и частные фонды, да и различные правительственные институты предпочитают строить свою собственную сеть экспертов, использующих свои собственные наукометрические инструменты. Унификация использования наукометрических показателей в различных дисциплинах для проведения различных экспертных мероприятий, по нашему мнению, в принципе невозможна.

Далее мы рассмотрим две группы наукометрических показателей, которые оценивают количество цитируемых статей

(quantity of the productivity core) и влияние цитируемых статей (impact of the productive core), а также кратко обсудим возможные применения таких показателей.

2. Несколько основных наукометрических показателей, основанных на цитируемости

2.1. ОПРЕДЕЛЕНИЯ ОСНОВНЫХ ИНДЕКСОВ

Стандартные определения, обсуждения и полный список литературы, посвященный различным наукометрическим показателям, основанным на цитируемости, могут быть найдены на сайтах [5, 6]. Мы воспроизведем определения нескольких распространенных индексов, имеющих наиболее простые математические определения.

A-Index - индекс Хирша, который вычисляется на основе распределения цитирований работ данного исследователя:

Учёный имеет индекс h, если h из его Np статей цитируются как минимум h раз каждая, в то время как оставшиеся (Np - h) статей цитируются не более чем h раз каждая.

Индекс учитывает и количество публикаций, и их влияние на научное сообщество, выраженное через число цитирований публикации. Эти h статей ученого, учитываемые при вычислении индекса Хирша, образуют так называемое h-ядро, или Хирш-ядро, наиболее цитируемых статей автора (productive core). Достоинства и недостатки этого индекса широко известны, см. например работы [4, 7].

Individual A-index (original) - результат деления стандартного h-индекса на среднее число авторов в статьях, которые входят в Хирш-ядро публикаций. Этот показатель призван уменьшить влияние на h-индекс числа соавторов публикаций, которое, по статистике, существенно отличается в различных областях знаний.

Individual A-index (PoP variation) - вычисление h-индекса когда вместо полного числа цитирований каждой статьи используется отношение числа цитирований к числу авторов публика-

ции. Другие возможности учета числа соавторов обсуждаются в работе Хирша [4].

,^-1пйех - индекс, учитывающий статьи ученого с наибольшим цитированием, который определяется следующим образом:

Наибольшее целое число g публикаций, которые все вместе набрали g2 и более цитирований.

Исправляет недостаток индекса Хирша, который можно сформулировать следующим образом: «если статья попадает в число наиболее цитируемых h статей, то цитирование этой конкретной статьи больше никак не учитывается».

й2-1пйех - как и g-индекс учитывает вес наиболее цитируемых статей автора. Определяется следующим образом.

Наибольшее натуральное число h2 такое, что каждая из h2 наиболее цитируемых публикаций была процитирована по крайней мере [й2]2раз.

То есть й2 = 20 означает, что ученый опубликовал не менее 20 статей, каждая из которых была процитирована по крайней мере 400 раз. Очевидно, что для любого ученого й2-индекс всегда ниже, чем й-индекс.

е-1пйех - так же как и предыдущие метрики предназначен для учета цитирований статей в Хирш-ядре публикаций. Математическое определение:

е2 = ^сИ] -h2

1=1

Служит дополнением для й-индекса, так как не зависит от него.

a-Index - это просто среднее число ссылок на статьи, входящие в Хирш-ядро:

й

а = йX си;

1=1

Здесь й-индекс Хирша, а сИу - число цитированийу-й статьи.

т-1пйех - это медиана числа цитирований й статей, входящих в Хирш-ядро публикаций автора. Является некоторым вариантом а-индекса и попыткой учесть распределение числа цитирований статей, входящих в Хирш-ядро.

т^ио^еП - один из способов сравнения ученых с различной продолжительностью научной работы; заключается в делении й-индекса на число лет научно-исследовательской деятельности: й

тч =-.

У

Здесь й-индекс Хирша, а у - число лет с момента первой публикации. Введение этого индекса связано с тем, что согласно стохастической модели [2] индекс Хирша является кумулятивным показателем, прямо пропорциональным продолжительности научной работы.

r-Index - одним из недостатков а-индекса является то, что ученые с высоким й-индексом «наказываются» тем, что сумма цитирований делится на й. Поэтому, чтобы учесть долю высо-коцитируемых статей в Хирш-ядре, предлагается следующий показатель:

г =

н

і=1

Здесь й-индекс Хирша; сИу - число цитирований у-й статьи. Данный показатель можно использовать для выделения группы авторов, имеющих одну или две работы с экстремально большим цитированием.

ar-Index является некоторой модификацией г-индекса и определяется следующим образом:

аг =

К

н СІЇ і

і=1 аі

Здесь й - индекс Хирша; сИу - число цитирований у-й статьи, и ау - время, прошедшее с ее публикации.

Так как аг-индекс может не только увеличиваться, но и уменьшаться с течением времени, то его активно используют, например, для подбора экспертов при проведении конкурсов.

й„,-1пйех - как и аг-индекс, этот индекс предназначен для оценки изменения производительности:

К, =

І

Iсиі

і=і

Здесь сИу - число цитирований у-й статьи; г0 - наибольший ранг; k (номер) статьи в Хирш-ядре, для которой г№(к) > Определяется с помощью сравнения взвешенного ранга статьи

I

k .

і=іС1{і н

и числа ее цитирований. Напомним, что статьи в Хирш-ядре нумеруется таким образом, что наиболее цитируемая статья имеет первый номер, так что

сії, Ш, Ш2

г (1) = —1 > 1,,г - ж(2) = —1 + —2 > 2,

” н н н

Iі-=1 СІЇ і гК (і) = - =1 - > к

н

и г0 = к, если ГК (к +1) =

I

к+1

і

н

< к +1.

Обычно используется вместо й- и g-индексов для сравнения результативности научных учреждений и даже стран, а не для ранжирования отдельных ученых.

hg-Index и #2-шйех - так называемые накопительные индексы:

hg = ■у/й"*#' д2 = 4к*ш

Здесь н-индекс рассматривается как количественная характеристика, а и т-индексы призваны описывать влияние работ через их цитируемость, т.е. качественные характеристики публикационной деятельности ученого.

Кроме перечисленных выше наукометрических показателей существует также достаточно большое количество других показателей, учитывающих более сложные статистические законы, учитывающих самоцитирование, цитирование статьи другими авторами статьи, учитывающих области знаний, в которых

проводятся исследования, учитывающих разницу между начинающими и уже маститыми исследователями и т.д.

2.2. УЧЕТ ОБЛАСТЕЙ ЗНАНИЙ

В каждой области знаний существуют свои традиции написания статей, их цитирования, свой порядок авторов и т.д. К сожалению, какого-либо стандартного способа учесть все эти различия не существует. Поэтому мы рассмотрим только один из простейших способов учета этих особенностей.

В работе [3] предложено нормировать все выше приведенные показатели, основанные на цитируемости, на среднее число цитирований C в той или иной области знаний в степени 3/2. Математическое обоснование именно этой степени C32 довольно сложное и объяснить его «лирикам» практически невозможно, поэтому в СПбГУ при расчете баллов за публикации мы делим значения импакт-фактора журналов из различных областей знаний просто на среднее число цитирований C.

Заметим, что в Web of Science используется два типа разбиений на области знаний. Так называемые крупные области знаний и их средние показатели по цитируемости приведены в таблице 1.

Таблица 1. Крупные области знаний и их средние показатели по цитируемости

Область знаний Среднее число С

Сельскохозяйственные науки 7,24

Биология и биохимия 16,50

Химия 11,56

Клиническая медицина 12,62

Компьютерные науки 4,07

Экономика и бизнес 6,49

Технические науки 5,02

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Науки об окружающей среде и экология 11,36

Науки о Земле 9,68

Иммунология 21,10

Материаловедение 7,59

Математика 3,53

Микробиология 15,02

Область знаний Среднее число С

Молекулярная биология и генетика 23,49

Междисциплинарные исследования 7,66

Нейронауки и поведенческие науки 18,76

Фармакология и токсикология 12,09

Физика 8,56

Науки о растениях и животных 7,76

Психиатрия и психология 11,29

Общественные науки 4,76

Науки о космосе 14,56

Обычно научные фонды используют такое разделение по областям знания для различных статистических расчетов, а для вычисления показателей конкретных журналов и ученых используется более мелкое деление на более чем 200 дисциплин. Например, в раздел первого уровня «Математика» входят области знаний второго уровня «Логика» и «Математическая физика», средняя цитируемость статей в которых абсолютно разная.

Каждый журнал в Web of Science приписан к одной из таких мелких областей знаний, но не каждый журнал можно однозначно соотнести даже с более крупной областью знаний, например, из-за его междисциплинарного характера.

2.3. ПРОСТЕЙШИЙ ПРИМЕР

Предположим, что ученый А за пять лет написал 5 статей и каждую статью процитировали по 10 раз. Все статьи были написаны в первый год.

За тот же период ученый Б написал 10 статей и каждую из них процитировали 5 раз. Статьи были написаны по две в каждом году.

В Хирш-ядро публикаций ученого А входят все его пять работ с общим количеством цитирований 50, а в Хирш-ядро ученого Б входят пять его последних по времени работ с общим цитированием 25. Приведем значения некоторых наукометрических показателей этих ученых (см. таблицу 2).

Жирным шрифтом выделены те показатели, которые отличаются друг от друга. Если при этом ученый А занимается математикой, то его нормированный й-индекс будет равен

5 / 3,53 = 1,4, а если ученый Б биолог, то его нормированный h-индекс будет 5 / 16,5 = 0,3, что, очевидно, не всегда справедливо, так как в биологию входит и высоко цитируемая биоинформатика, и слабо цитируемая зоология.

Таблица 2.

А Б

h = £ = 5 h = £ = 5

тц = 1 тц = 1

II СЦ II

е = 5 е = 0

II II

т = 10 т = 5

hw =л/50 1 ^ 18 н г

Рассмотрим, однако, другой аспект. Будем сравнивать разные показатели одного и того же ученого. Например, для ученого А его аг-индекс меньше ^индекса, и это связано с тем, что этот ученый опубликовал 5 цитируемых статей пять лет назад и затем больше не публиковал статей, которые бы цитировались. При этом причины могут быть совершенно разными, различных вариаций можно придумать довольно много:

1. Ученый А собирает новую экспериментальную установку и когда эксперименты будут проведены, будет снова публиковать много высокоцитируемых публикаций.

2. Ученый А приступил к решению «трудной» проблемы, как ему посоветовал П.Ю. Чеботарев в статье из этого сборника, и не может ее решить.

3. Ученый А решил «трудную» проблему, но это решение оказалось никому не нужным и его не цитируют.

4. Ученый А полностью решил «трудную» проблему и теперь ее цитируют в учебниках, но не статьях из WoS.

5. Ученый А стал администратором или вообще заканчивает свою научно-исследовательскую карьеру.

У ученого Б эти же показатели практически равны, так как он каждый год публикует по 2 статьи, которые продолжают цитироваться.

Таким образом, автоматическое сравнение этих показателей позволяет, например, поделить поступившие в фонд грантовые заявки на две части - в первой части будут ученые, у которых й-индекс примерно равен аг-индексу, а во второй группе -ученые, у которых й-индекс значительно больше аг-индекса. Затем заявки из первой группы подвергаются стандартному рецензированию, а из второй группы более детальному рассмотрению. Обычно для рецензирования работ из второй группы экспертам предоставляется дополнительная информация, позволяющая им принять наиболее взвешенное и корректное решение.

2.4. ЭКСПЕРИМЕНТ

Как и любая другая теория, теория наукометрических показателей должна быть подтверждена экспериментом. При этом экспериментально проверенные в какой-либо одной области знаний модели могут быть ошибочными в применении к другой области знаний. В качестве примера мы обсудим некоторые данные, полученные в работе [1].

В этой работе авторы использовали корреляционный анализ для исследования девяти наукометрических показателей, которые были рассчитаны для соискателей PhD позиций в международном фонде Boehringer Ingelheim Founds (www.biofonds.de), проводящем фундаментальные исследования в биомедицине.

По результатам исследования наукометрические показатели были разбиты на две группы: показатели, оценивающие количество активно цитируемых статей (quantity of the productivity core), и показатели, оценивающие цитируемость или влияние активно цитируемых статей (impact of the productive core) (таблица 3).

Эти результаты можно интерпретировать следующим образом: в качестве наукометрических показателей в биомедицине можно использовать один показатель из первой группы и второй показатель из второй группы.

Таблица 3. Две группы показателей

Показатель Степень пригодности для оценки количества цитируемых статей Степень пригодности для оценки влиятельности цитируемых статей

й-іпгїех 0,94 0,34

т^иойей 0,88 0,27

£-іпгїех 0,91 0,32

^2)-і^ех 0,83 0,50

а-^ех 0,28 0,96

га-іпгїех 0,22 0,96

г-^ех 0,58 0,82

аг-^ех 0,56 0,80

hw-index 0,56 0,82

Затем авторы сравнивали значения этих наукометрических показателей для соискателей, прошедших и не прошедших отбор, методами стандартной профессиональной экспертизы. Результаты приведены в таблице 4.

Здесь п - число заявок;т - среднее арифметическое; sd - стандартное отклонение и mdn - медиана либо ^индекса, либо т-индекса для одобренных и отклоненных экспертами заявок. Показатель Крамера V оценивает связь между соответствующим индексом и решением экспертов.

Таблица 4. Результаты сравнения

1990 1991 1992 1993 1994 1995

h-index принятых

т 5,15 3,90 2,92 4,14 2,83 4,33

sd 3,13 3,35 2,29 2,85 1,27 2,06

mdn 4,00 3,00 3,00 3,00 3,00 5,00

п 13 10 13 7 12 9

h-index отклоненных

т 2,71 2,94 2,70 2,40 2,46 2,99

sd 2,58 2,12 2,17 1,69 2,11 2,05

mdn 2,00 2,00 2,00 2,00 2,00 3,00

п 52 36 57 60 52 93

Сгатег^ 0,61 0,52 0,41 0,52 0,32 0,35

m-index принятых

т 94,65 48,55 44,35 54,64 73,58 85,17

sd 88,27 47,79 42,75 27,41 67,60 127,58

mdn 88,00 31,50 26,00 45,00 56,00 21,50

п 13 10 13 7 12 9

m-index отклоненных

т 23,71 31,60 29,86 22,42 45,36 34,41

sd 30,16 29,53 39,24 20,73 56,51 51,59

mdn 16,75 25,00 16,00 14,25 23,50 20,00

п 52 36 57 60 52 93

Сгатег^ 0,97 0,83 0,87 0,90 0,95 0,85

Данные результаты указывают на то, что наукометрические показатели могут быть использованы как для ранжирования заявок, так и для установления пороговых уровней для отсечки слабых заявок. Отметим, что это справедливо только для проведения данного конкретного конкурса на PhD позиции, в котором участвуют молодые ученые с примерно одинаковым научным стажем. При проведении конкурсов с более сложным распределением участников по стажу научной работы такие оценки могут быть некорректными.

Аналогичные эксперименты по сравнению мнений профессиональных экспертов с различными наукометрическими показателями в различных конкурсах были проведены в астрономии, биологии, химии, и даже в математике, см. ссылки в [1-5].

Все эти опыты указывают на то, что только использование совокупности показателей позволяет получить более-менее адекватную картину. Речь, конечно, всегда идет не о малых, а о достаточно больших выборках и результаты всегда справедливы в «среднем» по выборке. С оценкой двух конкретных ученых, А и Б, например из нашего примера, всегда можно разобраться и без применения наукометрических показателей.

Литература

1. BORNMANN L, MUTZ R, DANIEL H.D. Are there better indices for evaluation purposes than the h index? A comparison of nine different variants of the h index using data from biomedicine // Journal of the American Society for Information Science and Technology. - 2008. -Vol. 59(5). - P. 830-83.

2. BURREL Q.L. Hirsch's h-index: a stochastic model // Journal of Informetrics. -2007. -Vol. 1(1). - P. 16-25.

3. IGLESIAS J.E, PECHARROMAN C. Scaling the h-index for different scientific ISI fields // Scientometrics. - 2007. -Vol. 73(3). - P. 303-320.

4. HIRCH J.E. An index to quantify an individual's scientific research output that takes into account the effect of multiple coauthorship // Scientometrics. - 2010. -Vol. 85.- P. 741.

5. h-index and variants. - [Электронный ресурс] URL:

http://sci2s.ugr.es/hindex/. (дата обращения 30.07.2013.)

6. Publish or Perish. - [Электронный ресурс] URL: http://www.harzing.com/pop.htm#metrics. (дата обращения 30.07.2013.)

7. ROUSSEAU R., GARCIA-ZORITA C., SANZ-CASADO E. The h-bubble // Journal of Informetrics. - 2013. - Vol. 7. -P. 294-300.

BRIEF REWIEV OF MAIN SCIENTOMETRIC INDICES BASED ON CITATIONS Andrey Tsiganov, professor of the Saint-Petersburg State University.

Abstract: We present standard definitions of some scientometric indexes and discuss their possible applications in various expert ratings.

Keywords: scientometric indices, Hirsch index.

Поступила в редакцию 06.02.2013.

Опубликована 31.07.2013.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Краткое описание наукометрических показателей основанных на цитируемости Текст научной статьи по специальности «Математика»

Аннотация научной статьи по математике, автор научной работы — Цыганов Андрей Владимирович

Похожие темы научных работ по математике , автор научной работы — Цыганов Андрей Владимирович

Brief rewiev of main scientometric indices based on citations

Текст научной работы на тему «Краткое описание наукометрических показателей основанных на цитируемости»