Научная статья на тему 'О значимости h-индекса в оценке научной деятельности'

О значимости h-индекса в оценке научной деятельности Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
145
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНДЕКС ЦИТИРУЕМОСТИ ИССЛЕДОВАТЕЛЯ / CITATION INDEX OF RESEARCHER / ИНДЕКС ХИРША / HIRSH INDEX / НАУЧНАЯ ДЕЯТЕЛЬНОСТЬ / SCIENTIFIC ACTIVITY

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Михайлов Олег Васильевич, Михайлова Татьяна Иосифовна

Дано описание нового параметра личной цитируемости исследователя, введенного в оборот в 2005 г., – h-индекса, или индекса Хирша. Несмотря на оригинальность подхода в выборе данного параметра, этот показатель в общем случае не может считаться адекватным для описания реальной цитируемости работ конкретного исследователя и тем более – их научной ценности, хотя он в той или иной степени и коррелирует с ней.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

About of significance of h-index in value of scientific activities

The description of new parameter of personal citation of researcher put into circulation in 2005 – an h-index or Hirsh index, has been given. Despite originality in a choice of the given parameter this indicator generally cannot be considered adequate for the description of real citation works of the concrete researcher and of their scientific value though it to some extent correlates with it.

Текст научной работы на тему «О значимости h-индекса в оценке научной деятельности»

О.В. Михайлов, Т.И. Михайлова

О ЗНАЧИМОСТИ h-ИНДЕКСА В ОЦЕНКЕ НАУЧНОЙ ДЕЯТЕЛЬНОСТИ

Ключевые слова: индекс цитируемости исследователя, индекс Хирша, научная деятельность.

Keywords: citation index of researcher, Hirsh index, scientific activity.

Аннотация: Дано описание нового параметра личной цитируемости исследователя, введенного в оборот в 2005 г., - h-индекса, или индекса Хирша. Несмотря на оригинальность подхода в выборе данного параметра, этот показатель в общем случае не может считаться адекватным для описания реальной цитируемости работ конкретного исследователя и тем более - их научной ценности, хотя он в той или иной степени и коррелирует с ней.

Abstract: The description of new parameter of personal citation of researcher put into circulation in 2005 - an h-index or Hirsh index, has been given. Despite originality in a choice of the given parameter this indicator generally cannot be considered adequate for the description of real citation works of the concrete researcher and of their scientific value though it to some extent correlates with it.

В последние годы во всем мире приобрел достаточно большую значимость такой параметр научной деятельности, как цити-руемость работ, причем как индивидуального исследователя, так и разнообразных исследовательских коллективов и сообществ. Количественно данный параметр (так называемый личный индекс цитирования) есть не что иное, как общее число ссылок на опубликованные работы (в первую очередь - статьи в периодических изданиях). Заметим, что при подсчете данного параметра во вни-

мание принимаются как ссылки, сделанные на те или иные работы другими исследователями, так и им самим (самоцитирование). Как видно из сказанного, способ определения личного индекса цитирования в принципе весьма прост, хотя для его реализации на практике в настоящее время необходимо не только использование современной компьютерной техники и технологий, но и создание соответствующих баз данных и специализированных научно-исследовательских учреждений, профессионально занимающихся указанной проблемой. Правда, сама по себе личная цитируемость работ исследователя и научного коллектива, сколь бы велика она ни была, еще не может служить доказательством значимости и ценности выполненных научных работ и даже их востребованности научным сообществом. И все же она является весьма полезным критериальным признаком, характеризующим уровень их научной деятельности. Отмеченное обстоятельство побуждает специалистов в области наукометрии к поиску новых параметров, так или иначе связанных с цитируемостью. Конечно, «научную продуктивность» исследователя нельзя адекватно описать лишь единственным параметром. Хороший же набор характеризующих ее параметров способен давать достаточно определенную картину. В свете сказанного создание новых показателей научной деятельности вообще и ее продуктивности в частности, равно как и модернизация уже существующих, - это весьма актуальная наукометрическая задача.

Одним из недавно введенных в оборот новых параметров научной продуктивности стал h-индекс, более известный ныне в научной среде под названием «индекс Хирша», который назван так в честь его создателя - американского физика Хорхе Хирша (Jorge E. Hirsch). Первая информация об этом новом оригинальном показателе научной деятельности появилась в его работе «An index to quantify an individual's scientific research output», увидевшей свет в 2005 г. [4]. Этот показатель научной деятельности едва ли не сразу же вызвал значительный интерес (если не восторг) исследователей в самых разных областях научной деятельности. Весьма быстро были проведены все необходимые расчеты и созданы соответствующие базы данных, в которых представлена информация о значениях данного параметра для исследователей самого различного ранга - от начинающих свой путь в науке до лауреатов Нобелевской премии. Единственное условие, необходимое для попадания в какую-либо из таких баз данных, - это наличие хотя бы одной ссылки на какую-либо из статей исследователя в тех изда-

ниях (журналах), которые фигурируют в данной базе. А там фигурируют отнюдь не все издаваемые в мире научные издания. Ненаучные и околонаучные - тем более. Забегая несколько вперед по ходу изложения, заметим, что, строго говоря, понятия «индекс Хирша» и И-индекс не являются идентичными: первое из них фактически является собирательным и шире второго, которое имеет четкое однозначное толкование.

Как и личный индекс цитирования исследователя, индекс Хирша в узком смысле слова, а именно И-индекс, является количественной характеристикой продуктивности исследователя, основанной на общем числе публикаций и количестве ссылок. По определению самого Х. Хирша, исследователь имеет индекс И, если И из его N статей цитируются как минимум И раз каждая, в то время как оставшиеся ^-И) статей цитируются не более чем И раз каждая. Иначе (и проще) говоря, если в активе исследователя есть п статей, на каждую из которых сослались не менее чем п раз, то это как раз и означает, что его личный И-индекс равен п. В соответствии с такой дефиницией это всегда целое положительное число, причем для любого исследователя оно не может превышать общего числа опубликованных им статей N сколько бы раз на них ни ссылались другие авторы. При определении И-индекса, равно как и при определении личного индекса цитируемости исследователя, не делается различий между цитированием и самоцитированием.

Если построить кривую распределения количества публикаций N в зависимости от числа их цитирований п, то можно определить И-индекс как ту точку на этой кривой, для которой N=n и, следовательно, абсцисса и ордината равны друг другу. Согласно обширным статистическим данным, кривая распределения количества публикаций среднестатистического исследователя N (п) в первом приближении может быть аппроксимирована гиперболической функцией N (п) ~ ап-1, где а - некоторая постоянная величина. При подобном допущении для числа цитирований п, определяющего И-индекс, будет иметь место соотношение п = ап-1, так что И = а1/2. В данном случае И-индекс - это положительное число, но уже не обязательно целое. На практике, однако, для определения этого параметра используют исключительно первый из вышеуказанных двух вариантов трактовки.

К примеру, у исследователя, являющегося автором или соавтором одной-единственной статьи, на которую сослались 100 раз, И-индекс окажется равным 1. Точно такой же И-индекс будет и у исследователя, являющегося автором или соавтором 100 статей, на

каждую из которых кто-либо ссылался хотя бы однажды. А у исследователя, у которого в активе опять-таки 100 статей, но на одну из которых сослались 6 раз, на другую - 4, на третью - 3, еще на пяток - по 1, а на остальные - ни разу (значительно более реальная ситуация как в российской, так и мировой практике), h-индекс окажется равным 3. И это притом что суммарное число ссылок на то же самые 100 статей (18) у него гораздо меньше, чем и у первого, и у второго коллеги! Ну а если при все тех же 100 статьях у него цитировались лишь 10, но каждая по 10 раз, то при общем числе ссылок - 100 его h-индекс окажется уже равным 10. Эта величина при данном общем числе ссылок - предел.

Согласно оценкам, сделанным самим «крестным отцом» этого термина, h-индекс «ординарного» исследователя-физика примерно равен продолжительности его научной карьеры в годах, тогда как у его коллеги со статусом «выдающегося ученого» он в два и более раз выше. Такой вывод представляется нам весьма сомнительным или по крайней мере поспешным. Даже с учетом того, что цити-руемость в физике одна из самых больших в науке, трудно представить себе, чтобы «ординарный» физик в нашей стране за 20 лет своей научной карьеры смог бы получить h-индекс, равный 20. Ведь это означает наличие как минимум 400 ссылок на свои работы и как минимум двух десятков статей, каждая из которых была бы процитирована не менее 20 раз. Впрочем, и 10 статей, каждая из которых была бы процитирована как минимум 10 раз, набрать за этот срок тоже весьма непросто. Во всяком случае наш просмотр показателей h-индекса российских физиков по системе Российского индекса научного цитирования (РИНЦ) однозначно свидетельствует о том, что цифру h = 20 и более среди них имеют лишь единицы. Правда, это у нас в России. В Америке, возможно, этого добиться проще (особенно с учетом того, что американские физики в своих публикациях цитируют друг друга с куда большей частотой, нежели российские) [1]. Но можно согласиться с Хиршем в том, что h-индекс, равный 10-12, может служить одним из определяющих факторов для решения о предоставлении исследователю в данной отрасли науки постоянной позиции в крупном исследовательском университете или ином солидном научном учреждении. Уровень исследователя-физика с h-индексом в диапазоне 15-20, по мнению Хирша, соответствует членству в American physical society, с h-индексом 45 и выше - членству в National academy of sciences of USA. Насколько это соответствует действительному положению дел, судить не беремся: тут Хиршу, что называется,

виднее. Заметим в связи с этим, что, согласно сведениям из баз данных SPIRES и ISI Web of science, h-индекс 45 и более во всем мире имеют лишь 55 физиков, из которых 22 работают в области элементарных частиц и высоких энергий и 33 - в других разделах данной науки. Кстати, сам Хирш - в их числе: у него h = 49. Чуть меньше у «нашего» лауреата Нобелевской премии А. Абрикосова - 48. Ну а у возглавляющего этот список Э. Виттена h = 108. Помимо него трехзначное число h-индекса имеют еще лишь двое физиков. Среди химиков, насколько известно, таковых нет. А вот среди биологов их минимум три десятка, причем у лидера - С. Снайдера -h-индекс имеет фантастическое значение - 191. И если эта цифра верна, то получается, что на работы этого исследователя ссылались как минимум 40 тыс. раз.

Как бы то ни было, по замыслу творца h-индекса данный параметр призван дать более адекватную оценку научной продуктивности исследователя, чем это могут сделать такие простые характеристики, как общее число публикаций или общее число цитирований. Посмотрим теперь, насколько это соответствует действительности.

Как нетрудно заметить, при общем числе ссылок n максимально возможное значение h-индекса составляет n12. Соответственно, при заданном h-индексе минимальное число ссылок (n^) на работы исследователя должно быть равным h2. С учетом этого следует, что между h-индексом исследователя и общим числом ссылок на его работы имеет место примерно такая же взаимосвязь, какая заложена в утверждении «чем человек выше, тем он сильнее». В среднестатистическом плане это, конечно, верно, однако оценка силы конкретных людей исходя из данных об их росте нередко приводит к ошибочным заключениям.

Уже сам Хирш вынужден был констатировать, что данный параметр хорошо «работает» лишь при сравнении научных достижений исследователей, работающих в одной и той же области научного знания, поскольку традиции и нормативы, связанные с цитированием, в различных отраслях науки разнятся весьма сильно. И действительно, уровни цитирования, скажем, в биологии и медицине, а следовательно, и среднестатистические значения h-ин-дексов исследователей в этих областях существенно выше, чем в физике, а в химии - существенно ниже. Еще ниже оказываются среднестатистические значения h-индексов исследователей, работающих в так называемых «технических» и гуманитарных науках и тем более - в математике, где и по сей день цитирование не в

почете. Но если по общей цитируемости сопоставлять исследователей разных отраслей науки хоть и трудно, но все-таки возможно [1, 2], то вот как сравнивать их по И-индексам - не очень понятно.

Относительно недавно испанскими специалистами в области наукометрии - Х. Иглесиасом и К. Печарроманом - в статье, опубликованной в журнале «8с1еп1оте1;пс8» [5], была предпринята попытка такого сопоставления. Статистические данные этого исследования, относящиеся к различным отраслям знания, представлены на рис. 1. За своеобразную точку опоры были взяты И-индексы в физике. На рисунке отчетливо видно, что абсолютные значения И-индекса для различных областей знания достаточно сильно различаются как для различных областей знания, так и во времени. Тем не менее в первом приближении можно утверждать, что значение И = 20 в физике примерно соответствует И = 10 в математике и И = 40 в иммунологии, молекулярной биологии и генетике. Все остальные области знания находятся между этими крайними значениями.

Рис. 1. Коэффициенты соответствия между И-индексами для различных областей знания относительно физики в разные периоды времени [5]

Имеются не один и не два случая, когда h-индекс дает весьма искаженную (если вообще не совершенно ошибочную) оценку значимости исследователя. Наиболее часто встречающаяся ситуация такого рода - это короткая карьера ученого и соответственно малое количество опубликованных им работ, несмотря даже на высочайшую их цитируемость как при его жизни, так и после его кончины. Из самого определения h-индекса, как уже отмечалось выше, следует, что он не может быть больше общего числа опубликованных тем или иным исследователем работ. А потому h-ин-декс убитого совсем молодым на дуэли выдающегося французского математика Э. Галуа, являющегося одним из основателей современной теории алгебраических уравнений, но успевшего опубликовать всего лишь две статьи, составляет всего лишь два и таковым будет всегда, сколь бы часто на его работы ни ссылались в будущем.

Если бы один из величайших физиков всех времен и народов А. Эйнштейн вдруг ушел бы в мир иной в начале 1906 г., его h-ин-декс остановился бы на цифре пять, несмотря на чрезвычайно высокую значимость тех самых пяти статей по интерпретации явления фотоэффекта, которые он опубликовал в 1905 г. Заметим в связи с этим, что, согласно имеющимся в базе данных SPIRES сведениям, h-индекс для таких величайших физиков первой половины XX в., как Поль Дирак и Ричард Фейнман, в 2005 г. составлял 19 и 23 соответственно. Цифры немалые, но, однако, и не настолько значительные, чтобы поразить воображение: как уже указывалось выше, для наиболее цитируемых современных физиков h-индекс переваливает за 100. Хотя фигур «калибра» П. Дирака и Р. Фейнмана среди них сейчас, пожалуй, все-таки нет.

Мы привели случаи занижения реальной значимости работ исследователя, однако есть и примеры их завышения. Так, у Т.Д. Лысенко, классиков марксизма-ленинизма и разного рода «вождей народов» типа Ленина, Сталина, Мао Цзэдуна h-индексы имеют значения, измеряемые если не сотнями, то уж как минимум многими десятками единиц. Тем не менее из этого отнюдь еще не следует, что вклад каждого из этих деятелей в какую бы то ни было отрасль науки многократно превосходит вклад среднестатистического исследователя.

Немаловажно и вот какое обстоятельство: h-индекс позволяет получить определенные представления о цитируемости отдельно взятого исследователя, но не исследовательского коллектива. Если при оценке деятельности исследовательского коллектива можно просто суммировать все сделанные ссылки на работы каждого из

членов этого коллектива (хотя тут и возникает такая деликатная проблема, как взаимная самоцитируемость), то h-индексы отдельных лиц складывать друг с другом, конечно же, нельзя: эти параметры - величины неаддитивные. И наконец, нечего и говорить о том, что по этому индексу совершенно невозможно определить, на каких позициях находится конкретный исследователь в данной конкретной работе, - они одинаковы, независимо от того, кто стоит первым, а кто вторым.

Выше мы упоминали о том, что у разных исследователей при одном и том же числе статей и ссылок на них h-индексы могут отличаться друг от друга, причем в ряде случаев весьма существенно. Но тогда неизбежен вопрос о том, что лучше иметь исследователю - 100 статей, но лишь одну-единственную, на которую сослались 100 раз, а на остальные - ни разу (h = 1), 100 статей, на каждую из которых сделано лишь по одной ссылке (h = 1), 100 статей, 10 из которых процитировали по 10 раз, остальные -ни разу (h = 10), или же 100 статей, из коих 5 процитированы по 8 раз, 7 - по 4, 4 - по 3, 10 - по 2 раза, а остальные цитирования не удостоились (h = 5). Однозначного ответа на этот вопрос у авторов данной статьи нет. У научного сообщества, насколько известно, -тоже. Да и можно ли его вообще дать в данном случае? Так что, несмотря на бесспорную оригинальность и простоту h-индекса (т.е. индекса Хирша в узком смысле слова), после всего сказанного очевидно, что он ни в коем случае не должен рассматриваться в качестве основного критерия не только для оценки научной деятельности в целом, но даже и в качестве критерия оценки цити-руемости работ исследователя. Однако не следует вдаваться и в другую крайность и вообще «списывать со счетов» этот показатель -вне сомнения, он по-своему полезен при оценке цитируемости.

Рассмотренный выше параметр - пожалуй, наиболее простой, но отнюдь не единственный из числа подпадающих под понятие «индекс Хирша» (которое, как уже указывалось выше, является собирательным) - существует целый ряд его модификаций. Впрочем, имел ли сам Х. Хирш какое-либо отношение к их созданию, неясно. Эти модификации стремятся как-то учесть (и в случае чего «отсеять») самоцитируемость, временные факторы, придать больший вес статьям с высокой цитируемостью, ранжировать обзоры, оригинальные статьи и краткие сообщения. В недавно появившейся работе [6] выделено шесть параметров научной продуктивности: общее число публикаций N; число публикаций с ненулевой цитируемостью Ni; h-индекс; w-индекс; ^-индекс; hi-индекс.

Первые два вполне понятны и в комментариях не нуждаются, о третьем мы уже достаточно много сказали выше, а вот еще на двух из последних трех следует остановиться подробнее. Согласно данным этой работы w-индекс определяется исходя из условия: 10 w<c но с (^+1)<10 ^+1), где с - цитируемость статьи с номером w (статьи упорядочены по цитируемости, номер 1 имеет самая цитируемая). Самое низкое значение отличное от нуля (значение w = 1) означает, что исследователь имеет одну статью с цитируемостью выше 10, но цитируемость второй и любой последующей его статьи менее 20. Значение w = 4 означает, что исследователь имеет 4 статьи с цитируемостью выше 40, но пятая уже имеет менее 50.

И2-индекс определяется как И22<с (И2), но с (И2+1)<(И2+1)2. Это, в частности, означает, что если у исследователя И2 = 4, то у него четыре статьи с цитируемостью выше 16, но пятая имеет цитируемость менее 25. Как можно видеть, w-индекс и И2-индекс придают больший «вес» статьям с высокой цитируемостью (выделяя, образно выражаясь, более компактное «ядро» в наборе публикаций исследователя), нежели «простой» И-индекс. При этом у большого числа исследователей с различными И-индексами w- и И2-индекс совпадают. Более подробно эти «индексы Хирша» обсуждены в статье [3]. Еще одним параметром научной продуктивности может стать суммарное число публикаций исследователя N11, число ссылок на которые п>^/2, т.е. большее, чем его личный И-индекс.

Настоящая статья подготовлена при финансовой поддержке Российского фонда фундаментальных исследований (грант № 1006-00056).

Литература

1. Маркусова В.А. Цитируемость российских публикаций в мировой научной литературе // Вестник РАН. - М., 2003. - Т. 73, № 4. - С. 291-298.

2. Михайлов О.В. Критерии объективной оценки качества научной деятельности. // Науковедческие исследования, 2010 / РАН. ИНИОН. Центр научн.-информ. исслед. по науке, образованию и технологиям; Отв. ред. А.И. Ракитов. - М., 2010. - С. 75-90.

3. Попов С. Как улучшить индекс Хирша? // Троицкий вариант. - М., 2010. -№ 56. - С. 3.

4. Hirsch J.E. An index to quantify an individual's scientific research output. - Mode of access: http://www.pnas.org/content/102/46/16569.full.pdf

5. Iglesias J.E., Pecharroman C. Scaling the h-index for different scientific ISI fields // Scientometrics. - Frankfurt: Springer Verlag, 2007. - Vol. 73, N 2. - P. 303-320.

6. Schreiber M. Twenty Hirsch index variants and other indicators giving more or less preference to highly cited papers. - Mode of access: http://arxiv.org/ftp/arxiv/papers/ 1005/1005.5227.pdf

i Надоели баннеры? Вы всегда можете отключить рекламу.