УДК 001.92
В. В. Сапожников, д-р техн. наук Вл. В. Сапожников, д-р техн. наук
Кафедра «Автоматика и телемеханика на железных дорогах» Петербургский государственный университет путей сообщения Императора Александра I, Санкт-Петербург
Д. В. Ефанов, д-р техн. наук
ООО «ЛокоТех-Сигнал»
Кафедра «Автоматика, телемеханика и связь на железнодорожном транспорте» Российский университет транспорта, Москва
НОВЫЙ ПОДХОД К РАСЧЕТУ ПОКАЗАТЕЛЕЙ ДЕЯТЕЛЬНОСТИ УЧЕНЫХ
Предложен новый индекс оценки работы ученого, максимально полно учитывающий количество цитирований всех его работ. Новый показатель деятельности ученых, так же как индекс Хирша, выражается в виде единственного числа, имеет простой алгоритм подсчета и понятную геометрическую интерпретацию. Приведены примеры подсчета нового показателя, обозначены некоторые его особенности.
оценка деятельности ученого, наукометрический показатель, индекс цитирования, индекс Хирша.
DOI: 10.20295/2412-9186-2019-5-4-505-514
Введение
При управлении научно-исследовательской деятельностью во всем мире принято использовать различные системы показателей, ориентированные так или иначе на количественную оценку вклада того или иного ученого в определенную область науки. Такой подход стал возможен благодаря развитию вычислительной техники и компьютерных технологий, совершенствованию интернета и созданию электронных баз данных, учитывающих результаты научной деятельности. Показатели оценки стараются использовать на всех этапах процесса управления научно-исследовательской деятельностью - как на этапах организации и планирования, так и на этапах стимулирования ученых и контроля их работы [1].
В Российской Федерации при оценке деятельности ученых широко применяют данные из таких наукометрических баз, как Web of Science (USA), Scopus (EU) и РИНЦ (РФ). При этом в качестве наиболее важных показателей в каждой из приведенных выше баз данных выбираются одни и те же, а именно: число опубликованных работ (q), общее число цитирований всех работ (N), индексы цитирования и важности публикаций. К по-
следним относятся различные вычисляемые показатели, наиболее известным из которых является индекс Хирша (к-индекс), введенный в рассмотрение в 2005 году [2]. Ученый имеет к-индекс, равный к, в том случае, если к его работ процитированы не менее чем к раз, а остальные д-к работ цитируются не более чем к раз. Такой показатель имеет свои достоинства и свои недостатки, что отмечено в оригинальной статье Х. Хирша. Например, к-индекс учитывает число наиболее важных работ ученого, но никак не учитывает число цитирований за пределом величины к: если работа из числа публикаций, по которым определен к-индекс, цитируется большее количество раз или любое цитирование д-к публикаций с меньшим, чем к, числом цитирований. Несмотря на это к-индекс в настоящее время стал привычным и наиболее часто используется при оценке результатов научной деятельности.
Известно большое число модификаций индекса Хирша и других наукометрических показателей, ориентированных на получение более точной оценки качественных и количественных составляющих работы ученых, уточняющих или модернизирующих ранее использовавшиеся показатели. Большинство из них в той или иной мере копируют идею Х. Хирша или направлены на уточнение относительных показателей деятельности ученого [3, 4].
Данная статья посвящена описанию нового наукометрического показателя, который позволяет комплексно учитывать все цитирования всех публикаций ученого из имеющихся в базе данных. При этом новый показатель, обозначенный как ^-индекс, так же как и к-индекс, является одним числом, однако более полно характеризующим вклад автора в развитие науки в соответствующей предметной области.
1. Новый наукометрический показатель
Индекс Хирша получил широкое распространение, по всей видимости, благодаря простоте вычисления и доступности его интерпретации. На рис. 1 изображено графическое представление к-индекса: на оси абсцисс расположены публикации, ранжированные по числу цитирований в невоз-растающем порядке (д), а на оси ординат - число цитирований каждой публикации (N1) [2]. Из геометрической интерпретации следует, что из N цитирований всех р работ некоторого автора индекс Хирша учитывает только к2 цитирований первых к работ. На рис. 1 эти работы и их цитирования образуют квадрат Хирша с длиной стороны, равной к.
Графическая форма к-индекса наглядно показывает его недостатки -не учитывается ^к2 цитирований всех работ, цитирования которых попадают в две области: О (над квадратом Хирша) и Р (справа от квадрата Хирша).
Какой-либо иной индекс, отражающий деятельность некоторого автора, по нашему мнению, должен отвечать следующим критериям:
1) правильно отражать значимость всех работ;
2) учитывать всё множество цитируемых работ;
3) иметь понятный физический смысл;
4) быть простым, т. е. представлять собой некоторое число, характеризующее работу автора.
Индекс w, отвечающий представленным критериям, может быть получен по следующему алгоритму.
1. Производится ранжирование работ автора в порядке невозрастания числа их цитирований.
2. Полагается г = 1, w = 0.
3. Формируется множество работ ученого.
4. По публикациям ученого из имеющегося множества определяется И-индекс и выделяется Иг = И первых в списке работ с числом цитирований, равным И.
5. Подсчитывается общее число цитирований Иг первых работ = И1 + Ог (здесь Иг и Ог - число цитирований Иг работ, попадающих в г-й
квадрат Хирша, и число цитирований работ, попадающих в область над г-м квадратом Хирша):
S, = , (1)
t=1
где ? - каждая конкретная работа из рассматриваемых.
6. Полученное число делится на количество цитируемых работ:
7. Определяется число:
S
^ = f. (2) h
w = w + w,. (3)
8. Первые кг работ автора исключаются из множества его работ, и формируется множество оставшихся работ.
9. Полагается г = г + 1.
10. Проверяется условие кг = 0? Если да, то подсчет числа окончен, если нет, то осуществляется переход к выполнению п. 4.
11. Конец алгоритма.
Процедура вычисления ^-индекса может быть выражена формулой:
к к? + О, Л нг + О, Л
"=1-^. (4)
1=1 г г=1 Vн г г=1
В формуле (4) число к определяет количество итераций подсчета суммы до тех пор, пока кг Ф 0.
Алгоритм подсчета ^-индекса может быть проиллюстрирован геометрической интерпретацией (рис. 2). По оси абсцисс отложены ранжированные по числу цитирований (Щ все публикации автора (дг). На каждом этапе итерации при работе алгоритма подсчета ^-индекса осуществляется усреднение числа цитирований первых кг публикаций.
Число Н1 представляет собой к1-индекс автора, полученный при рассмотрении первой итерации алгоритма. Число н2 представляет собой к2-индекс автора, полученный во второй итерации алгоритма, и т. д.
2. Вычисление нового наукометрического показателя и его особенности
Приведем пример подсчета ^-индекса. Предположим, что статистические показатели некоторого ученого задаются таблицей 1.
На первом этапе определяется к1= к первых работ из полного множества работ ученого, по которым подсчитывается к-индекс. Из данных таблицы 1 это первые восемь его работ. Определим число цитирований к1 работ:
Б = 28 + 25 + 23 +17 +16 +16 +10 + 8 = 143. По формуле (2) определяем число Wl:
_ 143
ш
К 8
_ 17,875.
Удаляем из множества всех работ К = 8 первых по цитированию и образуем таблицу 2.
Нз Н4 Н5 Нб Н7 Н8 Н9 Н10Н11
Рис. 2. Геометрическое представление ш-индекса
Таблица 1. Исходные данные к расчету
Номера работ в ранжи рованном списке
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Число цитирований каждой работы
28 25 23 17 16 16 10 8 8 8 7 7 7 7 6
Номера работ в ранжи рованном списке
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Число цитирований каждой работы
5 5 4 3 3 3 2 2 2 2 1 1 1 0 0
Определяем к2 = к первых работ из полученного подмножества работ ученого, по которым подсчитывается к-индекс. Из данных таблицы 2 это первые шесть его работ. Определим число цитирований к2 работ:
£2 = 8 + 8 + 7 + 7 + 7 + 7 = 44.
Таблица 2. Ранжированные работы ученого после первой итерации работы алгоритма
Номера работ в ранжированном списке
1 2 3 4 5 6 7 8 9 10 11
Число цитирований каждой работы
8 8 7 7 7 7 6 5 5 4 3
Номера работ в ранжированном списке
12 13 14 15 16 17 18 19 20 21 22
Число цитирований каждой работы
3 3 2 2 2 2 1 1 1 0 0
По формуле (2) определяем число ^2:
^ 44 7 = —= — = 7,333.
к2 6
Удаляем из рассматриваемого подмножества работ к2 = 6 первых по цитированию и образуем таблицу 3.
Таблица 3. Ранжированные работы ученого после второй итерации работы алгоритма
Номера работ в ранжированном списке
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Число цитирований каждой работы
6 5 5 4 3 3 3 2 2 2 2 1 1 1 0 0
Вновь определяем те работы, которые образуют квадрат Хирша: к3 = к первых работ из полученного подмножества работ ученого. Из таблицы 3 это первые четыре его работы. Число цитирований к3 работ
S3 = 6 + 5 + 5 + 4 = 20,
значит
S3 20 , w3 = —= — = 5.
3 h 4
Удаляем из рассматриваемого подмножества работ Из = 4 первых по цитированию и образуем очередную таблицу (табл. 4). Из табл. 4 следует, что И4 = 3, £4 = 9 и ^4 = 3.
Дальнейшие шаги работы алгоритма приводят к тому, что таблица становится еще более простой. Далее их приводить не будем, а выпишем ряд получаемых величин:
И5 = 2, £5 = 4 и W5 = 2; Иб = 2, £б = 4 и W6 = 2; И7 = 1, £7 = 1 и W7 = 1; И8 = 1, £8 = 1 и W8 = 1; И9 = 1, £9 = 1 и W9 = 1.
Таблица 4. Ранжированные работы ученого после третьей итерации работы алгоритма
Номера работ в ранжированном списке
1 2 3 4 5 6 7 8 9 10 11 12
Число цитирований каждой работы
3 3 3 2 2 2 2 1 1 1 0 0
Конечное значение w-индекса определяется как сумма промежуточных (см. формулу (4)):
k
w
i=1
= Ywi = 17,875 + 7,333 + 5 + 3 + 2 + 2 +1 +1 +1 = 40,208.
Таким образом, w-индекс учел все 227 цитирований ученого, тогда как h-индекс учел только 64 ссылки на его работы.
Из рис. 2 наглядно следует, что h-индекс никак не учитывает область цитирований над квадратом Хирша (область Gi), а также все цитирования q-hi работ автора.
Приведем здесь два примера, иллюстрирующих возможности учета при вычислении w-индекса числа цитирований из областей G и P.
Первый пример показывает, как w-индекс учитывает число цитирований из области G. Предположим, что некоторый ученый опубликовал за всю научную деятельность 5 работ, каждая из которых процитирована по 100 раз. В этом случае h-индекс этого ученого будет равен 5. При этом учтено будет 25 цитирований из 500. Рассчитаем w-индекс:
25 + 475 w =-= 100.
Таким образом, w-индекс показывает среднее число цитирований по отношению к числу публикаций. В данном случае этот показатель равен отношению числа цитирований (Ы) к числу опубликованных работ (д). Од-
нако для авторов с большим числом публикаций, не цитируемых как минимум к раз, этот коэффициент дает более точную оценку.
Приведем второй пример, иллюстрирующий влияние числа цитирований из области Р на показатель деятельности ученого. Предположим, что автор опубликовал 20 научных работ, каждая из которых процитирована по 10 раз. В этом случае к-индекс ученого будет равен 10. Будут учтены 100 ссылок на его работы из 200. Рассчитаем ^-индекс:
100 100 20
W = W1 + w2 =--1--= 20.
1 2 10 10
В данном случае оценка, по нашему мнению, является более точной, так как охватывает область неучтенных при расчете к-индекса работ и их цитирований.
Заключение
Предложенный в настоящей работе w-индекс является простым и понятным и более точно в сравнении с к-индексом отражает «картину» деятельности ученых.
Так же как индекс Хирша, новый индекс сохраняет недостаток, связанный с необходимостью дополнительного учета самоцитируемых работ и не решает проблемы искусственного увеличения показателей («накрутки»). Тем не менее процедура «накрутки» гораздо меньше влияет на значение w-индекса, чем на значение к-индекса. Следует отметить еще один недостаток w-индекса, заключающийся в том, что при его подсчете на каждом этапе итерации осуществляется различное усреднение показателей цитиру-емости работ. Число цитирований работ из правой области цитируемости (см. рис. 1) может дать существенный вклад в значение w-индекса (являться более весомым, чем число цитирований первых к работ, не учтенных при подсчете индекса Хирша). По-видимому, возможны модификации w-индекса, учитывающие эту особенность. Например, может быть предложен w '-индекс, рассчитываемый не для всех цитируемых работ, а только для тех работ, которые процитированы не менее двух раз (или для работ, процитированных не менее £ раз), или же w"-индекс, рассчитываемый путем ограничения числа шагов итерации по предложенному алгоритму.
Несмотря на недостатки, w-индекс, в отличие от индекса Хирша, позволяет учесть проблему высокой цитируемости авторов с малым количеством работ, а также авторов с большим количеством малоцитируемых работ и, по нашему мнению, более точно отражает вклад ученого в развитие его предметной области наук.
Библиографический список
1. Новиков Д. А. Методология управления. - М. : Либроком, 2011. - 128 с.
2. Hirsch J. E. An Index to Quantify an Individual's Scientific Research Output // Proceedings of National Academy of Sciences of the USA. - 2005. - Vol. 102. - Issue 46. -Pp. 569-572. - doi.org/10.1073/pnas.0507655102.
3. Цыганов А. В. Краткое описание наукометрических показателей, основанных на цитируемости // Управление большими системами. - 2013. - № 44. - С. 248-261.
4. Штовба С. Д. Обзор наукометрических показателей для оценки публикационной деятельности ученого / С. Д. Штовба, Е. В. Штовба // Управление большими системами. - 2013. - № 44. - С. 262-278.
Valery V. Sapozhnikov Vladimir V. Sapozhnikov «Automation and Remote Control on Railways» department Emperor Alexander I St. Petersburg State Transport University, St. Petersburg
Dmitry V. Efanov "LocoTech-Signal" LLC, «Automation, Remote Control and Communication on Railway Transport» Russian University of Transport, Moscow
The new approach for the scientists research index
The article proposes a new index for evaluating the scientist work, which fully takes into account the number of citations of all his works. Like the h-index a new index expressed as a single number. The index has a simple calculation algorithm and a clear geometric interpretation. Examples of calculating a new indicator are given and some features are indicated.
scientist performance assessment; author-level metrics; citation index; H-index. References
1. Novikov D. A. (2011) Management methodology [Metodologiya upravleniya], Moscow, Librokom, 2011. - 128 p.
2. Hirsch J. E. (2005) An Index to Quantify an Individual's Scientific Research Output // Proceedings of National Academy of Sciences of the USA. - 2005. - Vol. 102. - Issue 46. - Pp. 569-572. - doi.org/10.1073/pnas.0507655102.
3. Tsyganov A. V. (2013) Brief rewiev of main scientometric indices based on citations [Kratkoe opisanie naukometricheskih pokazatelej, osnovannyh na citiruemosti], Large-Scale Systems Control [Upravlenie bol'shimi sistemami], 2013, Issue 44. -Pp. 248-261.
4. Shtovba S. D., Shtovba E. V. (2013) A survey on scientometric indicators for assessment of researcher's publication activity [Obzor naukometricheskih pokazatelej dlya ocenki publi-kacionnoj deyatel'nosti uchenogo], Large-Scale Systems Control [Upravlenie bol'shimi sistemami], 2013, Issue 44. - Pp. 262-278.
Статья представлена к публикации членом редколлегии Х. Христовым. Поступила в редакцию 02.09.2019, принята к публикации 17.09.2019.
САПОЖНИКОВ Валерий Владимирович - д-р техн. наук, профессор кафедры «Автоматика и телемеханика на железных дорогах» Петербургского государственного университета путей сообщения Императора Александра I. e-mail: [email protected]
САПОЖНИКОВ Владимир Владимирович - д-р техн. наук, профессор кафедры «Автоматика и телемеханика на железных дорогах» Петербургского государственного университета путей сообщения Императора Александра I. e-mail: [email protected]
ЕФАНОВ Дмитрий Викторович - д-р техн. наук, доцент, руководитель направления систем мониторинга и диагностики ООО «ЛокоТех-Сигнал», профессор кафедры «Автоматика, телемеханика и связь на железнодорожном транспорте» Российского университета транспорта. e-mail: [email protected]
© Сапожников Вал. В., Сапожников В. В., Ефанов Д. В., 2019