Научная статья на тему '2019. 01. 027. Борнманн Л. , е А. И. , е Ф. И. Обнаружение "горячих статей" и статей с "запоздалым признанием" в больших массивах данных с помощью динамически нормализованных показателей воздействия. Bornmann L. , Ye A. Y. , Ye F. Y. identifying "hot papers" and papers with "delayed recognition" in large-scale datasets by using dynamically normalized citation impact scores // Scientometrics. - 2018. - Vol. 116, n 2. - p. 655-674. - Mode of access: https://doi. Org/ 10. 1007/s11192-018-2772-0'

2019. 01. 027. Борнманн Л. , е А. И. , е Ф. И. Обнаружение "горячих статей" и статей с "запоздалым признанием" в больших массивах данных с помощью динамически нормализованных показателей воздействия. Bornmann L. , Ye A. Y. , Ye F. Y. identifying "hot papers" and papers with "delayed recognition" in large-scale datasets by using dynamically normalized citation impact scores // Scientometrics. - 2018. - Vol. 116, n 2. - p. 655-674. - Mode of access: https://doi. Org/ 10. 1007/s11192-018-2772-0 Текст научной статьи по специальности «Науки о Земле и смежные экологические науки»

CC BY
45
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
"ГОРЯЧАЯ СТАТЬЯ" / СТАТЬЯ "С ОТЛОЖЕННЫМ ПРИЗНАНИЕМ" / НОРМИРОВАННОЕ ПО ПОЛЮ ВОЗДЕЙСТВИЕ В БАЛЛАХ
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по наукам о Земле и смежным экологическим наукам , автор научной работы — Егерев С.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2019. 01. 027. Борнманн Л. , е А. И. , е Ф. И. Обнаружение "горячих статей" и статей с "запоздалым признанием" в больших массивах данных с помощью динамически нормализованных показателей воздействия. Bornmann L. , Ye A. Y. , Ye F. Y. identifying "hot papers" and papers with "delayed recognition" in large-scale datasets by using dynamically normalized citation impact scores // Scientometrics. - 2018. - Vol. 116, n 2. - p. 655-674. - Mode of access: https://doi. Org/ 10. 1007/s11192-018-2772-0»

НАУКОМЕТРИЯ И БИБЛИОМЕТРИЯ

2019.01.027. БОРНМАНН Л., Е А.И., Е Ф.И. ОБНАРУЖЕНИЕ «ГОРЯЧИХ СТАТЕЙ» И СТАТЕЙ С «ЗАПОЗДАЛЫМ ПРИЗНАНИЕМ» В БОЛЬШИХ МАССИВАХ ДАННЫХ С ПОМОЩЬЮ ДИНАМИЧЕСКИ НОРМАЛИЗОВАННЫХ ПОКАЗАТЕЛЕЙ ВОЗДЕЙСТВИЯ.

BORNMANN L., YE A.Y., YE F.Y. Identifying «hot papers» and papers with «delayed recognition» in large-scale datasets by using dynamically normalized citation impact scores // Scientometrics. -2018. - Vol. 116, N 2. - P. 655-674. - Mode of access: https://doi.org/ 10.1007/s11192-018-2772-0

Ключевые слова: «горячая статья»; статья «с отложенным признанием»; нормированное по полю воздействие в баллах.

«Горячие статьи» (hot papers - HP) - это статьи, вызвавшие «взрывное» цитирование вскоре после публикации; статьи «с отложенным признанием» (delayed recognition - DR) после опубликования почти не пользуются признанием в течение определенного периода времени, предшествующего запаздывающему росту цитируемости. Статьи типа DR привлекают большое внимание в наукометрии и других областях анализа науки, поскольку оказалось, что исследователи широко публикуют результаты, которые опережают свое время.

Авторы статьи - сотрудники германского и китайских научных центров - выявляют признаки, по которым можно предсказать судьбу статьи: будет ли это HP-статья, DR-статья или обычная среднестатистическая статья. Авторы провели ретроспективный анализ массива данных, содержащего более 5 млн статей, опубликованных в период между 1980 и 1990 гг. В отличие от предыдущих исследований по проблеме DR-статей, основанных на первичных подсчетах цитирования, в этом исследовании для

идентификации авторы использовали динамически нормированные по полю показатели цитирования в баллах. Применительно к НР-статьям авторы показали, что статьи с быстрым признанием также быстро и забываются.

Для оценки продуктивности исследователей, научных групп и научных учреждений обычно используются различные наукометрические показатели, в особенности баллы цитирования. Часто возникающая проблема при этом заключается в том, что оценки, как правило, фокусируются на самых свежих показателях оцениваемого подразделения (например, за последние три года). Однако «подлинное» воздействие публикации (особенно в ряде дисциплин) может быть определено только спустя длительный период времени. Так, для анализа медико-биологических исследований и междисциплинарных научных направлений трехлетнее временное окно является достаточным, в то время как для анализа трендов гуманитарных наук и математики требуется семилетний интервал1.

Таким образом, требуется длительный период времени для реализации потенциала наукометрии, во время которого и выявляются выдающиеся статьи, исследователи, научные группы и институты. Поэтому в последние годы некоторые наукометрические исследования обратились к подгруппе публикаций с явно выраженным «отложенным признанием».

Публикации относят к БЯ-типу, если они в течение первых нескольких лет (например, в течение десяти лет) получают единичные ссылки, а после этого периода забвения начинается «взрывное» цитирование. В качестве примера В. Маркс2 приводит динамику цитируемости одной из статей У.Б. Шокли и Х.-Й. Кис-сера3. После нескольких лет забвения статья стала высокоцити-руемой в области физики твердого тела.

1 Wang J. Citation time window choice for research impact evaluation // Scien-tometrics. - 2013. - Vol. 94, N 3. - P. 851-872. - Mode of access: https://doi.org/ 10.1007/s11192-012-0775-9

2 Marx W. The Shockley-Queisser paper - a notable example of a scientific sleeping beauty // Annalen der Physik. - 2014. - Vol. 526, N 5/6. - P. A41-A45. -Mode of access: https://doi.org/10.1002/andp.201400806

3 Shockley W., Queisser H.-J. Detailed balance limit of efficiency of P-N junction solar cells // Journal of applied physics. - 1961. - Vol. 32, N 3. - P. 510. - Mode of access: https://doi.org/10.1063/L1736034

Авторы реферируемой статьи вводят показатель динамически нормированного цитирования (dynamically normalized citation impact scores - DNIC), который представляют нормированные по тематическому полю баллы оценивания, основанные на кодах научных направлений, принятых в ОЭСР. Индексы цитирования должны быть нормированы с учетом года публикации и категории научного направления цитируемой статьи. Авторами дается вывод выражения для динамически нормированного воздействия цитирования (dynamically normalized impact of citations - DNIC). Распределение параметра DNIC для многих статей изменяется из года в год.

При нормировании воздействия статей с помощью показателя DNIC авторы устанавливают правила определения статей обоих типов. На с. 6 приведена таблица, содержащая критерии использования DNIC для выявления статей HP- и DR-типа из общего массива статей. Показатель DNIC обозначает, где расположен пик цитирования - в начале выбранного временного окна или в конце окна с точностью ± два года. Авторы работают с массивом данных на отрезке времени 36 лет (1980-2015), что позволяет динамично сравнивать цитируемость. Авторы также используют окно 16 лет как промежуток времени цитирований каждой публикации. Например, окно 1980-1995 гг. используется для анализа статей 1980 г., окно 1981-1996 гг. - для статей 1981 г. Вычисленные баллы DNIC для каждой статьи охватывают период от момента ее опубликования до конца 2015 г. Используя вышеописанные методы, авторы нашли число HP-статей и DR-статей в общем массиве (см. табл. 2 на с. 660).

Статьи обоих типов определялись с помощью нормированных по полю показателей воздействия в пределах одного дисциплинарного поля, однако многие статьи относятся к более чем одной области исследований. Таким образом, очевидна вероятность того, что и HP-статьи, и DR-статьи будут иметь дубликаты. Соответственно, авторы удалили 191 дубликат из массива 2636 DR- и HP-статей (147 статей попались дважды и 33 статьи - 3 раза) (с. 660).

Были выявлены явные различия в профилях цитирования HP- и DR-статей (рис. 2, с. 661). Авторы сравнивают эти профили с цитированием, которые получает среднестатистическая обычная

работа. В этих целях они использовали случайную выборку из собственной базы объемом 323 статьи. С помощью метода случайной выборки из общего массива были отобраны статьи, соответствующие десяти исследовательским категориям базы Web of science (WoS), которым отвечает наибольшее число статей обоих типов. Общий объем массива (N = 1 198 843) содержит статьи, опубликованные с 1980 по 1990 г. Объем случайной выборки (n = 323 статьи) был определен путем степенного анализа (с. 660).

Для того чтобы иметь три группы статей с более или менее сбалансированным набором реализаций, авторы сделали случайную выборку из 323 документов из массива 2130 HP-статей и такую же выборку - из массива DR-статей. Таким образом, окончательный набор данных (n = 961) состоит из 323 HP-статей, 315 DR-статей и 323 статей из среднестатистической выборки. Изучение журналов, в которых публиковались статьи первых двух типов, показало, что некоторые журналы (например, «Physical Review Letters» и PNAS) публикуют гораздо больше «горячих» статей, чем другие журналы (с. 661).

Далее авторы определяли, совпадают ли средние показатели (например, среднее количество авторов или страниц) в этих трех группах. Они также выполнили дисперсионный анализ для выявления значимости расхождения показателей трех групп публикаций, предположив справедливость трех условий: 1) данные не зависят друг от друга; 2) распределение данных является нормальным; 3) стандартное отклонение данных одинаково для всех трех групп (НР-, DR-статьи и статьи из общей выборки).

Были также учтены факторы, оказывающие влияние на индексы цитирования (factors with an influence on citation counts -FIC). В последние годы были определены различные факторы, которые могут повлиять на количество цитирований публикации. Хотя эти факторы всего лишь коррелируют с цитируемостью, а причинной связи не прослеживается, как правило, они трактуются как FIC. Например, показатель импакт-фактора журнала (Journal Impact Factor - JIF) может рассматриваться в качестве FIC, но высокие индексы цитирования для статей, опубликованных в журналах с высоким импакт-фактором, могут быть также и результатом хорошего качества статей.

В последние годы были опубликованы несколько исследований, изучающих связь количества страниц статьи и числа ее цитирований в различных дисциплинах. Так, К. Станек1 обнаружил, что объем статьей, опубликованных в астрономических журналах, связан с числом цитирований. Аналогичные результаты были также получены некоторыми авторами для различных других дисциплин. Возможной причиной такой корреляции является тот факт, что более длинная статья содержит больше «фактуры» для цитирования.

Аналогично число пристатейных ссылок может быть связано с числом цитирований статьи. Это соотношение справедливо для целого ряда научных областей, например в журналах по психологии использование длины списка пристатейных ссылок позволяет прогнозировать будущую цитируемость статьи лучше, чем им-пакт-фактор журнала.

Обычно импакт-фактор рассматривается как FIC с наибольшей предсказательной силой. В работе Г. Уэбстера с соавторами2 приводятся следующие причины такой корреляции. Во-первых, обзорные статьи, как правило, имеют большой пристатейный список ссылок и при этом цитируются чаще, чем типичные эмпирические статьи. Во-вторых, следует учитывать, что ученые - тоже люди с присущими им слабостями. Они часто впадают во взаимный альтруизм, выражающийся в появлении перекрестных ссылок. Чем больше коллег ученый упоминает в своей статье, тем больше шансов, что они сошлются на статью, в которой их упоминают. В-третьих, срабатывает «эффект Матфея»: изначально высокоцитируе-мые издания имеют хорошие условия для дальнейшего роста цитируемости.

Для иллюстрации результатов, показывающих связь журналов и цитируемости, авторы приводят таблицу журналов, в которых опубликованы не менее десяти HP-статей и DR-статей (см. табл. 3, с. 664). Только один журнал опубликовал более десяти

1 Stanek K.Z. How long should an astronomical paper be to increase its Impact? -Mode of access: http://arxiv.org/abs/0809.0692 (Retrieved: September 22, 2008.)

2 Webster G.D., Jonason P.K., Schember T.O. Hot topics and popular papers in evolutionary psychology: Analyses of title words and citation counts in evolution and human behavior, 1979-2008 // Evolutionary psychology. - 2009. - Vol. 7, N 3. -P. 348-362.

статей DR-типа («Clinical Orthopaedics and Related Research»). При этом HP-статьи доминируют в пяти журналах. При более тщательном анализе выяснилось, что список журналов, публикующих не менее 25% статей обоих типов, соответственно насчитывает 16 журналов для DR-статей и только восемь для HP-статей. Было также найдено 19 журналов, в которых представлено 25% статей среднестатистического характера. Отсюда следует, что количество журналов с доминирующими DR-статьями также подвержено случайным факторам.

Авторы исследовали вопрос, каким образом профили цитирования всех трех типов различаются с точки зрения общего воздействия их цитируемости. Соответственно они использовали нормированные по полю баллы цитируемости (Mean Normalized Citation Score - MNCS). Здесь цитируемость конкретной статьи делится на среднюю цитируемость статьи в данном исследовательском поле. Параметр MNCS использовался в более узком варианте - не для нормировки цитируемости по всему исследовательскому полю, а лишь по содержанию журнала, в котором опубликована статья, представляющая интерес. Как авторы и предполагали, и HP-статьи, и DR-статьи дают высокий балл цитируемости MNCS, однако пик цитируемости достигается с различающимися лагами.

Статьи третьей группы - обычные статьи, выбранные случайным образом, - демонстрируют при усреднении параметра MNCS баллы, соответствующие среднему импакт-фактору для данного направления исследований. Они существенно уступают баллам цитируемости статей первых двух типов.

Важный результат, полученный авторами, состоит в том, что самыми высокоцитируемыми оказались DR-статьи. Таким образом, ключом к идентификации обоих типов статей является их высокая цитируемость.

Что касается факторов FIC, то в предыдущих исследованиях использовались такие факторы, как год издания, количество: стран, представляемых авторами, ссылок, страниц, авторов, тематических категорий. Разница в проявлении потенциальных параметров FIC прослежена авторами на примере указанных выборок. Например, ожидалось, что DR-статьи будут иметь в среднем более ранний год публикации. Однако результаты, приведенные в таб-

лице 5 (с. 666), показывают, что эмпирические данные говорят несколько о другом. Так, годы публикации как НР-статей, так и БЯ-статей близки.

В таблице 6 (там же) авторы показывают разницу в количестве страниц между выборками обычных статей, НР- и БЯ-статей. Статьи типа БЯ имеют в среднем больше страниц, чем статьи типа НР и, тем более, превосходят в количестве страниц статьи из обычной выборки.

В таблице 7 (с. 667) представлены средние различия в при-статейных ссылках статей трех групп. Например, стало ясно, что статьи типа НР имеют больше пристатейных ссылок, чем статьи двух других типов. Статьи типа БЯ имеют число ссылок, близкое к статьям из общей выборки.

Средние показатели числа авторов статей трех групп приведены в таблице 8 (там же). Наибольшее среднее число авторов обнаружено у статей НР-типа (4,8). Далее следуют среднее число авторов статей из общей выборки (2,7) и аналогичного показателя для статей БЯ-типа (2,6).

Таблица 9 (с. 668) содержит список стран (10), представляемых авторами статей БЯ- и НР-типов. В обоих случаях доминируют авторы из США. Этот результат неудивителен, он соответствует общей статистике по странам (Индикаторы науки и техники, 2016)1. Далее следуют Великобритания, Япония и Германия. США оказались единственной страной, обнаружившей статистически значимую разницу в количестве НР- и БЯ-статей (194 и 139 соответственно).

В таблице 10 (там же) приведены средние различия между тремя группами публикаций по странам, которые во многих случаях не имеют практической значимости. В качестве последнего из параметров ПС исследовалось влияние на цитируемость числа тематических направлений, что может использоваться в качестве индикатора междисциплинарного подхода. Тематические направления соответствовали классификации WoS. В таблице 11 (с. 669) показана средняя разница между публикациями трех групп по степени влияния тематических направлений. Эти данные демонстри-

1 Science and engineering indicators 2016 / Nat. science board. - Arlington: Nat. science foundation (NSF), 2016. - 899 p.

руют, что и в этом случае разница в основном не имеет практического значения. Однако были найдены статистически значимые исключения - направления, в которых статьи HP публикуются чаще: биохимия и молекулярная биология (HP = 59, DR = 9); иммунология (HP = 34, DR = 6); клеточная биология (HP = 22, DR = 4). И напротив, хирургия и ортопедия дают больше статей второго типа (НР = 3, DR = 37 и НР = 0, DR = 33 соответственно).

В отличие от многих других исследований проблемы DR-статей в данной работе использовались расчеты параметра DNIC, что повышает точность идентификации статей «с отложенным признанием». Полученные результаты позволяют предположить, что появление DR-статей - это непредсказуемый процесс, который не может быть выявлен заранее с использованием свойств конкретной статьи. Однако в отношении потенциальных HP-статей такой прогноз в определенных рамках возможен. Проведенное исследование рассматривается авторами в качестве начального этапа сравнительного анализа свойств HP- и DR-статей. Включение в анализ дополнительных переменных, по их мнению, может послужить уточнению прогнозирования.

Особый интерес представляют переменные, которые не охватываются базой данных WoS. Например, опираясь на определенные характеристики авторов (пол или национальность) либо их учреждений, можно было бы проверить, является ли свежая публикация потенциально обычной статьей, HP-статьей или DR-статьей. И наконец, следует отметить, что многие статьи в базе данных WoS относятся к нескольким тематическим направлениям. Поэтому следует ожидать, что будут найдены статьи, «обычные» с точки зрения одного направления, однако обладающие HP- и DR-свойствами с точки зрения других направлений.

С.В. Егерев

2019.01.028 ЭЛЛЕГОР О. ПРИМЕНЕНИЕ НАУКОМЕТРИЧЕСКОГО АНАЛИЗА: ДИСЦИПЛИНАРНЫЙ И ПОЛЬЗОВАТЕЛЬСКИЙ АСПЕКТЫ.

ELLEGAARD O. The application of bibliometric analysis: Disciplinary and user aspects // Scientometrics. - 2018. - Vol. 116, N 1. - P. 181202. - Mode of access: https://doi.org/10.1007/s11192-018-2765-z

i Надоели баннеры? Вы всегда можете отключить рекламу.