Научная статья на тему 'Проектирование системы сбора, анализа и визуализации наукометрических данных'

Проектирование системы сбора, анализа и визуализации наукометрических данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
307
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НАУКОМЕТРИЯ / СРЕДСТВА АНАЛИЗА НАУКОМЕТРИЧЕСКИХ ДАННЫХ / РИНЦ / RISC (RUSSIAN INDEX OF SCIENTIFIC CITATION) / WEB OF SCIENCE / SCOPUS / SCIENTOMETRICS / SCIENTOMETRIC DATA ANALYSIS TOOLS / SCIVERSE SCOPUS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Трубников Владимир Сергеевич, Туральчук Константин Анатольевич

Наукометрические показатели на сегодняшний день активно используются в научном сообществе для оценки эффективности отдельных ученых или организаций в различных целях. Например, для финансирования в виде грантов, присуждения премий или ученых степеней. Существует множество программ для наукометрического анализа либо ученых, либо целых организаций. Однако, нет бесплатных программ для анализа публикационной активности небольших групп ученых, к примеру, лабораторий. Второй проблемой является то, что существует мало программ, агрегирующих данные из нескольких лидирующих библиометрических баз данных в единое знание.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Трубников Владимир Сергеевич, Туральчук Константин Анатольевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Проектирование системы сбора, анализа и визуализации наукометрических данных»

Проектирование системы сбора, анализа и визуализации наукометрических данных Трубников В.С.1, Туральчук К.А.2

1 Трубников Владимир Сергеевич / Trubnikov Vladimir Sergeevich - студент, бакалавр,

2Туральчук Константин Анатольевич / Turalchuk Konstantin Anatolievich - старший преподаватель, ассистент кафедры, кафедра компьютерных интеллектуальных технологий, направление «Математическое обеспечение и администрирование информационных систем»,

Санкт-Петербургский политехнический университет Петра Великого,

Институт информационных технологий и управления, г. Санкт-Петербург

Аннотация: наукометрические показатели на сегодняшний день активно используются в научном сообществе для оценки эффективности отдельных ученых или организаций в различных целях. Например, для финансирования в виде грантов, присуждения премий или ученых степеней. Существует множество программ для наукометрического анализа либо ученых, либо целых организаций. Однако, нет бесплатных программ для анализа публикационной активности небольших групп ученых, к примеру, лабораторий. Второй проблемой является то, что существует мало программ, агрегирующих данные из нескольких лидирующих библиометрических баз данных в единое знание.

Abstract: today scientometric indicators are widely used in the scientific community to evaluate the effectiveness of individual scientists or organizations for various purposes. For example, funding in the form of grants, the awarding of prizes, or academic degrees. There are many programs for scientometric analysis only of scientists or entire organizations. However, there is lack of free programs for the analysis of the publication activity of small groups of scientists, such as laboratories. The second problem is that there are few programs aggregating data from multiple leading bibliometric databases into a single knowledge.

Ключевые слова: наукометрия, средства анализа наукометрических данных, Web of Science, Scopus, РИНЦ

Keywords: scientometrics, scientometric data analysis tools, Web of Science, SciVerse Scopus, RISC (Russian index of scientific citation)

УДК 004.415.2, 004.4, 004.032, 001

Введение

Исходя из вышеупомянутых проблем, предлагается разработать систему сбора, анализа и визуализации информации из нескольких баз данных цитирований для групп ученых. Предлагается следующий функционал системы, показанный на Рис. 1. Исходя из блок-схемы можно выделить 4 основных функциональных модуля:

- редактирование входных данных;

- сбор и парсинг данных из внешних источников;

- анализ и интерпретация полученных данных;

- визуализация данных и сохранение отчетности.

Рис. 1 Функциональная схема проектируемой системы

Модуль редактирования входных данных позволяет создавать любую группу авторов публикаций. Для каждого необходимо задать фамилию, имя, отчество. SPINcode, ScopusID, ResearcherlD (идентификаторы автора в РИНЦ, Scopus и Web of Science соответственно). Опционально: факультет, кафедра, лаборатория. Последние должны позволить визуализировать информацию по соответствующим подгруппам, что является отличительной особенностью по отношению к существующим продуктам. В модуле также должно быть предусмотрено автосохранение введенных пользователем данных.

Модуль сбора для каждой из баз должен будет собирать следующую информацию о заданных авторах: число цитирований, индекс Хирша, списки публикаций и печатных изданий с их метриками так далее. Детальная структура данных предложена на Рис. 2

продолжение рис. 2 на следующей странице

окончание рис. 2

Рис. 2. Основные классы и перечисления системы

Проектируемая модель данных такова, что на верхнем уровне мы имеем класс Group, который содержит групповые статистики и список элементов типа Author. Класс или тип Author содержит поля, задаваемые пользователем (перечислены ранее) и 4 поля типа AuthorStats, заполняемые при сборе и анализе данных (3 поля соответственно для каждой из баз и четвертое для агрегированной статистики). AuthorStats -это не что иное как статистики публикационной активности автора (индекс цитирования, индекс Хирша, число самоцитирований, число цитирований соавторами, число цитирований на публикацию, число и список соавторов), список элементов типа Publication и рейтинг. Рейтинг - вычисляемое значение от 0 до некоторого максимума, определяемого весами значимости следующих метрик: число публикаций, индекс цитирования и индекс Хирша (формула определена далее). Данная метрика, придумана мной для отражения значимости автора внутри группы. Класс Publication содержит некоторые описательные поля (название, год, DOI, язык, тип (статья, монография, книга и др.)), метрики цитируемости и поле типа PubSource. PubSource состоит из описательных полей (название, ISSN/ISBN, язык, тип (журнал, сборник трудов и др.)) и поле импакт-фактора.

На следующей блок-схеме изображены взаимосвязи классов (см. Рис. 3)

Рис. 3. Взаимосвязи классов системы

Модуль анализа должен обеспечить создание обобщенной статистики для каждого автора:

- Создается коллекция неповторяющихся публикаций. Сравнение двух публикаций производится по заполненным в результате сбора полям: имени, году, DOI и т.д.;

- Пересчитываются значения статистик на основе метрик из публикаций (индекс цитирования, число цитирований соавторами, число самоцитирований).

Вторым этапом работы модуля будет вычисление агрегированных групповых статистик:

- I-index. Научная группа имеет индекс i, если не менее i ученых из этой группы имеют h-index не менее i;

- Взвешенные рейтинги для каждого автора:

InGroupRating = pubji х w_p + citji х w_c + hirshji x w_h

где pubji, cit_n, hirsh_n - нормированные в пределах группы значения от 0 до 100 для числа публикаций, индекса цитирований и индекса Хирша соответственно,

w_p, w_c, w_h - веса вышеприведенных метрик.

- Число цитирований на публикацию: С i t Р U b =

pub

- Доля самоцитирований (%): СоАUthОrsСitPCt

cit x selfjcit 100

где cit и S 6 If _Cit - суммарные числа цитирований и самоцитирований соответственно;

- Суммарные числа публикаций и цитирований;

- Число публикаций только в РИНЦ/Scopus/WoS.

Модуль визуализации данных должен отображать различные зависимости групповых метрик на гистограммвх и круговых диаграммах:

- Убывающие гистограммы по различным метрикам авторов (рейтинг, h-index, цитирования, самоцитирования, цитирования соавторами и др.).

- Распределения групповых метрик по годам (число публикаций, число цитирований, средний индекс Хирша, средний импакт-фактор журналов и др.);

- Убывающие гистограммы по различным метрикам публикаций (цитирования, самоцитирования и др.);

- Убывающие гистограммы по различным метрикам журналов (число публикаций, импакт-фактор, и др.);

Пример ожидаемой инфографики (Рис. 4):

статистика группы orgl год - цитровнаия статистика группы org2 год - цитровнаия

Рис. 4. Распределение числа цитирований по годам

Заключение. Преимуществами проектируемой системы являются:

- Возможность создавать любую желаемую группу исследователей позволит сравнивать ее с любой референтной группой;

- В проектируемой системе будет предложен достаточный набор общепринятых в отрасли и простых в интерпретации метрик, тем самым она позволит пользователю делать всестороннюю оценку научной эффективности.

К недостаткам можно отнести ограниченность в метриках, ввиду того, что придётся объединять информацию из разных источников, а наборы метрик у них отличаются, хотя, безусловно, базис у всех одинаковый.

Данная система будет полезна для поддержки процесса принятия решений по оптимизации научно-исследовательской деятельности.

Литература

1. Мазов Н.А. Свободно распространяемые программы для наукометрических и библиометрических исследований. Изд-во ГПНТБ России. 2012. С. 1-6.

2. Гордукалова Г.Ф. Библиометрия, наукометрия и вебометрия - от числа строк в работах Аристотеля. [Электронный документ]. (http://nppir.ru/index.php/nppir/artide/view/127/233) 2014. Проверено 28.05.2015.

3. Беленький A. Визуализация в инфометрии: красота, да и только // КомпьютерПресс. 2009. № 4. С. 12-16.

4. Соболев В.А. Новые аналитические решения компании Elsevier: [Электронный документ]. 2014.

(http://www.spsl.nsc.ru/download/SciVal_Pure_Novosib_Sept%202014.pdf). Проверено 28.05.2015.

i Надоели баннеры? Вы всегда можете отключить рекламу.