Научная статья на тему 'Методы статистического анализа текстов научных публикаций в работе историка науки'

Методы статистического анализа текстов научных публикаций в работе историка науки Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
459
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БИБЛИОМЕТРИЯ / СТАТИСТИЧЕСКИЙ АНАЛИЗ / НАУЧНЫЕ СТАТЬИ / ЭКОЛОГИЯ / АНАЛИЗ ПУБЛИКАЦИЙ / ТЕРМИН / ТЕМА ПУБЛИКАЦИИ / BIBLIOMETRICS / STATISTICAL ANALYSIS / SCIENTIFIC ARTICLES / ECOLOGY / ANALYSIS OF PUBLICATIONS / TERM / PUBLICATIONS' SUBJECT

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Рижинашвили Александра Львовна

Предложена схема статистического анализа текстов научных публикаций и продемонстрирована возможность его применения на примере отечественных экологических публикаций (в ведущем рецензируемом научном журнале РАН «Экология»). Актуальность выбора экологической науки в качестве модельной области знания обусловлена ее особым восприятием в кругу профессионалов и в общественном сознании в целом. Рассмотрена частота употребления терминов в названиях статей и представленность различной тематики исследований. Анализ сделан как для всего периода исследований (2003-2017), так и с точки зрения распределения терминов и тем по годам. Анализ частот употребления терминов в заголовках статей позволяет сделать вывод о понимании учеными содержания и задач дисциплины. Проведение в сочетании с таким анализом изучения распределения работ по тематике способствует выявлению скрытых тенденций в развитии наук. Сочетание простейшей двумерной визуализации частот и анализа структуры связей терминов и тем могло бы в перспективе использоваться для выделения периодов в развитии отрасли. Однако это направление требует дальнейших исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE METHODS OF STATISTICAL ANALYSIS OF THE TEXTS OF SCIENTIFIC PUBLICATIONS IN A WORK OF HISTORIAN OF SCIENCE

The scheme of statistical analysis of scientific publications texts is proposed and the possibility of its application on the example of native ecological publications (in the leading peer-reviewed scientific journal of Russian Academy of Sciences "Ecology" or “Russian Journal of Ecology”) is demonstrated. The relevance of the choice of ecological science as a model area of knowledge is associated to its special perception among professionals and in the public consciousness as a whole. The frequency of the use of terms in the titles of articles and the representation of various research topics are considered. The analysis is made for the entire period of research (2003-2017) and in terms of the distribution of terms and topics by years. Analysis of the frequency of use of terms in the titles of articles allows us to conclude how scientists understand the content and objectives of the discipline. The studies of the distribution of works on the subject carrying out in combination with such analysis help us to identify hidden trends in the development of science. In particular, it is revealed that ecologists clearly understand the content and tasks of the science, but in practice usually do their studies in the sphere of other biological disciplines (the biology of species and ecological physiology). The combination of the simplest two-dimensional visualization of frequencies and analysis of the structure of relations of terms and topics could be used in the future to highlight periods in the development of the science. However, this direction requires further research.

Текст научной работы на тему «Методы статистического анализа текстов научных публикаций в работе историка науки»

удк 001.38

методы статистического анализа текстов

научных публикаций в работе историка науки

Александра Львовна Рижинашвили

кандидат биологических наук, старший научный сотрудник Санкт-Петербургского филиала Института истории естествознания и техники им. С.И. Вавилова РАН; Санкт-Петербург, Россия e-mail: [email protected]

Предложена схема статистического анализа текстов научных публикаций и продемонстрирована возможность его применения на примере отечественных экологических публикаций (в ведущем рецензируемом научном журнале РАН «Экология»). Актуальность выбора экологической науки в качестве модельной области знания обусловлена ее особым восприятием в кругу профессионалов и в общественном сознании в целом. Рассмотрена частота употребления терминов в названиях статей и представленность различной тематики исследований. Анализ сделан как для всего периода исследований (2003-2017 гг.), так и с точки зрения распределения терминов и тем по годам. Анализ частот употребления терминов в заголовках статей позволяет сделать вывод о понимании учеными содержания и задач дисциплины. Проведение в сочетании с таким анализом изучения распределения работ по тематике способствует выявлению скрытых тенденций в развитии наук. Сочетание простейшей двумерной визуализации частот и анализа структуры связей терминов и тем могло бы в перспективе использоваться для выделения периодов в развитии отрасли. Однако это направление требует дальнейших исследований.

Ключевые слова: библиометрия, статистический анализ, научные статьи, экология, анализ публикаций, термин, тема публикации

Благодарность

Исследование выполнено при финансовой поддержке РФФИ в рамках проекта № 18-011-00733.

Библиометрический анализ пользуется все большим интересом со стороны специалистов самых различных отраслей (Deng et al., 2017; Falkenberg, Tubb, 2017). Отчасти это обусловлено появившимися нормативами, предписывающими проводить оценку деятельности исследователя с позиции его публикационной активности (Akoev et al., 2018). Причем основное внимание, как правило, уделяется показателям цитируемости (Москалева, 2013). Однако опыт использования методов библиометрии для ретроспективной оценки деятельности ученых и научных коллективов все еще не получил должного распространения. Между тем, количественный анализ научных текстов характеризуется потенциально большими возможностями для объективного выделения периодов в развитии науки и его устойчивых тенденций. Например, имеет особое значение выявление распределения работ по тематике и частоты употребления тех или иных терминов и общеупотребительных слов. Кроме того, анализ словоупотребления, как мне кажется, позволит обнаружить и особенности восприятия специалистами специфики своей науки и других отраслей.

Цель моей работы — разработать схему анализа текста научных работ для выявления возможных тенденций развития на примере конкретной области знания (в отечественной практике). В качестве такой модельной области знания выбрана экология. Актуальность выбора именно этой науки обусловлена ее особым восприятием в кругу профессионалов и в общественном сознании в целом. Современная экология четко определяется как фундаментальная биологическая дисциплина, изучающая структуру и функционирование надорганизменных систем различного уровня (популяция, сообщество, экосистема) в пространстве и во времени, в естественных и измененных человеком условиях (Алимов, Богатов, Голубков, 2013: 7). Вместе с тем, даже среди профессиональных биологов нередко встречается отождествление экологии и так называемого биоразнообразия, а также естественной истории видов (биологии, поведения, и т.д.) (Гиляров, 2013). В общественном сознании известно смешение экологии и природоохранной практики, понятий о качестве окружающей среды, мер по ее защите, моральных и эстетических норм отношения к природе (Алимов, 2002). Насколько выражена и устойчива отмечаемая тенденция неправильного понимания экологии? Как сами ученые воспринимают свою область

исследований? На мой взгляд, наиболее часто употребляемые в названиях статей термины могут служить маркерами понимания специалистами предмета, задач и содержания науки. Насколько такое восприятие исследований со стороны самих биологов отражает реальную тематику их публикаций? В связи с этим представляет специальный интерес анализ взаимосвязи употребления маркирующих терминов и действительного содержания работ.

Для ответа на поставленные вопросы я проанализировала тематику и содержание текстов научных статей, опубликованных в ведущем профильном научном журнале «Экология», издаваемом Российской Академией наук (использованы материалы базы научных публикаций е-library: https://elibrary.ru/contents.asp?titleid=8276; время обращения — май 2018 г.). Средствами статистического анализа изучена динамика тематики статей за последние 15 лет (с 2003 по 2017 г.). Также проведен анализ частоты использования в текстах названий специализированных экологических терминов. В ходе исследования использованы как простейшие методы визуализации данных (построение гистограмм частот), так и многомерная статистическая обработка (факторный анализ сопряженности терминов и тематики публикаций по встречаемости), по алгоритмам, реализованным в пакете Statistica 7.0 (StatSoft Inc., 2004).

Результаты анализа облика заголовков научных статей: выявление наиболее популярных терминов

Анализ употребления наиболее распространенных в публикациях терминов (рис. 1) позволяет выявить, что чаще всего авторы стремятся обратиться к надорганизменным уровням организации жизни (прежде всего, популяционному). Вместе с этим оказываются довольно популярными и работы, в которых присутствует проблематика, связанная с загрязнением среды.

В то же время нельзя говорить о какой-либо выраженной тенденции в популярности использования слов по годам (рис. 2 и 3): в соседние годы может быть как пик, так и спад употребления понятия. Особенно явно это заметно для слова «популяция» (рис. 2).

В гораздо меньшей степени эта закономерность проявляется для термина «сообщество», так как распределение его частот более однородно во времени, не демонстрируя резких подъемов и понижений.

Рис. 1. Частота встречаемости наиболее распространенных терминов в заголовках научных статей, опубликованных в журнале «Экология» за период 2003-2017 гг.

Рис. 2. Распределение частот употребления терминов, обозначающих надорганизменные уровни организации жизни, по годам публикаций

Рис. 3. Распределение частот употребления так называемых «модных» терминов, маркирующих наиболее популярную тематику исследований, по годам публикаций

Таблица 1. Факторная структура употребления наиболее частотных терминов,

встречающихся в названии статей, опубликованных в журнале «Экология» с 2003 по 2017 г. (здесь и в табл. 2 приведены только факторы с собственным числом больше 1; жирным шрифтом выделены значения коэффициентов корреляции, достоверные на 5% уровне)

слово Фактор 1 Фактор 2 Фактор 3 Фактор 4

биоразнообразие 0,16 0,72 0,40 -0,14

популяция 0,74 0,31 -0,17 -0,23

экосистема -0,80 0,11 0,00 -0,44

загрязнение 0,23 0,63 -0,27 -0,30

сообщество 0,77 -0,43 0,31 0,27

население -0,62 -0,09 0,12 0,42

техногенез 0,17 -0,08 0,88 -0,29

растительность 0,28 0,64 -0,04 0,60

изменчивость 0,56 -0,53 -0,32 -0,29

собств. число 2,68 1,93 1,26 1,13

доля дисперсии, % 29,73 21,40 14,02 12,52

Структура сопряженности употребления слов, выделенная с помощью метода главных компонент, представлена тремя главными направлениями в использовании терминов (табл. 1). Одно из них - это работы, которые авторы маркируют как связанные с изучением надорганизменных систем. Причем характерно, что работы по «популяциям» и «сообществам» демонстрируют противоположный характер распределения по отношению к работам по «экосистемам». Другое ведущее направление - это исследование «биоразнообразия». Наконец, третья линия - «техногенез». Эти три линии условно отображают три направления в понимании учеными сущности экологических исследований: первое направление - классическое, соответствующее определению науки, тогда как два других обнаруживают так называемые «модные» тенденции.

Результаты анализа реального содержания экологических статей

Предпринятый мной экспертный анализ содержания экологических статей демонстрирует, что наиболее популярными оказываются такие темы как биология вида и экология организма (рис. 4).

Рис. 4. Представленность разных тем публикаций (приведены частоты для лидирующих по распространенности тем) за весь период исследования

Довольно примечательно, что тематика, считающаяся модной в современных условиях (загрязнения, охрана природы, биологические инвазии), представлена весьма малым количеством работ (рис. 5).

Интересен анализ тематического комплекса статей во времени. Для этой задачи мной были отобраны три ключевых темы: структура популяции, сообщество и биоразнообразие. Их выбор обусловлен следующими соображениями. Хотя они и не являются наиболее доминирующими по частоте встречаемости, но связаны с разными уровнями надорганизменной организации живого вещества, и работы по биоразнообразию имеют большую популярность в представлении многих современных биологов.

Выясняется, что тематический профиль работ достаточно резко меняется с 2009 г. (рис. 6). Это проявляется в повышении внимания исследователей к структуре популяций и сообществам в противовес биоразнообразию.

Основные тематические комплексы публикаций, выделенные мной по результатам компонентного анализа (табл. 2), следую-

Рис. 5. Представленность в публикациях некоторых популярных тем (для масштаба выбрана одна из распространенных тем, но наименее частотная) за весь период исследования

Рис. 6. Распределение встречаемости трех тем (пояснение выбора — в тексте)

по годам публикации

Таблица 2. Факторная структура тематики экологических публикаций

слово Фактор 1 Фактор 2 Фактор 3

организм -0,12 0,20 0,94

межвидовые отношения 0,35 0,49 -0,49

структура популяции 0,60 0,26 -0,10

биология вида -0,00 -0,96 -0,20

сообщество 0,82 0,35 0,04

тяжелые металлы -0,65 0,44 -0,25

сукцессия -0,62 0,25 0,08

биоразнообразие -0,89 0,17 -0,22

собств. число 2,77 1,67 1,28

доля дисперсии, % 34,57 20,93 16,03

щие: сообщество и биоразнообразие (причем с противоположной тенденцией распределения); биология вида; экология организма. Представление годов публикаций в пространстве двух первых комплексов позволяет увидеть слабую тенденцию к разделению более ранних (до 2010 г.) и более поздних лет (рис. 7).

1 ¿и ............

• 2010

2017

2007

2012 •

2006

2011 •

• 2003

• 2005 200£

2013 • •

%016 2004

2015 • ф

2014 •

2009

-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5

FACTOR 1

Рис. 7. Распределение лет публикаций в пространстве двух первых главных компонент факторной структуры тематики публикаций (табл. 2)

Из результатов моего анализа можно сделать вывод о несоответствии реальной тематики и содержания отечественных экологических исследований маркирующим их терминам. А именно биологи активно пользуются экологической терминологией при формулировании заголовков своих статей, однако в действительности проводят исследования в рамках других областей биологии.

Верно понимая экологию как науку о надорганизменных системах, ученые на деле либо работают в области экологической физиологии организма, либо изучают образ жизни и поведение (то есть, биологию) конкретных видов. Но ни организм, ни вид, как хорошо известно, не являются объектами исследования экологии.

Однако намечается и положительная тенденция: в работах последних 10 лет пресловутое биоразнообразие занимает все меньше места, уступая его популяциям и сообществам.

Выводы

Анализ частот употребления терминов в заголовках статей позволяет сделать вывод о понимании учеными содержания и задач дисциплины. Проведение в сочетании с таким анализом изучения

распределения работ по тематике способствует выявлению скрытых тенденций в развитии наук.

Сочетание простейшей двумерной визуализации частот и анализа структуры связей терминов и тем могло бы в перспективе использоваться для выделения периодов в развитии отрасли. Однако это направление требует дальнейших исследований.

Результаты анализа позволят наметить некоторые специфические черты тематики и содержания отечественных экологических исследований рубежа ХХ—ХХ1 вв. и начала XXI в. Они также демонстрируют перспективы применения цифровых (статистических и компьютерных) методов в историко-научной работе.

Список литературы

Алимов А.Ф. Об экологии всерьез // Вестник РАН. 2002. Т. 72. № 12. С. 1075-1080.

Алимов А.Ф., Богатов В.В., Голубков С.М. Продукционная гидробиология / Под ред. В.В. Хлебовича. СПб.: Наука, 2013. 343 с.

Гиляров А.М. Современная экология под грузом естественной истории // Журнал общей биологии. 2013. Т. 74. № 4. С. 243-252.

Москалева О.В. Можно ли оценивать труд ученых по библиометриче-ским показателям? // Управление большими системами. Специальный выпуск 44: «Наукометрия и экспертиза в управлении наукой». 2013. С. 308-331.

Akoev M., Moskaleva O., Pislyakov V. Confidence and RISC: How Russian Papers Indexed in the National Citation Database Russian Index of Science Citation (RISC) Characterize Universities and Research Institutes // Proceedings of 23rd International Conference on Science and Technology Indicators (STI 2018) "Science, Technology and Innovation indicators in transition". Leiden: Centre for Science and Technology Studies (CWTS), 2018. P. 1328-1338.

Deng J., Zhang Y., Qin B., Yao X., Deng Y. Trends of publications related to climate change and lake research from 1991 to 2015 // Journal of Limnology. 2017. Vol. 76. No 3. P. 439-450.

Falkenberg L.J., Tubb A. Economic effects of ocean acidification: publication patterns and directions for future research // Ambio. 2017. Vol. 46. P. 543-553.

THE METHODS OF STATISTICAL ANALYSIS OF THE TEXTS OF SCIENTIFIC PUBLICATIONS IN A WORK OF HISTORIAN

OF SCIENCE

Alexandra L. Rizhinashvili

PhD in biology, Senior researcher

S.I. Vavilov Institute for the History of Science

and Technology, RAS, St. Petersburg Branch

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

St. Petersburg, Russia

[email protected]

The scheme of statistical analysis of scientific publications texts is proposed and the possibility of its application on the example of native ecological publications (in the leading peer-reviewed scientific journal of Russian Academy of Sciences "Ecology" or "Russian Journal of Ecology") is demonstrated. The relevance of the choice of ecological science as a model area of knowledge is associated to its special perception among professionals and in the public consciousness as a whole. The frequency of the use of terms in the titles of articles and the representation of various research topics are considered. The analysis is made for the entire period of research (2003-2017) and in terms of the distribution of terms and topics by years. Analysis of the frequency of use of terms in the titles of articles allows us to conclude how scientists understand the content and objectives of the discipline. The studies of the distribution of works on the subject carrying out in combination with such analysis help us to identify hidden trends in the development of science. In particular, it is revealed that ecologists clearly understand the content and tasks of the science, but in practice usually do their studies in the sphere of other biological disciplines (the biology of species and ecological physiology). The combination of the simplest two-dimensional visualization of frequencies and analysis of the structure of relations of terms and topics could be used in the future to highlight periods in the development of the science. However, this direction requires further research.

Key words: bibliometrics, statistical analysis, scientific articles, ecology, analysis of publications, term, publications' subject

i Надоели баннеры? Вы всегда можете отключить рекламу.