Научная статья на тему 'Построение модели изменения во времени содержания тематических кластеров в коллекциях научных текстов'

Построение модели изменения во времени содержания тематических кластеров в коллекциях научных текстов Текст научной статьи по специальности «Математика»

CC BY
163
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
концептуальный анализ текстов / ориентированные графы / эволюция предметной области / катализ.

Аннотация научной статьи по математике, автор научной работы — Пименов Иван Сергеевич, Саломатина Наталья Васильевна

В работе представлены результаты решения задачи по оцениванию изменений, происходящих в отдельной предметной области с течением времени. Реализован подход, опирающийся на анализ полных текстов. Извлечение терминов, связей между ними и тематическая кластеризация проведены с помощью свободно распространяемой программы VosViewer, позволяющей выявлять термины в форме именных словосочетаний, выполнять их кластеризацию с использованием алгоритма, основанного на применении функции модулярности. Для отслеживания динамики развития и формирования тематических кластеров предлагается использовать ориентированные графы, построенные с учетом значимых изменений в кластере. Апробация подхода проведена на материале докладов представительных конференций по катализу “EuropaCat” за десятилетний период с 2005 г. по 2015 г. Количественно охарактеризованы тенденции в изменении тематических кластеров

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Построение модели изменения во времени содержания тематических кластеров в коллекциях научных текстов»

АПВПМ-2019

ПОСТРОЕНИЕ МОДЕЛИ ИЗМЕНЕНИЯ ВО ВРЕМЕНИ СОДЕРЖАНИЯ ТЕМАТИЧЕСКИХ КЛАСТЕРОВ В КОЛЛЕКЦИЯХ НАУЧНЫХ ТЕКСТОВ

И, С, Пименов1, Н, В, Саломатина2

1 Новосибирский государственный университет, 630090, Новосибирск 2 Институт математики им. С.Л. Соболева, 630090, Новосибирск

УДК 8Г322.2

Б01: 10.24411/9999-016А-2019-10062

В работе представлены результаты решения задачи по оцениванию изменений, происходящих в отдельной предметной области с течением времени. Реализован подход, опирающийся на анализ полных текстов. Извлечение терминов, связей между ними и тематическая кластеризация проведены с помощью свободно распространяемой программы \^\"нпу<ч'. позволяющей выявлять термины в форме именных словосочетаний, выполнять их кластеризацию с использованием алгоритма, основанного на применении функции модулярности. Для отслеживания динамики развития и формирования тематических кластеров предлагается использовать ориентированные графы, построенные с учетом значимых изменений в кластере. Апробация подхода проведена на материале докладов представительных конференций по катализу "ЕигораСа!;" за десятилетний период с 2005 г. по 2015 г. Количественно охарактеризованы тенденции в изменении тематических кластеров. Ключевые слова: концептуальный анализ текстов, ориентированные графы, эволюция предметной области, катализ.

Введение

Исследование изменений, происходящих в отдельной предметной области (ПО) с течением времени, предполагает, что в определенные моменты нам известна ее структура. Распространенный способ представления структуры ПО — научные карты. На данный момент известны два основных подхода к построению карт. Первый опирается на представление структуры ПО исходя из совместного цитирования, например, в одной статье двух авторов или двумя авторами одной статьи [1,2], другой — из совместной встречаемости терминов ПО в текстах [3]. Как было показано в работе [4], результаты картирования, получаемые на одном и том же материале в соответствии с первым и со вторым методом построения карт, очень близки.

Для автоматического построения карт используют коллекции текстов, которые, в основном, формируются из статей, полученных по запросам к базам данных сетей цитирования и\или из рейтинговых публикаций в тематических журналах. Структура ПО представляется ассоциированными с тематической терминологией подобластей ПО кластерами, имеющими не только внутрикластерные, но и межкластерные связи.

При применении совместного цитирования группы тематически связанных текстов выявляются по авторским ссылкам. В случае использования совместной встречаемости терминов тематически связанными текстами считаются те, что содержат в значительном объеме ту же тематическую лексику. На основе различных мер ассоциаций строится сеть связанных ссылками документов или связанных терминов. С целью выявления структуры ПО проводится кластеризация терминов на сети (или до построения сети другими известными методами кластеризации). Если сеть построена на основе цитирования, то в этом случае узлами сети являются документы, из которых извлекаются термины, характеризующие построенные кластеры. В качестве терминов используют как ключевые слова (авторские или выбранные из словарей индексирования), так и слова, словосочетания, выявленные на основе анализа полных текстов, часто с применением частеречных шаблонов.

Работа выполнена при финансовой поддержке программы фундаментальных исследований Российской академии наук (код проекта 0314-2019-15).

ISBN 978-5-901548-42-4

Картирование каждой ПО представляет отдельный интерес, как в фиксированный момент времени, так и с точки зрения эволюции ПО, прогноза дальнейшего ее развития. Например, исследование структуры и динамики развития химии за тридцатилетний период представлены в [5], химии полимеров — в [3], теории нечетких множеств — в [4] и др. Рассматриваемая в данной работе ПО "катализ" отличается мультидисци-плинарностью, включает разделы различных дисциплин: общую, неорганическую и органическую химию, физическую химию, общую химическую технологию и пр.

Исследование динамики изменений, происходящих в тематических кластерах с течением времени, может проводиться с помощью специальных алгоритмов классификации. Например, в работе [6] применяется метод скользящего окна, структура кластеров фиксируется в перекрывающихся временных интервалах, что позволяет максимально точно устанавливать зависимость состава кластеров от большого числа данных.

Особенность проводимого нами исследования заключается, в частности, в том, что оно реализовано на материале трудов конференций. Для них, в отличие от журнальных статей, как правило, рейтинг неизвестен. Но статус конференции и сам факт прохождения отбора говорит о значимости анализируемых текстов. Следует признать, что риск ошибок в оценивании тематических изменений ПО по материалам конференций выше, чем по рейтинговым статьям. Тем не менее, такое исследование представляет интерес, поскольку позволяет оперативно получать представление о смещении научных интересов в сторону той или иной темы на самом раннем этапе.

Цели работы: 1) разработать метод для отслеживания формирования и развития тематических кластеров в смежных временных периодах, пригодный для отбора важных изменений во всем анализируемом периоде; 2) провести апробацию на коллекции текстов.

В работе представлены предварительные результаты исследования динамики изменения тематических кластеров, проведенного на материале представительных конференций по катализу EuropaCat за период с 2005 г. по 2015 г.

1 Методы

Методы, которые применяются в этом исследовании для решения задачи картирования ПО, опираются на со-word анализ (анализ совместной встречаемости слов в текстах коллекции). Извлечение терминов, их кластеризация и визуализация в отдельные временные периоды проводятся с помощью свободно распространяемой программы VOSviewer [7].

Изменения тематических кластеров во времени прослеживаются как на уровне смежных временных отрезков с точки зрения формирования и развития кластеров, так и во всем анализируемом временном периоде.

1.1 Методы, реализованные в программе VOSviewer

Термин в co-word анализе, предоставляемом программой VOSviewer, определяется как последовательность существительных и прилагательных, оканчивающаяся на существительное. Сеть формируется путем связывания терминов г и j согласно мере ассоциации (sjj):

Sij = 2ma,ij/kikj, где a,ij — вес связи между тер минами г и j, равный числу текстов, в которых они встречаются совместно, а к^ kj — суммарный вес связей для г-го и j-ro терминов соответственно, m — суммарный вес всех связей в сети [2].

Унифицированный (единый) подход к кластеризации и визуализации, реализуемый программой VOSviewer. опирается на нахождение минимума функции модулярности, в которой имеется параметр "резолюция", позволяющий строить сеть с необходимой степенью детализации. Термины, объединенные в кластеры, характеризуют отдельные темы ПО.

1.2 Стратегические диаграммы

Стратегические диаграммы (см. [3]) позволяют оценить разработанность темы и перспективность ее развития. Кластеры, построенные на коллекции текстов, принадлежащих одному временному периоду, можно разбить на четыре группы по показателям плотности (d) и центральности (с), которые вычисляются на базе индекса эквивалентности и характеризуют связность терминов внутри и вне кластера соответственно. Попадание кластера в каждый квадрант диаграммы можно интерпретировать следующим образом: 1-й

квадрант: важная тема, связанная с другими темами (значения с> 0 и <!> 0); 2-й квадрант: хорошо развитая и узкоспециальная тема (с < 0 и й > 0); 3-й квадрант: слабо развитая тема (обычно это появляющиеся и исчезающие темы, значения с > 0и с! > 0)и 4-й квадрант: важные, но слаборазвитые темы, т.е. перспективные в смысле дальнейшего развития (значения с > 0 и с! < 0). Начало координат устанавливается в пересечении медианных зачений {с^} и (г — число кластеров). Стратегические диаграммы часто применяют для "ручного" визуального анализа тематических кластеров, построенных для разных временных периодов.

1.3 Анализ изменения кластеров во времени

В данной работе для отслеживания временных изменений в кластере используются ориентированные графы, отражающие два аспекта функционирования кластера при переходе от одного временного периода к другому: формирование кластера в период времени £ го кластеров, зафиксированных в период времени £ — 1, и развитие кластера в период £ + 1.

Пусть = {с*} — множество кластеров в коллекции текстов, относящихся к периоду времени Ь, г = 1,..., Кг, Кг — число кластеров. Каждый кластер имеет метку тсь, ассоциируемую с тематическим содержанием. Метка — пара или тройка терминов, повторяющихся в разные временные периоды и имеющих наибольшее число внутрикластерных связей.

Пусть при переходе от временного среза ¿к £ + 1 каждый кластер с\ трансформируется в упорядоченное (по убыванию числа содержащихся терминов) множество {с*+1}, з = 1,..., Кг+1. При переходе от периода времени £ — 1 к £ каждый кластер формируется из упорядоченного (по убыванию числа содержащихся терминов) множества {с1~1} з = 1,..., ^ В анализе трансформации кластера с- при переходе к периоду £ + 1 (или формировании мастера при переходе из £ — 1) учитываются четыре типа преобразований кластеров, удовлетворяющие следующим условиям (символами "с^' обозначены типы развития, " — типы формирования, под Д понимается разница объемов общих элементов кластеров): с! • \4 п С11+1|/|с|^ \4 п = Д1,„; са : \4 п с^ш!- \4 п &1 |/Н| = Д11П, п = 2,....

сё,'.

1 кластер с- трансформировался большей частью в с\+\ так что Д1;2 > Р",

2 кластер с- трансформировался большей частью в с1+1 и с2+\ так чт о Д1;2 < р и Д1;3 > р;

3 число кластеров, в которые трансформировался большей частью кластер с-, превышает два (з > 2,

Дц < РУ,

4 кластер с| отсутствует во множестве {с^+1} большей частью своих элементов (До 1 > р, 4 = с| \{с^+1}).

с/:

1 кластер с- сформировался большей частью из с\ \ так что Д1;2 > р;

2 кластер с\ сформировался большей частью из с^-1 и ¿Г1, так что Д1;2 < р и Д1;3 > р;

3 число кластеров, из которых сформировался большей частью кластер с-, превышает два (з > 2, < р;

4 кластер с* сформировался большей частью го терминов, не принадлежащих множеству {с1~^ (До,1 > Р-, со = \ {с\г ^-Символом р обозначен порог, определяемый экспериментально.

Случаи сё, = 1 и с/ = 1 можно интерпретировать как сохранение темы, возможно, с обновлением, сё, = 2 и с/ = 2 — как выделение темы в самостоятельную и слияние двух соответственно. Случаи сё, = 3 и сё, = 4 — это два типа прекращения существования темы, ас/ = 3и с/ = 4 — формирование новых тем из разных источников: из уже существовавших тем и из новых, ранее не зафиксированных. Выполнение условий обеспечивает отбор кластеров, играющих существенную роль в трансформации.

2 Апробация

Результаты кластеризации терминов для каждого временного периода были получены с помощью программы VOSviewer при следующих установленных параметрах:

1) На этапе выбора объектов визуализации использован со-word анализ коллекции текстов, представленных в требуемом формате. Термины отфильтрованы по Стоп-словарю, содержавшему около 500 элементов.

2) Вычисление веса связи между терминами производилось согласно совместной встречаемости в текстах, что обеспечивалось установкой для параметра counting method значения "binary". В рассмотрение включались термины, совместно встретившиеся не менее чем в 10 текстах.

3) Число кластеров регулировалось выбором значения параметра resolution, в нашем случае он был равен 1.10.

Таблица 1: Количественные характеристики коллекций текстов

t = 1 2005 г. t = 2 2007 г. t = 3 2009 г. t = 4 2011 г. t = 5 2013 г. t = 6 2015 г. Весь период (Т) 2005-2015гг.

mt 951 1496 1259 1133 1571 1080 7490

Mt 528465 1041884 852446 676498 1463022 801662 5363977

nt 819 1693 1398 1131 2530 1322 2908

Полученные результаты существенно зависят от установленных параметров, в том числе от частоты совместной встречаемости терминов. В данной работе рассмотрению подлежат довольно высокочастотные термины, которые характеризуют трансформацию тем на уровне широких понятий ПО.

2.1 Данные

Материалом исследования служат англоязычные тезисы конференций по катализу EuropaCat за период продолжительностью в 10 лет: с 2005 г. по 2015 г. Число конференций Т (количество рассматриваемых временных периодов t) равно 6-ти. В таблице 1 указано число докладов (mt), представленных на конференции, объем текстов докладов в словоупотреблениях (Mt), число различных терминов nt.

К анализируемым характеристикам в библиометрии относится такой показатель как всплеск числа публикаций, появление новых авторов. Можно отметить, что в периоды t = 2 и t = 5 наблюдается существенный рост значений по этим характеристикам.

2.2 Характеризация выделенных терминов и построенных кластеров

Из шести коллекций текстов было выделено 2908 различных терминов. Они представляют собой именные словосочетания до 4 слов длиной: biodiesel, vegetable oil, oxygen storage capacity, x ray photoelectron spectroscopy и др.

Для каждого временного периода t было построено от 10 до 12 кластеров объемом до 509 терминов t=5

(t = 1, 2,3,4,5, 6), industrial application (t = 6), catalytic performance (t = 1), metal (t = 2). Самые объемные кластеры неоднородны по составу, содержат много общих для ПО терминов, характеризуются слабыми внешними (с) и внутренними (d) связями.

Отсутствие термина среди кластеризующихся не означает, что он не встречался в текстах вовсе. Часто, он был отсечен по порогу частоты встречаемости как, например, BIODIESEL, имеющий высокую суммарную абсолютную (/J = 681) и текстовую (ff = 229) частоту во всем рассматриваемом периоде Т, кроме первого: ftt = 2; /2 = 25; f3 = 62; = 46; f!t = 39; /д = 55. Т.е., значительный рост интереса к теме жидкого биотоплива возникает, начиная с момента t = 2. В качестве меток (wct) кластеров выбираются термины с максимальным значением d, обладающие свойством сохраняться во всем временном периоде Т. Их перечень приведен в таблице 2.

В таблице указаны метки для кластеров, насчитывающих не менее десяти элементов. Аббревиатурами в метках обозначены используемые в ПО методы (ESR — метод магнитного резонанса), названия веществ (ZSM — цеолитный катализатор) и др.

2.3 Кластеры на стратегических диаграммах

Стратегические диаграммы построены для каждого временного периода. На рисунке 1(a) и 1(6) показано, как кластеры начального и конечного периодов расположились на стратегических диаграммах. В качестве единицы измерения cud принимаются не значения, а ранги в упорядочении значений по убыванию. По оси абсцисс (с) откладываются ранги центральности кластеров, по осп ординат (d) — ранги плотности. Толщина и непрерывность линии окружности зависит от числа текстов, термины из которых представлены в кластере. Чем тоньше и прерывистей линия, тем из меньшего числа тектов извлечены термины.

Смещение интересов прослеживается и на рассматриваемых нами высокочастотных (довольно общих) терминах, что проявляется, в том числе, и на уровне меток кластеров, обладающих большой устойчивостью. Кластер "Photocatalysis", не слишком изменившись в доле текстов от их общего числа в периоде, переместился из 2-го квадранта в 1-й, т.е. связь этой темы с другими темами возросла. Кластеры "Acidity, Zeolite" и

Таблица 2: Перечень меток кластеров (wct) для временного периода Т

i t = 1 t = 2 t = 3 t = 4 t = 5 t = 6

Kinetic Solvent, Alcohol, Solvent, Solvent, Solvent

1 Model, Alcohol, Biodiesel, Alcohol, Biomass

Oxygen Biodiesel Oil Biodiesel Alcohol

Acidity, DFT, Gold, DFT, DFT XPS,

2 Zeolite Oxygen Cerium, Oxygen Kinetic Model DFT Gold

Methane, Photocatalysis Zeolite, XRD, Methane, Methane,

3 Hydrogen Acidity, Pore, XRD LDH Hydrogen Hydrogen, Syngas

Cerium, Methane, Methane, Photocatalysis, XRD, Zeolite,

4 TPR, Hydrogen, Hydrogen, Gold LDH Pore,

XRD Syngas TPR Acidity

H202, XRD, Photocatalysis Methane, XPS, XRD,

5 Solvent Cerium, TPR Hydrogen, Syngas Gold Cerium

Pore Zeolite, SCR, Zeolite, Photocatalysis Oil,

6 Acidity NSR ZSM, Acidity- Viscosity

Aluminium, SCR, ODH, Cobalt, Zeolite, HDS,

7 Platinum NSR Vanadium FTS Pore, Acidity Aluminium

8 Photoca-talysis Gold HDS, Aluminium SCR, NSR Photocatalysis

SCR, HDS Cerium,

9 Sulphur, Diesel XPS

10 ESR, ZSM Vanadium, XPS HDS, Biomass

И Viscosity

"Роге" трансформировались с обновлением в один и переместились в 4-й квадрант, у нового кластера потенциал возможного развития повысился. Кластер с меткой "11202. Solvent", трансформировавшись в "Solvent, Biomass, Alcohol" и прибавив в доле текстов, демонстрирует слабую связность как с терминами внутри, так и с терминами из других тематических кластеров. Новый кластер "Oil, Viscosity" появился в период t = 6, а кластер "ZSM, ESR" прекратил свое существование. Поведение кластера с меткой "Methane, Hydrogen'bneHb стабильно: обновившись ("Methane, Hydrogen, Syngas"), он остался в том же квадранте (1-м).

Более подробно временная трансформация тематических кластеров представлена в следующем разделе.

2.4 Графы формирования и развития кластеров

Эксперимент показал, что в процессе развития и формирования кластеров на уровне соседних временных периодов в течение всего анализируемого периода Т чаще реализуются типы трансформации cd = 1 (в 61% случаев) и cf = 1 (43%). Например, при переходе от í = 1 к t = 2 развитие всех кластеров, кроме двух (7-го и 10-го) происходит по типу cd =1.

Расщепление и слияние тем (cd = 2 и cf = 2) — происходит существенно реже — в 11% случаев. Исчезновение и возникновение новых тем происходит в 15% и 34% случаев соответственно. Периоды наибольшего обновления совпадают с временными отсчетами, в которые наблюдалось увеличение числа опубликованных докладов: t = 2 и t = 5. Кластеры 5-й и 6-й, t = 5 можно считать практически новыми, поскольку они содержат до 90% новых терминов.

На рисунках 2 и 3 показан граф формирования кластеров и граф их развития. Форма узлов и толщина стрелок зависят от того, какой тип развития или наследования реализуется. Прорисовывается не больше 3-х стрелок для cf = 3 и cd = 3. Один и тот же кластер на рисунке 2 и 3 может иметь разное количество вхо-

(а) 1 1 (б) 1 6

Рис. 1: Стратегические диаграммы двух периодов (а) и (б)

дягцих стрелок, т.к. прорисовывание стрелок зависит от значения Д11П, которое вычисляется для каждого случаев сё, и с/ различным образом. Вершины, не имеющие входящих стрелок на рисунке 2, являются вновь сформированными в данном временном периоде. Вершины, не имеющие выходящих стрелок на рисунке 3, являются исчезающими. Отсутствие полного набора кластеров в фиксированный период времени на рисунках фиксирует отсутствие вновь образованных (или сильно обновленных новой терминологией) кластеров (рис. 2, £ = 6) или переставших существовать (рис. 3, £ = 1).

Рис. 2: Сеть развития кластеров

Если рассмотреть реализацию типов развития и формирования кластера в совокупности (cd&cf) в отдельный временной период, то за весь рассматриваемый период (Т) самым частым вариантом формирования и дальнейшего развития является сохранение темы (с/ = 1&сс1 = 1) в 25 % случаев. В 19% случаев реализуется схема с/ = 4&сй =1 — образование новой темы с последующим сохранением. Следующий по числу случаев (14%) тип — с/ = 4&сй = 4, он характеризует случай кратковременного существования темы (характерна для £ = 2 и £ = 5). Оказались нереализованными 5 из 16 возможных типов, например, такие как с/ = 1&с<1 = 4 (кластеры, преимущественно сформированные из одного, не попали в исчезающие) и с/ = 3&с<1 = 4 (кластеры, сформированные из нескольких, не сохранились в следующем периоде).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таким образом, кластеры, наследующие и сохраняющие преимущественно одну тему в отдельные перпо-

t= 1

t - 2

t = 3

t = 4

t = 5

t = 6

Рис. 3: Сеть формирования кластеров

ды времени, в среднем реже прекращают существование, тогда как кластеры, сформированные из нескольких проявляют неустойчивость: они могут в следующий период времени как сохраняться, так распадаться на несколько.

Заключение

На основе кластеров, построенных с помощью программы Vosviewer на 6-ти коллекциях текстов конференций по катализу, проведен анализ смещения интересов исследователей в рамках отдельной ПО. Выявлены закономерности в поведении кластеров на уровне их формирования и развития для каждого временного периода. Построены графы формирования и развития кластеров на протяжении всего рассматриваемого временного периода. Проанализированы стратегические диаграммы начального и завершающего периода времени.

Дальнейшим развитием исследования может стать рассмотрение поведения кластеров, построенных на более узких специфических терминах с невысокой текстовой частотой. Интерес представляет сравнение полученных результатов с результатами, которые может дать анализ рейтинговых публикаций в журналах ПО.

Список литературы

fl] Small, Н. Tracking and predicting growth areas in science [Электронный ресурс]. http://www.scimaps.org/exhibit/docs/small.pdf (дата обращения: 10.04.2019).

[2] Van Eck, N.J., Waltman, L. Visualizing Bibliometric Networks [Электронный ресурс], https: //link.springer.com / chapter /10.1007

[3] Callon, M., Courtial, J.P., Laville F. Co-word analysis as a tool for describing the network of interaction between basic and technological research: the case of polymer chemistry // Scientometrics. 1991. N 22, P. 155205.

[4] Cobo, M.J., Lypez-Herrera, A.G., Herrera-Viedma, E., Herrera, F. An approach for detecting, quantifying, and visualizing the evolution of a research field: A practical application to the Fuzzy Sets Theory field [Электронный ресурс], https://www.sciencedirect.com/science/article/pii/ S1751157710000891 (дата обращения: 10.04.2019). 2019/03/23.

[5] Boyak, K.W., Borner, К., Klavans, R. Mapping the structure and evolution of chemistry research [Электронный ресурс], https://www.researchgate.net/publication/298808287_Mapping_the_Structure_and _Evolution_of_Chemistry_Research (дата обращения: 12.04.2019).

[6] Kandilas, V., Uphum, S. P., Ungar, L. H. Analyzing knowledge communities using foreground and background clusters [Электронный ресурс], http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.146.3141&rep= repl&type=pdf (дата обращения: 12.04.2019).

[7] VOSviewer Homepage [Электронный ресурс], http://www.vosviewer.com/ (дата обращения: 23.03.2019).

[8] RAWGraphs Homepage [Электронный ресурс], http://app.rawgraphs.io/ (дата обращения: 23.03.2019).

Пименов Иван Сергеевич — магистрант Новосибирского государственного университета

e-mail: pimenov@yandex.ru

Саломатина Наталья Васильевна — к.ф.-м.н., с.н.с. Института математики им. С. Л. Соболева

e-mail: salomatina_ nveiive.ru. Дата поступления — 30 апреля 2019 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.