2017. 03. 025. Хассе А. А. , сохейли Ф. , Могаддам Х. Ш. Инфометрическое структурирование знаний: анализ совпадающих слов. Khasseh A. A. , Soheili F. , Moghaddam H. S. intellectual structure of knowledge in iMetrics: a co-word analysis // information processing and management. - 2017. - Vol. 53. - p. 705-720

Анисимова А.Э.

ничестве, обязаны предупреждать соответствующие органы, чтобы обеспечить надлежащее расследование.

Авторы также предостерегают от абсолютизации ИФ в качестве показателя успеха журнала. Высокие показатели цитирования статьи могут означать большое количество критических замечаний. В то время как ИФ предназначен для измерения влияния журнала в целом, он часто оказывается результатом цитирования одной или двух статей и используется для оценки отдельных документов или даже авторов. В частности, цитирование отклоненных рукописей было распределено неравномерно. С учетом этого «Анестезия», как и многие другие журналы, теперь использует Altmetric - более быструю и гибкую метрику популярности отдельных статей1, которая позволяет оценивать влияние отдельных статей с момента их публикации. Altmetric отслеживает разные источники, в том числе социальные сети (Twitter, Facebook, блоги), традиционные средства массовой информации (выпуски новостей и доклады), и используется на сайтах менеджеров ссылок литературы, таких как Mendeley2. Однако эти измерения могут служить только показателем внимания к статье, но не показателем качества исследований.

В заключение авторы рекомендуют редакциям других журналов провести подобное исследование с целью контроля качества их работы. На основе проведенного анализа авторы делают вывод, что журнал принимает к печати статьи наивысшего качества, которые часто используются для дальнейших исследований. Кроме того, это исследование должно продемонстрировать авторам статей, отклоненных в «Анестезии», что у них есть хорошие шансы опубликовать их в других рецензируемых журналах.

Е.Г. Гребенщикова

2017.03.025. ХАССЕ А. А., СОХЕЙЛИ Ф., МОГАДДАМ Х.Ш. ИН-ФОМЕТРИЧЕСКОЕ СТРУКТУРИРОВАНИЕ ЗНАНИЙ: АНАЛИЗ СОВПАДАЮЩИХ СЛОВ.

KHASSEH A.A., SOHEILI F., MOGHADDAM H.S. Intellectual structure of knowledge in iMetrics: A co-word analysis // Information processing and management. - 2017. - Vol. 53. - P. 705-720.

1 Altmetric. - Mode of access: https://www.altmetric.com

2

Mendeley. - Mode of access: http://www.mendeley.com

Ключевые слова: инфометрия; анализ совпадающих слов; дерево знаний; структура знания.

Авторский коллектив - сотрудники факультета библиотечных и информационных наук Университета Пайаме Нур в Иране -исследуют популярное в современной наукометрии направление, в рамках которого разрабатывается методика, позволяющая строить смысловые иерархические модели и образы на основе совпадающих слов или терминов. Авторы используют методику «анализа совпадающих слов» (АСС) (co-word analysis) в двояком смысле. С одной стороны, на ее основе строится само исследование предметной области, а с другой - работы, посвященные этой методике, становятся объектом анализа и применения этой методики. Существующие в рамках библиотечных и информационных наук метрические исследования включают в себя АСС.

АСС - технология анализа структуры научного знания, которая основывается на определении взаимоотношений между словами в документе, включая заголовок, ключевые слова и аннотацию. Близость терминов и слов в двух документах позволяет судить о том, что и сами документы принадлежат к одному тематическому кластеру. Так выглядит классический вариант исследования1.

Благодаря АСС возможно исчерпывающе описывать меняющуюся исследовательскую тематику во времени внутри определенной области знания. Подразумевается, что частота совпадения слов и их значимость для текста - взаимосвязанные параметры. Однако это не всегда верно, поскольку в языке наиболее распространенными являются слова живого языка, не относимые к определенной области знания. Для того чтобы обойти это препятствие, в ряде исследований предпринимается попытка анализа совпадающих терминов (АСТ) (co-occurrence keywords)2, характеризующих научную область более определенно.

В 1994 г. было проведено первое тематическое исследование в области инфометрии с целью охвата тематического разнообразия

1 Ronda-Pupo G.A., Guerras-Martin L.A. Dynamics of the evolution of the strategy concept 1962-2008: A co-word analysis // Strategic management journal. - 2012. -Vol. 33, N 2. - P. 162-188. - DOI: 10.1002/smj.

Hu J., Zhang Y. Research patterns and trends of recommendation system in China using co-word analysis // Information processing & management. - 2015. -Vol. 51, N 4. - P. 329-339.

в рамках направления АСС1. Были проанализированы 595 научных статей за период с 1988 по 1993 г. (с. 706). В результате были выделены следующие смысловые наукометрические кластеры: «базы данных», «анализ цитирований», «авторская продуктивность», «оценка научного труда», «закон рассеяния», «библиометрия», «анализ совпадающих слов», «импакт-фактор журнала». Анализ показал, что 1992 г. является переломным, и перелом этот обозначается как сдвиг от исследований баз данных в сторону методик оценки качества научных исследований.

Существуют и другие работы, в которых в результате иерархической кластеризации инфометрические группы терминов выходили на первый план. Они наглядно демонстрируют, что проблематика библиометрического анализа больших массивов данных не исчезает и в 2016 г.

Однако далеко не все исследования инфометрических публикаций подтверждают стабильность интереса к тематике АСС. Публикации «Инфометрического журнала» (Journal of informetrics) за период 2007-2012 гг. говорят о росте значения других тем - «цити-руемости» публикаций, индекса Хирша, вопросов визуализации данных в общей тематике.

В исследованиях АСС нередко встречаются одни и те же недостатки, первым из которых считается использование уже готовых «ключевых слов». Метод этот считается не совсем корректным в силу того, что классификационные системы быстро устаревают. Многое упускают и те исследователи, которые полагают возможным включать в анализ только престижные журналы (core journals), например для анализа инфометрических кластеров опираются только на публикации журнала «Scientometrics».

Модель АСС была заложена в ряде работ крупного нидерландского исследователя Л. Лейдесдорффа2. Он создал целый пакет

1 Courtial J.P. A co-word analysis of scientometrics // Scientometrics. - 1994. -

Vol. 31, N 3. - P. 251-260.

2

Referenced publication years spectroscopy applied to iMetrics: Scientometrics, Journal of informetrics, and a relevant subset of JASIST / Leydesdorff L., Bornmann L., Marx W., Milojevic S. // Journal of informetrics. - 2014. - Vol. 8, N 1. - P. 162-174; Milojevic S., Leydesdorff L. Information metrics (iMetrics): A research specialty with a socio-cognitive identity // Scientometrics. - 2013. - Vol. 95, N 1. - P. 141-157. -DOI :10.1007/s11192-012-0861-z.

прикладных программных продуктов, необходимых для обработки данных и их последующей кластеризации1.

Материал для предпринятого авторами исследования был взят из библиографической базы данных «Паутина науки». Предметом анализа стали все статьи без исключения из журналов «Sci-entometrics» и «Journal of informetrics», а также публикации на ин-фометрическую тематику из журналов: «Information processing and management», «Journal of American society for information science and technology», «Journal of documentation», «Journal of information science», «Research evaluation» и «Research policy». Для того чтобы определить, какие именно публикации в этих шести журналах релевантные, были проанализированы ссылки, встречающиеся в этих публикациях, на статьи в журналах «Scientometrics» и «Journal of informetrics». Реализована эта задача была при помощи программы Л. Лейдесдорффа «isi.exe». В дополнение к этому в базу были добавлены публикации из шести вышеупомянутых журналов, в которых в значительном количестве были употреблены релевантные ключевые слова. Итоговая база содержала в себе 5924 публикации (с. 709).

На первом этапе из полученной базы были извлечены два вида ключевых слов: авторские ключевые слова и ключевые слова, выделенные автоматически из названий процитированных публикаций (keywords plus). Многие специалисты считают добавление ключевых слов оправданным, поскольку авторские ключевые слова иногда носят субъективный характер и оказываются малопригодными для анализа. Далеко не все журналы имели оба вида ключевых слов на протяжении всего периода. До 1990 г. публикации вообще не сопровождались системой ключевых слов. Автоматическая обработка для ряда журналов началась не одновременно (процедура заняла период с 1991 по 2007 г.). Из полученной базы 4567 публикаций имели по крайней мере один из видов ключевых слов (с. 709).

Ключевые слова были загружены в один файл и проанализированы (6532 ключевых слова были повторены в базе 29 239 раз) (с. 709). В среднем каждая статья имела около шести ключевых

1 К сожалению, применять эти программы, лежащие в открытом доступе в Интернете, для анализа русскоязычных текстов невозможно, так как они предназначены для файлов с латинским алфавитом. - Прим. реф.

слов. Список ключевых слов был вручную обработан экспертами. В результате обработки синонимы были удалены. В конечную базу были помещены только те ключевые слова, которые повторялись не менее 20 раз (с учетом закона рассеяния Бредфорда). 155 часто повторяемых слов были помещены в окончательную матрицу.

С помощью специального программного продукта UCINET полученная матрица была преобразована в корреляционную матрицу. Иерархическая кластеризация была произведена при помощи статистического пакета SPSS.

В результате был выделен список из 30 наиболее часто употреблявшихся терминов и список из 30 наиболее часто употреблявшихся пар терминов (15 из них приведены в табл.).

Таблица (с. 710)

Ранжирование СС с учетом частоты совпадения

№ Пара терминов - ключевых слов Частота употребления

1 Citation analysis Impact indicators 529

2 H-index Impact indicators 368

3 Impact indicators Research performance 334

4 Citation analysis H-index 242

5 Impact indicators Journals 236

6 Impact indicators Scientific collaboration 228

7 Co-authorship networks Scientific collaboration 223

8 Citation analysis Journals 216

9 Bibliometric analysis Citation analysis 206

10 Impact indicators Publication analysis 200

11 Impact indicators Productivity 199

12 Citation analysis Impact factor 189

13 Citation analysis Publication analysis 185

14 Bibliometric analysis Impact indicators 178

15 Citation analysis Research performance 144

Из таблицы можно определить по крайней мере два термина, образующих наиболее крупные кластеры («citation analysis» и «impact factor»).

Полученный результат обрабатывался с помощью методов иерархической кластеризации. На основе матрицы частоты совпадающих терминов строится корреляционная матрица, которая, в свою очередь, обрабатывается статистическим пакетом SPSS с целью построения кластеров и дендрограммы, отражающей иерархи-

ческое расположение терминов. Формирование кластеров реализуется на основе использования метода Уорда и «квадратного евклидова расстояния».

В результате прохождения всех этапов обработки авторы получили 11 доминирующих кластеров: 1) наукометрические базы данных и индикаторы; 2) теоретическую базу анализа цитирований; 3) социологию науки; 4) рейтинги журналов и рейтинги университетов; 5) визуализацию информации и работу с большими базами данных; 6) интеллектуальную структуру науки и АСС; 7) вебометрию; 8) взаимодействие промышленности, высшего образования и государственного сектора; 9) технометрию (инновации и патенты); 10) сетевой (кластерный) анализ; 11) совместные научные исследования в университетах.

Для каждого из 11 кластеров была построена своя матрица частоты и корреляционная матрица. С помощью программы UCINET для каждого кластера были рассчитаны показатели плотности (density) и центричности (centrality). Кластеры с хорошей центричностью считаются устойчивыми, они занимают надежное положение в рамках дисциплинарной целостности. К ним отнесены второй, восьмой, пятый и одиннадцатый кластеры. Напротив, маргинальными для инфометрии оказались третий, четвертый и десятый кластеры.

Высокий уровень «плотности» тематики говорит о хорошей проработанности области. Высокие показатели «плотности» продемонстрировали пятый, девятый и одиннадцатый кластеры. Бедной тематикой отличились кластеры один, три, четыре и десять. В этой группе, как видно, оказалась тема «наукометрические базы данных и индикаторы».

Проведенный анализ позволяет определить не только устойчивые, но и так называемые растущие кластеры, к числу которых отнесены: «извлечение информации и визуализация знания», «интеллектуальное структурирование науки», «вебометрический анализ», «взаимодействие промышленности, высшего образования и государства» и «технометрия».

В заключение авторы отмечают, что данное исследование имеет свои ограничения, так как не включает периодику на национальных языках, а также анализ научных книг. Помимо анализа

ключевых слов целесообразно было бы в будущем провести исследование на базе полного семантического анализа текстов.

А.Э. Анисимова

2017.03.026. РАЗМЕР СЛОВАРЯ И ЕГО ВЛИЯНИЕ НА ПРЕДСТАВЛЕНИЕ ТЕМАТИКИ / КУН ЛУ, КСИН КА, АЖИФЕРУКЕ И., ВОЛЬФРАМ Д.

Vocabulary size and its effect on topic representation / Kun Lu, Xin Cai, Ajiferuke I., Wolfram D. // Information processing and management. -2017. - Vol. 53. - P. 653-665. - Mode of access: http://dx.doi. org/10.1016/j.ipm.2017.01.003

Ключевые слова: информационный поиск; инфометрия; тематическое моделирование; размер словаря; частота употребления термина; латентное размещение Дирихле.

Авторы публикации - специалисты в области библиотечных и информационных наук, сотрудники университетов США и Канады занимаются вопросами «тематического моделирования» (ТМ) (topic modeling) машинным способом при обработке больших массивов данных. ТМ обычно применяется при информационном поиске (ИП) (information retrieval) c целью обнаружения скрытой тематики. Применение технологии ТМ позволяет свести текст, состоящий из миллионов терминов, к нескольким сотням тем, а также определить вероятность, с которой в той или иной тематике генерируются различные слова.

Наиболее распространенными методами ТМ считаются латентное размещение Дирихле (latent Dirichlet allocation - LDA) и вероятностное латентно-семантическое индексирование (probabilistic latent semantic indexing - pLSI). Основы LDA были заложены Д. Блеем, Э. Ыном и М. Джорданом в 2003 г.1

Авторы публикации рассматривают ТМ как альтернативную основу уже ставшему традиционным анализу связей между исследователями на основе подсчета цитирований. В случае наукометрического анализа на основе цитирований цитата становится обязательным условием определения связи между авторами или между

1 Blei D., Ng A.Y., Jordan M.J. Latent Dirichlet allocation // Journal of machine learning research. - 2003. - Vol. 3. - P. 993-1022.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Анисимова А.Э.