Научная статья на тему 'Наукометрия и полнотекстовая аналитика в российских реалиях'

Наукометрия и полнотекстовая аналитика в российских реалиях Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
166
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НАУКОМЕТРИЯ / SCIENTOMETRICS / ПОЛНОТЕКСТОВЫЙ АНАЛИЗ / FULL-TEXT ANALYSIS / АНАЛИЗ НАУЧНЫХ ЦИТИРОВАНИЙ / ANALYSIS OF SCIENTIFIC CITATIONS / АВТОМАТИЗИРОВАННАЯ ОЦЕНКА НАУЧНЫХ РАБОТ / AUTOMATED ASSESSMENT OF SCIENTIFIC WORKS

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Тихомиров Илья Александрович, Соченков Илья Владимирович, Швец Александр Валерьевич

В статье описаны основные проблемы, с которыми сталкивается современная наукометрия в российских реалиях при попытке ее применения к ряду задач, связанных с оценкой научной деятельности. Представлено обоснование необходимости решения этих проблем за счет использования анализа полных текстов научных публикаций. Предложена система индикаторов для автоматизированной оценки больших массивов научных работ. Рассмотрены методы, основанные на достижениях компьютерной лингвистики, позволяющие выполнять полнотекстовый анализ и определять значения индикаторов, которые вместе с традиционными наукометрическими показателями могут быть использованы для всесторонней оценки публикаций.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Тихомиров Илья Александрович, Соченков Илья Владимирович, Швец Александр Валерьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Scientometrics and full-text analysis in Russian realities

The article describes main problems related to the applying scientometric methods in Russian realities. It justifies the use of full-text analysis in solving these problems. The system of indicators aimed to conduct the automated assessment of a large corpus of scientific works is presented. The article examines methods that can be used to conduct the full-text analysis and to determine the value of the indicators under review. These methods are based on the progress of the modern computational linguistics. Such methods, as well as traditional scientometric indicators, can be used to conduct a thorough analysis of scientific texts.

Текст научной работы на тему «Наукометрия и полнотекстовая аналитика в российских реалиях»

И.А. Тихомиров, И.В. Соченков, А.В. Швец

НАУКОМЕТРИЯ И ПОЛНОТЕКСТОВАЯ АНАЛИТИКА В РОССИЙСКИХ РЕАЛИЯХ

Ключевые слова: наукометрия; полнотекстовый анализ; анализ научных цитирований; автоматизированная оценка научных работ.

Keywords: scientometrics; full-text analysis; analysis of scientific citations; automated assessment of scientific works.

Аннотация. В статье описаны основные проблемы, с которыми сталкивается современная наукометрия в российских реалиях при попытке ее применения к ряду задач, связанных с оценкой научной деятельности. Представлено обоснование необходимости решения этих проблем за счет использования анализа полных текстов научных публикаций. Предложена система индикаторов для автоматизированной оценки больших массивов научных работ. Рассмотрены методы, основанные на достижениях компьютерной лингвистики, позволяющие выполнять полнотекстовый анализ и определять значения индикаторов, которые вместе с традиционными наукометрическими показателями могут быть использованы для всесторонней оценки публикаций.

Abstract. The article describes main problems related to the applying scientometric methods in Russian realities. It justifies the use of full-text analysis in solving these problems. The system of indicators aimed to conduct the automated assessment of a large corpus of scientific works is presented. The article examines methods that can be used to conduct the full-text analysis and to determine the value of the indicators under review. These methods are based on the progress of the modern computational linguistics. Such methods, as well as traditional scientometric indicators, can be used to conduct a thorough analysis of scientific texts.

Введение

В настоящее время ведутся активные дискуссии о возможности использования наукометрии для оценки ученых, составления рейтингов вузов, оценки качества научных журналов, выявления приоритетов исследований и целого ряда других задач. Однако при всех плюсах наукометрии важно понимать, с какими данными в цитатных базах мы имеем дело и как в них реально отражена российская наука. Так, анализ структуры российской науки по Scopus [38] или WoS [43] показывает сильные различия со структурой в РИНЦ [12]. Если в западных базах больше всего отечественных публикаций по физике, математике, астрономии, науках о материалах, химии, то в РИНЦ лидируют медицина, юридические науки и педагогика [6]. Сравнение реальных объемов выпускаемых в России научных публикаций с их отражением в Scopus или WoS показывает, что в эти цитатные базы попадает менее 10% от всего потока. Это значительно искажает оценки, вычисляемые с помощью наукометрических методов. К тому же, различные авторы уже неоднократно отмечали, что наши статьи плохо цитируются западными учеными, таким образом, мы имеем дело со слабо связанным графом цитирований российских работ в Scopus или WoS, а при малых значениях и тематической несбалансированности выборки делать статистически достоверные выводы невозможно [9]. Даже притом что в РИНЦ индексируется на порядок больше статей из российского сегмента, чем в Scopus или WoS, мы не можем делать достоверные выводы, так как российская культура цитирования развита очень слабо, и имеет место тот же слабосвязный граф цитирований.

Другой проблемой является возможность умышленного завышения значений наукометрических показателей. Известны случаи публикации сборников статей, каждая из которых имеет малый размер и ссылается на работы одного автора [15]. При выпуске нескольких таких сборников в год этот автор может получить сотни цитирований. Еще один способ - создание нечетких дублей статей с незначительно измененными названиями и содержимым, список литературы в таких статьях тоже дублируется, искусственно завышая цитируемость определенного автора. Также встречается случай не вполне корректного увеличения цитирования при рецензировании статей, когда рецензент указывает на необходимость сослаться на ряд работ, которые имеют отношение либо к нему самому, либо опубликованы в продвигаемом издательством журнале. Известны

и другие способы искусственного увеличения количества цитирований: вставка ссылок на публикации, не имеющие никакого отношения к содержанию статьи; приписывание авторов к статьям, которые они даже не читали; добавление в списки литературы без ведома авторов ссылок на публикации и др.

Таким образом, можно сделать вывод, что использование только наукометрических методов для анализа широкого спектра состояния дел в отечественной науке недостаточно. Существенную помощь в решении проблем с искусственным увеличением количества цитирований и слабосвязным графом цитирований могли бы оказать средства анализа полных текстов научных публикаций, которые позволили бы не только выявлять подобные случаи, но и оценивать качество текстов. Рассмотрим в настоящей работе возможное решение обозначенных проблем с применением достижений современной компьютерной лингвистики.

Анализ качества научных публикаций

При помощи традиционных наукометрических инструментов РИНЦ можно вычислить такие показатели, как импакт-фактор, индекс Хирша, индекс Херфиндаля и ряд других. Однако по причине попадания в РИНЦ статей вне зависимости от импакт-фактора журналов гарантировать, что вычисленные значения соответствуют действительности, построены на публикациях надлежащего качества и отражают реальное положение дел, невозможно. Для этого требуется провести детальное изучение тех источников, на основе анализа которых они были получены. Если для отдельно взятого ученого провести такую «ручную» оценку в целом возможно, то для организации, когда количество рассматриваемых публикаций превышает несколько сотен, а количество ссылок - несколько тысяч, «ручная» проверка становится невозможной. Кроме того, импакт-фактор журнала не является достаточным и необходимым показателем для оценки качества опубликованных материалов, поскольку он тесно связан с культурой и принятой практикой научного цитирования, которая варьируется в зависимости от предметной области. Далее рассмотрим основные способы анализа полных текстов, которые могут помочь в выявлении фиктивных ссылок и научных работ низкого качества, и сформируем систему индикаторов для автоматизированной оценки больших массивов научных публикаций. Эти индикаторы позволят выделять работы низкого качества, опубликованные в основном с целью быстрого

увеличения значений классических наукометрических показателей (количество опубликованных работ, количество цитирований, индекса цитирования и проч.) недобросовестных исследователей. Рассматриваемые далее индикаторы и наукометрические показатели не являются абсолютными. Взятые по отдельности, без верификации экспертом, они не свидетельствуют ни о высоком, ни о низком уровне оцениваемой научной работы. Однако в совокупности они могут служить мощным критерием первичного отделения недоброкачественных научных работ от остальных.

1. Размер публикации. Оценку публикации можно начать, просто определив ее размер по количеству содержащихся в ней слов. Если публикация представляет собой краткие тезисы, то, скорее всего, она опубликована в низкорейтинговом журнале или сборнике тезисов. Безусловно, участие с докладами в научных мероприятиях, семинарах и конференциях и публикация тезисов являются важной составляющей научной деятельности. Конференции, ориентированные на студентов и аспирантов, также играют важную роль в подготовке будущих научных работников высокого уровня. Однако среди представленных на них работ часто встречаются обзорные тезисы, а также публикации в большей степени технического характера, нежели научные. Такие работы относительно невелики по объему, однако содержат большое количество ссылок [15]. Этот фактор также можно учитывать при автоматизированной оценке научных работ.

2. Заимствования в публикации. Критерий оригинальности научной публикации является весьма важным в современной научно-образовательной среде. Общепризнанным является тот факт, что в научных работах недопустим плагиат в любой его форме. С интенсификацией процесса научных исследований в условиях острой необходимости публикации недобросовестные исследователи применяют практику присвоения чужих результатов. Опыт экспертных исследований вольного сетевого сообщества «Дис-сернет» показывает [4, 10, 11], что недобросовестные авторы часто используют дословные заимствования чужого текста, в некоторых случаях прибегая к его перефразированию.

Близкой проблемой являются самоповторы, когда одна и та же научная работа, возможно, с некоторыми изменениями, публикуется в нескольких журналах или представляется на нескольких конференциях. В разных областях научных знаний приняты различные негласные соглашения о том, какой материал можно считать новым, оригинальным и допустимым, а какой не удовлетворяет

понятию оригинальной научной работы и, следовательно, является повтором (допустимыми считаются количества самоповторов от 30 до70% текста публикации).

3. Проверка грамотности. Требование к грамотности текста является одним из наиболее важных. При написании статьи необходимо «представить полученные значимые научные результаты в такой форме, чтобы текст не только адекватно отражал интеллектуальное содержание, но и соответствовал критериям культуры речи в сфере научной коммуникации» [7]. Среди частых нарушений норм культуры речи можно выделить нарушение синтаксической и семантической связности слов, нарушение последовательности изложения, употребление плеоназмов, нарушение правил согласования и другие. Тексты, содержащие такие нарушения, как правило, не позволяют в совершенстве понять содержание и разобраться в представленных результатах. Если бы не целенаправленное искусственное увеличение цитирований, такие тексты, в большинстве своем, так и остались бы незамеченными научным сообществом. Однако высокие показатели цитируемости заставляют ученых вновь и вновь обращаться к этим статьям и тратить свое время на попытку осознать их и найти для себя что-то ценное. В связи с этим автоматическое выявление перечисленных выше нарушений является необходимым условием при оценке качества текстов научных статей. Стоит также отметить, что подобные нарушения могут допускаться недобросовестными авторами целенаправленно для искажения заимствованного текста, что усиливает значимость методов определения грамотности текста.

4. Оценка лексики. Критерий употребления лексики, подобающей научным работам, перекликается с предыдущим критерием, поскольку так же основан на необходимости соблюдения культуры речи. При написании научных текстов принято использовать научный функциональный стиль речи, который обладает следующими свойствами: обобщенно-отвлеченный характер речи, подчеркнутая логичность, последовательность изложения, его доказательность и аргументированность, точность, ясность, объективность, некатегоричность изложения. Точность формулировок достигается употреблением терминов, абстрактной лексики и устойчивых общенаучных словосочетаний. Под общенаучными словосочетаниями и выражениями понимают научные и технические термины и различные выражения общего характера, такие как: «принятая гипотеза», «по указанной причине», «обосновать вывод», «описанный ниже» и другие [22]. Использование таких выражений позволяет

логично выстроить содержание текста, передать мысль наиболее строгим образом. Отклонение от научного стиля приводит к снижению ясности изложения, начинает прослеживаться субъективный характер высказываний, текст становится менее информативным, читателю приходится догадываться, что автор имел в виду.

5. Оценка соответствия структуры. В каждой предметной научной области существует своя устоявшаяся структура текста, которая позволяет научному сообществу объективно оценить выполненное исследование, воспроизвести эксперименты и правильным образом использовать представленные методы и результаты. Например, во многих естественных науках принята структура ¡МЯЛО [24], согласно которой статья, описывающая результаты оригинального экспериментального исследования, должна включать в себя следующие основные разделы: «Введение и постановка проблемы», «Методы или теоретическое обоснование», «Результаты» и «Выводы и обсуждение». Работы, структура которых не соответствует принятым нормам, не может быть по достоинству оценена учеными, поскольку она не обладает полнотой содержания и тем самым ограничивает их доступ к необходимой информации. Если автор в своих публикациях не представляет новые научные результаты (ни положительные, ни отрицательные), то его по одним лишь публикациям сложно отнести к ученым. Оценка научной деятельности такого автора не имеет смысла, даже в том случае, если он по каким-либо причинам имеет высокий рейтинг цитирования. Поэтому оценка содержательной составляющей текста, а именно проверка соответствия структуры требованиям, предъявляемым к научным публикациям, является важным критерием оценки качества научных работ.

6. Тематическое соответствие. Важным фактором, который следует учитывать для выявления низкокачественных публикаций, является тематическое соответствие цитирующей и цитируемой работ. Большинство источников в списке литературы должно относиться к той же теме, что и содержащая их публикация. Если же в публикации присутствует несколько тем, то и источники в списке литературы должны, преимущественно, относиться к этим темам. Само понятие темы может трактоваться достаточно широко, однако наличие в статье по тематике одной предметной области значительного числа ссылок на работы другой предметной области в совокупности с другими рассматриваемыми здесь факторами может трактоваться как свидетельство невысокого уровня статьи и яв-

ляться попыткой ввести читателя в заблуждение неподходящими цитированиями.

7. Совпадающий контекст. Этот критерий тесно связан с предыдущим. Контекст ссылки цитируемой публикации должен пересекаться с контекстом цитирующей публикации в пределах некоторой окрестности ссылки, т.е. текст абзаца (в общем случае некоторого окружения ссылки) в большинстве случаев должен соотноситься (явно или тематически) с текстом документа, на который в этом абзаце присутствует ссылка. В простом случае цитата может представлять собой дословное или перефразированное (корректное) заимствование. В более сложном случае, когда идет неявная отсылка к цитируемой публикации, в контексте цитирования должны присутствовать термины, понятия, лексика, имеющая отношение к теме цитируемого документа.

Этот критерий важен также с точки зрения верификации корректности цитирований, поскольку заимствованный из одного источника текст может быть оформлен как цитата из другого источника, не имеющего отношения к оригиналу.

8. Оценка тональности цитирования. Этот критерий важен с точки зрения оценки не самой цитирующей работы, а, скорее, для понимания того, как положительный / отрицательный контекст может быть учтен при рейтинговании цитируемых работ. В научном сообществе наиболее распространенным является случай положительного или нейтрального цитирования. Это ситуация, когда публикуемые результаты исследования опираются на ранее полученные результаты, сравниваются с предшествующим научным уровнем и аналогичными подходами. С другой стороны, возможна ситуация, когда научное цитирование указывает на недостатки работы, на которую приводится ссылка.

9. Проверка наличия ссылки. Один из индикаторов связан с проверкой корректности библиографического списка: наличие в тексте научной работы ссылок на все источники, добавленные в этот список. Регулярно появляются статьи, авторы которых необоснованно вставляют в список литературы ссылки на источники, которые не используют в своей работе, однако такие источники затем получают дополнительные цитирования. Эти случаи должны учитываться при вычислении наукометрических показателей, основанных на цитированиях, чтобы не завышать значимость публикаций, которые по факту использовались не во всех цитирующих их работах.

10. Выявление неявных цитирований. Этот критерий позволяет, в некотором смысле, оценить полноту библиографического списка по отношению к содержанию статьи. Если автор использует формулировки результатов, которые встречались в предшествующих работах других авторов, можно указать на наличие связи между этими работами. То же самое может относиться к определениям терминов, которые, наряду с результатами, выступают в работах как важный самостоятельный объект. Наконец, наличие других работ, тематически очень близких к рассматриваемой, также может свидетельствовать о наличии неявной связи, которую автору уместно было бы выразить в виде библиографической ссылки.

11. Проверка знакомства авторов статьи с современным состоянием исследований. Анализ библиографического списка позволяет в некоторой мере определить, знаком ли автор с текущим положением дел в исследуемой предметной области. Так, список должен включать цитирования современных работ и наиболее цитируемых другими публикациями по схожей теме. Низкая осведомленность автора о теме приводит к неоправданно высокому самоцитированию: автор начинает ссылаться по большей части на свои работы, считая, что никто подобной проблемой не занимался. Такая публикация имеет низкую информативность, читатель не имеет возможности оценить, как соотносятся представленные результаты с мировым уровнем, можно ли их использовать, или они в реальности уже являются устаревшими и неактуальными.

Методы полнотекстового анализа

Для решения задачи оценки научной деятельности и экспертизы научных публикаций могут применяться автоматизированные средства - информационно-аналитические системы научной информации, например, SciVal [36], Scopus [37], WoS [43]. Функциональность этих систем ориентирована на анализ библиометрических показателей отдельных научных публикаций, а также научных изданий и других субъектов научной деятельности. При этом ни одна из перечисленных систем не включает в себя автоматизированный анализ содержания научных работ (как уже опубликованных, так и представленных к публикации). Однако именно содержание публикаций является определяющим при экспертной оценке научных работ. В [28, 31] формулируются принципы рецензирования и критерии экспертной оценки научных работ, сходные по своей природе с критериями, предложенными в настоящем исследовании.

Индикаторы и критерии оценки научных работ, представленные в предыдущем разделе, предполагают автоматическую обработку полных текстов научных публикаций и другой научно-технической информации. Исключительно ручная «экспертная» оценка научных работ в значительной степени затруднена из-за объемов ежегодно публикуемых научных материалов. Готовых информационно-аналитических решений, способных заменить эксперта, в настоящее время не создано ни в России, ни за рубежом, однако основы соответствующих информационных технологий успешно развиваются, в том числе и в нашей стране.

Далее рассмотрим актуальные направления исследований в сфере полнотекстового анализа и наукометрии, ориентированные на решение задач автоматизированной оценки научных работ в соответствии с вышеприведенными индикаторами. В основе всех предлагаемых далее решений лежат современные методы, относящиеся к области информационного поиска, обработки больших массивов данных и машинного обучения.

При определении отношения размера публикации и количества использованных источников возникает задача выделения библиографических ссылок в тексте. Эта задача успешно решается с высокой точностью путем применения методов извлечения информации [23]. Более того, выделенные библиографические записи разделяются на части с определением значимых атрибутов: фамилий авторов, заглавия публикаций, названия и места издания, года публикации и т.п. Эта информация размещается в структурированной базе данных и учитывается впоследствии при оценке других критериев, в том числе при проверке знакомства авторов статьи с современным состоянием исследований. Автоматическое сопоставление выделенных записей со ссылками в тексте с применением регулярных выражений позволяет проверить наличие ссылки для каждой записи. Обозначенные курсивом индикаторы в сочетании с наукометрическими показателями цитирования дадут прирост точности при оценке публикаций.

Масштабы проблемы заимствований в публикациях привели к появлению ряда отечественных и зарубежных систем, успешно определяющих дословные заимствования с минимальными изменениями текстов источников («Антиплагиат» [2], ТигшАп [41]). Это способствовало тому, что недобросовестные исследователи стали применять различные техники сокрытия заимствований: от изменения порядка слов, удаления, добавления и перестановки фрагментов текста до перевода текста с другого языка. Следует отметить,

что «переосмысление», перефразирование текста чужой или собственной работы является «пограничным случаем», оценить который с точки зрения научной этики может только эксперт в соответствующей области науки. Точное значение «процента оригинальности» или «уровня заимствований» служит лишь ориентиром для привлечения внимания эксперта к возможной проблеме. Поэтому в современных реалиях важно обнаруживать заимствование «идей»: сильное перефразирование исходного текста с сохранением смысла и переводной плагиат. Определенные успехи достигнуты в обнаружении заимствований обоих типов [35, 40, 42]. В обоих случаях лучшим методом является сопоставление работ по спискам цитируемой литературы и по порядку следования библиографических ссылок в тексте [5, 25]. Однако если публикация является компиляцией с перестановкой частей нескольких работ, этот метод оказывается бессилен. Альтернативой ему (для обнаружения смысловых заимствований) является метод на основе полного семантического анализа и многокритериального сопоставления текстов [39, 44].

В области проверки грамотности текста основным применяемым средством является инструмент проверки правописания Microsoft Word [33]. Он позволяет найти большинство часто допускаемых грамматических ошибок, однако ряд нарушений остается не выявленным. Для публикаций на английском языке может быть использована развивающаяся система Grammarly.com [27], для русского языка исследования по анализу полных текстов с целью выделения дополнительных нарушений находятся на стадии развития. Например, в [18] предлагается метод, в основе которого лежит автоматизированный подход к построению правил, с помощью которых можно выявлять нарушения синтаксической и семантической связности слов, нарушения последовательности изложения, употребление плеоназмов, нарушения правил согласования.

Для того чтобы оценить лексику текста и определить, содержатся ли в тексте слова, характерные для научных текстов, могут применяться специальные общенаучные словари. При этом эффективнее рассматривать не отдельные слова, а словосочетания с синтаксическими или семантическими связями. В [16] предложен метод формирования словаря общенаучных словосочетаний и показано, что с его использованием возможно автоматически отличить научные тексты от научно-популярных и ненаучных текстов.

Оценка соответствия структуры текста может быть выполнена с применением методов машинного обучения, позволяющих автоматически классифицировать фрагменты текстов в соответ-

ствии с их содержанием, по различным структурным категориям. В [20] представлен метод для распределения предложений по категориям «Введение», «Методы», «Результаты» и «Выводы» (ГМКАО). В качестве признаков классификации использовались слова и их последовательности, наличие цитирований, времена глаголов, позиция в тексте. Для некоторых предметных областей выделяют и другие категории предложений. Например, в [31] для публикаций по химии и биологии различают следующие: «Гипотеза», «Мотивация», «Цель», «Объект», «Фон», «Метод», «Эксперимент», «Модель», «Наблюдение», «Результат», «Вывод». Обе указанные выше работы использовали в качестве основного признака классификации заголовки разделов в тексте, которые были одинаковыми в большинстве отобранных для экспериментов статей и часто совпадали с названием категории. Для статей с нестандартными или отсутствующими заголовками могут применяться другие методы, например, основанные на выявлении специальных маркеров, характерных для той или иной структурной категории [8].

Рассмотрим несколько существующих способов оценки тематического соответствия текстов.

Первый способ основан на применении рубрикаторов (УДК, ГРНТИ, МПК и др.) с предопределенной иерархией классов. Этот метод имеет множество недостатков, главный из которых состоит в неоднозначности критериев отнесения документов к рубрикам, а также в запутанности структуры самой иерархии. На практике это затрудняет ручную классификацию документов по рубрикам, делает ее неоднозначной и противоречивой (разные эксперты относят один и тот же текст к разным наборам рубрик). В совокупности это не позволяет реализовать систему автоматической рубрикации в рамках заданной таксономии, которая обеспечила бы приемлемое качество классификации [26].

Второй способ состоит в выделении тем с помощью методов тематического моделирования [29, 34]. Как показывает практика [3], эти методы позволяют выделить в информационном массиве заранее предопределенное число тем и соотнести документы с представленными в них темами. Недостатком же является необходимость априорного задания количества тем и сложность обработки коллекций, насчитывающих десятки миллионов документов.

Третий способ заключается в оценке тематического сходства документов на основе некоторой «метрики» тематического сходства [1, 14]. Метод оценки тематического сходства может использоваться непосредственно или применяться впоследствии для класте-

ризации текстов, выделения научных направлений, близких тематик исследований и т.п. [38]. Эти методы ориентированы на обработку больших, постоянно пополняемых коллекций за счет реализации эффективного поиска тематически схожих документов с применением инвертированных индексов ключевой лексики. На основе этого метода возможна реализация разведочного (эксплоративного) поиска [32].

Для оценки совпадения контекста библиографической ссылки и цитируемого источника можно совместно применять две группы методов. Поиск заимствованных из цитируемого документа фрагментов (с учетом возможного перефразирования) в анализируемом документе возможно реализовать на основе метода многокритериального сравнения текстов [13]. Однако библиографическая ссылка в тексте не всегда означает цитирование или переосмысление текста оригинальной работы. Зачастую речь идет об отсылке к результатам, методам, терминологии, первоисточником которых является цитируемая работа, без прямого заимствования текста. В этом случае имеет смысл применять оценку тематического сходства контекста ссылки (например, окружающих абзацев) по отношению к цитируемой работе в целом, как это было описано выше для сопоставления двух работ. Современный уровень развития методов первой и второй группы позволяет решать задачу оценки соответствия цитируемого и цитирующего документов (фрагментов), если они написаны на одном языке. В то же время при кроссязыковом цитировании (как в случае, например, с настоящей статьей, которая цитирует источники на английском языке) для оценки тематического сходства необходимо учитывать лексическое соответствие между терминологией на разных языках. И именно это направление исследований может стать перспективным в ближайшем будущем.

Задача определения тональности высказываний достаточно популярна у исследователей социальных медиа. В то же время важность этой задачи при наукометрическом анализе и картировании науки недостаточно широко осознается [21]. Некоторое исследование может являться развитием, служить подкреплением или же, наоборот, опровержением положений другого исследования. В другом случае в некоторой работе могут использоваться результаты предшествующего исследования в качестве приложения к решению целевой задачи. Дальнейшие исследования в этой области в перспективе помогут отслеживать преемственность исследований, а также случаи, когда результаты одного исследователя были приложены к решению другой задачи.

Реализация метода автоматизированного выявления неявных цитирований может основываться на трех основных принципах: оценка тематического сходства документов в целом, поиск заимствований, поиск именованных сущностей (терминов, определений, понятий) в тексте статьи [19] и соотнесение их с ранее введенными в своих работах другими авторами.

Заключение

Проведенное исследование показало, что использование зарубежных аналитических инструментов, как и применение существующих средств работы с российскими базами цитирования, не позволяет должным образом оценить публикации российских ученых. Необходимо сочетать принятые наукометрические показатели с дополнительными индикаторами, которые могут быть вычислены автоматизированно на основе полнотекстового анализа публикаций с применением новых методов компьютерной лингвистики, методов информационного поиска, интеллектуального анализа текстов, машинного обучения. Часть предложенных индикаторов уже учитывалась при оценке одного из ведущих российских научных журналов [17]. Установлено, что количественные и качественные характеристики, определяемые с помощью методов полнотекстового анализа, дают дополнительную значимую информацию, которую невозможно получить с помощью стандартных библиометрических методов. В дальнейшем планируется проведение экспериментов по вычислению приведенных индикаторов и оценке качества статей.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 14-29-05008 офи_м.

Литература

1. Агеев М.С., Добров Б.В. Метод эффективного расчета матрицы ближайших соседей для полнотекстовых документов // Вестник Санкт-Петербургского университета. - СПб., 2011. - Т. 10. - С. 72-84.

2. Антиплагиат // Режим доступа: https://www.antiplagiat.ru

3. Воронцов К.В., Потапенко А. Модификации ЕМ-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. - М.: Вычислительный центр им. А.А. Дородницына РАН, 2013. - Т. 1. - № 6. -С. 657-686.

4. Гельфанд М. Ногинский городской суд: Плагиат можно называть плагиатом (22.11.2011) // Троицкий вариант - Наука. - М., 2011. - № 92. - С. 2. - Режим доступа: http://trv-science.ru/2011/11/22/noginskijj-gorodskojj-sud-plagiat-mozhno-nazyvat-plagiatom

5. Гуреев В.Н., Мазов Н.А. Анализ цитирования как основа для разработки дополнительного модуля в системах антиплагиата // Научно-техническая информация. Сер. 1. Организация и методика информационной работы. - М.: ВИНИТИ РАН, 2013. - № 12. - С. 12-15.

6. Зибарева И.В., Солошенко Н.С. Тематическая структура российского сегмента научных журналов в глобальных и национальных информационных ресурсах // Третья международная конференция НЭИКОН «Электронные научные и образовательные ресурсы: Создание, продвижение и использование» (27 сентября - 4 октября 2015, Халкидики, Греция): Материалы конференции. - М.: НП НЭИКОН, 2015. - С. 255-259.

7. Котюрова М.П., Баженова Е.А. Культура научной речи: Текст и его редактирование. - М.: Флинта: Наука, 2008. - 280 с.

8. Кузнецова Ю.М., Осипов Г.С., Чудова Н.В., Швец А.В. Автоматическое установление соответствия статей требованиям к научным публикациям // Труды ИСА РАН. - М., 2012. - Т. 62. - Вып. 3. - С. 132-138.

9. Куракова Н.Г., Григорьев О.Г., Тихомиров И.А., Девяткин Д.А. Оценка соответствия мировому уровню исследований в условиях самоизоляции российской науки: Проблемы и возможные решения // Экономика науки. - М.: Менеджер здравоохранения, 2015. - № 1. - С. 6-14.

10. Мац Л.В. Цитирование в диссертации: Рекомендации по оформлению // Дис-сернет. - Режим доступа: http://www.dissernet.org/instructions/instruction/citation-in-the-thesis-recommendations-on-the-formulation.htm

11. Научный семинар. Обсуждение доклада А. А. Ростовцева «Диссернет. Экспериментальная социология» // Наука. Инновации. Образование. - М.: РИЭПП,

2014. - № 16. - С. 7-27.

12. РИНЦ - Российский индекс научного цитирования // Режим доступа: http:// elibrary .ru/project_risc.asp

13. Соченков И. В. Метод сравнения текстов для решения поисково-аналитических задач // Искусственный интеллект и принятие решений - М.: ИСА РАН, 2013. -№ 2. - С. 32-43.

14. Суворов Р.Е., Соченков И.В. Определение связанности научно-технических документов на основе характеристики тематической значимости // Искусственный интеллект и принятие решений. - М.: ИСА РАН, 2013. - № 1. - С. 33-40.

15. Фрадков А. РИНЦ учит врать (06.10.2015) // Троицкий вариант - Наука. - М.,

2015. - № 189. - С. 5. - Режим доступа: http://trv-science.ru/2015/10/06/risc-uchit-vrat/

16. Швец А.В. Взаимодействие информационных и лингвистических методов в задачах анализа качества научных текстов: дис. ... канд. техн. наук. - М., 2015. - 130 с.

17. Швец А.В., Девяткин Д.А., Зубарев Д.В., Тихомиров И.А., Григорьев О.Г. Анализ качественных и количественных характеристик журнала «Искусственный интеллект и принятие решений» // Искусственный интеллект и принятие решений. - М.: ИСА РАН, 2015. - № 4. - С. 89-100.

18. Швец А.В., Кузнецова Ю.М., Осипов Г.С., Латышев А.В. Метод и алгоритм обнаружения признаков лингвистических дефектов в научно-технических текстах // Информационные технологии и вычислительные системы. - М., 2013. - № 2. -С. 79-87.

19. Шелманов А.О. Метод автоматического выделения многословных терминов из текстов научных публикаций // Тринадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2012 (16-20 октября 2012 г., г. Белгород, Россия): Труды конференции. - Белгород: БГТУ, 2012. -Т. 1. - С. 268-274.

20. Agarwal S., Yu H.: Automatically classifying sentences in full-text biomedical articles into Introduction, Methods, Results and Discussion // Bioinformatics. - Oxford University Press, 2009. - Vol. 25, N 23. - P. 3174-3180.

21. Athar A. Sentiment Analysis of Citations using Sentence Structure-Based Features // Proceedings of the ACL-HLT 2011 Student Session (19-24 June 2011). - Association for Computational Linguistics. - Portland, 2011. - P. 81-87.

22. Bolshakova E. Common Scientific Lexicon for Automatic Discourse Analysis of Scientific and Technical Texts // International Journal «Information Theories and Applications». - 2008. - Vol. 15, N 2. - P. 189-195.

23. Councill I.G., Giles C.L., Kan M.-Y. ParsCit: An Open-source CRF Reference String Parsing Package // Proceedings of LREC. - 2008. - Vol. 28. - P. 661-667.

24. Day R.A. The Origins of the Scientific Paper: The IMRAD Format // American Medical Writers Association Journal. - 1989. - Vol. 4. - N 2. - P. 16-18.

25. Gipp B., Meuschke N., Breitinger C., Lipinski M., Nürnberger A. Demonstration of Citation Pattern Analysis for Plagiarism Detection // Proceedings of the 36 th International ACM SIGIR Conference on Research and Development in Information Retrieval (July 28 - August 1, 2013). - Dublin: ACM, 2013. - P. 1119-1120.

26. Gomez J.C., Moens M.-F. A Survey of Automated Hierarchical Classification of Patents // Professional Search in the Modern World. - Springer, 2014. - P. 215-249.

27. Grammarly. - Mode of access: http://www.grammarly.com/

28. Gray, C.: Quality assurance and assessment of scholarly research. Research Information Network. - 2010. - P. 23.

29. Hoffman T. Probabilistic Latent Semantic Indexing // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. - 1999.

30. Kmet, L.M., Lee, R.C., Cook, L.S.: Standard Quality Assessment Criteria for Evaluating Primary Research Papers from a Variety of Fields. - Alberta Heritage Foundation for Medical Research, 2004. - N 13. - 28 p.

31. Liakata M., Saha S., Dobnik S., Batchelor C., Rebholz-Schuhmann D. Automatic recognition of conceptualization zones in scientific articles and two life science applications // Bioinformatics, 2012. - Vol. 28, N 7. - P. 991-1000.

32. Marchionini G. Exploratory search: from finding to understanding // Communications of the ACM. - 2006. - Vol. 49, N 4. - P. 41-46.

33. Microsoft Word. - Mode of access: http://www.microsoft.com/word/

34. Papadimitriou C.H., Raghavan P., Tamaki H., Vempala S. Latent Semantic Indexing: A Probabilistic Analysis // Proceedings of the Seventeenth ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. - N.Y.: ACM, 1998. -P. 159-168.

35. Potthast M., Barron-Cedeno A., Stein B., & Rosso P. Cross-Language Plagiarism Detection. Language Resources and Evaluation. - 2011. - Vol. 45, N 1. - P. 45-62.

36. SciVal. - Mode of access: https://www.scival.com/

37. Scopus. - Mode of access: http://www.scopus.com/

38. Shvets A., Devyatkin D., Sochenkov I., Tikhomirov I., Popov K., Yarygin K. Detection of current research directions based on full-text clustering // Proceedings of Science and Information Conference. - IEEE, 2015. - P. 483-488.

39. Sochenkov I., Zubarev D., Tikhomirov I., Smirnov I., Shelmanov A., Suvorov R., Osipov G. (2016). Exactus Like: Plagiarism Detection in Scientific Texts // Advances in Information Retrieval. - Springer, 2016. - P. 837-840.

40. The Problem with Detecting Translated Plagiarism // Plagiarism Today (24.02.2011). -Mode of access: http://www.plagiarismtoday.com/2011/02/24/the-problem-with-detecting-translated-plagiarism/

41. Turnitin. - Mode of access: http://turnitin.com/

42. Turnitin Introduces Translated Matching for Multilingual Plagiarism Detection // PRNewswire (11.01.2012). - Mode of access: http://www.prnewswire.com/news-releases/turnitin-introduces-translated-matching-for-multilingual-plagiarism-detection-137088203.html/

43. Web of Science. - Mode of access: http://www.webofknowledge.com/

44. Zubarev D., Sochenkov I. Using Sentence Similarity Measure for Plagiarism Source Retrieval / Notebook for PAN at CLEF 2014 // CEUR Workshop Proceedings, CEUR-WS.org, Eds. L. Cappellato, N. Ferro, M. Halvey and W. Kraaij. - 2014. -P. 1027-1034.

i Надоели баннеры? Вы всегда можете отключить рекламу.