Библиографические ссылки
как фактор квалиметрии научных текстов
Романишин Г.В., Академия ФСО России,
romani [email protected] Гращенко Л.А., Академия ФСО России [email protected]
Аннотация
В статье приводятся результаты исследования особенностей
библиографических ссылок и списков в научных текстах. Произведен подсчет отдельных статистических характеристик использования источников из списка литературы в кандидатских диссертациях отдельных областей науки. Обсуждается применимость исследуемых
характеристик в качестве частных показателей качества научных и квалификационных работ.
1 Введение
В настоящее время в научном сообществе значительный интерес вызывает проблема автоматизированной оценки качества квалификационных и научно-исследовательских работ.
Особенное внимание уделяется проведению экспертизы диссертаций, в частности на плагиат. Широкую известность получил проект «Диссернет»1, эксперты которого посвящают время поиску некорректных заимствований в защищенных
диссертациях. В диссертационных советах запрашивают у соискателей ученых степеней справки об успешном прохождении системы «Антиплагиат».
Однако анализ на плагиат является лишь отдельной стороной квалиметрии научных работ, чем занимаются в рамках таких научных дисциплин как инфометрия и наукометрия [Egghe, 2002; Горькова, 1988]. Более того, современные
автоматизированные системы антиплагиата подвергаются серьезной и обоснованной критике, так как основаны на сопоставлении текста, разделенного на составные части, с некоторой базой научных работ, полнота которой определяет результат проверки [Чиркин, 2013]. Основная масса претензий относится к отсутствию четких критериев
1 www.dissernet.org
определения плагиата, а также однобокости оценки работы - не учитываются служебные части документов, отсутствует проверка самоцитирования и самоплагиата, не проводится оценка стилистической и семантической грамотности и т.д. [Чиркин, 2013].
Сложность автоматизации проведения квалиметрии научных работ по различным показателям (а не только на основе выявления плагиата) обусловлена тем, что ранее у исследователей отсутствовали исходные электронные тексты работ, а оценка их в «ручном режиме» была трудоемкой или субъективной. Однако в последние годы с учетом новых требований все представляемые к защите диссертационные работы находятся в открытом доступе, причем в авторском варианте исполнения (наиболее популярен формат PDF). Вследствие этого появились возможности формирования достаточно объемных корпусов научных работ и проведению разнообразных
информационно-статистических исследований, направленных на разработку новых подходов к автоматизированной квалиметрии диссертационных работ без учета плагиата.
В этом контексте ранее предпринятые усилия были направлены на исследование самоповторов в научных текстах [Гращенко, Романишин, 2015] и их лексического богатства [Романишин, 2016], также являющихся частными показателями качества. Данная статья представляет предварительные результаты исследования, направленного на анализ особенностей формирования списков литературы и использование библиографических ссылок в текстах авторами научных работ. Так, согласно ГОСТ Р 7.0.11-2011 список литературы является обязательным элементом структуры диссертации. Его отсутствие предполагает, что работа является полностью авторской и не опирается на предыдущие исследования, что в настоящее время практически
невозможно. Оценка качественных и количественных библиографических
показателей тесно связана с определением плагиата, а также с полнотой охвата исследований, актуальностью и многими другими характеристиками научных работ.
Заметим, что описанные в данной работе измерения и результаты являются предварительными. Оценки
информативности некоторых
статистических показателей,
характеризующих цитирования в тексте диссертаций и списки литературы, еще предстоит дать.
2 Методика исследования
В качестве основных характеристик использования библиографии были определены следующие показатели:
- количество используемых источников
- количество цитирований (Я);
- источники без цитирования (ЯЬ);
- нормированные значения количества цитирований (Я„) и источников без цитирования (ЯЬП);
- количество одиночных ссылок (№);
- количество групповых ссылок
- соотношение одиночных и групповых ссылок (Ns/Ng);
- статистика используемых источников по годам;
- статистика используемых ссылок по годам.
Количество используемых источников определяется согласно указанному в работе списку литературы. Количество
цитирований определялось по количеству ссылок в тексте работы на используемые источники (ссылками считались записи в квадратных скобках, содержащие числовые значения). Источниками без цитирования считались те библиографические описания, которые были определены в списке литературы, и для которых не существовало ни одной ссылки в тексте работы.
Нормированные значения количества цитирований и источников без цитирования вычисляются как соотношение
соответствующих ненормированных
значений к количеству используемых источников:
R
RbN = f, (2)
Под одиночными ссылками понимается библиографическая ссылка, указывающая только на одно библиографическое описание. В случае если в ссылке присутствует указание на несколько источников одновременно, то такое цитирование считается групповым.
При построении статистики
используемых источников и ссылок по годам применялась следующая методика. Учитывались не абсолютные значения года источников, а разница между годом публикации научной работы и годом публикации соответствующего источника. Такой подход позволяет оценить количество обращений в работе к более свежим публикациям.
Дополнительно в качестве эксперимента проведена проверка соответствия использования литературы закону Брэдфорда [Bradford, 1934]. В работе [Писляков, 2007] приводится методика определение его параметров относительно распределения статей и журналов. Применительно к библиографии его можно сформулировать в общем виде так: в списке литературы присутствует некоторое ядро источников, на которые приходится треть всех ссылок.
Для проверки выбрана вербальная формулировка закона, которая состоит в следующем. Упорядочивается список литературы в порядке убывания количества ссылок - от источников, на которые имеется наибольшее количество ссылок, до тех, на которых встретилась лишь одна ссылка. Тогда это упорядоченное множество можно разбить на три зоны так, чтобы в каждой было одинаковое количество ссылок. При этом, утверждает закон Брэдфорда, количества ссылок в соответствующих зонах будут относиться друг к другу как 1:q:q2, где q - некоторое число большее единицы.
Исследовательский стенд по сравнению с предыдущими исследованиями [Гращенко, Романишин, 2015; Романишин, 2016] был значительно изменен по ряду причин. Во-первых, ранее используемая в исследованиях выборка содержала 34
диссертации и 71 автореферат по трем категориям, разбитым по отраслевому признаку (гуманитарные, медицинские и технические). При этом усилия были приложены в основном к авторефератам, обладающих жесткими структурами и примерно одинаковыми объемами текстов. Однако отсутствие списка литературы и библиографических ссылок делает авторефераты непригодными для текущего исследования. Поэтому в качестве научных работ использованы тексты кандидатских диссертаций. Во-вторых, в качестве еще одной категории выделены физико-математические диссертации. В-третьих, в целях повышения качества проводимого исследования увеличен объем выборки (до 100 работ в каждой категории) и ее актуальность (использованы работы 20142017 года). В-четвертых, разработано новое программное обеспечение, позволяющее обрабатывать диссертации (в формате pdf) и производить расчет указанных показателей.
Таким образом, итоговая выборка состоит из 4 категорий (гуманитарные, медицинские, технические и физико-математические) по 100 диссертаций в каждой категории.
3 Трудности, возникшие в процессе исследования
В виду того, что вся обработка проводилась в автоматизированном режиме, возник ряд трудностей. В первую очередь хотелось бы отметить, что хотя диссертация является квалификационной работой с четким определением структуры, в работах (причем, все анализируемые работы являются защищенными!) в качестве наименования списка литературы использовались всевозможные синонимы: библиография; список источников; список используемой литературы; указатель литературы; список используемых источников и литературы; цитируемая литература; список цитируемой литературы; список цитированной литературы; список литературы
диссертационного исследования и т.п.
Зачастую список литературы авторами делается по некоторому систематическому принципу, что допускается, но усложняет обработку. Часто в отдельную категорию выделялись авторские работы. Реже -выделение таких категорий, как правовые акты, научная литература и интернет-источники или разделение литературы по главам.
Значительное усложнение в
автоматизации обработки вызвала нумерация списка литературы. Наиболее употребительный вариант, когда после порядкового номера источника следует точка и пробел («1. Иванов И.И...»). Часто встречаются варианты, когда порядковый номер берется вразличные кавычки («[1] Иванов И.И...», «|1| Иванов И.И...», «{1} Иванов И.И.» и др.). Встречались работы с пропуском отдельных порядковых номеров и даже с полным отсутствием порядковых номеров.
Необходимо отметить, что аналогичная ситуация наблюдается и с другими элементами структуры диссертации, а не только со списком литературы. Например, встретилась работа, в которой содержание было указано в содержании. В одной из работ главы были без названия, имелся только номер. Во многих работах структура диссертации не соответствовала ГОСТ -порядок следования элементов был перепутан.
4 Полученные результаты
На рис. 1 представлены средние значения количества источников для работ различных отраслей науки.
200
150
100
50
ГУМ
МЕД
ТЕХ
ФМ
Рис. 1. Значения различных отраслей науки
На рис. 2 и 3 представлены средние значения количества цитирований и источников без цитирования для различных типов работ.
0
400 300 200 100 0
■ I м I и I
ГУМ
МЕД
ТЕХ
ФМ
Рис. 2. Значения Я для различных типов работ
ГУМ
МЕД
ТЕХ
ФМ
Рис.3. Значения ЯЬ для различных типов работ
На рис. 4 и 5 приведены нормированные значения.
2,5
1,5
0,5
.111
ГУМ
МЕД
ТЕХ
ФМ
Рис.4. Значения Яп для различных типов работ
0,5 0,4 0,3 0,2 0,1
I.
ГУМ
МЕД
ТЕХ
ФМ
Рис.5. Значения ЯЬп для различных типов работ
На рис. 6 и 7 показаны средние значения количественных показателей одиночных и групповых ссылок для работ различных отраслей науки, на рис. 8 показано соотношение указанных величин.
ГУМ МЕД ТЕХ ФМ
Рис. 6. Значения N для различных типов работ
0,4 0,3 0,2 0,1
III
ГУМ
МЕД
ТЕХ
ФМ
Рис. 7. Значения ^ для различных типов работ
25 20
15 10
I..
ГУМ
МЕД
ТЕХ
ФМ
Рис. 8. Значения Ш'/^ для различных типов работ
На рис. 9 показано картирование среднего значения количества ссылок в диссертации, т.е. сколько в среднем ссылок приходиться на конкретную часть работы. Ввиду того, что объемы работ отличаются, все результаты нормированы и разбиты на 100 интервалов с помощью интерполяции и сглаживания.
Рис. 9. Картирование среднего значения количества ссылок в диссертации для различных отраслей науки
На рис. 10 и 11 приведены статистики используемых источников и используемых ссылок по годам соответственно.
0
5
2
0
1
0
0
Рис. 10. Статистика используемых источников по годам для различных отраслей науки
Рис. 11. Статистика используемых ссылок по годам для различных отраслей науки
На рис. 12 представлены средние значения количественных показателей закона Брэдфорда для различных отраслей науки.
ГУМ МЕД ТЕХ ФМ
Рис. 12. Количественные показатели закона Брэдфорда для различных типов работ
На рис. среднего
13 приведено соотношение значения количественных показателей закона Брэдфорда и их соответствие теоретически рассчитанным значениям на примере гуманитарных работ. Аналогичный вид соотношения имеют работы остальных отраслей науки.
полученн ое
рассчита нное
Рис. 13. Статистика используемых ссылок по годам для различных типов работ
5 Выводы
Использованная методика не обладает строгостью, а приведенные результаты носят скорее оценочный характер. Однако проведенные эксперименты позволяют сделать следующие предварительные выводы.
• Средние значения количества используемых источников для различных отраслей отличаются (рис. 1), технические и физико-математические работы имеют близкие значения, у гуманитарных и особенно медицинских работ этот показатель выше.
• Среднее значение количества цитирований также отличается для различных отраслей науки (рис. 2), причем худший показатель(наименьший) имеют гуманитарные работы.
• Большинство научных работ содержит источники, на которые отсутствуют ссылки в тексте работы (рис. 3), особенно большое значение у гуманитарных работ.
• Нормированные значения (рис 4-5) показывают, что в среднем в диссертации около двух ссылок на один источник. Однако гуманитарные работы отличаются в худшую сторону и имеют показатель немного меньше единицы. Также показано, что порядка 6-12% источников в списке литературы не используется. Для гуманитарных работ этот показатель составляет 40%. Минимальное значение у физико-математических работ.
• Средние значения одиночных ссылок (рис. 6) практически одинаково для всех
отраслей (около 0.7), однако физико-математические работы имеют более высокий показатель (около 0.92).
• Средние значения групповых ссылок (рис. 7) практически одинаково для всех отраслей (около 0.3), однако в гуманитарных работах они практически отсутствуют (около 0.07).
• Картирование среднего значения количества ссылок в диссертации (рис. 9) показало ожидаемый результат, что в первой части работы используется большее количество ссылок. Однако график для различных отраслей немного отличается, за исключением гуманитарных работ, которые серьезно отличаются от других отраслей. Особенно интересным выглядит анализ неоднородностей графика, учет которых с большой вероятностью позволит производить классификацию работ по отраслям науки.
• Графики статистики используемых источников и используемых ссылок по годам (рис. 10-11) показали, что в диссертациях большинство ссылок приходится на актуальные источники (за последние 15-20 лет), причем графики отличаются для различных отраслей науки, что также возможно использовать в качестве признака при классификации работ по отраслям науки.
• Средние значения количественных показателей закона Брэдфорда для различных отраслей науки (рис. 12-13) частично подтвердили предполагаемую гипотезу. В работах действительно присутствует некоторое ядро источников литературы, на которые приходится большая часть ссылок. Однако точная зависимость отличается от исходной зависимости, где соотношение зон должно быть 1 : q : q2. Причем указанные результаты характерны для всех отраслей науки.
• В качестве дальнейших исследований наиболее интересным представляется установление точного
соотношения между зонами и с учетом этого корректировка закона Брэдфорда применительно к списку литературы диссертации.
• Необходимо в дальнейшем провести исследование по оценке применения рассмотренных показателей для других смежных зада, в частности, стилометрии, классификации и кластеризации текстов и др.
• Приведенные оценки не являются исчерпывающими, тем не менее, показана возможность использования представленных характеристик в рамках оценки сложности текстов и их уникальности.
Список литературы
Горькова В. И. (1988) Информетрия (количественные методы в научно-технической информации) // Итоги науки и техники. Сер. Информатика. Т. 10. М.: ВИНИТИ, 1988. 328 с.
Гращенко Л.А., Романишин Г.В. (2015) Опыт автоматизированного анализа повторов в научных текстах // Новые информационные технологии в автоматизированных системах. 2015. №18. С.582-590.
Романишин Г.В. (2016) Исследование лексического богатства научных текстов // Новые информационные технологии в автоматизированных системах. 2016. №19. С.39-42.
Писляков В.В. (2007) Моделирование процесса обращения к электронным информационным источникам на основе информетрического закона Брэдфорда // Учен. зап. Казан. ун-та. Сер. Физ.-матем. науки. 2007. №2. С. 116-127.
Писляков В.В. (2007) Методы оценки научного знания по показателям цитирования // Социологический журнал. 2007. № 1. С. 128140.
Чиркин Е.С. (2013) Системы
автоматизированной проверки на неправомерные заимствования // Вест-ник ТГУ. 2013. №12 (128) С.164-174.
Bradford S.C. Sources of information on specific subjects // Engineering.1934. Vol. 137. P. 85-86
Egghe L., Rousseau R. (2002) A proposal to define a core of a scientific subject: A definition using concentration and fuzzy sets // Scientometrics. 2002. Vol. 54, No. 1. P. 51-62.