УДК 004.798.5:025.52.519.2
Б.Р.Юсупов
ИНФОРМЕТРИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПРОЦЕССА ОБРАЩЕНИЯ К ЭЛЕКТРОННЫМ ИНФОРМАЦИОННЫМ РЕСУРСАМ С ПОМОЩЬЮ
ЗАКОНА БРЭДФОРДА
Для моделирования процесса обращения к электронным информационным ресурсам в работе описывается один из основных в этой области закон Брэдфорда. Рассматриваются два варианта его вербальной формулировки, описывается алгоритм построения модели и методика подгонки параметров модели Брэдфорда.
Ключевые слова: информация, информетрия, информетрическое моделирование, электронные
информационные ресурсы, закон Брэдфорда, ядро изданий.
B. R. Yusupov Bradford's lawfor informetric modeling the electronic information resources request processes This paper covers the description of Bradford’s law for modeling the electronic information resources request processes. Two variants of its verbal formulation, the algorithm of building the model and the method offitting the parameters of Bradford’s law are described here.
Keywords: information, informetrics, informetric modeling, electronic information resources, Bradford’s law, core
sources.
1. Введение
В связи с ежегодным ростом объема научной, технической, производственной и иных видов информации, статистический анализ информационных ресурсов становится все более актуальным в научном сообществе. Одним из основных направлений такого анализа является информетрия - направление, нацеленное на выявление и изучение статистических закономерностей производства, поиска и использования информации [1; 5, с. 1-5]. Результаты рассматриваемого аннализа позволяют принимать важные решения, нацеленные на рационализацию и оптимизацию управления информационными ресурсами [2].
Для изучения информационных потоков применяется информетрическое
моделирование - математическое моделирование информационных процессов с использованием информетрических законов [5, с. 1-5].
Важно отметить, что помимо роста объема информации, последние два десятилетия происходит перевод всё большей доли информационных ресурсов в электронный вид. При этом возникает типичная сложность, в процессе информетрического моделирования -переход от одних условий, в которых тестируется модель, к качественно и количественно другим. В связи с этим,
наибольший интерес представляет применение уже существующих
информетрических моделей на электронных информационных ресурсах, а конкретно имеющей наибольшую популярность в данной области модели, основанной на законе Брэдфорда.
2. Закон Бредфорда
Закон рассеяния информации Брэдфорда был сформулирован Самюэлем Брэдфордом в 1934г. Важность закона Брэдфорда позволяет некоторым исследователям особенно подчеркивать его роль среди информетрических закономерностей
[5, с. 295; 6].
2.1. Вербальная формулировка
Выделим множество журналов, из которых происходили загрузки статей, и упорядочим их в порядке убывания количества загрузок статей - от изданий, из которых произошло наибольшее количество загрузок, до тех, из которых произошла лишь одна загрузка. Тогда это упорядоченное множество журналов можно разбить на три зоны так, чтобы в каждой было одинаковое количество загрузок статей. При этом, утверждает закон Брэдфорда, числа журналов в соответствующих зонах будут относиться друг к другу как 1: q : q2, где q > 1.
Иными словами, в наборе журналов существует некоторое ядро изданий,
содержащее треть всех загрузок. Для того чтобы найти столько же загрузок в других журналах, необходимо взять в q раз большее число журналов. Наконец, оставшиеся загрузки будут рассеяны по изданиям, которых в q2 раз больше, чем в ядре. Исходя из этого, можно связать коэффициент q с относительной
величиной ядра журналов следующим образом. Пусть всего имеется £ журналов, при этом в ядро (первую зону Брэдфорда) входит £ из них. Тогда во второй зоне имеется q£1
журналов, в третьей - q2 £1. Следовательно, справедливо равенство
откуда
- + qSl + q2 - = S ,
2 S 1 + q + q =—.
£1
Решив уравнение (2) относительно q, получим для положительного корня:
S 3
(1)
(2)
(3)
На практике ядро, как правило, составляет небольшая доля от общего числа „ £ . изданий и — >> 1, а квадратный корень из
£1
этого отношения также ощутимо превышает единицу. Поэтому справедлива упрощенная оценка:
ч
—
S1
(4)
2.2. Вербальная формулировка в случае с п зонами
Множество журналов может быть разбито не на три, а на произвольное число зон [3]. При этом число изданий в каждой последующей зоне будет в q раз больше, чем
в предыдущей, а число загрузок статей, приходящихся на журналы каждой зоны, будет одинаковым и равным, очевидно, отношению общего числа загрузок к количеству зон.
В случае п зон Брэдфорда справедливо равенство:
?1 + qSl
- + qS1 +... + qn-1S1 = S, (5)
следовательно,
- = і + ...+?-1 = . (6) - 4 ч -1
Эта формула (6) верна для идеального брэдфордского распределения. Для него важно правильно установить размер ядра £1 , далее по количеству загрузок, приходящихся на ядерные журналы, устанавливается число п зон Брэдфорда, а затем определяется коэффициент в распределении Брэдфорда q.
Однако на практике закон Брэдфорда, как и любая информетрическая модель, редко выполняется в совершенстве. Поэтому можно выбирать различные величины для £1, п, q
и получать более или менее хорошие разбиения на зоны Брэдфорда - в большей или меньшей степени удовлетворяющие закону. Отсюда возникает задача определения таких параметров
распределения Брэдфорда, чтобы оно максимально хорошо приближало исходные экспериментальные данные. При этом необходимо, чтобы искомые параметры могли быть найдены из «макроскопических» характеристик набора данных. Таковыми
можно считать четыре величины:
• общее число журналов £ ;
• общее число загрузок статей I;
• число источников с минимальной
продуктивностью 51 (т. е. количество
журналов, из которых загружали лишь одну статью);
• количество продуктов, произведенных
источником с максимальной
продуктивностью imx (т. е. число загрузок, сделанных из самого продуктивного журнала).
Необходимо определить следующие параметры модели Брэдфорда:
• число журналов в ядре (первой зоне Брэдфорда) £1 ;
• число загрузок в каждой зоне Брэдфорда 1В;
• коэффициент распределения
Брэдфорда q;
• число зон Брэдфорда п .
Решить данную задачу по моделированию невозможно, опираясь
только на модель Брэдфорда. Потребуются дополнительные ограничения,
накладываемые на набор данных. Для решения поставленной задачи используется метод Л. Эгге [4]. Данный метод исходит из выполнения закона Лотки, полагает
свободу в выборе числа зон п и приводит к следующей оценке параметров модели Брэдфорда:
q =
- (ers1 )/п ,
q — 1
£1 = £
где г - постоянная Эйлера - Маскерони.
3. Методика подгонки параметров
Л. Эгге в работе [5, с. 343-345] сформулировал методику подгонки параметров модели Брэдфорда к конкретным данным:
• выбрать п - число групп Брэдфорда; это произвольное число, обычно в промежутке от 4 до 10; выбор его может быть регламентирован тем, чтобы в итоге получить более удобное, т. е. более близкое к целому числу, значение £1 , величины первой зоны Брэдфорда (см. формулу далее);
• по формуле (7) вычислить, коэффициент Брэдфорда q;
• применить формулу (6) для вычисления размера первой зоны Брэдфорда £1, т. е. использовать формулу (8);
• если £1 получается не целым, то надо использовать округление до ближайшего меньшего целого [£1 ]; число загрузок, пришедшихся на [£1 ] журналов, будет числом загрузок в первой зоне Брэдфорда;
• проводить дальнейшее разбиение загрузок, находя по библиографии, сколько их приходится на следующие группы Брэдфорда,
(7)
(8)
содержащие ^£1}, ^2 £1} и т. д. журналов (причем берется именно ^^}, а не № ]}). здесь фигурными скобками обозначается округление до ближайшего целого, т. е. {х} = [х + 0,5].
4. Заключение
В связи с тем, что закон Брэдфорда исходно был открыт для информационных процессов иного рода, его применение в пространстве электронных информационных ресурсов требовало выработки внятных методологических принципов. Решение этой проблемы было основной целью этой работы. Важно отметить, что по выработанной методологии видно, что имеется возможность ее дальнейшей автоматизации.
Литература
1. Горькова В. И. Информетрия (количественные методы в научно-технической информации) // Итоги науки и техники. Сер. Информатика. Т. 10. М.: ВИНИТИ, 1988, 328 с.
2. Редькина Н. С. Формализованные методы анализа документальных информационных потоков // БИБЛИОСФЕРА, 2005, № 2, С. 51-59.
3. Bradford S. C. Sources of information on specific subjects // Engineering, 1934, Vol. 137, P. 8586.
4. Egghe L. The Dual of Bradford’s Law // Journal of the American Society for Information Science, 1986, Vol. 37, Iss. 4, P. 246-255.
5. Egghe L., Rousseau R. Introduction to Informetrics: Quantitative Methods in Library, Documentation and Information Science. Amsterdam e. a.: Elsevier Science Publishers, 1990, 450 p.
6. Garfield E. Bradford’s law and related statistical patterns // Current Contents, 1980, № 19, P. 512.