УДК 004.738 Вестник СПбГУ. Сер. 10. 2016. Вып. 1
И. С. Блеканов, С. Л. Сергеев, А. Ю. Максимов
ИССЛЕДОВАНИЕ СТРУКТУРНЫХ ХАРАКТЕРИСТИК КРУПНЫХ ВЕБ-СЕГМЕНТОВ*
Санкт-Петербургский государственный университет, Россия, 199034, Санкт-Петербург, Университетская наб., 7—9
Исследуется выдвинутая авторами гипотеза о параболической зависимости количества уникальных ссылок от общего их числа в сайтах большой размерности. Поставленный эксперимент на примере сайтов научно-образовательных подразделений СПбГУ подтвердил гипотезу. Найдены численные значения параметров параболы для сайтов различных подразделений. Библиогр. 19 назв. Ил. 1. Табл. 4.
Ключевые слова: веб-граф, сайт, гиперссылка, гиперссылочная структура, статистическая зависимость.
I. S. Blekanov, S. L. Sergeev, A. Yu. Maksimov
A STUDY OF STRUCTURAL CHARACTERISTICS OF LARGE WEBSITES
St. Petersburg State University, 7—9, Universitetskaya nab., St. Petersburg, 199034, Russia
This paper studies the authors' hypothesis of a parabolic dependence of the number of unique link count on the total link count at large sites. The experiment set by the authors for the websites of faculties at St. Petersburg State University confirmed the hypothesis. We also found the numeric parameters of parabolas for the sites of some SPbSU faculties. Refs 19. Fig. 1. Tables 4.
Keywords: Web graph, site, hyperlink, hyperlinked structure, statistical dependence.
Исследование свойств больших сайтов, формулирование убедительных критериев оценки их качества, управление их качеством являются главными задачами вебометрики. Наиболее распространенными критериями качества сайтов служат:
• рейтинг веб-ресурса в поисковых системах;
• позиция веб-ресурса в вебометрических рейтингах [1] (на данный момент рейтинг составлен для сайтов университетов, научно-исследовательских центров, больниц и др.);
• индекс цитирования (авторитетность) веб-ресурса [2-5];
• удобство пользования информацией веб-ресурса с точки зрения пользователей [6-9].
Блетнов Иван Станиславович — кандидат технических наук, доцент; [email protected] Сергеев Сергей Львович — кандидат физико-математических наук, доцент; [email protected] Максимов Алексей Юрьевич — аспирант; [email protected]
Blekanov Ivan Stanislavovich — candidate of technical sciences, associate professor; i.blekanov@ gmail.com
Sergeev Sergey Lvovich — candidate of physical and mathematical sciences, associate professor; [email protected]
Maksimov Aleksey Yurevich — post-graduate student; [email protected]
• Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант № 15-01-0610).
© Санкт-Петербургский государственный университет, 2016
Общепринято представление сайта в виде ориентированного графа, узлы которого — документы, а дуги — гиперссылки [10]. Естественно исследовать связь между структурой веб-графа и его качеством (рейтингом).
Одной из важных характеристик сайтов признается их связность [11, 12]. При этом под «связностью» понимается соотношение между общим числом ссылок и количеством неделимых документов. Неделимым документом, или просто документом, будем называть такой элементарный подсайт, на часть которого невозможно сослаться. Если на документ ссылаются из нескольких различных мест сайта, то все такие ссылки выглядят одинаково — это поисковый адрес документа, который называют уникальной ссылкой. Поскольку с точки зрения поисковой системы уникальная ссылка эквивалентна документу, будем говорить о связности как о соотношении общего числа ссылок и количества уникальных ссылок.
Полное исследование связности большого сайта (иногда десятки миллионов документов и сотни миллионов ссылок) связано с большими затратами машинных ресурсов (машинное время, трафик). В данной работе изучается возможность оценить связность большого сайта на основании обследования некоторой его части. Исследования Хипса [13] и других авторов [14-16] показали, что при просмотре текста объем словаря увеличивается по степенному закону с ростом числа просмотренных слов.
В статье рассматривается выдвинутое авторами предположение, что аналогичная закономерность существует и в отношении ссылок в веб-графе.
Теоретическая часть. Пусть просмотр веб-графа производится последовательными шагами, на каждом из которых просматривается е ссылок. И пусть на шаге ] обнаруживается уникальных ссылок. Тогда после шага г окажутся просмотренными Ег = ге ссылок, из которых уникальными будут У ссылок, где У = ^. Предполагается, что для достаточно больших е при всех г выполняется формула
где а и в — константы (а > 0, 0 < в < 1).
Зависимость (1) — статистическая, поэтому
1) выполняется лишь приближенно;
2) чем больше г, тем меньше погрешность формулы.
Для анализа, обработки веб-ресурсов, составления списков ссылок и уникальных ссылок использовалась разработанная программно-аналитическая система для вебо-метрических исследований, основанная на обобщенном ядре поискового робота [17] и успешно апробированная [18, 19]. Непосредственный результат обработки поисковым роботом сайта — таблица (г = 1, М).
Для вычисления значений а и в используем всю полученную таблицу — решаем систему N линейных уравнений, полученных из (1) логарифмированием:
где х = 1па; у = в; Аг = 1пЕг; Вг = 1пУг.
В (2) решение избыточной системы находим методом наименьших квадратов:
Уг = аЕв,
(1)
х + А1У = Ви г = 1,ЛГ,
(2)
ж - Н{с1 - с3) ' С1-С3 '
здесь С =£N=1 Аг, С = Е^ Вг, С = £N=1 Аг2, С4 = £N=1 АгВг
х
у
Эксперимент. На примере сайтов 15 научно-образовательных подразделений Санкт-Петербургского государственного университета (СПбГУ)1 (табл. 1) проведем проверку гипотезы с целью получения параметров а, в по каждому сайту.
Таблица 1. Исследуемые подразделения СПбГУ
Научно-образовательное подразделение СПбГУ Сайт подразделения Аббревиатура подразделения
Прикладная математика и процессы управления www.apmath.spbu.ru АРМ
Экономика www.econ.spbu.ru FE
Математико-механическое www.math.spbu.ru МаМ
Институт философии www.philosophy.spbu.ru IPh
Социология www.soc.spbu.ru FS
Высшая школа менеджмента www.gsom.spbu.ru IGSM
Школа журналистики и массовых коммуникаций www.jf.spbu.ru ISJaC
Художественное www .arts.spbu.ru FA
Политические науки www.politology.spbu.ru FPS
Психология www.psy.spbu.ru DP
Восточное www.orient.spbu.ru FAaA
История www.history.spbu.ru IH
Физика www.phys.spbu.ru PF
Юридическое www.law.spbu.ru FL
Философия www.phil.spbu.ru FPh
Таблица 2. Зависимость числа уникальных ссылок V от их общего числа Е
Подразделение 1 2 3 4 5 6 7 8 9 10
АРМ 2655 4546 7247 9171 10 552 11 714 13 150 15 110 15 722 16 283
FE 6274 8044 10 576 12 308 13 481 14 180 14 720 15 193 15 525 15 856
МаМ 3366 5537 8896 11 860 13 542 15 304 16 750 18 974 20 043 20 907
IPh 3468 6723 7247 9895 11 912 14 862 17 113 19 904 20 876 21 597
FS 4132 5906 7545 9007 10 678 11 623 12 731 - - -
IGSM 4727 7643 12 620 15 341 19 968 23 356 27 854 31 259 35 894 38 771
ISJaC 5003 9572 12 464 16 576 19 782 24 226 28 961 32 705 35 306 36 978
FA 3821 4215 4583 - - - - - - -
FPS 1003 1405 - - - - - - - -
DP 2002 3104 4336 5006 5601 - - - - -
FAaA 2805 4097 6812 8734 9805 10 975 12 046 13 208 - -
IH 6175 - - - - - - - - -
PF 1603 2561 3197 3796 4308 - - - - -
FL 3468 6680 9975 12 877 15 023 17 113 18 363 20 004 21 117 22 537
FPh 3198 5204 6923 8477 9951 - - - - -
Результаты эксперимента. В табл. 2 приведены основные результаты эксперимента. В верхней строке — номер шага (г). Шаг равен 40 000 ссылок. В следующих строках — суммарное количество Vi уникальных ссылок, найденных в результате г шагов.
В табл. 3 даны параметры а и ß, полученные по результатам эксперимента. Расчет а и ß производился на более подробных данных (с шагом, равным 1000 ссылок), чем приведены в табл. 2.
1 St. Petersburg State University (Main page). Date Views January 12, 2015. URL: www.spbu.ru (дата обращения: 21.02.2015).
Таблица 3. Значения параметров для научно-образовательных подразделений СПбГУ
Подразделение а Р
АРМ 860.976 0.23
РЕ 2016.226 0.16
МаМ 1087.405 0.23
1РЬ 212 0.36
РЭ 204.529 0.33
юэм 3056.799 0.20
ШаС 4926.89 0.16
ГА 1427.368 0.1
РРЭ 33.967 0.33
БР 29.545 0.43
ГА а А 18.956 0.52
1Н 0.446 0.9
рр 159.687 0.27
И, 118.332 0.41
РРЬ 1.939 0.70
Функции с вычисленными параметрами изображены на рисунке. V
Графики функции V = аЕ в для разных подразделении Вестник СПбГУ. Сер. 10. Прикладная математика. Информатика... 2016. Вып. 1
Для подтверждения выдвинутой гипотезы были определены относительные погрешности представления числа уникальных ссылок через общее число ссылок с помощью формулы (1):
Ai
Vi,
Результаты помещены в табл. 4. Из нее видно, что погрешность мала и убывает с увеличением числа просмотренных ссылок.
Таблица 4. Зависимость погрешности формулы (2) от номера шага
Подразделение 1 2 3 4 5 6 7 8 9 10
АРМ 0.730 0.606 0.428 0.323 0.260 0.212 0.146 0.049 0.037 0.026
FE 0.428 0.344 0.192 0.102 0.051 0.031 0.018 0.008 0.005 0.001
МаМ 0.729 0.620 0.444 0.307 0.248 0.185 0.139 0.054 0.028 0.010
IPh 0.639 0.455 0.492 0.375 0.306 0.189 0.116 0.021 0.015 0.019
FS 0.388 0.304 0.222 0.155 0.070 0.047 0.007 - - -
IGSM 0.814 0.738 0.601 0.543 0.431 0.358 0.258 0.189 0.091 0.038
ISJaC 0.813 0.680 0.610 0.505 0.430 0.322 0.209 0.126 0.074 0.047
FA 0.072 0.045 0.003 - - - - - - -
FPS 0.105 0.003 - - - - - - - -
DP 0.288 0.181 0.039 0.02 0.003 - - - - -
FAaA 0.401 0.390 0.179 0.093 0.093 0.077 0.065 0.044 - -
IH 0.001 - - - - - - - - -
PF 0.425 0.239 0.148 0.064 0.000 - - - - -
FL 0.619 0.448 0.302 0.200 0.148 0.099 0.093 0.064 0.059 0.038
FPh 0.009 0.007 0.006 0.005 0.001 - - - - -
Таким образом, гипотеза о параболической зависимости числа уникальных ссылок от их общего количества подтверждена.
Кроме того, табл. 3 позволяет прийти к следующим предварительным выводам: 1) для нахождения приблизительного значения параметров а и ß достаточно исследовать часть сайта, сделав, например, лишь 3-4 шага; 2) параметры а и ß могут использоваться для кластерного анализа веб-ресурсов.
Литература
1. Ranking Web of Universities (Main page). Date Views November 2, 2014. URL: www.webometrics. info (дата обращения: 15.06.2015).
2. Thelwall M., Zuccala A. A university-centred European Union link analysis // Scientometrics.
2008. Vol. 75, N 3. P. 407-420.
3. Smith A. G. A tale of two web spaces; comparing sites using Web Impact Factors // Journal of Documentation. 1999. Vol. 55, N 5. P. 577-592.
4. Nicolaisen J. Citation analysis // Annual Review of Information Science and Technology. 2007. Vol. 41. P. 609-641.
5. Ortega J. L., Aguillo I., Cothey V., Scharnhorst A. Maps of the academic web in the European Higher Education Area: an exploration of visual web indicators // Scientometrics. 2008. Vol. 74, N 2. P. 295-308.
6. Chevalier A., Dommes A., Martins D., Valerian C. Searching for information on the web: role of aging and ergonomic quality of website // HCI'07 Proc. of the 12th Intern. conference on Human-Computer Interaction: interaction design and usability. Berlin: Springer-Verlag, 2007. P. 691-700.
7. Harper S., Chen A. Q. Web accessibility guidelines // Journal World Wide Web. 2012. Vol. 15, issue 1. P. 61-88.
8. Zeng L., Proctor R. W., Salvendy G. Integration of Creativity into Website Design // Proc. of the 13th Intern. Conference on Human-Computer Interaction. Pt I. New Trends. Berlin: Springer-Verlag,
2009. P. 769-776.
9. Huntington P., Nicholas D., Jamali H. R. Site navigation and its impact on content viewed by the virtual scholar: a deep log analysis // Journal of Information Science. 2007. Vol. 33, N 5. P. 598-610.
10. Broder A., Kumar R., Maghoul F., Raghavan P., Rajagopalan S., Stata R., Tomkins A., Wiener J. Graph structure in the Web: Experiments and models // WWW9. 2000. Vol. 33, N 1-6. P. 309-320.
11. Thelwall M. Webometrics and Social Web Research Methods. Wolverhampton: University of Wolverhampton, 2013. URL: http://www.scit.wlv.ac.uk/cm1993/papers/IntroductionToWebometrics AndSocialWebAnalysis.pdf (дата обращения: 07.08.2015).
12. Thelwall M., Wilkinson D., Musgrove P. B. National and International University departmental web site interlinking. Pt 2. Link patterns // Scientometrics. 2005. Vol. 64, N 2. P. 187-208.
13. Heaps H. S. Information retrieval: computational and theoretical aspects (Library and information science series). London: Academic Press, 1978. 344 p.
14. Gelbukh A. F., Sidorov G. Zipf and Heaps Laws' Coefficients Depend on Language // CIC Ling '01. Proc. of the Second Intern. Conference on Computational Linguistics and Intelligent Text Processing. UK, London: Springer-Verlag, 2001. P. 332-335.
15. Zhang H. Discovering power laws in computer programs // Information Processing and Management. Intern. Journal. 2009. Vol. 45, issue 4. P. 477-483.
16. Kubo M., Sato H., Matsubara T. Word familiarity distributions to understand Heaps' law of vocabulary growth of the internet forums // KES'11. Proc. of the 15th Intern. Conference on Knowledge-based and intelligent information and engineering systems. Berlin; Heidelberg: Springer-Verlag, 2011. Pt III. P. 627-636.
17. Блеканов И. С., Сергеев С. Л., Мартыненко И. А. Построение тематико-ориентированных веб-краулеров с использованием обобщенного ядра // Науч.-техн. ведомости С.-Петерб. гос. поли-техн. ун-та, 2012. T. 5, № 157. С. 9-15.
18. Блеканов И. С., Максимов А. Ю. Вебометрические исследования сегмента университетского Веба с помощью поискового робота // Процессы управления и устойчивость: Труды 44-й междунар. науч. конференции аспирантов и студентов / под ред. Н. В. Смирнова, Т. Е. Смирновой. СПб.: Издат. дом С.-Петерб. ун-та, 2013. С. 403-408.
19. Blekanov I. S., Sergeev S. L., Maksimov A. I. Analysis of the topology of large Web segments using Broder's bow-tie model // Life Science Journal. 2014. Vol. 11. P. 258-261.
References
1. Ranking Web of Universities (Main page). Date Views November 2, 2014. Available at: www.webometrics.info (accessed: 15.06.2015).
2. Thelwall M., Zuccala A. A university-centred European Union link analysis. Scientometrics, 2008, vol. 75, no. 3, pp. 407-420.
3. Smith A. G. A tale of two web spaces; comparing sites using Web Impact Factors. Journal of Documentation, 1999, vol. 55, no. 5, pp. 577-592.
4. Nicolaisen J. Citation analysis. Annual Review of Information ¡Science and Technology, 2007, vol. 41, pp. 609-641.
5. Ortega J. L., Aguillo I., Cothey V., Scharnhorst A. Maps of the academic web in the European Higher Education Area: an exploration of visual web indicators. Scientometrics, 2008, vol. 74, no. 2, pp. 295-308.
6. Chevalier A., Dommes A., Martins D., Valerian C. Searching for information on the web: role of aging and ergonomic quality of website. HCI'07 Proc. of the 12th Intern. conference on Human-Computer Interaction: interaction design and usability. Berlin, Springer-Verlag, 2007, pp. 691-700.
7. Harper S., Chen A. Q. Web accessibility guidelines. Journal World Wide Web, 2012, vol. 15, issue 1, pp. 61-88.
8. Zeng L., Proctor R. W., Salvendy G. Integration of Creativity into Website Design. Proc. of the 13th Intern. Conference on Human-Computer Interaction. Pt I. New Trends. Berlin, Springer-Verlag, 2009, pp. 769-776.
9. Huntington P., Nicholas D., Jamali H. R. Site navigation and its impact on content viewed by the virtual scholar: a deep log analysis. Journal of Information Science, 2007, vol. 33, no. 5, pp. 598-610.
10. Broder A., Kumar R., Maghoul F., Raghavan P., Rajagopalan S., Stata R., Tomkins A., Wiener J. Graph structure in the Web: Experiments and models. WWW9, 2000, vol. 33, no. 1-6, pp. 309-320.
11. Thelwall M. Webometrics and Social Web Research Methods. Wolverhampton, University of Wolverhampton, 2013. Available at: http://www.scit.wlv.ac.uk/cm1993/papers/IntroductionTo WebometricsAndSocialWebAnalysis.pdf (accessed: 07.08.2015).
12. Thelwall M., Wilkinson D., Musgrove P. B. National and International University departmental web site interlinking. Pt 2. Link patterns. Scientometrics, 2005, vol. 64, no. 2, pp. 187-208.
13. Heaps H. S. Information retrieval: computational and theoretical aspects (Library and information science series). London, Academic Press, 1978, 344 p.
14. Gelbukh A. F., Sidorov G. Zipf and Heaps Laws' Coefficients Depend on Language. CICLing '01. Proc. of the Second Intern. Conference on Computational Linguistics and Intelligent Text Processing. UK. London, Springer-Verlag, 2001, pp. 332—335.
15. Zhang H. Discovering power laws in computer programs. Information Processing and Management. Intern. Journal, 2009, vol. 45, issue 4, pp. 477—483.
16. Kubo M., Sato H., Matsubara T. Word familiarity distributions to understand heaps' law of vocabulary growth of the internet forums. KES'11. Proc. of the 15th Intern. Conference on Knowledge-based and intelligent information and engineering systems. Berlin, Heidelberg, Springer-Verlag, 2011, pt III, pp. 627-636.
17. Blekanov I., Sergeev S., Martynenko I. Postroenie tematiko-orientirovannykh veb-kraulerov s ispol'zovaniem obobshchennogo iadra [Construction of subject-oriented Web-crawlers using a generalized kernel]. Nauch.-tekhn. vedomosti S.-Peterb. gos. politekhn. un-ta [Scientific and technical bulletins of Saint Petersburg State Polytechnic University], 2012, vol. 5, no. 157, pp. 9-15. (In Russian)
18. Maksimov A., Blekanov I. Vebometricheskie issledovaniia segmenta universitetskogo Veba s pomoshch'iu poiskovogo robota [The webometric research of the university Web segment using the Web-crawler]. Protsessy upravleniia i ustoichivost'. Trudy 44-i mezhdunar. nauch. konferentsii aspirantov i studentov [Control Processes and Stability. Proc. of the 44th Intern. Scientific Conference for postgraduates and undergraduate students]. Saint Petersburg, Saint Petersburg State University Press, 2013, pp. 403-408.
19. Blekanov I. S., Sergeev S. L., Maksimov A. I. Analysis of the topology of large Web segments using Broder's bow-tie model. Life Science Journal, 2014, vol. 11, pp. 258-261.
Статья рекомендована к печати доц. В.Ю.Добрыниным. Статья поступила в редакцию 26 ноября 2015 г.