Научная статья на тему 'О рейтинге официальных сайтов научных учреждений северо-запада России'

О рейтинге официальных сайтов научных учреждений северо-запада России Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
459
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЕБОМЕТРИКА / ИНТЕРНЕТ / ВЕБ-РЕСУРСЫ / ИНДИКАТОРЫ / ПОИСКОВЫЕ МАШИНЫ / РАНЖИРОВАНИЕ САЙТОВ / WEBOMETRICS / INTERNET / WEB-RESOURCES / INDICATORS / SEARCH ENGINES / RANKING OF SITES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мазалов Владимир Викторович, Печников Андрей Анатольевич

На основе новых подходов к измерениям известных вебометрических индикаторов и вычислению функций ранжирования, проведено ранжирование сайтов научных организаций РАН северо-запада России. Проанализированы результаты ранжирования по двум методикам и сформулированы предложения по продолжению исследований.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

On the basis of new approaches to measurements known webometrics indicators and to computation of ranging functions, ranging of sites of the scientific organizations of the Russian Academy of Sciences of the northwest of Russia is spent. Results of ranking by two techniques are analyzed and offers on continuation of researches are formulated.

Текст научной работы на тему «О рейтинге официальных сайтов научных учреждений северо-запада России»

УДК 004.738.5 ББК 32.973.202

О РЕЙТИНГЕ ОФИЦИАЛЬНЫХ САЙТОВ НАУЧНЫХ УЧРЕЖДЕНИЙ СЕВЕРО-ЗАПАДА РОССИИ

1 2 Мазалов В. В. , Печников А. А.

(Учреждение Российской академии наук Институт прикладных математических исследований КарНЦ РАН, Петрозаводск)

На основе новых подходов к измерениям известных вебометри-ческих индикаторов и вычислению функций ранжирования, проведено ранжирование сайтов научных организаций РАН северо-запада России. Проанализированы результаты ранжирования по двум методикам и сформулированы предложения по продолжению исследований.

Ключевые слова: вебометрика, Интернет, веб-ресурсы,

индикаторы, поисковые машины, ранжирование сайтов.

1. Введение

Термин «вебометрика» (webometrics), введенный более 10 лет назад, обозначает раздел информатики, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к World Wide Web (далее - Веб) [17].

Одним из наиболее известных вебометрических проектов является проект испанской исследовательской группы

1 Владимир Викторович Мазалов, доктор физико-математических наук, профессор (vmazalov@krc.karelia.ru).

2 Андрей Анатольевич Печников, кандидат физико-математических наук, доцент (baebron@karelia.ru, моб. тел. +7 921 700 3362).

Cybermetrics Lab «Webometrics Ranking of World Universities» [23], посвященный изучению вебометрических индикаторов и ранжированию на их основе сайтов университетов и научноисследовательских институтов. Исследования ведутся с 2004 г., накоплен большой объем информации по сайтам 16 000 учреждений высшего образования и 7 000 научных учреждений.

В январе 2009 г. был открыт новый сайт «Ranking Web of World Research Centers» [22], посвященный только научноисследовательским институтам. На сайте опубликован рейтинг «Top 2000 R&D», в который входят 59 российских научных сайтов, занимающих достаточно скромные позиции. Например, портал Сибирского отделения РАН занимает 66-е место, портал Российской академии наук - 91-е, сайт Уральского отделения РАН - 587-е, сайт Института математики

им. С. Л. Соболева Сибирского отделения РАН - 728-е.

Понятно, что на сегодняшний день большинство мировых веб-ресурсов составляют англоязычные сайты. Чтобы убедиться в том, что и наибольшее количество исследований посвящено англоязычным сегментам Веба, достаточно посмотреть публикации [19, 27] и список литературы к ним. Вместе с тем, с развитием веб-технологий появляется все большее количество исследований, ориентированных на национальные веб-ресурсы университетов и научно-исследовательских институтов, причем не только в Европе и США, но и в Австралии, Латинской Америке, Иране и Нигерии [16, 20, 21, 28].

Россия не является исключением и можно отметить работы, посвященные исследованию и ранжированию научных сайтов Сибирского отделения РАН [6, 14], а также раздел «Рейтинг сайтов научных учреждений СО РАН» официального сайта Института вычислительных технологий [11]. Ранжированию сайтов классических университетов России посвящена работа [9], а в работе [3] исследуются рейтинги университетов северо-запада России и Финляндии.

В продолжение этой тенденции было проведено обследование и ранжирование официальных сайтов научных организаций РАН северо-запада России с использованием подходов, предло-

женных в [14], и их модификаций, сделанных авторами статьи, что позволило выявить ряд интересных моментов, отраженных в данной статье.

2. Целевое множество исследования

Выбор сайтов научных организаций РАН северо-запада России в качестве объекта исследований позволяет получить достаточно обширную выборку научных сайтов (около 10% всех официальных сайтов учреждений РАН), относящихся к разным областям науки, находящихся в различных иерархических отношениях с вышестоящими инстанциями и размещенных достаточно компактно в географическом плане. При этом в целевое множество включались только официальные сайты организаций, имеющие собственные доменные имена. (Такое очевидное сужение множества имеет объяснения, следующие из дальнейшего изложения).

Основным способом выявления сайтов для целевого множества являлся анализ информации, содержащейся в Справочнике РАН [12] и Единой информационной системе РАН [2]. В случае отсутствия данных о доменном имени сайта института выполнялся поиск в поисковых системах Яндекс и Google по его названию. Каждый найденный веб-адрес проверялся на работоспособность, причем в случае отказов - несколько раз, поскольку существует вероятность отказов на уровне каналов связи и оборудования.

В случае наличия у организации нескольких сайтов в целевое множество включался сайт, удовлетворяющий одному из следующих условий (приоритет сверху вниз):

- включен в перечень информационных систем научных учреждений РАН;

- указан в соответствующем перечне на сайте регионального научного центра;

- на самом сайте сказано, что он является официальным сайтом учреждения.

Было сформировано целевое множество исследования, содержащее 3 сайта региональных научных центров (Санкт-Петербургский, Карельский и Кольский), 24 сайта институтов РАН, географически расположенных в Санкт-Петербурге и Ленинградской области (подчиняющихся Отделениям РАН по областям науки), 1 научное учреждение Санкт-Петербургского научного центра, 7 - Карельского научного центра и 5 - Кольского научного центра. Полный перечень сайтов целевого множества приводится на специализированном сайте «Вебометрика. ИПМИ КарНЦ РАН» [1] в разделе «Ранжирование сайтов РАН». Веб-ресурсы некоторых институтов не вошли в целевое множество, поскольку не имеют собственного доменного имени, а являются директориями вышестоящего домена. Кроме того, несколько доменных имен, указанных в ряде источников как имена официальных сайтов институтов, оказались неработающими (к счастью, их было очень мало).

3. Вебометрические индикаторы, методики

измерений и ранжирование сайтов

Вначале определим вебометрические индикаторы S, V, R и Sc в соответствии с [23]:

- под размером сайта (S - size) понимается общее количество страниц, обнаруживаемых на сайте поисковыми машинами Google, Yahoo, Live Search и Exalead;

- видимость сайта (V - visibility) - это количество уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых Yahoo Search, Live Search и Exalead;

- количество полнотекстовых файлов (R - «rich files») - это суммарное количество файлов с расширениями PDF, DOC, PS и PPT, обнаруживаемых Google;

- и, наконец, научность сайта (Sc - «scholar») - это количество ссылок на сайт, обнаруживаемых Google Scholar.

Одно из первых замечаний, которое возникает при чтении предыдущего абзаца, заключается в перечне используемых поисковых машин и применимости их к российскому (или

неанглоязычному) Вебу. Можно согласиться с коллегами из Новосибирска, использующими Яндекс, Google и Yahoo, поскольку «именно эти поисковые системы наиболее полно индексируют русскоязычную часть Интернета» [6, 14]. Первые две системы имеют необходимые сервисы для измерений индикаторов и при этом используются более 80% пользователями в России (по данным проекта LiveInternet [13]). Yahoo - далеко не самая популярная в России поисковая система, однако ее использование практически всеми исследователями основано на развитых сервисах. В частности, предоставляется возможность исключать из множества ссылок на заданный сайт ссылки, сделанные с этого же сайта, что важно при измерениях индикатора V. Как и в [14], мы исключим из рассмотрения файлы PS, поскольку их количество на российских сайтах весьма незначительно, а сервис Яндекса не позволяет их обнаружить.

По поводу измерения индикатора научности сайта Sc никаких вариантов, кроме использования системы Google Scholar, не остается, поскольку российские аналоги пока слишком неубедительны. Вместе с тем, можно принять дополнение, предложенное в [14], когда в качестве значения Sc, измеряемого средствами Яндекса, принимается так называемый тИЦ, - тематический индекс цитирования, - «авторитетность» сайта с учетом качественной характеристики ссылок на них с других сайтов [4].

В данном разделе мы приведем некоторые результаты измерений индикаторов и ранжирования сайтов описанного выше целевого множества по методике Института вычислительных технологий Сибирского отделения РАН. Опишем способы измерения индикаторов, которые будем обозначать, как и в [14], латинскими буквами с индексами, указывающими поисковую систему:

Smu^c - на странице http://webmaster.yandex.ru/check.xml в строке поиска вводится доменное имя сайта (без http и закрывающих

«/»);

Sooogie - на странице http://www.google.ru в строке поиска вводится site: доменное имя сайта;

SYahoo - на странице http://www.yahoo.com в строке поиска вводится доменное имя сайта;

Уяндекс - на странице http://www.yandex.ru в строке поиска вводится доменное имя сайта в кавычках, из количества найденных страниц следует вычесть количество страниц, указанных в пункте «Еще с сайта» для измеряемого сайта;

Vcoogk - на странице http://www.google.ru в строке поиска вводится и^:доменное имя сайта;

VYahoo - на странице http://siteexplorer.search.yahoo.com в строке поиска вводится доменное имя сайта, выбирается кнопка inlinks, выбирается опция Except from this domain и выбирается опция

Entire Site;

Кяндекс - на странице http://yandex.ru/advanced.html в позиции «находятся на сайте» вводится доменное имя сайта, для одновременного поиска по форматам PDF, DOC и PPT все они выбираются в окне «формат» с удерживанием клавиши Shift;

RGoogie - на странице http://www.google.ru/advanced_search?hl=ru в позиции «домен» вводится доменное имя сайта, в позиции «формат файла» последовательно выбираются PDF, DOC и PPT и результаты суммируются;

RYahoo - на странице http://www.yahoo. com вводится доменное имя сайта и выбирается кнопка Web Search, выбираются Options, Advanced Search, затем последовательно в позиции File Format выбираются PDF, DOC, PPT и результаты суммируются;

ScMtldeKC - на странице http://yaca.yandex.ru/yca в строке поиска вводится доменное имя сайта;

ScGoogie - на странице http://scholar.google. com в строке поиска набирается «+доменное имя сайта».

Полностью результаты замеров вебометрических индикаторов для целевого множества приведены в [1]. Учитывая динамику Веба и постоянную деятельность роботов поисковых машин, отметим, что измеренное значение индикатора - это значение, полученное данной поисковой машиной в конкретный момент времени.

Ранжирование сайтов целевого множества проводилось по методике, которую можно увидеть в Вебе по ссылке [11], но для

удобства мы вкратце опишем ее здесь. Рейтинг сайта вычислялся по формуле

Ж = V + 5 + 2Р + 1,55?,

где

V 1о§10(^), V0 [^Яндекс + VGoogle + VYahoo\/3;

5 1о§10(50); 50 [5Яндекс + 5Google + 5Yahoo\/3;

Р 1о§10(^0); Р0 [РЯндекс + RGoogle + RYahoo\/3;

5С = [1о§10 (5сЯндекс) + 1ogl0(5cGoogle)]/2.

Полный ранжированный список всех 40 сайтов целевого множества приведен в [1\; первая десятка выглядят так:

1. Физико-технический институт им. А. Ф. Иоффе РАН;

2. Зоологический институт РАН;

3. Институт проблем машиноведения РАН;

4. Петербургский институт ядерной физики РАН;

5. Институт русской литературы РАН (Пушкинский дом);

6. Кольский научный центр РАН;

7. Кунсткамера (Музей антропологии и этнографии РАН);

8. Пулковская астрономическая обсерватория РАН;

9. Санкт-Петербургский институт информатики и автоматизации РАН;

10. Институт лингвистических исследований РАН.

4. О применимости поисковых машин в качестве «измерительных устройств» и уточнении

понятия «единица анализа»

Алгоритмы работы поисковых роботов и механизмы индексации страниц являются секретными особенностями поисковых машин, о которых можно лишь догадываться [7]. Однако полученные авторами результаты измерений не могут не вызвать вопроса о применимости коммерческих поисковых машин для измерения вебометрических индикаторов. Критические публикации на эту тему появились достаточно давно и продолжают появляться [18, 24, 25], что, однако, не останавливает исследователей, имеющих в качестве «измерительных устройств» только поисковые системы.

Продемонстрируем особенности измерений общего количества страниц на примере сайта Карельского научного центра РАН (КарНЦ РАН) www.krc.karelia.ru. Бросается в глаза существенная зависимость результатов от поисковой машины: S''Яндекс 30 ООО, SGoogle 5 670, а SYahoo 18.

Детальный анализ перечня страниц сайта www.krc.karelia.ru, проиндексированных Яндексом, показывает, что сюда же отнесены страницы самостоятельных сайтов, имеющих доменные имена 4-го уровня (rcdl2009.krc.karelia.ru, tender.krc.karelia.ru, mathem.krc.karelia.ru и многие другие). В то же время измерение значения SЯндекс, к примеру, для сайта Института прикладных математических исследований КарНЦ РАН дает значение 811, т. е. этот сайт рассматривается Яндексом как самостоятельная единица анализа. Отсюда следует, что реальное значение 'Яндекс для КарНЦ РАН существенно завышено за счет самостоятельных сайтов, имеющих доменные имена 4-го уровня, входящие в домен третьего уровня krc.karelia.ru. Практически та же ситуация наблюдается и при измерениях ЯЯндекс.

Конечно, эти ситуации могут быть обойдены, если нам известен полный перечень всех доменных имен так называемой «доменной зоны». К сожалению, эта информация известна далеко не всегда. Более того, она ничем не поможет нам в случаях измерений посредством Google и Yahoo (SGoogie = 5 670 и SYahoo = 18), хотя и добавит понимания того факта, что поисковый робот обходит не весь Веб. Авторам достоверно известно, что реальное количество страниц на сайте КарНЦ РАН чуть меньше 17 ООО. Но вряд ли мы когда-нибудь достоверно узнаем, почему Google индексирует примерно треть из них, а Yahoo -лишь тысячную часть. (Одна из авторских гипотез зависимости 'Яндекс от реального размера сайта и/или его структурной организации приводится в [1О]).

По поводу измерений количества уникальных гипертекстовых ссылок с других веб-ресурсов, обнаруживаемых поисковыми машинами, также приведем пример для КарНЦ РАН: УЯндекс = 215, VGoogle = 189 и VYahoo = 1 О25. Эти результаты трудно поддаются объяснению, поэтому лишь сошлемся на критиче-

скую работу [18], в которой показано, что для конкретных случаев Google скрывает от 48 до 70% проиндексированных им же страниц, содержащих ссылки на заданный сайт.

Соображения по поводу применения в качестве «измерительных устройств» не поисковых машин, а другого программного обеспечения, будут изложены в следующем разделе.

Остановимся подробнее на вопросе о том, что считать единицей анализа при ранжировании сайтов. В разделе «Целевое множество исследований» было отмечено, что авторы в рамках данного исследования для каждого учреждения РАН анализируют только официальный сайт. При этом понятным кажется и подход, используемый в [14] и [22], когда в случае наличия у организации нескольких доменных имен используется их совокупность.

Расширим такой подход до уровня веб-ресурсов крупной организации в целом. Тогда следует вести речь о сложном информационном комплексе, являющемся в каком-то смысле отражением ее организационно-управленческой и научной структуры. Как правило, в этом информационном комплексе существует так называемая точка входа (основной сайт организации), а далее следуют: административный сайт, сайты лабораторий, сайты выполняемых проектов, страницы сотрудников и т. д. При этом некоторые подразделения крупных институтов (в особенности это свойственно подразделениям, профессионально связанным с информационными технологиями), имеют вебресурсы, зарегистрированные под именами, не содержащими доменного имени основного сайта организации. И в противовес им могут существовать сайты организаций, содержащих доменное имя основного сайта, но не имеющих отношения к его научной деятельности (сайт профсоюзной организации института - это еще куда ни шло, но могут быть и сайты туристических клубов и др.).

В этом случае только содержательный анализ ресурса может дать ответ на вопрос, является ли этот ресурс частью вебресурсов организации. Учитывая, что мы сталкиваемся с определенными проблемами даже на стадии выявления официаль-

ных сайтов, хотелось бы говорить о веб-ресурсах организации как о некотором официально утвержденном и опубликованном перечне. Только в этом случае под единицей анализа можно понимать «веб-ресурсы организации в целом». В противном случае очень многое зависит от субъективных знаний исследователей об институтах и трактовок о том, следует ли считать некоторый сайт веб-ресурсом организации или нет. Например, использование в качестве единицы анализа не только доменного имени официального сайта Института прикладных математических исследований КарНЦ РАН (ИПМИ КарНЦ РАН), но и всех его веб-ресурсов, известных авторам, изменяет положение в рейтинге с 34-го на 16-е.

5. Смешанный подход к измерениям индикаторов и модифицированный рейтинг

В 2008 г. в ИПМИ КарНЦ РАН стартовал проект «Вебомет-рические исследования научных Интернет-ресурсов Российского Интернета»1. Опыт, накопленный в процессе исследования более 200 официальных сайтов РАН [1], позволяет сделать некоторые предложения как по поводу измерений вебометриче-ских индикаторов, так и о соответствующей модификации формул вычисления рейтинга сайтов.

В рамках указанного проекта для сборки гиперссылок, исходящих с заданного сайта, для их последующего анализа был разработан робот LPR (от слов Link, Page и Robot). Побочным эффектом от работы LPR является получение реальных значений количества всех страниц отсканированных сайтов. Таким образом, мы получаем вебометрические индикаторы S и R, измеренные не поисковыми машинами, а LPR (обозначим их как SLPR и RLPR), значения которых можно использовать при ранжировании сайтов.

1 Поддержан Российским фондом фундаментальных исследований (грант №08-07-00023а).

Основное опасение, которое могло бы сдерживать использование ЬРЯ и подобных ему роботов для измерения значений 5 и Я, заключается в слишком больших размерах сайтов, и, следовательно, в неоправданных затратах ресурсов. Однако проведенные исследования показывают, что на сегодняшний день среди сайтов научных организаций РАН лишь Портал РАН содержит общее количество страниц большее чем 500 000. Сайты, содержащие десятки тысяч страниц (что приемлемо по затратам ресурсов для их сканирования), исчисляются десятками, а значительное количество официальных сайтов содержит до тысячи страниц. Единственный большой сайт, отсканированный ЬРЯ не до конца в нашем случае - это сайт Физикотехнического института им. А. Ф. Иоффе РАН (полученных значений и так достаточно, чтобы вывести его на первое место в рейтинге).

Таким образом, вместо значений 5 и Я, измеренных с помощью поисковых машин, предлагается взять значения, измеренные ЬРЯ. (К сожалению, поступить подобным образом с индикаторами V и 5с мы не можем по причине слишком большой размерности Веба). Тогда модифицированная формула для вычисления рейтинга сайта будет выглядеть следующим образом:

ЖМ = V + 5м + 2Ям + 1,55с,

где

V 1о810(^Х V0 \^Яндекс + VGoogle + VYahoo\/3;

5М = 1о§10(5ЬРяХ ЯМ = 1о§10(ЯЬРЯ);

5с [1о§10(5сЯндекс) + 1og10(5cGoogle)\/2.

Полный ранжированный список всех 40 сайтов целевого множества по модифицированной формуле для ЖМ приведен в [1\, а первая десятка выглядят так:

1. Физико-технический институт им. А. Ф. Иоффе РАН;

2. Зоологический институт РАН;

3. Институт проблем машиноведения РАН;

4. Карельский научный центр РАН;

5. Кольский научный центр РАН;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6. Кунсткамера (Музей антропологии и этнографии РАН);

7. Институт лингвистических исследований РАН;

8. Институт прикладной астрономии РАН;

9. Петербургский институт ядерной физики РАН;

10. Ботанический институт им. В. Л. Комарова РАН.

Сравнивая места сайтов первой десятки по критериям Ж и

ЖМ, нетрудно убедиться в том, что списки совпадают на 70%. (Коэффициент корреляции между значениями Ж и ЖМ для всего целевого множества равен 0,81, см. [1\).

Поясним на двух примерах причины, по которым, как нам кажется, в первую десятку по критерию ЖМ не вошли сайты с очевидно высоким рейтингом. Сайт Института русской литературы РАН (Пушкинский дом) имеет доменное имя второго уровня pushkinskijdom.ru, но при этом имеются его разделы, адресуемые как доменные имена третьего уровня (например, раздел «Электронные публикации Института русской литературы» lib.pushkinskijdom.ru, содержащий более 6 000 страниц) и другие разделы. В данном случае, как и в случае с сайтом КарНЦ РАН, 5Яндекс имеет гораздо большее значение, чем 5ЬРЯ.

Сайты некоторых институтов робот ЬРЯ не смог отсканировать по другой причине. Известно, что роботы, сканирующие Веб, могут доставлять владельцам сайтов ряд проблем, таких как рост трафика, вторжение в закрытую информацию, нарушение авторских прав и поведение, похожее на деятельность программ-вирусов [26\. Поэтому владельцы сайтов и/или вебсерверов могут вводить ограничения доступа к их содержимому. Из Кодекса этического поведения АСМ [15\, в частности, следует, что не должны прилагаться усилия по преодолению введенных ограничений доступа, и разработчики робота ЬРЯ следуют эти правилам. В рамках данной статьи невозможно дать развернутого ответа на вопрос о том, нарушается ли этика поведения роботами поисковых машин. Короткий ответ может выглядеть так: возможно, не нарушается, а по ответам на запросы выдаются данные из архивов, сформированных раньше, чем были установлены ограничения доступа к сайтам.

6. Заключение и предложения

Проделанная работа по ранжированию сайтов научных организаций РАН северо-запада России позволяет сделать ряд выводов и рекомендаций для дальнейших исследований.

Соглашаясь с определением основных вебометрических индикаторов, отметим, что выбор тех или иных «измерительных устройств» является дискуссионным. В ряде работ, включая и данную, показаны примеры, заставляющие задуматься о надежности применимости поисковых машин. В то же время, самостоятельные разработки программного обеспечения также могут быть подвергнуты сомнению до тех пор, пока не докажут свою надежность. Это вопрос, который должен быть тщательно исследован и обсужден специалистами.

В то же время показано, что выбор «измерительных устройств» и методик ранжирования не слишком влияет на положение явных лидеров. Ранжирование по двум различным методикам на замерах, сделанных для одних и тех же единиц анализа (в нашем случае это доменные имена официальных сайтов), как продемонстрировано в статье, дает результаты по первой десятке, совпадающие на 70 процентов. (Интересно, что результаты ранжирования по методике Cybermetrics Lab [23], которые не приводятся в данной статье, дают еще лучшее совпадение!) Причем сайты теряют высокие места именно в связи с тем, что происходит сужение совокупности веб-ресурсов института, а не из-за изменения функции вычисления значения рейтинга или методики измерения индикаторов.

По-видимому, более существенным на сегодня вопросом является вопрос о том, что следует считать единицей анализа при ранжировании сайтов. Как было отмечено, даже само выявление сайтов некоторых научных учреждений сегодня представляет определенные трудности, тем более трудновыполнимой представляется задача обнаружения всей совокупности вебресурсов одного учреждения. Возможно, следовало бы на официальном уровне (например, в отделениях и научных центрах РАН) разработать рекомендации по содержательному наполне-

нию первых страниц официальных сайтов институтов. Одной из рекомендаций могло бы быть наличие раздела под названием «Веб-ресурсы института (организации, учреждения)», так, как это сделано на первых страницах сайтов ИПМИ КарНЦ РАН и Петрозаводского госуниверситета [5, 8].

Вебометрические исследования рейтингов сайтов являются хорошей основой для сравнительного анализа некоторых характеристик уже созданных веб-ресурсов, а значит, позволяют определить направления их дальнейшего развития.

Литература

1. Вебометрика. Институт прикладных математических исследований КарНЦ РАН [Электронный ресурс] - Режим доступа: http://webometrics.krc.karelia.ru.

2. Единая информационная система РАН [Электронный ресурс] - Режим доступа:

http: //www .ras.ru/scientificactivity/eis.aspx.

3. ИЛЮКЕВИЧ О. Г., ПЕЧНИКОВ А. А. Рейтинг официальных web-сайтов университетов России и Финляндии: сравнительный анализ // Информационные ресурсы России.

- 2008. - №3(103) - С.25-28.

4. Индекс цитирования [Электронный ресурс] - Режим доступа: http://help.yandex.ru/catalogue/?id=873431.

5. Институт прикладных математических исследований КарНЦ РАН [Электронный ресурс] - Режим доступа: http://mathem.krc.karelia.ru.

6. КЛИМЕНКО О. А., ШОКИН Ю. И. О рейтинге сайтов научных организаций СО РАН // Наука в Сибири. -2008 г. -№44 (2679). - URL: http://www-sbras.nsc.ru/HBC/ hbc.phtml?5+479+1 (дата обращения: 18.03.2009).

7. НЕКРЕСТЬЯНОВ И., ПАНТЕЛЕЕВА Н. Системы тексто-

вого поиска для Веб [Электронный ресурс] // Группа исследования методов организации информации. - URL:

http: //meta.math.spbu.ru/ ~nadej da/papers/web-ir/web-ir.html (дата обращения: 18.03.2009).

8. Петрозаводский государственный университет [Электронный ресурс] - Режим доступа: http: //petrsu.karelia.ru.

9. ПЕЧНИКОВ А. А. Вебометрические исследования Web-сайтов университетов России // Информационные технологии. - 2008. - №11 - С. 74-78.

10. ПЕЧНИКОВ А. А., ЛУГОВАЯ Н. Б. Измерения научных сайтов // Телематика’2008. Труды XV Всероссийской научно-методической конференции, С-Петербург, 2008 г. - Т. 1.

- С. 166.

11. Рейтинг сайтов научных учреждений СО РАН [Электронный ресурс]. - Режим доступа: http: //www.ict.nsc.ru/ranking.

12. Российская академия наук. Справочник 2007 года. Часть II [Электронный ресурс] - Режим доступа: http://www.ras.ru/fstorage/download.aspx?id=209736f0-13f2-4509-882f-d90161a9b120 (дата обращения: 18.03.2009).

13. Статистика сайта «Сайты Рунета» [Электронный ресурс] - Режим доступа:

http: //www. liveinternet.ru/stat/ru/searches.html.

14. ШОКИН Ю. И., КЛИМЕНКО О. А., РЫЧКОВА Е. В.,

ШАБАЛЬНИКОВ И. В. Рейтинг сайтов научных организаций СО РАН // Вычислительные технологии. - 2008. - Т. 13, №3. - С. 128-135.

15. ACM code of ethics and professional conduct // Association for Computing Machinery : сайт. - URL:

http://www.acm.org/constitution/code.html (дата обращения:

18.03.2009).

16. AGUILLO I. F. Indicadores de contenidos para la web académica iberoamericana [Content indicators for Iberoamerican academic webs] // BiD: textos universitaris de bibliotecono-mia i documentació. - 2005. - №15: сайт. - URL:

http: //www2.ub.edu/bid/

consulta_articulos.php?fichero=15aguil2.htm (дата обращения:

18.03.2009).

17. ALMIND T., INGWERSEN P. Informetric analyses on the World Wide Web: Methodological approaches to «webometrics» // Journal of Documentation. - 1997. - №53(4). - P. 404-426.

18. Bar-Ilan J. How much information do search engines disclose on the links to a web page? A longitudinal case study of the ‘cybermetrics’ home page // Journal of Information Science. -2002. - Vol. 28, No. 6. - P. 455-466.

19. BJÖRNEBORN L, INGWERSEN P. Toward a basic framework for webometrics // Journal of the American Society for Information Science. - 2004. - Vol. 55, Iss. 14. - P. 1216-1227.

20. BOELL S., WILSON C., COLE F. A Webometric Analysis of Australian Universities using Staff and Size dependent Web Impact Factors (WIF) // Fourth International Conference on Webometrics, Informetrics, and Scientometrics & Ninth COLLNET Meeting, Berlin, 2008. - URL: http://www.collnet.de/Berlin-2008/BoellWIS2008waa.pdf (дата обращения: 18.03.2009).

21. NORUZI A. Web Impact Factors for Iranian Universities // Webology. - 2005. - Vol. 2, Num. 1 : сайт. - URL: http://www.webology.ir/2005/v2n1/a11.html (дата обращения:

18.03.2009).

22. Ranking Web of World Research Centers [Электронный ресурс] - Режим доступа: http : //research.webometrics.info.

23. Ranking Web of World Universities [Электронный ресурс]. -Режим доступа: http://www.webometrics.info.

24. SNYDER H.; ROSENBAUM H. Can search engines be used as tools for web-link analysis? A critical view // Journal of documentation. - 1999. - Vol. 55(4). - P. 375-384.

25. THELWALL M. Web impact factors and search engine coverage // Journal of Documentation. - 2000. - Vol. 56(2). - P. 185189.

26. THELWALL M. Web Crawling Ethics Revisited: Cost, Privacy and Denial of Service // Journal of the American Society for Information Science and Technology. - 2006. - №57. - P. 17711779.

27. THELWALL M., VAUGHAN L., BJÖRNEBORN L. Webometrics // Annual Review of Information Science and Technology. -2005. - Vol. 39, Iss. 1. - P. 81-135.

28. UTULU S. C. Webometric Ranking and Nigerian Private Universities: A Case Study of Bells University of Technology, Ota // E-prints in Library and Information Science. - 2007. - URL: http://eprints.rclis.Org/9007/1/F0927C9D.pdf (дата обращения:

18.03.2009).

ON THE RATING OF OFFICIAL SITES OF SCIENTIFIC INSTITUTIONS OF THE RUSSIAN NORTHWEST REGION

Vladimir Mazalov, Institute of Applied Mathematical Research of Karelian Research Centre of RAS, Petrozavodsk, Doctor of Science, professor (vmazalov@krc.karelia.ru).

Andrey Pechnikov, Institute of Applied Mathematical Research of Karelian Research Centre of RAS, Petrozavodsk, Cand.Sc., assistant professor (baebron@karelia.ru, моб. тел. +7 921 700 3362).

Abstract: On the basis of new approaches to measurements known webometrics indicators and to computation of ranging functions, ranging of sites of the scientific organizations of the Russian Academy of Sciences of the northwest of Russia is spent. Results of ranking by two techniques are analyzed and offers on continuation of researches are formulated.

Keywords: webometrics, Internet, web-resources, indicators, search engines, ranking of sites.

Статья представлена к публикации членом редакционной коллегии Д. А. Новиковым

i Надоели баннеры? Вы всегда можете отключить рекламу.