Научная статья на тему 'Статистика поискового поведения пользователей баз данных научной информации'

Статистика поискового поведения пользователей баз данных научной информации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
356
51
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПОИСКОВОЕ ПОВЕДЕНИЕ ПОЛЬЗОВАТЕЛЕЙ / СТАТИСТИКА / ДОКУМЕНТАЛЬНЫЕ БАЗЫ ДАННЫХ / ИНФОРМАЦИОННО-ПОИСКОВЫЕ СИСТЕМЫ / RETRIEVAL USERS' BEHAVIOR / STATISTICS / DOCUMENTARY DATA BASES / INFORMATION RETRIEVAL SYSTEMS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Голицына Ольга Леонидовна, Максимов Николай Вениаминович

Приводятся статистические данные, отражающие характер использования информационных ресурсов и функций информационных систем при поиске научной информации в ретроспективных реферативно-библиографических базах данных. Анализ показывает, что для профессиональных пользователей специализированных информационных ресурсов характерна склонность к логическому целенаправленному формулированию запроса и обработке результатов поиска.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Statistics of searching behaviour of database users of scientific information

Statistical data, reflecting the character of use of information resources and functions of information systems in search of scientific information in retrospective bibliographic databases are given. The analysis shows that professional users of specialized information resources are characterized by a typical tendency to logical goalseeking formulation of query and processing of search data.

Текст научной работы на тему «Статистика поискового поведения пользователей баз данных научной информации»

Информатика

УДК 002.513.5 + 002.52 ББК 73

СТАТИСТИКА ПОИСКОВОГО ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ БАЗ ДАННЫХ НАУЧНОЙ ИНФОРМАЦИИ

© О. Л. Голицына, Н. В. Максимов, 2011

Национальный исследовательский ядерный университет «МИФИ» 115409, г. Москва, Каширское ш., 31

Приводятся статистические данные, отражающие характер использования информационных ресурсов и функций информационных систем при поиске научной информации в ретроспективных реферативно-библиографических базах данных. Анализ показывает, что для профессиональных пользователей специализированных информационных ресурсов характерна склонность к логическому целенаправленному формулированию запроса и обработке результатов поиска.

Ключевые слова: поисковое поведение пользователей, статистика, документальные базы данных, информационно-поисковые системы.

Statistical data, reflecting the character of use of information resources and functions of information systems in search of scientific information in retrospective bibliographic databases are given. The analysis shows that professional users of specialized information resources are characterized by a typical tendency to logical goalseeking formulation of query and processing of search data.

Key words: retrieval users' behavior, statistics, documentary data bases, information retrieval systems.

Введение

Документальные информационно-поисковые системы (ИПС) в период своего возникновения и бурного развития в 1960-1970-е гг. предназначались и использовались в первую очередь для поиска научно-технической информации и были ориентированы на обслуживание основной деятельности научных работников. Однако развитие сетевых технологий и вычислительной техники и их тотальное внедрение в повседневную жизнь привели к тому, что практика использования поисковых систем поменялась: ИПС (а точнее, поисковые машины Интернета) приняли ориентацию на массовое использование и парадигму поиска, соответствующую невысокому уровню сложности задач и познавательных возможностей большинства пользователей: поисковый запрос все чаще приобретает форму вопроса, а информационно-поисковый язык все более приближается к естественному языку.

По данным исследования [1], проведенного летом 2009 г., усредненная характеристика пользователя поисковых машин выглядит следующим образом:

1. Доля вопросов среди поисковых запросов в системах Яндекс и Нигма составляет около 3%.

2. За одну сессию пользователь в среднем делает примерно 3 запроса.

3. Больше половины поисковых сессий (51% на «Yandex.ru») состоят лишь из одного запроса.

4. Время поиска в 62% случаев составляет меньше одной минуты.

5. Средний поисковый запрос состоит из трех слов.

Были отмечены и положительные тенденции: средняя длина поискового запроса за год (с 2008 по 2009 г.) увеличилась с 2,5 слов до 3; доля запросов длиной в одно слово на «Yandex.ru» сократилась более чем в четыре раза; доля запросов, длина которых составляет четыре слова и больше, увеличилась примерно на 80%.

Следует отметить, что поисковые машины Интернета охватывают в основном отдельные файлы, открытые для общего доступа в сети. Профессиональная же информация (научная, патентная, экономическая и т. д.) чаще находится в специализированных ресурсах - структурированных базах данных и в электронных библиотеках, для доступа к которым необходимо использовать программные средства владельца ресурса. Эффективность использования распределенной информации при этом обусловлена такими свойствами, как рассеяние / концентрация информации и «языковой барьер» между информационными системами.

Использование информационных ресурсов при решении задач основной деятельности требует от пользователя умения и навыков проводить проб-

лемный (инновационный и творческий по своей природе) поиск. ИПС со своей стороны должна учитывать, что поисковые запросы являются не статичными, а развивающимися, и обеспечивать пользователю возможность собирать информацию по частям, итеративно, а не всю сразу в ответ на единственный запрос. При этом пользователь может применять широкий круг справочников для работы с лексикой предметной области - тезаурусы, рубрикаторы, словари и т. п.

В статье рассматривается поисковое поведение пользователей при работе со специализированными информационными ресурсами, предоставляющими возможность применять различные поисковые методы, включая не только поиск по терминам, но и поиск документов по сходству, обратной связи, релевантности, через гипертекстовые и справочно-поисковые структуры, а также используя функции обработки результатов отбора.

Анализируемые информационные ресурсы

Для анализа поискового поведения пользователей использовались протоколы поисковых сессий в ретроспективных документальных базах данных Института научной информации по общественным наукам (www.inion.ru) и Всероссийского научно-технического информационного центра1 (www.vntic.org.ru).

Институт научной информации по общественным наукам РАН (ИНИОН РАН), созданный в 1969 г., унаследовал основанную в 1918 г. Фундаментальную библиотеку федерального значения, насчитывающую более 14 млн книг и периодических изданий на древних, современных восточных, европейских и русском языках, в том числе, редкие издания ХУ1 - начала XX в. Информация о фондах отражается в системе электронных баз данных (около 3 млн записей), сформированных по тематическому признаку (8 ретроспективных тематических БД). Для систематизации информации и организации доступа используются тематические тезаурусы и рубрикаторы.

Всероссийский научно-технический информационный центр (ВНТИЦентр) Министерства образования и науки РФ формирует национальный фонд непубликуемых источников научно-технической информации - отчетов о научно-исследовательских работах и опытно-конструкторских разработках (НИР и ОКР), кандидатских и докторских диссертаций, алгоритмов и программ. Фонд содержит свыше 7 млн документов, отражающих современное состояние и основные результаты научно-исследовательской деятельности в России

1 В настоящее время функции ВНТИЦентра переданы ЦИТиС.

и бывшем СССР по всем областям науки и техники с ретроспективой в 40 лет по общественным, естественным и точным наукам, техническим, прикладным, общеотраслевым и комплексным проблемам. Политематические базы данных реферативной информации о научно-исследовательских и опытно-конструкторских работах, а также о кандидатских и докторских диссертациях, защищенных в России (до 1991 г. - в СССР) с ретроспективой 24 года (с 1982 г.), физически разделены на пять БД, материал которых соответствует поступлениям определенных периодов.

Вышеупомянутые ресурсы были выбраны исходя из предпосылки, что пользователи имеют разный уровень профессиональной и информационной подготовленности [2, 3], и что поиск косвенно определяется характером задач основной деятельности. ИНИОН РАН комплектует информационные массивы преимущественно тиражируемой печатной продукции и его потребители, в основном, гуманитарии. ВНТИЦентр комплектует информационные массивы непубликуемых источников научно-технической информации, используемой, обычно, при углубленном профессиональном подходе к предметной области, и его потребители, в основном, специалисты преимущественно в области естественных и технических наук.

Доступ через Интернет и поиск информации в обоих ресурсах обеспечивается с помощью документальной информационно-поисковой системы Ирбис [4], реализующей классические механизмы поиска по четким и нечетким критериям, а также реформулирование запроса по обратной связи. В системе предусмотрены вербальные, гипертекстовые и кластерные (документ или их совокупность) технологии поиска. При формировании и реформулировке запроса можно использовать словари, рубрикаторы и тезаурусы. Система обеспечивает переадресацию и адаптацию запроса для проведения поиска в других ресурсах с учетом особенностей их ИПЯ. Результаты поиска представляются в различных форматах, а также в виде тематических словарей лексики с частотными характеристиками.

Процесс поиска зависит от типа поисковой задачи и в общем случае реализуется итеративной последовательностью шагов. При этом развитие запроса может быть достигнуто:

• реформулировкой и обогащением выражения запроса, в том числе с использованием различных терминологических систем;

• использованием нескольких механизмов отбора с разной жесткостью критерия;

• использованием основанных на технологии обратной связи по релевантности итеративных процедур поиска, обеспечивающих последовательное расширение терминологического и документального пространства.

Результат каждого запроса вносится в Протокол поисковой сессии, что позволяет не только отобразить ход процесса и использовать ранее полученные результаты, но и зафиксировать оценку пользователя.

Система имеет контролируемый вход: пользователь может быть зарегистрированным или нет (пользоваться ресурсами как гость), при этом в любом случае он будет иметь одинаковые поисковые возможности. Однако статус гостя не позволяет восстанавливать и продолжать прерванную поисковую сессию, сохранять и повторно использовать запрос, а также заказывать электронные копии полных текстов документов.

На сайте ИНИОН РАН пользователь регистрируется самостоятельно. Все БД и формы представления документов доступны в равной степени всем пользователям. Во ВНТИЦентре регистрация осуществляется администратором, а гостю при работе с БД доступны только краткие описания документов (инвентарный номер и название).

Массив анализируемых данных

Протоколы поисковых сессий представлены в ИПС в виде пооперационного журнала поисковых сессий и архива выражений (текстов) запросов пользователей. Анализ поискового поведения основан на данных пооперационного журнала, а анализ структурной сложности и разнообразия запросов - на данных архива запросов.

Поисковая сессия представляет собой последовательность операций, доступных пользователю и позволяющих выполнить необходимые действия для получения результата - от входа в информационный массив до завершения работы.

Операции, выполняемые системой и фиксируемые в пооперационном протоколе, можно разделить на следующие группы:

• поиск и развитие поискового процесса;

• обработка результатов поиска (управление просмотром документов, использование ранее полученных результатов);

• служебные (вход / выход и выбор БД, задание параметров поиска).

• Перечень операций по группам приведен в таблице (с. 50).

Каждая запись журнала поисковых сессий содержит сведения об отдельной выполненной за сессию операции и параметры текущей поисковой сессии, которые использовались для группировки операций по сессиям.

Для исследования поискового поведения пользователей были рассмотрены:

• журнал поисковых сессий ИНИОН РАН за период 2007-2009 гг., включающий 254 711 сессий (231 646 гостевых и 23 015 сессий зарегистриро-

ванных пользователей) общим объемом 2 324 685 записей;

• журнал поисковых сессий ВНТИЦентра за период 2009-2010 гг., включающий 15 135 сессий (11 798 гостевых и 3 337 сессий зарегистрированных пользователей) общим объемом 133 215 записей.

Иллюстрации, характеризующие поведение пользователей рассматриваемых ресурсов, если не оговорено отдельно, будут далее приводиться попарно: данные, относящиеся к ИНИОН РАН, - на рис. а; к ВНТИЦентру - на рис. б.

Общий анализ поисковых сессий

Статистика журналов поисковых сессий показывает преобладание пользователей со статусом гостя: 90,9% - на сайте ИНИОН РАН, и 78,0% - на сайте ВНТИЦентра.

Анализ продолжительности поисковой сессии. Пользователи ИНИОН РАН в среднем выполняли 9,1 операции за сессию, а пользователи ВНТИЦентра - в среднем 8,8 операций за сессию. При этом средняя продолжительность (в операциях) гостевой сессии существенно ниже, чем сессии зарегистрированного пользователя: для ИНИОН РАН средняя продолжительность гостевой сессии -8,2 операции, сессии зарегистрированного пользователя - 18,0 операций; для ВНТИЦентра - средняя продолжительность гостевой сессии - 4,9 операции, сессии зарегистрированного пользователя -22,6 операций.

Следует отметить, что и среди гостевых сессий, и среди сессий зарегистрированных пользователей преобладают сессии с продолжительностью в 2-3 операции, однако процент таких сессий от общего числа для зарегистрированных пользователей существенно ниже: 34,1% гостевых и 18,1% зарегистрированных для ИНИОН РАН и 48,8% гостевых и 21,8% зарегистрированных для ВНТИЦентра.

На рис. 1 приведено распределение продолжительности поисковых сессий (в долях от общего числа) для гостей и зарегистрированных пользователей обоих ресурсов.

Анализ количества поисковых операций. Распределение количества поисковых операций за сессию (рис. 2) показывает, что поведение гостей и зарегистрированных пользователей в целом одинаково по отношению к обоим ресурсам и, как правило, длина сессии почти вдвое превосходит количество используемых поисковых функций.

Около 47% гостей ИНИОН РАН и около 70% гостей ВНТИЦентра либо завершают сессию, попадая после выбора ресурса на форму ввода поискового запроса, либо удовлетворяются одной поисковой операцией, что подтверждается низкой средней

Перечень протоколируемых операций

Группа Мнемоника Описание

Служебные ENTRY Начало сессии и вход в БД

XENTRY* Вход в БД при поиске через локальный ресурс (из БД на CD-ROM)

RESET Выбор новой БД

CHSES Изменение параметров сессии

OFF Завершение поисковой сессии

Поиск и развитие поискового процесса FIND Поиск по первичному запросу

FINDT* Поиск документов, содержащих термины, отмеченные в тезаурусе

FINDE Поиск по отредактированному выражению после первичного поиска

FINDX Поиск по гипертекстовым ссылкам от элементов (терминов) отображенных документов

ASRCH* Поиск аналогов указанного документа

HS Эвристический поиск по релевантным документам выдачи

HSJ Эвристический поиск по нескольким предложениям из протокола

LIST Просмотр словника релевантных документов

SOVA Поиск по терминам из словника релевантных документов

Обработка результатов поиска NXT Просмотр следующей страницы в выдаче

PRT Просмотр протокола поисковой сессии

CS Сортировка выдачи по возрастанию или убыванию значения одного из выбранных полей документа

SDOC Просмотр документов из протокола

DICT Просмотр словаря

JOIN Объединение результатов поиска

CH Смена схемы просмотра документа

DELQ** Удаление строки протокола

SAVEQ** Сохранение запроса (протокола)

ORD** Заказ копии полного текста документа

ORDMK** Подтверждение заказа копий

SMRKCLR Отказ от отметки (термина или документа)

**Операции в ресурсах ВНТИЦентра не включены. Операции только для зарегистрированных пользователей.

продолжительностью гостевой сессии. Существенно больший процент таких гостей для ресурса ВНТИЦентра может объясняться тем, что им доступны только заглавия документов.

Зарегистрированные пользователи, если они уже знакомы со структурой ресурса и с возможностями ИПС, могут удовлетворять свою поисковую потребность без формулировки поискового запроса - например, просмотром документов через словарь. Этим может объясняться более высокое число (в 2 раза больше) сессий с нулевым количе-

ством поисковых операций у зарегистрированных пользователей ИНИОН РАН. Однако процент сессий не более чем с одной поисковой операцией приблизительно одинаков для обоих ресурсов.

Количество же поисковых операций в среднем у зарегистрированных пользователей существенно больше, чем у гостей (6,3 операции у зарегистрированных и 3,3 операции у гостей ИНИОН РАН и 8,4 операций у зарегистрированных и 1,5 операции у гостей ВНТИЦентра). Наблюдаются сессии с 15 и более поисковыми операциями.

35% 30% 25% 20% 15% 10% 5% 0%

—|-

1 ГЛгПгПгПгПгПгПг-п

35% т 30% 25% 20% 15% 10% -Н 5% 0%

МДДддД

-П -П

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 □ Гости □ Зарегистрированные пользователи

б

Рис. 1. Количественное распределение продолжительности поисковых сессий

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 □ Гости □ Зарегистрированные пользователи

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

а

50% 45% 40% 35% 30% 25% 20% 15% 10% 5% 0%

1гГгТ

г! гЯ ^ —

50% 45% 40% 35% 30% 25% 20% 15% 10% 5% 0%

и

П гИ Л _■ _■

■ ■ ■ -

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 □ Гости □ Зарегистрированные пользователи

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 □ Гости □ Зарегистрированные пользователи

а б

Рис. 2. Количественное распределение поисковых операций за сессию

Анализ количества выданных документов.

Распределение количества документов, выдаваемых за сессию, приведено на рис. 3. Число сессий с нулевыми выдачами у гостей ИНИОН РАН превышает почти в 2 раза число сессий без поисковых операций, а у гостей ВНТИЦентра - почти в 3 раза, то есть гости ВНТИЦентра чаще получают нулевой результат при поиске, что может объясняться, тем, что последние могут осуществлять только ознакомительный доступ к ресурсам. Большее количество нулевых результатов поиска у зарегистрированных

пользователей ИНИОН РАН согласуется с большим количеством сессий без поисковых операций.

Зарегистрированные пользователи ВНТИЦентра более успешны при поиске - число сессий с количеством найденных документов от 1 до 300 почти в 2 раза больше, чем у зарегистрированных пользователей ИНИОН РАН.

Анализ количества баз данных, использованных за одну сессию. На рис. 4 приведены данные о количестве баз данных, использованных в сессии.

70% 60% 50% 40% 30% 20% 10% 0%

Г~гл

0 от 1 до 300 от 301 до 600 более 600

□ Гости □ Зарегистрированные пользователи

а

70% 60% 50% 40% 30% 20% 10% 0%

0 от 1 до 300 от 301 до 600 более 600

□ Гости □ Зарегистрированные пользователи

б

Рис. 3. Распределение объемов выдач

100% 90% -Н 80% 70% f 60% 50% 40% 30% -Н 20% 10% 0%

а

1 2 3 4 5 6 7 □ Гости □ Зарегистрированные пользователи

100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%

■ ■

1 2 3 4 5 6 7 8 □ Гости □ Зарегистрированные пользователи

а б

Рис. 4. Количество баз данных, используемых в сессии

Гистограммы количеств баз данных, используемых в сессии, в целом соответствуют принципам формирования ресурсов. Базы ИНИОН РАН сформированы по тематическому принципу и каждая из них имеет полную ретроспективу. Базы ВНТИЦентра разделены по временным периодам и для проведения ретроспективного поиска необходимо обратиться более, чем к одной базе.

Разнообразие форм и структурных элементов запроса

Распределение использования интерфейсньх форм. Пользователю для формирования поискового запроса при работе с ресурсами доступна одна из трех интерфейсных форм: запрос «по образцу» (QBE), строка логического выражения запроса или конструктор запроса. При этом по умолчанию и гости, и зарегистрированные пользователи попадают на форму конструктора запроса, что объясняет подавляющее преобладание сессий, использующих форму конструктора (около 99% сессий

ИНИОН РАН и 100% сессий ВНТИЦентра). Переключиться на другую форму можно, только меняя в явном виде параметры поисковой сессии: около 10% и гостей, и зарегистрированных пользователей каждого из ресурсов используют возможность смены формы запроса в течение поисковой сессии (рис. 5).

На рис. 6 приведена статистика использования форм запроса в ИНИОН РАН, относящаяся к периоду с 2003 по 2006 г. В этот период предлагаемым по умолчанию типом интерфейса являлась строка запроса. Тем не менее, пользователи изменяли тип интерфейса формирования выражения запроса на более сложный, но отражающий логику потребности более адекватными средствами.

Анализ использования структурных элементов запроса. Одним из показателей информационного и предметного профессионализма пользователя, его умения варьировать способы построения запроса является разнообразие значений структурных элементов запроса, применяемых в течение сессии (например, рис. 7, 8) [3].

100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%

X

QBE Строка запроса Конструктор

□ Гости □ Зарегистрированные пользователи

100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%

QBE Строка запроса Конструктор

□ Гости □ Зарегистрированные пользователи

б

Рис. 5. Использование интерфейсных форм запроса

а

100% 90% 80% 70% 60% 50% 40% -30% 20% 10% 0%

QBE Строка запроса Конструктор

□ Гости □ Зарегистрированные пользователи

Рис. 6. Использование интерфейсных форм запроса в ИНИОН РАН (2003-2006 гг.)

В среднем суммарно по всем запросам отдельной поисковой сессии приблизительно в 35% случаев используется от 5 до 10 терминов (рис. 7а). Около 73% сессий (рис. 7б) содержат в выражениях

запроса от 1 до 3 полей. Около 24% сессий содержат явно обозначенные логические операторы (рис. 7в), при этом лишь порядка 6% сессий содержат более одного вида операторов (например, не только И, но и ИЛИ). Операнды-ссылки на результаты других запросов встречаются лишь приблизительно в 10% поисковых сессий (рис. 7г).

При этом в отдельном запросе обычно содержится 1-2 термина (рис. 8а), 1-2 поля (рис. 8б), один явно используемый оператор (рис. 8в). Операнд-ссылка на ранее выполненные запросы встречается в каждом десятом запросе (рис. 8г).

Это позволяет сделать заключение о преобладании простых по составу запросов и постоянстве состава структурных элементов на протяжении сессии, что свидетельствует об отсутствии гибкости в поведении пользователя, ограниченности в выборе способов составления запроса, то есть о низком уровне информационного профессионализма.

8% 7% 6% 5% 4% 3% 2% 1% 0%

пппП.

0 5 10 15 20 25 30 35 40 Количество уникальных терминов, использованных в запросах сессии

35%

30%

25%

20%

15%

10%

5%

0%

nil

Ц 1

п 1 _

pill

Пп_

0123456789 10 Количество уникальных полей, использованных в запросах сессии

а

б

20% 18% 16% 14% 12% 10% 8% 6% 4% 2% 0%

ОПППпПпП

90% 80% 70% 60% 50% 40% 30% 20% 10% 0%

П____

0,0 0,5 1,0 1,5 2,0 2,5

Среднее количество операторов в запросе сессии

0123456789 10 Количество повторно используемых запросов за сессию

в г

Рис. 7. Распределения, характеризующие разнообразие элементов запроса

« 6%T-

<D

I

n 5% о

Г) Л

к

В 4%

3%

2%

g 1%

0%

0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 Среднее количество терминов в запросе сессии

а

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4% 2% 0% 8% 6% 4% 2% 0%

0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 Среднее количество полей в запросе сессии

б

4,0

и о

Ё

20%

4% 2% 0% 8% 6% 4% 2% 0%

П ППпппппГ!

0,0 0,5 1,0 1,5 2,0

Среднее количество операторов в запросе сессии

2,5

90% 80% 70% 60% 50% 40% 30% 20% 10% 0%

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Среднее количество ссылок на результаты запросов, используемых за сессию

в г

Рис. 8. Распределения, характеризующие сложность запроса

Анализ используемых операций. Количественное распределение операций представлено на рис. 9 (для операций, количество которых составляет более 1% от общего числа операций) и на рис. 10 (для операций, количество которых составляет менее 1% от общего числа).

В группу операций используемых более 1% для обоих ресурсов вошли:

• поиск по исходному запросу (FIND);

• просмотр следующей страницы в выдаче (NXT);

• вход в БД (ENTRY);

• просмотр словаря (DICT);

• поиск после редактирования выражения запроса (FINDE) на форме просмотра найденных документов;

• установка параметров по умолчанию (RESET);

• изменение параметров сессии (CHSES).

При этом для гостей наблюдаются следующие

закономерности:

• преобладает операция FIND (около 28% для ИНИОН РАН и 22% для ВНТИЦентра);

• гости ИНИОН РАН чаще просматривали более одной страницы в выдаче (около 25% по сравнению с 7,5% для ВНТИЦентра);

• гости ВНТИЦентра чаще меняли параметры поисковой сессии (около 5% по сравнению с 1,3% для ИНИОН РАН);

• гости ВНТИЦентра чаще работали более чем с одной БД за сессию (21,3% по сравнению с 15,4% для ИНИОН РАН).

Для зарегистрированных пользователей:

• более трети всех операций (34,5% для ИНИОН РАН и 37,2% для ВНТИЦентра) составили операции поиска по запросу, однако пользователи ИНИОН РАН чаще использовали возможность редактирования запроса (FINDE - 10,6% по сравнению с 5,7% для ВНТИЦентра) и обращались к поиску через гипертекстовые ссылки (FINDX - 2,7%);

• у пользователей ВНТИЦентра число операций поиска почти в 2,5 раза превышает число операций просмотра следующих страниц (NXT), в то время как у пользователей ИНИОН РАН -в 1,5 раза;

35% 30% 25% 20% 15% 10% 5% 0%

35% . 30% . 25% . 20% . 15% . 10% . 5% 0%

□ Гости

□ Зарегистрированные пользователи

□ Гости

Зарегистрированные пользователи

Рис. 9. Распределение операций числом более 1%

б

а

I

■ I ■

I I

1г1г1

□ Гости

£

< о*

а

□ Зарегистрированные пользователи

а

1,0% 0,8%

0,2% 0,0%

-- -

- 1-1

1 _ ■ гн

О

о а

□ Гости

м а

< й > ^

о "

□ Зарегистрированные пользователи б

Рис. 10. Распределение операций числом менее 1%

• пользователи ИНИОН РАН чаще просматривают словари (11,5% по сравнению с 9,4% для ВНТИЦентра);

• так же, как гости, пользователи ВНТИЦентра чаще меняли параметры поисковой сессии (около 7% по сравнению с 2,2% для ИНИОН РАН) и работали более чем с одной БД за сессию (15% по сравнению с 12,3% для ИНИОН РАН).

В целом, как показывают диаграммы на рис. 9 и 10, гости обоих ресурсов ведут себя приблизительно одинаково, зарегистрированные же пользователи ИНИОН РАН более подвижны и используют более широкий спектр операций, чем гости и пользователи ВНТИЦентра.

На рис. 11 представлены диаграммы распределения операций, которые используют только зарегистрированные пользователи. Для этих операций также отмечается большая активность пользователей ИНИОН РАН.

Анализ операций, используемых с разными формами поискового запроса. На рис. 12-14 представлены количественные распределения операций

для разных типов интерфейсов формирования поискового запроса.

Распределение операций при использовании конструктора запроса для обоих групп пользователей ИНИОН РАН (рис. 12а) повторяет общее распределение операций, что соответствует назначению этой формы как используемой по умолчанию.

2,8% и-

2,4%---

2,0%-----

1,6%-----

1,2%-----

0,8%-----

0,4%-----

ОЯБ ОЯБЫК ББЬд ялуд

□ ИНИОН РАН □ ВИТИЦентр

Рис. 11. Распределение операций только зарегистрированных пользователей

35%

□ Гости

□ Зарегистрированные пользователи

35% 30% 25% 20% 15% 10% 5% 0%

□ Гости

□ Зарегистрированные пользователи

а б

Рис. 12. Распределение операций при использовании конструктора запроса

50% 45% 40% 35% 30% 25% 20% 15% 10% 5% 0%

□ Гости

Зарегистрированные пользователи

40% 35%

15% 10%

□ Гости

□ Зарегистрированные пользователи

а б

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 13. Распределение операций при использовании строки запроса

50%

45%

30%

25%

20%

5%

0%

□ Гости □ Зарегистрированные пользователи

Рис. 14. Распределение операций при использовании формы QBE в ИНИОН РАН

Распределение операций зарегистрированных пользователей ВНТИЦентра при использовании конструктора запроса (рис. 12б) также совпадает с общим распределением операций. Гости же, попадая на форму конструктора, чаще завершали сессию без поисковых операций (см. рис. 2), что объясняет большее количество операций выбора БД, нежели поисковых.

При использовании строки запроса (рис. 13) для пользователей обоих ресурсов преобладает операция просмотра страниц выдачи (NXT), что может объясняться ориентированностью интерфейса на генерацию ненулевых выдач на поисковый запрос за счет использования нечетких механизмов поиска. Рис. 14 представляет характер использования интерфейсной формы QBE, которая доступна только пользователям ИНИОН РАН.

При этом для обоих ресурсов характерно, что пользователи, выбирающие интерфейс строки запроса, менее склонны к реформулированию запроса, чем пользователи конструктора и QBE. На одну сессию в случае строки запроса приходится около полутора операций первичного поиска (FIND), одна операция продолжения поиска (FINDE или FINDX) и две смены БД. В случае конструктора запросов, соответственно, - две операции первичного поиска (FIND), две операции продолжения поиска (FINDE или FINDX) и одна смена БД.

Заключение

Статистический анализ пооперационных журналов поисковых сессий и архивов запросов пока-

зал, что поисковое поведение пользователей специализированных ресурсов научной информации имеет тенденцию к целенаправленному формированию запроса и результата поиска, хотя большинство не многим отличается от усредненной характеристики пользователя поисковых машин: в большинстве поисковых сессий используются 1-2 поисковые операции и просмотр страниц выдачи. Это свидетельствует, что в общей массе пользователи не готовы изучать и применять возможности и средства ИПС, ориентированные на систематизацию и оценку результатов поиска.

Причиной плохих поисковых результатов является, в частности, и неспособность (или нежелание) пользователя взглянуть на задачу с иной точки зрения, выбрать другой аспект проблемы или иначе сформулировать запрос. Задача системы в этом случае - помочь человеку найти альтернативный подход к БД, расширить его «неконструктивную» целеустремленность, перейти к осмысленному поведению. Сложность ситуации, однако, заключается в том, что, с точки зрения системы трудно определить, удовлетворена или нет информацион-

ная потребность пользователя, то есть действительно ли пользователь нашел все релевантные документы или он просто не предполагает, что результат может быть неполным, рассуждая в соответствии со стереотипом «система - умная, по моему запросу догадается, что мне нужно».

Список литературы

1. Поиск в Интернете: что и как ищут пользователи [Электронный ресурс] : информ. бюл. / Аналит. группа департамента маркетинга компании «Яндекс». - 2009. - URL: http://download.yandex.ru/ company/yandex_search_mini_report_autumn_2009.pdf

2. Максимов Н. В., Забегаева Н. Н. Информационный поиск и модели поведения пользователей // Науч.-техн. информ. Сер. 1, Орг. и методика информ. работы. - 2001. - № 11. - С. 10-21.

3. Голицына О. Л., Максимов Н. В., Попов И. И. Информационные системы : учеб. пособие. - М. : Форум, 2007. - 496 с.

4. Документальная информационно-аналитическая система xIRBIS: программа для ЭВМ / Н. В. Максимов [и др.] / Свидетельство о гос. регистрации № 008611511 от 25.03.2008.

Материал поступил в редакцию 02.02.2011 г.

Сведения об авторах: Голицына Ольга Леонидовна - кандидат технических наук, доцент кафедры системного анализа, тел.: (495) 323-93-65, e-mail: [email protected], Максимов Николай Вениаминович - доктор технических наук, профессор кафедры системного анализа, тел.: (495) 323-93-65, e-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.