Л. Н. Горюнова
АЛГОРИТМЫ ВЗАИМОДЕЙСТВИЯ ПОЛЬЗОВАТЕЛЯ И ИНТЕРАКТИВНОЙ СИСТЕМЫ ПОИСКА ИНФОРМАЦИИ
Человечество накопило огромный багаж знаний, который ежеминутно продолжает пополняться. Информатизация в совокупности с модернизацией рассматриваются в настоящее время как ключевые факторы общественного развития и технического прогресса. Разработчики автоматизированных информационных систем ставят задачу анализа поведения пользователей с целью его классификации для более полного удовлетворения информационных интересов пользователей. Однако на этом пути встречаются трудности, связанные с невозможностью охватить, с одной стороны, широту запросов пользователей, с другой — многообразие информационных ресурсов. Природа трудностей информационного поиска, по мнению П. Ингверсена, одного из признанных специалистов в изучении когнитивных проблем информационного поиска, автора известной когнитивной теории информационного поиска, лежит в несоответствии логики автоматизированного поиска информации и логики пользователя. Это приводит к намеренной избыточности представления результатов поиска и логической неуверенности, то есть сложности при определении контекста поиска [3]. Активные исследования поиска в сети Интернет и WWW-стратегий пользователей начались в середине 90-х годов М.Й. Бейтс определил четыре уровня описания поискового поведения пользователей, которые затем описал Г. Марчионини [4]. А. Тэтчер определил модель поиска пользователя как стиль поиска [8]. Некоторые авторы не делают различий между поисковыми стратегиями и поисковыми тактиками [5]. На сегодняшний день разработан ряд математических моделей поведения пользователя в Интернете, например популярная теория фуражирования (добычи) информации (Information Foraging Theory) [6]. Интересны исследования, которые направлены на оценку использования поисковых систем, прежде всего эффективности поисковых запросов, а также на оценку пользователями результатов поисковых запросов [7]. Исследователи описали различные пользовательские тактики поиска информации в Интернете. Р. Фидель с коллегами выделила 7 пользовательских поисковых тактик [2]. А. Тэтчер описал 12 общих видов когнитивных поисковых стратегий пользователей Интернет [9]. П.Ингверсен предлагает выделить четыре основных типа поиска информации, учитывая индивидуальное когнитивное пространство пользователя. В настоящее время в отечественной научной литературе появились интересные исследовательские проекты в этой области. В большей степени изучение касается технического и математического обеспечения поведения пользователей в Интернет, психологические исследования находятся в начальной стадии [13]. Практики ввели понятие «информационный портрет» пользователя, который описывает сферу интересов пользователя, интересующие его области знаний [12]. Тем не менее разработчики Интернета испытывают острую необходимость в корректной классификации пользователей, основных моделей их поведения. Описываемое ниже исследование было задумано для получения данных, которые позволяют выделить в целостной деятельности пользователя действия, достаточные для реализации целей поиска информации с помощью интерактивной системы, и описать основные алгоритмы его деятельности.
© Л. Н. Горюнова, 2010
Теоретико-методологическую основу исследования составила обобщенная концепция деятельности Г. В. Суходольского и структурно-алгоритмический анализ деятельности, разработанный в рамках данной концепции [10]. С позиций структурноалгоритмического анализа деятельности допускается ее принципиальная алгоритми-зуемость. Алгоритм деятельности трактуется как программа действий, или правило для получения искомого результата деятельности в заданных условиях, что позволяет «эксплицировать производственно-технологическое содержание и, соответственно, обосновать психофизиологические и другие человеческие особенности деятельности» [11]. Описывая алгоритм как последовательность действий, которая приводит к достижению цели, мы рассматриваем систему взаимосвязанных действий, учитываем вариативность и разнообразие действий, выполняемых человеком.
Изучение поведения человека в информационной системе требует использования современных технических методов. Одним из наиболее известных методов анализа поведения пользователей в Интернете является метод анализа лог-файлов, предоставляющих данные о дате, времени, используемых интернет-протоколах, количестве информации, полученной и отправленной с помощью Интернета, и многое другое в зависимости от целей и задач исследования. Исследователи выделяют различные типы действий пользователя [1]. В нашем исследовании анализ лог-файла использовался с целью описать действия, которые совершает пользователь при работе с помощью интерактивной системы поиска информации. В лог-файле были выделены фрагменты, связанные с поиском информации при помощи интерактивных поисковых систем. Для сбора и анализа лог-файлов использовался специальный программный продукт, предназначенный для контроля использования интернет-ресурсов сотрудниками организации. В исследовании анализировалась интернет-активность сотрудников организаций, зафиксированная в отчетах прокси-сервера в течение 29 рабочих дней на 154 компьютерах. Автор статьи благодарит технического специалиста Е. Л. Осипова за консультации и помощь в сборе исходных данных исследования. В исследовании рассматривались действия пользователя с различными интерактивными поисковыми системами и не изучались различия в их использовании. За сессию принималась последовательность страниц, посещенных пользователем, ограниченная 30-минутной неактивностью пользователя. Статистическая обработка полученных данных выполнялась с использованием кластерного анализа: данные нормализовались, а затем разбивались на кластеры с применением кластерного анализа К-сред-них.
Анализ полученных данных показали следующее. В результате качественного анализа выделены несколько типов операций, выполняемых пользователем. При обращении к поисковой системе пользователь выполняет следующие операции: вводит поисковый запрос, переходит на страницы ответов системы на запрос, переходит на страницы других сайтов. В массиве полученных эмпирических данных выделены 10400 сессий, в ходе которых пользователи искали информацию с помощью поисковой системы. Для каждой сессии фиксировались количество запросов к поисковой системе, количество просмотренных страниц выдачи ответов поисковой системы на запрос, продолжительность интернет-сессии.
Полученная описательная статистика позволяет составить общее представление о поведении пользователей, выделить некоторые особенности. Пользователи посылают от одного до 12 запросов к информационной системе; просматривают от одной до 29 страниц ответов поисковой системы на запросы; тратят от одной до 40 минут на одну поисковую сессию. Средние характеристики сессии дают самое общее представле-
ние о ней. Выделенные действия пользователя — отправка запроса поисковой системе и просмотр страниц выдачи ответов — рассматриваются нами как основные взаимосвязанные действия, которые определяют особенности поведения пользователя в автоматизированной системе поиска информации. Общее время поисковой сессии, то есть промежуток времени, в течение которого пользователь взаимодействует с поисковой системой, рассматривается как характеристика поисковой сессии.
Поиск информации является циклической деятельностью, следовательно, количество реализаций цикла будет определять итоговый набор действий. Очевидно, чем меньше количество циклов (степень цикла), тем выше показатели эффективности деятельности. Количество запросов, которые пользователь посылает поисковой системе, является индикатором количества совершаемых поисковых циклов. Действия, которые пользователь совершает, просматривая страницы выдачи ответов системы, можно рассматривать в терминах структурно-алгоритмического анализа как вложенный контур, который также имеет циклическую природу. Количество страниц выдачи ответов, которые просмотрел пользователь, характеризует количество циклов вложенного контура. Время является общей характеристикой пользовательской сессии. Таким образом, устойчивый фрагмент структуры деятельности по поиску информации с помощью системы поиска может быть представлен в общем виде графом из двух вершин. Одна из них — отправка запроса к поисковой системе, другая вершина — просмотр страниц выдачи ответов системы. Чтобы рассматривать действия, которые пользователь совершает в ходе поиска информации в единстве с контекстом других выполняемых пользователем задач, необходимо связать их с выделенным фрагментом. Если принять обозначение входящей стрелкой | (вход) как связь с действием, которое пользователь выполнял непосредственно перед началом поиска, а выходящей стрелкой ] (выход) как переход к другому действию, лежащему за рамками поиска, то в символической форме алгоритм можно представить в виде схемы:
| k (отправка запроса) д(просмотр страницы ответа)],
где к — количество отправленных пользователем запросов, ц — количество просматриваемых пользователем страниц выдачи ответов системы на запрос.
При статистическом анализе полученных количественных данных графическое представление зависимости между количеством запросов, количеством просмотров страниц выдачи ответов и продолжительности сессии, полученное с помощью трехмерной диаграммы рассеяния, показало, что данные имеют кластерную структуру и сложные топологические особенности. Исследование взаимосвязи между переменными с помощью корреляционного анализа выявило большое количество статистически значимых коэффициентов корреляции между переменными, что подтвердило возможность группировки данных. Используя кластерный анализ, мы объединили последовательности действий пользователей в группы таким образом, чтобы минимизировать изменчивость внутри кластеров и максимизировать изменчивость между кластерами. Затем выделенные группы сравнивались между собой по средним значениям каждого измерения внутри кластера и Е-статистикам для каждого измерения. Таким образом, определялось наилучшее деление данных на кластеры. Для оценки результатов кластерного анализа были рассчитаны средние значения для каждого кластера по каждому измерению и сравнены между собой по критерию Шеффе. Сравнение показало, что средние значения по каждому измерению статистически значимо различаются между всеми кластерами на уровне значимости р = 0,05. Анализ структуры действий, которые выполняют пользователи в ходе сессий, в представленных кластерах позволил выде-
лить четыре возможных способа реализации алгоритма взаимодействий пользователя и системы поиска информации. Эти реализации получили названия «исследовательский поиск» (количество просмотров страниц ответов системы преобладает над количеством посланных запросов), «уточняющий поиск» (количество запросов преобладает над количеством просмотров ответов), «разнонаправленный поиск» (количество просмотров ответов растет с ростом количества посланных запросов), «фокусированный поиск» (поиск конкретного документа — один запрос, один просмотр ответа). Реализации алгоритма деятельности пользователей рассматриваются как базовые способы взаимодействия пользователя с системой поиска информации. Мы предполагаем, что способ поиска информации при помощи информационной системы определяется множеством факторов: особенностями решаемой задачи, временными ресурсами пользователя, своеобразием системы его психической регуляции, личностными особенностями, знанием предметной области и многими другими. Например, уточняющий поиск осуществляется пользователем в том случае, если он плохо знаком с предметной областью. Фокусированный поиск производится, когда пользователь ищет известный ему факт или другие сведения. Мы рассматриваем каждый способ реализации поиска как выражение целостной деятельности, в которой они проявляются. Многовариантность способов позволяет сделать выбор одного варианта из потенциально существующих при выполнении конкретной задачи и связан с внутренней активностью человека. Это предполагает возможность реализации неодинаковых способов поиска людьми со сходными психологическими характеристиками, если они оценивают условия поиска как различные, и реализацию сходных способов поиска людьми с различными психологическими характеристиками, если они одинаково оценивают условия. Такое рассмотрение вопроса открывает перспективы для исследования психологических оснований информационно-поисковой деятельности.
В заключение можно отметить, что данное исследование позволило выделить в целостной деятельности пользователя действия, достаточные для реализации целей поиска информации с помощью интерактивной системы, и описать основные алгоритмы деятельности пользователя. Учитывая, что разработчики Интернета испытывают острую необходимость в корректной психологической интерпретации моделей поведения пользователей, данный подход открывает перспективы для изучения психологических оснований информационно-поисковой деятельности и, в конечном итоге, позволяет проектировать интерактивные системы поиска, которые будут учитывать особенности пользователей, улучшать представление результатов выполнения поисковых запросов; повышать эффективность информационного поиска.
Литература
1. Chevalier A., Kicka M. Web designers and web users: Influence of the ergonomic quality of the web site on the information search // International Journal of Human-Computer Studies. 2006. Vol. 64, Issue 10. P. 1031-1048. URL: www.sciencedirect.com.
2. Fidel R., Davies R.K., Douglass M.H., Holder J.K., Hopkins C. J., Kushner E. J., Miya-gishima B. K., Toney C. D. A visit to the information mall: web searching behaviour of high school students // Journal of the American Society for Information Science. 1999. Vol. 50. P. 24-37.
3. Ingwersen P. Cognitive perspectives of information retrieval interaction: elements of a cognitive IR theory // Journal of documentation. 1996. Vol. 52. N 1. P. 3-50.
4. Marchionini G. Information Seeking in Electronic Environments. New York, 1995. 215 с.
5. Navarro-Prieto R., Scaife M., Rogers Y. Cognitive strategies in web searching // Proceedings
of the Fifth Conference on Human Factors and the Web. Jakarta, 1999. 335 с. URL: http://zing. ncsl.nist.gov/hfweb/proceedings/navarro-prieto/index.html (дата обращения — 29.04.2010).
6. Pirolli P. Information foraging: A theory of adaptive interaction with information. Cambridge, 2007.
7. Spink A., Wolfram D., Jansen B. J., Saracevic T. Searching the web: the public and their queries // Journal of the American Society for Information Science and Technology. 2001. Vol. 52. P. 226-234.
8. Thatcher A. Information-seeking behaviours and cognitive search strategies in different search tasks on the WWW // International Journal of Industrial Ergonomics. 2006. Vol. 36. P. 1055-1068.
9. Thatcher A., Greyling M. Mental models of search engines: how does a WWW search engine work? // Harris D., Duffy V., Smith M., Stephanidis C. (Eds.), Human-Centred Computing. Cognitive, Social and Ergonomic Aspects. London, 2003. Vol. 3. 1451 р.
10. Суходольский Г. В. Основы психологической теории деятельности. 2-е изд. М., 2008. 168 с.
11. Суходольский Г. В. Структурно-алгоритмический анализ и синтез деятельности. Л., 1976. 120 с.
12. Широков А. В. Разработка модели информационного портрета пользователя для персонифицированного поиска // Отчеты Конкурса научных проектов в области информационного поиска «Интернет-математика» 2007. URL: http://company.yandex.ru/academic/grant/ report2007.xml (дата обращения — 12.01.2010).
13. Щербина А. А. Исследование и разработка метода автоматической классификации поведения пользователей интернет: Автореф. дис. ... канд. физ.-мат. наук. М., 2007. 87 с.
Статья поступила в редакцию 14 апреля 2010 г.