Научная статья на тему 'Системный анализ и онтологические модели ситуационного поведения пользователей в информационно-коммуникационных средах'

Системный анализ и онтологические модели ситуационного поведения пользователей в информационно-коммуникационных средах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
68
21
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СБОР СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ / МОДЕЛИ ПОЛЬЗОВАТЕЛЕЙ / ПРОАКТИВНЫЕ РЕКОМЕНДАЦИИ / РЕЛЕВАНТНАЯ ИНФОРМАЦИЯ / АНАЛИЗ ДЕЙСТВИЙ ПОЛЬЗОВАТЕЛЯ / STATISTICS COLLECTION / USERS BEHAVIOR MODELS / PRO-ACTIVE RECOMMENDATIONS / RELEVANT CONTENT / BEHAVIOR TARGETING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Минаков Игорь Александрович

Работа анализирует плюсы и минусы методов, ориентированных на сбор статистики, методов представления информации о пользователе и сравнивает их эффективность при решении практической задачи предложения в реальном времени релевантных материалов в зависимости от действий пользователя

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Минаков Игорь Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

System analysis and ontological models of user situational behavior in information and communication environments

The paper discusses pluses and minuses of user data collection methods as well as different user behavior models and compares their efficiency on a real life task pro-active recommendations of relevant materials for Internet portal users basing on their real-time actions.

Текст научной работы на тему «Системный анализ и онтологические модели ситуационного поведения пользователей в информационно-коммуникационных средах»

УДК 681.3

СИСТЕМНЫЙ АНАЛИЗ И ОНТОЛОГИЧЕСКИЕ МОДЕЛИ СИТУАЦИОННОГО ПОВЕДЕНИЯ ПОЛЬЗОВАТЕЛЕЙ В ИНФОРМАЦИОННО-КОММУНИКАЦИОННЫХ СРЕДАХ

И.А. Минаков

Учреждение Российской академии наук «Институт проблем управления сложными системами РАН»

443020, г. Самара, ул. Садовая, 61

Работа анализирует плюсы и минусы методов, ориентированных на сбор статистики, методов представления информации о пользователе и сравнивает их эффективность при решении практической задачи - предложения в реальном времени релевантных материалов в зависимости от действий пользователя.

Ключевые слова: сбор статистической информации, модели пользователей, проактивные рекомендации, релевантная информация, анализ действий пользователя.

Введение. Анализ, прогнозирование и управление поведением пользователей является одной из актуальных проблем развития информационнокоммуникационных сред. Решая проблемы релевантности информации, ее доступности и актуальности, ИКС вынуждены понимать, на какие категории пользователей они ориентируются, и динамически предоставлять необходимую информацию в зависимости от их моделей поведения и предпочтений.

Коммерческие компании осознают, что постоянно растущая аудитория интернет-портала является таким же важным экономическим фактором и критерием, как, например, прибыль от продаж.

На первый план выходит задача привлечения новых пользователей и, еще острее, удержания интереса существующих пользователей - и с тем, чтобы пришедший на страницу портала как можно дольше оставался в его рамках, и с тем, чтобы ему вновь хотелось посетить данный портал в свой следующий интернет-сеанс.

В данной работе мы проанализируем плюсы и минусы методов, ориентированных на сбор статистики, методов представления информации о пользователе и сравним их эффективность при решении практической задачи - предложения в реальном времени релевантных материалов в зависимости от действий пользователя.

Системы сбора статистики данных о сайтах и пользователях (табл. 1). Существующие системы сбора статистики в большинстве случаев решают проблемноориентированные задачи, связанные с конкретными видами интернет-ресурсов. По функциональности системы можно разделить на следующие группы:

- счетчики посещений, собирающие статистику посещений и кликов;

- лог-анализаторы - системы, детально отслеживающие действия пользователей [1, 2];

- eye-tracking - системы, анализирующие движения глаз при просмотре интернет-страниц [3];

- поисковая оптимизация - пользователь характеризуется поисковым запросом, сайт - набором тегов или же семантикой содержимого [4];

- фолксономия и системы явного сбора данных, дающие пользователям

Игорь Александрович Минаков (д.т.н.), старший научный сотрудник.

возможность оценить элемент интернет-ресурса или вклад другого пользователя [5];

- системы неявного сбора данных - системы, делающие вывод о конкретном пользователе на основе мониторинга его действий и персональной информации, которую он вводит о себе сам.

Таблица 1

Плюсы и минусы методов сбора статистики

Метод Плюсы Минусы

Метод Плюсы Минусы

Счетчики посещений и лог-анализаторы Простота и удобство в использовании. Возможность собирать статистику по скачиваемому контенту, трафику сайта, закладкам, поставленным посетителями на сайт в своем браузере. Отсутствие возможности отследить, кто сидит за компьютером. Отсутствие возможности точно определить регион: имеется возможность на основе ip пользователя эвристически это предположить, однако в этом случае также имеются технические сложности. Отсутствие возможности узнать пользователя, если он пришел с другого компьютера и не ввел пароль на сайт. Отсутствие возможности определить, совершил ли пользователь транзакцию, если он решил на определенном этапе продолжить ее в оффлайне (позвонить в магазин, например).

Eye tracking Возможность проведения детального и измеряемого анализа интереса к содержимому страниц. Наличие требований к специальному оборудованию + его дороговизна. Неестественная обстановка = неестественная реакция. Отсутствие возможности выявить эмоциональную составляющую оценки информации.

Поисковая оптимизация Возможность определения явно выраженного интереса конкретного пользователя. Зашумление данных при наличии нескольких интересов. Необходимость участия эксперта-аналитика при интерпретации. Наличие проблемы конфиденциальности личных данных пользователя.

Фолксономия Более точное отражение интересов / мнений группы пользователей. Наличие проблемы конфиденциальности личных данных пользователя. Усложнение ориентации на конкретного пользователя, вызываемое усредненностью результатов.

Неявные данные Возможность выявления скрытых закономерностей. Возможность пользоваться информацией, которой пользователь классифицировал себя сам. Высокий уровень погрешности и недостоверности данных. Наличие проблемы конфиденциальности личных данных пользователя.

Модели пользователя (табл. 2). По сути, модели поведения пользователя базируются на методах представления знаний, и на процесс выбора конкретной модели в реальной задаче во многом влияет доступность того или иного метода сбора статистики, накладывающего свою специфику и ограничения:

- графы переходов - графовая структура, узлами которой являются элементы интернет-ресурса, а связями - действия пользователя по перемещению с одного узла на другой [6];

- продукционная модель представлена в виде дерева решений, узлами которого являются тесты на некоторый атрибут или функцию [7];

- когнитивная модель рассматривает особенности поведения пользователя с целью выделения индивидуальных стилей принятия решений при работе с информацией [8];

- семантические сети [9]: аппарат неоднородных семантических сетей позволяет поддерживать многоуровневое представление знаний, проводить абстрагирование и детализацию понятий, поддерживать ссылочность и взаимосвязь понятий по аналогии с гипертекстом информационных ресурсов распределенной информационной сети;

- онтология пользователей [10] - использование таксономии объектов и связей между ними для представления семантики сайта и интересов пользователей.

Таблица 2

Плюсы и минусы моделей представления информации о пользователях

Модель Используе- мые методы Плюсы Минусы

Графы переходов Счетчики посещений Лог- анализаторы Eye-tracking Возможность проведения анализа соответствия реальных маршрутов пользователей архитектурному плану навигационных маршрутов. Возможность выявления мест ухода посетителей от приближения к целевой странице. Высокая степень зависимости достоверности результатов от зашумленности данных. Необходимость детального экспертного анализа для определения того, какая информация должна являться узлом графа.

Продукци- онная модель Лог- анализаторы Возможность установить нечеткие закономерности, которые являются естественным представлением логики поведения пользователя. Снижение влияния зашумленности данных на конечный результат. Чрезмерное усложнение модели и затрудненность ее дальнейшего использования при большом количестве продукций.

Модель Используе- мые методы Плюсы Минусы

Когнитивная модель Фолксоно- мия Неявные данные Теоретическая обоснованность. Непредсказуемость индивидуального поведения пользователя в терминах общепсихологических закономерностей. Нехватка данных для построения модели, способной осуществлять прогнозирование достаточного уровня достоверности.

Семантичес кие сети Поисковая оптимизаци я Фолксоно- мия Хорошая применимость в случае слабо структурированных знаний, решения задач автоматической классификации объектов. Слабая «слойность» уровней абстракций. Слабая самообучаемость.

Онтологии пользовате- лей Поисковая оптимиза- ция Фолксоно- мия Неявные данные Наибольшая релевантность с точки зрения описания конкретного пользователя. Сложность построения модели и необходимость привлечения эксперта. Необходимость строить разные модели для разных групп пользователей или даже предметных областей.

Тестовый эксперимент. Для исследования качества различных ситуационных моделей поведения пользователя выбрана задача предложения рекомендаций по посещению новых страниц пользователям на основе их действий в рамках интернет-портала.

Тестовым стендом являлся набор инструментальных средств, позволяющий обеспечить механизмы интеллектуализации интернет-порталов и социальных сетей [11, 12] - отслеживать поведение пользователей в рамках портала, распознавать интересы на основе их действий и рекомендовать в режиме реального времени потенциально интересную информацию \ людей \ ссылки.

Общая схема работы пользователя с системой приведена на рисунке.

Находясь в рамках портала, пользователь переходит по интересующим его ссылкам, тем самым формируя пользовательскую сессию - последовательность действий пользователя, посвященных решению какой-либо задачи, например, получению нужной информации или поиску определенного товара или услуги. По контексту посещенных пользователем страниц система пытается реконструировать его неявный интерес и предложить из базы ссылок те материалы, которые потенциально могут заинтересовать пользователя, включая ссылки на схожие страницы, новости, блоги, пользователей с похожими предпочтениями и их рекомендации, интернет-сообщества со схожими интересами, релевантные рекламные объявления.

При этом пользователь имеет возможность оценить предлагаемые ему материалы по степени релевантности \ интересности. Данная оценка повлияет на вес критериев, использующихся при выработке рекомендаций (например, ключевых слов или тематик), и тоже будет учтена в его профиле интересов (табл. 3).

ы

оо

Сессия 1 -

www.imdb.com www.dvdvideoplanet .com www.amazon.com

Пользователь

Сессия 2 -

www.amazon.com

www.cnn.com

www.sfgate.com

наоор тегов

Ключевые слова {Captured byTUf:

Review

Теги:

Bestseller

Thriller

Fantasy

Ключевые слова {Captured byTUf:

Books

Облако

тегов

* Сообщества, представляющие интерес

* Люди со схожими интересами / запросами

♦ Ссылки, рекомендованные пользователями со схожими интересами

♦ Рекомендации по улучшению контекстного описания -теги, оценки и пр.

* Веб-сайты/ссылки, потенциально интересные для пользователя

• Релевантная реклама

Интеллектуальные

компоненты

Кластеризация

Тренды

Анализ

сессионного

интереса

(классификация)

Понимание текста на естественном языке

Анализ облака тегов

Долгосрочные

интересы

пользователя

Рекомендации по релевантным рекламным объявлениям

♦ Обновление профиля пользователя для отображения его долгосрочных предпочтений

• Обновление профиля сообществ

Аналитик

♦ Тренды пользовательских интересов

* Идентификация возникающих

ҐЛЛЙМІ^ҐТВ

Процесс работы пользователя с системой

В рамках эксперимента мы измеряли два фактора - насколько «притягательным» окажется предложенная информация для пользователя в момент принятия решения и насколько релевантной она ему покажется после того, как он перешел на рекомендованную страницу и изучил представленный там материал.

Таблица 3

Сравнительный анализ качества результатов для различных моделей пользователей

Модель Конверсия, % Релевантность (оценка пользователем качества материала), %

Графы переходов 12 30

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Продукционная модель 8 65

Когнитивная модель 5 50

Семантические сети 6 75

Онтологии пользователей 5 85

Выводы и заключение. Общей тенденцией нашего анализа служит тот несколько парадоксальный вывод, что чем сложнее модель, описывающая пользователя, тем труднее подобрать информацию, которая заинтересует его с первого взгляда. Но в случае, если интерес проявился, уровень релевантности существенно выше, чем у более примитивных моделей.

Причиной является факт очень малого объема рекламной информации, на основе которой пользователь принимает первоначальное решение. При этом зачастую рекламная, «зазывающая» информация может не соответствовать содержимому страницы.

Граф переходов рекомендуется использовать в случае, если недоступна информация о каждом конкретном пользователе, он хорошо справляется с массовостью и применим в случае необходимости формировать типовые модели действий на сайте.

Продукционная модель поведения пользователя применима для динамической, но типовой структуры сайта, где действия пользователя подчиняются небольшому набору понятных эвристик. С усложнением структуры и сценариев использования сайта качество и эффективность модели падают.

Когнитивная модель применима в случае более статичной структуры как сайта, так и группы пользователей, поскольку требует существенного предварительного анализа и настройки.

Семантические сети и онтологии пользователей наиболее востребованы в случае, когда есть возможность выделить действия каждого конкретного пользователя и предоставить ему детальную, предпочтительно персонифицированную информацию.

Данный анализ носит предварительный характер. Следующим этапом необходимо проанализировать возможности гибридного использования методов, равно как и корреляцию объема и адекватности рекламного текста общей семантике предлагаемого материала.

1. Авинаш Кошик. Веб-аналитика: анализ информации о посетителях веб-сайтов = Web Analytics: An Hour a Day. — М.: Диалектика, 2008. - С. 464. - ISBN 978-5-8459-1480-4.

2. Гусев В.С. Аналитика веб-сайтов. Использование аналитических инструментов для продвижения в Интернет. - М.: Диалектика, Вильямс, 2008. - С. 176. - ISBN 978-5-8459-1292-3.

3. Нильсен Я., Перниче К. Веб-дизайн: анализ удобства использования веб-сайтов по движению глаз / Пер. с англ. - М.: Вильямс, 2010. - С. 39-61.

4. Байков В.Д. Интернет. Поиск информации. Продвижение сайтов. - СПб.: БХВ-Петербург, 2000. -288 с. - ISBN 5-8206-0095-9.

5. Koren Y., Bell R. & Volinsky С. (07 August 2009). Matrix Factorization Techniques for Recommender Systems, Computer (IEEE) . - Т. 42 (8): 30-37

6. Intelligent Data Engineering and Automated Learning. Lecture Notes in Computer Science, 2003, Volume 2690/2003, 778-782, DOI: 10.1007/978-3-540-45080-1_105.

7. Clark W A V, Smith T R, 1985, «Production system models of residential search behavior: a comparison of behavior in computer-simulated and real-world environments» Environment and Planning A 17(4) 555 - 568

8. Холодная М.А. Когнитивные стили: о природе индивидуального ума. - ПЕР СЭ, 2002. - 304 с.

9. Lora Aroyo, Geert-Jan Houben «User modeling and adaptive Semantic Web» Semantic Web 1 (2010) 1-6 DOI 10.3233/SW-2010-0006 IOS Press.

10. Иващенко А.В., Орлов А.Ю., Вольман С.И., Минаков И.А. Виртуальные сообщества в сети Интернет. Организация и управление. - Самара: Самарский научный центр РАН, 2008. - 99 с., ил. - ISBN 978-5-93424-391-4.

11. Минаков И.А., Скобелев П. О. Набор инструментальных средств для интеллектуализации интернет-порталов и социальных сетей // Проблемы управления и моделирования в сложных системах: Тр. IX Междунар. конф., Самара, 22 июня - 29 июня 2007. - Самара: СНЦ РАН, 2007. - С. 528-534.

12. Елкин Д., Минаков И., Вольман С. Автоматическая оптимизация интернет-рекламы // Вестник Са-марск. гос. техн. ун-та. Сер. Технические науки. - №3 (31) 2011. - Самара, СамГТУ. - С. 228-232.

Статья поступила в редакцию 24 января 2011 г.

SYSTEM ANALYSIS AND ONTOLOGICAL MODELS OF USER SITUATIONAL BEHAVIOR IN INFORMATION AND COMMUNICATION ENVIRONMENTS I.A. Minakov

Institution of the Russian Academy of Sciences Institute for the Control of Complex Systems of RAS 61, Sadovaya str., Samara, 443020

The paper discusses pluses and minuses of user data collection methods as well as different user behavior models and compares their efficiency on a real life task - pro-active recommendations of relevant materials for Internet portal users basing on their real-time actions.

Key words: statistics collection, users behavior models, pro-active recommendations, relevant content, behavior targeting.

Igor A. Minakov (Dr. Sci. (Techn.)), Senior Research.

i Надоели баннеры? Вы всегда можете отключить рекламу.