25 декабря 2011 г. 3:37
ТЕХНОЛОГИИ ИНФОРМАЦИОННОГО ОБЩЕСТВА
Методы сбора информации о посетителях корпоративного веб-сайта
Сеть Интернет предоставляет доступ к большому количеству информации большому количеству пользователей и, таким образом, возникает необходимость анализа поведения пользователей на корпоративном веб-сайте чтобы, определять качество посетителей, фиксировать наиболее успешные и проблемные зоны с точки зрения удобства использования, тестировать проводимые изменения.
Андрюков АА,
к.т.н., доцент кафедры АИТСС
В последние годы основным средством хранен^ и распространения информации становится всемирная сеть Интернет. Люди всё чаще стали использовать Интернет для решена разнообразных задач. так как сеть Интернет предоставляет доступ к большому количеству информации для всех сфер деятельности. Таким образом возникает необходимость анализа поведения пользователей на корпоративном веб-сайте, во-первых, для анализа данных о пользователе, и, во-вторых, для обеспечения доступности к нужной для пользователя информации и разработки методов эффективного функционирования сайта на основании полученных данных.
На основе подобного веб-анализа можно:
• улучшить удобство использования сайта;
• увеличить долю клиентов среди посетителей;
• увеличить число заказов;
• оценить эффективность рекламы;
• улучшить качество обслуживания;
• проанализировать роботу сайга.
Соответственно, веб-аналитика — это измерение, сбор, анализ, наблюдение за закономерностями работы сайта, представление и интерпретация информации о посетителях веб-сайтов с целью улучшения и оптимизации работы сайта. Веб-аналитика делится на две главные категории: анализ поведения сайга в веб-системе (внешняя аналитика) и внутренний анализ самого сайга (внутренняя аналитика). Внешняя аналитика взаимодействует с системой измерений и оценивает потенциальную аудиторию сайта, а также фиксирует долю рекламного воздействия и анализирует вызываемый интерес к нему со стороны потенциальных посетителей Внутренняя аналитика отслеживает путь посетителя на сайте и наиболее полно оценивает эффективность сайга как с показательной, так и с коммерческой точки зрения. Все собранные донные сравниваются со всеми ключевыми показателями эффективности, и напрямую используются для повышения интереса целевой аудитории к работе сайта или рекламной кампании.
Веб-аналитика помогает во многих аспектах развития сайта, основные из них:
• развитие функционала сайга, на основании тенденций в поведении посетителей;
• оценка эффективности рекламных кампаний любого типа;
• выявление проблемных мест в навигации сайга.
Основной задачей веб-аналитики является мониторинг работы
вебсайтов, на основании которого определяется веб-аудитория и изучается поведение веб-посетителей для принятия решений по развитию и расширению функциональных возможностей вебресурса [2].
Однако, современная система анализа веб-сайта должна не только отслеживать, но и предсказывать поведение пользователя на основе уже собранной информации о других пользователях. Задача предсказания поведения может быть решена в рамках решения задачи классификации пользователей. Для этого нужно при первоначальном сборе информации составить таблицу "объект-атрибут* Объект, в данном случае пользователь веб-сайта, описывается как набор атрибутов. Атрибут — свойство, характеризующее объект. Например: IP-адрес, страна, город время посещения, ссылка, по которой пришел пользователь, браузер и тд.
Классификащ« — это закономерность, позволяющая делать вывод относительно определения характеристик конкретных групп пользователей по непересекающимся множествам: случайный, потенциальный заказчик, злонамеренный и тд Решение задачи классификации по существу есть предсказание категории пользователей на основе выборки категориальных переменных.
Существует четыре основных способа сбора данных о пользователе, каждый из которых позволяет выявить тот или иной атрибут посетителя: веб-журналы (лот), веб-маяки, дескрипторы JavaScript и анализ пакетов [2].
Веб-журноны являются первоначальным инструментом для сбора данных. И могут фиксировать большее количество данных, применимых для анализа. Преимущества использована веб-журналов в качестве механизма сбора данных следующие:
• веб-журналы — наиболее легкодоступный источник информации. Каждый веб-сервер обладает простым встроенным механизмом сбора данных и создания веб-журнала. Данные собираются независимо от того, используются они или нет;
• веб-журналы — единственный механизм сбора данных, способный фиксировать и хранить информацию о посещениях и поведении роботов поисковых систем на веб-сайге. Последние не выполняют дескрипторы JavaScript, а следовательно, не оставляют никаких следов для других механизмов сбора данных. Так, при необходимости проанализировать посещения роботами таких поисковых систем как Google, MSN (Microsoft NetwoHc — сеть Microsoft), Yahoo и других, чтобы удостовериться в просмотре и правильности индексирования ими веб-сайта, придется использовать веб-журналы;
• при использовании веб-журналов данными располагает сам владелец веб-сайта. При большинстве других методик информацию будет фиксировать, обрабатывать и хранить исполнитель веб-анализа;
Недостатки использования веб-журналов в качестве механизма сбора данных:
• веб-журналы прежде всего предназначены для фиксации технической информации (ошибок 404, тенденций использования сервера, типов браузера). Они не оптимальны для сбора деловой или маркетинговой информации;
• при необходимости фиксировать дополнительную маркетинговую и коммерческую информацию потребуется взаимодействие с
T-Comm, #10-2011
группой информационных технологий и полная зависимость от нее. Эго несхалько сложнее, чем у других механизмов сбора данных;
• если веб-сервер не устанавливает файлы cookie, идентификация посетителей с любой степенью точности сомнительна.
• веб-журналы создавались для фиксации всех обращении к серверу. Следовательно, при их использовании для получения точных тенденций трафика и поведения необходимо правильно отфильтровать запросы изображений, ошибки загрузки страниц трафик роботов, запросы файлов каскадных таблиц стилей (Cascading Style Sheet — CSS) и тд;
• кеширование страниц провайдерами (ISP) и прокси-серверами может привести к тому, что часть трафика (порядка 10%) окажется неучтенной, поскольку когда в сети ISP запрашивает ту же страницу, которую кто-то другой уже запрашивал до него, ISP передаст ее из своего кеша и не будет запрашивать ее снова с веб-сервера. Следовательно, у владельца веб-сервера не появится в файле журнала запись об этом запросе.
Веб-маяки — это прозрачные изображения размером 1x1 пиксель, которые помещают на веб-страницу при помощи дескриптора HTML [2]. Прозрачные изображения, как правило, находятся на сервере стороннего исполнителя отличном от сервера, содержащего веб-страницу. Преимущества использования веб-маяков в качестве механизма сбора данных следующие:
• веб-маяки легко реализуемы, поскольку они представляют собой лишь пару строк кода в оболочке дескриптора HTML, img srq
• существует возможность точно указать» какие данные собирает маяк, например, только о просмотре страниц или включая время, значения файлов cookie, или реферрер, а поскольку роботы запросов изображений не выполняют, сбор нежелательных данных исключен. Это позволит поддерживать размер журнала в контролируемых пределах и не потребует сложной фильтрации;
• веб-маяки подходят при сборе данных для нескольких вебсайтов или доменов. Когда одинаковое содержимое размещается на нескольких сайтах или когда компания имеет множество сайтов в собственной сети, для облегчения сбора и хранения данных обо всех этих сайгах на одном сервере можно использовать маяси (со всех сайтов запрашивается тот же маяк). Это позволяет узнать, что происходит на всех веб-сайтах, следовательно, лучше представить содержимое посетителям. Фиксируемые данные менее глубоки, чем у других методик, но для конкретных специфических целей баннеры, электронная почта данная методика работает очень хорошо.
Недостатки использования веб-маяков в качестве механизма сбора данных;
• маяки обычно ассоциируются с рекламой в сети, следовательно, люди не принимают их всерьёз. В результате большинство посетителей решительно отказались от получения рекламной рассылки по электронной почте, а также установили программу AniSpyware, автоматически удаляющую файлы cookie, что препятствует возможности сбора данных;
• если у пользователя отключены запросы изображений в программе электронной почты (в таких программах, как Microsoft Office Outlook и Gnxjil от Google) или браузере, то собрать данные о нем будет невозможно;
• маяки настраиваемы сложнее, чем дескрипторы JavaScript, с точки зрения фиксируемых данных. Они фиксируют меньшее количество информации, но могут делать это для широкого диапазона веб-сайтов;
• маяки взаимодействуют с серверами стороннего производителя и устанавливают файлы cookie последнего. Они подвержены более строгим ограничениям безопасности, вследствие чего браузеры (типа Internet Explorer) или не будут принимать их совсем или не
буду предъявлять файлы cookie стороннего исполнителя. Система защиты AntiSpyware также удаляет файлы cookie стороннего исполнителя, тем самым существенно ограничивает отслеживание повторных посещений.
При необходимости отслеживать поведение посетителя на нескольких веб-сайтах или частоту проверки электронной почты определенным пользователем веб-маяки являются оптимальным решением Но для улучшения аналитики веб-сайта следует полагаться на другие методы анализа донных Данные, фиксируемые маяками, менее исчерпывающие, чем данные предоставляемые дескрипторами JavaScript.
Веб-маяки применимы также в электронной почте. Здесь, как и на веб-странице, в ходе загрузки электронной почты в приложение ее чтения запрашивается прозрачное изображение, и данные о доставке письма отсылаются обратно и записываются. К типичным данным, собираемым таким образом, относится сам факт получения и чтения сообщения, соответственно, адрес электронной почты и любые другие параметры, которые могут быть добавлены в конец запроса прозрачного изображения, встроенного в сообщение электронной почты. С распространением дескрипторов JavaScript использование веб-маяков стало менее популярным; обычно они применяются для отслеживания баннеров и сообщений электронной почты.
Дескрипторы JavaScript, подходят для более точного сбора большего количества данных. Информашя о сеансе посетителя фиксируется на других серверах (обычно серверах сторонних исполнителей веб-аналитики), обрабатывается там и предоставляется в виде отчета, доступного по сети [2]. Преимущества использования дескрипторов JavaScript в качестве механизма сбора данных следующие:
• эта методика проще реализуется по сравнению с реализацией веб-журналов. Добавления нескольких стандартных строк кода JavaScript в глобальный элемент сайта (например, нижний колонтитул) оказывается вполне достаточным для всего сайта;
• при отсутствии непосредственного доступа к самим веб-серверам (технически) или журналам веб-сервера применение дескрипторов JavaScript- единственный способ получения информации. Дескрипторы на страницах можно установить самостоятельно, а для формирования отчетов использовать провайдера ASP;
• кеширование страниц производится либо локально на компьютере посетителя, либо на фермах кеширования. Независимо от того, откуда загружается веб-страница, дескриптор Jcr/aScnpt выполняется, и инструмент веб-аналитики будет способен собрать данные;
• наличие полного контроля над тем, какие именно данные нужно собирать. Существует возможность реализовать специальные дескрипторы на специальных страницах, позволяющие собирать дополнительные данные для этих страниц;
• применение дескрипторов JavaScript позволяет разделить сбор данных и их обслуживание. При использовании дескрипторов JavaScript выпуск сайта происходит быстрее, поскольку отдел информационных технологий не должен ничего проверять, кроме установки дескриптора на странице;
• упрощается использование файлов cookie стороннего производителя, отслеживание пользователей на нескольких доменах, поскольку файлы cookie стороннего производителя и их идентификационные элементы остаются неизменными при посещении пользователем нескольких доменов, где установлены те же дескрипторы JavaScript.
Недостатки использования дескрипторов JavaScript в качестве механизма сбора данных:
Т-Comm, # 10-2011
• не у всех посетителей веб-сайта разрешено выполнение кеда JavaScript, для защиты личной информации пользователи отключают его. Об этих пользователях платформа аналитики не сможет собрать никаких данных. Данные, собираемые при помощи дескрипторов JavaScript, отделены от других метаданных Следовательно, понадобится более тщательное обдумывание и планирование при создании дескриптора, который будет фиксировать таксономию сайта и его иерархию с учетом оптимальности анализа. По мере развития сайта это может превратиться в процесс, требующий регулярного обслуживания;
• сбор данных при помощи дескрипторов JavaScript базируется на "стороне браузера", а не на "стороне сервера". Некоторые вебсайты, вместо того чтобы хранить донные в файлах cookie или параметрах URI, хранят их в течение сеанса посетителя на сервере. Следовательно, дескрипторы не зафиксируют существенной информации. Если стратегия подразумевает содержание ключевых данных на сервере, а не в браузере, то дескрипторы могут не подойти;
• фиксация данных о загрузке (например, файлов PDF или EXE) и переадресации при помощи дескрипторов JavaScript сложнее, чем с использованием веб-журналов.
Применение дескрипторов JavaScript при сборе данных следует рассмотреть в первую очередь. Большинство новых разработок в веб-аналитики совершенствуют инструменты в области использования дескрипторов JavaScript. Их применение может быть оптимальным при необходимости управления собираемыми данными.
Анализ пакетов — один из наиболее техн^ески сложных способов сбора веб-данных. Анализаторы пакетов - это дополнительный слой между клиентом и веб-страницей. В результате возникает две важные проблемы: объем работ по конфигурации решения анализатора пакетов, чтобы он исследовал только необходимые данные из всех доступных, вторая проблема - безопасность. Необработанные пакеты позволяют фиксировать все данные, включая такие как пароли, имена, адреса и номера кредитных карточек(2].
При использовании большинства решений анализа пакетов для правильного сбора всех данных, необходимых при оптимальном анализе, понадобятся дескрипторы JavaScript. Без них анализатор пакетов не получит данных о котируемых страницах (поскольку в этом случае на веб-сервер никаких запросов не поступоет), невозможность получения данных от файлов Adobe Flash, Ajax и улучшенных приложений Интернета (Rich Internet Application - RIA). Эти автономные файлы поступают на браузер посетителя, и большая часть
Амллтдтор
-га
СУБД "о0ь«кт- ГЩ1 атрибут”
В**> <г*|*в*ч>
6«1>'ЖУ|>ИМ .... kl
С«рв«р аиллим
8«*'» МЛЯКОв N
JavaScript две*рипторов
Рис. 1. Процесс сбора данных в системе анализа пользователей
взаимодействия с ним происходит там, следовательно, не отмечается традиционным анализатором пакетов, поскольку ресурс улучшенного взаимодействия не передает никаких запросов на сервер, неспособность собрать информацию о базовой структуре и метаданных страниц Кроме того, анализ пакетов может оказаться дорогим при наличии множества веб-серверов в разных сетях, в этом случае приходится устанавливать программное обеспечение или аппаратные средства во всех сетях.
На рис. 1 изображена система сбора данных о пользователе, использующая все четыре метода.
Пакеты пользователя поступают на веб-сервер через анализатор пакетов (если установлен), и веб-сервер прежде чем начать сеанс связи передаёт информацию в виде веб-маяков и/или JavaScript дескрипторов на сервер (обычно внешний). Также вся информация о сеансе записывается в журнал (лог). Вся эта информация должна поступить но сервер СУБД где она будет извлечена, структурирована и помещена в таблицу "объект-атрибут". Далее эта информация может использоваться любыми системами анализа данных, такими как SAS Enterprise Miner, любыми OLAP-системами и др [ 1 ].
Литература
1 Бергвр A. Microsoft SQL Server 2005 AncJysis Ser/ices. OLAP и много-мерньй анализ денных. Спб: БХВ-Летербург, 2007, 928.
2 Коамс А Веб-аналитжа. Анализ информации о посетителях веб-сайтов. — М.: Диалектика, Вильямс, 2009, 464.
T-Comm, # 10*2011