Научная статья на тему 'Визуальная аналитика в задаче трикластеризации многомерных данных'

Визуальная аналитика в задаче трикластеризации многомерных данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
115
29
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВИЗУАЛЬНАЯ АНАЛИТИКА / АНАЛИЗ ДАННЫХ / КЛАСТЕРИЗАЦИЯ / АНАЛИЗ ФОРМАЛЬНЫХ ПОНЯТИЙ / РЕКОМЕНДАТЕЛЬНЫЕ СИСТЕМЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кашницкий Ю.С.

Трикластеризация это способ обнаружения объектов со схожими свойствами в контексте из трех множеств сущностей. Например, в задаче анализа данных социальных сетей такими множествами могут быть пользователи, их интересы и события, в которых пользователи принимают участие. Трикластеризация здесь может помочь найти группы пользователей с похожими интересами и, например, делать им рекомендации событий на основе этих интересов. В статье описывается конкретный алгоритм трикластеризации и прототип программной платформы для визуального анализа полученных трикластеров.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кашницкий Ю.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Визуальная аналитика в задаче трикластеризации многомерных данных»

УДК 004.51

Ю. С. Кашницкий

Национальный исследовательский университет Высшая школа экономики Московский физико-технический институт (государственный университет)

Визуальная аналитика в задаче трикластеризации многомерных данных

Трикластеризация - это способ обнаружения объектов со схожими свойствами в контексте из трех множеств сущностей. Например, в задаче анализа данных социальных сетей такими множествами могут быть пользователи, их интересы и события, в которых пользователи принимают участие. Трикластеризация здесь может помочь найти группы пользователей с похожими интересами и, например, делать им рекомендации событий на основе этих интересов. В статье описывается конкретный алгоритм трикластеризации и прототип программной платформы для визуального анализа полученных трикластеров.

Ключевые слова: визуальная аналитика, анализ данных, кластеризация, анализ формальных понятий, рекомендательные системы.

Введение

Классический Анализ формальных понятий (АФП) имеет дело с данными, описывающими отношение на множествах объектов и их признаков (какой объект имеет какой признак), и предоставляет средства для определения в них иерархии.

На основе входных данных АФП выдает два вида выхода [1]. Первый - это решетка формальных понятий, то есть множество формальных понятий, иерархически упорядоченных по отношению «подпонятие-суперпонятие». Формальные понятия - это комбинации объектов и их признаков, представляющие жизненные понятия, которыми оперирует человек, такие как, например, «организм, обитающий в воде», «автомобиль с полным приводом», «числа, делящиеся на 3 и на 4» и так далее. Второй результат АФП - это множество признаковых импликаций. Признаковая импликация описывает определенное правило, действующее на множестве формальных понятий, например, «любое число, делящееся на 3 и 4, также делится и на 6» или «каждый абонент старше 60 лет безработный». АФП - это мощное средство для обнаружения зависимостей в данных, которое широко применяется в таких сферах, как извлечение информации из данных (data mining), обработка текста, машинное обучение, управление знаниями, семантические сети и разработка ПО.

Как естественное развитие АФП, Триадический анализ формальных понятий (ТАФП) обрабатывает триадические данные (контексты) в виде объектов, их признаков и условий, при которых определенные объекты имеют определенные признаки. Один из типичных примеров применения - анализ данных социальной сети с контекстом в виде пользователей (объекты), событий, в которых пользователи принимают участие (признаки), и интересов пользователей (которые могут рассматриваться как условия, при которых данный пользователь участвует в данном событии).

По мере того как нахождение всех понятий или трипонятий заданного контекста начало становиться ресурсоемкой задачей, были предложены некоторые ослабления этих определений: бикластеры и трикластеры [3]. Здесь мы будем иметь дело с трикластерами - наборами множеств объектов, признаков и условий, таких что не обязательно каждый объект имеет каждый признак из этих множеств. Строгое определение трикластера мы дадим позднее, а здесь отметим, что трикластеризация позволяет намного проще оперировать большими объемами триадических данных и дает на выходе кластеры объектов со схожими признаками при схожих условиях. Таким образом, трикластеризация находит применение в таких

задачах, как, например, нахождение пользователей соцсетей со схожими интересами, претендентов на работу со сходными компетенциями или ресурсов Интернета, помеченных похожими тегами. Также на базе алгоритмов трикластеризации основаны некоторые рекомендательные системы [4].

Визуальная аналитика - одно из бурно развивающихся направлений информационных технологий, в котором человеческие и машинные ресурсы объединяются для решения спектра задач, непосильных для человека или компьютера по отдельности. Это подобласть анализа данных, акцентированная на принятии решений на основе предварительной обработки данных, извлечения информации из данных (data mining) и визуальных интерактивных пользовательских интерфейсах. Например, Siemens PLM Software позволяет пользователям собирать, обрабатывать и представлять отчетные данные прямо в среде проектирования новых видов транспорта, таким образом делая возможным принятие решение в процессе разработки. Этот же метод используется в ситуационных центрах принятия решений в атомной энергетике и при исследовании криминальных правонарушений.

Статья организована следующим образом: в главе 1 рассказывается о визуальной аналитике, смежных ей областях - научной визуализации и визуализации информации - и приводятся некоторые примеры применения. В главе 3 даются основные определения Анализа формальных понятий. Глава 4 описывает триадический АФП и трикластеризацию. В главе 5 описывается алгоритм ОАС-трикластеризации, основанной на штрих-операторах, его реализация и результаты, а в главе 6 - рекомендательный алгоритм, основывающийся на трикластеризации. Затем в главе 7 показывается, как методы визуальной аналитики можно применить для анализа трикластеров, порожденных ОАС-алгоритмом. В конце статьи делаются выводы о результатах проделанной работы.

1. Визуальная аналитика

1.1. Определение

Поскольку эта область информатики довольно молодая, определений у понятия «визуальная аналитика» немало. Многие авторы, внесшие значительный вклад в формирование нового направления анализа данных, определяли его по-своему. Рассмотрим некоторые из этих определений.

• Визуальная аналитика — это комбинация средств визуализации информации и других методов анализа данных [5].

• Визуальная аналитика - это циклический процесс сбора информации, предварительной обработки данных, представления знаний, установления взаимосвязей данных и принятия решений [6].

• Визуальная аналитика — это наука о вынесении обоснованного аналитического решения с помощью визуальных интерактивных пользовательских интерфейсов [7], продукт слияния визуализации информации и научной визуализации [8].

Обобщая и вычленяя главное из каждого из них, дадим следующее определение.

Визуальная аналитика — это направление в анализе данных, фокусирующееся на вынесении аналитического решения с помощью визуальных интерактивных пользовательских интерфейсов в процессе сбора информации, предварительной обработки данных, представления знаний и установления их взаимосвязей.

1.2. Специфика задач визуальной аналитики

Дальше рассмотрим основные характеристики визуальной аналитики и специфику задач, для которых предназначены ее методы.

1) Задачи, решаемые средствами визуальной аналитики, обычно сложные, требуют обработки больших объемов данных и обоюдного человеческого и машинного анализа, что делает их порой не разрешимыми другими методами [5].

2) Конечная цель визуальной аналитики — глубоко вникнуть в какую-либо задачу, описываемую большими объемами данных различного рода и из различных источников. Для этого визуальная аналитика использует как машинные, так и человеческие ресурсы. С одной стороны, методы обнаружения знаний в данных (data mining), статистика и информатика — движущая сила любого автоматического анализа данных. С другой - способности мозга к восприятию информации, соотнесению данных и дальнейшим умозаключениям дополняют машинные ресурсы, что делает визуальную аналитику многообещающей техникой и перспективной сферой для дальнейших разработок.

3) По мере развития визуальная аналитика требует также совершенствования методов аналитического мышления, установления взаимосвязей в данных, их преобразования и представления для дальнейших вычислений и отображения, а также аналитической отчетности [9].

4) Визуальная аналитика также касается вопросов сознания, восприятия информации человеком, информатики, интерактивного и графического дизайна.

5) Визуальная аналитика сочетает методы визуализации информации с методами вычислительного анализа данных, при этом отображение усиливает познавательные способности человека шестью основными способами [10]:

• увеличение объема источников данных — пользователю приходится держать меньше информации в голове;

• сокращенный поиск — в малом пространстве может отображаться значительный объем данных;

• поддерживание связей данных, например, когда они размещены в пространстве по принципу их временных отношений;

• возможность пользователя вывести отношения или закономерности данных, которые иначе сделать было бы трудно;

• слежение за большим количеством возможных вариантов событий, т.е. изменением данных;

• обеспечение средств динамического слежения за большим количеством параметров.

1.3. Визуальная аналитика и смежные направления

Как уже говорилось, визуальная аналитика - результат слияния таких направлений, как визуализация информации и научная визуализация с добавлением интерактивных интерфейсов. Хотя четкая граница между этими тремя дисциплинами и не определена, считается, что:

• научная визуализация применяется для задач, в которых данные имеют естественную геометрическую структуру, например, моделирование самолетов (поездов, автомобилей) методом конечного элемента для исследования аэродинамических свойств, магнитно-резонансная томография (МРТ), исследования молекулярного строения веществ и т.д.;

• термин «визуализация информации» относится к абстрактным данным, таким как деревья и графы. Примеры — отображение связей компьютеров в сети Интернет, цитирований в научных статьях или эмоций людей по их сообщениям в социальных сетях;

• Визуальная аналитика, прежде всего, имеет дело с анализом данных, поиском в них смысла и принятием на их основе решений.

2. Примеры

2.1. Научная визуализация

Одно из самых развитых проявлений научной визуализации это вычислительная гидродинамика (Computational Fluid Dynamics, CFD). Классическая задача вычисления параметров потока воздуха при обтекании крыла самолета (таких как плотность, давление, число Рейнольдса и др.) требует построения сетки на обтекаемых поверхностях для дальнейших) применения численных методов конечного объема (или элемента, или конечных разностей) решения систем дифференциальных уравнений.

Рис. 1. Температура поверхности самолета и окружающего пространства при обтекании сверхзвуковым потоком СГБ моделирование

Такие программные продукты, как Ansvs и Catia, позволяют пользователю собственноручно построить сетку на поверхности 3D-модели исследуемого летательного аппарата или его части. Конечно, в этой «вечной» для прикладной аэродинамики задаче суперкомпьютеры используются не для получения наглядных изображений, а, собственно, для вычислений, но представление результатов полученных вычислений не что иное, как научная визуализация.

Здесь же можно упомянуть один из первых реализованных проектов, посвященных научной визуализации в виртуальном окружении, создание виртуальной аэродинамической трубы в исследовательском центре NASA Aims [11]. Целью данного проекта было визуализировать трехмерные нестационарные потоки обтекания тел, моделирующие эксперименты в аэродинамической трубе.

Рис. 2. Отображение результатов численного моделирования распределения давления при обтекании тонкого профиля

2.2. Научная визуализация

В основе проекта We Feel Fine Джонатана Харриса и Сена Камвара [12] .лежит механизм сбора данных о чувствах и настроении пользователей Интернета. Каждые 10 минут множество постов в блогах, включая Live .Journal, MSN Spaces, My Space, Blogger, Flickr и Google, проверяются на наличие фраз, содержащих «i feel» или «i'm feeling». Как только такое сочетание появляется, все предложение сохраняется в базе и далее идет проверка смысла, который несет ноет: а именно, какое чувство он передает, находится ли оно в базе «предопределенных чувств» или для него нужно создать новое.

Полный список «чувств» насчитывает около 2 миллионов записей, a его начало выглядит так:

total 1894610

better 128155 FFA401

bad 93390 07548A

good 76610 FFF700

right 40683 E97802

guilty 31591 004E6F

sick 27706 2E9127

Таблица 6.1. Данные по встречаемости «чувств»

В этом списке «чувству» соответствует число его вхождений в записи в блогах и цвет, которым оно будет обозначаться на карте. Предсказуемо среди самых популярных выражений человеческих чувств встречаются слова «хорошо», «лучше», «нлохо». Пятое место заняло чувство вины. Поскольку большинство исследуемых записей приходят из нескольких наиболее популярных блогов, иИТ-формат ссылок на них позволяет определить автора

Тор Ь.БОО FifLin

Рис. 3. Карта WcFeclFirie. отображающая данные по эмоциям людей за последние 10 минут

поста, страницу его профиля, иол, возраст, страну проживания, погоду в его городе и так далее. Таким образом, данные можно сортировать но нескольким параметрам.

2.3. Визуальная аналитика

Визуальная аналитика применяется компанией Siemens в их продукте PLM Software, который позволяет разработчикам мгновенно получать данные и визуализировать их прямо в контексте среды ЗО-проектирования новых средств транспорта [13]. Продукт включает и визуальные отчеты простой способ сбора, обмена и представления информации в графическом, интуитивно понятном виде, где данные представляются в среде ЗО-проектирования изделий и их можно тут же применить для принятия решений.

И главное, система обеспечивает непосредственное визуальное взаимодействие. Это ускоряет процесс контроля проектных решений на соответствие заданным требованиям и позволяет выявлять и устранять проблемы качества продукции. Разработчики отслеживают соответствие изделия критически важным функциональным требованиям благодаря визуальной обратной связи, предоставляющей также большой объем информации.

3. Основные определения Анализа Формальных Понятий

Формальным контекст, - это тройка К = (G,M,I), где G - множество объектов, М -признаков, а бинарное отношение I С G х М определяет, какой объект каким признаком обладет. Предикат glm означает, что объект д имеет признак т. Для подмножеств множеств объектов и признаков А С G и В С М операторы Галуа определяются следующим образом:

А' = {т, £ М | glm для всех g £ А}, В' = {g £ G | glm для всех т £ В}.

Рис. 4. Этап разработки с помощью Siemens PLM Software

Оператор " (применение оператора ' дважды) называется опера,тором замыкания. Множество объектов А С С, таких что А" = А, называется замкнутым.

Пара (А, В), такая что А с С, В с М,А' = В и В' = А называется формальным, понятием, контекста X. Множества А и В замкнуты и называются объем,ом, и содержанием, формального понятия (А, В) соответственно. Для множества объектов А множество их общих признаков N определяет схожесть объектов множества А, а замкнутое множество А" есть множество схожих объектов (с общими признаками из А').

Общее число формальных понятий контекста К = (С, М, I) довольно существенно: в худшем случае 2тш{|с|>|м|}. Существуют способы уменьшения этого количества, например, отбор понятий по стабильности или индексу мощности объема [14].

Другой способ это ослабить определение формального понятия. Примером служит ОП-бикластер [15]. Если (д,т) € I , то (т',д') называется объектно-признаковым бикла-стером, (ОП-бикластером) с плотностью

|/ П (т' х 9')|

р(т',д') =

\т'\\д' |

Основные свойства ОП-бикластеров

1) Для любого (А, В) С 2° х 2м справедливо 0 < р(А, В) < 1.

2) Бикластер (т',д') - это формальное понятие, если р = 1.

3) Если (т',д') - бикластер, то (д'',д') < (т',т").

Если существует рт\п € (0,1^, такое что для бикластера (А, В) С 2° х 2м выполняется р(А, В) > ртщ, то тогда бикластер (А, В) называется плотным. Указанные выше свойства показывают, что ОП-бикластер отличается от формального понятия тем, что от него не требуется единичная плотность (в этом и ослабление определния). Дальше мы увидим пример для трипонятий и трикластеров.

4. Триадический Анализ Формальных Понятий и ОАС-трикластеризация

Как решение для триадических контекстов в АФП Леманн и Вилле в 1995 году представили Триадический Анализ Формальных Понятий [2].

Триадический контекст К = (С, М, В, I) состоит из С (множество объектов), М (множество признаков), В (множество условий) и тернарного отношения I С С х М х В. Вложение (д, т,Ь) € I означает, что объект д имеет признак т при условии Ь.

Для удобства обозначим триадический контекст К = (Х\,Х2,Хз,1). Он порождает следующие диадические контексты: К(1) = (Х1,Х2 х Х3,1(1)), К(2) = (Х2,Хэ х Х1,1(2)),

К(3) = (Хэ,Х1 х Х2,1(3)), где д1(1)(т,Ь) & т1 (1)(д,Ъ) & Ы(1)(д,т) & (д,т,Ь) € I.

Операторы вывода (или штрих-операторы) К « обозначены как (.)(г). Для каждого порожденного диадического контескта существуют два вида операторов вывода. То есть для {г,],к} = {1,2,3} с ] < к и для 2 С Х^ и Ш С Х^ х Хк , (г)-оператор вывода определяется так:

2 ^ 2(г) = {(xj,Хк) € Х^ х Хк | Xi,Xj, Хк связаны отношением I для всех Хг € 2},

Ш ^ Ш(г) = {Хг € Хг | Xí,Xj, связаны отношением I для всех (х^,Хк) € Ш}.

Тршдическое понятие триадического контекста К = (С,М,В,1) - это тройка (А]^, А2, А3), А1 С Х^ А2 С Х2, А3 С Х3, такая что для каждого {г,], к} = {1,2,3} с ,7 < & справедливо А^ = (А^ х Ак )■ А1,А2ъ А3 называются объемом, содержанием и модусом тройки (А1, А2, А3).

Множество Т = ((т,Ь)', (д,Ь)', (д, т)') для тройки (д,т,Ь) € I называется ОАС-трикластером (или объектно-признаково-условным трикластером, или здесь просто три-кластером), основанном на штрих-операторах. Здесь

(д,т)' = {Ь | (д,т,Ь) € I},

(д,Ь)' = {т | (д,т,Ь) € I}, (1)

(т,Ь)' = {д | (д,т,Ь) € I}.

Плотность трикластера (А, В, С) триконтекста К = (С, М, В, I) задается отношением троек из I в трикластере, то есть

п(А П г) |/П(А х В х С)|

р(А,в,° ] = —mв\\c|—

Трикластер Т = (А, В, С) называется плотным,, если его плотность превышает некий заданный минимальный порог, то есть р(Т) > рт\п. По аналогии с бикластерами трикла-стеры имеют следующие свойства:

1) Для любого трипонятия (А, В, С) триконтекста К = (С, М, В, I) с непустыми множествами А, В и С имеем р(А, В, С) = 1.

2) Для любого трикластера (А, В, С) триконтекста К = (С,М,В,1) с непустыми множествами А, В и С имеем 0 < р(А, В, С) < 1.

4.1. Пример

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рассмотрим пробный триконтекст К = (и,1,Б,У), где и = {Кирилл, Леня, Макс} -множество пользователей, I = {футбол, хоккей} - их интересы, 5 = {soccer.com, nhl.com, fifa.com, Ьоскеусапаёа.са} - сайты, которые они добавили в закладки, У С и х I х Б - тернарное отношение между множествами и, I, Б, которое может быть определено таблицами 6.2:

ii i2 Si «2 S3 S4

UI X X U1 X X X X

U2 X X U2 X X X

U3 X X U3 X X X X

Si «2 S3 S4

ii X X

i2 X X

Таблица 6.2. Пример таблиц, задающих контекст

Здесь введены следующие обозначения:

В общем случае нам здесь придется анализировать ||/1|5| = 24 трипонятия, но фактически это число может быть сокращено до 11, поскольку в данном контексте больше половины пустых трипонятий. Вот эти 11 трипонятий:

user interest site

Кирилл футбол soccer.com

Кирилл хоккей nhl.com

Кирилл футбол fifa.com

Кирилл хоккей hockevcanada.ca

Леня футбол soccer.com

Леня хоккей nhl.com

Леня футбол fifa.com

Макс футбол soccer.com

Макс хоккей nhl.com

Макс футбол fifa.com

Макс хоккей hockevcanada.ca

Таблица 6.3. Трипонятия пробного контекста

Получается, Кирилл, Леня и Макс разделяют одни и те же интересы и добавили в закладки почти одни и те же сайты (разница лишь в том, что Леня не отметил сайт Ьоскеусапаёа.са). Главную идею кластеризации здесь иллюстрирует трикластер Т = ({и1,и2 ,из }, (г1, г2}, (81, в2, Я3, с плотностью р = 11/24 = 0.46.

Это всего лишь один объект для анализа в отличие от 11 в случае трипонятий.

5. Алгоритм ОАС-трикластеризации на штрих-операторах

Суть алгоритма довольно проста: для всех (д, т,Ь) € I трикоптекста К = (С, М, В, I) строится Т = ((т, Ь)', (д, Ь)', (д, т)'). Если трикластер уникален, и его плотность превышает некий заданный ранее порог, то он добавляется в массив трикластеров. Далее приведен псевдокод алгоритма ОАС-трикластеризации, основанной на штрих-операторах:

Algorithm 1 ОАС-трикластеризация, основанная на штрих-операторах Вход: К = (G, М, В) - триконтекст, Pmin - порог плотности

Выход: Tdic = {key : (Х1,Х2,Х3)} - словарь трикластеров. Xi С G,X2 С М,Х3 С В for (д, m,b) £ I do Т = ((m,b)', (д,Ь)', (д,т)') HashKey = hash(T)

if HashKey £ Tdic.keys() and p(T) > pmin then

Tdic[hashKey] = T end if end for

5.1. Реализация

Описанный выше алгоритм был реализован автором на языке Python версии 2.7.3 на 2-процессорной машине (Core i3-370M, 2.4 ГГц) с 3.87 Гб ОЗУ. Далее следует описание контекстов, на которых проверялся алгоритм, и некоторые результаты - таблицы 6.5, 6.6, 6.7 .

Контекст IM | IB | Троек Плотность

1 30 30 30 2677 0.0991

2 250 795 22 3815 0.00087

3 51 924 2844 3037 2.266е-05

Таблица 6.4. Характеристики контекстов

Порог плотно- Время выпол- Трикластеров

сти pmin нения Т,с

0 2.932 2677

0.1 2.917 2677

0.2 2.919 2572

0.3 2.936 789

0.4 2.919 96

0.5 2.924 15

0.6 2.889 10

0.7 2.92 3

0.8 2.91 1

0.9 2.934 0

1 2.896 0

Таблица 6.5. Результаты трикластеризации для контекста 1

Порог плотно- Время выпол- Трикластеров

сти ртгп нения Т,с

0 5.099 3679

0.1 5.145 3679

0.2 5.115 3601

0.3 5.154 3227

0.4 5.186 2399

0.5 5.165 1438

0.6 5.136 654

0.7 5.142 297

0.8 5.126 244

0.9 5.197 234

1 5.132 234

Таблица 6.6. Результаты трикластеризации для контекста 2

Порог плотно- Время выпол- Трикластеров

сти pmin нения Т,с

0 3.303 2459

0.1 3.266 2459

0.2 3.275 2456

0.3 3.271 2449

0.4 3.273 2413

0.5 3.274 2305

0.6 3.272 2011

0.7 3.268 1287

0.8 3.275 1023

0.9 3.299 1001

1 3.292 1001

Таблица 6.7. Результаты трикластеризации для контекста 3

6. Алгоритм построения рекомендаций на основе трикластеризации

Алгоритм рекомендаций на множествах контекста аналогичен описанному в работе [4]. На входе у алгоритма трикоптекст и множество трикластеров, полученное с помощью алгоритма ОАС-трикластеризации. Из множества трикластеров для каждого пользователя выбирается тот, что «наиболее похож» на тройки с этим пользователем. «Похожесть» три-кластера на тройки определяется функцией simu(Tn). Алгоритм возвращает множества Tagrec, Resrec - рекомендации тегов и ресурсов для всех пользователей.

7. Визуальный анализ трикластеров

Прототип платформы для визуального анализа трикластеров предоставляет аналитику несколько опций.

На рисунке 5 мы видим карту трикластеров, порожденных описанным выше алгоритмом, для контекста из 20 пользователей, 20 тегов и 200 сайтов в проекции User-Tag (то есть объект-признак). Чем чаще определенная пара пользователь-тег встречается в трикласте-рах, тем темнее отображается соответствующая клетка. Пара (и6, ¿4), например, содержит-

Algorithm 2 Рекомендательный алгоритм

Вход: К = (U, Т, R, I) - трнконтекст, Тг - множество трикластеров Выход: Tagrec, Resrec - рекомендации тегов и ресурсов for u £ U do

for i l,...,|Tr| do

vm (Tr Л = i(1 + 1ТиПТтг>|) ыти(1 гг) = 2 (|AuU^Tr. | + |тиитТг. |)

Tfbest = argmax(simu (Tn))

Tagrec[i\ = TTrbest \ Tu

ReSrec [г] = RTrb£St \ Ru

end for

end for

ся в 73 трикластерах (темно-красный квадрат), (и5,Ь9) - только в одном (ярко-красный), в то время как пара (и9,И0) не содержится ни в одном трикластере (серый цвет).

Рис. 5. Карта трикластеров в проекции User-Tag

Все трикластеры, содержащие данную пару user-tag, могут быть отображены с помощью вкладки «Triclusters» контекстного меню, связанного с клеткой, или просто нажатием на нее. Аналитик также может отобразить наибольший трикластер для данной клетки (рис. 7).

Кроме этого, аналитик с помощью вкладки «Recommend attributes» может отобразить результаты рекомендательного алгоритма для конкретного пользователя (в данном случае, рекомендуемые теги).

Цель программы помочь аналитику понять результаты алгоритма ОАС-три-клаетеризации и собственноручно проверить качество полученных трикластеров. По тем или иным причинам (из-за несовершенства алгоритма триклаетеризации или из-за влияния дополнительных измерений во входных данных) аналитик может захотеть исключить кого-то из пользователей, например, из какого-то триклаетера. Также программа позволяет отобразить рекомендации тегов или ресурсов как результат описанного выше рекомендательного алгоритма. Конечное решение по рекомендациям, опять же, возлагается на плечи аналитика.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 6. Подсвечивание наибольшего трикластера для пары (и6,14)

Рис. 7. Подсвечивание рекомендуемых тегов для нескольких пользователей

Вывод

Визуальная аналитика, одна из бурно развивающихся областей анализа данных, может применяться в нахождении объектов с похожими признаками при похожих условиях

в контексте данных социальных сетей. Был предложен алгоритм для объединения таких объектов, признаков и условий в трикластеры. Описана вкратце программа, находящаяся на стадии разработки, предназначенная для графического отображения результатов этого алгоритма и наделения пользователя возможностью обнаруживать группы схожих объектов в контексте.

Благодарность

Автор выражает благодарность своим научным руководителям в МФТИ и НИУ ВШЭ Клименко Станиславу Владимировичу и Кузнецову Сергею Олеговичу, а также коллеге Игнатову Дмитрию за своевременные советы и помощь в работе.

Литература

1. Ganter В., Wille R. Formal concept analysis: Mathematical foundations. Springer, Berlin. — 1999.

2. Lehmann F., Wille R. A triadic approach to formal concept analysis. — London. SpringerVerlag, 1995.

3. Ignatov D. I., Kuznetsov S. O., Poelmans J., Zhukov L. E. Can triconcepts become triclusters? // International Journal of General Systems. — 2013. — V. 42. — P. 572-593.

4. Venjega А. В., Gnatyshak D. V., Ignatov D.I., Konstantinov A. V. Recommender system for perfumes and their tags based on triclustering // Proceedings of the «Intellectual data processing» conference. — 2012 — P. 601-605. — (in Russian).

5. Kosara R. Parallel sets: Interactive exploration and visual analysis of categorical data // IEEE Transactions on Visualization and Computer Graphics. — 2006. — V. 12, N. 4. — P. 558-568.

6. Keim D., Andrienko G. Visual analytics: Definition, process, and challenges // Information Visualization. - 1999. - V. 4950. - P. 154-175.

7. Thomas J., Cook K. Illuminating the Path: Research and Development Agenda for Visual Analytics. - New York. IEEE-Press, 2005.

8. Wong P. C., Thomas J. Visual Analytics // IEEE Computer Graphics and Applications. — 2004. - V. 24, N. 5. - P. 20-21.

9. Kielman J., Thomas J. Special Issue: Foundations and Frontiers of Visual Analytics. Information Visualization. - 2009. - V. 8, N. 4. - P. 239-314.

10. Card S., Mackinlay J.D., Shneiderman B. Readings in Information Visualization: Using Vision to Think. Morgan Kaufmann Publishers, San-Francisco. — 1999.

11. Описание проекта по созданию виртуальной аэродинамической трубы http: / / veonpc.com/index.php / 3d-vizualization / science-vizualization

12. Сайт проекта WeFeelFine http://www.wefeelfine.org

13. Визуальная аналитика компании Siemens http://www.plm.automation.siemens.com

14. Kuznetsov S. О. On stability of a formal concept // Annals of Mathematics and Artificial Intelligence. - 2007. - V. 49. - P. 101-115.

15. Gnatyshak D. V., Ignatov D.I., Semenov A., Poelmans J. Analysing online social network data with biclustering and triclustering // Proceedings of the «Concept Discovery in Unstructured Data» conference. — 2012. — V. 871. — P. 30-39.

Поступим в редакцию 15.09.2013.

i Надоели баннеры? Вы всегда можете отключить рекламу.