УДК 007.52:004.81
Евсюков А.А.
Федеральный исследовательский центр "Красноярский научный центр СО РАН", Красноярск,
Россия
ИНФОГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ МНОГОМЕРНЫХ ДАННЫХ АННОТАЦИЯ
Статья посвящена применению инфографических средств для анализа многомерных данных. Выполнен обзор существующих подходов и инструментов построения инфографики, определены виды инфограмм, проанализированы предпосылки интеграции методов инфорграфического моделирования и технологии оперативной аналитической обработки данных.
КЛЮЧЕВЫЕ СЛОВА
Инфографика; инфограмма; OLAP; представление многомерных данных.
Evsyukov A.A.
Federal Research Centre "Krasnoyarsk Science Centre SB RAS", Krasnoyarsk, Russia INFOGRAPHIC REPRESENTATION OF MULTIDIMENSIONAL DATA
ABSTRACT
The article is devoted to infograpic application for multidimensional data representation. The survey of existing approaches and tools for infographics and the types of infogram is described. The integrating methods of infographic simulation and online analytical processing technology are observed.
KEYWORDS
Infographics; infogram; OLAP; multidimensional data representation.
В задачах поддержки принятие управленческих решений широкое распространение получила технология оперативнои аналитическои обработки данных OLAP (On-Line Analytical Processing). Технология обеспечивает наглядное представление многомерных данных при высокой скорости выполнения аналитических операции. Основнои идееи технологии OLAP является представление анализируемои информации в виде многомерного куба. Специалист-аналитик представляет анализируемые факты в разрезе множества шкал - измерений. Например, показатели экономического состояния населения естественно рассматривать в разрезе возрастного состава, территориальнои привязки, профессиональнои занятости и т.д. Многомерное представление позволяет наиболее точно оценить состояние анализируемои области, помогает принять обоснованное решение.
Преимуществом OLAP-подхода является то, что аналитик получает не жестко регламентированный отчет, а инструментарий для творческого исследования задачи. Возможность свободного управления данными упрощает получение необходимых наборов данных. Результаты OLAP-запроса представляются в виде двумерной перекрестной таблицы (кросс-таблицы) со сложными иерархическими шапками, для которои доступны операции группировки, поворота, фильтрации и агрегации данных. Важным преимуществом OLAP является использование специалистом не сложных SQL-запросов, а знакомых терминов из предметной области.
C момента возникновения в 1993 году OLAP-технология проделала огромный путь развития. В настоящее время можно выделить два наиболее значимых направления развития технологии. В первую очередь, это увеличение объемов и повышение скорости обработки анализируемой информации. Например, реализация OLAP-моделей на больших данных (big data). Другое важное направлений при использовании OLAP, в котором могут быть достигнуты значительные результаты, - увеличение наглядности представления результатов аналитическои обработки для стимуляции когнитивных (познавательных) возможностеи лиц, принимающих решения [1; 2; 3].
Традиционно технология OLAP использовала интерактивные инструменты представления результатов, такие как кросс-таблицы, диаграммы, а в случае пространственного распределения
данных - картограммы. Если не рассматривать табличное представление данных (кросс-таблицы), то существующие средства графического отображения многомерных данных (диаграммы и картограммы) отображают срезы, где изменяются значения не более двух измерении при фиксации значении остальных измерении. Способ представления результатов аналитическои обработки во многом определяет когнитивную эффективность оперативного анализа [4; 5; 6]. Применение принципов инфографического моделирования [7] для стимулирования творческои активности лица принимающего решения позволит максимально полно использовать аналитическии потенциал OLAP-средств. Актуальна задача разработки аналитических инфографических моделеи для отображения многомерных результатов оперативного анализа с учетом состава и характера данных.
Использование инфографики для представления информации
Инфографика - графическии способ представления информации, упрощающии ее восприятие. Помогает интуитивно выявлять закономерности в данных, увеличивает количество усваиваемои информации. Инфограмма - это конкретныи образец инфографики на любом из носителеи информации. В даннои статье под инфограммои будем понимать программное представление инфографики в виде графического контеинера, которыи может содержать видео, изображения, диаграммы, карты и текст, и соответствует назначению инфографики.
Существуют два противоположных подхода к созданию инфографики, расходящиеся в вопросах значимости эстетическои составляющей Один из них- исследовательскии (explorative) подход, берущии начало в традициях оформления научных работ. Основоположником данного направления является Эдвард Тафти, автор множества работ по информационному дизаину [8]. Подход характеризуется минимализмом, при котором все несущественное для передачи информации должно быть опущено, а сама информация должна быть передана максимально точно. Основнои целью этого подхода является стремление к донесению сути информации до целевои аудитории. Такои подход оправдан в технологиях анализа данных, научных исследованиях, бизнес-аналитике.
Другои подход называется сюжетным или повествовательным (narrative). Основоположник подхода Наигел Холмс наиболее известен по иллюстрациям в журнале Time с 1978 по 1994 год, которые он назвал «поясняющие иллюстрации» (explanation graphics). Для этого подходахарактерно стремление к созданию выразительных образов, эффектного дизаина и иллюстративности. Способ подачи информации выбирается интуитивно, исходя из опыта и художественного вкуса дизаинера. В результате знакомства с сюжетнои инфографикои читатель получает не просто информацию, но и развлечение. Сферои применения этого подхода можно считать журналистику, блоги, маркетинговые и рекламные материалы.
Сравнение двух подходов выявляет следующую важную деталь: исследовательскии подход подразумевает извлечение нужнои информации самим читателем, тогда как повествовательныи уже содержит заключение, к которому читатель должен приити. А также лучше подходит для формализации информационного представления. Информационно-аналитические системы (в том числе использующие технологию OLAP), как правило, не предлагают готовых заключении, а является лишь аналитическим инструментом для их поиска. Соответственно исследовательскии подход больше чем сюжетньш подходит для создания инфографики в таких системах.
Для построения инфограмм необходимо определить размерность отображаемых данных в терминах технологии OLAP, проанализировать способы отображения многомерных данных, выявить основные когнитивные элементы инфограмм. Систематизация разновидностеи инфограмм создаст фундамент для разработки аналитических инфографических моделеи.
По способу отображения инфограммы разделяются на два вида: статические и динамические. Динамические инфограммы наиболее удобны для отображения многомерных данных. С помощью анимации или встроенных в инфограмму инструментов (списков, фильтров) можно отобразить различные срезы гиперкуба, изменяя фиксированные значения измерении, или выполнить его вращение.
Обзор существующих решений
Существует ряд готовых решении автоматизированных инструментов построения инфографики, в том числе онлаин-сервисы. Среди них можно выделить сервисы, использующие как исследовательскии подход, так и сюжетныи.
К первои группе относятся такие сервисы как Piktochart.com или Infogr.am, предлагающие пользователю шаблоны страниц и диаграмм. Экспорт данных для диаграмм возможен из таблиц (xls, xlsx, csv), либо после установки динамическои связи с данными таблиц Google Spreadsheet [9]. В
зависимости от количества анализируемых показателей изменяется выбор доступных видов диаграмм, подходящих для текущеи таблицы. Отметим, что для одного показателя набор способов отображения шире, но в то же время при отображении двух и более показателеи появляются новые виды отображении.
К явному преимуществу инфограмм, построенных с помощью перечисленных двух сервисов, относится их динамичность. В построенных нфограммах предусмотрена возможность выбора показателя для отображения, выделение показателя (при наведении курсора мыши) для конкретного значения измерения. На рис. 1 представлен пример анализа накопленнои статистики о проведенных научных мероприятиях. Инфограмма состоит из двух диаграмм, отображающих два разных показателя одного многомерного куба данных. Измерениями построеннои OLAP-модели являются: год, наименование мероприятия, организация; показателями - количество статеи, их авторов и сделанных докладов. Выполнен срез куба, где фиксирован год (2015) и мероприятие (XIV Всероссииская конференция «Проблемы информатизации региона»). Отображены показатели: количество авторов статеи, количество прочитанных докладов сотрудниками различных организаций.
XIV Всероссийская конференция «Проблемы информатизации региона» (ПИР-2015)
Авторы (и соавторы) статей
| ИВЫ СО РАЯ {№%> ДО)#ПУ(1еЗДВ1Ьыаои|ПУ{2ГЛ) СФУ{3%) ЩАдникистрациягХржнояроса^} ■ ЯНСРФДО) Я ООО вКошунапшые пнфор..(3%) Щ Краевая кпиккыеская больница (7%) и Дальневосточный ФУ{2У»>
I ООО "Инген кун отошьс' "> (24)
Прочитанные доклады
I ИБМООЕАН(62^> ■ Си5ГТУ<Н""л1 ■ ТоьккийПУ{104) ■ СФУ{35',} ■ ^мингегтрациа г.КрасьщЕраса Щ i^-V, У'О ГлХ) Краевая кпик№еская больн ^цз (3%)
Рис.1. Динамическая инфограмма для отображения статистики конференции
Ко второй группе сервисов, использующих сюжетный подход, относятся сервисы Easel.ly и Creately.com, предлагающие использовать существующие макеты для создания инфографики. Easel.ly фактически является графическим редактором построения инфограмм. При этом предусмотрено всего 5 типов диаграмм с минимумом настроек, возможен экспорт из Excel [11].
Сервис Creately.com обладает широким функционалом, специализируется как инструмент для создания схем [12]. При этом динамическои привязки внешних данных не выявлено. В отличие от Easel.ly частично соответствует принципам исследовательского подхода (схематичность инфограмм).
Набор диаграмм для отображения многомерных данных
Одним из самых востребованных инструментов для графического представления многомерных данных является диаграмма. Причины этого заключаются в простоте построения диаграмм и наглядности представления информации для пользователей Инфограммы могут содержать сразу несколько диаграмм, или состоять из единственнои диаграммы. Рассмотрим распространенные виды диаграмми их возможность использования для отображения многомерных данных с различным числом измерении и показателеи.
Гистограмма. Прямои перевод с греческого языка - «писать столбиком». Это своеобразным столбчатьш график. Диаграммы такого вида могут быть объемные, плоские, вложенные и т.п. На однои гистограмме одновременно могут быть отображены сразу несколько показателеи гиперкуба, при условии, что их значения- числа одного порядка. Также есть возможность не фиксировать одно из измерении. В этом случае гистограмма будет разбита на группы, по количеству значении нефиксированного измерения.
Точечная диаграмма. Показывает взаимную связь между числовыми данными (показателями) и представляет собои набор чисел в виде единственного ряда точек в координатах. Виды диаграмм такого типа необходимы для поиска кластеров данных. Лучше всего использовать для анализа взаимозависимости двух показателеи, но можно использовать и для большего числа показателеи. Значения измерении для точечнои диаграммы фиксированы.
Пузырьковая диаграмма. Одна из разновидностеи точечнои диаграммы. Подходит для
отображения трех показателей. Величина «пузырька», положение которого на координатной плоскости определяется двумя показателями, зависит от величины третьего показателя. Значения измерении для пузырьковои диаграммы фиксированы.
График. Отображает последовательность изменении числовых значении несколькихпоказателеи для значении нефиксированного измерения, например, временного. Для лучшего восприятия значения всех показателеи должны быть числами одного порядка.
Диаграммы с областями. Основнои целью такои диаграммы является акцент на суммарнои величине изменения нескольких показателеи для значении выбранного (как правило, временного) измерения. Возможно также отображение доли отдельно взятых значении в общеи сумме.
Кольцевая и круговая диаграммы. Данные виды диаграмм весьма схожи по целям. Обе они отображают роль каждого элемента в общеи сумме. Их отличие заключается лишь в том, что кольцевая диаграмма может содержать несколько рядов показателеи. Каждое вложенное кольцо представляет собои отдельныи показатель. Частныи случаи кольцевои диаграммы - круговая диаграмма строится для одного показателя. Значения измерении для обеих диаграмм фиксированы.
Лепестковая диаграмма. Для даннои диаграммы выбирается одно нефиксированное измерение. Каждоеегозначение представляет индивидуальную координатную ось, исходящую от нулевои точки координат. Затем на каждои такои оси откладываются значения показателеи. Данныи вид диаграмм позволяет сравнивать значения нескольких показателеи.
Мишень. Диаграмма является средством когнитивнои графики в виде лепестковои диаграммы (мишени) разбитои на сектора с отображением дополнительных зависимостеи. Диаграмма-мишень служит для отображения значении основногопоказателя в виде секторов мишени и динамикиизменения остальных показателеи в виде траектории, отмеченных на секторах мишени. Для каждого объекта может существовать несколько зависимостей одна для основного показателя и несколько дополнительных, представляющих интерес при анализе того или иного процесса. Каждыи сектор мишени соответствует значению выбранного измерения.
Диаграмма на основе 3-симплекс метода. На основе 3-симплекс метода [13] возможно построение когнитивнои графики для представления многомерных данных для 4 показателеи - по числу гранеи тетраэдра. Для каждого из нихвыбирается своя ось, перпендикулярная однои из гранеитетраэдра. Значения показателеиоткладываются на выбранных осях, в результате ячеике многомерного куба ставится в соответствие точка пространства. Преимущество метода заключается в свободе выбора фиксированных и нефиксированных измерении. С помощью 3-симплекс методавизуально решается задача поиска кластеров на множестве анализируемых данных.
Таб.1. Зависимость допустимого числа измерений и показателей от вида диаграммы
Гистограмма Точечная диаграмма Пузырьковая диаграмма График Диаграммы с областями Кольцевая и круговая диаграммы Лепестковая диаграмма «Мишень» Диаграмма на основе 3-симплекс
Число измерении 2 2 1 2 2 1 2 3 4
Число показателеи от 1 1 3 1 1 1 1 3 от 1
Зависимость допустимого числа измерении и показателеи от вида диаграммы приведена в таб. 1. Следует понимать, что описание видов диаграмм приведено для создания статических инфограмм для отображения результатов OLAP-анализа. При создании динамических инфограмм можно добавить функцию выбора показателеи, или дополнительных измерении для анализа данных.
Создание шаблонов и использование карт для построения инфограмм
Кроме диаграмм инфограмма может содержать видео, изображения, карты и текст. Как правило, данныи контент создается не автоматически (за исключением картограмм), а входит в специально подготовленныи шаблон с заданнои структурои для создания инфограммы. Для графического представления результатов аналитик выбирает подходящии шаблон, куда будут встроены ключевые данные OLAP-анализа.
Рассмотрим механизм отображения данных OLAP-анализа на карте [14]. В основе механизма
динамической связи карты и гиперкуба данных OLAP-системы лежит картографическая привязка данных, устанавливающая соответствие между территориальными объектами карты и одним из измерении гиперкуба - географическим измерением. Привязка географического измерения осуществляется к одному или нескольким картографическим слоям. Чтобы значения показателя гиперкуба отобразить в виде тематическои карты, необходимо построить легенду тех слоев, к объектам которых выполнена картографическая привязка. При построении легенды используются методы тематического картографирования, позволяющие объекты слоя разбить на классы на основе соответствующих значении анализируемого показателя. Одновременно на карте могут отображаться сразу несколько показателеи, значения которых передаются с помощью цвета, обозначении или состояния объекта (видимыи, невидимыи, выделенныи, мигающии). Кроме привязки данных к существующим объектам возможно динамическое формирование новых картографических слоев, отображающих многомерные данные [15]. Такои вид слоев соответствует представлению на карте объектов, существование, местоположение и форма которых определяется в зависимости от данных, принятых из OLAP-системы. Для формирования новых слоев могут быть использованы таблицы агрегатов, содержащие агрегированные данные, прошедшие предварительную обработку. Это позволяет сформировать новыи слои не только на основе собранных статистических данных, но и на основе аналитических результатов.
Для получения информации о сформированных картографических объектах предусмотрены информационные карточки. В карточках отображаются значения показателеи, соответствующие данному объекту, и зафиксированные на данныи момент измерения. В качестве картографические подложки могут быть использованы современные геосервисы, такие как Яндекс.Карты или Google Maps.
Уровни воды на реках
Дата: вторник, 12 апреля, 2016-09:29
, -f j СХ Адрес 1
5
ш
<Щ,
/
<щ
^учкоао
ЗМГ
НОБаЯ-ЕЛОВКЭ
Т-зо
Чулым
л*
борцы
Курб,
| Данные за: 12 апреля, 2016 Изменение: -20 см Уровень: 320 см Критический уровень: 505 см
Ларутинд
Белый Яр Зерцалы [vk
9 Открыть в Я нде кс. Картах
^Малиновка
Ачинск
j! I Горный
К
Березовый
Новачерн^реченский _ б км-1 EÜZil
3 ЯндексУс.псеия использования
Рис.2. Пример картограммы с динамически сформированными слоями
На рис. 2 приведен пример построения картограммы на основе сервиса Яндекс.Карты для отображения ситуации на реках во время весеннего половодья на реках Красноярского края. Динамически сформированныи слои отображает информацию о суточном изменении уровня воды на гидропостах. Красная каемка у меток на карте информирует о превышении критического уровня, желтая - о приближении к критическои отметке, зеленыи - о нормальном уровне воды. Измерениями построеннои OLAP-модели являются: дата и место наблюдения; показателями -
текущии и критическии уровни воды, суточное изменение воды. Последнии показатель является агрегированным, его значение рассчитывается из разницы уровнеи воды за два дня. Выполнен срез куба, где фиксирован конкретная дата (12 апреля 2016). Из представленнои картограммы видно, что на 12 апреля 2016 года происходило подтопление населенных пунктов Сучково и Большои Улуи.
Заключение
В работе выполнен обзор существующих подходов и инструментов построения инфограмм, определены виды инфограмм, проанализированы предпосылки интеграции методов инфографического моделирования и технологии оперативнои аналитическои обработки данных.
Актуальнои задачеи дальнеишего исследования является создание методических основ многомерного когнитивного моделирования и разработка аналитических инфографических моделеи. Необходимо решить проблему взаимодеиствия с OLAP-системами, увеличить скорость построения инфограмм при выполнении операции над гиперкубом. Отдельное внимание стоит уделить вопросам восприятия - использованию разных способов графического представления информации при визуализации результатов многомерного анализа данных.
Литература
1. Stacey M., Salvatore J., Jorgensen A. Visual Intelligence: Microsoft Tools and Techniques for Visualizing Data. - John Wiley & Sons, 2013.
2. Airinei D., Homocianu D. Data visualization in business intelligence //2010 Proceeding of WSEAS MCBEC2010-Recent Advances In Mathematics And Computers In Business, Economics, Biology & Chemistry. - 2010.
3. Pur A. et al. Data Presentation Methods for Monitoring a Public Health-Care System //11th Mediterranean Conference on Medical and Biomedical Engineering and Computing 2007. - Springer Berlin Heidelberg, 2007. - С. 708-711.
4. Dance D. R. Mind mapping your way to the right software //Strategic Finance. - 1997. - Т. 78. - №. 10. - С. 36.
5. Dos Santos F. A. P., das Neves R. C., Filipe J. B. On the Generation of Dynamic Business Indicators //KDIR. - 2012. - С. 390-394.
6. Brackett K. E., Pal S. Creating high-impact visualisations //Applied Marketing Analytics. - 2015. - Т. 1. - №. 4. - С. 331341.
7. Павлов А. А. Компьютеризация инфографического моделирования //Интернет-журнал Науковедение. - 2012. - №. 2 (11).
8. Tufte, Edward R (2001) [1983], The Visual Display of Quantitative Information (2nd ed.), Cheshire, CT: GraphicsPress, ISBN 0-9613921-4-2.
9. Create Easy Infographics, Reports, Presentations | Piktochart. [Электронный ресурс]. URL: http://piktochart.com (дата обращения: 21.02.2016).
10. Create and share visual ideas online | Easel.ly. [Электронныйресурс]. URL: http://www.easel.ly (дата обращения: 21.02.2016).
11. Create online charts &infographics | Infogr.am. [Электронныйресурс]. URL: https://infogr.am (дата обращения: 21.02.2016).
12. Online Diagram Software to draw Flowcharts, UML & more | Creately[Электронныйресурс]. URL: http://creately.com (дата обращения: 21.02.2016).
13. Yankovskaya A., Krivdyuk N. Cognitive Graphics Tool Based on 3-Simplex for Decision-Making and Substantiationof Decisions in Intelligent System // Proceedings of the IA STED International Conference Technologyfor Education and Learning TEL '2013. Marina del Rey, USA, November 11-13, 2013. P. 463-469.
14. Евсюков, А.А. Применение технологии OLAP для построения тематических карт / А.А. Евсюков // Сборник научных трудов VIII Международной научно-практической конференции «Современные информационные технологии и ИТ-образование». - Москва: МГУ, 2013. - С. 377-384.
15. Евсюков, А.А. Динамическое формирование картографических слоев в информационно-аналитических системах / А.А. Евсюков // Вестник Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева. №1. - Красноярск: 2011. - С. 15-20.
References
1. Stacey M., Salvatore J., Jorgensen A. Visual Intelligence: Microsoft Tools and Techniques for Visualizing Data. - John Wiley & Sons, 2013.
2. Airinei D., Homocianu D. Data visualization in business intelligence //2010 Proceeding of WSEAS MCBEC2010-Recent Advances In Mathematics And Computers In Business, Economics, Biology & Chemistry. - 2010.
3. Pur A. et al. Data Presentation Methods for Monitoring a Public Health-Care System //11th Mediterranean Conference on Medical and Biomedical Engineering and Computing 2007. - Springer Berlin Heidelberg, 2007. - P. 708-711.
4. Dance D. R. Mind mapping your way to the right software //Strategic Finance. - 1997. - Т. 78. - №. 10. - P. 36.
5. Dos Santos F. A. P., das Neves R. C., Filipe J. B. On the Generation of Dynamic Business Indicators //KDIR. - 2012. - P. 390-394.
6. Brackett K. E., Pal S. Creating high-impact visualisations //Applied Marketing Analytics. - 2015. - Т. 1. - №. 4. - P. 331341.
7. PavlovA. A. Computerization ofinfo-graphic simulation // Internet-journal Naukovedenie. - 2012. - №. 2 (11).
8. Tufte, Edward R (2001) [1983], The Visual Display of Quantitative Information (2nd ed.), Cheshire, CT: GraphicsPress, ISBN 0-9613921-4-2.
9. Create Easy Infographics, Reports, Presentations | Piktochart. [Электронный ресурс]. URL: http://piktochart.com (дата обращения: 21.02.2016).
10. Create and share visual ideas online | Easel.ly. URL: http://www.easel.ly (дата обращения: 21.02.2016).
11. Create online charts &infographics | Infogr.am. URL: https://infogr.am (дата обращения: 21.02.2016).
12. Online Diagram Software to draw Flowcharts, UML & more | Creately. URL: http://creately.com (дата обращения: 21.02.2016).
13. Yankovskaya A., Krivdyuk N. Cognitive Graphics Tool Based on 3-Simplex for Decision-Making and Substantiation of Decisions in Intelligent System // Proceedings of the IA STED International Conference Technology for Education and Learning TEL '2013. Marina del Rey, USA, November 11-13, 2013. P. 463-469.
14. Evsyukov A.A. OLAP technology usage to build thematic maps / A.A.Evsyukov // Collection of scientific works of the VIII International scientific-practical conference "Modern information technology and IT-education." - Moscow: Moscow State University, 2013. - P. 377-384.
15. EvsyukovA.A. Dynamic generation of map layers in the information-analytical systems / A.A.Evsyukov // Bulletin of the Siberian State Aerospace University named after Academician M.F.Reshetnev. №1. - Krasnoyarsk: 2011. - P. 15-20.
Поступила 20.10.2016
Об авторе:
Евсюков Александр Анатольевич, кандидат технических наук, старшии научныи сотрудник Отдела прикладнои информатики Института вычислительного моделирования Федерального исследовательского центра "Красноярскии научныи центр СО РАН", alev@icm.krasn.ru.