ШЕСТОЙ ТЕХНОЛОГИЧЕСКИЙ УКЛАД: МЕХАНИЗМЫ И ПЕРСПЕКТИВЫ РАЗВИТИЯ
13-14 ноября 2015 г.
УДК 519.711.3
СОЗДАНИЕ СОЦИАЛЬНО-ОРИЕНТИРОВАННЫХ ГЕОИНФОРМАЦИОННЫХ СИСТЕМ С ПРИМЕНЕНИЕМ ВОЗМОЖНОСТЕЙ ФОЛКСОНОМИЧЕСКОГО ПОДХОДА
С. П. Семенов, С. П. Кононенчо, А. О. Ташчин
В настоящее время отмечается бурное развитие социально-ориентированных систем (Интернет-сервисы, предлагающих совместное использование различных электронных ресурсов (socialresourcesharingsystems), создаваемых для достижения всевозможных целей и используемых различными категориями граждан [ 1].
Отдельной группой в многообразии социальных систем и ресурсов можно выделить системы, использующие инструменты геоинформационных технологий. Подобные разработки, чач правило, решают проблему пространственного ориентирования и служат для получения необходимой информации относительно определенного географического объекта, включая инструменты поиска необходимой информации и подходящего ее представления в геопространственной плоскости.
Разработки в данной области применяют пространственно-ориентированные данные и их модели, используют различные методы накопления, структуризации и хранения информации, задействуют расчётные модели и, как правило, представляют пользователю информацию в виде интерактивной карты. Такие системы решают проблему удовлетворения потребностей в получении информации относительно определенных географических объектов и зон (описание ландшафта, гидрографии, дорожной сети в координатной плоскости, координаты зданий и сооружений и иных объектов и др.), а также используются маломобильным группами населения и людьми с ограниченными возможностями как инструмент пространственного ориентирования.
В данной работе описываются возможности применения фолксономического подхода в создании социально-ориентированных геоинформационных систем, предназначенных для получения информации об объектах социальной инфраструктуры. В исследовании предлагается произвести разработку онтологии предметной области используя возможности анализа формального контекста.
Исследование описывает возможности по построению и применению возможностей семантического графа в проведении анализа данных социально-ориентированного контента. Применительно к геоинформационным социально-ориентированным системам исследование предполагает изучение возможностей выявления наиболее оптимальных пространственно-ориентированных и семантических решений используя инструменты семантической паутины (БешаШ^еЬ) [1].
Для понимания содержательной части исследования приведем описание некоторых терминов и понятий.
В общепринятом смысле онтология - раздел философии, изучающий фундаментальные принципы бытия. В информатике и искусственном интеллекте онтология - это точная спецификация концептуализации [2]. Онтологии используются для формальной спецификации понятий и отношений характеризующих определенную предметную область. Преимуществом онтологий в качестве способа представления знаний является их формальная структура
[3], которая упрощает их компьютерную обработку.
Онтологии зачастую используются в тех случаях, где требуется обработка данных, учитывающая их семантику. Например, для повышения эффективности поиска в сети Интернет
[4]. В последнее время получили широкое распространение различные интеллектуальные системы на основе онтологий.
Для анализа фолксономических данных (данных вида пользователи-теги-ресурсы, то есть, состоящих из трёх множеств и, Т, R - пользователей, ресурсов и тэгов, а также тернар-
ного отношения Y между ними) в системах совместного пользования ресурсами успешно применяются методы кластеризации, бикластеризации и трикластеризации, спектральной графовой кластеризации, анализа формальных понятий (решетки понятий, импликации, ассоциативные правила) и его расширений для случая мультимодальных данных, в том числе и триадический анализ формальных понятий. Стандартные подходы, такие как иерархическая кластеризация или метод к-средних, способны выявить группы схожих объектов предметной области, но при этом не показывают общее признаковое описание объектов, которое повлекло это сходство.
Объектно-признаковая группа, в которой каждый объект обладает всеми признаками, присущими данной группе объектов, называется формальным понятием. Таким образом, формальное понятие состоит из множества объектов (объема понятия), каждый из которых обладает некоторым множеством признаков (содержание понятия), с тем условием что больше никакой объект всеми этими признаками не обладает (аналогично для признаков). Открывается возможность изучения найденных формальные понятий, выискивая сгруппированные вместе интересные группы объектов и признаков, или построить иерархию найденных понятий по вложению их объемов - решетку понятий, что значительно упрощает навигацию.
При использовании анализа формальных понятий (АФП) - алгебраический подход к анализу данных, предназначенный для исследования объектно-признаковых данных) для построения онтологии можно говорить только о построении скелета онтологии - решетки формальных понятий, т. е. выводе множества понятий предметной области и выявлении заданного на этом множестве отношения «общее-частное». Анализ формальных понятий (АФП) (англ. FormalConceptAnalysis, FCA) - ветвь прикладной алгебраической теории решёток. С помощью этого метода могут быть определены объектно-признаковые зависимости путем построения диаграммы решётки формальных понятий. Основная математическая идея анализа формальных понятий - возможность построения полной решётки по любому бинарному отношению, и формализация описания понятия в виде пары <объём, содержание> [5].
Исходные объектно-признаковые данные получили название формального контекста в АФП, а для фолксономий (объекты - пользователи, признаки - тэги) исходные данные содержат одно дополнительное множество, которое в АФП принято называть условиями (для фолксономий - это ресурсы). Существует триадический анализформальных понятий, расширение классической диадической модели, который имеет дело с трипонятиями. Существуют эффективные алгоритмы поиска формальных понятий, на основе которых построены методы поиска трипонятий, однако ввиду большого количества данных, оказываются вычислительно неприемлемыми. Имеются исследовательские решения по сокращению числа понятий, например, на основе отбора по размеру объема или содержания [6].
Каждый пространственно-ориентированный объект, занесенный в ГИС-систему содержит, как минимум, три типа данных: пространственных, описывающих положение объекта в пространстве, семантических, включающих текстовую, числовую, графическую и другую информацию, а также атрибутивные (метаданные). Метаданные - это структурированные, кодированные данные, которые описывают характеристики объектов-носителей информации, способствующие идентификации, обнаружению, оценке и управлению этими объектами [7]. Метаданными наделены любые документы, программы, изображения, музыка, и другие объекты информационного пространства.
Используя данные об объектах можно выделить семантическую составляющую, содержащуюся в высказываниях и передаваемую через значения единиц речи. Имея достаточный объем семантической информации, а также метаданные объектов предметной области появляется возможность организации семантической сети. Семантическая сеть (БетапйсКй'^гк) - это информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы, и др. [8] Создание семантической предполагает создание сети документов, содер-
жащих метаданные об объектах информационного пространства, и существующей параллельно с ними. Ресурсы предназначены для восприятия человеком, а метаданные используются машинами (поисковыми роботами и другими интеллектуальными агентами) для получения однозначной информации о свойствах этих ресурсов с помощью механизмов логического вывода.
Семантическими данными являются не только данные, описывающие характеристики объекта информационного пространства, но и данные, образовавшиеся в результате действий одного или нескольких пользователей ресурса. В случае, если пользователи ресурса имеют возможность взаимодействия и совместного использования различных электронных ресурсов, данный ресурс считается социальным (socialresourcesharingsystems). Примером такого способа компьютерно-опосредованного взаимодействия служат такие ресурсы как MySpace, Facebook, Одноклассники, Вконтакте, медиа сайты Flickr и YouTube, коммерческие сайты eBay, Молоток и др. Нетрудно выделить общие характеристики подобных систем, такие как:
- возможность удаленного размещения/хранения/управления информацией, данными и медиа-контентом;
- возможность межпользовательского обмена информацией и данными;
- возможность публичного размещения материалов и информации;
- возможность просмотра/оценки/комментирования/копирования накопленного другими пользователями контента;
- возможность использования периферийного оборудования для работы с системой и межпользовательского взаимодействия, в том числе коммуникации;
- хранение пользовательской информации, настроек системы, данных регистрации пользователя;
- наличие открытого API (опционально);
- сервис-ориентированный дизайн продукта.
В последнее время в интернет-технологиях зачастую применяют системы фолксономи-ческого упорядочения информации - категоризации информации посредством произвольно выбираемых тегов (тег - именованный раздел элемента, характеризующий и определяющий данные). Лингвистически термин фолксономия (folksonomy) происходит от двух корней: folk (народ) и греческого taxonomy - расположения по порядку и, в итоге, означает «народная классификация». Данный термин используется как омоним таксономии - фасетной классификации. Фолксономия имеет место в неиерархических сообществах, таких как общедоступные web-ресурсы Данный способ представления обладает рядом преимуществ по сравнению с более традиционными типами таксономической (иерархической) и фасетной классификации. Наблюдаемая тенденция является прямым следствием ограничений таксономии (если объект можно привязать только к одному узлу, становится невозможным описать все его необходимые качества) и фасетизации (необходимость существования заранее продуманной и слабо расширяемой системы тегов).
Фолксономия предоставляет пользователю ряд дополнительных преимуществ: возможность использовать наглядные средства навигации сразу по всему пространству тегов, а также актуализирующийся в реальном масштабе времени набор категорий классификатора. Пользователь оказывается избавлен от входного барьера, поскольку для начала работы (классифицирования) не нужно обладать знанием о существующем классификаторе. При этом обратная связь от использования фолксономии мгновенна: при назначении объекту тега, пользователь сразу может получить информацию о том, что еще помечено тем же тегом, сколько людей пометили этот объект и как теги пересекаются. Фолксономия имеет ряд характерных свойств:
- характеристики объекта информационного пространства подбираются аутентично, то есть сообразно аудитории, работающей с информационным ресурсом;
- подход позволяет классифицировать один объект несколькими сразу с нескольких точек зрений, например, объект «камень» может иметь характеристики «красный» и «лежит»;
- характеристики объектов могут добавляться постоянно, что будет увеличивать релевантность объекта классификации;
- подход является произвольной классификацией, создаваемой самими пользователями, что не позволяет выстраивать четкие иерархические классификаторы, с наличием заранее заданных рубрик и систематизированных связей;
- подход основан на спонтанном сотрудничестве группы людей с целью организации контента и полностью отличается от традиционных формальных методов классификации на основе индексных терминов (методов фасетной классификации);
- фолксономия, позволяет выстраивать определенную терминологию для невербальной коммуникации между посетителями сайта, отражающую специфическую область знаний конкретного информационного ресурса: будь то сайт, форум или блог;
- обладание недостатками фолксономического подхода: наличие форм множественного числа, полисемия, синонимия, глубина (специфичность) использования меток, отсутствие взаимосвязей между создаваемыми терминами;
- поскольку организаторы информации обычно являются ее же основными пользователями, фолксономия дает результаты, более точно отражающие совокупную концептуальную модель информации группы.
Фолксономию можно рассматривать в качестве одного из ключевых элементов в развитии семантической веб-сети, в рамках которой веб-страницы содержат машинно-ориентированные метаданные, описывающие содержимое страниц. Эти метаданные должны значительно улучшать точность работы поисковых и других систем. Информационным объектом может быть текст страницы сайта или базы данных, пост блога, изображение, видеофильм, аудиозапись. Примером фолксономической организации контента можно считать «облако тегов»: представленные в произвольном порядке ключевые слова записей или страниц, где размер шрифта ключевого слова тем выше, чем больше раз оно встречается.
Анализ показал, что применение фолксономического подхода, как правило, направлено на достижение определённой цели в части функционала какой-либо системы, при этом основная часть системы использует традиционные методы классификации. Массовому применению метода мешает наличие определенных проблем, возникающих при использовании фолксономического подхода. Использование подхода при реализации ГИС-систем ограничено, и, как правило, определяется строго поставленными задачами.
На практике фолксономический подход не заменяет таксономический подход, а возлагает на себя некий функционал по описанию характеристик объекта. Такое объединение двух подходов позволяет достичь более точного и полного описания свойств объекта, а также строго определить категорию объекта. Таким образом, объединив два подхода, можно используя таксономический подход задать категорию объекта и его постоянные характеристики, а с помощью фолксономического подхода описывать точные свойства объекта.
Для решения проблемы отсутствия взаимосвязанности данных в фолксономической классификации, необходимо ввести некую систему взаимосвязей ключевых характеристик с другими ключевыми характеристиками объектов информационного пространства. Любая характеристика может иметь любое количество связей любого типа с другими характеристиками. Такая система взаимосвязей называется нейронной сетью - сеть, состоящей из искусственных нейронов (программируемая конструкция, имитирующая свойства биологических нейронов). Нейронные сети имеют возможность обучаться, в чем и заключается одно из главных их преимуществ перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. [8] Исходя их этого было принято ввести такой параметр, как мощность, фактически определяющую, насколько релевантной с точки зрения человеческой логики является связь между объектами информационного пространства. Подобный тип организации информации называют семантической сетью с весовыми (нечеткими) связями. Такие системы часто используются в экспертных системах как база знаний.
Для обеспечения функционирования системы с использованием технологий нейронных сетей необходимо произвести «обучение системы», то есть определение коэффициентов связей между нейронами. Интересной особенностью нейронных сети является самоорганизация: при довольно большой базе данных характеристик появляется все больше и больше возможностей установить взаимосвязи без участия пользователя. Во избежание трудностей, вызванных многообразием и несогласованностью пользовательской информации принято использовать набор определённых характеристик для метаданных объектов информационного пространства.
Разрабатываемая система должна обеспечивать внесение информации о точечных объектах. Как правило, такими объектами являются небольшие сооружения или иные объекты социальной инфраструктуры. Примерами могут служить такие объекты как памятники, светофоры, остановки транспорта, и др. Помимо информации о пространственном расположении объекта система должна обеспечивать возможность внесения, хранения и изменения информации о характеристиках объекта, о его степени взаимосвязанности с другими объектами. Помимо внесения точечных объектов пользователи должны иметь возможность внести данные об определенной области в пространстве. Такие области, как правило, характеризуют местность по какому-либо признаку и могут изменяться в соответствии с территориальными изменениями. Наложение областей на определённые границы в пространстве может дать возможность охарактеризовать территорию по описанным пользователями свойствам. Если внесенные пользователями области накладываются и охватывают одну и ту же территорию, то свойства данной территории уточняются за счет сведений от нескольких объектов информационного пространства.
Возможность внесения линейных объектов в системы может служить для обмена опытом перемещения между пользователями, а также для выявления наиболее оптимальных маршрутов. Руководствуясь пространственной и семантической информации о маршрутах перемещения пользователей системы система путем математических вычисление могла бы выявить наиболее оптимальных маршрут исходя не только из географических характеристик местности, но и используя оценку данного маршрута живыми людьми и характеризующую его с точки зрения удобства перемещения.
Одной из интересных возможностей применения метода свободных ассоциаций в геоинформационном моделировании с точки зрения информативности является возможность наложения тегов на картографическую основу. Размер шрифта тега определят степень популярности описываемого им объекта информационного пространства. При картографировании территории размер шрифта зачастую характеризует размер города или поселения, что же определяет степень значимости географического объекта. Фолксономический подход может выявить наиболее популярные географические объекты с точки зрения общественного мнения.
Разработки в данной области могут служить для удовлетворения потребностей в получении формализованных пространственно-ориентированных данных. Ознакомиться с действующим ресурсом можно по адресу в интернете: www.geowheel.ru.
ЛИТЕРАТУРА
1. Foundations for the Web of Information and Services: A Review of 20 Years of Semantic Web Research. Editor Dieter Fensel - Springer Science & Business Media, 2011 - 341 c.
2. Gruber Thomas R. Towards Principles for the Design of Ontologies Used for Knowledge Sharing // International Journal of Human-Computer Studies. - 1992. - C. 907-928.
3. Клещев А. С. Математические модели онтологий предметных областей. Часть 1. Существующие подходы к определению понятия «онтология» / А. С. Клещев, И. Л Артемьева // Научно-техническая информация, серия 2 «Информационные процессы и системы». - 2001. - № 2. - С. 20-27.
4. Загорулько Ю. А. Применение онтологий для поиска информации в Интернет / Ю. А. Загорулько, О. И. Россеева, Л. И. Гладкова // Труды III-й международной кон-
ференции «Проблемы управления и моделирования в сложных системах» - Самара: Самарский Научный Центр РАН, 2001. - С. 503-508..]
5. Ganter Bernhard. Formal Concept Analysis: Mathematical Foundations / Bernhard Ganter, Rudolf Wille. - Springer-Verlag New York, 1997
6. Bell, Mary Ann, Playing Tag Is Good for You, MultiMedia&Internet@Schools; Sep/0ct2009, Vol. 16 Issue 5, p40-42, 3p.
7. M. Guy and E. Tonkin, Folksonomies: Tidying up tags? D-Lib Magazine 12(1) (2006). Web: http://www.dlib.org/dlib/j anuary06/guy/01 guy.html.
8. Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы, Горячая линия - Телеком, 2006, 385 с.
9. Семенов С. П., Ташкин А. О. Методика разработки геоинформационной системы для маломобильных граждан - Современные проблемы науки и образования № 1, 2014 - 8 с.
10. Методика разработки геоинформационной системы для маломобильных граждан. Современные проблемы науки и образования. - 2014. - № 1; URL: http://www.science-education.ru/115-12206, Семенов С. П., Ташкин А. О.
11. Применение фолксономического подхода в разработке социально-ориентированных геоинформационных систем. Вестник ЮГУ. - 2014 г. Выпуск 2 (33). С. 94-99 / Семенов С. П., Ташкин А. О.