ВЕСТНИК ЮГОРСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2014 г. Выпуск 2 (33). С. 94-99
УДК 519.87
ПРИМЕНЕНИЕ ФОЛКСОНОМИЧЕСКОГО ПОДХОДА В РАЗРАБОТКЕ СОЦИАЛЬНО-ОРИЕНТИРОВАННЫХ ГЕОИНФОРМАЦИОННЫХ СИСТЕМ
C. П. Семенов, А. О. Ташкин Введение
Решение картографических задач с помощью информационных технологий, проведение анализа и прогнозирования развития тех или иных географических процессов невозможно без применения пространственно-ориентированных данных и моделей, таких как: описание ландшафта, гидрографии, дорожной сети в координатной плоскости, координаты зданий, сооружений и иных объектов, модели объектов и др. Научные разработки в данной области применяют различные методы накопления, структуризации и хранения информации, а итогом географического исследования является карта, представляющая результаты в наглядной и доступной форме.
Постановка задачи
В данной работе описываются возможности применения фолксономического подхода в создании геоинформационных систем, предназначенных для получения информации об объектах социальной инфраструктуры, обмена опытом перемещения, выявления наиболее оптимальных маршрутов и популярных территорий, а так же выполнения различных расчетных операций в среде пространственно-ориентированных данных.
Каждый пространственно-ориентированный объект, занесенный в ГИС-систему, содержит, как минимум, два типа данных: пространственные, описывающие положение объекта в пространстве и семантические, включающие текстовую, числовую, графическую и другую информацию. Информация об объектах, заносимая в систему распределяется по полям базы данных, определяющие характеристики объекта. Более точно, такие поля называются метаданными, это структурированные, кодированные данные, которые описывают характеристики объектов-носителей информации, способствующие идентификации, обнаружению, оценке и управлению этими объектами [1]. Метаданными наделены любые документы, программы, изображения, музыка, и другие объекты информационного пространства.
Информация об объектах и метаданные может содержать семантическую информацию, то есть информацию, содержащуюся в высказывании и передаваемую через значения единиц речи, что позволяет организовать семантическую сеть. Семантическая сеть - это информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы, и др.[2]. Концепция семантической веб-сети предполагает создание сети документов, содержащих метаданные об объектах информационного пространства, и существующей параллельно с ними. Ресурсы предназначены для восприятия человеком, а метаданные используются машинами (поисковыми роботами и другими интеллектуальными агентами) для получения однозначной информации о свойствах этих ресурсов с помощью механизмов логического вывода.
Семантическими данными являются не только данные, описывающие характеристики объекта информационного пространства, но и данные, образовавшиеся в результате действий одного или нескольких пользователей ресурса. В случае если пользователи ресурса имеют возможность взаимодействия, данный ресурс считается социальным. Примером такого способа компьютерно-опосредованного взаимодействия служат такие ресурсы как MySpace, Facebook, Одноклассники, Вконтакте, медиа сайты Flickr и YouTube, коммерческие сайты eBay, Молоток и др. Многие из этих ресурсов имеют такие общие характеристики как:
94
C. П. Семенов, А. О. Ташкин. Применение фолксономического подхода в разработке...
открытые API, сервис-ориентированный дизайн, возможность удаленного размещения данных и медиа-файлов.
Подобные разработки вводят термин фолксономии. Термин «фолксономия» [3] ввел в употребление Томас Вандер Вал (Thomas Vander Wal) в 2004 году. Лингвистически термин фолксономия (folksonomy) происходит от двух корней: folk (народ) и греческого taxonomy -расположения по порядку и, в итоге, означает «народная классификация». Фолксономия имеет ряд характерных свойств.
• С помощью фолксономии более точно отражается совокупная концептуальная модель информации группы, т. к. организаторы информации обычно являются ее же основными пользователями.
• Фолксономия позволяет выстраивать определенную терминологию для невербальной коммуникации пользователей, отражающую специфическую область знаний конкретного информационного ресурса: будь то сайт, форум или блог.
• Фолксономия имеет место в неиерархических сообществах, таких как общедоступные web-ресурсы.
• Характеристики объекта информационного пространства подбираются аутентично, то есть сообразно аудитории, работающей с информационным ресурсом.
• Подход позволяет классифицировать один объект несколькими характеристиками.
• Характеристики объектов могут динамически изменяться и добавляться, что увеличивает релевантность объекта классификации.
• Подход не позволяет выстраивать четкие иерархические классификаторы, с наличием заранее заданных рубрик и систематизированных связей, а является произвольной классификацией создаваемой самими пользователями.
• Подход основан на спонтанном сотрудничестве группы людей с целью организации контента и полностью отличается от традиционных формальных методов классификации на основе индексных терминов (методов фасетной классификации).
• Основными проблемами фолксономии являются: наличие форм множественного числа, полисемия, синонимия, глубина (специфичность) использования меток, отсутствие взаимосвязей между создаваемыми терминами.
Несмотря на преимущества фолксономии, существует проблема недостаточной точности предоставления информации пользователям) [4]. На современных ресурсах, позволяющих использовать «народную классификацию», в тегах можно заметить разные формы слова, существительные в единственном и множественном числе, аббревиатуры, слова с опечатками. Сложность в представлении информации на разных языках, отсутствие контроля на синонимы и омонимы. Потребители информации находятся в разных контекстах, у каждого свой уровень интерпретации, поэтому отсутствует стандартный уровень индексации. Большинство семантической информации определяет содержимое документа, но некоторые могут определять формальные стороны документа, например, чем документ является по сути или с помощью чего или кем он был создан. Информация может быть подана с личностной оценкой.
Помимо возможных лексических неточностей фолксономического подхода существует проблема отсутствия взаимосвязанности данных, их классификации. Данные вносятся в хаотичном порядке, от различных категорий пользователей и не могут быть правильно структурированы и иметь какие-либо логические связи и ассоциации. Каждая поступившая запись индивидуальна, содержит свои уникальные характеристики и свойства о каком-либо объекте информационного пространства. С помощью таксономического подхода объект классификаторе можно привязать только к одной характеристике, что делает невозможным при помощи такой структуры описать все необходимые качества этого объекта. Фолксономический подход лишен этого недостатка, однако отсутствует всяческая структура, т. е. нет элементарных отношений (род-вид) между узлами [5]. Таким образом, нельзя выявить объекты, носящие более общий или более частный характер. Отсутствие связей, классифицирующих объекты,
95
Фундаментальные основы инженерных наук
указывающих их схожие свойства, родительскую связь и иные характеристики делает невозможным осуществить их полноценный анализ и выявить необходимые решения.
Фолксономию можно рассматривать в качестве одного из ключевых элементов в развитии Семантической веб-сети, в рамках которой все веб-страницы содержат машинноориентированные метаданные, описывающие содержимое страниц. Эти метаданные должны значительно улучшать точность работы поисковых и других систем. Информационным объектом может быть текст страницы сайта или базы данных, пост блога, изображение, видеофильм, аудиозапись. Примером фолксономической организации контента можно считать «облако тегов»: представленные в произвольном порядке ключевые слова записей или страниц, где размер шрифта ключевого слова тем выше, чем больше раз оно встречается. Примерами использования в веб-индустрии фолксономии являются ряд известных веб-ресурсы. В таблице представлен список ресурсов с описанием элементов фолксономизации.
Таблица 1. Ресурсы, использующие фолксономический подход
№ Наименование Описание элемента фолксономизации
1 Google Разработки компании Google содержат элементы фолксономизации в качестве основного инструмента сортировки информации в поисковой системе: поисковая машина выявляет ресурсы в сети по популярности использования пользователями и наиболее лингвистически соответствующе запросу. Так же следует отметить использование народного подхода организации Google-карт, блогов и фотоснимков, где используется народный подход при классификации и оценке.
2 Яндекс Очень популярным ресурсом, использующем фолксономический подход является «Народная карта Яндекс», создаваемая силами пользователей. В области картографирования проект «Яндекс-пробки» является лидером народного мнения в России относительно плотности автомобильного потока. Так же компания Яндекс в своих проектах использует рейтинг пользовательской оценки в качестве основного инструмента сортировки, применяемого в таких проектах, как: Яндекс-фото, Яндекс-Маркет, и др.
3 [email protected] Одним из ярких примеров применения фолксономического подхода в организации системы, является проект, под называнием «Ответы[email protected]». Данный ресурс содержит вопросы, задаваемые пользователями по разнообразным тематикам и ответы на данные вопросы различными пользователями. Лучший из ответов на поставленный вопрос определяется так же пользователями системы.
4 WIKIPEDIA Википедия - это пример комбинирования таксономического и фолксономического подходов. Создаются каталоги, что характеризуют систему, как таксономическую, а так же статьи пользователей и система оценки статей и отдельных их частей, что определяет систему как содержащую элементы народного мнения.
5 Youtube, Flikr Ресурсы Youtube, Flikr содержат медиаданные различных пользователей и имеют интегрированную систему рейтинга медиаданных и пользователей, что делает данную систему фолксономичной с точки зрения организации.
6 LastFM Система, хранящая музыкальные медиафайлы пользователей содержит метаданные аудиоресурсов, по которым происходит классификация по жанрам.
Анализ показал, что применение фолксономического подхода, как правило, направлено на достижение определённой цели в части функционала какой либо системы, при этом основная часть системы использует традиционные методы классификации. Массовому применению метода мешает наличие определенных проблем, возникающих при использовании фолксономического подхода. Использование подхода при реализации ГИС-систем ограничено, и, как правило, определяется строго поставленными задачами.
В данной работе представлена попытка использования фолксономического подхода в организации классификации данных геоинформационной системы, разрабатываемой для выяв-
96
C. П. Семенов, А. О. Ташкин. Применение фолксономического подхода в разработке...
ления наиболее оптимальных пространственно-ориентированных и семантических решений. Предлагается объединить таксономический и фолксономический подходы, а именно: помимо строго определенных иерархических категорий и свойств объекта использовать характеристики и свойства, созданные пользователями системы. На практике объединение двух подходов с помощью таксономического подхода позволяет строго определить категорию объекта, а так же точно подобрать и описать свойства, которыми обладает этот объект с помощью фолксономического подхода.
Для решения проблемы отсутствия взаимосвязанности данных в фолксономической классификации, необходимо ввести некую систему взаимосвязей ключевых характеристик с другими ключевыми характеристиками объектов информационного пространства. Любая характеристика может иметь любое количество связей любого типа с другими характеристиками. Такая система взаимосвязей называется нейронной сетью - сеть, состоящей из искусственных нейронов (программируемая конструкция, имитирующая свойства биологических нейронов). Нейронные сети имеют возможность обучаться, в чем и заключается одно из главных их преимуществ перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами [6]. Исходя из этого, было принято ввести такой параметр, как мощность, фактически определяющую, насколько релевантной с точки зрения человеческой логики является связь между объектами информационного пространства. Подобный тип организации информации называют семантической сетью с весовыми (нечеткими) связями. Такие системы часто используются в экспертных системах как база знаний.
Для обеспечения функционирования системы с использованием технологий нейронных сетей необходимо произвести «обучение системы», то есть определение коэффициентов связей между нейронами. Интересной особенностью нейронных сети является самоорганизация: при довольно большой базе данных характеристик появляется все больше и больше возможностей установить взаимосвязи без участия пользователя. Во избежание трудностей, вызванных многообразием и несогласованностью пользовательской информации принято использовать набор определённых характеристик для метаданных объектов информационного пространства. Одним из возможных вариантов структуризации пользовательской информации является введение стандарта метаданных «Дублинское ядро (DublinCore)» [7].
В проектировании системы важно уделить внимание созданию ее архитектуры, а так же и разработке отдельных блоков и элементов. Структура ГИС должна обаятельно содержать следующие основные блоки:
- блок базы данных, состоящий из структурированных массивов цифровой картографической (пространственной) и предметно-ориентированной (семантической) информации;
- блок математических моделей;
- пользовательский интерфейс - средство эффективного управления всеми блоками ГИС.
Рисунок 1. Элементы ГИС-системы
Картографические объекты могут быть представлены в базе данных контуром, линией или точкой. Каждый объект имеют ссылку на запись в таблице, содержащей параметры, необходимые для расчета возможных данных о маршрутах, подбора наиболее оптимального
97
Фундаментальные основы инженерных наук
варианта по определенным параметрам. Объекты всех уровней связаны единым координатным пространством и единой системой мер [8].
Разрабатываемая система должна обеспечивать внесение информации о точечных объектах. Как правило, такими объектами являются небольшие сооружения или иные объекты социальной инфраструктуры. Примерами могут служить такие объекты как памятники, светофоры, остановки транспорта, и др. Помимо информации о пространственном расположении объекта система должна обеспечивать возможность внесения, хранения и изменения информации о характеристиках объекта, о его степени взаимосвязанности с другими объектами. Помимо внесения точечных объектов пользователи должны иметь возможность внести данные об определенной области в пространстве. Такие области, как правило, характеризуют местность по какому-либо признаку и могут изменяться в соответствии с территориальными изменениями. Наложение областей на определённые границы в пространстве может дать возможность охарактеризовать территорию по описанным пользователями свойствам. Если внесенные пользователями области накладываются и охватывают одну и ту же территорию, то свойства данной территории уточняются за счет сведений от нескольких объектов информационного пространства.
Возможность внесения линейных объектов в системы может служить для обмена опытом перемещения между пользователями, а так же для выявления наиболее оптимальных маршрутов. Руководствуясь пространственной и семантической информации о маршрутах перемещения пользователей системы система путем математических вычисление могла бы выявить наиболее оптимальных маршрут, исходя не только из географических характеристик местности, но и используя оценку данного маршрута живыми людьми и характеризующую его с точки зрения удобства перемещения.
Одной из интересных возможностей применения метода свободных ассоциаций в геоинформационном моделировании с точки зрения информативности является возможность наложения тегов на картографическую основу. Размер шрифта тега определят степень популярности описываемого им объекта информационного пространства. При картографировании территории размер шрифта зачастую характеризует размер города или поселения, что же определяет степень значимости географического объекта. Фолксономический подход может выявить наиболее популярные географические объекты с точки зрения общественного мнения.
Рисунок 2. Точечные и площадные объекты, представленные на картографической основе
98
C. П. Семенов, А. О. Ташкин. Применение фолксономического подхода в разработке...
Рисунок 3. Линейные и текстовые объекты, представленные на картографической основе
Заключение
В заключение хочется отметить, что данная разработка может служить для удовлетворения потребностей в получении формализованных пространственно-ориентированных данных. Может быть использована в качестве инструмента геопространственного ориентирования, как информационно-справочная система с возможностью межпользовательского обмена, а так же инструментом выявления оптимальных зон, точек и маршрутов на местности по заданным критериям. В будущем планируется изучение возможности по прогнозированию территориального распределения с помощью обработки космической информации. Описываемая система может служить не только в качестве информационного ресурса для населения, но использоваться органами муниципального управления для принятия решений относительно географических объектов.
Литература
1. Грушков, А. С. Хранилище данных [Текст] / А. С. Грушков, Е. В. Костюков. - СПб., 2007. - 864 с.
2. Roussopoulos, N. D. A semantic network model of databases. - TR No 104, Department of Computer Science, University of Toronto, 1976.
3. Bell, Mary Ann, Playing Tag Is Good for You, MultiMedia&Internet@Schools; Sep/Oct 2009, Vol. 16 Issue 5, p. 40-42, 3 p.
4. M. Guy and E. Tonkin, Folksonomies: Tidying up tags? D-LibMagazine 12(1) (2006). -http://www. dlib. org/dlib/j anuary06/guy/01guy.html
5. Рутковская, Д. Нейронные сети, генетические алгоритмы и нечеткие системы [Текст] / Д. Рутковская, М. Пилиньский, Л. Рутковский // Горячая линия - Телеком. - 2006. - 385 с.
6. Еремин, Д. М. Искусственные нейронные сети в интеллектуальных системах управления [Текст] / Д. М. Еремин, И. Б. Гарцеев. - М. : МИРЭА, 2004. - 75 с.
7. Understanding Metadata, NISO Press. - 2004. - 20 р.
8. Семенов, С. П. Методика разработки геоинформационной системы для маломобильных граждан [Текст] / С. П. Семенов, А. О. Ташкин // Современные проблемы науки и образования. - 2014. - № 1. - С. 20-29.
99