УДК 528.926:004
ИСПОЛЬЗОВАНИЕ ОТКРЫТЫХ СЕМАНТИЧЕСКИХ БАЗ ДАННЫХ ДЛЯ ПОЛУЧЕНИЯ ПРОСТРАНСТВЕННОЙ ИНФОРМАЦИИ
Алексей Александрович Колесников
Сибирский государственный университет геосистем и технологий, 630108, Россия, г. Новосибирск, ул. Плахотного, 10, кандидат технических наук, старший преподаватель кафедры картографии и геоинформатики, тел. (913)725-09-28, e-mail: [email protected]
Павел Михайлович Кикин
Сибирский государственный университет геосистем и технологий, 630108, Россия, г. Новосибирск, ул. Плахотного, 10, кандидат технических наук, старший преподаватель кафедры прикладной информатики и информационных систем, тел. (913)774-09-34, e-mail: [email protected]
Елена Владимировна Комиссарова
Сибирский государственный университет геосистем и технологий, 630108, Россия, г. Новосибирск, ул. Плахотного, 10, кандидат технических наук, доцент кафедры картографии и геоинформатики, тел. (913)710-85-60, e-mail: [email protected]
Одним из современных способов представления и использования открытых данных в сети интернет стали семантическая паутина. В статье описаны достоинства данной технологии, рассмотрены понятие linked data, свойства и признаки. Рассмотрены международные базы знаний, использующие linked data. Приведено описание RDF, как основного формата хранения и извлечения данных из семантических сетей. Описана основная структура описания ресурсов - триплета «субъект - предикат - объект» и онтологии для построения логических интерпретаций и запросов. Дано описание структуры SPARQL запроса. Рассмотрены словари basic geo vocabulary и geospatial vocabulary в системе linked data позволяющие оперировать пространственными данными и использующиеся в геогрфических базах данных Geonames и LinkedGeoData.
Ключевые слова: семантическая сеть, linked data, картография, SPARQL, data mining, пространственный анализ, базы пространственных данных.
USE OF OPEN SEMANTIC DATABASES FOR OBTAINING SPATIAL INFORMATION
Alexey A. Kolesnikov
Siberian State University of Geosystems and Technologies, 630108, Russia, Novosibirsk, 10 Plakhotnogo St., Ph. D., Senior lecturer, Department of Cartography and Geoinformatics, tel. (913)725-09-28, e-mail: [email protected]
Pavel M. Kikin
Siberian State University of Geosystems and Technologies, 630108, Russia, Novosibirsk, 10 Plakhotnogo St., Ph. D., Senior lecturer, Department of Cartography and Geoinformatics, tel. (913)725-09-28, e-mail: [email protected]
Elena V. Komissarova
Siberian State University of Geosystems and Technologies, 630108, Russia, Novosibirsk, 10 Plakhotnogo St., Ph. D., Assoc. Prof., Department of Cartography and Geoinformatics, tel. (913)710-85-60, e-mail: [email protected]
One of the modern ways of representing and using open data on the Internet has become a semantic web. The article describes the advantages of this technology, the concept of linked data, properties and attributes is considered. International knowledge bases using linked data are considered. RDF is described as the main format for storing and retrieving data from semantic networks. The basic structure of the description of resources - the triplet "subject-predicate-object" and ontologies for constructing logical interpretations and queries is described. A description of the SPARQL query structure is given. The basic geo vocabulary and geospatial vocabulary dictionaries are considered in the system of linked data allowing to operate with spatial data and are used in geografic databases Geonames and LinkedGeoData.
Key words: semantic network, linked data, cartography, SPARQL, data mining, spatial analysis, spatial databases.
Одним из современных способов представления и использования открытых данных является Linked Data, представляющая собой коллекции взаимосвязанных наборов данных и инструменты для запросов к ним. Linked Data строится по принципам семантической паутины, представляющей собой надстройку над существующей Всемирной паутиной, созданной для того, чтобы сделать размещаемую в Интернете информацию пригодной для машинной обработки. Концепция семантической паутины была принята и продвигается W3C. Она создана для того, чтобы сделать информацию пригодной для автоматического анализа, синтеза выводов и преобразования как самих данных, так и сделанных на их основе заключений в различных видах, используемых на практике. Для этого внутренняя структура семантической паутины состоит из машинно-читаемых элементов — узлов семантической сети, с опорой на систему классов объектов и их связей, называемую онтологией[1,2].
Представление данных базируется на стандартах Веб, таких как HTTP, RDF и URIs и позволяют распространять информацию в машиночитаемом виде. Это делает возможным работу с данными одновременно из разных источников (в том числе возможность строить сложные реляционные запросы).
Основными источниками Linked Open Data являются международные базы знаний, включающие русскоязычный контент: DBpedia, Freebase и Wikidata. В первую очередь это справочные, лингвистические и энциклопедические данные. Также современные поисковые системы учитывают при сборе данных наличие тегов, использующих один из форматов микроразметки[3,4].
В качестве формата, предназначенного для хранения и извлечения данных, W3C предлагает использовать язык RDF. Язык RDF описывает структуру семантической сети в виде графа. Каждому узлу и каждой дуге графа можно назначить отдельный URI. Утверждения, записанные на языке RDF, можно интерпретировать с помощью онтологий. Для создания онтологий рекомендуют использовать языки RDF Schema (англ.) и OWL. Онтологии создаются для получения из данных логических заключений[1,5,6].
Resource Description Framework (RDF, «среда описания ресурса») - это модель для представления структуры, способов обработки и интерпретации данных в семантических сетях. RDF описание представляет описание ресурсов в
виде триплета «субъект - предикат - объект», пригодном для машинной обработки. Множество RDF-утверждений образует ориентированный граф, в котором вершинами являются субъекты и объекты, а рёбра отображают отношения. Субъектами и объектами могут быть любые существующие и абстрактные сущности и понятия.
Для обработки RDF-данных используется язык запросов SPARQL. Структура типового SPARQL запроса представляет собой следующее:
PREFIX db: <http://example.com/nesounces/>
# префиксные объявления FROM ...
# источники запроса SELECT ...
# состав результата WHERE {...}
# шаблон запроса ORDER BY ...
# модификаторы запроса
По структуре запрос похож на стандартный SQL, основное отличие заключается в источниках запроса и префиксах, которые описывают семантические базы данных и онтологии, использующиеся для формирования связей между элементами запроса.
Международные сообщества в областях геоинформатики и картографии выработали и активно использует стандарты, описывающее моделирование и публикацию пространственных данных (стандарты OGC, ISO TC 211, INSPIRE), что позволяет снять большую часть вопросов, связанных с физической и логической связностью данных из различных источников. То что касается семантической связности описывается в концепции Инфраструктуры Пространственных Данных (ИПД). Также были разработаны стандарты этой концепции для построения распределенных систем на основе геоинформационных сервисов. Но проблема в том, что большинство систем. Реализующих принципы ИПД до сих пор не связаны друг с другом, а также с внешними источниками не геопространственных данных[7,8].
Одним из стандартов для описания пространственных данных в формате Linked Data является словарь Basic Geo Vocabulary (https://www.w3.org/2003/01/geo/). Он не решает большинство проблем, связанных данных в ГИС, а только описывает RDF термины, используемые для хранения значений широты и долготы объектов. Примером использования данного словаря может служить запрос:
PREFIX dbo: <http://dbpedia.ong/ontology/>
PREFIX dbp: <http://dbpedia.org2/property/>
PREFIX geo: <http://www.w3.org/2003/01/geo/wgs84_pos#>
PREFIX foaf: <http://xmlns.com/foaf/0.1/>
SELECT * {
?r a dbo:SocietalEvent . OPTIONAL{ ?r dbo:commander ?commander } OPTIONAL{ ?r dbo:result ?result } OPTIONAl{ ?r dbp:strength ?strength } OPTIONAl{ ?r geo:long ?longitute} OPTIONAl{ ?r geo:lat ?latitude}
FILTER regex(?r, "Battle_of_Kulikovo")
} LIMIT 100
На смену Basic Geo Vocabulary предлагается W3C Geospatial Vocabulary, определяющий базовую онтологию и словарь OWL для структуризации и извлечения пространственных данных.
По статистике на текущий момент данные наук о земле составляют около 10% всех источников данных пространства Linked Open Data, использующих термины из словарей Basic Geo Vocabulary и GeoNames. Основным недостатком является то, что большинство опубликованных в пространстве Linked Open Data пространственных данных далеко не всегда соответствуют выработанными стандартами ИПД [9-14].
Наиболее распространенной и часто используемой географической базой данных, включенную в семантическую сеть и выдающей данные по стандарту RDF является GeoNames. Эта база содержит более 10 миллионов географических названий и состоит из более чем 9 миллионов уникальных объектов, из которых 2,8 миллиона населенных пунктов и 5,5 миллионов альтернативных имен. Все объекты классифицируются в один из девяти классов объектов и далее подразделяются на один из 645 закодированных подклассов. Пользователи могут вручную редактировать, править и добавлять новые названия, используя пользовательский вики-интерфейс [15-19].
Альтернативой GeoNames может служить проект LinkedGeoData, использующий информацию из базы OpenStreetMap и интегрирующий эту информацию в инфраструктуру Семантической Паутины. Он состоит из более чем 3 миллиардов узлов и 300 миллионов связей, и, в результате, данные RDF составляют приблизительно 20 миллиардов троек.
Для написания и выполнения запросов можно выделить три типа программного обеспечения - онлайн редакторы на сайтах (например, Flint британской национальной библиотеки http://bnb.data.bl.uk/flint-sparql), библиотеки для различных языков программирования и СУБД (python-sparqlwrapper, Apache Jena) и модули для ГИС (GeoSPARQL, sparqlForQGIS, LinkedGeoData).
Таким образом, хранение и публикация пространственных данных в пространстве Linked Open Data является одним из актуальных способов решения проблемы размещения и использования открытых пространственных данных.
библиографический список
1. Замула Д. А., Муромцев Д. И. Автоматизированное проектирование мобильных приложений на основе онтологий и семантических данных // Приборостроение. - 2015. -№ 11. - С. 939-944.
2. Stevenson G., Dobson S. Sapphire: Generating Java runtime artefacts from OWL ontologies // Conf. Proc.: Advanced Information Systems Engineering Workshops — CAiSE Intern. Workshops. 2011. P. 425—436.
3. Вехорев М. Н. Построение хранилищ онтологических баз знаний // Всероссийская конференция «Управление знаниями и технологиями Semantic-Web», 2010. - С. 165-170.
4. Муромцев Д. И., Леманн Й., Семерханов И. А., Навроцкий М. А., Ермилов И. С. Исследование актуальных способов публикации открытых научных данных в сети // Научно-технический вестник информационных технологий, механики и оптики. - 2015. - № 6. -С.1081-1087.
5. Keßler C., D'Aquin M., Dietze S. Linked data for science and education // Semantic Web.
2013. V. 4. N 1. P. 1-2. doi: 10.3233/SW-120091
6. Leinberger M., Scheglmann S., Lammel R., Staab S., Thimm M., Viegas E. Semantic web application development with LITEQ // Lecture Notes in Computer Science. 2014. V. 8797. P. 212-227.
7. Saleem M., Khan Y., Hasnain A., Ermilov I., Ngonga Ngomo A.-C. A fine-grained evaluation of SPARQL endpoint federation systems // Semantic Web Journal. 2015. V. 6. N 6. doi: 10.3233/SW-150186
8. Хоай Ле, Тузовский Анатолий Федорович Разработка семантических электронных библиотек // Доклады ТУСУР. 2011. № 2-2 (24) С. 195-199.
9. Linckels Serge. E-Librarian Service: User-Friendly Semantic Search in Digital Libraries / Serge Linckels, Christoph Meinel. - Springer, 2011. - P. 118-119.
10. Современные методы создания мультипредметных веб-ресурсов на базе визуализации и обработки формализованной семантики / В. В. Диковицкий, П. А. Ломов, Р. Р. Сепеда-эррера, М. Г. Шишаев // Вестник Кольского научного центра РАН. - 2011. - № 3. - С. 63-73.
11. Лисицкий Д. В. Перспективы развития картографии: от системы «Цифровая Земля» к системе виртуальной реальности // Вестник СГГА. - 2013. - Вып. 2 (22). - С. 8-16.
12. Мультимедийное направление в картографии / Д. В Лисицкий, А. А. Колесников, Е. В. Комиссарова, П. Ю. Бугаков, В. С. Писарев // Изв. вузов. Геодезия и аэрофотосъемка. -
2014. - № 3 - С. 40-44.
13. Лисицкий Д. В., Хорошилов В. С., Колесников А. А. Анимационная картография -сущность, характеристики и перспективы // Изв. вузов. Геодезия и аэрофотосъемка. - 2014. -№ 4/С. - С. 91-97.
14. Женибекова А. Б. К вопросу формализации картографических изображений // Вестник СГГА. - 2014. - Вып. 4 (28). - С. 124-128.
15. Карпик А. П., Лисицкий Д. В. Электронное геопространство - сущность и концептуальные основы // Геодезия и картография. - 2009. - № 5. - С. 41-44.
16. Лисицкий Д. В., Кацко С. Ю. Изменение роли картографических изображений в процессе формирования единого электронного геопространства // Изв. вузов. Геодезия и аэрофотосъемка. - 2012. - № 2 (доп.). - С. 156-161.
17. Лисицкий Д. В., Кацко С. Ю. Концепция создания и функционирования геоинформационного пространства // Интерэкспо ГЕ0-Сибирь-2013. IX Междунар. науч. конгр. : Пленарное заседание : сб. материалов в 2 т. (Новосибирск, 15-26 апреля 2013 г.). -Новосибирск : СГГА, 2013. Т. 2. - С. 72-75.
18. Лисицкий Д. В. , Кацко С. Ю. Технологическая платформа «Единое геоинформационное пространство» - основа социально-экономического развития территорий // Изв. вузов. Геодезия и аэрофотосъемка. - 2015. - № 5/С. - С. 250-256.
19. Колесников А. А., Комиссарова Е. В., Шарыпова М. Н. К вопросу о способе хранения пространственных объектов для анимационных карт // Интерэкспо ГЕО-Сибирь-
2015. XI Междунар. науч. конгр. : Междунар. науч. конф. «Геодезия, геоинформатика, картография, маркшейдерия» : сб. материалов в 2 т. (Новосибирск, 13-25 апреля 2015 г.). -Новосибирск : СГУГиТ, 2015. Т. 2. - С. 29 -32.
© А. А. Колесников, П. М. Кикин, Е. В. Комиссарова, 2017