КАРТОГРАФИЯ И ГЕОИНФОРМАТИКА
УДК 528. 9
1 1 Е.А. Прохорова1, В.Н. Семин2
КАРТОГРАФИЧЕСКИЕ БАЗЫ ДАННЫХ ДЛЯ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ КАРТ
В статье рассмотрены вопросы, связанные с построением картографических баз данных для составления карт социально-экономической тематики. Проанализирован накопленный опыт создания подобных баз данных, рассмотрены информационные ресурсы для социально-экономического картографирования, сформулированы требования, которые предъявляются к способу представления и классификации данных, к разработке классификаторов и методам хранения и обработки данных.
Ключевые слова: картографические базы данных, социально-экономическое картографирование, классификация данных, метаданные.
Введение. Одно из необходимых условий успешного экономического и социального развития любого региона на современном этапе — наличие информационных ресурсов в этом регионе и развитых средств доступа к ним для потребителей информации.
Продвигаясь в развитии методов составления карт от простейших картографических рисунков до создания цифровых, компьютерных и электронных карт, технологий конструирования их в компьютерных сетях, необходимо прежде всего создать способы и возможности хранения и обработки пространственной информации. Естественно, что и требования, предъявляемые к цифровым картам, должны быть иными, поскольку обработка данных рассчитана не только и не столько на зрительный анализ, сколько на компьютерные возможности и воспроизводство бумажного оригинала.
Цифровая карта создается с полным соблюдением нормативов и правил картографирования, точности карт, генерализации, системы условных обозначений. Она служит основой для изготовления традиционных бумажных карт, компьютерных и электронных карт. Цифровая карта — основной элемент картографической базы данных, а также один из важнейших элементов информационного обеспечения географических справочных систем.
В современном обществе картографическая информация используется во многих сферах деятельности, не связанных непосредственно с профессиональной картографией, но пользующихся ресурсами картографических данных. Такая информация необходима, например, при поддержке принятия решений хозяйственными организациями, включая уровень министерств и ведомств, в деятельности правовых органов, туристических фирм, служит основой поискового сервиса Google.
Картографические базы данных становятся все более востребованными, а круг лиц, использующих их в рамках профессиональной деятельности, растет. При социально-экономическом картографировании для отображения взаимодействия природы и общества, структурных изменений, произошедших в отраслях экономики и политике, результатов выборных кампаний требуется большой объем новой, оперативно поступающей информации, сформированной и структурированной в картографических базах данных.
Такие базы должны стать обобщением многих источников: картографических, статистических, литературных и аналитических изданий, данных дистанционного зондирования и пр. Однако сейчас большинство этих материалов разрознено и рассеяно в картографических фондах, библиотеках, на различных сайтах в интернете и т.д., и требуются значительные затраты времени на их поиск и систематизацию.
Картографические базы данных (КБД) —информационная модель, представляющая собой совокупность взаимосвязанных картографических данных (в нашем случае — пространственных и атрибутивных данных социально-экономической тематики), организованных по определенным правилам и общим принципам [4].
Назначение картографических баз данных — хранение данных и их использование в различных областях: в научно-исследовательских и проектных работах, в практической работе органов государственного и муниципального управления, в работе коммерческих предприятий при проведении маркетинговых исследований, в учебном процессе в образовательных учреждениях, для самообразования.
На многих предприятиях накапливается значительное количество бумажных карт, а также другие
1 Московский государственный университет имени М.В. Ломоносова, географический факультет, кафедра картографии и геоинформатики, доцент, канд. геогр. н., e-mail: eaprohorova@mail.ru
2 Московский государственный университет имени М.В. Ломоносова, географический факультет, кафедра картографии и геоинформатики, науч. с., e-mail: vnsemin@mail.ru
данные — тексты, различные схемы, изображения, которые получены, как правило, из разных источников и имеют разные формат представления, масштаб и проекцию. В связи с этим возникает потребность создать картографические базы данных, которые должны стать упорядоченным справочником основных социально-экономических показателей, учитываемых официальной статистикой по регионам, городам и районам, по отдельным отраслям или по переписи населения.
Цель статьи — акцентировать внимание на вопросах, связанных с построением картографических баз данных для социально-экономического картографирования, попытаться систематизировать накопленный опыт и сформулировать требования, которые предъявляются к хранению, способу представления и классификации данных.
При этом исследование не затрагивает все пространственные данные в широком смысле этого слова, в том числе и позиционные данные в координатах двух- и трехмерного пространства [4], основное внимание сосредоточено на атрибутивных данных — качественных и количественных характеристиках пространственных объектов, которые соответствуют тематической форме данных и позволяют опознавать тип объекта.
Информационные ресурсы для социально-экономического картографирования. Статистические данные — составной элемент национальной информационной инфраструктуры и важная часть исследовательской базы различных научных проектов. Официальная статистика — часть государственных информационных ресурсов, она дает представление о численности населения, текущем положении отраслей народного хозяйства, изменениях в уровне жизни, демографических, социальных, медицинских и иных показателях населения по территориальным единицам и населенным пунктам. Рост объема данных приводит к необходимости их структурировать, обрабатывать и хранить и предоставлять для вторичного анализа. Регулярный сбор данных по определенным показателям осуществляется правительственными ведомствами, в результате чего формируется основа системы статистических ресурсов страны.
Ведомственная отчетность обычно шире рамок государственной статистики и может дать много дополнительного и уточняющего материала для создания баз данных. Статистические базы, кроме того, формируются исследовательскими коллективами в университетах, научных институтах и аналитических центрах в ходе целевых обследований и опросов населения, а также коммерческими организациями в ходе маркетинговых исследований.
Информационные ресурсы для социально-экономического картографирования наиболее нестабильны и динамичны среди прочих сведений, используемых географической наукой; и, безусловно, доступ к наиболее актуальным статистическим данным о со-
стоянии населения в странах мира, об экономике, ВВП, уровне безработицы и инфляции обеспечивают интернет-технологии.
Основной статистический источник для создания картографических баз данных —Центральная база статистических данных (ЦБСД) Росстата, которая работает в тестовом режиме с моментальной табличной визуализацией и содержит информацию по основным разделам статистики. В нее входит более 2500 показателей годовой, квартальной и месячной отчетности по Российской Федерации и ее субъектам, формам собственности, отраслям экономики, видам экономической деятельности и др.
Для создания картографических баз данных можно использовать любую другую статистическую информацию, находящуюся на официальных сайтах интернета: например, на сайте одной из самых влиятельных и информированных аналитических организаций мира — Центрального разведывательного управления США (Central Intelligence Agency), на сайте Бюро переписей США (данные об изменении численности населения планеты в реальном времени) или на сайте World Gazetteer, использующем информационные ресурсы национальных статистических служб (современные данные о зарубежных городах).
Основная проблема, возникающая при получении информации из разных источников, — перекрывающиеся, противоречащие данные. Сведения, полученные из одного вполне надежного источника, в дальнейшем могут мигрировать по разным изданиям и базам данных, дробиться на части, в результате чего накапливаются ошибки. Первичной базой данных чаще всего служит электронная система, а дальнейшая ее репликация должна происходить по договоренности с владельцем с сохранением и бережным отношением к первичной информации.
Еще одна проблема заключается в том, что необходимые для конкретной работы показатели могут быть предоставлены в разных разделах, опубликованы в различных сборниках, сгруппированы в отличающиеся по структуре таблицы. Например, данные о занятости населения на транспорте могут фигурировать и в разделе «Транспорт», и в разделе «Население», и в разделе «Социальная инфраструктура». Поэтому при использовании различных баз важно тщательно изучить информацию, чтобы оптимизировать запросы в базу данных и избежать их дублирования [5].
Очень часто интересующие нас взаимосвязанные данные представлены в различных форматах (HTML, MS Word и др.), что является сдерживающим фактором при их единовременной обработке, поэтому актуально приведение всех данных к единому формату, например в формат таблицы реляционной базы данных.
Что касается картографических основ, то для их составления можно привлекать любые картографические материалы, не связанные по тематике с созда-
ваемыми картами населения и хозяйства. Чаще всего в качестве таковых используются общегеографические карты того же или близкого масштаба.
Существует ряд требований, предъявляемых к картографическим основам для социально-экономического картографирования. Прежде всего они должны быть достаточно подробными (обязательное изображение населенных пунктов, транспортной сети, административных границ, гидрографии), затем следуют высокие требования к локализации объектов для научно-справочного картографирования, и, наконец, масштаб используемой карты-основы должен быть близок к масштабу создаваемой карты.
Наиболее информативны и отвечают всем требованиям для использования их в качестве картографической основы «Общегеографическая карта масштаба 1:1 000 000» и «Государственная общегеографическая карта масштаба 1: 2 500 000».
Такие картографические источники вполне доступны и в интернете. Их можно получить, используя бесплатно распространяемые векторные карты, если провести необходимую генерализацию и оформление готовых векторных данных. В качестве таких карт предлагается DCW (Digital Chart of the World) — Цифровая карта мира в масштабе 1:1 000 000, созданная в 1992 г. (последняя редакция 1997 г.) путем оцифрования Международной карты мира, где информация представлена по отдельным топологически согласованным слоям; Vmap0 — новая версия карты DCW, созданная в 1997 г., но с более современными данными, где можно использовать все слои, за исключением слоев административных границ, которые являются собственностью компании ESRI. OpenStreetMap — пример свободного проекта по совместному развитию общедоступных карт и схем городов, улиц, дорог с помощью ручного или автоматического ввода данных, а также получения данных с портативных GPS-приемников. Ввиду того что карта ежедневно создается и обновляется пользователями по всему миру, она имеет разную подробность для разных территорий.
В 2001 г. в РФ была принята программа информационного развития, предусматривающая создание базы социально-экономической статистики. Научным сообществом России формируются и поддерживаются ресурсы для социальных исследований, например Университетская информационная система РОССИЯ, которая доступна с 2000 г. всем университетам, вузам, научным институтам. Она поддерживается как интегрированный ресурс, где используются технология автоматизированной содержательной обработки текстовых документов и статистических данных и комплекс программных средств для реализации международного стандарта представления ресурсов.
Для интеграции различных статистических изданий, внедрения единого стандарта хранения информации, а также привязки аналитического инструментария к структуре первичной информации с
2002 г. ведется разработка нового ресурса — реляционной базы «Интерактивная статистика Российской Федерации» [1]. Результатом работы станет информационная система с качественно новым уровнем аналитических возможностей — реляционная база статистических данных на основе СУБД Oracle, обеспечивающая возможность гибкой выборки и группировки показателей, их визуализации и расчета вторичных переменных.
Формирование картографических баз данных. Работа над формированием базы статистических ресурсов для исследования социально-экономических процессов и социально-экономического картографирования — специальная научная задача. Прежде всего необходимо определить круг основных источников, который станет основой базы, и систематизировать полученную информацию. Как правило, исходный текст статистических сборников и аналитических материалов поступает на обработку в виде текстовых файлов в формате Microsoft Word либо загружается с различных сайтов интернета.
Трудности, возникающие в процессе количественного исследования социально-экономических процессов, связаны не только с поиском необходимой статистической информации, но и с приведением ее к сопоставимому виду. Следующий этап работы состоит в приведении массивов данных к единому формату и интеграции в базу данных.
Для целей социально-экономического картографирования особенно эффективны базы по населению и населенным пунктам, основным отраслям экономики и сферы обслуживания населения, экологии и природопользованию. Такие фонды целесообразно формировать в определенной последовательности, например от общих элементов к частным. В состав этих фондов должны входить и общегеографические элементы, образующие необходимую географическую основу, включая характеристику гидрографической и дорожной сети, границ, иногда рельефа и т.д. Остальные элементы социально-экономической характеристики территории увязываются с содержанием данной базы и создаются после ее формирования.
Проблема создания картографических баз данных состоит в том, что пользователь рассматривает реальный мир через призму тематической базы данных [4], т.е. приходится учитывать прежде всего тематику и имеющуюся в наличии информацию, предназначенную для построения различных аналитических, комплексных и синтетических карт. Любой исследователь или специалист, которому это необходимо, может использовать одну из устоявшихся известных систем управления базами данных (СУБД), например MSSQL, MySQL, Oracle, Ingres, Excess и др. Однако при работе с картографическими базами данных пользователям приходится самим разрабатывать программное обеспечение, для того чтобы сделать возможным решение своих задач.
Необходимость создания или приобретения специализированного программного обеспечения, позволяющего анализировать выбранные показатели, преобразовать исходные данные в необходимый формат, применять отдельные методы исследования с учетом специфики анализируемых показателей, а также правильно интерпретировать результаты, составляет основную задачу и проблему при создании КБД.
Картографическая база данных, как правило, состоит из взаимосвязанной информации (картографической и атрибутивной), специализированного программного обеспечения, разработанного для решения определенного типа задач (комплексных прикладных программ), и одной из вышеперечисленных классических СУБД.
СУБД, точнее СУКБД (система управления картографическими базами данных), предоставляет доступ к данным и выполняет запросы пользователя по поиску и обработке информации.
Чаще всего в силу отсутствия устоявшихся стандартов (что существует и в классических базах данных) функциональность СУКБД обеспечивается за счет совместного использования классических промышленных СУБД, коммерческих ГИС (например, ArcGIS или MapINFO) и специализированного программного обеспечения, создаваемого разработчиком картографической базы данных.
Функциональная схема картографической базы данных, показывающая взаимосвязь ее отдельных элементов, представлена на рис. 1.
Рис. 1. Функциональная схема картографической базы данных, показывающая взаимосвязь ее отдельных элементов
Построение эффективно действующей картографической базы данных невозможно без правильно организованной информации. В основе любой КБД лежит не только картографическая информация, т.е. хорошо подготовленные цифровые карты, важную роль играет также смысловая, атрибутивная информация, в ряде случаев она даже важнее картографической составляющей, например в кадастровых системах.
Данные, которые могут быть сохранены в информационных системах, можно разделить на две основные категории: элементарные (простые), например число или строка; и составные (сложные), которые представляют собой определенным образом организованную совокупность элементарных.
Принципиальное отличие картографической информации (характеристики населенных пунктов, дорог, отдельных сооружений и т.д.), привязанной к пространственным объектам, состоит в том, что она не может быть независима, т.е. должна быть прямо или косвенно связана с картой или привязана к карте. Объект КБД может быть пространственным объектом с метрическими характеристиками, например объектом гидрографии, дорожной сети или сети поселений, но объектом картографической базы данных может быть и расширенная атрибутивная информация, включающая качественные и количественные показатели, текстовые описания, видео- и аудиоинформацию и т. д.
При проектировании КБД социально-экономических явлений важная роль отводится разработке классификаторов. Это строгий логический процесс переработки информации, без которого невозможно систематизированное распределение явлений и объектов на определенные секции, группы, классы, позиции, виды на основании их сходства и различия. Без классификаций нельзя создать любую базу данных, так как классификация дает четкое представление о виде, назначении, содержании информации, формате хранения, о том, как должна осуществляться система отбора объектов.
Современная технология обработки социально-экономической информации и обмен данными между различными системами базируются на комплексе государственных стандартов. Важнейший из них, обеспечивающий информационную совместимость систем управления и баз данных, — это система стандартных общероссийских классификаторов технико-экономической и социальной информации (ОК ТЭСИ) [6].
Общероссийские классификаторы, являясь частью статистической инфраструктуры, обеспечивают систематизацию, структурирование, группирование и идентификацию социально-экономических объектов и явлений, что позволяет пользователям анализировать статистическую информацию и решать конкретные прикладные задачи. Оптимальные классификаторы для социально-экономических объектов
должны иметь древовидную структуру, например транспорт — железные и автомобильные дороги — грузоперевозки.
При формировании баз данных следует предусмотреть, с какой детальностью эта информация будет использована впоследствии. Это будет зависеть от параметров создаваемых карт, степени подготовленности потребителей и способа использования карт.
Если решается достаточно узкая по территориальному охвату и содержанию задача картографирования, то исходная информация может образовывать один фонд данных, если же проводится разработка серий карт, особенно синтетических, то необходимо создавать систему взаимосвязанных фондов географических данных.
Обработка атрибутивной информации в базах данных может происходить двумя путями. Первый — переработка данных с целью получения новых производных данных, в этом случае не требуется визуализации результата, во втором случае — при переработке числовых данных в графическую форму карты — сложность заключается в том, что необходимо учитывать весь многообразный комплекс явлений, взаимосвязей между ними и внутри них. Так как связи отличаются по значимости, то характеризующие их показатели должны быть ранжированы [2].
Картографические изображения, получаемые вторым способом, можно разделить на три основных вида, отличающихся по реализации, признакам и применению.
Первый и наиболее простой вид — картографическая модель, хранящаяся в базе данных в качестве основы, источника картографических данных в виде отдельных «слоев» информации. Пользователь видит ее на экране, она служит для визуализации, привязки различных атрибутивных данных, согласования картографической информации, для контроля за качеством работы и редактирования.
При переработке информации с помощью математико-картографического моделирования возникает второй, промежуточный, вид моделей, в котором уже применяются условные знаки, хотя и несколько упрощенные. Эти карты используются только самими создателями для оценки успешности проведения предыдущих стадий и уточнения дальнейших процессов обработки. Они выводятся либо на дисплей, либо с помощью периферийных устройств (принтеров, плоттеров), в том числе не отличающихся высокой точностью и качеством исполнения.
Третий вид карт уже ориентирован на потребителя и является итогом моделирования, их распечатывают по возможности качественно, часто в многоцветном
Рис. 2. Фрагмент карты «Металлургический комплекс» из Атласа социально-экономического развития России, 2009 (масштаб 1: 17 000 000) (а) и карта «Металлургия» из Атласа Республики Башкортостан, 2005 (масштаб 1: 3 000 000) (б)
оформлении в соответствии с принятыми картографическими стандартами.
Целесообразно создавать многоуровневое методологическое сопровождение базы, включающее возможность вызова кратких и развернутых методологических пояснений к каждому объекту (группе объектов), гиперссылочный доступ к терминам.
К сожалению, часто можно наблюдать ситуацию, когда из-за отсутствия единого централизованного источника две карты одинаковой тематики, создаваемые приблизительно в одно и то же время и на одну и ту же территорию, могут представлять различную информацию, создавая тем самым у пользователей неверное представление об одних и тех же объектах (показателях, явлениях). Например, на территории Республики Башкортостан в Атласе социально-экономического развития России (рис. 2) г. Ишимбай показан как важный промышленный центр металлургического комплекса с производством стали и проката, а Уфа вообще не показана как металлургический центр; в Атласе же Республики Башкортостан, несмотря на гораздо более крупный масштаб, Ишимбай представлен как промышленный пункт с небольшим числом занятых в производстве (от 500 до 1 000 человек), а Уфа — как центр черной и цветной металлургии. Неясно, что больше соответствует действительности, но совершенно очевидно, что недобросовестность авторов здесь не при чем, дело не в разном освещении темы, а в том, что данные получены из разных источников, не сопоставимых между собой, и в каком-то случае информация устарела или была неправильной.
Подводя итоги, можно сказать, что к созданию картографических баз данных для социально-экономического картографирования предъявляются следующие требования:
— актуальность (хранящиеся в базе данные должны соответствовать определенному времени);
— достоверность (необходимо учитывать степень официальности сведений, их полноту, соответствие действительности);
— сопоставимость сведений разных периодов (идентичность цен, показателей и т.д.);
— постоянное обновление (возможность добавлять или удалять файлы из базы данных, изменять существующие данные);
— совместимость с другими данными (абсолютная совместимость со всеми данными, которые можно добавлять в базу);
— доступность для любых пользователей.
Заключение. Наличие собственного официального
сайта в интернете с включением баз социально-экономических данных становится обязательным для каждого муниципального образования России. Многие понимают и считают необходимым интеграцию различных, в том числе статистических, данных с картографическим обеспечением, в результате чего создаются картографические базы данных, а в
результате любые карты, оперативно отражающие изменение социальной ситуации в стране, регионе, городе. Это может быть статистика преступности, которая трансформируется в карты и выкладывается в открытом доступе в интернете, навигационные карты городов, карты, показывающие процент мест в национальных парламентах, занимаемых различными категориями населения и др.
Важное условие для развития информационного общества в России — формирование ее единого информационного пространства. Часть этого пространства составляет инфраструктура пространственных данных (ИПД) — информационно-телекоммуникационная система, обеспечивающая доступ пользователей к государственным распределенным ресурсам пространственных данных. ИПД несет тематическую, в том числе социально-экономическую, информацию, что дает возможность распространять и обмениваться ею в интернете для формирования отчетных документов, презентационных материалов, размещения готовых картографических продуктов на сайтах.
Появление ГИС сделало возможным сочетать в одной базе данных самую разную информацию — от материалов дистанционного зондирования и социальных опросов до текстов специализированных монографий и газетных статей, обеспечивать ее постоянное пополнение, оценку, согласование и корректировку. Кроме того, все изображения, которые есть в интернете — карты, атласы, трехмерные модели, анимации, мультимедийные изображения и т.д., — могут служить материалом для включения в создаваемую тематическую базу. В этом случае вся информация превращается во взаимосвязанный комплекс, позволяющий характеризовать и картографировать все свойства системы во времени и пространстве. Такая системность информационного обеспечения может служить основой отраслевого и интегрального картографирования, создания любых картографических произведений — серий тематических карт, комплексных и отраслевых атласов. Важно лишь провести дополнительные исследования, чтобы установить между всеми источниками взаимное соответствие.
Основанные на ГИС картографические базы данных могут быть непрерывными (без деления на отдельные листы и регионы) и не связанными с конкретным масштабом или картографической проекцией. На основе этих баз можно создавать карты (в электронном или бумажном виде) на любую территорию, любого масштаба, с любой нужной нагрузкой. Базу данных всегда можно пополнять новыми данными (например, из других баз), а имеющиеся в ней данные можно редактировать и тут же отображать на экране по мере необходимости [2].
В дальнейшем развитие баз данных для социально-экономического картографирования приведет к созданию онлайновых статистических сервисов, в том числе визуального анализа данных с помощью различных видов графиков и диаграмм, а также момен-
тального создания производных карт. Пользователю должна быть предоставлена возможность описания процесса получения вторичных данных на основе уже имеющихся и способа их отображения, или пользователь может воспользоваться одним из заранее подготовленных сценариев с готовыми сюжетами.
Еще раз подчеркнув, что речь идет об атрибутивных данных, акцентируем внимание на необходимости разработать единые классификаторы и унифицировать данные.
Однако же стандартизировать все социально-экономические показатели невозможно, но вполне реально создать язык для их описания. Важнейшая задача — выработка стандартов языка для описания метаданных (информации об используемых данных, в нашем случае — социально-экономических). Разработка языка для описания метаданных совершенно необходима для создания каталогов социально-
СПИСОК ЛИТЕРАТУРЫ
1. Богомолова А.В., Карасев О.И., Сеннов Р.А., Юдина Т.Н. Университетская информационная система РОССИЯ: ресурсы и сервисы в поддержку социально-экономических исследований и государственного управления // Тр. VIII Всерос. конф. «Технологии информационного общества — Интернет и современное общество». Санкт-Петербург, 8-11 ноября 2005г. СПб., 2005.
2. Дейт К.Дж. Введение в системы баз данных. М.: Вильямс, 2006.
экономической информации, чтобы эти метаданные были понятны всем пользователям, поскольку данные имеют сложную структуру, разные форматы, часто большой объем.
Функция языка при этом состоит в том, чтобы составлять такие предложения, где одни и те же данные, закодированные разными способами, будут описывать структуру и содержимое социально-экономических показателей.
Стандартизация описаний и создание специализированных каталогов — одно из главных направлений при создании национальных инфраструктур социально-экономической информации.
Набор средств для описания процесса получения данных, а также набор сценариев должны предоставлять пользователю возможность учитывать специфику обрабатываемых данных и быть адекватны решаемой задаче.
3. Капралов Е.Г., Кошкарев А.В., Тикунов В.С. и др. Геоинформатика. М.: Академия, 2006.
4. Лурье И.К. Геоинформационное картографирование. М.: Изд-во КДУ, 2008.
5. Прохорова Е.А. Социально-экономические карты. М.: Изд-во КДУ, 2010.
6. Соколин В.Л. Система государственной статистики: тактика и стратегия развития // Вопр. статистики. 2001. № 1.
Поступила в редакцию 15.07.2010
E.A. Prokhorova, V.N. Semin
CARTOGRAPHIC DATABASE FOR PRODUCING SOCIAL-ECONOMIC MAPS
The article deals with different aspects of developing cartographic databases for modern social-economic maps.
Key words: databases, cartography, social-economic maps.