УДК 004.065(075.8)
Гусев А.В., к.т.н. начальник сектора АО НИИ ТП Россия, Москва
АЛГОРИТМЫ ИНДЕКСИРОВАНИЯ ГЕОПРОСТРАНСТВЕННЫХ
ДАННЫХ В СИСТЕМАХ КОНТРОЛЯ ЗА МОБИЛЬНЫМИ
СРЕДСТВАМИ
Аннотация: Рассмотрено применение методов статистического анализа в алгоритмах построения структур индексирования геопространственных данных. Приведены результаты численных экспериментов.
Ключевые слова: база данных, ГИС, системы мониторинга
GusevAV., Ph. D.
Head of the Sector JSC NII TP Russia, Moscow
ALGORITHMS FOR INDEXING GEOSPATIAL DATA IN MOBILE VEHICLE MONITORING SYSTEMS
Abstract: The application of statistical analysis methods in algorithms for constructing geospatial data indexing structures is considered. The results of numerical experiments are presented.
Keywords: Database, GIS, monitoring systems
Введение. Данные о местоположении объектов реального мира играют важную роль во многих областях, например таких, как системы контроля и управления общественным транспортом.
Во многих городах России используется спутниковая система контроля за транспортом, обеспечивающая безопасность и четкость движения общественного транспорта. Информация о местоположении мобильных средств в реальном времени может быть получена с помощью различных программно-аппаратных комплексов, основанных на использовании географических информационных систем (ГИС). Эти системы обеспечивают доступ к данным глобального позиционирования, выполняется обработка, визуализация и индексирование такого вида информации. В исследовании не рассматриваются показатели скорости и направления движения.
На мобильном объекте устанавливается приемо-передающее устройство, которое обеспечивает передачу координат о местоположении на сервер, в том числе и сервер базы данных.
По степени распределённости информационная система может быть: ^ настольной, или локальной, в которой все компоненты (БД, СУБД, клиентские приложения) находятся на одном компьютере;
^ распределённой, в которых компоненты распределены по нескольким компьютерам.
Распределённые, в свою очередь, разделяют: ^ на файл-серверные (системы с архитектурой «файл-сервер«); ^ клиент-серверные (стстемы с архитектурой «клиент-сервер«). В файл-серверных системах база данных находится на файловом сервере, а СУБД и клиентские приложения находятся на рабочих станциях.
В клиент-серверных системах база данных и СУБД находятся на сервере, а на рабочих станциях находятся клиентские приложения.
Применение алгоритмов индексирования не зависит от распределенности и позволяет снизить время доступа к накапливаемым данным. Типовыми запросами могут быть:
^ определение положения мобильного объекта в заданный момент времени
^ предоставить хронологию передвижения мобильных средства ^ определение времени через которое транспортное средство достигнет заданные координаты.
Представлен метод индексирования, основан на использовании робастного метода статистического анализа.
Теоретический анализ. Эффективный доступ к данным является одной из важнейших задач, решаемых СУБД. Обычно это достигается использованием вспомогательной структуры, сокращающей число обращений к вторичной памяти.
Индекс позволяет уменьшить число дисковых операций, необходимых для считывания данных с диска. Методами доступа называют структуру индексного файла и способы работы с ней. Обычные способы индексирования записей в таблице строятся по статическим полям или по полям, которые редко изменяются. Изменяются такие структуры не часто, и поэтому скорость изменения некритична.
Поскольку в нашем случае характеристики пространственных объектов не являются статическими, а часто изменяются с течением времени, то для поддержания эффективности структуры индексов должны изменяться также часто и быстро.
Наиболее известными способами индексирования географических объектов являются R- и R*-деревья. В этих сбалансированных по высоте деревьях листовые узлы содержат ссылки на записи таблицы. Узлы
соответствуют дисковым страницам, если индексная структура находится на жёстком диске.
Описанный выше способ индексирования пространственных объектов - Я-дерево - является популярным методом для индексирования прямоугольников. Он основан на эвристической оптимизации площади охватывающих прямоугольников в каждом узле. В классическом R-дереве вся оптимизация сводится к уменьшению площади охватывающих прямоугольников. После проведения экспериментов на стандартизированной испытательной модели с большим количеством данных, запросов и операций было спроектировано R*-дерево. С этой структурой индексирования был внедрён комбинированный метод оптимизации, зависящий от площади, периметра и пересечения прямоугольника. Подвижность индексируемых объектов требует частого изменения индексной структуры. Для добавления новой записи в уже заполненный элемент R-дерева, содержащий N записей, необходимо разделить группу из (N+1) записи на два элемента R-дерева. Такой алгоритм применяется при удалении ненужной записи, обновлении структуры. Этот алгоритм особенно важен, так как может сильно замедлить работу алгоритмов поиска. Формирование элемента без учёта критериев оптимальности построения структуры приводит прежде всего к увеличению времени работы алгоритма поиска, а следовательно, к медленному выполнению остальных алгоритмов. Тесная связь между геометрией и статистикой обусловлена тем, что многомерные статистические данные можно рассматривать как точки в евклидовом пространстве. В некоторых задачах статистики построение выпуклой оболочки является основным моментом. Так как среднее значение выборки является несмещённой оценкой для среднего значения, то оно очень чувствительно к выбросам -наблюдениям, существенно выпадающим из основной массы. Желательно уменьшить влияние, оказываемое такими выбросами, так как они часто предоставляют неверные данные, которые могут внести ошибки. Соответствующее свойство, которому должна удовлетворять хорошая оценка, называется робастностью (устойчивостью), что означает нечувствительность к отклонениям от предполагаемого распределения. Сравнение различных методов и алгоритмов индексирования позволило выделить наиболее предпочтительные алгоритмы, которые были реализованы в сШ.-дереве, т.е. пространственного индекса, основанного на методах, приведённых в данной работе. На одинаковых исходных данных вычислительная сложность алгоритмов с^-дерева содержит меньше операций чем в алгоритмах R-дерева. Таким образом, для парка общественного транспорта составляющего 7500 автомобилей, точность определения местоположения составит 10 м вместо 20 м при движении со скоростью 30 км/ч. Качество структур можно определить с помощью геометрических свойств листовых элементов. Для транспортной сети
рассматриваемая структура имеет больший суммарный периметр листовых элементов.
Заключение. Результаты экспериментов свидетельствуют о возможности применения робастных методов в эвристических алгоритмах построения индексных структур. На тестовых данных было показано превосходство разработанного комбинированного метода классификации над методом классификации ^-средних при использовании сравниваемых в алгоритмах построения структуры R-дерева.
Использованные источники:
1. Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. Справочное издание. -М. : Финансы и статистика, 1989. - С. 18-46.
2. Препарата Ф., Шеймос М. Вычислительная геометрия: Введение. М.: Мир, 1989.
3. Гусев А.В. Использование эвристических методов кластеризации в пространственных методах доступа. Информационные технологии. 2006. №2 12.