Научная статья на тему 'Моделювання просторово розподілених динамічних систем із застосуванням геоінформаційної технології Esri'

Моделювання просторово розподілених динамічних систем із застосуванням геоінформаційної технології Esri Текст научной статьи по специальности «Экономика и бизнес»

CC BY
50
68
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛЮВАННЯ / СТАТИСТИЧНі ДАНі / ДИНАМіЧНі СИСТЕМИ / ПРОСТОРОВО РОЗПОДіЛЕНі ДАНі / ГІС

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Ковгар В.Б., Філозоф Р.С.

Наведено огляд методів моделювання просторово розподілених динамічних систем для вирішення проблеми «Big Data». Обґрунтовано застосування геоінформаційної технології Esri для підвищення ефективності роботи з великими обсягами накопичень зазвичай просторово розподілених даних. Розглянуто способи опрацювання значних масивів просторово розподілених даних. Запропоновано методику вирішення поставленої задачі. Наведено перелік предметних областей, в яких можливе застосування даної методики.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Моделювання просторово розподілених динамічних систем із застосуванням геоінформаційної технології Esri»

Ученые записки Таврического национального университета имени В.И.Вернадского Серия «География». Том 25 (64). 2012 г. № 1, С. 129-135.

УДК 004.942

МОДЕЛЮВАННЯ ПРОСТОРОВО РОЗПОД1ЛЕНИХ ДИНАМ1ЧНИХ СИСТЕМ 13 ЗАСТОСУВАННЯМ ГЕ01НФ0РМАЦ1ЙН01 ТЕХНОЛОГИ ESRI

КовгарВ. Б.1, ФыозофР.С.2

'ПрАТ«ЕСОММ» Со, Kuie, Украша

2Кшвський нащональний yuieepcumem meui Тараса Шееченка, Kuie, УкраТна

Наведено огляд метод1в моделювання просторово розподшених динам1чних систем для виршення проблеми «Big Data». Обгрунтовано застосування геошформацшно! технологи Esri для тдвищення ефективносл роботи з великими обсягами накопичень зазвичай просторово розподшених даних. Розглянуто способи опрацювання значних масив1в просторово розподшених даних. Запропоновано методику виршення поставлено! задачт Наведено перелж предметних областей, в яких можливе застосування дано! методики.

Ключов1 слова: моделювання, статистичш дат, динам1чш системи, просторово розподшеш дат, Г1С.

ВСТУП

Оперування значними масивами шформацп е невщ'емною ознакою сучасносп i одним ¿з фактор1в формування шформацшно! кризи. Перед суспшьством постае проблема ефективного збер1гання та управлшня даними, ix оптимального використання. В ужиток досить швидко увшшли так1 поняття, як Big Data та Data Mining i проблеми, пов'язаш i3 цими напрямками дослщжень обговорюються все ширшим колом користувач1в корпоративних шформацшних систем, зокрема -проблема видобутку корисних ведомостей анаттичного характеру з наявного корпоративного шформацшного ресурсу. 3 огляду на таку ситуащю надзвичайно актуальною е необхщнють розробки ефективного шструменту роботи з масивами просторово-розподшених даних, що накопичуються i3 плином часу. Метою дано! роботи е розробка методично! схеми моделювання просторово розподшених динам1чних систем на основ! анал1зу наукових метод ¿в, що застосовуються у комп'ютерних, математичних та географ1чних науках, та синтезу вщповщних шформацшних технологш, що грунтуються на цих методах.

ВИКЛАДЕННЯ ОСНОВНОГО МАТЕР1АЛУ

Сьогодш ми е свщками активного розвитку технологш автоматизацп штелектуального анал1зу даних, поява яких пов'язана насамперед з необхщнютю анал1тично! обробки над великих об'ем1в даних, накопичуваних в шформацшних сховищах даних (Data Warehousing). Це зумовлено головним чином потоком нових щей, яю витшають ¿з сфери комп'ютерних наук, що утворилася на перетиш штучного штелекту, статистики та Teopii' баз даних. Дану область позначають як

KDD (Knowledge Discovery in Databases - виявлення знань в базах даних). Ниш вщбуваеться зростання кшькосп програмних продукпв, в яких застосоваш технологИ KDD, а також тишв задач, де використання даних технологш дае вагомий економ1чний ефект. Елементи автоматично! обробки та анал1зу даних стають невщ'емною частиною концепцп електронних сховищ даних. Основним кроком KDD щодо опрацювання вмюту електронних сховищ даних е Data Mining (дослщження даних i, як наслщок, видобуток додаткових ведомостей). 1нтелектуальний анал1з даних i KDD вважають, в загальному випадку, синошмами Data Mining, але фактично Data Mining е основним, та не единим елементом в множит KDD.

За визначенням Григор1я Иатецького-Шашро, одного i3 засновниюв цього напряму, Data Mining — це процес виявлення в сирих даних рашше невщомих, нетрив1альних, практично корисних i доступних штерпретацп знань, необхщних для прийняття ршень в р1зних сферах людсько! д1яльност1 [1, 2]. Цей процес включае три основних етапи: дослщження, побудову модел1 або структури та И перев1рку. В його основ! лежить статистичний анал1з, що використовувався до цих nip в poni практичного шструмента, а також такий, що приваблював математиюв-теоретиюв. Але до недавнього часу процес видобутку «прихованих» ведомостей анал1тичного характеру був достатньо довготривалим, проводився вручну. Точшсть цього процесу ¿стотно залежала в1д того, хто його виконував. Нин1 з'явилися засоби, яю можуть автоматизувати цей процес, що дае можливють використовувати видобуток ведомостей анал1тичного характеру широкому колу фах1вщв - користувач1в цих засоб1в автоматизацп.

1нформац1йна технолог1я Data Mining використовуе складний статистичний анал1з i методи моделювання для знаходження в1дношень (кореляцшних залежностей або моделей), захованих у Big Data (корпоративному банку даних) -таких моделей, яю не можуть бути знайдеш звичайними методами. Отже, методи видобутку «прихованих» ведомостей анал1тичного характеру набувають все бшьшо! популярност1 в poni ¿нструменту для анал1зу р1зноман1тних даних, особливо в тих випадках, коли передбачаеться, що i3 наявних даних можна буде витягнути знания (в1домост1) для прийняття р1шень в умовах невизначеност1. 3 шшого боку, запорукою ycnimHoro застосування цих метод ¿в е не просто виб1р алгоритму, а майстершсть людини, яка проводить конструювання модел1 та можливост1 програми проводити саме процес моделювання. Тобто ми пщходимо до проблеми створення автоматизовано! анал1тично! системи, яка керуючись певним алгоритмом, застосовуючи нов1 ефективн1 методи здатна моделювати складн1 процеси. Сл1д детальшше зупинитись на тому, як1 саме методи можуть бути використаш в под1бному моделюванн1, як1 дан1 мають використовуватись, яким е алгоритм побудови та роботи под1бно! системи i де И можна застосувати.

1нтелектуальш засоби анал1зу даних використовують наступш ochobhI методи:

• нейронн1 мереж1;

• дерева р1шень;

• шдукщю правил.

Кр1м цих головних метод1в юнують ще декшька допом1жних:

• системи м1ркування на основ! аналопчних випадюв (прецедента);

• нечггка лопка;

• генетичш алгоритми;

• алгоритми встановлення асощацш 1 послщовностей;

• анал1з ¿з виборчою д1ею;

• лопчна регрес1я;

• еволюцшне програмування;

• в1зуал1зац1я даних.

В складних анал1тичних системах найчаспше застосовують комбшацда перерахованих метод1в. Тим не менше, основним методом сучасно! математично! статистики по праву можна назвати регресшний анал1з [3-6]. Типова процедура регресшного анашзу випливае ¿з передумови, що вс1 необхщш даш для побудови математично! модел! вже з!браш.

Для будь-яких задач ¿з кшьюсними змшними штерес становить досл1дження впливу (дшсного чи шдозрюваного) одних змшних на шшг Таким впливом, зазвичай, може бути простий функцюнальний зв'язок м1ж змшними; проте у багатьох ф1зичних процесах це швидше виняток, шж правило. Часто, швидше за все, юнуе функцюнальний зв'язок, що е занадто складним для розумшня чи для опису в простих термшах. У такому випадку можуть прагнути пщбрати апроксимащю цього функцюнального зв'язку за допомогою яко!-небудь просто! математично! функцп (скаж1мо, тако!, як полшом), яка включае вщповщш змшш, 1 згладжувати «ютинну» функщю в певнш обмеженш обласп змши цих змшних. Дослщжуючи таку згладжену функщю, бшьше д1знаються про розглядувану «ютинну» залежнють та оцшюють окрем! чи сукупш ефекти змши деяких важливих змшних.

Навпъ тод1, коли за змютом не юнуе ф1зичного зв'язку м1ж змшними, ми можемо прагнути вщобразити його за допомогою математичного р1вняння даного виду. Якщо р1вняння ф1зично не мае сенсу, то воно тим не менше може виявитися достатньо цшним для передбачення значень ряду змшних за невщомими значениями шших змшних, можливо, за певних обмежень. Саме для дослщжень такого роду послуговуються апаратом регресшного анал1зу.

Будуючи функцюнальну залежнють, розр1зняють два основних типи змшних. Перший тип називають предикторами, або незалежними змшними (факторами, сигналами) 1 другий - залежними змшними, або змшними-вщгуками. Щд предикторами, або факторами розумдать таю змшш, для яких, як правило, можна встановити бажаш значения, або т1, що !х можна лише спостер1гати, але не управляти ними. В результат! навмисних зм!н, чи зм!н, що сталися !з незалежними зм!нними випадково, з'являеться ефект, який передаеться на шш! зм!нн!, на в!дгуки. Тобто штерес становить те, як зм!ни предиктор!в впливають на значения в!дгук!в.

В залежносп вщ явища або процесу, що моделюеться, та вщповщно вщ пре диктор1в (фактор1в впливу на шукаш змшш) може бути застосований лшшний або нелшшний регресшний анал1з. Одшею з переваг застосування саме регресшного анал1зу в пропонованш методищ е те, що експлораторна регрес1я вже вбудована в шструментальну платформу Esri ArcGIS, яка починаюч1 з 10-i' Bepcii' шдтримуе темпоральну складову даних, що збер1гаються.

Зазначимо одразу, що i в1зуал1защя даних не даремно вказана серед анал1тичних метод ¿в. Не зважаючи на те, що даний метод не мае математично! основи, в1н, все ж, вщграе надзвичайно важливу роль у зв'язщ «анал1тична система - оператор», особливо у випадках ¿з надвеликими об'емами даних (Big Data). Можливють обробити значш масиви даних, обрахувати залежш змшш та подати ix у зручному для розумшня i прийняття ршення вигляд1 - основна функщя описувано! анал1тично! системи. Форма в1зуал1зацп даних буде описана дал1, а поки розглянемо сам1 даш. Зокрема, якими вони мають бути, що може слугувати джерелом таких даних, як вони мають оброблятися перед ix в1зуал1защею?

Як випливае з назви дано! статп, ми акцентуемо увагу по-перше на моделюванш динам1чних системам, а по-друге таких ¿з них, що мають просторово розподшений характер. Таю системи мають подвшну природу - вони можуть еволюцюнувати в 4aci та в npocTopi. В цьому випадку обчислення залежних змшних може виконуватись за двома критер1ями: визначення юльюсно! змши показника, що мае просторову прив'язку та змши мюцеположення (або конф1гурацп) просторового об'екта. Моделювання просторово розподшених динам1чних систем може виконуватись на 6a3i одного або деюлькох основних шдход1в видобутку ведомостей аналп-ично характеру, а саме:

• класифшащя;

• регрес1я;

• прогнозування часових послщовностей (ряд1в);

• кластеризащя;

• асощацш;

• послщовшсть.

Перш1 три використовуються, головним чином, для передбачення, в той час, як останш зручшш1 для опису ¿снуючих законом1рностей у статистичних виб1рках даних.

Джерелами даних для под1бного моделювання в щеальному випадку е значш масиви статистичних даних спостереження за станом певних об'екпв досл1дження (даш про забруднення, температури) або за просторово розподшеними ф1зичними процесами (селев1 потоки, атмосферш фронти тощо). При цьому, чим бшьше фактор1в впливу на залежш змшш буде виявлено, тим точшшою буде модель оцшки i'x динамши. Тобто в даному випадку наявнють надм1рних даних перетворюеться ¿з недолшу в перевагу при i'x обр общ за пропонованою методикою. В такому щеальному випадку етап попередньо! подготовки даних значно спрощуеться за рахунок того, що вщпадае необхщнють геокодування - даш вже мають просторову

прив'язку. Вт1м, сфера застосування дано! методики може бути значно розширена завдяки тому, що значна кшыасть статистичних даних може бути геокодована на еташ подготовки даних, не будучи вщ початку просторово прив'язана. В такому раз! об'ектами моделювання можуть виступати динам!чш системи, що описуються даними спостереження сощальних, економ1чних, природних процешв [7].

Просторово розподшений характер даних передбачае I особливий шдхщ до !х збер1гання та структуризацп. Не залежно вщ того, чи були даш просторово розподшеними вщ початку, чи - були прив'язаш до певних просторових об'екпв (кластер1в), окр1м характеристик, що визначаються статистичними даними таю об'екти мають просторов! характеристики. Тобто на даному еташ виникае потреба застосування геошформацшно! технолог!!. Адже формування бази даних, що м!стить так! об'екти з !х характеристиками в!дбуваеться за правилами створення геобаз даних з в!дпов!дною структурою. 3 огляду на це, корисним е використання в данш методиц! !нструмент!в, що запропоноваш гео!нформац!йною технолог!ею Е8г! - ЛгсОК [8].

Окр!м можливост! формування геобази даних шляхом !нтегрування р!знор!дних даних !з р!зних джерел, ЛгсОК надае широк! можливост! з просторового моделювання та в!зуал!зацп отриманих результат!в. В пропонованш методиц! ЛгсОК е шструментальним середовищем, в якому !нтегруються математична та географ!чна компоненти моделювання.

В!зуал!защя в!д!грае чималу роль у тому наскшьки швидким та ефективним буде процес прийняття р!шення, що грунтуеться на основ! адекватно! просторово часово! модел!. Перевагою застосування гео!нформац!йно! технологи Е8г! е можлив!сть картограф!чного вщображення динам!ки просторово розпод!лених систем як в простор!, так ! в час!. Тобто, за рахунок створення часових (темпоральних) клас!в просторових об'екпв можлив!сть технолог!я передбачае в!дображення динамши под!й у часовому вим!р! з визначеним пер!одом часу. В поеднанш з методами регрес!йного анал!зу та прогнозування часових посл!довностей такий шструмент стае потужним засобом в!зуал!зац!! динамши досл!джуваних явищ або окремих величин.

Отже, в загальному випадку пропонована методична схема моделювання просторово розподшених динам!чних систем (Рис. 1) складаеться з таких етап!в:

• виокремлення залежних! незалежних зм!нних та зб!р статистичних даних;

• первинна обробка даних: формування статистично! бази даних, за необхщносп просторова прив'язка (геокодування);

• визначення ступеню кореляцп м!ж зм!нними, вид!лення ключових фактор!в, застосування регрес!йного анал!зу;

• побудова модел! та обрахунок значень залежних змшних;

• картограф!чна в!зуал!зац!я результата моделювання.

Рис. 1. Загальна методична схема моделювання просторово розподшених динам1чних систем

висновки

Застосування метод1в регресшного анал1зу при моделюванш динам1чних систем, сформованих з надвеликих об'ем1в статистичних даних дозволяе уникнути проблеми Big Data, оцшити корелящю даних (в тому числ1 i приховану), виокремити найважлив1ш1 фактори та обрахувати прогнозш значения шукано! величини за умов, закладених в модель Робота з даними стае ефектившшою, коли е можливою штегращя наступних компоненте: картограф1чна в1зуал1защя, граф1чний шструментарш, засоби формування запит1в, оперативна анал1тична обробка, яю дозволяють зрозум1ти даш та штерпретувати результата моделювання i, нарешт1, сам1 алгоритми, яю будують модель Отже, просторова та темпоральна динамша модельованих систем мае бути в1зуал1зована в зручнш для сприйняття форм1 (зокрема - картограф1чнш). 3 огляду на геопросторовий характер даних просторово розподшених динам1чних систем, необхщним е формування геобази даних. Для ще! мети та для в1зуал1зацп найкращим чином шдходить геошформацшна технолопя Esri, яка штегруе в co6i весь шструментарш, необхщний для ефективно! роботи з такими даними. Запропонована методика за умов належно! подготовки даних (та

геокодування, в pa3i необхщносп) може бути застосована в найр1зномаштшших предметних областях: в TopriBni, сфер1 фшанав, банювськш cnpaBi, сфер1 телекомушкацш, медицин!, демографп, р1зних галузях економ1ки, для оцшки еколопчного стану навколишнього середовища, для моделювання ириродних явищ тощо. Персиективи застосування дано! методики вбачаються досить широкими з огляду на накоиичення значно! кшькосп даних в корпоративних шформацшних системах (Big Data) та найр1зномаштшших областях досл1джень.

Список лггератури

1. Data Mining - интеллектуальный анализ данных / Информационные Технологии. [Электронный ресурс] - Режим доступа - http://www.inftech.webservis.ru/it/database/datamining/ar2.html. -10.04.2012.

2. Дюк В.А. Data Mining / В.А. Дюк, А.П. Самойленко - Санкт-Петербург: Изд-во «Питер», 2001. -368 с.

3. Демиденко Е.З. Линейная и нелинейная регрессии. / Е.З. Демиденко - М.: Финансы и статистика, 1981. - 302 с.

4. Дрейпер Н. Прикладной регрессионный анализ / Н. Дрейпер, Г. Смит // Пер. с англ - В 2-х кн. Кн. 1 - М.: Финансы и статистика, 1986. - 366 с.

5. Ивахненко А.Г. Долгосрочное прогнозирование и управление сложными системами. - К.: Техника, 1975. - 312 с.

6. Ивахненко А.Г. Моделирование сложных систем по экспериментальным данным. / А.Г. Ивахненко, Ю.П. Юрачковский - М.: Радио и связь, 1987. - 120 с.

7. Кравченко. Ю.А. Информационное геомоделирование: модели и методы: [монография] / Ю.А. Кравченко - Новосибирск: СГТА, 2008. - Книга 2, Часть 2 - 316 с.

8. Цейлер М. Моделирование нашего мира: пособие Esri® по проектированию баз геоданных : Пер. с англ. / М. Цейлер. - К. : ЕСОММ, 2003. - 254 с.

Ковгар В.Б. Моделирование пространственно распределенных динамических систем с применением геоинформационной технологии Esri / В.Б. Ковгар, Р.С. Филозоф // Ученые записки Таврического национального университета имени В.И. Вернадского. Серия: География. - 2012. -Т. 25 (64). - № 1-С.129-135.

Приведен обзор существующих методов моделирования пространственно распределенных динамических систем. Обосновано их применение для повышения эффективности работы с пространственно распределенными данными. Рассмотрены способы накопления и хранения значительных массивов пространственно распределенных данных. Предложена методика решения поставленной задачи. Приведен перечень предметных областей, в которых возможно применение данной методики.

Ключевые слова: моделирование, статистические данные, динамические системы, пространственно распределенные данные, ГИС.

Kovgar V.B. Modeling of spatially distributed dynamic systems using GIS-technology Esri / V.B. Kovgar, R.S. Filozof // Scientific Notes of Taurida National V. I. Vernadsky University. - Series: Geography. - 2012. - Vol. 25 (64). - № 1 - P. 129-135.

Provides an overview of existing methods for modeling spatially extended dynamical systems. This justified their use to improve performance with spatially distributed data. It provides an overview of the methods of storage of large arrays of spatially distributed data. The method of solving this problem is proposed. A list of subject areas, which may use this technique, is given.

Keywords: modeling, statistics, dynamical systems, spatially distributed data, GIS.

Поступила вредакцию 18.04.2012 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.