Научная статья на тему 'Застосування геоінформаційної технології Esri для моделювання епідеміологічних процесів'

Застосування геоінформаційної технології Esri для моделювання епідеміологічних процесів Текст научной статьи по специальности «Экономика и бизнес»

CC BY
22
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛЮВАННЯ / СТАТИСТИЧНі ДАНі / РЕГРЕСіЙНіЙ АНАЛіЗ / ЕПіДЕМіОЛОГіЧНі ДОСЛіДЖЕННЯ / ГІС

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Ковгар В.Б., Філозоф Р.С., Савченко М.О.

В статті описаний досвід практичного застосування геоінформаційної технології Esri для моделювання епідеміологічних захворювань. Використання авторами вбудованого в ArcGIS інструменту експлораторної регресії дозволило визначити потенційні фактори, що впливають на розвиток захворюваності, та з’ясувати величину їх впливу.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Застосування геоінформаційної технології Esri для моделювання епідеміологічних процесів»

Ученые записки Таврического национального университета имени В.И.Вернадского Серия «География». Том 26 (65). 2013 г. № 1, С. 86-95.

УДК 004.942

ЗАСТОСУВАННЯ ГЕО1НФОРМАЦШНО1 ТЕХНОЛОГИ ESRI ДЛЯ МОДЕЛЮВАННЯ ЕП1ДЕМЮЛОПЧНИХ ПРОЦЕС1В

Ковгар В. Б.1, ФЫозоф Р. С.1, Савченко М. О.2

ПрАТ«ЕСОММ Со», Кшв, Укршна

2Кшвський нащональний ушверситет буд1вництва i архтектури, Кшв, Украта

E-mail: info@ecomm.kiev.ua1

В статт описаний досвщ практичного застосування геошформащйио1 технологи Esri для моделювання етдемюлопчинх захворювань. Використання авторами вбудованого в ArcGIS шструменту експлораторно! регресп дозволило визначити потенцшш фактори, що впливають на розвиток захворюваноси, та з'ясувати величину ix впливу.

Ключов1 слова: моделювання, статистичш данi, регресiйнiй аналiз, епiдемiологiчнi дослщження, Г1С.

ВСТУП

У св^овш практищ при оцшщ якост життя людей на перше мюце висуваеться стан 1хнього здоров'я, оскшьки саме воно е основою повноцшного життя i д1яльност1, як кожно! людини, так i суспiльства в цiлому.

З давшх часiв людство зазнавало вплив багатьох шфекцшних захворювань, а спалахи епiдемiй холери, чуми, тифу, грипу та in. забирали сотнi тисяч житпв. В останнi роки, вченими були виявлеш новi види вiрусiв. В процесi глобальних змiн ктмату, глобалiзацil, освоення територiй проблема не зменшуеться, а навпаки загоетрюеться. Збшьшення мiграцil людей призводить до швидкого поширення iнфекцil не лише iз кра1ни в кра!ну, але й мiж рiзними континентами. Надто сприятливi умови для розвитку епiдемiй виникають при неврожаях, стихшних лихах, вшнах, коли вiдбуваються безперервнi пересування людських мас ^женщ, вiйськовi та ш.), оскiльки проблематичним стае здiйснення заходiв оздоровчого та протиепiдемiчного характеру.

Тому, враховуючи щ фактори, перед сучасними епiдемiологами гостро постала необхiднiсть моделювання i прогнозування процесiв поширення захворювань, щоб оперативно i адекватно реагувати на ешдемюлопчну ситуацiю.

В останш десятилiття для контролю стану населення i прийняття найбiльш ефективних заходiв щодо пiдтримання та полiпшення здоров'я людей i запобiгання загроз ешдемш небезпечних хвороб, все бiльш широко застосовуються геошформацшш технологil . Базовi термiни та методичнi засади, на яких спиралося дослiдження описанi в роботах [1-5]. Метою даного дослщження е виявлення факторiв, що впливають на захворювашсть населення гострими ресшраторними вiрусними iнфекцiями та грипом, i застосування iнструментiв ArcGIS (Esri, США), зокрема експлораторно1 регресil, для визначення величини !х впливу. Об'ектом дослщження е територiя Укра1ни, в якосп таксономiчних одиниць виступають 24 адмшютративш областi та АРК Крим (без урахування мiст обласного значення Кшв

та Севастополь). Для досягнення поставлено!' мети необхiдне вирiшення наступних задач: оцiнка та перетворення доступних статистичних даних з метою створення селективно1 статистично1 вибiрки даних, попереднш аналiз факторiв та величини ix впливу, пошук оптимально! комбiнацiï факторiв та моделей, що описують взаемозв'язок мiж незалежними змiнними (факторами) та залежною змiнною (заxворюванiстю населення).

ВИКЛАДЕННЯ ОСНОВНОГО МАТЕР1АЛУ

Теxнологiчний прогрес привiв людство до нового етапу в розвитку засобiв i методiв обробки даних. Потш нових iдей, яю витiкають iз сфери комп'ютерних наук, утворених на межi статистики, теори баз даних i штучного штелекту, призводить до значного зростання об'ему iнформацiï. З'являеться необxiднiсть аналiтичноï обробки надвеликих об'eмiв даних, накопичуваних в шформацшних сховищах даних (Data Warehousing). Дана область отримала назву KDD (Knowledge Discovery In Databases - виявлення знань в базах даних). Сьогодш можна спостер^ати зростання кшькосп програмних продуктiв, в яких застосоваш теxнологiï KDD, а також тишв задач, де використання даних технологш дае вагомий економiчниx ефект. Елементи автоматично].' обробки та аналiзу даних стають невiд'емною частиною концепцiï електронних сховищ даних. Основним кроком KDD щодо опрацювання вмiсту електронних сховищ даних е Data Mining (виявлення прихованих закономiрностей або взаемозв'язкiв мiж змiнними у великих масивах необроблених даних). Не рщко, iнтелектуальний аналiз даних i KDD вважають синошмами Data Mining, але фактично Data Mining е основним, але не единим елементом в множит KDD. Data Mining - це процес виявлення в сирих даних рашше невщомих, нетривiальниx, практично корисних i доступних штерпретацш знань, необxiдниx для прийняття рiшень в рiзниx сферах людськоï дiяльностi. Як правило, подшяеться на задачi класифiкацiï, моделювання та прогнозування.

Основу методiв Data Mining складають рiзноманiтнi методи класифiкацiï, моделювання i прогнозування, основанi на використаннi дерев ршень, нейронних мереж, генетичних алгоршмв, еволюцiйного програмування, асоцiативноï пам'ятi, нечiткоï логiки. До методiв Data Mining нерщко вiдносять статистичнi методи (дескриптивний аналiз, кореляцiйний та регресiйний аналiз, факторний аналiз, дисперсiйний аналiз, компонентний аналiз, дискримiнантний аналiз, аналiз часових рядiв). Одне з найважливiшиx призначень методiв Data Mining полягае в наглядному представлены результатiв обчислень, що дозволяе використовувати шструменти Data Mining особами, що не мають спецiальноï математичноï пiдготовки. В той же час, використання статистичних методiв аналiзу даних вимагае володiння знаннями теори ймовiрностей та математичноï статистики.

В даному дослщженш було прийнято ршення використовувати один iз методiв Data Mining - регресшний аналiз. Регресшний аналiз - роздiл математичноï статистики, що об'еднуе практичш методи дослщження регресiйноï залежностi мiж величинами по статистичним даним. Його мета полягае у визначенш загального

вигляду piB^HM регресй, побудовi оцiнок невщомих napaMeTpiB, що входять у piB^HM регресй, i пеpевipцi статистичних гшотез про pегpесiю. При вивченнi залежност мiж двома змiнними за результатами спостережень (x1, y1), ..., (xn, yn) у вiдповiдностi з теоpieю регресй передбачаеться, що одна з них Y мае деякий розподш ймовipностей при фiксованому значеннi Х шшо!. На користь даного методу зйрав той факт, що починаючи з версй ArcGIS 10.1, в набоpi Моделювання просторових взаемовiдношень (Modeling Spatial Relationships) е набip шструмештв, що дозволяе виконувати експлоpатоpну/дослiдницьку регресда (Exploratory regression) стосовно просторових об'екпв (тобто геокодованих або таких, що мають геопросторову прив'язку) та !х характеристик.

Регpесiйний аналiз може застосовуватись для розв'язання багатьох прикладних задач в piзних сферах. Зокрема для медично! сфери - вiн може бути використаний для задач аналiзу та прогнозування епiдемiологiчних захворюваностей, виявлення фактоpiв, що впливають на li поширення i визначення величини !х впливу.

1снуе три першопричини використання pегpесiйного аналiзу:

- змоделювати певне явище, щоб краще його зрозум1ти, i можливо, використати це розумшня для впливу на пол1тику прийняття р1шення;

- змоделювати певне явище, щоб спрогнозувати його на шшш мсцевосп або в 1нший час (основною метою е побудова прогнозно! модел1);

- для перев1рки гшотез (наприклад, чи е залежшсть м1ж показником доходу людей i показником р1вня захворюваност1).

У контекстi геошформатики та на основi геоiнфоpмацiйних систем (Г1С) pегpесiйний аналiз дозволяе моделювати, дослщжувати ситуацiю, що склалася й аналiзувати пpостоpовi взаемозв'язки, а також виявляти фактори, що впливають на щ пpостоpовi взаемини. Регpесiйний аналiз використовуеться також i для моделювання припущень про можливiсть здiйснення будь-яко! (просторово!) подii в майбутньому.

1нструменти з даного набору припускають два методи виршення таких питань: метод найменших квадpатiв (МНК, англ. OLS - Ordinary Least Squares) i геогpафiчно зважена pегpесiя (ГЗР, англ. GWR - Geographically Weighted Regression). МНК, найбшьш поширений метод створення pегpесii, е вiдпpавною точкою для вшх методiв просторового аналiзу. Вш дозволяе створити загальну модель подй (pаннi смеpтi/сильний дощ та ш), i створюе одне загальне piвняння pегpесii для моделювання дослiджуваноi подй. ГЗР - один з вцщв просторового аналiзу, останнiм часом все частше використовуеться для виpiшення анал^ичних задач в геогpафii та шших дисциплiнах. Вiн створюе локальну модель змшно! або процесу, яку ви хочете передбачити, створюючи piвняння для кожного з паpаметpiв. При коректному використанш цi методи надають надшний i потужний статистичний апарат для дослщження або оцiнки лiнiйних взаемозв'язюв.

Лiнiйний взаемозв'язок може бути прямим або зворотшм. Якщо при збшьшенш температури повiтpя збiльшуеться i кшьюсть нещасних випадкiв, то це позитивне взаемовщношення i пряма коpеляцiя. 1нший спосiб описати цей же прямий взаемозв'язок - сказати, що кшьюсть нещасних випадкiв зменшуеться при зниженш температури повiтpя.

Кореляцiйний аналiз та графши взаемозв'язку явищ показують, наскiльки сильно два явища залежать один вщ одного. Регресiйний аналiз, в свою чергу, дозволяе отримати ще бшьше iнформацiï про взаемозв'язок явищ. Цей анатз дозволяе показати вплив, з яким одна або кшька змшних можуть потенцiйно викликати позитивну або негативну змiну iншоï змiнноï.

Створення регресiйноï моделi - це послщовний процес, який включае пошук ефективних незалежних змiнних для пояснення тих процешв, якi ви намагаетеся змоделювати або зрозумiти. Це управлiння шструментом регресiï для визначення змiнних, найбшьш ефективних для пророкувань явищ, i, потiм, видалення i додавання змшних з метою створення найкращо1' моделi для побудови припущення.

Для впровадження будь-яко1' Г1С необхiднi данi, отримання яких часто е непростою задачею i вимагае значних зусиль. Оскшьки джерелами даних для подiбного моделювання в iдеальному випадку е значш масиви статистичних даних спостережень за станом певних об'екпв дослiдження. При цьому, чим бшьша статистична вибiрка береться до уваги i чим бшьше факторiв впливу на залежт змiннi буде виявлено, тим точшшою буде модель оцiнки 1'х динамши.

Переконатись в цьому стала нагода з самого початку роботи. Державними статистичними органами для широкого загалу в мереж 1нтернет публiкуються статистичш данi за рiзними соцiально-економiчними критерiями. Але виявилось, що для даного дослщження таких даних недостатньо. Знаходження необидних даних виявилось все ж можливим, але було ускладнене рiзноманiтними процедурами звернень до офщшних шстанцш (санiтарно-епiдемiологiчнi служби, центру монiторингу захворюваностей та iн.) та супроводжувалась непродуктивною втратою часу.

В той же час, якщо звернути увагу на досвщ iнших розвинених держав, можна спостершати, що дане питання може виршуватись значно легше i швидше. Ршенням дано1' та багатьох iнших проблем, було б створення в крата загальнодержавних геопорталiв та сховищ даних, де користувач мш би знайти вс необхiднi данi для анатзу. У якостi прикладу можна зауважити iнiцiативний проект Африканського банку розвитку - 'Information Highway', яка суттево розширить доступ до офiцiйноï статистики 54-х краш i 16-ти мiжнародних органiзацiй Африки. Змiст проекту передбачае, що на основi даних, яю акумулюються на аналiтичних iнтернет-порталах, вс зацiкавленi особи i органiзацiï зможуть приймати ефективш й зваженi пол^ичш i економiчнi рiшення (завершення проекту намiчене на кiнець липня 2013 року).

Традицшно данi для дослщжень у медицинi отримують з таких джерел:

1. Демограф1чна шформащя. G одшею з ключових в медичних дослщженнях, оскшьки мютить шформащю про структуру та розподш мюць перебування людей, ïx в1ков1 характеристики людей i зайнятють.

2. Економ1чш та сощальш показники якост життя людей, розвитку сощально'1 шфраструктури.

3. Статистичш даш медичних заклад1в. Кшькють спалах1в i випадюв захворюваностей за р1зними категор1ями.

В результат на етат збору шформацй було сформовано початкову вибipку даних. Захворювашсть населення, як предмет дослщження, та набip фактоpiв, що ймовipно впливають на кiлькiсть випадкiв захворюваносп. На основi наявних статистичних даних в якост пpомiжку часу було обрано штервал в 5 роюв. В пеpiод з 1995 по 2010 рш вдалося отримати дат по таким факторам/показникам:

- кшьюсть мюького, сiльського, дитячого та дорослого населення;

- кшьюсть випадкiв захворюваностей ГРВ1 та грипом;

- економiчно активне населення вiком 15-70 роюв;

- кiлькiсть незайнятих трудовою дiяльнiстю громадян;

- сеpедньоpiчна кiлькiсть по!здок в мiському тpанспоpтi одше1 особи;

- забезпеченють населення лiкаpями в розрахунку на одну особу;

- кшьюсть викцщв забруднюючих речовин в атмосферне пов^ря;

- р1вень зареестрованого 6езро61ття (вщношення кшькосп безробггних, зареестрованих у державнш служб1 зайнятосп до середньор1чно'х' кшькосп населення працездатного в1ку, у вшсотках);

- середньомюячний грошовий дохш населення;

- кшьюсть мюького населення;

- м1грацшний прирют;

- р1вень смертность

Перед використанням алгорштшв Data Mining необхiдно провести тдготовку набору даних для подальшого аналiзу. Так як iнтелектуальний аналiз даних може виявити лише пpисутнi в даних закономipностi, вихiднi данi з одше1 сторони повиннi мати достатнш обсяг, щоб цi закономipностi в них були присутш, а з шшого - бути достатньо компактними, щоб аналiз зайняв прийнятний перюд часу. Найчастiше в якостi джерел вихщних даних виступають сховища або в^рини даних. Пiдготовка необхiдна для аналiзу багатовимipних даних до кластеризацй або iнтелектуального аналiзу даних.

Наступним етапом е очищення даних. Очищення видаляе шуми i вибipки з пропущеними даними. Ряд алгоpитмiв вмдать обробляти пpопущенi данi, що мають прогностичну силу. Скажiмо, при використанш методу асоцАативних правил, обробляються не вектори ознак, а набори змшно1 pозмipностi. Вибip цiльовоl функцil буде залежати вiд того, що е метою аналiзу; вибip «правильно1» функцй мае основоположне значення для устшного iнтелектуального аналiзу даних. На даному еташ, було використано аналiз фактоpiв за методом МНК для виявлення найкращо1 !х комбiнацil та вщсдавання менш значущих фактоpiв. Також було використано один iз найефективнiших методiв аналiзу iнфоpмацil за допомогою Г1С, що дае змогу оцiнити загальну картину i стан того, чи шшого явища - подання ii у виглядi piзноманiтних карт, каpтодiагpам та гpафiкiв (рис.1).

Рис.1. Карта нев'язок МНК, що сприяе виявленню просторово! автокореляцп.

Esri ArcGIS ArcMap забезпечуе доступ до великого числа схем класифшаци та кольорiв, якi можна використовувати для видшення рiзних аспекпв даних. KpiM того, компанiя Esri у 10-й верси ArcGIS запровадила тдхвд до обробки та вiзуалiзацii даних Г1С у часовому вимiрi, що дозволяе застосовувати цi нововведення для моделювання просторово-розподiлених динамiчних систем.

В результат iнструменти регресiйного анашзу виявили кореляцiйну залежнiсть мiж первинними факторами та кшьюстю випадкiв захворюваност грипом i ГРВ1.

Статистично значимими факторами виявились:

- кшьюсть мiського населения,

- середиьомiсячиий грошовий дохiд населення,

- рiвень зареестрованого безроб1ття (вiдношення кiлькостi безробiтних, зареестрованих у державнш службi зайнятостi, до середньорiчноi кiлькостi населення працездатного вшу, у вщсотках),

- кiлькiсть викидiв забруднюючих речовин в атмосферне пов1тря,

- забезпеченiсть населення лiкарями в розрахунку на одну особу,

- середньорiчна кшьюсть по!здок в мюькому транспортi одта особи.

Створення регресшно! моделi являе собою iтерацiйиий процес, спрямований на

пошук ефективних незалежних змшних, щоб пояснити залежнi змшш. Покрокове видалення та/або додавання змшних вщбуваетъся до тих пiр, поки не буде знайдено найбiльш прийнятну регресiйну модель. Оскiльки процес створення моделi часто мае характер окремого дослщження, вiн мае враховувати теоретичш аспекти, думку експертiв у цш галузi i здоровий глузд (common sense).

МНК е вщправною точкою для вшх видiв просторового регресшного аналiзу. Вiн забезпечуе побудову глобально! моделi змiнноi або процесу i створюе його рiвняння регресii. Запускаючи комбiнацii по 6 факторiв було виявлено, яю з них е найбшьш значущими.

Анатз результат МНК засвщчив, що розподш величин не е нормальним, а також, що мiж обраними факторами присутне явище мультиколiнеарностi (начебто незалежш змiннi фактично мiж собою корелюють). Подiбний розподiл негативно вплинув би на яюсть результату, тому даш необхiдно було наблизити до нормального розпод^ за допомогою логарифмiчного трансформування (рис.2). В той же час, очевидно, що для кшцево! моделi необхiдно обрати набiр нескорельованих мiж собою факторiв.

Рис.2. Аналiз розподшу даних мiського населення за допомогою шструменту Гiстограма до трансформацп (злiва) та пiсля трансформацп (справа).

На наступному етат, пiсля дослiдження того, яю фактори мають бути трансформоваш, та !х трансформування, було застосовано шструмент Дослщницько!/Експлораторно! регреси. Змiнюючи вихщш параметри для проходження моделей, в результат було визначено оптимальнi вихщш параметри, при пiдстановцi яких отримано 3 модель 1з запропонованих обрано ту, яка мала найкращi показники. В результат отримали модель, що з достовiрнiстю 90% описуе 50% випадюв захворюваностi на 1995 рш. Точнiсть моделювання на пряму залежить вiд якостi та достовiрностi вихщних даних. Отримана модель мае бути перевiрена на iншiй статистичнiй вибiрцi, в даному випадку на даних по захворюваност за iншi роки, щоб перевiрити чи дiють И залежност не лише для цього набору даних, а дшсно описують дослiджуване явище. Якщо данi взаемозв'язки будуть шдтверджеш - з'явиться можливють прогнозу на майбутне.

ВИСНОВКИ

Для отримання корректного результату моделювання необхщно виконати ряд умов, серед яких ключовими е створення селективно! вибiрки даних та пiдбiр оптимально! модель Щодо першо! умови, то, нажаль, з огляду на закритiсть або недоступшсть джерел iнформацi! надзвичайно важко отримати всi необхiднi данi та перевiрити ймовiрнi фактори впливу на сумюшсть. Щодо друго! умови - шструмент Дослщницько!/Експлораторно! регресi! (Ехр1ога1огу Яе§ге88юп) е цiнним засобом аналiзу даних, який дозволяе знайти правильну модель процесу. За умови вибору потенцшно незалежних змiнних дослiдницько! регресi!, обгрунтованих теорiею, думками експертiв i здоровим глуздом, корректного транформування даних цшком можливо виявити взаемозв'язки мiж змшними та пiдiбрати правильну модель, що описуе дослщжуване явище, що е розподшене у просторi i чась

За результатами проведеного дослiдження можна зробити наступи висновки:

- пошук даних та створення нормальное' статист^но^' вибiрки е, мабуть найважлившим i в той же час найскладшшим етапом;

- за вибiркою, що вдалось скласти виявлеш залежностi рiзноi сили впливу;

- бшьша частина незалежних змшних в тiй чи iншiй мiрi корелюе iз залежною, в основному простежуються кореляцп лiнiйного характеру;

- за результатами роботи було знайдено модел^ що описують дослщжуване явище.

Визначення точних значень величин впливу незалежних змшних на залежну змшну, щодо знаходження вiрноi регресiйноi моделi i можливостi складання епiдемiологiчного передбачення на майбутне, на даний час залишаеться вiдкритим питанням, оскiльки потребуе бшьше часу i, можливо, додаткових даних для розширення статистичноi вибiрки. Крiм того, в подальшому можливе застосування бiльш складних методiв нелiнiйноi регресii для бiльш точного визначення залежносей мiж факторами впливу та вихщною змiнною.

Список лiтератури

1. Гохман В.В. ГИС в здравоохранении и медицине / Гохман В.В. [Электронный ресурс] -http://dataplus.ru/news/arcreview/detail.php?ID= 8329&SECTION_ID=265.

2. В'юн В.1., Кузьменко Г.С., М1хненко Ю.А., Архтектурш засади систем мошторингу та прогнозування // Математичш машини i системи, 2011, № 3, с.40-46.

3. Пшеничний О.Ю. Анал1з сучасних програмних засоб1в моделювання поширення в1русних захворювань / О.Ю. Пшеничний, 1.М. Чорней, Н.Б. Шаховська, В.В. Литвин // 1нформацшш системи та мереж1 : [зб1рник наукових праць] / - Льв1в.: Видавництво Нащонального ушверситету "Льв1вська пол^ехшка", 2010. - 396 с.: ш. - (Вюник / Нацiоиальиий ушверситет "Льв1вська пол^ехшка"; № 673). - C. 154-162.

4. Data Mining - интеллектуальный анализ данных / Информационные технологии. [Электронный ресурс] - http://www.inftech.webservis.ru/it/database/datamining/ar2.html.

5. Data_mining - [Электронный ресурс] - http://ru.wikipedia.org/wiki/Data_mining.

6. Data Mining: What is Data Mining? [Электронный ресурс] -http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.htm.

7. Big data. [Электронный ресурс] - http://en.wikipedia.org/wiki/Big_data.

8. Справка ArcGIS 10.1. Картографирование данных. [Электронный ресурс] -http://resources.arcgis.com/ru/help/main/10.1/index.html#/na/005p00000002000000.

9. Св^личний О.О., Плотницький С.В. Основи геошформатики. Вiзуалiзацiя шформацп в Г1С. Методи i технологи вiзуалiзацii шформацй в Г1С. [Электронный ресурс] -http://geoknigi.com/book_view.php?id=611.

10. Справка ArcGIS 10.1. Основы регрессионного анализа. [Электронный ресурс] -http://resources.arcgis.com/ru/help/main/10.1/index.html#/na/005p00000023000000/.

11. Справка ArcGIS 10.1. Интерпретация результатов инструмента Исследовательская регрессия (Exploratory Regression). [Электронный ресурс] -http://resources.arcgis.com/ru/help/main/10.1/index.html#/na/005p00000052000000/.

Ковгар В.Б. Применение геоинформационной технологии ESRI для моделировани эпидемиологических процесов / В.Б. Ковгар, Р.С. Филозоф, М.А. Савченко // Ученые записки Таврического национального университета имени В.И. Вернадского. Серия: География. - 2013. -Т. 26 (65). - № 1- С. 86-95.

В статье описано применение геоинформационной технологии Esri для моделирования эпидемиологических заболеваний. Предложено использование регрессионного анализа для определения факторов, потенциально влияющих на развитие заболеваемости, и определение степени их влияния.

Ключевые слова: моделирование, статистические данные, эпидемиологические исследования, регрессионный анализ, ГИС.

MODELLING OF EPIDEMIOLOGICAL PROCESSES USING GIS-

TECHNOLOGY ESRI Kovgar V. B.1, Filozof R. S.1, Savchenko M. O.2

'npAT«ECOMM Co», Kiev, Ukraine

2Kiev National University of construction and architecture, Kiev, Ukraine

E-mail: info@ecomm.kiev.ua1, savchenko.mariya.a@gmail.com2

The article describes GIS-application for modelling of epidemiological processes based on Esri-technology. The purpose of the research was to identify factors that affect Ukrainian people acute respiratory viral infections and flu morbidity by ArcGIS (Esri, USA) tools, including Exploratory Regression, and to determine the magnitude of their impact. The object of research is located on territory of Ukraine. As taxonomic units there are 24 administrative regions and the Autonomous Republic of Crimea (excluding Kyiv City and Sevastopol). Creation of a regression model is an iterative process, aimed at finding effective independent variables, to explain the target dependency. The process goes on until an appropriate high quality model be found. Ordinary Least Squares (OLS) is the starting point for spatial regression analysis. It provides a global model of the phenomenon/process and creates a single regression equation to represent that phenomenon/process. Analysis of OLS showed that the distribution of values is not normal and between selected factors present phenomenon of multicollinearity (independent variables are correlated each other). Such distribution would have negatively affected the quality of the results, and the data had to be lead to the normal distribution by using logarithmic transformation. To achieve good results for the final model had to be selected a set of factors without a correlation each other. After researching what factors need to be transformed, and their transformation tool Exploratory Regression tool was applied. By varying the initial parameters for passing models, optimal output parameters were found and 3 models were received. Of the received models was selected one with the best options. The model should be tested in other statistical sample, on the statistic data for other years to see if its dependencies are correct not just for prime data set, and really describe the phenomenon. For getting correct results of modelling, a number of conditions must be performed, among them are the creation of selective data retrieval and the selection of the optimal model. According to the first condition, unfortunately, due to the closure or unavailability of information sources, to obtain all the necessary data and to check the likely impacts on compatibility is extremely difficult. As for the second condition - tool Exploratory Regression is a valuable tool data analysis that allows finding the correct model of the phenomenon/process. Determining accurate values of variables impact of independent variables on the dependent variable, finding the correct regression model and the possibility of drawing epidemiological predictions for the future, requires a lot of time and more quality statistic data. In the further possible to use more sophisticated methods like nonlinear regression to a more precise definition of dependence between factors of influence and output variables.

Keywords: modelling, statistics, epidemiological research, regression analysis, GIS.

References

1. Hochman V.V., GIS for public health and medicine Retrieved from http://dataplus.ru/news/arcreview/detail.php?ID= 8329&SECTION_ID=265.

2. Vyun V.I., Kuz'menko G.E., Mihnenko Y.A., Architectural Principles of monitoring and forecasting. Mathematical Machines and Systems,No. 3, p.40-46 (2011).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Pshenuchnuy O.U., Chorney I.N., Shakhovska N.B., V.V. Litvin, Analysis of modern software tools for modelling the spread of viral diseases .Information Systems and Networks. Lvivska politechnika. p.396

4. Data Mining . Information Technologies. Retrieved from http://www.inftech.webservis.ru/ it/database/datamining/ar2.html.

5. Data_mining. Retrieved from http://ru.wikipedia.org/wiki/Data_mining.

6. Data Mining: What is Data Mining? Retrieved from - http://www.anderson.ucla.edu/faculty /jason.frand/teacher/technologies/palace/datamining.htm.

7. Big data. Retrieved from http://en.wikipedia.org/wiki/Big_data.

8. ArcGIS Help 10.1. Map the data. Retrieved from http://resources.arcgis.com/ru/help/main/10.1/ index.html#/na/005p00000002000000.

9. Svitlychnyi A.A., Plotnutskuy S.V., Basics of Geoinformatics. Information Visualization in GIS. Information visualization methods and technologies in GIS. Retrieved from http://geoknigi.com/book_view.php?id=611.

10. ArcGIS Help 10.1. Regression analysis basics. Retrieved from http://resources.arcgis.com/ ru/help/main/10.1/index.html#/na/005p00000023000000/.

11. ArcGIS Help 10.1. Interpreting Exploratory Regression results (Exploratory Regression). Retrieved from http://resources.arcgis.com/ru/help/main/10.1/index.html#/na/005p00000052000000/.

nocmynurn e pedaKU,uw 25.04.2013 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.