Научная статья на тему 'Proposition of hybrid process model semi structured description of event from fire services rescues operation'

Proposition of hybrid process model semi structured description of event from fire services rescues operation Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
88
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
AYES CLASSIFIER / NAIVE BAYES CLASSIFIER / TEXT MINING / TEXT REPRESENTATION / REPRESENTATION OF REPORTS / CASEBASED REASONING / ONTOLOGY FOR RESCUE SERVICE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Mirończuk Marcin Michał, Maciak Tadeusz

В разработке были представлены актуально разрабатываемые представления знаний и способы описаний событий для системы дедукции на основе примеров случаев спасательных команд Государственной Пожарной Службы. В статье был предложен способ их обработки. Указанный способ существует на основе классификации и поиска описаний событий.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

This paper describes a review of actual developed knowledge representation and case representation for fire services cases based reasoning system. The article also describes a method of processing the cases of events. This processing method based on classification and information retrieval.

Текст научной работы на тему «Proposition of hybrid process model semi structured description of event from fire services rescues operation»

mgr inz. Marcin Michal MIRONCZUK1 dr hab. inz. Tadeusz MACIAK2

PROPOZYCJA MIESZANEGO PRZETWARZANIA POLSTRUKTURALNEGO MODELU OPISU ZDARZEN Z AKCJI RATOWNICZO-GASNICZYCH PANSTWOWEJ STRAZY

POZARNEJ PSP3

Proposition of hybrid process model semi structured description of event from

fire services rescues operation

Streszczenie

W opracowaniu przedstawiono aktualnie rozwijane reprezentacje wiedzy i sposoby opisow zdarzen, dla systemu wnioskowania na podstawie przypadkow zdarzen sluzb ratowniczych Panstwowej Strazy Pozarnej PSP. W artykule zaproponowano sposob ich przetwarzania. Przedstawiony sposob bazuje na klasyfikacji i wyszukiwaniu opisow zdarzen.

Summary

This paper describes a review of actual developed knowledge representation and case representation for fire services cases based reasoning system. The article also describes a method of processing the cases of events. This processing method based on classification and information retrieval.

Slowa kluczowe: klasyfikator Bayesa, naiwny klasyfikator Bayesa, eksploracja tekstu, reprezentacja tekstu, reprezentacja meldunkow, wnioskowanie na podstawie przypadkow, reprezentacja przypadkow zdarzen, ontologia sluzb ratowniczych; Keywords: Bayes Classifier, Naive Bayes Classifier, text mining, text representation, representation of reports, case-based reasoning, ontology for rescue service;

1. Wprowadzenie

W Panstwowej Strazy Pozarnej PSP forma po-wstajacych raportow sporz^dzanych po kazdej ak-cji ratowniczo-gasniczej jest regulowana przez Roz-porz^dzenie Ministra Spraw Wewnçtrznych [1]. Na podstawie tego rozporz^dzenia utworzona zosta-la w formie papierowej karta Informacji ze zdarze-nia. Stanowi ona raport ze zdarzenia z akcji ratow-niczo-gasniczej i jest czçsciowo ustrukturyzowana. Czçsciowa strukturyzacja polega na tym, ze istnie-je mozliwosc wprowadzenia i sprawdzenia informacji o takich elementach akcji ratowniczo-gasniczej, jak np.: czas zdarzenia, czas dzialan ratowniczych, rodzaj prowadzonych dzialan, rodzaj uzytego sprzç-tu, miejsce prowadzonych dzialan, dane o budynku lub pomieszczeniu, w ktorym powstalo zdarzenie, etc. Kierjcy Dzialaniami Ratowniczymi (KDR),

1 Instytut Podstaw Informatyki PAN, Zespol Podstaw Sztucznej Inteligencji

2 Politechnika Bialostocka, Wydzial Informatyki

3 Wklad procentowy autorow w powstanie artykulu wyniosl 80% - M. Mironczuk i 20% - T. Maciak.

po kazdej akcji wypelnia taki raport, umieszczaj^c w nim odpowiednie informacje dotycz^ce podjç-tych dzialan. KDR ma takze mozliwosc wprowadze-nia dodatkowych informacji dotycz^cych zdarzenia, ktore nie zostaly uwzglçdnione w karcie, do sekcji zatytulowanej - Dane opisowe do informacji ze zdarzenia. Sekcja ta podzielona jest na szesc podpunk-tow: opis przebiegu dzialan ratowniczych (zagroze-nia i utrudnienia, zuzyty i uszkodzony sprzçt), opis jednostek przybylych na miejsce zdarzenia, opis tego, co uleglo zniszczeniu lub spaleniu, warunki at-mosferyczne, wnioski i uwagi wynikaj^ce z przebiegu dzialan ratowniczych oraz inne uwagi dotycz^-ce danych z pierwszej czçsci formularza. Ze wzglç-du na to, ze zawartosc poszczegolnych podpunktow tej sekcji jest wyrazona za pomoc^. jçzyka naturalne-go w postaci zdan, na ktore skladaj^ siç slowa oraz frazy, zostala ona nazwana czçsciq poiustrukturyzo-wanq.

Na bazie poszczegolnych przypadkow w Ko-mendach Wojewodzkich PSP wykonywane s^ ana-lizy wybranych zdarzen i skladowane w postaci pa-

pierowej. W Komendzie Glownej PSP specjalisci analizuj^ meldunki pod k^tem okreslonych stra-tegicznych zapytan. Przechowywane w PSP opi-sy przypadkow oraz analizy zdarzen w informacyj-nym systemie ewidencji zdarzen EWID [2-4] i w ko-mendach wojewodzkich, s^. tez dokumentami tylko cz^sciowo ustrukturyzowanymi i nie nadaj^. si^ bez-posrednio do przetwarzania komputerowego. Cz^-sciowa strukturyzacja wynika z tego, iz sekcje oraz pola z Karty informacji ze zdarzenia s^. mapowane i przedstawiane w postaci relacji oraz odpowiednich typow danych. Jednak w dalszym ci^gu sekcja Dane opisowe do informacji ze zdarzenia jest reprezento-wana za pomoc^ tekstu opisanego j^zykiem natural -nym. Numeryczn^ analizy tej cz^sci raportu utrudnia fakt, ze szesc wczesniej wymienionych podpunktow

- skladaj^cych si^ na t^. sekcja w wersji papierowej

- w systemie informacyjnym ewidencji zdarzen zo-staje przedstawionych jako pojedynczy rekord danych bez zachowania nalezytego podzialu. Z tego wzgl^du ta cyfrowa sekcja stanowi czqsc nieustruk-turyzowanq. Ewentualne pozyskanie z niej informacji dla KDR jest klopotliwe, a samo przeksztalce-nie jej do uzytecznych przypadkow zdarzen syste-mu wnioskowania na podstawie zdarzen (ang. case-based reasoning - CBR) [5] wymaga zastosowania wielu zabiegow semantycznych. Termin uzyteczne przypadki zdarzen okresla taki zbior przypadkow zdarzen, ktore w sposob czytelny i klarowny dostar-cz^. KDR niezb^dnej wiedzy o zaistnialym zdarze-niu. Wiedza ta ma dotyczyc problemow i zagrozen, jakie niesie ze sob^ powstale zdarzenie, wskazo-wek na co nalezy uwazac, prowadz^c dzialania, oraz mozliwych rezultatow powstalych na skutek wyboru danej strategii likwidacji zagrozenia i realizacji dzia-lan ratowniczych. Wiedza ta ma byc pozyskiwana na podstawie analiz podobnych przypadkow z prze-szlosci zawartych w bazie wiedzy systemu CBR.

W wyniku tego, ze analizy zdarzen wykonywane s^. przez rozne osoby, ktore definiuj^ i opisuj^. zdarzenie wedlug wlasnego postrzegania i za pomoc^. innego slownictwa, powstaje pewnego rodzaju problem semantyczny. Powoduje to, iz do okreslenia tych samych zdarzen stosowane s^ rozne nazwy. Ba-dania wykazuj^, ze przy opisywaniu jednego zagad-nienia jedynie 20% badanych posluguje si^ tym sa-mym slownictwem [6]. Zaleznosc ta nie zmienia si^ znacz^co bez wzgl^du na to, czy badanymi s^. eks-perci w danej dziedzinie, czy tez mniej doswiadczo-ne osoby.

PSP nie stworzyla do tej pory standardowego, ujednoliconego, szerokiego slownika zawieraj^cego poj^cia z zakresu ratownictwa, ktory definiowalby zachodz^ce mi^dzy nimi relacje oraz stanowilby ontologii dla sluzb ratowniczych. Slownik taki poslu-zylby do utworzenia precyzyjniejszej, homogenicz-nej komunikacji i wymiany wiedzy na temat zdarzen z zakresu ratownictwa w obr^bie PSP. Ponadto roz-

norodna interpretacja i opis podobnych wypadkow powoduj^, iz pozyskiwanie informacji z tego typu dokumentow tj. sekcji opisowej systemu EWID i transformacja ich bezposrednio do ustandaryzo-wanego, uzytecznego opisu przypadkow zdarzen w sensie systemu CBR, nie jest do konca mozliwa i wymaga zastosowania technik z zakresu kompute-rowej analizy tekstu.

Aktualnie prowadzone s^. badania zmierzaj^ce do usystematyzowania wiedzy w obr^bie dzialan ra-towniczo-gasniczych przeprowadzanych przez sluz-by ratownicze PSP. Pierwszy kierunek tych badan stanowi^. projekty nad zastosowaniem rozproszone-go wnioskowania przy uzyciu systemu wnioskowa-nia na podstawie przypadkow zdarzen [5, 7, 8] czy tez bardziej kompleksowe rozwi^zania takie, jak hybry-dowy system wspomagania decyzji HSWD [9, 10]. Skupiaj^ si^ one bardziej zarowno na architekturze i komponentach samego systemu, procesach oraz metodach jego projektowania, jak i badaniu jego wydajnosci. Drugi nurt badan dotyczy sposobu po-zyskiwania, budowania przetwarzania wiedzy w sa-mym systemie. Dotyczy wi^c one zagadnien zwi^za-nych z warstw^. nosn^. tj. z reprezentaj i sposobem wykorzystania wiedzy. Dodatkowo w tym obszarze mozna wyroznic dwa trendy. Pierwszy z nich zaj-muje si^ modelowaniem i tworzeniem ontologii dla badanej dziedziny. Drugi natomiast dotyczy analiz nieustrukturyzowanych raportow z sekcji opisowej systemu informacyjnego EWID w celu dostarczenia dodatkowych informacji do budowy ontologii, jak rowniez budowy samych raportow - uzytecznych przypadkow zdarzen systemu CBR. Transformacja raportow z akcji ratowniczo-gasniczych zawartych w systemie informacyjnym EWID - ktore stanowi^. nieprzetworzony w zaden sposob ci^g zdan bez podzialu na ww. sekcje, w polstrukturalne oraz struk-turalne przypadki zdarzen ma odbywac si^ w sposob automatyczny w celu otrzymywania polstruktur oraz polautomatyczny do otrzymywania pelnych struktur. Przypadek zdarzenia poistrukturalny definio-wany jest przez autorow jako cz^sciowo ustruktury-zowana informacja z podzialem na sekcje uzyskane w procesie klasyfikacji. Jego polstrukturalnosc po-lega na tym, ze jest on wyrazony w postaci zdan j^-zyka naturalnego zorganizowanego w sekcje. Orga-nizacja taka okreslona zostala przez autorow jako wiedza, z tego wzgl^du, ze stosuj^c opis informacji wyrazony w postaci np. trojki <opis, zasoby, stra-ty> na temat zagrozenia z ontologii akcji ratowniczo-gasniczych, KDR uzyskuje potrzebne oraz war-tosciowe dane i wskazowki na temat tego, na co na-lezy uwazac i co w przeszlosci sprawialo problemy, jak je likwidowano za pomoc^. dost^pnych sil i srod-kow oraz jakie zostan^. poniesione straty/koszty w wyniku wybranej strategii. Przypadek zdarzenia w pelni ustrukturyzowany definiowany jest przez autorow jako informacja w postaci hierarchii klas

w notacji obiektowej, uzyskana w procesie formal -nej analizy pojçc (ang. formal concept analysis, FCA) przeprowadzonej na sekcji polstrukturalnej. W pewnym sensie jest to prosta odmiana ontologii, przez co moze sluzyc do rozszerzania i uzupelnia-nia obecnie tworzonej ontologii o nowe elementy istotne z punktu widzenia dziedziny, dla ktorej jest tworzona - opisu akcji ratowniczych PSP.

Ogolnie badania nad reprezentacjy wiedzy moz-na podzielic na te, ktore skupiajy siç na tworze-niu modelu opisu pojedynczego przypadku zdarze-nia oraz na te, ktore tworzy calosciowy model opisu zdarzen akcji ratowniczo-gasniczych. Pierwszy model tozsamy jest z przypadkiem zdarzenia lub reprezentacjy przypadku zdarzenia i dotyczy on tworze-nia szablonu (reprezentacji) tego zdarzenia. Drugi model sklada siç z prostego modelu hierarchiczne-go lub ontologicznego Akcje, zawierajycego model pojedynczego przypadku zdarzenia. Zawiera on ko-lekcjç przypadkow, umieszczonych w odpowiednich wçzlach ontologii. Uzycie w tytule artykulu termi-nu polstrukturalny model opisu zdarzen z akcji ra-towniczo-gasniczych wynika z tego, ze do dostçp-nego prostego modelu hierarchicznego interwencji PSP lub bardziej zlozonego wyrazonego w postaci ontologii mozna dolyczyc polstrukturalny przypa-dek zdarzenia. Istotny kwestiy w tak mieszanej reprezentacji staje siç zagadnienie zwiyzane z klasy-fikacjy nowego przypadku zdarzenia oraz wyszuki-waniem informacji na temat podobnych przypad-kow zdarzen.

W niniejszym artykule opisano hybrydowy me-todç opierajycy siç na zastosowaniu klasyfikato-ra Bayesa do klasyfikacji raportow ze zdarzen do odpowiedniego wçzla ontologii oraz zastosowa-niu binarnych miar do wyszukiwania przypadkow zdarzen. W punkcie 2, 2.1 artykulu zostaly przed-stawione i omowione istniejyce i rozwijane hierarchie oraz ontologie dla sluzb ratowniczych PSP jako warstwy nosne wiedzy w systemie CBR. W pod-punkcie 2.2 zaproponowano i zaprezentowano polstrukturalny reprezentacjç opisu przypadku zdarzenia za pomocy rozszerzalnego jçzyka znaczni-kow (ang. extensible markup language - XML). Na-stçpnie w podpunkcie 2.3 pokazano, w jaki sposob

mozna polyczyc ontologiç Akcje, opisujycy akcje ratowniczo-gasnicze PSP, z polstrukturalny repre-zentacjy przypadku zdarzenia oraz pokazano sposob etykietowania przypadkow zdarzen do klas (wç-zlow) ontologii. W punkcie 3. omowiono podsta-wy teoretyczne klasyfikacji. W dalszej kolejnosci w punkcie 4. przedstawiono proces klasyfikacji nowego przypadku zdarzenia do liscia ontologii w po-staci klasy niemajycej wiçcej rozgalçzien. W punkcie 5. ze wzglçdu na zastosowanie binarnej wersji Bayesa oraz binarnego indeksowania przypadkow zdarzen przedstawiono miary binarne sluzyce do wyszukiwania binarnego. W punkcie 6. opisano pro-pozycjç mieszanej metody do klasyfikowania i prze-szukiwania tekstowej bazy przypadkow ze zdarzen (akcji ratowniczo-gasniczych) dolyczonych do ontologii Akcje. Na zakonczenie w punkcie 7. przedstawiono kierunki rozwoju prowadzonych badan oraz wnioski z opisanych w artykule zagadnien.

2. Ontologia oraz przypadki zdarzen - reprezentacja i opis

W podpunkcie 2.1 niniejszego punktu opisano reprezentacjç podzialu akcji ratowniczo gasniczych w postaci ontologii Akcje. W podpunkcie 2.2 przed-stawiono polstrukturalny przypadek zdarzenia. Na-tomiast w ostatnim podpunkcie 2.3 zaprezentowano mozliwosc dolyczania takiego przypadku zdarzenia do wybranej galçzi ontologii Akcje.

2.1. Reprezentacja i opis podzialu akcji ratowniczo-gasniczych - ontologia Akcje

Aktualnie na potrzeby obslugi zdarzen, w postaci akcji ratowniczo-gasniczych przeprowadzanych przez Panstwowy Straz Pozarny powstala koncep-cja, aby opisy zdarzen utrzymywac w rozproszonym systemie CBR, ktory stanowi podsystem do wnio-skowania w HSWD. Warstwa nosna danych i mode-lowanie opisow akcji ratowniczo-gasniczych w sys-temie CBR ma miec prosty postac hierarchiczny lub zlozony ontologiczny [11]. Obie postacie prezentujy kolejno Ryc.1 i Ryc. 2.

Ryc. 1 prezentujyca prosty postac hierarchiczny zawiera jedynie podzial interwencji dokonywa-

Ryc. 1. Fragment podzialu interwencji PSP - prosta postac hierarchiczna [5] Fig. 1. Fragment of the division PSP interventions - simple hierarchical form [5]

Pozary \ Obszary zamieszkafe\. Czas i obszary powi^zane

(Fires) \ (Live area) (Time and related areas)

Zagrozenia lokalne Obszary nie zamieszkate

Sprz^t (Local threats) Fatszywe alarmy (Uninhabited area) (Equipment) (False alarms)

Ryc. 2. Ontologia Akcje [11] Fig. 2. Rescue ontology [11]

nych przez sluzby ratownicze PSP wedlug aktual-nego rozporz^dzenia [1]. Rozszerzon^. jego wersj^. jest reprezentacja ontologiczna Akcje, ktora zawie-ra, rozszerza i modyfikuje ww. reprezentacjç hierar-chiczn^..

Ryc. 2 prezentuje propozycjç ontologii Akcji za-wieraj^c^ w sobie klasç Zagrozenia z dotychcza-sowym podzialem interwencji PSP. Dodatkowymi klasami, ktore pojawiaj^. siç w reprezentacji Akcji, s^: Zasoby PSP, Strefa zagrozenia oraz Abstrakcja. Blizsze szczegoly na temat ontologii i jej tworzenia dla sluzb ratowniczych mozna znalezc w opracowa-niach [11].

2.2. Reprezentacja i opis pojedynczego pôlstrukturalnego przypadku zdarzenia

Pojedynczy polstrukturalny przypadek zdarze-nia z akcji ratowniczo-gasniczej mozna zaprezen-towac za pomoc^. hierarchii, np. wykorzystuj^c do tego rozszerzalny jçzyk znacznikow, a poszczegolne wybrane wçzly hierarchii opisac jçzykiem natural -nym (tekstem). Przyklad szablonu do opisu przypadku zdarzenia z akcji ratowniczo-gasniczej przedsta-wia przypadek zdarzenia 1 zaprezentowany ponizej.

Przypadek zdarzenia 1 Szablon opisu przypadku zdarzenia z akcji ratowniczo-gasniczej The case of event 1 Template description of the rescue events

<?xml version="1.0" encoding="UTF-8"?> <przypadekZdarzenia id="identyfikatorprzypadku"> <sekcja> <opisowa> <ogolna>

<opis>[opis]</opis> <zagrozenia><opis>[opis]</opis></zagrozenia> <utrudnienia><opis>[opis]</opis></utrudnienia> </ogolna> <przyczyny>

<opis>[opis]</opis> </przyczyny> <szkody> <opis>[opis]</opis>

</szkody> <wskazowki> <opis>[opis]</opis> <punktyCzerpaniaWody>

<opis>[opis]</opis> </punktyCzerpaniaWody> </wskazàwki> <dzialania>

<opis>[opis]</opis> </dzialania> <zasoby> <opis>[opis]</opis>

<zuzyte><opis>[opis]</opis></uszkodzone> <uszkodzone><opis>[opis]</opis></uszkodzone> </zasoby>

<warunkiAtmosferyczne> <opis>[opis]</opis> </warunkiAtmosferyczne> </opisowa> </sekcja> </przypadekZdarzenia>

Szablon przypadku zdarzenia z akcji ratowniczo-gasniczej, ktory mozna przechowywac w systemie informacyjnym, powstal na bazie karty Informacji ze zdarzenia, ktorej format regulowany jest przez rozporz^dzenia [1]. Autorzy proponuj^ zmie-nion^. formç oryginalu z rozporz^dzenia [1], a same zmiany polegalyby na tym, ze:

• sekcja opisu przebiegu dzialan ratowniczych (zagrozenia i utrudnienia, zuzyty i uszkodzony sprzçt) z karty zostala zaprezentowana jako sekcja ogolna i dodatkowo rozbita na trzy podsekcje: opis, zagrozenia, utrudnienia;

• sekcja opisu jednostek przybylych na miejsce zdarzenia z karty zostala zaprezentowana jako sekcja zasoby i dodatkowo rozbita na trzy podsekcje: opis, zuzyte i uszkodzone;

• sekcja opisu tego, co uleglo zniszczeniu lub spa-leniu, zostala zaprezentowana jako sekcja szkody;

• sekcja wnioski i uwagi wynikaj^ce z przebiegu dzialan ratowniczych oraz inne uwagi dotycz^-ce danych wypelnianych w formularzu odnosnie zdarzenia z karty zostala zaprezentowana jako

sekcja wskazowki i dodatkowo rozbita na dwie podsekcje opis i punktyCzerpaniaWody.

Sekcja opisu warunkow atmosferycznych z kar-ty Informacja ze zdarzenia pozostala bez zmian i w szablonie reprezentowana jest jako wçzel - wa-runki atmosferyczne. Zabiegi te znacznie poprawiajy czytelnosc reportu i mozliwosc jego przechowywa-nia w postaci cyfrowej w systemie informacyjnym bez utraty informacji o sekcjach, tak jak to jest ak-tualnie w systemie EWID [2, 4]. Jedna dotychcza-sowa sekcja opisowa meldunku ze zdarzenia syste-mu EWID, w ktorej KDR opisywali zdarzenie, za-stçpowana jest przez odpowiednie sekcje. Repre-zentacja meldunku za pomocy tych wydzielonych, powiyzanych sekcji (ryc. 3) do opisu przypadku zdarzenia daje mozliwosc latwego przetwarzania i wy-szukiwania raportow przez system informatyczny w poszukiwaniu konkretnych rozwiyzan na podsta-wie zadanego pytania. Przyjçta reprezentacja logicz-nie oddziela od siebie czçsci raportu, ktore sy zwiy-zane z roznymi aspektami dzialan ratowniczych, przez co latwiej mozna tez tworzyc precyzyjniejsze zapytania i ekstrahowac niezbçdny wiedzç.

2.3. Dol^czanie przypadku zdarzenia do wybranej klasy ontologii Akcje

Przypadki zdarzen opisane za pomocy szablonu zdarzen, mogy zostac dolyczone w ogolnym rozwiy-zaniu do wybranego wçzla hierarchii lub klasy ontologii (kolekcji dokumentow nalezycych do tej samej klasy). W szczegolnych sytuacjach przypadki zda-

rzen mogy byc dolyczane do lisci hierarchii lub klas ontologii, ktore nie posiadajy rozgalçzien. W niniej -szym opracowaniu przedstawiono przypadek szcze-golny dla ontologii Akcje. Do dalszych rozwazan i prezentacji metod klasyfikacji oraz przeszukiwania przyjçto, ze do dyspozycji dana jest galyz ontologii Akcje-Zagrozenia-Pozary i ze bçdy rozpatrywane pozary Lasow oraz Budynkow Mieszkalnych. Wyci-nek rozpatrywanej ontologii przedstawia ryc. 3.

Ryc. 3 prezentuje sposob organizacji przypad-kow zdarzen opisanych za pomocy ogolnego sza-blonu przypadku zdarzenia (przypadek zdarzenia 1) w ontologii Akcje. Do lisci ontologii stanowiycych klasy bez rozgalçzien dolyczane sy konkretne przy-padki zdarzen tj. przypadki zdarzen bçdyce instan-cjy (stanowiyce realizacjç), wypelnionego ogolnego szablonu przypadku zdarzenia. Kazdy z lisci moze zawierac kolekcjç - n takich konkretnych przypad-kow. Przy takiej reprezentacji, etykiety (nazwy klas lisci) stajy siç automatycznie klasami, w metodach klasyfikacji, do ktorych nalezy zaklasyfikowac po-jawiajyce siç, nowe konkretne przypadki zdarzen o nieznanej klasie docelowej.

3. Klasyfikacja tekstowych polstrukturalnych przypadkow zdarzen

Klasyfikacja, nazywana takze kategoryzacjy, do-kumentow tekstowych (ang. text document categorization lub text document classification) [12-16] pole-ga na okresleniu do jakiej grupy dokumentow mozna zaliczyc wybrany tekst lub fragment tekstu (zadany za pomocy tzw. wzorca zapytania Q) w przypadku

Ryc. 3. Organizacja przypadkow zdarzen w lisciach ontologii Akcje [opracowanie wlasne] Fig. 3. The organization of cases in the leaves of the Rescue ontology [own work]

wyszukiwania dokumentow. Celem klasyfikacji jest odnalezienie klasyfikatora, ktory bçdzie dokonywal przyporz^dkowania dokumentow do jednej lub kil-ku z uprzednio zdefiniowanych klas. Klasy te nie s^. definiowane wprost, lecz poprzez zbior trenuj^-cy, ktory stanowi grupa dokumentow juz odpowied-nio zaklasyfikowana rçcznie np. przez ekspertow. W wiçkszosci przypadkow klasy nie s^. zagniezdza-ne, natomiast przyjmuje siç, iz jeden dokument moze nalezec do wiçcej niz jednej klasy. Do kategoryzacji dokumentow tekstowych uzywane s^. takie techniki, jak: drzewa decyzyjne (ang. decission tree), reguly decyzyjne, algorytmy najblizszych s^siadow, klasyfikator bayesowski, sieci neuronowe, metody regresywne czy tez techniki z zakresu maszyn wek-torow wspieraj^cych (ang. suport vector machines - SVM), oraz metody odnajdywania wspolnych pod-grafow w przypadku zastosowania modelu wektoro-wego dokumentow [17]. W niniejszym opracowaniu zostanie przedstawiona koncepcja klasyfikacji mel-dunkow za pomoc^. naiwnego klasyfikatora Baye-sa. Klasyfikator Bayesa zostal zaproponowany do klasyfikacji meldunkow ze wzglçdu na jego prost^ interpretacjç oraz realizacjç aplikacyjn^. Zostal on zaproponowany rowniez dlatego, ze przy wykorzy-staniu reprezentacji przestrzenno-wektorowej doku-mentu i jego kodowaniu Boolowskim, daje on do-bre rezultaty tj. dobrze klasyfikuje nieznane, nowe dokumenty do wydzielonych klas [16]. Klasyfikator ten nadaje siç w szczegolnosci do problemow o bar-dzo wielu wymiarach na wejsciu. Mimo prostoty tej metody, czçsto dziala ona lepiej od innych, bardziej skomplikowanych metod klasyfikuj^cych [18]. Za-daniem klasyfikatora Bayesa jest przyporz^dkowa-nie nowego przypadku do jednej z klas decyzyjnych, przy czym zbior klas decyzyjnych musi byc skon-czony i zdefiniowany a priori. Tak wiçc klasyfikacja polega na wykorzystaniu zbioru dotychczasowych obserwacji w celu ustalenia prawdziwosci nowych hipotez [19] - jest to prawdopodobienstwo a posteriori. Twierdzenie Bayesa wyrazone jest nastçpuj^-cym wzorem [20] :

P( A\B) =

P(B | A)P(A) P( B)

(1)

Gdzie:

- P(A|B) - prawdopodobienstwo warunkowe zajscia zdarzenia A pod warunkiem zajscia zdarzenia B,

- P(B|A) - prawdopodobienstwo warunkowe zajscia zdarzenia B pod warunkiem zajscia zdarzenia A,

- P(A) - prawdopodobienstwo zdarzenia A,

- P(B) - prawdopodobienstwo zdarzenia B,

Na potrzeby niniejszego punktu, rozpatruj^cego uzycie naiwnego klasyfikatora Bayesa do klasyfika-cji dokumentow tekstowych (nowych przypadkow

zdarzen), przyjmowane s^. nastçpuj^ce oznaczenia i zalozenia:

• w.. - wartosc wagi j-tego wyrazenia w i-tym do-kumencie,

• rozpatrywany jest przypadek reprezentacji prze-strzenno-wektorowej tekstu oraz wagi w.. wyra-zen t dla poszczegolnych dokumentow z korpusu dokumentow D, przyjmuje wartosc 0 lub 1 (zostala przyjçta reprezentacja Boolowska dokumentu),

• t1,t2,tj - zbior atrybutow warunkowych, ktore stanowi^ wyrazenia. Wyrazenia tj g T, gdzie Tjest to zbior wszystkich wyrazen opisuj^cych przypa-dek zdarzenia,

• c1,c2,ck - zbior wartosci atrybutow decyzyjnych, nalez^cych do klas decyzyjnych, do ktorych kla-syfikowany jest nowy przypadek opisuj^cy zda-rzenie. Wartosci atrybutow decyzyjnych dla klas ck g C, gdzie C jest to zbior klas decyzyjnych,

• Q - nowy klasyfikowany opis przypadku zda-rzenia, wyrazony w postaci wektora wag wyra-zen. Zapis Q = [t1 = q1 ,...., tj = qj] lub krocej Q = [q1 ,...., qj], oznacza przypisanie wagi qj = 0 lub qj = 1 (reprezentacja Boolowska) dla wyrazen tj wektora Q tj. dane wyrazenie tg T wystçpuje b^dz nie w klasyfikowanym przypadku opisanym za pomoc^. Q.

Posluguj^c siç teori^. Bayesa, mozna wykazac, ze najbardziej prawdopodobn^. klas^, do ktorej zo-stanie zaklasyfikowany nowy przypadek zdarzenia wyrazony w postaci wektora Q, jest klasa ck, kto-ra maksymalizuje prawdopodobienstwo warunkowe P(ck | q1 ,...., qj). Klasa ta oznaczona jest jako aMAP (ang. maximum aposterori) i wyznaczana jest za po-moc^ wzoru 2.

Wzor 2 okresla wybor klasy decyzyjnej ck dla zadanego przypadku okreslonego w postaci wekto-ra wag wyrazen Q. Z ostatniej czçsci wzoru usuniç-to mianownik z tego wzglçdu, iz prawdopodobienstwo q j) ma wartosc stal^, niezalezn^. od klasy decyzyjnej ck, wiçc nie ma ono wplywu na wy-

bor klasy aMAP.

aMAP = arg max P(c k \ q1,...,qj)

ckG_C

a AS/ID

arg max

ctGC

P(q1,...,qj \ ck)P(ck)

P(?1,..., q j )

(2)

aMAP = argmaxP(ql,...,qj \ ck)P(ck)

ckG_C

Maksymalne prawdopodobienstwo a postero-ri (aMAP), ze zbioru tych prawdopodobienstw, sklada siç z iloczynu dwoch czynnikow: • prawdopodobienstwa a priori okreslonego jako P(ck). Prawdopodobienstwo to mozna oszacowac jako iloraz liczby przykladow ucz^cych nk nalez^-cych do klasy ck do liczby wszystkich przykladow ucz^cych n zbioru klas C:

n

P(ck ) = ^

n

(3)

Gdzie:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- nk - liczba przykladow uczycych z k-tej klasy

- n = n cych

• .+nk - liczba wszystkich przykladow uczy-

szansy okreslanej jako P(qi,...,qj | ck) . Szansç mozna oszacowac na dwa sposoby. Pierwszy spo-sob polega na tym, iz P(qi,..., qj | ck ) szacuje siç, dla duzych zbiorow danych treningowych (uczy-cych), jako stosunek liczby przykladow uczycych opisanych wartosciami atrybutow warunkowych [qt ,...., qj] i nalezycych do klasy ck do liczby wszystkich przykladow uczycych z klasy ck. Drugi sposob polega na tym, iz do oszacowania szansy P(qi,..., qj | ck ), w naiwnym klasyfikatorze Bay-esa, wprowadza siç zalozenie o warunkowej nie-zaleznosci wartosci atrybutow przy ustalonej kla-sie decyzyjnej. W kontekscie analizy tekstu zalozenie powyzsze oznacza, ze wystypienie w doku-mencie tekstowym jednego wyrazenia nie dostar-cza zadnych informacji o prawdopodobienstwie wystypienia drugiego. Dla tekstow zazwyczaj na-iwny warunek niezaleznosci nie jest spelniony z tego wzglçdu, ze na podstawie jednego wyrazenia mozna przewidziec nastçpne. Mankament ten mozna minimalizowac za pomocy analizy do wy-dobywania slow kluczowych, opierajyc siç na ba-daniu statystycznej wspolzaleznosci wyrazen [21] lub n-gramowych modeli jçzyka stanowiycych aproksymacjç Markowa [22]. Niemniej zalozenie to w praktyce nie pogarsza i nie obniza skuteczno-sci klasyfikatora. Po przyjçciu naiwnego zaloze-nia o niezaleznosci atrybutow, szansç mozna za-pisac jako:

P(qi,...,qj I Ck) = nP(qj I Ck)

j=i

(4)

Gdzie:

- P(qj | ck ) - prawdopodobienstwo warunkowe, ktore mozna oszacowac jako iloraz liczby przykladow uczycych z klasy ck, dla ktorych wartosc wag d.. atrybutow (wyrazen) t. rowne sy wartosciom wag q. wektora wyrazen Q, do liczby wszystkich przykladow uczycych z klasy ck

Po uwzglçdnieniu wyzej przyjçtego zalozenia, do klasyfikacji nowego przykladu (przypadku zda-rzenia) wybrana zostaje klasa aNB (Naïve Bayes), dla ktorej zachodzi wzor 5.

n

aNB = ar§max P(ck )n p(qj| ck) (5)

Ck eC j=1

Etap estymacji prawdopodobienstw a priori od-powiada w innych metodach uczenia maszynowe-

go etapowi uczenia si^. Naiwny model Bayesa wy-korzystywany jest w praktyce ze wzgl^du na swojy prostot^, zarowno pod wzgl^dem zrozumienia jego dzialania, jak i implementacji algorytmicznej, oraz wydajnosc obliczeniowy Dla zmiennych o warto-sciach dyskretnych oraz dla parametrycznych jed-nowymiarowych modeli g^stosci zmiennych o war-tosciach rzeczywistych wystarczy dokonac jedno-krotnego przeglydu danych, aby zbudowac naiwny klasyfikator Bayesa [23]. Przechodzenie kilkukrot-ne w celu budowy klasyfikatora moze odbywac si^ dla bardziej zlozonych modeli g^stosci, takich jak modele mieszane. Wynika to z ich iteracyjnej natury dopasowania funkcji g^stosci. Wszystkie te elemen-ty odgrywajy kluczowy rol^ w budowie i odswieza-niu indeksu binarnego dokumentow w celu ich wy-szukiwania przedstawionego w punkcie 6. W szcze-golnosci kiedy dodawany jest do klasy nowy dokument i zachodzi potrzeba przebudowy indeksu oraz wyliczenia na nowo wartosci poszczegolnych praw-dopodobienstw dla wszystkich klas.

4. Klasyfikacja polstrukturalnych przypadkow zdarzen przy uzyciu naiwnego klasyfikatora Bayesa - przyklad zastosowania

W podpunkcie tym zostal przyblizony proces klasyfikacji nowego przypadku zdarzenia, zgodnie z teoriy i zalozeniami omowionymi w punkcie 3.

Na podstawie przyj^tych zalozen mozliwe jest zbudowanie ogolnej macierzy lyczycej zbior dokumentow ze zbiorem wyrazen i klasami. Tabela 1 pre-zentuje ogolny, symboliczny zapis takiej macierzy.

Tabela 1.

Symboliczny zapis macierzowy reprezentacji meldunkow [Zrodlo: opracowanie wlasne]

Table 1.

The term matrix representation of the report

[Source: own work]

T - zbior wyrazen Klasa c, k

t ( t, e T ) (Class ck)

(T - set of terms t.) (ck e C)

D - zbior dokumentow d. (dt e D) (D - set of ti t 2 t 3 t 4

di wii W 12 w 13 w 14 ci

d2 w 21 w 22 w 23 w 24 c i

documents d.) _ w 31 w 32 w 33 w 34 c 2

d4 w 41 w 2 w 43 w .. 44 c 2

Do dalszych rozwazan zalozono, ze istniejy dwie klasy decyzyjne, do ktorych mozna zaklasy-fikowac nowy przypadek zdarzenia. Pierwszy kla-sç stanowiy przypadki opisujyce pozary budynkow (PB), drugy klasç stanowiy pozary lasow (PL). Za-tem zbior klas C = {c1 = PB, c2 = PL}. Przykladowy zbior uczycy sklada siç z 4 dokumentow D = {d1, d2,

d3, d4} oraz 4 wyrazen indeksuj^cych te dokumenty T = (tj, t2, t3, t4}. Wyrazenia mog^ zostac pozyskane z przypadkow zdarzen. Do wybranych w sposob ad hoc, przykladowych wyrazen dla celow demonstra-cyjnych nalez^. T = ( t = osmalony, t2 = zadymio-ny, t3 = czad, t4 = wysoki plomien}. W szczegolnosci wyrazenia pozyskuje si^ w procesie wst^pnego prze-twarzania tekstow (ang. pre-processing) i ekstrakcji cech (ang. feature extraction) [12, 22].

Wagi dla poszczegolnych wyrazen w dokumentach przyjmj reprezentaj Boolowsk^. tj. wij = 0 lub wij = 1 (1 < i < 4 oraz 1 < j < 4). Dla tak skon-struowanych zalozen i zbioru danych mozliwe jest zbudowanie macierzy, l^cz^cej zbior dokumentow ze zbiorem wyrazen i klasami. Tabela 2 prezentuje konkretny zapis takiej macierzy.

Tabela 2.

Realizacja zapisu macierzowego dla meldunkow.

Zrodlo: [opracowanie wlasne]

Table 2.

Realization of the term matrix representation of the report. Source: [own work]

T - zbiór wyrazeñ t (tj e T) (T - set of terms t.) Klasa c, k (Class ck) (ct e C)

D - zbiór doku-mentów d¡ (dl e D) (D - set of documents di) q1 = osmalony q2 = za- dymio- ny q3 = czad q4 = wysoki plomien

d1 1 1 1 0 PB

d2 0 1 0 1 PB

d3 0 0 0 1 PL

d4 0 1 1 1 PL

Tabela 2 reprezentuje zapis informacji, który mozna interpretowac w nast^puj^cy sposób: grupa ekspertów zidentyfikowala dwie klasy pozarów (klasy decyzyjne) - pozar budynków i pozar lasów, do których przydzielono a priori na podstawie ana-lizy tresci po dwa dokumenty opisuj^ce zdarzenie (stanowi^ce zbiór ucz^cy).

Nast^pnie w kolejce do klasyfikacji pojawia si^ nowy, tym razem niezaetykietowany opis zdarzenia. Jego klasyfikacja opiera si^ na znajdowaniu odpo-wiednich wyrazen i wnioskowaniu Bayesa w celu okreslenia dla niego odpowiedniej klasy. Zalozono, ze z przykladowego, nowego, niesklasyfikowane-go przypadku zdarzenia wyekstrahowano nast^puj^-ce wyrazenia: zadymiony, czad. Wektor wag wyrazen Q nowo klasyfikowanego przypadku mozna za-pisac w nast^puj^cy sposób Q = [qt= osmalony = 0, q2 = zadymiony = 1, q3 = czad = 1, q4 = wysoki plo-mien = 0]. W celu okreslenia, do jakiej klasy zosta-nie przydzielony nowy przypadek na podstawie jego Q przy wykorzystaniu klasyfikatora Bayesa, nalezy przeprowadzic obliczenia dotycz^ce:

• oszacowania prawdopodobienstwa a priori dla klasy PB i PL (wzór 3). Prawdopodobienstwa te

2 1

wynosz^ p(CpB ) = p(CpL ) = ^ = ^,

• oszacowania szansy, ze dany wektor Q nalezy do klasy PB i klasy PL (wzór 4). Szacowanie tego, ze Q b^dzie nalezec do klasy PB jest równe

P(0,U,0 |CpB) = -•-•-•- = -. Szacowanie

2 2 2 2 o

tego, ze Q b^dzie nalezec do klasy PL jest rów-

2 11 1

ne P(0,1,1,0 | cPL) =------1 = -. Problema-

PLJ 2 2 2 4 tyczne w szacowaniu szansy PL moze byc to, iz skladowa 4 wektora Q przyjmuje wartosc 0 (q4 = 0), zas w zbiorze danych dla klasy PL zaden przypadek nie ma zerowej tej skladowej. Aby unikn^c mnozenia przez zero przyjmuje si^ w takim przypadku wartosc 1 w dalszym mnozeniu,

• wyliczenia prawdopodobienstwa a posteriori tego, ze Q zostanie przydzielone do klasy PB i klasy PL (wzór 5.). Prawdopodobienstwo tego, ze Q b^dzie przydzielone do klasy PB wynosi

a

NB1

111. = — — = — natomiast tego, ze zostanie przydzielony do klasy PL wynosi aNB 2 = — • — = —.

2 4 8

Wzór 5. okresla takze, który rezultat szacowania prawdopodobienstwa a posteriori wybrac. W rozpa-trywanym przypadku najwi^ksz^ wartosc klasyfikatora Bayesa ma argument aNB2 . Tak wi^c rozpatry-wany dokument wyrazony poprzez zbudowany wek-tor wyrazen Q zostanie zaklasyfikowany do grupy dokumentów zawieraj^cych opisy pozarów lasów.

5. Binarne miary podobieñstwa pólstrukturalnych przypadków zdarzeñ

W punkcie 3. zalozono, ze dokumenty s^. indek-sowane binarnie tj. do dyspozycji jest binarny wektor wyrazen, zawieraj^cy wagi wyrazen opisuj^cych dany dokument d. Waga wyrazenia w tej reprezen-tacji przyjmuje wartosc 0 - wyrazenie t nie wyst^-puje w dokumencie d lub 1 - wyrazenie t wyst^puje w dokumencie d. W celu odnalezienia dystansu lub podobienstwa pomi^dzy samymi przypadkami zdarzen, jak równiez pomi^dzy przypadkami zdarzen a zapytaniem Q, nalezy posluzyc si^ jedn^ z 76 do-st^pnych miar binarnych opisanych m.in. w pracach [24-26]. Miara binarna jest to miara podobienstwa lub odleglosci pomi^dzy wektorami binarnymi [24]. Zapytanie Q traktowane jest jako zredukowany opis przypadku do kilku znacz^cych wyrazen t podawa-nych przez KDR w celu wyszukania na ich podstawie najlepiej pasuj^cych przypadków z bazy wiedzy systemu CBR. Miary binarne powstaly na pocz^tku XX wieku, a ich rozwój zacz^l si^ od zaproponowa-

nej w 1901 roku przez Jacarda miary podobienstwa gatunków [24]. Miary te sy szczególnym przypad-kiem miar stosowanych do pomiaru dystansu, podo-bienstwa pomiçdzy wektorami niebinarnymi, czyli takimi, których wagi mogy przybierac wartosci nie tylko 0 lub 1. Przeglyd i zastosowania miar nie bi-narnych mozna odnalezc m.in. w pracach [27, 28].

6. Mieszane przetwarzanie pólstrukturalnego modelu opisu zdarzeй

Majyc do dyspozycji przedstawiony w punkcie 2. pólstrukturalny model opisu zdarzen, na któ-ry sklada siç ontologia Akcja zawierajyca w lisciach pólstrukturalne przypadki zdarzen, autorzy zapropo-nowali i opisali w niniejszym punkcie sposób jego przetwarzania. Przetwarzanie to lyczy w sobie ele-menty klasyfikacji, opisane w punkcie 4. oraz ele-menty binarnych miar podobienstwa, opisanych w punkcie 5. Wszystkie te skladniki po polycze-niu ze soby sluzy jako wyszukiwarka archiwalnych przypadków zdarzen w bazie wiedzy systemu CBR. Schemat ideowy funkcjonowania niniejszej wyszu-kiwarki prezentuje ryc. 4.

Ryc. 4 przedstawia schemat dzialania wyszu-kiwarki archiwalnych przypadków zdarzen zawar-tych w bazie wiedzy systemu CBR, a dokladniej w okreslonych lisciach ontologii Akcje. Proces prze-szukiwania rozpoczyna siç od podania przez KDR zapytania Q zbudowanego z wyrazen (stów, zdan) opisujycego powstale zagrozenie. Zapytanie to jest nastçpnie przetwarzane, usuwane sy z niego zbçd-ne wyrazenia na podstawie stop-listy. Stop-lista de-finiuje wyrazenia nieniosyce zadnej wartosciowej informacji oraz które nalezy odfiltrowac, do takich wyrazen nalezy np. „i", „czy", etc. W kolejnym kro-ku wyrazenia, które przeszly filtrowanie, poddawa-ne sy procesowi lematyzacji, polegajycemu na spro-wadzaniu wyrazen do ich formy podstawowej [22]. Po tym procesie wyrazeniom przypisywana jest waga binarna równa 1. Tak zbudowany i uzupelnio-ny wektor jest nastçpnie klasyfikowany, np. za po-mocy naiwnego klasyfikatora Bayesa opisanego w punkcie 3. oraz 4., do klas - lisci ontologii. Po otrzymaniu wartosci prawdopodobienstwa a posteriori przynaleznosci wektora do wybranych klas, sy one szeregowane od najwiçkszej do najmniej-szej wedlug wartosci otrzymanego prawdopodo-bienstwa. Nastçpnie wybieranych jest n (uzytkow-nik ten parametr moze okreslic sam) najlepiej dopa-sowanych klas. Klasy niespelniajyce kryterium wy-razonego w postaci stopnia przynaleznosci (okres-lonego prawdopodobienstwa a posteriori), mogy zostac odrzucone. Do dalszej analizy wyszukiwania przechodzi n wybranych klas. Kazda wyselekcjono-wana klasa zawiera kolekcjç przypadków zdarzen. W zwiyzku z tym, ze przypadki zostaly zaindeksowa-ne binarnie do procesu klasyfikacji oraz ze wagi za-pytania Q takze sy binarne, nastçpuje dla kazdej kla-

sy z osobna binarny proces wyszukiwania za pomo-cy miar podobienstwa zdefiniowanych w punkcie 5. Wyszukiwanie polega na odnalezieniu przypadku najbardziej podobnego do wektora zapytania Q (al-gorytm k-najblizszych sysiadów). Liczba zwraca-nych przypadków w klasie moze byc ograniczana za pomocy parametru к wspólnego dla wszystkich klas (uzytkownik ten parametr moze okreslic sam). Wy-szukiwanie konczy siç otrzymaniem rankingu za-wierajycego kolekcjç p = n • к przypadków. Utwo-rzony ranking zawierajycy archiwalne przypadki prezentowany jest nastçpnie dla KDR, który wybie-ra najlepiej pasujycy przypadek zdarzenia i adaptuje go w celu rozwiyzania zaistnialego zagrozenia.

Podsumowanie

Opracowany, prezentowany na rycinie 4. sche-mat ideowy wyszukiwarki przypadków zdarzen, jak równiez niniejszy artykul stanowiy opis podjçtych przez autorów badan z zakresu analizy meldunków z systemu EWID. Aktualna propozycja wyszukiwania bçdzie podlegala badaniom. Wyniki natomiast ukazy siç w nastçpnych publikacjach autorów. Za-warte w niniejszym opracowaniu tresci dajy nowy i ciekawy poglyd na mozliwosc lyczenia ontologii z tekstowymi pólstrukturalnymi przypadkami zdarzen oraz ich przetwarzania (klasyfikacji czy tez wyszukiwania). Jak dotychczas autorzy nie spotkali siç z takim podejsciem w systemach dla sluzb ratowni-czych czy tez w warstwie reprezentacji i przetwarza-nia wiedzy systemów CBR. Aktualnie w tych systemach dominujy rozwiyzania polegajyce na reprezentacji wiedzy albo w pelni strukturalnej albo w pel-ni niestrukturalnej [29-32]. Z powyzszych wzglç-dów postanowili zaprezentowac swoje rozwiyzania, z wyprzedzeniem w stosunku do aktualnego harmo-nogramu badan. Aktualnie wysilki badawcze autorów koncentrujy siç na analizie znaczeniowej zdan oraz przywracaniu sekcji z raportów z systemu EWID w celu ich dalszych analiz i strukturalizacji. Podstawy tej analizy jest zaklasyfikowanie calego zdania do wybranej klasy na podstawie analizy znaj -dujycych siç w nim wyrazen.

Do obiecujycych dalszych kierunków rozwoju opisywanego w artykule tematu, nalezy klasyfika-cja przypadku nie tylko do liscia ontologii, ale takze do wçzla. Przypadek ogólny zaklada, ze w wçzlach hierarchii (klasach) mogy znajdowac siç przypadki niesklasyfikowane poprawnie tj. których klasyfi-kator nie jest pewien. W tym przypadku wyznaczo-ny musi zostac stopien pewnosci dla kazdego wçzla z klas, jesli dany przypadek go nie przekracza to klasyfikacja odbywa siç do wçzla rodzica lub wyzej i tak az do korzenia ontologii.

Dalszymi kierunkami rozwoju mogy byc mody-fikacje opisu pólstrukturalnego przypadku zdarzenia polegajyce na dodaniu wiyzan do innej sekcji ontologii, przechowujycej np. oznaczony rejestr zaso-

Sformutowanie

przez KDR zapytania do CBR

Przeszukiwanie bazy wiedzy systemu CBR

Przetwarzanie zapytania

Utworzenie wektora cech zapytania

I

Wektor

cech

zapytani

Klasyfikacja wektora cech zapytania do klas Zagrozeñ ontologii Akcje

I Wyliczenie prawdopodobieñstwa a posteriori przynaleznosci wektora do kazdej z dost^pnych klas

Posortowanie klas ze wzgl$du na wyliczone prawdopodobieñstwo

Wybranie klasy 1

Wybranie n klas

Wybranie klasy n

<§h

Prezentacja przypadków

«centralBuffer» Globalny ranking

wyszukanych przypadków z klas

Kolekcja przypadków

Utworzenie globalnego rankingu klas z dopasowanymi przypadkami

Kolekcja przypadków

«datastore» Klasa 1 zawieraj^ca kolekcje przypadków zdarzeñ

«datastore» Klasa n zawierajqca kolekcje przypadków zdarzeñ

^ Wyszukiwanie kolekcji przypadków z wybranych klas i_

Wyszukiwanie bíname

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

kolekcji przypadków w klasie n

Wyszukiwanie binarne

kolekcji przypadków w klasie 1

Zwrócenie k najlepiej dopasowanych przypadków

Zwrócenie k najlepiej dopasowanych przypadków

jKolekeja przypadków «centralBuffer» Kolekcja wyszukanych przypadków z klasy 1

Kolekcja przypadków^"

«centralBuffer» Kolekcja wyszukanych przypadków z klasy n

Rye. 4. Schemat ideowy wyszukiwarki przypadkow zdarzen, zawartych w lisciach ontologii Akcje, ktore stanowiq ba/g

wiedzy systemu CBR [Zrodlo: opracowanie wlasne] Fig. 4. Schematic diagram of the CBR cases search engine [Source: own work]

bów. Wi^zania te mog^ odbywac si^ poprzez uzy-cie referencji w opisie lub poprzez dodanie nowej sekcji powiqzania do pólstrukturalnych przypadków zdarzen. W przypadku referencji w opisach, rozwi^-zanie to ideowo zblizone jest do hiperlinków sieci ogólnoswiatowej.

Wazny kierunek rozwoju stanowi tez budowanie bazy aktywnej, dynamicznie uzupelniaj^cej przypa-dek zdarzenia o potrzebne informacje na podstawie np. bazy wiedzy i regul. W celu zobrazowania tego dzialania autorzy posluzyli si^ nast^puj^cym przy-kladem - z systemu pasywnego, jaki stanowi CBR ze wzgl^du na to, ze przechowuje „obraz" przeszlo-sci, pozyskany zostaje przypadek zdarzenia. System odkrywa jednak, ze aktualnie nie dysponuje taki-mi zasobami, wówczas wykorzystuje reguly z bazy wiedzy i rejestru aktualnych zasobów, aby uzupelnic raport o potrzebne parametry. Ogólnie, kierunki takich l^czonych technik aktualnie s^. juz podejmowa-ne, przyklad takiego podejscia mozna odnalezc w li-teraturze [35].

Ostatni^ kwesti^ w proponowanych badaniach pozostaje dobór i badanie klasyfikatorów np. drzew decyzyjnych, regul decyzyjnych oraz miar binar-nych w odniesieniu do tradycyjnych, powszechnie przyj^tych miar stosowanych dla tekstów, w repre-

zentacji przestrzenno-wektorowej, do ktorych nale-¿3. m.in. miary [22]: Jacarda, Dicea, Kosinusow czy tez Euklidesa.

Ontologia, jako warstwa nosna informacji o ak-cjach i dzialaniach ratowniczo-gasniczych w pol^-czeniu z pol-strukturaln^ reprezentaj przypadkow zdarzen dla systemu CBR, daje elastyczny i uzyteczny model reprezentacji wiedzy o dziedzi-nie oraz wnioskowania. Na podstawie tak zaprezen-towanej wiedzy o dziedzinie zawieraj^cej opis archi-walnych zdarzen, istnieje mozliwosc dostarczania najpotrzebniejszych informacji Kieruj^cemu Dzia-laniami Ratowniczymi. Informacja ta wyrazona jest w postaci opisu zagrozen, wskazowek etc., ktore KDR moze wzi^c pod uwag^ podczas przeprowa-dzanej akcji ratowniczo-gasniczej. Ponadto ontologia doskonale nadaje si^ do modelowania zaleznosci pomi^dzy elementami dziedziny np. wyst^puj^cy-mi w opisach zdarzen zasobami uzytymi do likwida-cji zagrozenia a samymi zasobami z gal^zi ontologii Akcje. Taka prosta referencja daje systemowi wiedzy o tym, jakie zasoby s^ alokowane do jakich zdarzen.

Zastosowanie naiwnego klasyfikatora Bayesa moze sluzyc jako element rankinguj^cy klasy w pro-cesie wyszukiwania. Zabieg ten daje mozliwosc zrownoleglenia obliczen dotycz^cych wyszukiwania

grupy binarnie opisanych przypadków, najlepiej pa-sujycych do zadanego przez KDR pytania. Dla kaz-dej z wylosowanych klas mozliwe staje siç utworze-nie oddzielnego procesu, w którym nastçpuje prze-szukanie za pomocy przedstawionych miar binar-nych i dopasowanie wektora zapytania do znajdu-jycych siç w klasie przypadków zdarzen. Na koniec wyszukiwania procesy te sy synchronizowane a re-zultat dostarczany Kierujycemu Dzialaniami Ratow-niczymi.

Literatura

1. Rozporzqdzenie Ministra Spraw Wewnçtrznych i Administracji z dnia 29 grudnia 1999 r. w spra-wie szczegóíowych zasad organizacji krajowe-go systemu ratowniczo-gasniczego. Dz.U. 99. 111.1311 § 34 pkt. 5 i 6.

2. Abakus: System EWID99. [on-line] [dostçp: 1 maja 2009] Dostçpny w Internecie: http:// www.ewid.pl/?set=rozw_ewid&gr=roz.

3. Abakus: System EWIDSTAT. [on-line] [dostçp: 1 maja 2009] Dostçpny w Internecie: http:// www.ewid.pl/?set=ewidstat&gr=prod.

4. Strona firmy abakus. [on-line] [dostçp: 1 marca 2009] Dostçpny w Internecie: http://www.ewid. pl/?set=main&gr=aba.

5. Krasuski A., Maciak T. Wykorzystanie rozpro-szonej bazy danych oraz wnioskowania na podstawie przypadków w procesach decyzyjnych Panstwowej Strazy Pozarnej. „Zeszyty Nauko-we SGSP", No 36, 2008, s. 17-35.

6. Kozlowski J., Neuman L. Wspomaganie wyszukiwania dokumentów mapami samoorganizujq-cymi. [Wroclaw]: III Krajowa Konferencja MIS-SI 2002, 19-20 wrzesnia - „Multimedialne i Sie-ciowe Systemy Informacyjne", 2002. [dostçp: 10 czerwca 2009] Dostçpny w Internecie: http:// www.zsi.pwr.wroc.pl/zsi/missi2002/pdf/s507.pdf.

7. Krasuski A., Krenski K. Building a DSSfor Fire Service using jCOLIBRI. Analele Universitatii Bucuresti, Informatica LVI, 2008.

8. Krasuski A., Maciak T., Krenski K. Decision Support System for Fire Service based on Distributed Database and Case-based Reasoning. Studies of logic grammar and rethoric, No 11, 2008.

9. Mironczuk M., Maciak T. Problematyka projek-towania modelu hybrydowego systemu wspoma-gania decyzji dla Panstwowej Strazy Pozarnej. „Zeszyty Naukowe SGSP", No 39, 2009.

10. Mironczuk M., Karol K. Koncepcja systemu eks-pertowego do wspomagania decyzji w Panstwowej Strazy Pozarnej. In: Grzech A., Juszczyn K., Kwasnicka H. and Nguyen N.T., editors. Inzy-nieria Wiedzy i Systemy Ekspertowe. Warszawa: Akademicka Oficyna Wydawnicza EXIT, 2009.

11. Krenski K., Krasuski A. The fundations for an ontology-based knowladge representation layer for a CBR system in fire service. Analele Univer-sitatii Bucuresti, Informatica LVI 2008.

12. Borycki L., Soldacki P. Automatyczna klasyfi-kacja tekstow. [Wroclaw]: III Krajowa Konferencja MISSI 2002, 19-20 wrzesnia - „Multimedialne i Sieciowe Systemy Informacyjne", 2002. [dostçp: 10 czerwca 2009] Dostçpny w Internecie: http://www.zsi.pwr.wroc.pl/zsi/missi2002/ pdf/s504.pdf.

13. Song F., Liu S., Yang J. A comparative study on text representation schemes in text categorization. Pattern Analysis & Applications, No 8, 2005, s. 199 - 209

14. Weigend A. S., Wiener E. D., Pedersen J. O. Exploiting Hierarchy in Text Categorization. Information Retrieval, No 1, 1999.

15. Yang Y., Liu X. A re-examination of text categorization methods. [New York]: ACM SIGIR Conference of Research and Development in Information Retrieval, 1998.

16. Lazewski L., Pikula M., Siemion A., Szklarzew-ski M. Klasyfikacja dokumentow tekstowych. Warszawa: PJWSTK 2005. Dostçpny w Internecie: http://www.scribd.com/doc/2242106/Klasy-fikacja-dokumentow-tekstowych.

17. Schenker A., Kandel A., Bunke H., Last M. Graph-Theoretic Techniques for Web Content Mining. World Scientific Publishing Co, 2005.

18. StatSoft. Naiwny klasyfikator Bayesa. [dostçp: 10 stycznia 2010] Dostçpny w Internecie: http:// www.statsoft.pl/textbook/stathome_stat.ht-ml?http%3A%2F%2Fwww.statsoft.pl%2Ftext-book%2Fstnaiveb.html.

19. Aas K., Eikvil L. Text Categorisation: A Survey. Technical Report, Norwegian Computing Center, 1999.

20. Yoshimasa, Tsujii T. J. Training a Naive Bayes Classifier via the EM Algorithm with a Class Distribution Constraint. In: Proceedings of the 7th Conference on Natural Language Learning: Morgan Kaufmann, 2003. s. 127-134.

21. Matsuo Y., Ishizuka M. Keyword Extraction From A Single Document Using Word Cooccurrence Statistical Information. International Journal on Artificial Intelligence Tools, No 13, 2004, s. 157-169.

22. Mykowiecka A. Inzynieria lingwistyczna. Komputerowe przetwarzanie tekstow w j^zyku natu-ralnym. Warszawa: PJWSTK, 2007.

23. Hand D., Mannila H., Smith P. Eksploracja danych. Wydanie 1. Warszawa: Wydawnictwo Na-ukowo-Techniczne, 2005.

24. Choi S. S., Cha S. H., Tappert C. C. A Survey of Binary Similarity and Distance Measures Systemics, Cybernetics and Informatics, No 8, 2010, s. 43-48.

25. Veal B. Similarity Coefficients for Binary Data. Department of Mathematics. London: London School of Economics, 2008.

26. Lourenço F., Lobo V., Baçâo F. Binary-based similarity measures for categorical data and their application in Self-Organizing Maps. JOCLAD, 2004. p.1-18.

27. Cha S. H. Comprehensive Survey on Distance/ Similarity Measures between Probability Density Functions. International journal of mathematical models and methods in applied sciences, 2007.

28. Kim M. C., Choi K. S. A comparison of collocation-based similarity measures in query expansion. Information Processing and Management: an International Journal, No 35, 1999, s. 19-30

29. Kempa A. Zastosowanie rozszerzonej metodo-logii wnioskowania na podstawie przypadków - textual cbr w pracy z dokumentami tekstowy-mi. Katowice: Systemy Wspomagania Organiza-cji/, 2005. [dostçp: 1 stycznia 2008] Dostçpny w Internecie: http://www.swo.ae.katowice.pl/ content/view/221/32/.

30. Krupka J., Kasparova M., Jirava P. Case-Based Reasoning Model in Process of Emergency Management. Man-Machine Interactions Advances in Soft Computing, 2009. p. 77-84.

31. Jing L. Case-Based Reasoning Intelligent Decision Approach for Firefighting Tactics. [Tianjin]: Intelligent Networks and Intelligent Systems, 2009 ICINIS '09 Second International Conference on 1-3 Nov 2009, 2009.

32. Bergmann R., Wilke W., Vollrath I., Wess S. Integrating General Knowledge with Object-Oriented Case Representation and Reasoning. 1996.

33. Glinski W. J^zyki i narzçdzia do tworzenia i wyszukiwania ontologii w kontekscie semantycz-nego weba. Instytut Informacji Naukowej i Stu-diów Bibliologicznych UW. [dostçp: 10 sierpnia 2010] Dostçpny w Internecie: http://bbc.uw.edu. pl/Content/20/14.pdf.

34. Glinski W. Ontologie. próba uporzqdkowania terminologicznego chaosu. Instytut Informacji

Naukowej i Studiow Bibliologicznych UW. [do-stçp: 10 sierpnia 2010] Dostçpny w Internecie: http://bbc.uw.edu.pl/Content/20/13.pdf. 35. Shimin D., Shen H., Liu H. Research on Case-Based Reasoning Combined with Rule-Based Reasoning for Emergency. [Philadelphia, PA, USA]: Service Operations and Logistics, and Informatics, 2007 SOLI 2007 IEEE International Conference on 27-29 Aug 2007, 2007.

Praca naukowa wspôlfinan-sowana ze srodkôw Europej-skiego Funduszu Spoleczne-go, srodkôw Budzetu Panstwa oraz ze Srodkôw Budzetu Wojewôdztwa Podlaskiego w ramach projektu „Podlaska ÜNIiE™ Strategia Innowacji - budowa FUNDUSZSPOl=CZNY systemu wdrazania"

mgr inz. Marcin Micha! Mironczuk, absolwent Wydzialu Elektrycznego Politechniki Bialostockiej, na ktorym takze ukonczyl studia doktoranckie. Aktualnie ma wszczçty przewod doktorski na Wydzia-le Informatyki Politechniki Bialostockiej i pracuje w Instytucie Podstaw Informatyki PAN w Warsza-wie.

dr hab. inz. Tadeusz Maciak, profesor Szkoly Glownej Sluzby Pozarniczej oraz kierownik Za-kladu Informatyki i L^cznosci w tej szkole. Obj^l stanowisko adiunkta w Katedrze Mediow Cyfro-wych i Grafiki Komputerowej Wydzialu Informatyki Politechniki Bialostockiej PB.

4

KAPITAt LUDZKI

NARODOWA STRATEGIA SPÓJNOSCI

i Надоели баннеры? Вы всегда можете отключить рекламу.