Научная статья на тему 'The method of designing the knowledge database and rules for a text segmentation tool based on Formal concept analysis'

The method of designing the knowledge database and rules for a text segmentation tool based on Formal concept analysis Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
337
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ФОРМАЛЬНЫЙ АНАЛИЗ ПОНЯТИЙ / СЕГМЕНТАТОР ТЕКСТА / ПРАВОВОЙ СЕГМЕНТАТОР / ПРОЕКТИРОВАНИЕ БАЗЫ ЗНАНИЙ / ВЫДЕЛЕНИЕ СЕГМЕНТОВ / РАЗДЕЛЕНИЕ ТЕКСТА НА СЕГМЕНТЫ / FORMAL CONCEPT ANALYSIS / FCA / PROJECT OF KNOWLEDGE DATABASE / SEGMENT EXTRACTION / TEXT PROCESSING

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Mirończuk Marcin

Цель: Представление решения проблемы сегментации специализированного текста. Исследованный текст исходил из отчётов (формуляра «Информации из места события”, поля „Описывающие данные к информации о происшествии) составленных после спасательно-гасящих действиях подразделений Государственной Пожарной Службы. Методы: Имея ввиду реализацию задачи автор предложил метод проектирования базы знаний и правил правового сегментатора. Предлагаемый в статье метод основан на формальном анализе понятий. Разработанная в соответствии предложенному методу база знаний и правил даёт возможность проведения процесса сегментации имеющейся документации. Правильность и эффективность предложенного метода проверены путём сравнения его результатов с двумя другими решениями использованными для сегментации текста. Результаты: В рамках исследований и анализа описаны и погруппированы правила и сокращения появляющиеся в исследуемых отчётах. Благодаря применению формального анализа понятий создана иерархия обнаруженных правил и сокращений. Извлечённая иерархия представляет собой одновременно базу знаний и правил правового сегментатора. Проведены цифровые и сравнительные эксперименты авторского решения с двумя другими методами показали значительно лучшую производительность первого. Например результаты F-меры полученные в результате применения предлагаемого метода составляют 95,5% и являются на 7-8% лучшими от двух остальных решений. Выводы: Предложенный метод проектирования базы знаний и правил правового сегментатора дает возможность проектировать и внедрять программное обеспечение для сегментации текста с небольшими ошибками разделения текста на сегменты. Основное правило по обнаружению конца предложения наличие точки и дополнительных символов в качестве конца сегмента, на самом деле, особенно при сегментации специализированных текстов, должно быть оснащено дополнительными правилами. Эти действия значительно повышают качество сегментации и уменьшают её ошибочность. Для постройки и представления таких правил подходит представленный в статье формальный анализ понятий. Инженерные знания и дополнительные эксперименты могут обогатить создаваемую сеть новыми правилами. Нововведённые знания простым образом могут быть нанесены на только что разработанную семантическую сеть, тем самым, совершенствуя процесс сегментации текста. Кроме того, в рамках цифрового эксперимента созданы уникальные: набор правил и сокращений используемых в отчётах, а также набор правильно выделенных и означенных сегментов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Objective: Presentation of a specialist text segmentation technique. The text was derived from reports (a form “Information about the event”, field “Information about the event descriptive data”) prepared by rescue units of the State Fire Service after firefighting and rescue operations. Methods: In order to perform the task the author has proposed a method of designing the knowledge base and rules for a text segmentation tool. The proposed method is based on formal concept analysis (FCA). The knowledge base and rules designed by the proposed method allow performing the segmentation process of the available documentation. The correctness and effectiveness of the proposed method was verified by comparing its results with the other two solutions used for text segmentation. Results: During the research and analysis rules and abbreviations that were present in the studied specialist texts were grouped and described. Thanks to the formal concepts analysis a hierarchy of detected rules and abbreviations was created. The extracted hierarchy constituted both a knowledge and rules base of tools for segmentation of the text. Numerical and comparative experiments on the author's solution with two other methods showed significantly better performance of the former. For example, the F-measure results obtained from the proposed method are 95.5% and are 7-8% better than the other two solutions. Conclusions: The proposed method of design knowledge and rules base text segmentation tool enables the design and implementation of software with a small error divide the text into segments. The basic rule to detect the end of a sentence by the interpretation of the dots and additional characters as the end of the segment, in fact, especially in case of specialist texts, must be packaged with additional rules. These actions will significantly improve the quality of segmentation and reduce the error. For the construction and representation of such rules is suitable presented in the article, the formal concepts analysis. Knowledge engineering and additional experiments can enrich the created hierarchy by the new rules. The newly inserted knowledge can be easily applied to the currently established hierarchy thereby contributing to improving the segmentation of the text. Moreover, within the numerical experiment is made unique: a set of rules and abbreviations used in reports and set properly separated and labeled segments.

Текст научной работы на тему «The method of designing the knowledge database and rules for a text segmentation tool based on Formal concept analysis»

D01:10.12845/bitp.34.2.2014.9

dr inz. Marcin Michal MIRONCZUK1

Przyj^ty/Accepted/Принята: 05.08.2013;

Zrecenzowany/Reviewed/Рецензирована: 22.05.2014;

Opublikowany/Published/Опубликована: 30.06.2014;

METODA PROJEKTOWANIA BAZY WIEDZY ORAZ REGUL SEGMENTATORA REGULOWEGO OPARTA O FORMALN4 ANALIZ^ POJ^C*

The Method of Designing the Knowledge Database and Rules for a Text Segmentation Tool Based on Formal Concept Analysis Метод проектирования базы знаний и правил правового сегментатора на основе формального анализа понятий

Abstrakt

Cel: Zaprezentowanie rozwi^zania problemu segmentacji tekstu dziedzinowego. Badany tekst pochodzil z raportow (formularza „Informacji ze zdarzenia”, pola „Dane opisowe do informacji ze zdarzenia”) sporz^dzanych po akcjach ratowniczo-gasniczych przez jednostki Panstwowej Strazy Pozarnej.

Metody: W celu realizacji zadania autor zaproponowal metodc projektowania bazy wiedzy oraz regul segmentatora regulowego. Zaproponowana w artykule metoda opiera sic na formalnej analizie pojcc. Zaprojektowana wedlug proponowanej metody baza wiedzy oraz regul umozliwila przeprowadzenie procesu segmentacji dostcpnej dokumentacji. Poprawnosc i skutecznosc proponowanej metody zweryfikowano poprzez porownanie jej wynikow z dwoma innymi rozwi^zaniami wykorzystywanymi do segmentacji tekstu.

Wyniki: W ramach badan i analiz opisano oraz pogrupowano reguly i skroty wystcpuj^ce w badanych raportach. Dzicki zastosowaniu formalnej analizy pojcc utworzono hierarchic wykrytych regul oraz skrotow. Wydobyta hierarchia stanowila zarazem bazc wiedzy oraz regul segmentatora regulowego. Przeprowadzone eksperymenty numeryczne i porownawcze autorskiego rozwi^zania z dwoma innymi rozwi^zaniami wykazaly znacznie lepsze dzialanie tego pierwszego. Przykladowo otrzymane wyniki F-miary otrzymane w wyniku zastosowania proponowanej metody wynosz^. 95,5% i s^. lepsze o 7-8% od pozostalych dwoch rozwi^zan.

Wnioski: Zaproponowana metoda projektowania bazy wiedzy oraz regul segmentatora regulowego umozliwia projektowanie i implementacjc oprogramowania do segmentacji tekstu z malym blcdem podzialu tekstu na segmenty. Podstawowa regula dotycz^ca wykrywania konca zdania poprzez interpretacjc kropki i dodatkowych znakow jako konca segmentu w rzeczywistosci, zwlaszcza dla tekstow specjalistycznych, musi byc opakowana dodatkowymi regulami. Dzialania te znacznie podnosz^. jakosc segmentacji i zmniejszaj^. jej bl^d. Do budowy i reprezentacji takich regul nadaje sic przedstawiona w artykule formalna analiza pojcc. Wiedza inzyniera oraz dodatkowe eksperymenty mog^. wzbogacac utworzon^ siec o nowe reguly. Nowo wprowadzana wiedza moze zostac w latwy sposob naniesiona na aktualnie utworzon^ siec semantyczn% tym samym przyczyniaj^c sic do polepszenia segmentacji tekstu. Ponadto w ramach eksperymentu numerycznego wytworzono unikalny: zbior regul oraz skrotow stosowanych w raportach, jak rowniez zbior prawidlowo wydzielonych i oznakowanych segmentow.

SJowa kluczowe: formalna analiza pojcc, segmentator tekstu, segmentator regulowy, projektowanie bazy wiedzy, metoda projektowania bazy wiedzy, FCA, wydzielanie segmentow, dzielenie tekstu na segmenty Typ artykuJu: oryginalny artykul naukowy

Abstract

Objective: Presentation of a specialist text segmentation technique. The text was derived from reports (a form “Information about the event”, field “Information about the event - descriptive data”) prepared by rescue units of the State Fire Service after firefighting and rescue operations.

1 Instytut Podstaw Informatyki PAN, Zespöl Podstaw Sztucznej Inteligencji, ul. Jana Kazimierza 5, 01-248 Warszawa/Institute of Computer Science of the Polish Academy of Sciences, Poland; e-mail: m.marcinmichal@gmail.com

* Artykul zostal wyrözniony przez Komitet Redakcyjny / The article was recognised by the Editorial Committee/ Эту статью наградил Редакционный Совет

DOI:10.12845/bitp.34.2.2014.9

Methods: In order to perform the task the author has proposed a method of designing the knowledge base and rules for a text segmentation tool. The proposed method is based on formal concept analysis (FCA). The knowledge base and rules designed by the proposed method allow performing the segmentation process of the available documentation. The correctness and effectiveness of the proposed method was verified by comparing its results with the other two solutions used for text segmentation.

Results: During the research and analysis rules and abbreviations that were present in the studied specialist texts were grouped and described. Thanks to the formal concepts analysis a hierarchy of detected rules and abbreviations was created. The extracted hierarchy constituted both a knowledge and rules base of tools for segmentation of the text. Numerical and comparative experiments on the author's solution with two other methods showed significantly better performance of the former. For example, the F-measure results obtained from the proposed method are 95.5% and are 7-8% better than the other two solutions.

Conclusions: The proposed method of design knowledge and rules base text segmentation tool enables the design and implementation of software with a small error divide the text into segments. The basic rule to detect the end of a sentence by the interpretation of the dots and additional characters as the end of the segment, in fact, especially in case of specialist texts, must be packaged with additional rules. These actions will significantly improve the quality of segmentation and reduce the error. For the construction and representation of such rules is suitable presented in the article, the formal concepts analysis. Knowledge engineering and additional experiments can enrich the created hierarchy by the new rules. The newly inserted knowledge can be easily applied to the currently established hierarchy thereby contributing to improving the segmentation of the text. Moreover, within the numerical experiment is made unique: a set of rules and abbreviations used in reports and set properly separated and labeled segments.

Keywords: formal concept analysis, FCA, project of knowledge database, segment extraction, text processing Type of article: original scientific article

Цель: Представление решения проблемы сегментации специализированного текста. Исследованный текст исходил из отчётов (формуляра «Информации из места события”, поля „Описывающие данные к информации о происшествии) составленных после спасательно-гасящих действиях подразделений Государственной Пожарной Службы.

Методы: Имея ввиду реализацию задачи автор предложил метод проектирования базы знаний и правил правового сегментатора. Предлагаемый в статье метод основан на формальном анализе понятий. Разработанная в соответствии предложенному методу база знаний и правил даёт возможность проведения процесса сегментации имеющейся документации. Правильность и эффективность предложенного метода проверены путём сравнения его результатов с двумя другими решениями использованными для сегментации текста.

Результаты: В рамках исследований и анализа описаны и погруппированы правила и сокращения появляющиеся в исследуемых отчётах. Благодаря применению формального анализа понятий создана иерархия обнаруженных правил и сокращений. Извлечённая иерархия представляет собой одновременно базу знаний и правил правового сегментатора. Проведены цифровые и сравнительные эксперименты авторского решения с двумя другими методами показали значительно лучшую производительность первого. Например результаты F-меры полученные в результате применения предлагаемого метода составляют 95,5% и являются на 7-8% лучшими от двух остальных решений.

Выводы: Предложенный метод проектирования базы знаний и правил правового сегментатора дает возможность проектировать и внедрять программное обеспечение для сегментации текста с небольшими ошибками разделения текста на сегменты. Основное правило по обнаружению конца предложения - наличие точки и дополнительных символов в качестве конца сегмента, на самом деле, особенно при сегментации специализированных текстов, должно быть оснащено дополнительными правилами. Эти действия значительно повышают качество сегментации и уменьшают её ошибочность. Для постройки и представления таких правил подходит представленный в статье формальный анализ понятий. Инженерные знания и дополнительные эксперименты могут обогатить создаваемую сеть новыми правилами. Нововведённые знания простым образом могут быть нанесены на только что разработанную семантическую сеть, тем самым, совершенствуя процесс сегментации текста. Кроме того, в рамках цифрового эксперимента созданы уникальные: набор правил и сокращений используемых в отчётах, а также набор правильно выделенных и означенных сегментов.

Ключевые слова: формальный анализ понятий, сегментатор текста, правовой сегментатор, проектирование базы знаний, FCA, выделение сегментов, разделение текста на сегменты Вид статьи: оригинальная научная статья

1. Wst$p

W artykulach [1, 2] przedstawiono model obslugi ak-cji ratowniczo-gasniczej wspierany przez hybrydowy system wspomagania decyzji HSWD. Proponowany HSWD dla Panstwowej Strazy Pozarnej stanowi pol^czenie gru-powego systemu wspomagania decyzji GSWD (ang. group decision support system - GDSS) trzeciego rodzaju i inteligentnego systemu wspomagania decyzji bazuj^-cego na odkrywaniu wiedzy ISWD (ang. intelligent decision support system based on knowledge discovery - IDSSKD) [2]. Pierwszy wymieniony system stano-wil platform^ informatyczn^. do podsuwania pomyslow i instruowania osoby podejmuj^cej decyzji na zasadzie

konsultacji eksperckiej bazuj^cej na zgromadzonych w nim informacjach i regulach. Druga platforma -IDSSKD - opierala siç z kolei na wl^czeniu do systemu wspomagania decyzji SWD elementów odkrywania wiedzy w bazach danych (ang. knowledge discovery in database - KDD) z danych tekstowych. Caloso tego rozwi^za-nia z punktu widzenia technicznego bazowala i wspierala proces wnioskowania na podstawie przypadków zdarzen (ang. cased based resoning - CBR) [3].

Autor dla wyzej wymienionego systemu podj^l siç opracowania (zaprojektowania i zaimplementowania) warstwy danych dotycz^cej reprezentowania i przecho-wywania informacji na temat sieci hydrantów [4]. Dziç-

ТЕХНИКА И ТЕХНОЛОГИЯ

ki zebranym informacjom w tej warstwie danych kieruj^-cy dzialaniami ratowniczymi KDR mogliby lokalizowac najblizsze punkty czerpania srodka gasniczego. Projekt tej warstwy zostal oparty na opracowanej przez autora metodzie eksploracyjnej analizy tekstu do jego struktu-ralizacji [5-7]. Analizowane teksty stanowily dokumen-ty z prowadzonych dzialan ratowniczo-gasniczych przez jednostki PSP, pochodz^ce z systemu ewidencji zdarzen EWID [8-10]. Podczas komputerowej analizy dokumen-tacji pojawily siç problemy zwi^zane z podzialem jej na segmenty. Segmenty w literaturze poswiçconej lingwisty-ce komputerowej i przetwarzaniu tekstów w jçzyku natu-ralnym okresla siç tez jako tokeny (ang. tokens). Podzial ten polega na rozpoznawaniu granic miçdzy podstawo-wymi elementami tekstu - segmentami. Segmentacja tekstu definiowana jest tez jako liniowy podzial tekstu na co najmniej dwóch poziomach [11]. Pierwszy poziom stano-wi podzial tekstu na jednostki, zwykle zdania, które mog^. byc przetwarzane skladniowo niezaleznie od innych jed-nostek tego samego poziomu. Drugi poziom stanowi segmentacja tekstu prowadz^ca do tego, ze tekst dzielony jest na jednostki nazwane tokenami lub segmentami, którym przypisuje siç interpretacje morfo syntaktyczne, czyli in-formacje o czçsciach mowy (rzeczownik, czasownik itp.) i wartosciach odpowiednich kategorii morfo syntaktycz-nych (rodzaju, przypadku itp.). Zazwyczaj segmentacja w tym sensie nazywana jest tokenizaj. Dodatkowo dla poprawy dalszej interpretacji tekstu, a wiçc i jakosci, wazne jest rozpoznawanie segmentów charakterystycz-nych dla tekstów danego typu, np. dat, adresów, nazw ulic [12]. W badaniach prowadzonych przez autora wazny aspekt stanowil podzial tekstu na pierwszym poziomie. Wazne jest to ze wzglçdu na fakt, ze kazdemu wydzielo-nemu segmentowi z raportu w procesie klasyfikacji nada-wane jest znaczenie, okreslany jest jego kontekst. Odby-wa siç to poprzez analizç jego elementów skladowych -wyrazen. Na ich podstawie budowany jest klasyfikator, który przydziela segment do jednej z wydzielonych klas semantycznych (okreslaj^cych kontekst). Nieprawidlowa segmentacja moze wiçc doprowadzic nie tylko do niepo-prawnego podzialu zdania na czçsci, ale takze do niepra-widlowej interpretacji semantycznej segmentu.

W literaturze dziedzinowej dotycz^cej przetwarza-nia tekstów [11-13] malo miejsca poswiçca siç metodom projektowania segmentatorów regulowych na poziomie zdan. W niniejszym tekscie omówiono wiçc metodç projektowania bazy wiedzy oraz regul utworzonego i bada-nego przez autora segmentatora regulowego SR. Skon-struowana baza wiedzy umozliwila przeprowadzenie segmentacji polegaj^cej na rozpoznawaniu granicy zdan w dostçpnych dla autora dokumentach tekstowych, w po-staci raportów sporz^dzanych z akcji ratowniczo-gasni-czych, przechowywanych w systemie ewidencji zdarzen EWID [8-10]. Okazalo siç, ze zadanie to nie jest proste w przypadku próby segmentacji badanej dokumentacji. Do jego rozwi^zania autor zaproponowal proste i sku-teczn^. metodç, w kontekscie analizowanej dokumentacji, oparty o regulowe dzielenie tekstu na segmenty. Do re-alizacji procesu segmentacji zaprojektowano, w oparciu

o formaln^. analizç pojçc (ang. formal concept analysis -

DOI:10.12845/bitp.34.2.2014.9

FCA), bazç wiedzy zawieraj^c^. uzywane w dokumentacji skróty oraz bazç regul okreslaj^c^. warunki segmentacji.

W sekcji drugiej niniejszego artykulu opisano propo-zycje wykorzystania formalnej analizy pojçc do projektowania bazy wiedzy oraz regul SR, na potrzeby segmentacji raportów. Wykorzystano takze zwi^zane z analiza diagramy liniowe w celu wizualizacji relacji, jakie za-chodz^. pomiçdzy wykrytymi obiektami. W sekcji trze-ciej przedstawiono wyniki eksperymentu polegaj^cego na wykorzystaniu wykrytych regul oraz skrótów do segmentacji dostçpnego zbioru danych tekstowych w posta-ci raportów. Przeprowadzona segmentacja za pomoc^. SR, skonstruowanego w oparciu o analizç utworzonej hie-rarchii pojçc, zostala poddana ocenie w odniesieniu do dostçpnych autorowi dwóch segmentatorów. Pierwszy z segmentatorów wykorzystywal rozszerzone reguly seg-mentacji (ang. segmentation rules exchange - SRX), drugi natomiast pochodzil z otwartego projektu zwi^zanego z przetwarzaniem jçzyka polskiego (ang. open source projects related to natural language processing - open-NLP) [14, 15]. W sekcji czwartej przedstawiono wnioski plyn^ce z zastosowania opisywanej i proponowanej przez autora metody projektowania bazy wiedzy oraz regul SR.

2. Segmentator regulowy - metoda projektowania i reprezentacja wiedzy

Formalna analiza pojçc wprowadzona zostala przez Rudolfa Wille'a w 1984 roku. Jej koncepcja zbudowana zostala na teorii sieci i czçsciowego porz^dku, które to zo-staly rozwiniçte przez Birkhoffa i innych w latach 30. XX wieku [16-18]. FCA sluzy do matematyzacji pojçcia „po-jçcie” (okreslane takze jako „koncept”) oraz daje formal-ne narzçdzie stosowane do analizy danych i reprezentacji wiedzy. Do wizualizacji zachodz^cych relacji pomiçdzy wykrytymi pojçciami sluzy w FCA krata pojçc (ang. concept lattice). Krata pojçc graficznie moze byc prezento-wana za pomoc^. diagramu liniowego (ang. line diagram) nazywanego takze diagramem Hassego (ang. Hasse diagram) [19, 20]. Diagram ten sluzy do konstruowania hie-rarchii pojçc. Sklada siç z w^zlów (wierzcholków) oraz krawçdzi. Kazdy wierzcholek reprezentuje pojçcie natomiast krawçdzie l^cz^. wierzcholki w okreslony sposób

[19]. Aktualnie FCA stosowana jest np. w [16]: psycho-logii, socjologii, antropologii, medycynie, biologii, lin-gwistyce, matematyce czy tez informatyce. Autorowi naj-blizsze s^. zastosowania z zakresu technik informacyjnych i informatyki, w których niniejsza analiza wykorzystywa-na jest w szczególnosci do realizacji zadan z zakresu:

• wydobywania z tekstu hierarchii pojçc (ang. concept hierarchies) dla systemów bazuj^cych na wiedzy [21] tj. systemów komputerowych stosuj^cych wiedzç z danej dziedziny zapisanej w bazie wiedzy [22]. Wy-dobyta hierarchia pojçc stanowi taksonomiç polegaj^-c^. na klasyfikacji (uporz^dkowaniu) jednostek syste-matycznych w kategorie,

• odnajdywania grupy dokumentów dziel^cych te same atrybuty. Zadanie to jest waznym elementem w: eksploracyjnej analizie tekstów, przetwarzaniu informacji (ang. information extraction - IE) czy tez wyszu-kiwaniu informacji (ang. information retrievel - IE)

w zbiorze dokumentów tekstowych. W ostatnim przy-kladzie FCA pelni najczçsciej rolç silnika wspiera-j^cego systemy wyszukiwania informacji w tekscie

[20]. Natomiast diagramy liniowe sluz^. do tworzenia i wizualizacji ich hierarchii oraz powi^zan, y analizy kodu zródlowego [23], a w szczególnosci po-zyskiwania i grupowania wzorców projektowych [24, 25], jak tez analizy, projektowania, tworzenia oraz refaktoryzacji hierarchii klas z zakresu paradygma-tu projektowania obiektowego [17, 19, 26-32]. FCA w tym przypadku sluzy wiçc do zarz^dzania i rozwo-ju oprogramowania w mysl ogólnie pojçtej inzynierii programowania [33] jak i modelowania calych systemów informatyczno-informacyjnych [34, 35], y wspierania projektowania systemów CBR [36] oraz ich udoskonalania [37] poprzez np. grupowanie i se-lekcjç przypadków zdarzen [38, 39], y wykrywania zaleznosci funkcyjnych (ang. functional dependencies) w relacyjnych bazach danych [40], y tworzenia metod pólautomatycznych do konstruowa-nia wybranych ontologii [41-43].

Propozycja analizy bazy wiedzy na temat skrótów oraz regul dla SR bazuje na formalnej analizie pojçc oraz diagramach liniowych do wizualizacji wykrytych relacji miçdzy obiektami. Metoda analizy zawiera trzy podsta-wowe kroki, na które skladaj^. siç nastçpuj^ce elementy: zdefiniowanie obiektów O, atrybutów C oraz relacji in-cydencji, nastçpnie zdefiniowanie kontekstu formalnego K w terminach obiektu, atrybutu i relacji incydencji i na koncu zdefiniowanie pojçcia formalnego dla danego kon-tekstu formalnego.

Kontekstem formalnym K jest nastçpuj^ca trójka [41]:

K (O,CR) (1)

gdzie:

0 - nieupsty zbiór obiektów,

C - niepusty zbiór atrybutów,

R - binarna relacja miçdzy obiektami a atrybutami R Є O x C (oRc).

W niniejszym opracowaniu kontekst formalny stano-wily „elementy nie zawsze koncz^ce segment”. Kontekst ten zostal opisany za pomoc^. tablicy zawieraj^cej: obiek-ty o, atrybuty c oraz relacje r. Zbiór obiektów stanowi-ly wykryte niepoprawnie rozbite segmenty, które zosta-ly oznaczone jako op...,on (n - liczba obiektów, n=310)

1 które prezentuje tabela 1. Zbiór atrybutów C stanowi-ly pojçcia okreslaj^ce, jakiego rodzaju przetwarzania seg-mentu nalezy uzyc, aby prawidlowo podzielic segment. Wykryto i zdefiniowano 16 (c1,.,ck, k = 16) takich cha-rakterystycznych atrybutów (k) dla segmentów pocho-dz^cych z badanych raportów.

W celu zaprezentowania wyznaczania obiektów o i atrybutów c posluzono siç nastçpuj^cym przykladem. Przyjmijmy, ze do dyspozycji jest nastçpuj^cy segment: „... podjçto decyzje ze w dn. jutrzejszym zostanie za-dysponowana przez gcrk na miejsce zdarzenia koparka, która wykona kanal do ...”.

DOI:10.12845/bitp.34.2.2014.9

W przypadku gdy bçdzie dostçpna jedynie regula mó-wi^ca o tym, ze znak kropki „.” konczy segment, wów-czas ww. segment zostanie nieprawidlowo podzielony na dwa podsegmenty. Tak wiçc mozna wykryc obiekt on w postaci wyrazenia „dn. jutrzejszym”. Pierwszy element w rozwazanym przypadku stanowi skrót, drugi natomiast resztç czçsci segmentu. W celu prawidlowej segmentacji ww. zdania nalezy wiçc wprowadzic przetwarzanie po-legaj^ce na wykrywaniu w tym przypadku atrybutu ck w postaci skrótu - wyrazenie „dn.” oznacza skrót od dnia.

Do wyznaczonych, podczas analizy dostçpnych obiektów on, pozostalych atrybutów ck nalezy atrybuty okresla-j^ce, czy dany segment powinien byc zanalizowany pod k^tem nastçpuj^cych elementów:

y skrótów (c1, „skrót”), zbudowanych z jednej lub kilku liter i stanowi^cych wszelkie mozliwe skrócone for-my zapisu wyrazów lub wyrazen, które wystçpowaly w badanych raportach, y regul (c2, „regula”) okreslaj^cych i nakladaj^cych do-datkowe warunki co do podzialu zdania na segmenty b^dz braku takiego podzialu (kropka nie zawsze im-plikuje koniec zdania), y regul z korekcjami (c3, „regula_korekcji”) polega-j^cych na powierzchownym sprawdzeniu badanego segmentu, wykryciu oraz poprawie nieprawidlowo sformulowanych skrótów (w badanych tekstach naj-czçstszym blçdem bylo bezposrednie l^czenie liczeb-ników ze skrótami np. „... 10cm”, które nalezalo by poprawic na „. 10 cm.”), y regul z badaniem otoczenia skrótu (c4, „regula_bada-nia_otoczenia”), polegaj^cych na wykrywaniu, czy z lewej oraz prawej strony skrótu nie wystçpuj^. dodat-kowe znaki. W tym przypadku analizowane byly ci^-gi z segmentu pod k^tem wykrywania w nich skrótów (w badanych tekstach istniej^. zapisy uzywaj^ce wtr^-cen w postaci nawiasów „(” oraz „)”, po których na-stçpuj^. skróty np. „... (dow. sierz.”, y regul wykrywania nazwy ulicy ze skrótem (c5, „na-zwa_ulicy_ze_skrótem”), polegaj^cych na wykrywaniu ci^gów w segmentach odnosz^cych siç do nazw ulic, podczas zapisu których uzyto skrótu imienia (w badanych tekstach istniej^. zapisy w postaci np. „e. plater”, który stanowi skrót od pelnej nazwy uli-cy Emilii Plater, y regul wykrywania czasu (c6, „czas”) polegaj^cych na wykrywaniu ci^gów w segmentach, które odnosz^. siç do okreslenia czasu akcji zapisywanego w formacie hh.mm (godzina.minut), tak wiçc znak kropki w takim zapisie nie powinien dzielic segmentu, y regul wykrywania liczby z kropk^. oraz adnotaj (c7, „liczba_kropka_adnotacja”), polegaj^cych na wykrywaniu ci^gów w segmentach zawieraj^cych liczbç, po której nastçpuje kropka, a nastçpnie symbol adnotacji np. „6. Ad.3”, schemat taki wynika z tego, iz po za-konczeniu akcji w polu nr. 6 pt. Inne uwagi dotyczqce danych ze strony poprzedniej z sekcji Dane opisowe do informacji ze zdarzenia pochodz^cej z papierowej wersji karty Informacji ze zdarzenia [44], KDR wpi-suj^. swoje uwagi dotyczqce pozostalych pól z karty, które wypelniali. Z uwagi na brak wewnçtrznej struk-

ТЕХНИКА И ТЕХНОЛОГИЯ

tury tego pola jak i struktury calego punktu Dane opisowe do informacji ze zdarzenia w cyfrowym syste-mie ewidencji zdarzen EWID [5, 8-10], KDR stosuj^. rözne oznaczenia oraz zabiegi skladniowe przy wpro-wadzaniu opisöw do tego typu pöl ww. systemu,

• regul wykrywania gwiazdki z numerem oraz kropk^. (c8, „gwiazdka_numer_kropka”), polegaj^cych na wy-krywaniu ci^göw w segmentach zawieraj^cych liczbi poprzedzon^. znakiem gwiazdki lub innym znakiem, po ktörej nastipuje kropka np. „*1.”, schemat taki wy-nika z podobnych przeslanek, ktöre omöwiono powy-zej. W elektronicznej wersji sekcji Dane opisowe do informacji ze zdarzenia brak jest wydzielonych odpo-wiednich sekcji, jak to ma miejsce w jej papierowej wersji, przez co KDR stosuj^. rözne nieformalne zabiegi w celu podkreslenia do jakiej cz^sci sekcji nale-zy podany opis. Tego typu zabiegi nie s^. dominuj^c^ regul^ niemniej wystipuj^. i powinny bye brane pod uwagi podczas przetwarzania przez SR,

• regul wykrywania liczby ze skrötem koncz^cym segment (c9, „liczba_skröt_koniec_segmentu”), polegaj^-cych na wykrywaniu ci^göw w segmentach zawierj-cych liczby ze skrötem, ktöre koncz^. zdanie,

• regul wykrywania kropki z liczby oraz kropki, po ktörej nastipuje wielka litera (c10, „kropka_liczba_krop-ka_wielka_litera”), polegaj^cych na wykrywaniu ci^göw na styku segmentöw zawieraj^cych kropki z liczby oraz kropki, po ktörej nastipuje wielka litera. Schemat ten jest stosowany przez decydentöw do wy-liczania w opisywanym zdarzeniu kroköw, jakie pod-jili w celu neutralizacji powstalego zagrozenia np. „1. Wywazono drzwi. 2. Zabezpieczono miejsce zdarzenia.”,

• regul wykrywania wersji (c11, „wersja”) polegaj^cych na wykrywaniu ci^göw w segmentach, ktöre opisuj^. wersje wykorzystywanych przyrz^döw pomiarowych np. zadymienia etc.,

• regul wykrywania numeröw z dowolnym znakiem oraz skrötem (c12, „numer_znak_skröt_skröt”) polega-j^cych na wykrywaniu ci^göw w segmentach zawiera-j^cych w sobie cyfry, po ktörych moze nast^pie znak ze skrötem. Schemat ten wyznacza w szczegölnosci (w kontekscie Q dotycz^cym opisöw hydrantöw) opi-sy dotycz^ce obiektöw hydrotechnicznych oraz ich sprawnosci np. „...,39582-n. spr.” stanowi skröcony zapis dotycz^cy informacji o tym, ze hydrant o nu-merze z tabliczki 39582 zostal sprawdzony i byl nie-sprawny,

• nieinterpretowalnych skrötöw (c13, „skröt_nieinterpre-towalny”) zbudowanych z jednej lub kilku liter i sta-nowi^cych wszelkie mozliwe skröcone formy zapi-su wyrazöw lub wyrazen, ktöre wystipowaly w bada-nych raportach i nie mozna ich w zaden sposöb zinter-pretowae jednoznacznie przy dyspozycji kontekstem Q segmentu np. „... b. Jan Kowalski”, skröt „b.” moze oznaczae brygadier, brygadzista etc.,

• interpretowalnych skrötöw (c14, „skröt_interpretowal-ny”) zbudowanych z jednej lub kilku liter i stanowi^-cych wszelkie mozliwe skröcone formy zapisu wyra-zöw lub wyrazen, ktöre wystipowaly w badanych ra-

DÜI:10.12845/bitp.34.2.2014.9

portach i ktöre mozna zinterpretowae jednoznacznie przy dyspozycji kontekstem Q segmentu np. „. splo-n^lo 10 km. kwadratowych l^ki.”,

• poprawnych skrötöw (c15, „skröt_poprawny”), ktöre z definicji s^. podobne do interpretowalnych skrötöw przy czym skröty stanowi^. podzbiör zbioru poprawnych skrötöw uzywanych w jizyku polskim,

• niepoprawnych skrötöw (c16, „skröt_niepoprawny”), ktöre z definicji s^. podobne do interpretowalnych skrötöw przy czym skröty stanowi^. nadzbiör zbioru poprawnych skrötöw uzywanych w jizyku polskim np. „.. w. wym miejscu splon^ly smieci” skröt „w. wym” odnosi sii do wyzej wymieniony i popraw-nie powinno bye „ww.”.

Informacji o zaleznosci pomiidzy wykrytymi obiek-tami stanowi^cymi niepoprawne zakonczone segmenty oraz okreslaj^cymi ich atrybutami prezentuje tabela 1.

Tabela 1.

Tabela formalnego kontekstu „elementy nie zawsze koncz^ce segment”

Table 1.

Table of formal context “elements which do not always end a segment”

Obiekty (Objects) Atrybuty (Attributes)

ci c2 c3 ck

oi 1

02 1 1

03 1

0 n

Zrödlo: opracowanie wlasne / Source: own work

Tabela 1 prezentuje informacji o zaleznosciach pomiidzy wykrytymi obiektami oraz atrybutami. W przy-padku gdy do obiektu o pasuje przynajmniej jeden atrybut c, odnotowywane jest to w tablicy poprzez wstawienie do odpowiedniej jej komörki wartosci 1, w przeciwnym razie komörka tablicy pozostaje pusta. W ten sposöb tworzone s^. relacje miidzy obiektami i opisuj^cymi je atrybutami (oRc). Z kontekstu formalnego K mozna wywnioskowae nastipuj^ce zaleznosci: zbiör obiektöw A с O generuje zbiör atrybutöw Ä = {с gC\ oRc,Vo g О} (zbiör atry-butöw dzielony przez obiekty z A np. A = {o2, o3} ^ A’ = {c2}) i analogicznie zbiör atrybutöw B с C generuje zbiör obiektöw В = {о eO\ oRc,Vc e С} (zbiör obiektöw, ktöre maj^. wszystkie atrybuty w B np. B = {c2} ^ B’={o2, o3}).

Formalne pojicie (ang. formal concept) kontekstu K(0, C, R) stanowi para uporz^dkowana (A, B), gdzie [41]: A с O, B с C oraz A’ = B i B’ = A. A nazywane jest ekstensj^. natomiast B nazywane jest intensj^. formalnego pojicia (A, B).

Z kazdym pojiciem zwi^zane wiic s^. jego: ekstencja i intensja. Ekstensja to klasa przedmiotöw (obiektöw) opisywanych przez pojicie. Natomiast intensja to klasa cech (wlasnosci, atrybutöw) wspölnych dla wszystkich przedmiotöw z ekstensji. Utworzone pojicia dla omawia-nego formalnego kontekstu prezentuje tabela 2.

DOI:10.12845/bitp.34.2.2014.9 Tabela 2.

Poj^cia dla formalnego kontekstu „elementy nie zawsze koncz^ce segment”

Table 2.

Concepts for a formal context “elements do not always ending segment”

Identyfikator poj^cia (ID concept) Ekstensja (Extension) Intensja (Intension)

c(0) {oo,p ■ ■> O0,a} {}

c(1) {Ou, ■ - 01,b} {regula}

c(2) {O2,1 ■ - 02,c} {regula; numer_znak_skrót_skrót}

c(3) {O3,P ■ - 03,d} {regula; wersja}

c(4) {V ■ - 04,e} {regula; gwiazdka_numer_kropka}

c(15) {015,1, ■ - 015,p} {skrót}

c(16) {016,P ■ - 016,r} {skrót; skrót_niepoprawny}

c(17) {017,15 ■ - 017,s} {skrót; skrót_interpretowalny}

c(18) {018,1> ■ - 018,t} {skrót; skrót_interpretowalny; skrót_niepoprawny}

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

c(19) {019,15 ■ ' ’ 019,w} {skrót; skrót_interpretowalny; skrót_poprawny}

c(20) {O20,15 ■ ■’ O20,x} {skrót; skrót_nieinterpretowalny; skrót_niepoprawny}

c(21) {°21,P ■ - 021,y} {skrót; regula; regula_korekcji; regula_badania_otoczenia; nazwa_ ulicy_ze_skrótem; czas; ... ; skrót_niepoprawny}

Zrodlo: opracowanie wlasne przy wykorzystaniu [45] / Source: own work based on [45]

Tabela 2 prezentuje poj?cia dla formalnego kontekstu „elementy nie zawsze koncz^ce segment”. Ze wzgl?du na dose znaczn^. liczb? przebadanych obiektow i wykorzy-stanie diagramu liniowego w celu prezentacji pomi?dzy nimi relacji oraz zachowanie czytelnosci, wykorzysta-no nast^puj^c^. notacj?: identyfikator poj?cia c(l), gdzie l = 1,.. .,21 oznacza liczb? wyznaczonych formalnych po-j?e, stanowi skrot zapisu poj?cia formalnego w postaci ({oxy,.. .,ozk}, {cxy,.,czk}), tak wi?c w kazdej parze pierw-szy zbior stanowi ekstensj? poj?cia, natomiast zbior dru-gi jego intensj?.

Poj?cia (A1, B1) oraz (A2, B2) kontekstu K(O, C, R) s^. uporz^dkowane wzgl?dem relacji, ktor^. mozna zdefi-niowae w nast?puj^cy sposob [41]:

(A ABi ^ Bi (2)

Zbior wszystkich poj?e S kontekstu K wraz z relacji < (S(K), <) tworz^. krat?, ktora w analizie FCA nazywa-na jest krat^. poj?e formalnego kontekstu K(O, C, R) [41]. Utworzon^. przykladow^. krat? poj?e dla formalnego kontekstu „elementy nie zawsze koncz^ce segment” prezentuje ryc. 1.

Ryc. 1 prezentuje utworzon^. krat? poj?e dla formalnego kontekstu „elementy nie zawsze koncz^ce segment”. Kazdy w?zel sieci, ktory oznaczony jest jako czarna krop-ka, stanowi formalne poj?cie z tabeli 2. Na niniejszym ry-sunku widae wyraznie rozdzielenie pomi?dzy poj?ciami zwi^zanymi z elementami prostymi w postaci skrotow (poj?cie c(15)) a elementami zlozonymi w postaci regul (poj?cie c(1)). Elementy proste, atomowe buduj^. baz? wiedzy SR. Baza wiedzy moze zostae podzielona na skro-

ty niepoprawne (poj^cie c(16)) oraz skróty interpretow-alne (poj§cie c(17)). Skróty niepoprawne nie wyst^puj^. w slowniku j^zyka polskiego, ale s^. na tyle cz^sto stoso-wane w raportach, ze mozna je uznac za cz^sc specyficz-nego j^zyka, jakim posluguj^. si§ KDR podczas tworzenia raportów. Tak wi§c w kontekscie Q zwi^zanym z tworze-niem raportów uznane s^. jako równowazne skrótom po-prawnym, które zarazem s^. interpretowalne (poj^cie c(19)). Interpretowalne mog^. byc skróty zarówno po-prawne, jak i niepoprawne (poj^cie c(18)). Oznacza to, ze uzytkownik U moze bez problemu na podstawie kontekstu Q segmentu zinterpretowac znaczenie utworzonego zapisu w postaci skrótu. Niewielk^. cz^sc bazy wiedzy mozna wydzielic na wyj^tki w postaci wykrytych niestandar-dowych, nieinterpretowalnych skrótów zdarzaj^cych si§ w raportach, które mozna powi^zac albo z bl^dami, albo z pospiesznym wpisywaniem i przenoszeniem raportu do bazy ewidencji zdarzen. Drug^. wazn^. gal^z buduj^c^. SR stanowi gal^z zawieraj^ca reguly (poj^cie c(1)), które opisuj^, w jaki sposób wykorzystywac elementy zgro-madzone w bazie wiedzy w postaci skrótów wraz z dodat-kowymi regulami polepszaj^cymi jakosc segmentacji raportów. Do podstawowych regul nalez^. reguly zwi^zane z poj^ciami: wykrywania wersji (c(3)), wykrywania pod-punktów i adnotacji w dokumentacji (poj^cia c(4), c(5), c(6)), czy tez wykrywania skrótów zamkni^tych w nawia-sy klamrowe czy tez inne znaki (poj^cie c(9)). Nizszy po-ziom przetwarzania, segmentacji raportu moze obejmo-wac analiza z odpowiedni^. korekj segmentów. Korek-cji mog^. byc poddawane takie elementy jak czas (poj^cie c(7), c(13)), zle pol^czenia skrótów (poj^cie c(12)), na-zwy ulic (poj^cia c(8), c(14)) czy tez numery, po których wyst^puj^. znaki wraz ze skrótem (poj^cia c(2), c(11)).

ТЕХНИКА И ТЕХНОЛОГИЯ

DOI:10.12845/bitp.34.2.2014.9

Ryc. 1. Krata poj?c formalnego kontekstu „elementy nie zawsze koncz^ce segment”.

Zrodlo: opracowanie wlasne na podstawie [45]

Fig. 1. Lattice for formal context “elements do not always ending segment”.

Source: own work based on [45]

3. Eksperyment numeryczny

Wiedza na temat elementow nie zawsze koncz^cych segment, zostala utrwalona i zaprezentowana za pomo-c^. kraty poj?c (ryc. 1). Utworzono j^. na podstawie anali-zy raportow oraz buduj^cych je segmentow, jak rowniez analiz nieprawidlowo rozbitych segmentow. Nieprawi-dlowo rozbite segmenty otrzymywano w procesie dostra-jania bazy wiedzy oraz regul SR. Towarzyszylo temu od-krywanie elementow bazy wiedzy zarowno w postaci do-st?pnych w raportach skrotow, jak i regul okreslaj^cych wykrywanie prawidlowych zakonczen segmentow [46]. Utworzon^ krat? poj?c mozna poddac procesowi transfor-macji na reguly SR. Dzi?ki temu istnieje mozliwosc zbu-dowania elastycznego oprogramowania z mozliwosci^. przel^czania regul. Posluguj^c si? utworzon^ krat^ poj?c, mozna zbudowac oprogramowanie przetwarzaj^ce rapor-ty na segmenty na trzech zasadniczych poziomach: a) ko-rekcji potencjalnie zle uzytych skrotow (warstwa utwo-rzona z poj?c c(11) - c(13)), b) rozszerzonego wykrywa-nia wyj^tkow polegaj^cych na tym, ze znak kropki „.” nie zawsze konczy segment (warstwa utworzona z poj?c c(2)

- c(9)) oraz c) wykrywania podstawowych (standardo-wych) skrotow w segmentach zwi^zanych z wykorzysta-niem bazy wiedzy (poj?cia z gal?zi c(1)) z bazow^. regu-l^. mowi^c^. o tym, ze jesli analizator natrafi na element z gal?zi c(1) to znak kropki „.” nie swiadczy o tym, ze jest to koniec segmentu.

Zademonstrowano, jak dziala oprogramowanie opar-te na trzech ww. warstwach na nast?puj^cym przykladzie. Przyjmijmy, ze do dyspozycji jest nast?puj^cy raport:

„Splon?lo 10km. kwadratowych l^ki. Akcj? gasnicz^. ukonczono o godz. 8.00 po przybyciu dodatkowych sil i srodkow”.

Raport po przejsciu przez pierwsz^. warstw? (a) podle-ga korekcji tj. wyrazenie „10km”. poprawiane jest na „10 km”. Nast?pnie tak poprawiony tekst trafia do warstwy drugiej (b) wykorzystuj^cej elementy z warstwy trzeciej

(c) oprogramowania. W ten sposób podczas analizy wy-razenia „km.”, które znajduje siç w standardowej bazie skrótów (c), program nie uzna tego za koniec segmentu

i przejdzie dalej. Koniec segmentu nast^pi po odczytaniu wyrazenia „l^ki”. Wyraz „l^ki” nie znajduje siç w bazie skrótów, tak wiçc nastçpuje w tym miejscu pierwszy po-dzial tekstu. Podczas analizy drugiej czçsci raportu zosta-nie wykryty standardowy skrót „godz.” i tym samym nie nast^pi zakonczenie segmentu. W dalszej kolejnosci na-st^pi wykrycie wyrazenia „8.00”. Dziçki warstwie drugiej (b) oprogramowania, takze w tym przypadku nie nast^pi podzial zdania. Podczas analizy wyrazenia „8.00” zosta-nie dopasowana regula „czas” mówi^ca o tym, ze liczba zakonczona znakiem kropki „.” po której nastçpuje zno-wu liczba, nie konczy segmentu. Program po osi^gniçciu wyrazenia „srodków.” ze wzglçdu na to, ze nie wystçpu-je ono w bazie wiedzy oraz regul, wydzieli nastçpnie dru-gi segment.

Utworzona krata pojçc w punkcie 2 byla rezultatem badan dotycz^cych zastosowania opracowanego przez autora SR do segmentacji raportów z akcji ratowniczo-gasniczych [46]. Autor nie zastosowal w calosci przed-stawionego rozwi^zania bezposrednio w SR. Wykorzy-stane zostaly tylko niektóre galçzie z utworzonej kraty pojçc zawieraj^cej wydzielone pojçcia. Segmentator re-gulowy wykorzystywal kompletn^. gal^z c(15) zwi^zan^. z baz^. wiedzy oraz podstawowe reguly z galçzi c(1) zwi^-zane z regulami wykrywania konca segmentu jak równiez sprawdzania, czy znak interpunkcyjny w postaci kropki („.”) konczy skrót a nie segment. Pomimo pominiçcia warstw korekcji oraz regul zwi^zanych z wykrywaniem niektórych skrótów pol^czonych z liczbami, autor otrzy-mal satysfakcjonuj^ce rezultaty. Do oceny rozwi^zania oraz jego porównania w odniesieniu do wybranych seg-mentatorów autor uzyl zaleznosci zaczerpniçtych z zakre-su przetwarzania informacji (ang. information retrievel

- IR) [47]. Wykorzystane i przedstawione dalej zaleznosci zostaly wyprowadzone na podstawie nastçpuj^co sfor-mulowanego zalozenia:

Zalózmy, ze jest dostçpny jednoelementowy zbiór za-pytan Q i zapytanie q e Q oraz zbiór segmentów S i, ze dla zapytania q dany jest zbiór segmentów zwróconych przez segmentator (system segmentacji) R ç S oraz zbiór istotnych segmentów Sq oznakowanych rçcznie ze zbioru segmentów S tj. Sq ç S.

Dziçki tak sformulowanemu problemowi mozliwe jest wyznaczenie (wzór 3 - wzór 5) [48-50]:

• precyzji (ang. precision) - pozytywnie przewidziane

wartosci (ang. positive prediction value)

p-p

r rm

IR

(3)

?

• przywolania (ang. recall) - wrazliwosc (ang. sensitivity)

R = Rm = \S*nRv Ш |5f|

(4)

DÜI:10.12845/bitp.34.2.2014.9

gdzie:

n - liczba segmentow w grupie j, n - calkowita liczba segmentow,

H - entropia dla grupy j, pij - prawdopodobienstwo klasy i w grupie j, n - liczba wyst^pien etykiety klasy i w grupie j.

Dodatkowo przeprowadzono takze podstawowe testy z zakresu statystyki na niezaleznosc segmentacji od ro-dzaju (typu) raportu (test niezaleznosci X) oraz zgodno-sci otrzymanych zbiorow segmentow ze zbiorem segmentow oznakowanym tj. referencyjnym zbiorem segmentow (test zgodnosci Kolmogorowa-Smirnova). Zalozono wiçc, ze „dobry” segmentator powinien byc niezalezny od tego, na jakim tekscie pracuje tj. jego dlugosci wyra-zonej w segmentach. Wszystkie niezbçdne obliczenia zo-staly dokonane za pomoc^. funkcji statystycznych znajdu-j^cych siç w oprogramowaniu R-project [51].

Wybrane statystyki oraz wskazniki do porownania wytypowanych, zbadanych przez autora segmentato-row w zestawieniu z referencyjnym zbiorem segmentow (RZS), stanowi^cym poprawnie wydzielone segmenty z dostçpnych raportow, prezentuje tabela 3. RZS utwo-rzony zostal z dostçpnego zbioru raportow. W drodze lo-sowania wybrano 3735 raportow, ktore manualnie poseg-mentowano. Otrzymano w ten sposob zbior skladaj^cy siç z 12753 segmentow. Dodatkowo dla celow dalszych ana-liz raporty pogrupowano wedlug ich dlugosci wyrazonej za pomoc^. liczby buduj^cych ich segmentow.

Tabela 3.

Statystyki wytypowanych, przebadanych segmentatorow

Table 3.

Statistics of selected and tested segmentation tools

RZS Segm. SRX Segm. openNLP SR

Jçzyk (Language) PL PL EN PL

Prawidlowe segmenty (Correct segments) 12753 11805 11506 12317

Nieprawidlowe segmenty (Uncorrect segments) 0 2051 2188 720

Srednia (Mean) 4.726809 5.303695 5.291953 4.881414

Wariancja (Variance) 8.953906 10.91289 12.18409 9.69413

Pierwszy kwartyl (25. percentyl) (First quartile) 3 3 3 3

Mediana (Median) 4 5 5 4

Trzeci kwartyl (75. percentyl) (Third quartile) 6 7 7 6

IQR 3 4 4 3

Precyzja (Precision) 1 0.8519775 0.840222 0.9447726

Przywolanie (Recall) 1 0.9256645 0.902219 0.965812

Bl^d E (Error E) 0 0.1127062 0.1298824 0.04482358

Bl^d wzglçdny (Relative error) 0 8,65% 7,38% 2,23%

Test zgodnosci (Conformance test) 0 0.0996 0.082 0.0224

Test niezaleznosci (Independence test) 0 1039.031 984.8984 319.6931

Zrodlo: opracowanie wlasne / Source: own work

Tabela 4.

Wskazniki okreslaj^ce jakosc dzialania wytypowanych, przebadanych segmentatorow

Table 4.

Indicators for selected and tested segmentation tools

Segmentator (Segmentation toll name) Jçzyk (Language) Precyzja (Precision) Przywolanie (Recall) r) £ F-miara (F-mean.) Entropia (Entropy)

Segmentator regulowy SRX PL 0.8519775 0.9256645 0.1127062 0.8872938 0.3265405

openNLP EN 0.840222 0.902219 0.1298824 0.8701176 0.3661229

Segmentator regulowy PL 0.9447726 0.965812 0.04482358 0.9551765 0.1790727

Zrodlo: opracowanie wlasne / Source: own work

blçdu

\Sq\(SqnRq)\ + \Rq\(SqnRq)\

\Sq'URq\

Podczas porownywania dzialania wytypowanych i zbadanych segmentatorow posluzono siç dodatkowy-mi zaleznosciami (wskaznikami) w postaci harmonicznej i entropii [49]. Zaleznosci na wymienione wskazniki pre-zentuj^. siç nastçpuj^co:

• harmoniczna (srednia harmoniczna) miara F

„ „ PR

F = 2------- (6)

P + R

gdzie:

P - wartosc precyzji,

R - wartosc przywolania.

• entropia

H = Z-^Hj (7)

Hj=-'Zl1Pijl°^ (8)

nij

pv==j— (9)

L=In9

ТЕХНИКА И ТЕХНОЛОГИЯ

DOI:10.12845/bitp.34.2.2014.9

Tabela 4 prezentuje zbiorcze porównawcze wartosci wybranych wskazników okreslajecych jakosc dzialania przebadanych segmentatorów.

Wyniki, które prezentuje tabele 3 i 4, wskazuje wy-raznie lepsze dzialanie skonstruowanego segmentato-ra regulowego niz pozostalych uzytych do porównania segmentatorów. Segmentacja pogarsza siç wraz z pró-be zmiany jçzyka segmentatora, co wieze siç ze zmiane bazy wiedzy oraz regul na temat wykrywania zakonczen segmentów, które w zaleznosci od jçzyka se rózne. O po-gorszeniu segmentacji swiadczy zmiana statystyk w od-niesieniu do RZS. Widac wyrazny wzrost sredniej, jak równiez wariancji dla otrzymanych zbiorów segmentów z wybranych segmentatorów. Pociega to za sobe zbytnie „rozdrobnienie” raportów. Zwiçksza siç liczba segmentów, a wiçc i liczba raportów o danym typie, które nie wystçpuje w RZS. Z tego wynika, ze segmentacja, wyko-nana za pomoce segmentatorów wybranych do porówna-nia z SR, stala siç bardziej zalezna od dlugosci raportów. Male wartosci F miary oraz duze wartosci entropii po-równywanych segmentatorów i wytwarzanych przez nich zbiorów segmentów w odniesieniu do SR i RZS swiad-cze o znacznej ich „niejednorodnosci”, a wiçc niesatys-fakcjonujecym ich dzialaniu i przetwarzaniu dostçpnej dokumentacji.

Graficzna prezentacja wybranych statystyk i warto-sci wskazników z badania wytypowanych, zbadanych segmentatorów w zestawieniu z referencyjnym zbiorem segmentów zostala dokonana za pomoce róznego rodza-ju wykresów m.in.: precyzjilprzywolania i histogramów. Wymienione wykresy prezentuje ryc. 2 i 3.

Wykffs punklowy prZyWOUnlA'pCeCyZ^ (PteOWOiVRecall cl

Is

is

Û. о

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

p'zyv’otanw'prvcyz)* Mgmtrtatora

• openNLP - en

♦ SRX

* r*gu*w,

A

*

Przywolanie (Recall)

Ryc. 2 Wykres punktowy przywolanialprecyzji wytypowanych, zbadanych segmentatorów Zródlo: opracowanie wlasne Fig. 2. Precision/Recall chart for different segmentators Source: own work

Ryc. 2 prezentuje wykres punktowy przywolanialprecyzji wytypowanych, zbadanych segmentatorów. Zapre-zentowano na nim zmianç wartosci precyzji oraz przywo-lania w zaleznosci od typu segmentatora (im blizej punktu (1,1) tym lepsze dzialanie segmentatora). Mozna zaobser-wowac, ze wraz ze zmiane regul jçzyka segmentatora ja-kosc segmentacji wyraznie spada. Zmniejsza siç zarówno precyzja, jak i przywolanie. Widac, ze segmentator SRX z regulami dla jçzyka polskiego charakteryzuje siç pra-wie take same precyzje jak segmentator openNLP dla jç-zyka angielskiego, wyróznia go jedynie lepsze przywola-nie. Oznacza to to, ze ilosciowo zwracaje one take same liczbç segmentów, jednak w odniesieniu do RZS segmentator SRX jest nieznacznie lepszy. Precyzja i przywola-nie utworzonego SR jest bliska punktu (1,1) swiadczy to

Ryc. З. Histogramy porównawcze rozkladu prawdopodobienstwa empirycznego segmentów

Zródlo: opracowanie wlasne Fig. З. Comparative histograms Source: own work

l0l

0 tym, ze wynikowy zbiór segmentów pokrywa siç prak-tycznie z RZS.

Ryc. 3 prezentuje porównawcze histogramy rozkladu prawdopodobienstwa empirycznego bçdecego ilorazem liczby segmentów okreslajecych dlugosc raportu do cal-kowitej liczby segmentów. Na kazdym z wykresów pre-zentowanych na rycinie 3 znajduje siç porównanie dopa-sowania obserwacji empiiycznych pochodzecych z otrzy-manych zbiorów segmentów do RZS. Widac, ze segmentator SRX oraz SR w odróznieniu do segmentatora openNLP z ustawione wersje angielske przywoluje taki sam zbiór raportów o dlugosci 28 segmentów. Niemniej opra-cowany SR znacznie lepiej pokrywa siç z RZS w prze-dziale raportów skladajecych siç z 2-15 segmentów.

4. Wnioski

Zaproponowana metoda projektowania bazy wiedzy oraz regul segmentatora regulowego umozliwia projekto-wanie oprogramowania, które w elastyczny sposób moze dokonywac przeleczania siç pomiçdzy róznymi, wybra-nymi galçziami kraty pojçc.

Podstawowa regula dotyczeca wykrywania konca zdania poprzez interpretacjç kropki i dodatkowych zna-ków jako konca segmentu w rzeczywistosci, zwlaszcza dla tekstów specjalistycznych musi byc opakowana do-datkowymi regulami. Do budowy i reprezentacji takich regul nadaje siç przedstawiona w artykule formalna analiza pojçc. Wiedza inzyniera oraz dodatkowe eksperymen-ty moge wzbogacac utworzone siec o nowe reguly. Nowo wprowadzana wiedza moze zostac w latwy sposób nanie-siona na aktualnie utworzone siec semantyczne, tym sa-mym przyczyniajec siç do polepszenia segmentacji tek-stu. Tak wiçc FCA pelni doskonale rolç wspierajece kon-struowania oprogramowania w postaci segmentatora regulowego opartego o bazç wiedzy. Dziçki niej mozna w przejrzysty sposób skonstruowac oprogramowanie komputerowe.

W ramach eksperymentu numerycznego wytworzo-no unikalny, w ramach dziedziny ratownictwa, zbiór regul oraz elementów bazy wiedzy na temat stosowanych skrótów, jak równiez zbiór prawidlowo wydzielonych

1 oznakowanych segmentów z elektronicznej czçsci Kar-ty informacji ze zdarzenia w postaci sekcji zatytulowa-nej Dane opisowe do informacji ze zdarzenia [44]. W dal-szej kolejnosci pozyskany zbiór segmentów bçdzie pod-dawany przetwarzaniu w torze formowania i strukturali-zacji informacji. Na jego podstawie bçdzie podjçta próba budowy systemu informacyjnego dla krajowego systemu ratowniczo-gasniczego.

Literatura

1. Mironczuk M., Karol K., Koncepcja systemu ekspertowe-go do wspomagania decyzji w Panstwowej Strazy Pozarnej, [w:] Inzynieria Wiedzy i Systemy Ekspertowe, Grzech A., Juszczyn K., Kwasnicka H., Nguyen N.T. (red.), Akademic-ka Oficyna Wydawnicza EXIT, Warszawa 2009.

2. Mironczuk M., Maciak T., Problematykaprojektowania mo-delu hybrydowego systemu wspomagania decyzji dla Pan-stwowej Strazy Pozarnej, „Zeszyty Naukowe SGSP”, No 39, 2009.

3. Krasuski A., Maciak T. Wykorzystanie rozproszonejbazy da-nych oraz wnioskowania na podstawie przypadków w pro-

DOI:10.12845/bitp.34.2.2014.9

cesach decyzyjnych Panstwowej Strazy Pozarnej. „Zeszyty Naukowe SGSP”, No 36, 2008, s. 17-35.

4. Mironczuk M. Zmodyfikowana analiza FMEA z elementa-mi SFTA w projektowaniu systemu wyszukiwania informacji na temat obiektów hydrotechnicznych w nierelacyjnym katalogowym rejestrze, „Studia Informática”, Vol. 2, number 2B (97), 2011.

5. Mironczuk M. Przeglqd oraz zastosowanie metod eksplora-cji danych tekstowych do przetwarzania raportów z akcji ra-towniczo-gasniczych. „Zeszyty Naukowe SGSP” (w cyklu recenzyjnym), 2011.

6. Slownik j^zyka polskiego PWN. Haslo: strukturalizacja. http://sjp.pwn.pl/slownik/2576375/strukturalizacja [dost^p: 1 kwietnia 2011]

7. Mironczuk M. Eksploracja Danych w kontekscie procesu Knowledge Discovery In Databases (KDD) i metodologii Cross-Industry Standard Process for Data Mining (CRISP--DM). Metody Informatyki Stosowanej, No 2, 2009.

8. Abakus: System EWID99, http://www.ewid.pl/?set=rozw_ ewid&gr=roz, [dost^p: 1 maja 2009].

9. Abakus: System eWiDSTAT. http://www.ewid.pl/?set=e-widstat&gr=prod [dost^p: 1 maja 2009].

10. Strona firmy abakus. http://www.ewid.pl/?set=main&gr=a-ba [dost^p: 1 marca 2009].

11. Przepiórkowski A., Techniki dezambiguacji morfo syntak-tycznej. Powierzchniowe przetwarzanie j^zyka polskiego. Akademicka oficyna wydawnicza EXIT, Warszawa 2008. s. 17-45.

12. Mykowiecka A., Elementy tekstu - segmenty, slowa, zdania. Inzynieria lingwistyczna. Komputerowe przetwarzanie tekstów w jqzyku naturalnym, Wydawnictwo PJWSTK, Warszawa 2007, s. 65-83.

13. Mykowiecka A., Inzynieria lingwistyczna. Komputerowe przetwarzanie tekstów w j^zyku naturalnym, PJWSTK, Warszawa 2007.

14. Milkowski M., Lipski J., Using SRX Standard for Sentence Segmentation In: Human Language Technology Challenges for Computer Science and Linguistics, Vetulani Z. (editor), Springer, Berlin/Heidelberg 2011. s. 172-182.

15. openNLP, http://incubator.apache.org/opennlp/ [dost^p: 1 kwietnia 20011].

16. Wolff KE., A first course in formal concept analysis. 1994. [dok. elektr.] http://www.fbmn.fh-darmstadt.de/home/wolff/ Publikationen/A_First_Course_in_ Formal_ Concept_ Analysis.pdf [dost^p: 22 grudnia 2009].

17. Patil P,. Applying Formal Concept Analysis to Object Oriented Design and Refactoring, Bombay: Department Of Computer Science and Engineering Indian Institute Of Technology, 2009.

18. Priss U., Formal concept analysis in information science, “Annu Rev Inform Sci Tech”, No 40, 2006, s. 521-543.

19. Hwang S. H., Kim H. G., Yang H. S., A FCA-Based Ontology Construction for the Design of Class Hierarchy In: Computational Science and Its Applications - ICCSA 2005, Gervasi O., Gavrilova M., Kumar V, Laganá A., Lee H., Mun Y., et al. (editors), Springer, Berlin/Heidelberg 2005. s. 307-320.

20. Carpineto C., Romano G. Using Concept Lattices for Text Retrieval and Mining In: Formal Concept Analysis, Ganter B., Stumme G., Wille R. (editors), Springer Berlin/Heidelberg, 2005. s. 3-45.

21. Cimiano P, Hotho A., Staab S. Clustering concept hierarchies from text In: Proceedings of LREC, 2004.

22. Leksyka.pl Knowledge-based system, http://megaslow-nik.pl/slownik/angielsko_polski/137416,knowledge-ba-sed+system [dost^p: 5 maja 2011].

23. Mens K., Tourw T., Delving source code with formal concept analysis. “Comput Lang Syst Struct”, No 31, 2005, s. 183-197.

24. Muangon W., Intakosum S., Retrieving design patterns by case-based reasoning and Formal Concept Analysis.

ТЕХНИКА И ТЕХНОЛОГИЯ

DOI:10.12845/bitp.34.2.2014.9

[Beijing]: Computer Science and Information Technology, 2009 ICCSIT 2009 2nd IEEE International Conference, 2009.

25. Muangon W., Intakosum S., Adaptation of Design Pattern Retrieval Using CBR and FCA. Proceedings of the 2009 Fourth International Conference on Computer Sciences and Convergence Information Technology, 2009.

26. Arvalo G., Mens T., Analysing Object-Oriented Application Frameworks Using Concept Analysis. Proceedings of the Workshops on Advances in Object-Oriented Information Systems, 2002.

27. Felleisen M., How to design class hierarchies. [Tallinn, Estonia]: Proceedings of the 2005 workshop on Functional and declarative programming in education, 2005.

28. Proulx V. K., Gray K. E., Design of class hierarchies: an introduction to OO program design, “SIGCSE Bull”, No 38, 2006, s. 288-292.

29. Godin R., Mili H., Mineau G. W., Missaoui R., Arfi A., Chau T. T., Design of class hierarchies based on concept (Galois) lattices, “Theor Pract Object Syst”, No 4, 1998, s. 117-133.

30. Godin R., Valtchev P., Formal Concept Analysis-Based Class Hierarchy Design in Object-Oriented Software Development In: Formal Concept Analysis, Ganter B., Stumme G. and Wille R. (editors), Springer Berlin/Heidelberg 2005. p. 209-231.

31. Snelting G., Tip F. Reengineering class hierarchies using concept analysis, “SIGSOFT Softw Eng Notes”, No 23, 1998, s. 99-110.

32. Snelting G., Tip F., Understanding class hierarchies using concept analysis, “ACM Trans Program Lang Syst”, No 22, 2000, s. 540-582.

33. Tonella P., Formal Concept Analysis in Software Engineering, Proceedings of the 26th International Conference on Software Engineering, 2004.

34. Laukaitis A., Vasilecas O., Formal concept analysis and information systems modeling, [Bulgaria]: Proceedings of the 2007 international conference on Computer systems and technologies, 2007.

35. Hesse W., Tilley T., Formal Concept Analysis Used for Software Analysis and Modelling, In: Formal Concept Analysis, Ganter B., Stumme G. and Wille R. (editors), Springer Berlin/Heidelberg 2005. s. 259-282.

36. Díaz-Agudo B., González-Calero P. A., Formal concept analysis as a support technique for CBR, “Knowledge-Based Systems”, No 14, 2001, s. 163-171.

37. Belén D. A., Marco A. G., Pedro P. G., Pedro A. G., Formal concept analysis for knowledge refinement in case based reasoning, Springer, 2005.

38. Pattaraintakorn P., Boonjing V., Tadrat J., A New Case-Based Classifier System Using Rough Formal Concept Analysis, Proceedings of the 2008 Third International Conference on Convergence and Hybrid Information Technology - Volume 02, 2008.

39. Li Y, Shiu S. C. K., Pal S. K., Combining Feature Reduction and Case Selection in Building CBR Classifiers, “IEEE Trans on Knowl and Data Eng”, No 18, 2006, s. 415-429.

40. Rancz K. T. J., Varga V, A methodfor mining functional dependencies in relational database design using FCA, Studia Universitatis “Babes-Bolyai” Cluj-Napoca, Informatica, No LIII, 2008, s. 17-28.

41. Haav H., A semi-automatic method to ontology design by using FCA, University of Ostrava, Department of Computer Science. Ostrava, 2004.

42. Glinski W., Ontologie. proba uporzqdkowania terminolo-gicznego chaosu, Instytut Informacji Naukowej i Studiöw Bibliologicznych UW. [dok. elektr.] http://bbc.uw.edu.pl/ Content/20/13.pdf [dost^p: 10 sierpnia 2010].

43. Hesse W., Ontologies in the Software Engineering process, EAI 2005 - Proceedings of the Workshop on Enterprise Application Integration, 2005.

44. Rozporz^dzenie Ministra Spraw Wewn^trznych i Admini-stracji z dnia 29 grudnia 1999 r. w sprawie szczegölowych zasad organizacji krajowego systemu ratowniczo-gasnicze-go. Dz.U.99.111.1311 § 34 pkt. 5 i 6.

45. Radvansky M., Formal concept analyse, [dok. elektr.] http:// www.fca.radvansky.net/news.php [dost^p: 1 maja 2011]

46. Mironczuk M., System informacyjny na temat sieci hydran-tow dla krajowego systemu ratowniczo-gasniczego: metoda segmentacji tekstu i jej ocena, Bialystok, 2011.

47. Markov Z., Larose D. T., Wyszukiwanie informacji teksto-wych i wyszukiwanie w Internecie. Eksploracja zasobow internetowych. Analiza struktury, zawartosci i uzytkowa-nia sieci WWW, Wydawnictwo Naukowe PWN, Warszawa 2009, s. 3-47.

48. Hand D., Mannila H., Smith P., Eksploracja danych. Wy-danie 1., Wydawnictwo Naukowo-Techniczne, Warszawa 2005.

49. Markov Z., Larose D. T., Eksploracja zasobow internetowych. Analiza struktury, zawartosci i uzytkowania sieci WWW, Wydawnictwo Naukowe PWN, Warszawa 2009.

50. Christopher D. Manning, Prabhakar Raghavan., Schütze H., Introduction to Information Retrieval In: Press C.U., editor, 2008.

51. The R Project for Statistical Computing, http://www.r-pro-ject.org [dost^p: 1 stycznia 2011]

Praca naukowa wspólfinansowana ze srodków Europejskiego Funduszu Spolecznego, srodków Budzetu Pan-stwa oraz ze Srodków Budzetu Woje-wództwa Podlaskiego w ramach pro-jektu „Podlaska Strategia Innowacji - budowa systemu wdrazania”

dr inz. Marcin Michal Mironczuk - absolwent Wydzialu Elektrycznego Politechniki Bialostockiej, na którym takze ukonczyl studia doktoranckie. Swoje rozpraw^ doktorske obronil na Wydziale Informatyki Politechniki Bialostockiej w 2013 r. Aktualnie pracuje w Instytucie Podstaw Informatyki PAN w Warszawie.

i Надоели баннеры? Вы всегда можете отключить рекламу.