Научная статья на тему 'Метод видобування знань з природомовних текстів для автоматизованої розбудови онтологій'

Метод видобування знань з природомовних текстів для автоматизованої розбудови онтологій Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
377
117
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The method of extracting knowledge from text automated ontology building

There is analyzed the process of knowledge extracting from texts to build an automated ontology knowledge bases of intelligent systems. The structure elements of ontology classes and relations are defined. We developed the algorithm for relationship type determining using Link Grammar Parser. Given algorithm must be multistage and involve hierarchical procedure for concepts, relations, predicates and rules recognition, that as result are added to ontology.

Текст научной работы на тему «Метод видобування знань з природомовних текстів для автоматизованої розбудови онтологій»

УДК 004.89

В. В. ЛИТВИН

МЕТОД ВИДОБУВАННЯ ЗНАНЬ З ПРИРОДОМОВНИХ ТЕКСТІВ ДЛЯ АВТОМАТИЗОВАНОЇ РОЗБУДОВИ ОНТОЛОГІЙ

Пропонується метод, алгоритм і засоби для виділення знань з природомовного тексту. Показується, що такий алгоритм має бути багатоетапним і включати в себе ієрархічну кількарівневу процедуру розпізнавання понять, зв’язків, предикатів та правил, які в результаті вносяться до онтології.

1. Вступ

Поняття знання відноситься до галузі наукових досліджень методів і засобів прийняття оптимальних рішень. В процесі набуття знань через навчання суб’єкт прийняття рішень використовує доступну йому інформацію для побудови оптимальної стратегії прийняття рішень. Інформація у нашому розумінні набуває статусу знань рівно тією мірою, якою вона допомагає носію цієї інформації вирішити його завдання і може бути чисельно оцінена як виграш від її використання при прийнятті рішень в процесі досягнення відповідних цілей. Належним чином організована і впорядкована сукупність знань інтелектуального агента носить назву бази знань. Система впорядкування знань у такій базі формально-логічно сформульована у її онтології, визначеній як «експліцитна специфікація концептуалізації» [1], тобто явне формальне означення понять і допустимих семантичних зв’язків між ними.

Суть методу видобування знань з природомовного текстового документа, іншими словами - розпізнавання змісту текстового документа, полягає у побудові плану (стратегії) діяльності інтелектуального агента - інформаційної моделі суб’єкта розпізнавання, або уточнення такого плану на підставі даних, виділених у текстовому документі, що розпізнається. Тут вважаємо план конкретною реалізацією оптимальної стратегії вирішення деякої задачі, що стоїть перед інтелектуальним агентом в рамках заданої проблемної області.

План будується тією формальною мовою подання знань, якою було розроблено інформаційну модель - базу знань інтелектуального агента. Враховуючи, що така база знань вже становить собою певний загальний план функціонування інтелектуального агента, план, збудований на основі розпізнавання змісту природомовного тексту, є субпланом, тобто уточненням (виправленням) і/або деталізацією цього загального плану і базується на ньому. Цінність інформації, отриманої внаслідок розпізнавання змісту текстового документа, визначається за приростом очікуваної корисності від реалізації уточненого таким чином плану функціонування інтелектуального агента.

Переважна частина доступної, сформульованої у певній логічній послідовності і тому зручної для опрацювання інформації зберігається у текстових документах, зокрема, на електронних носіях. Достатньо велика частина таких документів доступна on-line, до того ж безоплатно. Серед них є можливість вибрати такі, що написані за достатньо жорстко встановленими правилами побудови і вимогами до змісту таким чином, що з одного боку вони залишаються природомовними текстами, а з другого - максимально формалізовані для їх машинного опрацювання і виділення релевантної інформації, яка може інтерпретуватися інтелектуальною системою розпізнавання змісту як корисні знання.

До такого специфічного класу природомовних текстів можна віднести анотації наукових статей. Їх можна знайти через мережу Інтернет, вони, як правило, знаходяться у відкритому доступі, не містять графічного матеріалу, побудовані за строго встановленими правилами, написані окрім інших також англійською мовою, не містять модальних зворотів, а лише логічно зв’язану послідовність стверджувальних речень. Необхідний для заданої проблемної області (ПО) корпус таких текстів можна вибрати за допомогою інформаційного пошуку за ключовими словами з використанням цілого ряду як спеціалізованих пошукових серверів наукових видавництв, так і пошукових серверів загального призначення.

Напрями наукових досліджень та розробки в галузі навчання і наповнення онтологій детально описано у [2-4].

67

Застосовується кілька основних підходів до опрацювання тексту з цією метою - символьний, статистичний та змішаний. Серед найпоширеніших символьних підходів - застосування лексико-семантичних паттернів (lexico-semantic pattern - LSP) [2]. У такому підході опрацювання тексту виконується шляхом виявлення певних наперед відомих або встановлених шляхом машинного навчання реляційних маркерів, які існують у природній мові і дозволяють розпізнати семантичні ролі синтаксичних конструкцій, а у поєднанні з ідентифікацією онтологічних сутностей, які у даному тексті представляють ці синтаксичні конструкції, виконувати проекцію тексту на онтологію, отримуючи таким чином розпізнаний зміст, а за ним - оцінювати новизну, достовірність і корисність отриманих за цим змістом знань. Методи, що базуються лише на статистичних лінгвістичних моделях, здатні лише поверхово розпізнавати дискурс, але не в змозі виявляти зміст тексту, тобто відображену там логіку семантичного взаємозв’язку між поняттями даної проблемної області.

2. Постановка задачі видобування знань з природомовних текстів

Задачу вибору потрібного корпусу текстів було вирішено шляхом реалізації підсистеми інформаційного пошуку програмного пакету CROCUS [5]. На вході підсистеми - множина ключових слів, на виході - множина англомовних анотацій, розміщених в базі даних СУБД MySQL.

Процес видобування знань передбачає здатність як до розпізнавання окремих понять, згаданих у документі, так і до логічної інтерпретації сутності і характеру зв’язків між цими поняттями. Ці дані служать лише первинною інформацією для ієрархічної, багатое-тапної процедури розпізнавання змісту природомовного текстового документу (ПТД). На відміну від традиційних статистичних методів опрацювання ПТД, у яких текст розглядається як множина окремих термінів (слів та словосполучень) без врахування семантичного взаємозв’язку як між термінами, так і між цілими твердженнями, вираженими закінченими реченнями, запропонована і розроблена у даній роботі процедура базується на розпізнаванні логічних тверджень і тому складається з трьох основних етапів: лінгвістичного, статистично-логічного та планувального. На першому, лінгвістичному етапі засобами морфологічно-синтаксичного аналізу мови, на якій даний текст написано, будується послідовність триплетів «суб’єкт зв’язку - семантичний зв’язок - об’єкт зв’язку», кожен елемент яких знаходиться або по ходу аналізу додається до онтології інтелектуального агента. На другому етапі методами машинного навчання на основі отриманої послідовності триплетів розпізнаються твердження у логіці предикатів першого порядку, їх семантичний зміст у термінах онтології інтелектуального агента та логічний взаємозв’язок між ними. На третьому, заключному етапі на базі прототипу плану або діючого загального плану функціонування інтелектуального агента з отриманої послідовності предикатів будується (доповнюється, коригується) ієрархічна система цілей (задач) і засобів їх досягнення (вирішення).

По суті маємо ієрархію розпізнавання: окремі слова, далі - словосполучення, далі зв’язки, далі - твердження, які вже являють собою базовий елемент, цеглини моделі світу інтелектуального агента. Далі можна говорити про розуміння агентом відмінностей між різними моделями світу: своєї і чужої, автора повідомлення, що аналізується даним агентом.

Загальна схема реалізації методу видобування знань з тексту включає такі кроки:

1. Вибираємо прототип онтології як OWL-модель контексту ПО.

2. Перетворюємо аналізований текст на множину речень. Якщо джерелом тексту є анотація наукової публікації у друкованому виданні, першим реченням множини додаємо назву публікації. Останнім - назву друкованого видання.

3. В циклі розбираємо послідовно усі речення множини і будуємо з кожного з них окрему множину пар слів, з’єднаних метасемантичним зв’язком, яка служитиме вектором ознак для розпізнавання виду семантичного зв’язку.

4. Окремо з речення виділяємо групу іменника - суб’єкт розпізнаного на попередньому кроці семантичного зв’язку та групу іменника - об’єкт цього зв’язку.

5. До створеного на 1-му кроці шаблону онтології додаємо поняття, які вдається розпізнати в групах іменників, отриманих на попередньому кроці. Поняття додаються як екземпляри відповідних класів.

68

6. Якщо онтологія містить і об’єкт, і суб’єкт зв’язку, тоді між ними встановлюється виявлений зв’язок. Одночасно до бази знань додається предикат, що відповідає даному зв’язку.

7. Для визначеної у п.2 множини речень та відповідної їй множини предикатів розпізнаємо логічні залежності між предикатами. Виявлені залежності вносимо до бази знань у формі SWRL-правил.

8. При внесенні нового правила перевіряємо базу правил на наявність суперечностей. Конфлікти вирішуємо з врахуванням достовірності джерел інформації, за якими були внесені предикати, які конфліктують, а також логічної залежності з іншими предикатами бази знань.

9. Отриману систему понять і зв’язків, збудовану на їх основі систему предикатів та функцій, а також збудовану на їх основі систему аксіом і правил використовуємо для побудови плану інтелектуального агента.

10. Задаємо, уточнюємо або визначаємо за виявленими предикатами винагороди за досягнення проміжних цілей плану, імовірність їх досягнення при вчиненні допустимих дій, а також затрати на виконання цих дій. Розраховуємо оптимальний план, його очікувану корисність.

11. Процес навчання онтології полягає у послідовному (або паралельному) повторенні цієї процедури для всього корпусу навчальних текстів.

Отриманий план інтелектуального агента служить інформаційною моделлю публікації з точки зору цілей і задач її потенційного читача.

3. Виділення формальних ознак семантичних зв’язків між поняттями у

реченні

Знання набувають змісту лише в контексті певної проблемної області, заданої у даному випадку її онтологією. Набуті з текстового документа нові знання приймають форму змін у первинній онтології, яку слід попередньо сформувати вручну або шляхом застосування процедур навчання. Аналіз кожного наступного тексту базується на застосуванні онтології, доповненої в процесі аналізу попередніх текстів у тій частині, яка стосувалася заданої проблемної області. При розпізнаванні змісту текстів та доповненні онтології ПО ключовим є підхід, за якого першочергово необхідно виявити засоби досягнення мети, рекурсивно призначаючи їх підцілями і шукаючи як у тексті, так і у самій онтології (відповідній цій онтології базі знань) засоби досягнення цих підцілей. Отже, читаючий агент будує на основі прочитаного тексту дерево цілей для задачі, рішення якої він шукає. У тексті засоби можуть бути формально ідентифіковані як іменникові групи, що слідують за дієсловом ‘using’, зворотом ‘by means’ або іншими подібними характерними зворотами, ідентифікувати які система розпізнавання змісту може навчитися засобами машинного навчання. У зв’язку з цим онтологія інтелектуального агента має містити у своїй основі як на верхньому рівні, так і на рівні прикладних проблем (задач) дерево цілей даної ПО та відповідне йому дерево рішень.

Для онтології матеріалознавства прототипом дерева цілей можуть служити діаграми, розроблені у [6].

Ефективність прийняття рішення в будь-якій проблемній області може бути визначена як відношення виграшу внаслідок рішення (послідовності рішень) до затрат чи втрат, пов’язаних з прийняттям (неприйняттям) цих рішень.

Для формального подання природомовного речення у термінах онтології і описової (дескриптивної) логіки предикатів 1-го порядку необхідно визначити тип предиката. Розпізнавання типу можна виконати за дієслівною групою цього речення та службовими словами, які до дієслівної групи можуть не входити. Для цього необхідно застосувати метод машинного навчання системи розпізнавання, вхідними даними для якої служитимуть результати розбору природомовного речення спеціальним синтаксично-семантичним парсером. Такий парсер розбиває речення на пари слів, пов’язані деяким метасемантичним зв’язком. У результаті кожне речення парсер представляє множиною триплетів, що складаються з суб’єкта такого зв’язку, об’єкта зв’язку і самого метасемантичного зв’язку певного виду. Ці триплети можуть бути використані як ознаки присутності в реченні того чи іншого семантичного зв’язку, на основі якого має бути збудований предикат як логічне формальне представлення цього речення.

69

У роботі нами використано Link Grammar Parser (далі - LGP) [8]. Цей програмний засіб є ‘open source’-продуктом, має відкриту ліцензію типу GPL, добре документований, а тому доцільність його застосування для цієї задачі не викликає сумнівів. Приклад вікна з довідковою інформацією та ілюстрацією результатів розбору простого речення при роботі з програмою з командного рядка наведено на рисунку.

Передумовою виявлення семантичного зв’язку з застосуванням LGP є наяність (і виявленя) дієслівної групи. Її присутність визначається відповідними дієслівній групі великими і малими буквами з достатньо великого переліку. Наприклад, усі зв’язки, розташовані вправо від зв’язку ‘S*’, вказують на дієслівну групу.

3.7. COMMANDS AND VARIABLES. It is possible to modify the running of the parser in various ways, while running it, by typing in certain commands. The basic commands can be seen by typing "!help". Others are listed under "Variables". Many of these are self-explanatory. For example, "!width" changes the width of the parser display. Other commands relate to speed and robstness features; see section 7. A few commands deserve special mention. One useful command is "!![word]". This queries the parser for information about a particular word. The parser will output list any entries of the word, with their word subscripts, the word-files in which they appear, if any, and the number of disjuncts on each word. (A disjunct is a combination of connectors which constitutes a legal use of the word.) Multiple entries of a word will be listed with their word subscripts.

The " !verbosity" command controls the amount of information that is displayed. With " !verbosity=1" (the default), information such as the following is shown:

linkparser> the quick brown fox jumped over the lazy dog

++++Time 0.04 seconds (0.04

total)

Found 2 linkages (2 had no P.P. violations)

Linkage 1, cost vector = (UNUSED=0 DIS=0 AND=0 LEN=18)

+----------Ds-----------+ +---------Js-------+

| +--------a-------+ | +-----Ds------+

| | +---A----+---Ss-- + --MVp-+ | +--A-- +

| | | | | | | | |

the quick.a brown.a fox.n jumped.v over the lazy.a dog.n

Press RETURN for the next linkage. linkparser>

With "verbosity=0", no information is shown except for the graphic linkage display. With verbosity set at 2 or 3, information is shown about the individual stages of parsing the sentence. (Infomation is also shown about the constituent derivation process, if this is being done.) If one wants to suppress the graphic display as well, this can be done with the command " !graphics". (This can be useful it one wants to have only the constituent bracketing as output; in that case, type "!verbosity=0", "!graphics", and "!constituents=1 (or 2)".

Слова, що супроводжують (на які вказують) ці букви-символи зв’язку, визначають вид семантичного зв’язку (ім’я предиката). Ці слова є, як правило, дієсловами: “знає”, “має”, “належить”, “відноситься” або дієслівними словосполученнями “належить до”, “складається з”. Прикметники інтерпретуються як властивості і також можуть бути розпізнані у реченнях через семантичний зв’язок “має властивість”.

Щоб розпізнати семантичний зв’язок, необхідно виконати такі дії:

- розібрати речення за допомогою LGP;

- знайти дієслівну групу через символи зв’язку справа від “Ss”;

- знайти дієслово, на яке вказують ці символи зв’язку;

- знайти суб’єкт дії (підмет у реченні), на який вказує символ “Ss”;

- знайти об’єкт дії (очевидно, означення у реченні), тобто предмет, на який спрямована дія;

- перевірити в онтології наявність цього виду семантичного зв’язку і у разі відсутності створити його;

- перевірити наявність в онтології сутностей, що означають об’єкт та суб’єкт дії. Зв’язки можуть бути безумовними та умовними. Умовні зв’язки записуються як

правила.

70

Безумовні зв’язки є частковим випадком умовних і записуються як факти у вигляді предикатів.

Таким чином, для навчання системи навикам розпізнавання нових типів семантичних зв’язків у реченнях потрібний модуль індуктивного навчання за семантичними ознаками. Речення-приклад дає послідовність семантичних зв’язків між словами. Кілька таких однотипних речень підряд з вказанням назви зв’язку дає системі можливість виявити підмножи-ну спільних ознак і створити ознакову функцію: {Vj}=>Linkx ,де Vj - j-та ознака у вигляді: organ->S->is is->O->part a->D->part part->M->of of->J->organism an->D->organism

Вхідними даними для модуля індуктивного навчання служать змінні - необмежена множина слів і константи - обмежену множину символів граматичних зв’язків {S, D, O, J, M, ...}. Маємо також результат роботи LGP - пари слів, поєднані метасемантичними зв’язками у певній послідовності, маємо множину дієслів, кожне з якої може стати початком координат в реченні в разі виявлення.

Виявлення семантичних зв’язків в лінгвістичній підсистемі CROCUS побудовано на застосуванні Баєсівського розпізнавання множини ознак збережених в онтології патернів відомих семантичних зв’язків. Вивчення d ознак j-го семантичного зв’язку:

p(Cj|X) - p(Cj)Пp(Xk|Cj). (1)

k=1

Розпізнавання j-го семантичного зв’язку за d виявленими ознаками:

P(Cj | X) - p(Cj)Пp(Xk|Cj). (2)

k=1

Як ознаки (дескриптори) використано результат розбору речення природомовного тексту на пари слів, пов’язаних синтаксично-метасемантичними зв’язками за допомогою LGP. Для простого тестового речення:

[(a)(test.n)(is.v)(an)(example.n)]

результат розбору:

[[0 1 0 (Ds)][1 2 0 (Ss)][2 4 0 (Ost)][3 4 0 (Ds)]]; результат розпізнавання типу семантичного зв’язку за (2):

1) cause: 1.0882684165532656E-4;

2) caused-by: 0.013810506200916856;

3) is-a: 0.024124901979118252;

4) is-about: 0.0;

5) part-of: 0.0022765542079946285;

6) same-as: 0.0;

7) similar-to: 1.0261341731138478E-6;

Тестування розроблених програмних засобів, що реалізують описаний вище алгоритм, підтверджує коректність його роботи.

Висновки

Таким чином, проведено аналіз стану досліджень та розробок у галузі видобування знань з природомовних текстів та машинного навчання онтології інтелектуального агента. Обгрунтовано необхідність покладення в основу структури онтології план оптимального функціонування такого агента у заданій проблемній області. На цій основі запропоновано оцінювати цінність нових знань, виділених з природомовного тексту, за змінами такого плану, які необхідно вносити у план, щоб зберегти стратегію його виконання оптимальною при врахуванні цих знань. Для цього необхідно обчислювати біжучу очікувану корисність від реалізації оптимальної стратегії до і після внесення до плану нових знань. На прикладі проблеми модернізації газотранспортної системи показано схему побудови такого плану для закладення загальної структури понять та зв’язків відповідної онтології цієї проблемної області.

71

Запропоновано загальний алгоритм, необхідні методи і засоби для виділення нових знань з природомовного тексту, показано, що такий алгоритм має бути багатоетапним і включати в себе ієрархічну кількарівневу процедуру розпізнавання понять, зв’язків, предикатів та правил, які в результаті вносяться до онтології з метою виконання перерахунку очікуваної корисності. Сформована таким чином онтологія нижнього рівня може служити точною моделлю інформаційних потреб користувача системи інформаційного пошуку, необхідною для автономного пошуку чи моніторингу.

Список літератури: 1. Gruber T. A translation approach to portable ontologies / T.Gruber // Knowledge Acquisition. 1993. № 5 (2). P. 199-220. 2. Інтелектуальні системи, базовані на онтологіях //Д.Г. Досин, В.В. Литвин, Ю.В. Нікольський, В.В. Пасічник. Львів: “Цивілізація”, 2009. 414 с. 3. Agirre, E. Enriching very large ontologies using the WWW / E.Agirre, O.Ansa, E.Hovy, D.Martinez // Рroceedings of the Workshop on Ontology Construction of the European Conference of AI (ECAI-00). 2000. Р. 347-349. 4. Alfonseca E. Extending a Lexical Ontology by a Combination of Distributional Semantics Signatures / E.Alfonseca, S.Manandhar // EKAW-2002, Siguenza, Spain. Published in Lecture Notes in Artificial Intelligence. 2002. Р. 2473 (Springer Verlag). 5. Литвин В.В. Бази знань інтелектуальних систем підтримки прийняття рішень / В.В. Литвин. Львів: Видавництво Львівської політехніки, 2011. 240 с. 6. Федорович І.В. Організаційно-економічне забезпечення процесу відтворення лінійної частини магістральних газопроводів/ Автореферат дисертації на здобуття наукового ступеня кандидата економічних наук, Івано-Франківський Національний технічний університет нафти і газу, Івано-Франківськ, 2011. 7. Досин Д.Г. Архітектура інтелектуальної системи інформаційного пошуку в мережі Інтернет/ Д.Г. Досин, В.М. Ковалевич // Штучний інтелект. 2012. №3. С. 241-252. 8. Daniel Sleator and Davy Temperley Parsing English with a Link Grammar. Carnegie Mellon University Computer Science technical report CMU-CS-91-196, October 1991.

Надійшла до редколегії 11.09.2013 Литвин Василь Володимирович, д-р техн. наук, доцент кафедри інформаційних систем Національного університету „Львівська політехніка”. Наукові інтереси: побудова інтелектуальних систем підтримки прийняття рішень. Адреса: Україна, 79000, Львів, вул. Бандери, 12, тел. (032) 258-25-38.

УДК 007.5; 004.85

С.Ф. ЧАЛЫЙ, Е.О. БОГАТОВ

МОДЕЛЬ МНОГОУРОВНЕВОГО ПРЕДСТАВЛЕНИЯ БИЗНЕСПРОЦЕССОВ С НАБОРАМИ СПЕЦИАЛИЗИРОВАННЫХ ПРАВИЛ

Предлагается многоуровневая модель представления бизнес-процесса, основанная на выделении специализированных наборов бизнес-правил, отражающих организационный, информационный и иные аспекты знаний о бизнес-процессах. Применение указанных наборов правил дает возможность сегментировать бизнес-процессы в зависимости от особенностей предприятия, на котором они выполняются (организационная структура, обрабатываемые данные и т. п.), и тем самым устранить противоречие между функциональной организацией предприятия и процессным подходом к управлению.

1. Актуальность

Методики моделирования и анализа бизнес-процессов (БП) являются в настоящее время одним из важнейших инструментов повышения эффективности бизнеса. Следует отметить, что под бизнес-процессом нужно понимать логически завершенную цепочку взаимосвязанных и взаимодействующих повторяющихся видов деятельности (действий, бизнес-функций, работ), в результате которых ресурсы предприятия используются для переработки объекта (физически или виртуально) в целях достижения определенных измеримых результатов или создания продукции для удовлетворения внутренних или внешних потребителей (клиентов) [13]. Использование методик и программных средств, направленных на анализ и усовершенствование бизнес-процессов предприятия, имеет своей конечной целью реорганизацию БП и, как следствие, увеличение прибыли, сокращение затрат на производство продукции и услуг, повышение качества продукции, оптимальное использование оборотного капитала, внедрение систем автоматизации и многое другое.

72

i Надоели баннеры? Вы всегда можете отключить рекламу.