УДК 004.82 (045)
А.І. ВАВІЛЕНКОВА
ЛОГІКО-ЛІНГВІСТИЧНІ МОДЕЛІ РЕЧЕНЬ ЯК ЗАСІБ ПОРІВНЯННЯ ТЕКСТОВИХ ДОКУМЕНТІВ ЗА ЗМІСТОМ
Анотація. Проаналізовано основні методи інтелектуальної обробки текстової інформації. Застосовано метод резолюцій для пошуку логічних збігів у реченнях природної мови, представлених у вигляді логіко-лінгвістичних моделей. Досліджено основні етапи алгоритму методу шинглів для порівняння текстових документів за змістом. Запропоновано метод порівняння логіко-лінгвістичних моделей текстової інформації за змістом.
Ключові слова: інтелектуальна обробка, логіко-лінгвістична модель, метод резолюцій, метод шинглів, метод порівняння логіко-лінгвістичних моделей, текстова інформація.
Аннотация. Произведен анализ методов интеллектуальной обработки текстовой информации. Применен метод резолюций для поиска логических совпадений в предложениях естественного языка. Исследованы основные этапы алгоритма метода шинглов для сравнения текстовых документов по смыслу. Предложен метод сравнения логико-лингвистических моделей текстовой информации по смыслу.
Ключевые слова: интеллектуальная обработка, логико-лингвистическая модель, метод резолюций, метод шинглов, метод сравнения логико-лингвистических моделей, текстовая информация.
Abstract. The main methods of intelligent processing of text information were analyzed. The method of resolutions for searching logical coincidences in the sentences of natural language, represented in logical-linguistic models, was applied. The basic steps of the shingles method algorithm for comparing text documents according to the content were researched. A comparing method for the logical-linguistic models of textual information according to the content was proposed.
Keywords: intelligent processing, logical-linguistic model, resolution method, shingles method, method of comparison of logical-linguistic models, the text information.
1. Вступ
Нові можливості, які несе з собою інформаційна революція, створюють виклик традиційним системам генерування, розповсюдження та передачі знань, тобто системам науки й освіти. Потужні бази даних і знань відіграють роль гігантських «сховищ» для нескінченних фактів і базових даних у всіх сферах людської діяльності, а глобальні комп’ютерні мережі стають потужними інструментами для високошвидкісного доступу до цієї інформації з будь-якого куточку світу.
У зв’язку з цим істотно зростає роль методологічних, системних, міждисциплінарних знань людини, необхідних для раціонального й осмисленого оперування різноманітними знаннями і даними з метою вирішення нових, нестандартних проблем. У цій новій парадигмі найголовніше місце відводиться аналітичним здібностям ученого чи педагога, тобто його спроможності шукати і знаходити необхідну інформацію, точно формулювати проблеми і гіпотези, вбачати в сукупностях даних певні закономірності, знаходити розв’язок складних міждисциплінарних задач [1].
Застосування інформаційних технологій, зокрема, систем автоматизованого вилучення знань, систем порівняння електронних документів за змістом та повнотекстових пошукових серверів, дасть змогу полегшити роботу людини, підвищуючи відсоток релевант-ності отриманої інформації.
2. Постановка задачі
Сьогодні з величезної кількості інформації, яка надається людині, дуже важко виокремити головне, знайти необхідні дані для прийняття рішень. Це створює головну проблему су-
© Вавіленкова А.І., 2012
ISSN 1028-9763. Математичні машини і системи, 2012, № 1
часних комунікацій - вилучення дійсно цінних даних з інформаційних потоків, тобто отримання знань з інформації.
Розроблені на основі статистичного та лінгвістичного аналізу, а також методах штучного інтелекту, технології Text Mining призначені для проведення змістового аналізу, забезпечення навігації та пошуку в неструктурованих текстах. Можливості сучасних систем Text Mining можуть застосовуватися при управлінні знаннями для виявлення шаблонів у тексті, автоматичного анотування інформації або її розподілу за певними профілями.
Дослідники пропонують декілька підходів, на які спирається технологія Text Mining, вони розпадаються на дві категорії. В основі підходів, що не спираються на знання, лежить відмова від додавання нових правил для кожної нової прикладної області знань або мови. Ще один підхід, який спирається на знання, передбачає, що якщо вдається зрозуміти значення тексту, то скоротити його стає набагато простіше, відповідно, отримана в результаті анотація буде більш якісною. Такий підхід передбачає використання бази знань значного об’єму, що складається з правил, які включаються, підтримуються і потім адаптуються до нових додатків та мов. Ці два підходи не виключають один одного, тому можна використовувати гібридні підходи.
До основних елементів Text Mining відносяться [2]:
1) класифікація - використовує статистичні кореляції для побудови правил розміщення документів у наперед заданій категорії; задача класифікації - це задача розпізнавання, коли система відносить новий об’єкт до тієї чи іншої категорії;
2) кластеризація - це розбиття множини документів на кластери (групи документів зі спільними ознаками), які представляють собою підмножини, смислові параметри яких заздалегідь невідомі; числові методи кластеризації базуються на визначенні кластера як множини документів:
а) значення семантичної близькості між будь-якими двома елементами якого не менше визначеного «порогу»;
б) значення близькості між будь-яким документом множини і центроїдом (вектором, який обчислюється як середнє арифметичне векторів усіх документів кластера) цієї множини не менше визначеного «порогу»;
3) автоматичне реферування представляє собою створення коротких викладів матеріалів, анотацій, дайджестів, тобто вилучення найбільш важливих відомостей з одного або декількох документів і генерація на їх основі лаконічних та інформаційно-ємних звітів; на сьогодні існує два основних напрямки автореферування: квазіреферування (засноване на екстрагуванні фрагментів документів, тобто виділенні найбільш інформативних фраз і формування з них квазірефератів) і коротке викладення змісту первинних документів (дайджести).
Процес реферування розпадається на три етапи: аналіз початкового тексту, визначення його характерних фрагментів та формування відповідного висновку. Більшість сучасних робіт концентруються навколо розробленої технології реферування одного документа.
У методі створення дайджестів робиться акцент на виділенні характерних фрагментів, речень. Для цього методом співставлення фразових шаблонів виділяються блоки найбільшої лексичної та статистичної релевантность Створення нового документа у даному випадку - це з’єднання вибраних фрагментів.
У більшості методів застосовується модель лінійних вагових коефіцієнтів. Основу аналітичного етапу в цій моделі складає процедура призначення вагових коефіцієнтів для кожного блоку тесту у відповідності до таких характеристик, як розташування цього блоку в оригіналі, частота появи у тексті, частота використання у ключових реченнях, а також показники статистичної значущості. Сума індивідуальних ваг визначається після додаткової модифікації у відповідності з спеціальними параметрами налаштування, пов’ язаними з
кожною вагою, дає загальну вагу всього блоку тесту. Крім того, для призначення вагових коефіцієнтів у цій моделі враховується показник статистичної важливості, який обчислюється на основі даних, отриманих у результаті аналізу автоматичної індексації, при якій дослідники виявляють та оцінюють цілий ряд метрик, що визначають вагові коефіцієнти терміна. Ці метрики дозволяють виділити документ із числа інших у певному наборі документів [2].
Як видно, жоден із цих методів не здатен вилучати із текстової інформації знання і базується в основному на статистичних методах досліджень та завчасно створених шаблонах. Таким чином, якщо предметною областю досліджень буде вся природна мова, а не текст певної тематики, задовільне рішення задачі - вилучення знань з електронних документів - не буде знайдено. Неможливим буде і порівняння текстових документів за змістом, спроби чого проводяться шляхом застосування різних методів, основні з яких - метод резолюцій та метод шинглів.
3. Метод резолюцій як метод пошуку логічних збігів
У методі резолюцій множина речень розглядається як складений предикат, що містить декілька предикатів, з’єднаних логічними функціями і кванторами існування та узагальнення. Оскільки однакові за змістом предикати можуть мати різний вигляд, то речення перетворюються в клаузальну форму - різновид кон’юнктивної нормальної форми, з якої видалені квантори існування, узагальнення, символи імплікації, рівнозначності і т.д.
У роботах таких радянських та зарубіжних вчених, як Е.В. Попов, Д.А. Поспєлов,
В.М. Вагін, Д. Джарратано, С. Осуга та Х. Уено метод резолюцій розглядають, інтерпретуючи висловлювання S як сукупність речень С1,С2,...,Сп [3-5]. Вважається, що в 5 є такі речення, що якщо в одне з них входить деякий літерал, то в інше входить його заперечення (контрарна пара) (1):
Їх викреслення формує новий диз’юнкт із складових частин диз’юнктів (2). Новий сформований диз’юнкт С3 називається резольвентою диз’юнктів С1 і С2:
Тобто, резольвента С3, отримана з двох диз’юнктів С1 і С2, є логічним наслідком цих двох диз’юнктів. Тоді, якщо інтерпретувати метод резолюцій на два довільних речення природної мови, можна стверджувати, що резольвентою двох протилежних за змістом речень буде пуста множина і навпаки.
Отже, метод резолюцій дає можливість знайти певний елемент із заданих висловлювань, в яких вказані певні початкові умови.
Якщо для логіки висловлювань знаходження контрарних пар не викликає труднощів, то для логіки предикатів це не так. Принцип резолюцій має важливу властивість - повноту, яка встановлюється такою теоремою: множина диз’юнктів 5 не виконується тоді і тільки тоді, коли існує вивід із 5 пустого диз’юнкта.
У силу нерозв’язності логіки предикатів першого порядку для істинної множини диз’юнктів 5 процедура, що базується на принципі резолюцій, буде працювати нескінченно довго.
Спроба демонстрації методу резолюцій для логіки предикатів першого порядку не на прикладі продукційної моделі представлення знань, що відображає певну ситуацію, дає такі результати.
Нехай є два простих речення, кожному з них відповідає логіко-лінгвістична модель.
Сі = (ц, ь2, Ь4),
С2 = (^ -Ь4)-
(1)
(2)
Перше речення: «Літак пролітає над нашим будинком», логіко-лінгвістична модель для нього представлена у вигляді (3)
Р (х, х9|с19})
1 2 12 . (3)
Пролітає (літак,будинком {нашим })
Друге речення: «Літак пролітає над великим містом», логіко-лінгвістична модель для такого речення буде мати вигляд (4)
Р (х1, X 2{с12}) . (4)
Пролітає (літак, містом {великим })
Множина атомів А буде містити літерали з однаковими предикатами [6]:
А = р(х1, х2{с12}), р(х1, х2{с12}).
Згідно з алгоритмом уніфікації, шукаємо підстановку Q = {х2 /х2,с12 /с12}. Тоді резольвента для цих двох речень буде мати вигляд
р(х1, х2{с12}), р(х1, х2{с12}).
Те, що резольвентою є не пуста множина, доводить, що речення не протилежні за змістом, а однакові. Проте насправді речення не однакові за змістом, у них лише однакові предикат та предикатна змінна - суб’єкт, а предикатна змінна - об’єкт та предикатна константа, яка його характеризує, різні, що безпосередньо впливає на зміст речення.
Демонстрація конкретного випадку порівняння двох речень (власне, призначення методу), а також дослідження особливостей здійснення алгоритму, дозволяють виявити ряд недоліків методу резолюцій:
1. Вибір літералів для множини атомів А відбувається тільки з літералів з однаковими предикатами, проте при цьому не враховуються синоніми, рівнозначність активної та пасивної форм дієслів, що за певних умов також дають однозначність предикатів за змістом.
2. Підстановка Q не бере до уваги зміст предикатних змінних та констант, що приводить до невірних результатів при порівнянні.
3. Велика кількість ітерацій для отримання кінцевого значення підстановки Q для складних та поширених речень.
4. Якщо предикати різні, до них не можна застосувати метод резолюцій, хоча в цей же час предикати можуть бути синонімами.
4. Метод шинглів як найпоширеніший метод порівняння текстів
Ще один із найбільш відомих способів порівняння текстових документів - метод шинглів. Він полягає в тому, що для кожного рядка тексту, який аналізується (шингла), обчислюється контрольна сума. Контрольна сума - це унікальне число, якому ставляться у відповідність деякий текст та функція його обчислення. Потім із всієї множини контрольних сум (їх кількість дорівнює кількості слів у документі мінус (ж -1), де ж - число слів у шинглі) відбираються лише ті, які діляться на певне вибране завчасно число. Оскільки значення контрольних сум розподілено рівномірно, критерій відбору ніяк не пов’язаний з особливостями тексту. Один шингл, який співпав при відборі, приблизно відповідає наперед заданому числу однакових частин у повному тексті.
На відміну від описаного методу шинглів існує базовий метод шинглів, в якому беруться до уваги всі шингли, отримані з тексту, а не лише кратні наперед заданому числу, що забезпечує більш широку вибірку для коротких текстів.
Реалізація алгоритму порівняльного аналізу електронних текстів передбачає декілька етапів:
1. Завантажується перший текст.
2. Для завантаженого тексту будується канонічна форма (відбувається видалення зайвих пробілів, знаків табуляції та спеціальних символів).
3. Визначається кількість слів у тексті.
4. Формується масив слів тексту.
5. Із масиву слів будується масив шинглів (виходячи з заданої довжини одного ши-
нгла.
6. Для кожного шингла обчислюється його хеш-функція. В залежності від кількості слів у тексті визначаються шингли, кратність контрольної суми яких береться до уваги, та створюється масив контрольних сум.
7. Аналогічно виконуються етапи для другого тексту.
8. Для кожного шингла першого тексту здійснюється пошук шингла другого тексту з однаковою контрольною сумою. Якщо такий шингл не знайдено, то лічильник однакових шинглів збільшується на одиницю.
9. Обчислюється процент збігів як відношення однакових шинглів до числа шинглів першого масиву.
Для конкретного прикладу порівняння електронних документів довільної структури та отримання певного відсотку збігів реалізація даного алгоритму буде складатися з таких етапів:
1. Розбиття кожного тексту, що розглядається, на токени - слова.
2. Визначення множини унікальних слів в одному з текстів, що порівнюються. Нехай А1 = {а, і = 0, п} - множина унікальних слів першого тексту, де а{ - деяке унікальне
слово. Під унікальним словом розуміємо слово, що входить саме до конкретного тексту і не повинно обов’язково входити до інших електронних текстів.
3. Формування частотної таблиці залежності унікальних слів від частоти їх вживання у тексті (табл. 1).
Кожен рядок даної таблиці відповідає деякому унікальному слову, а кожен стовпчик - номеру рядка тексту, в якому це слово зустрічається
(} = 1, т, де т - кількість рядків в електронному тексті). Елементами таблиці є нулі та одиниці в залежності від того, чи зустрічається певне
унікальне слово аі (і = 0,п ) в даному рядку. Це дозволяє розглядати частотну таблицю як матрицю суміжності для неорієнтованого графа.
1. Визначення множини унікальних слів у другому тексті, що порівнюється. Нехай А2 ={аі, І = 0, п} - множина унікальних слів другого тексту, де аґ - деяке унікальне слово другого тексту.
2. Формування частотної таблиці залежності унікальних слів від частоти їх вживання у тексті (табл. 2).
Таблиця 1. Таблиця залежності унікальних слів від частоти їх вживання у першому тексті
1 2 У ]+1 т
а1 1 1 0 1
0 0 і 0 0
0 1 і 1 1
Яі+1 0 0 і 1 1
1 1 0 1 0
Кожен рядок даної таблиці відповідає деякому унікальному слову, а кожен стовпчик - номеру рядка тексту, в якому це слово зустрічається (, = 1, т , де т - кількість рядків у другому електронному тексті). Елементами таблиці є нулі та одиниці в залежності від того, чи зустрічається певне унікальне слово аґ (і' = 0, п) в даному рядку. Отже, ми можемо розглядати частотну таблицю як матрицю суміжності для неорієнтованого графа.
1. На основі табл. 2 та табл. 3 складається узагальнена таблиця виявлення збігів унікальних слів у рядках двох електронних текстів, що порівнюються. Основою таблиці є дані по першому тексту, що порівнюється. Елементами таблиці є кількість унікальних слів, що співпали в обох текстах, розмежовані по рядках тексту.
Таблиця 2. Таблиця залежності унікальних Таблиця 3. Узагальнена таблиця збігів
слів від частоти їх вживання у другому тексті
1 2 / /+1 т ’
дг 1 1 0 1
а2 0 0 1 0 0
аг 0 1 1 1 1
ат 0 0 1 1 1
1 1 0 1 0
йі а2 “і а»
1 1 2 1 2 2
2 1 3 2 4 0
І 2 0 2 1 1
]+1 2 2 1 2 4
т 2 1 4 1 1
2. Обчислення відсотку збігів для двох текстів:
т
І я,
,
Я = ^^~, п + п
де qj - кількість знайдених збігів серед унікальних слів текстів, що порівнюються. Якщо порівнюються не два тексти, а декілька, то формула набуде вигляду
І ч,
Я =
____
Іщ
к =2
де І - кількість текстів, що порівнюються.
5. Метод порівняння логіко-лінгвістичних моделей речень
Кожне просте речення природної мови можна представити у вигляді його логіко-лінгвістичної моделі типу (5):
Р(х{ А с,, }, А [ А [х{ А с. }]]), (5)
1 ¿1єС1( х1) и1 ч1є/ (X) чєХ (X) ч ¿2єС2(хч ) 1й2
де Р - предикат, що відображає зміст речення;
х1 - предикатна змінна (суб’єкт) знаходиться у предикативному відношенні з Р ;
сы - предикатна константа, що вказує на ознаку суб’єкта;
ё1 - номер предикатної константи, що вказує на ознаку суб’єкта;
С1 (х1) - множина предикатних констант суб’єкта х1;
х - предикатна змінна (аргумент);
q - номер предикатної змінної (аргументу), початкове значення якого q = 2; X ($ ) - множина предикатних змінних (аргументів);
'qd2
- предикатна константа, що вказує на ознаку q -ї предикатної змінної (аргументу або об’єкта);
d2 - номер предикатної константи, що вказує на ознаку предикатної змінної (аргументу);
С2 (х^ ) - множина предикатних констант предикатної змінної ^ ;
](5) - множина предикатних змінних, які виконують у реченні рівнозначну роль,
](5)є X(5);
q1 - номер предикатної змінної із множини ] (5), якщо речення не має ієрархічної будови або в ньому не зустрічаються аргументи, рівносильні за своєю роллю, то ] (5) = 0 [7].
Основою принципу побудови логіко-лінгвістичної моделі (5) служить синтаксичний розбір речення, тобто визначення зв’язків між усіма його словами та встановлення їх синтаксичних ролей, що дає змогу зрозуміти зміст текстової інформації.
Таким чином, структура логіко-лінгвістичної моделі (5), а також синтаксична структура речень природної мови обумовлюють правила порівняння таких моделей.
Нехай є два речення «Стаття присвячена дослідженню існуючих методів виявлення логічних протиріч у текстових документах на основі використання формул логіки предикатів, зокрема, дослідженню методу резолюцій» та «Статтю присвячено дослідженню існуючих методів виявлення логічних протиріч у текстових документах на основі використання формул логіки предикатів, зокрема, дослідженню методу резолюцій». Ці речення мають однаковий зміст, проте одне з них в активному стані (суб’єкт виконує дію), друге -в пасивному (суб’ єкт відсутній).
Логіко-лінгвістичні моделі заданих речень будуть мати вигляд (6) и (7):
г стаття, дослідженно[методів\існуючиХ[виявленняіпротиріч{логічних]]], ^
Присвячена
основі
використання
формул логік^предикатів], дослідженню
методу [резолюційЙ
Р1 = (Х1 , х2 [хз Юк 1*5 {с51 Ж Х6 [Х7 Ь Ь 1*10 ] Х111*12 1*13 ]]]]) .
(6)
Присвячено
, дослідженно[методів{існуочиХІ[виявлення[протиріч {логічних}]],
основі
використання
формул логіки[предикатів],дослідженню
методу
[резолюцій]
Р2 = ( *2> [*3 К [*5 {с51 Ш Х6 [Х7 ][*8 [х9 [х10 1 Х11 [х12 [х13 ]]]]).
(7)
Порівняння речень різного стану відбувається за такими принципами:
1. Відбувається порівняння предикатів речень Р1 та Р2: якщо Р1 та Р2 - дієслова, їх час співпадає, Р2 - дієслово в пасивній формі, а Р1 - дієслово в активній формі, а також співпадають корені та суфікси предикатів, або Р1 та Р2 є синонімами, то предикати Р1 і Р2 можна вважати тотожними за змістом.
2. Якщо в одному із речень, що порівнюються, відсутній суб’єкт, а хг та х2 іменники у називному та знахідному відмінках відповідно, а кількість предикатних змінних в од-
ному з речень на одну більше, ніж у іншому, х1 та х2 - спільнокореневі слова або є синонімами, то суб’єкти речень (віртуальний у випадку пасивного стану) можна вважати тотожними за змістом.
3. Якщо справджуються умови 1 та 2, то речення можна вважати однаковими за змістом.
6. Висновки
На даному прикладі продемонстровано можливість здійснення порівняльного аналізу окремих речень природної мови різної структури за змістом за допомогою використання логіко-лінгвістичних моделей цих речень [8]. Як видно з прикладу, це дуже важка і громіздка процедура, в якій необхідно врахувати абсолютно всі (як синтаксичні, так і семантичні) особливості речень та зв’язки між словами та словосполученнями.
Принципи порівняння речень природної мови з використанням логіко-лінгвістичних моделей продемонстровано для конкретних типів речень. Для того, щоб уніфікувати принципи здійснення порівняльного аналізу речень довільної структури за змістом, необхідно створити базу знань у вигляді продукційної моделі представлення знань, що міститиме правила порівняння.
СПИСОК ЛІТЕРАТУРИ
1. Дракин В.И. Общение конечных пользователей с системами обработки данных / Дракин В.И., Попов Э.В., Преображенский А.Б. - М.: Радио и связь, 1988. - 288 с.
2. Ландэ Д.В. Поиск знаний в Іпїетеї:. Профессиональная работа / Ландэ Д.В. - М.: ООО «Вильямс», 2005. - 272 с.
3. Кузин Л.Т. Основы кибернетики: в 2 т. / Кузин Л.Т. - М.: Энергия, 1979. - Т. 2: Основы кибернетических моделей. - 584 с.
4. Хант Э. Искусственный интеллект / Хант Э.; пер. с англ. - М.: Мир, 1978. - 558 с.
5. Вагин В.Н. Дедукция и обобщение в системе принятия решений / Вагин В.Н. - М.: Наука, 1988.
- 384 с.
6. Вавіленкова А.І. Логіко-лінгвістична модель як засіб відображення синтаксичних особливостей текстової інформації / А.І. Вавіленкова // Математичні машини і системи. - 2010. - № 2. - С. 134 -137.
7. Джарратано Д. Экспертные системы: принципы разработки и программирование /
Д. Джарратано, Г. Райли; пер. с англ. К.А. Птицына. - [4-е изд.]. - М.: ООО «Вильямс», 2007. -1152 с.
8. Вавіленкова А.І. Обробка текстової інформації через призму аналізу та інтерпретації елементів формальної системи /А.І. Вавіленкова // Системи підтримки прийняття рішень. Теорія і практика: зб. доп. наук.-практ. конф. з міжнар. участю. - Київ: ІПММС НАНУ, 2009. - С. 198 - 201.
Стаття надійшла до редакції 09.06.2011