УДК 004.82 (045)
А.І. ВАВІЛЕНКОВА
ЛОГІКО-ЛІНГВІСТИЧНА МОДЕЛЬ ЯК ЗАСІБ ВІДОБРАЖЕННЯ СИНТАКСИЧНИХ ОСОБЛИВОСТЕЙ ТЕКСТОВОЇ ІНФОРМАЦІЇ________________________________________
Abstract. It is suggested using a logico-linguistic model as a method of display the syntactical features of text information. There are listed and justified the rules for their forming and also are shown an algorithm of creation of all components of such models in this paper.
Key words: logico-linguistic model, syntactical analysis, inference rule, rules, text information.
Анотація. Запропоновано використовувати логіко-лінгвістичні моделі як засіб відображення синтаксичних особливостей текстової інформації, перелічено та обґрунтовано правила їх формування, наведено алгоритм створення всіх складових таких моделей.
Ключові слова: логіко-лінгвістична модель, синтаксичний аналіз, правило виводу, правила, текстова інформація.
Аннотация. Предложено использовать логико-лингвистические модели как способ отображения синтаксических особенностей текстовой информации, перечислены и обоснованы правила их формирования, приведен алгоритм создания всех составных таких моделей.
Ключевые слова: логико-лингвистическая модель, синтаксический анализ, правило вывода, правила, текстовая информация.
Однією із сфер застосування універсальної системи підтримки лінгвістичних досліджень є розвиток такої галузі комп’ютерних технологій, як інтелектуальна обробка текстової інформації, що потребує представлення текстових документів у формалізованій формі для можливості подальшого порівняння текстів та відшукання у них протиріч. З точки зору конструктивної семантики, формалізація передбачає перехід до оперування символами, при якому не потрібно додаткового аналізу речей об’єктивного світу і вся теорія розвивається у знаковій області [1].
Знання, які можуть бути представлені за допомогою логіки предикатів, являються фактами, що відображаються логічними формулами. Автоматичне перетворення речень, написаних на природній мові, в мову формальних систем типу логіки предикатів, називається розумінням природної мови. Логіці предикатів властивий високий рівень модульності знань, і разом з цим вона дозволяє отримати єдину систему представлення, в якій логічно роз’яснюються властивості знань як одного цілого. Першочерговим завданням логіки предикатів являється пояснення логічних основ природної мови. Оскільки будь-яка флективна мова надзвичайно складна, то об’єкти, якими оперує логіка предикатів, обмежені тими компонентами, елементи яких легко піддаються формалізації. Тому введемо базові поняття для систематизації цієї логіки, що дасть змогу вилучати знання з яких завгодно різних структур текстової інформації.
2. Постановка задачі
Логіко-лінгвістична модель (ЛЛМ) подає зв’язок між елементами пропозиційної логіки та синтаксичною структурою речень природної мови. ЛЛМ в загальному вигляді задається такими формулами:
1. Вступ
(A & Б) v (A ^ Б) v (A v Б) v (A ~ Б) v A ,
(1)
(2)
© Вавіленкова А.І., 2010
ISSN 1028-9763. Математичні машини і системи, 2010, № 2
Кількість складових ЛЛМ дорівнює (т +1): формула (1) з урахуванням значень складних виразів А і В та аксіоми (2), кількість яких дорівнює кількості складних елементів формальної системи .
Послідовно розберемо кожну з аксіом.
В аксіомі (1) А є складним логічним висловлюванням, яке описує просте речення, що входить до складу складного або описує будь-яке односкладове речення;
В - складне логічне висловлювання, яке описує просте речення, що входить до складу складного і є залежним.
3. Правила формування логіко-лінгвістичних моделей
Оскільки досі не існує єдиних правил формування ЛЛМ, не виведена загальна формула для ЛЛМ і не визначено чіткої схеми її створення, запропоновано для всіх типів речень флективних мов впровадити формулу (1) ЛЛМ, підтвердженням чому є ряд обґрунтувань.
1) Речення поділяються на прості та складні. Нехай просте речення в ЛЛМ характеризується висловлюванням А . Це ж висловлювання може бути частиною складного речення; тоді в реченні з декількома граматичними основами головна частина речення позначається висловлюванням А, а залежна - висловлюванням В .
2) В залежності від типу зв’язків між головною та залежною частинами речень розрізняють безсполучникові, складносурядні та складнопідрядні речення, для яких характерні певні знаки пунктуації та сполучні слова. Пунктуація базується на трьох основних принципах: семантичному, синтаксичному та інтонаційному. Вони пов’язані між собою і діють одночасно: зміст оформляється певною синтаксичною структурою, а інтонація передає і зміст, і змістовну структуру. Оскільки інтонація на письмі формально не відображається, знаки пунктуації обумовлені синтаксичною структурою речень і є обов’язковими, а зміст оформляється цією ж синтаксичною структурою, то в основу формування ЛЛМ покладено механізм здійснення синтаксичного аналізу.
3) Проаналізувавши граматичне оформлення речень, тобто способи вираження членів речення, підрядного та сурядного зв’язку, засоби вираження синтаксичних відношень між частинами складного речення, можна зрозуміти, що в реченні може бути чотири типи зв’язку: одночасність виконання (А & В) , наслідок (А ^ В) , альтернативність (А V В) та тотожність, еквівалентність
(А ~ В). Якщо речення складне, то якийсь із типів зв’язку обов’язково буде характерним для вхідного тексту.
4) Якщо в реченні зустрічаються знаки пунктуації, сполучники або сполучні слова, то в залежності від знаку («,», «;», «-», «:») в ЛЛМ буде присутня відповідна операція булевої алгебри і можна сформулювати правила створення складного висловлювання (1).
5) Знакам пунктуації «,», «;» та єднальним сполучникам відповідає логічна операція кон’юнкції «&» та еквівалентності «~» відповідно. Це означає, що компоненти складного речення А і В рівноправні за змістом і можуть передавати одночасність, приєднання, сумісність дій або станів. За таких умов аксіома (1) ЛЛМ набуває вигляду (А & В) або (А ~ В).
6) Для протиставних та розділових сполучників в ЛЛМ характерна логічна операція диз’юнкції «V». Тобто складні висловлювання А і В являються частинами складносурядного речення, в якому протиставляються або зіставляються, взаємно виключаються або чергуються певні явища, йдеться про невпевненість, сумнів припущення. В такому разі ЛЛМ набуває вигляду
(А V В).
7) Знакам пунктуації «:», «-», сполучним словам та сполучникам, характерним для підрядного зв’язку, відповідає логічна операція імплікації «^». Це означає, що складні висловлювання А і В являються частинами складнопідрядного речення, вони не рівноправні за змістом, залежна частина речення може уточнювати час, місце, причину, спосіб, про який йдеться в головній частині складнопідрядного речення. За таких умов ЛЛМ матиме вигляд (А ^ В) .
Таким чином, ЛЛМ (1) являється відображенням синтаксичної структури як завгодно складного речення природної мови, що дозволяє вилучити з текстової інформації знання, структуровані за певними правилами [2].
Для повного розуміння змісту речення необхідно прослідкувати зв’язки між простими елементами формальної системи (словами) та принципом їх об’єднання у складні елементи (словосполучення) [3]. Для цього в ЛЛМ передбачені аксіоми (3):
Б, = Мз> (Бк), к / і є К}, і = 1, т , (3)
де Бі - головний елемент словосполучення;
К і - множина елементів (слів), що входять до складного , тобто до кожного і-го словосполучення;
М , - множина значень, які може приймати властивість залежного слова у словосполученні
(допоміжних частин складного елемента Бі), наприклад, головне слово може позначати об’єкт, кількість, якість, що залежить від типу словосполучення ;
k - частина складного елемента Si .
Рис. 1. Загальна схема дії механізму логічного виводу бази знань Б‘ для визначення структури складних елементів ФС
Формування аксіом (3) відбувається шляхом звернення до
бази знань Б‘3. В робочу пам’ять послі-
довно заносяться прості елементи формальної
системи
S,, i = 1, n.
Згідно з правилом modus ponens буде здійснено логічний вивід. Схема реалізації дії механізму логічного виводу зображена на рис. 1.
Рис. 2. Загальна схема формування аксіом Результатом роботи механізму логічного виводу буде двовимірний масив SJ, кількість
рядочків якого рівна кількості словосполучень у реченні, тобто і = 1,ті, а значення елементів масиву представляють собою словосполучення, його головний елемент, властивість залежного слова у словосполученні та безпосередньо залежну частину складного елемента формальної системи:
ст11 § 12 П13 к 214 ї И 45 п16 1ц Sll я. М і Я1 Як
S 2 S 2 ст21 § 22 П23 к 2 24 127 S 2 я. Мя2 Як
S ^ S = S . 1 ^ SZ = S. 1 стп § 2 піз к 2. 4 ї 5 і5 і6 17 ^ ^ = я. М•
S п S п стпі §п2 Пп3 к2п4 ї 5 И 6 п5 п6 1 7 7 sm 1 я. Мя Як т1
Кількість рядочків двовимірного масиву SJ дорівнює кількості аксіом (3) в ЛЛМ. Загальний алгоритм побудови логіко-лінгвістичної моделі речення, тобто схема формування аксіом (1) - (3), показана на рис. 2.
4. Висновки
Аналіз синтаксичних особливостей текстової інформації дозволив прослідкувати зміну форми ЛЛМ в залежності від знаків пунктуації та сполучних слів, які зустрічаються в реченні. Ця залежність відображена в аксіомі (1). Модель (2) являється своєрідним токеном, призначеним для вилучення з тексту якомога більшої кількості інформації. Подальше дослідження і аналіз загальної форми ЛЛМ, а також синтаксичних особливостей різних мов дасть змогу повністю формалізувати процес вилучення знань з текстової інформації.
СПИСОК ЛІТЕРАТУРИ
1. Корпусна лінгвістика / [В.А. Широков, О.В. Бугаков, Т.О. Грязнухіна та ін.]. - К.: Довіра, 2005. - 471 с.
2. Фостер Дж. Автоматический синтаксический анализ / Фостер Дж.; пер. с англ. В.В. Мартынюка; под ред. Э.З. Любимского. - М.: Мир, 1975. - 70 с.
3. Мельников Г.П. Системология и языковый аспекты кибернетики / Мельников Г.П.; под ред. Ю.Г. Косарева. -М.: Советское радио, 1978. - 368 с.
Стаття надійшла до редакції 12.08.2009