Научная статья на тему 'Оцінка невизначеності вимірювання сенсу природно-мовних конструкцій'

Оцінка невизначеності вимірювання сенсу природно-мовних конструкцій Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
246
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
сенс / невизначеність / текст / природно-мовна конструкція / штучна когнітивна системи / мовний образ / лема / sense / uncertainty / text / natural language construct / artificial cognitive system / linguistic image / lemma / смысл / неопределенность / текст / естественно-языковая конструкция / искусственная когнитивная система / лингвистический образ / лемма

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бісікало О. В., Васілевський О. М.

Вирішено завдання оцінки невизначеності вимірювання сенсу природно-мовних конструкцій (ПМК) на основі формалізації понять мовного образу, штучної когнітивної системи та одиниці сенсу. В основу моделі бази знань штучної когнітивної системи закладено статистичну інформацію про асоціативну сполучуваність мовних образів, що надає підстави для уніфікованої оцінки одиниці та кількості сенсу ПМК. Запропоновано метод вимірювання сенсу ПМК на основі нечіткого відношення сенсу, який забезпечує врахування інформації про зв’язки між лемами тексту, що дозволяє отримати оцінку двох типів невизначеності вимірювання ознак сенсу. Отримано та інтерпретовано формальні оцінки невизначеності результатів вимірювання сенсу ПМК, що дозволяє врахувати інформацію про зв’язки між лемами для розв’язання прикладних задач комп’ютерної лінгвістики. За допомогою розробленого на основі пакету DKPro Core програмного забезпечення проведено експерименти з дослідження запропонованого методу в задачі виявлення інформативних ознак тексту. В результаті проведених експериментів отримано залежності параметрів виявленого Парето-подібного закону розподілу зв’язків між лемами, аналіз яких дозволяє вважати показник середньої кількості зв’язків мовного образу найбільш інформативною чисельною ознакою тексту.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EVALUATION OF UNCERTAINTY MEASURING OF SENSE OF THE NATURAL LANGUAGE CONSTRUCTS

The task of evaluation of measurement uncertainty meaning of natural language constructs (NLC) based on formalization of the concepts of linguistic image, artificial cognitive systems and unit of sense is resolved. The basis of model the knowledge base of artificial cognitive system laid down statistical information regarding the associative compatibility of linguistic images, which enables unified evaluation the unit and the quantity of sense NLC. The method for measuring the sense of NLC based on fuzzy relation of meaning is offered. It provides to use information about the links between lemmas of text that allows you to estimate the measurement uncertainty of two types of sense signs. The results of the formal evaluation of the uncertainty of measurement sense of NLC are received and interpreted what enables into account information about the relationship between lemmas for solve tasks of computational linguistics. With developed on the basis of the package DKPro Core Software conducted experiments to study the proposed method in the problem of the definition of informative features of the text. The experiments obtained dependence of the parameters detected Pareto-like distribution law relations between lemmas, whose analysis suggests that average number of connections of linguistic image is the most informative numerical feature for the text.

Текст научной работы на тему «Оцінка невизначеності вимірювання сенсу природно-мовних конструкцій»

НЕЙРО1НФОРМАТИКА ТА 1НТЕЛЕКТУАЛЬН1 СИСТЕМИ

НЕЙРОИНФОРМАТИКА И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ

NEUROINFORMATICS AND INTELLIGENT SYSTEMS

УДК 004.9

Бiсiкало О. В.1, Вастевський О. М.2

1Д-р техн. наук, професор, декан факультету комп'ютерних систем i автоматики Внницького национального технiчного

университету, Вiнниця, УкраТна

2Канд. техн. наук, доцент, професор кафедри метрологи та промисловоТ автоматики Внницького национального

технчного университету, Внниця, УкраТна

ОЦ1НКА НЕВИЗНАЧЕНОСТ1 ВИМ1РЮВАННЯ СЕНСУ _ПРИРОДНО-МОВНИХ КОНСТРУКЦ1Й_

Виршено завдання оцiнки невизначеност вимiрювання сенсу природно-мовних конструкцiй (ПМК) на 0CH0Bi формалiзацii понять мовного образу, штучноi когнiтивноi системи та одинищ сенсу. В основу моделi бази знань штучноi когнiтивноi системи закладено статистичну шформащю про асощативну сполучуванiсть мовних образiв, що надае пiдстави для унiфiкованоi оцiнки одинищ та кшькост сенсу ПМК. Запропоновано метод вимiрювання сенсу ПМК на основi нечiткого вiдношення сенсу, який забезпечуе врахування iнформацii про зв'язки мiж лемами тексту, що дозволяе отримати ощнку двох типiв невизначеност вимiрювання ознак сенсу. Отримано та штерпретовано формальнi оцiнки невизначеностi результапв вимiрювання сенсу ПМК, що дозволяе врахувати iнформацiю про зв'язки мiж лемами для розв'язання прикладних задач комп'ютерно!' лiнгвiстики.

За допомогою розробленого на основi пакету DKPro Core програмного забезпечення проведено експерименти з дослщження запропонованого методу в задачi виявлення шформативних ознак тексту. В результат проведених експериментiв отримано залежност параметрiв виявленого Парето-подiбного закону розпод^ зв'язкiв мiж лемами, аналiз яких дозволяе вважати показник середньоi кшькост зв'язкiв мовного образу найбiльш шформативною чисельною ознакою тексту.

Ключовi слова: сенс, невизначешсть, текст, природно-мовна конструкщя, штучна когнiтивна системи, мовний образ, лема.

НОМЕНКЛАТУРА

[а-; а+] - границ апрюрно визначеного закону роз-подшу;

Y, ПМК - природно-мовна конструкщя (образна конструкщя);

X, q - математичне спод1вання; h - цшочисельний показник емощйного стану системи; hQ (< il, ij >) - функщя належност нечеткого вщно-шення Q;

ст, ,U - середньоквадратичне в1дхилення (СКВ); Qc I хI - проспр упорядкованих пар образ1в I = {i1, i2,■■■, ii

ше Q - асощативний зв'язок м1ж парами образ1в (словосполучення);

aq - матриця сум1жност1 розм1ршстю L х L на момент часу ti;

Gq (V, E) - граф Бержа;

© Бгакало О. В., Васшевський О. М., 2016 DOI 10.15588/1607-3274-2016-2-4

k - параметр розподшу Парето; kl] - значення (частота зв'язку) ненульового lj-го еле-менту матриц aq ;

ks - сумарне значення вмх зв'язюв системи; m - кшьюсть ненульових елеменлв матриц сум1ж-ност aq;

N - кшьюсть вщомих ШКС; n - кшьюсть спостережень; nt - кшьюсть образ1в, що розр1зняе ШКС; p - дов1рчий р1вень;

S, Si, ШКС - штучна когштивна система; ua (X) - ощнка невизначеност за типом А; ub (X) - ощнка невизначеност за типом В; xi - спостереження стану бшарного нечеткого вщно-шення образного сенсу Q ;

Сав - (синтагматичноi асоцiацii вага) - одиниця ви-м1рювання образного сенсу

ВСТУП

Складшсть задач семантичного аналiзу текстово! шформацп вважаеться одшею з головних перешкод на шляху побудови штучного штелекту в щлому та розв'я-зання з належною якiстю значно! частини задач комп'ютерно! лiнгвiстики зокрема. В процем онтогенезу люди-на вчиться та набувае нових знань все свое життя, внас-лщок цього кожний природний iнтелект е ушкальним та динамiчним явищем, здатним самовдосконалюватися та добре розумiти собi подiбних. Тому конструювання лiнгвiстичних баз знань мае базуватися саме на таких принципах, а проблема отримання нових формальних метсдав семантичного аналiзу природно-мовних конст-рукцiй на основi баз знань е актуальною. Потребують обгрунтування формальнi пiдходи до створення штуч-них когнiтивних систем, здатних iмiтувати дiяльнiсть лю-дини в процесах оброблення, розумiння смислу та ефек-тивного застосування вхiдно! текстово! шформацп.

В роботах [1, 2] було запропоновано та обгрунтовано введення одинищ вимiрювання образного сенсу 1 Сав з метою розв'язання задач комп'ютерно! лiнгвiстики, по-в' язаних з моделюванням образного мислення людини. Але в процем такого моделювання обов'язково жу^бно врахувати суб'ективний та динамiчний характер онтогенезу шзнавально!, у тому чи^ мовленнево! дiяльностi людини. Формально це можна зробити рiзними шляхами, одним з яких е ощнка невизначеностi результату ви-мiрювання сенсу як окремих природно-мовних конст-рукцiй (ПМК), так i текста та штучно! когнiтивно! систе-ми (ШКС) у цiлому на певний момент часу Вщомо [3], що невизначенiсть вимiрювання - це параметр, пов'яза-ний з результатом вимiрювання, який характеризуе дис-персiю значень, що можуть бути достатньо обгрунтовано приписан вишрюванш величинi. Але важливо, щоб величина, яка безпосередньо використовуеться для ви-раження невизначеноста, мае бути внутрiшньо узгодже-на: безпосередньо виведена з компонента, яю !! утворю-ють, а також не повинна залежати в^ групування цих компонентiв i в^ !х розкладу на субкомпоненти [4]. У вщомих лiтературних джерелах, де розглянул стандартнi невизначеностi вимiрювання титв А та В, не було засто-совано поняття невизначеностi та основш вимоги до ньо-го для розв'язання задач семантичного аналiзу тексту.

Об'ектом дослiдження обрано процес побудови лшгв^тичних баз знань когштивно! системи, предмет дослiдження - ощнка невизначеност формальних ознак сенсу ПМК. Мета роботи полягае в отриманш ощнки невизначеностi вимiрювання сенсу ПМК як компонента ШКС. Для досягнення поставлено! мети необхiдно ввести формальне поняття ШКС, обгрунтувати метод вимь рювання сенсу ПМК на основi нечiткого вiдношення, отримати та штерпретувати формальнi оцiнки невизна-ченост результатiв вимiрювання сенсу ПМК. 1 ПОСТАНОВКА ЗАДАЧ1

На вхiд будь-яко! системи Si з N вдамих подаеться деякий потiк X = (Х1, *2,...}, що на момент часу tL може бути визначений графом GQ (V, К) та вщповщною матрицею сушжноста Ад розмiрнiстю Ь х Ь. Вiдомо також,

що в розрщженш матрицi Aq кiлькiсть ненульових lj-х елементiв дорiвнюе m, а кожний з них набувае значення kj. Потрiбно отримати ощнки невизначеност ст результата спостережень kj кожно! системи St, а також обчис-лити стандарта невизначеностi типу А - Ua (X) та типу

В - Ub (X) для вмх систем. З огляду на мету дослiдження необхiдно штерпретувати та проаналiзувати формальнi результати у термшах предметно! областi комп'ютерно! лшгвютики.

2 ОГЛЯД Л1ТЕРАТУРИ

Розглянемо основш вимоги до поняття невизначешсть вишрювання, викладенi у [4, 5]. 1деальний метод ощню-вання невизначеностi результату вимiрювання повинен бути унiверсальним: придатним для всiх видiв вишрю-вань i для всiх типiв вхщних даних, що використовуються у вишрюваннях. Внутрiшня узгодженiсть величини, що безпосередньо використовуеться для вираження невиз-наченоста, передбачае можливiсть прямого використан-ня невизначеностi одного результату як компонента ощ-нювання невизначеностi iншого, в якому використовуеть-ся перший результат.

Невизначенiсть результату вимiрювання у загально-му випадку складаеться з кiлькох компонентiв, яю можна згрупувати у двi категорп, залежно вiд способу ощню-вання !х числового значення: тип А - компоненти, ощ-неш статистичними методами; тип В - компоненти, ощ-ненi iншими способами. Кожний детальний звгг про не-визначеностi повинен мiстити повний перел^ компонентiв i для кожного з них - метод, який використо-вувався при одержанш його числового значення.

Компоненти категорп А зазвичай характеризуються

ощненими дисперсiями ст2 (або ощненими «стандартни-ми вiдхиленнями» CTj) i числом степенiв вшьност! У випадку необхiдностi слщ зазначати коварiацi!. Компоненти категорi! В повинш характеризуватися величинами U2, яю можна розглядати як наближення до вщповдаих дисперсiй, iснування яких допускаеться. Величини U2 можна розглядати як дисперсп, а U - як стандарта вiдхилення. При не-обхiдностi, коварiацi! повиннi розглядатися аналопчно.

Комбiнована невизначенiсть повинна характеризуватися числовим значенням, одержаним при застосуванш звичайного методу для складання дисперсш. Комбiнова-на невизначенiсть i !! компоненти повинш виражатися у формi «стандартних вдаилень». Якщо в окремих випад-ках для одержання загально! невизначеност комбiнова-ну невизначенiсть необхщно множити на коефiцiент, то коефщент множення повинен бути завжди зазначений. Загалом слово невизначешсть (uncertainty) означае сумшв, i, таким чином, у широкому сенш «невизна-ченiсть вишрювання» означае сумнiв щодо вiрогiдностi результату вимiрювання (uncertainty measuring).

Отже, невизначешсть результату вимiрювання нео-бов'язково е свщченням правдоподiбностi того, що результат вишрювання близький до значення вишрювано! величини; це просто ощнювання близькостi результату вимiрювання до найкращого значення, що вiдповiдае наявним на цей час знанням. Введення поняття «невиз-

начешсть вим1рювання» e вимушеною м1рою, необх1д-ною для одномаштного i спрощеного оцшювання дос-тов1рност1 вимiрювання (evaluation of measuring authenticity), оскшьки !! визначення здiйснюeться на ос-новi одержуваних результатiв вимiрювання, вiдомих умов вимiрювань i характеристик використовувано! апарату-ри, а не на невщомому дшсному значеннi вишрювано! величини [6].

Для оцшювання х. вх^но! величини Х,, яка не була отримана в результат повторних спостережень, пов'я-заш з ними оцiнена дисперсiя и2(х,) або стандартна не-визначенiсть и(х,) визначаються на базi наукового суд-ження, що базуеться на всш доступнiй шформацп про можливу змшшсть Х .. Тобто, стандартну невизначешсть типу В одержують iз передбачувано! функцп щiльностi ймовiрностi, засновано! на мiрi впевненостi в тому, що ждая обов'язково вiдбудеться (ця ймовiрнiсть часто на-зиваеться суб'ективною ймовiрнiстю).

Оскiльки iнформацiю для оцiнки невизначеност ви-мiрювання можуть складати дат попередшх вимiрювань, розглянутий у [2] тдад дозволяе забезпечити процес вишрювання сенсу ПМК на основi нечггко! мiри. Так, в [1] бшарне нечiтке вiдношення, що задане на однш ба-зиснiй множинi (ушверсутш) мовних образiв I, визначе-но як нечгтке вiдношення

б = {< il, ij >, VQ (< ll, ij >)}, (1)

де Vq (< il, i j >) - функщя належностi бiнарного нечгтко-го вiдношення, що задаеться як в^ображення Vq : I х I ^ [0, 1]. У виразi (1) через < ii, ij > позначено кортеж з двох елеменлв, причому ii е I, ij е I. Якщо носiй Qs неч^кого вiдношення Q е скiнченним, то по-тужнiсть цього нечiткого вщношення чисельно дорiвнюe кiлькостi кортежiв його носiя i позначаеться як card (Qs ).

Якщо бшарне нечгтке вiдношення (1) е базовою ког-нiтивною характеристикою ШКС, тода функцю належностi V-Q (< ii, i j >) варто вважати природною чисельною мiрою сенсу Значення Vq (< il, ij >) = 1, зпдно з [1], отримало назву одинищ сенсу розмiром один Сав. В загальному виглядi функцiя належностi неч^кого вiдношення сенсу для пари мовних образiв (на базовому рiвнi) задаеться як

Vq (< il, ij >) = f , tL ), (2)

де ку - кшьюсть зафiксованих ШКС зв'язюв мiж l-м та j-м

образами на момент часу tL. Значення kj неважко отри-мати шляхом тдрахунку кiлькостi зафiксованих ШКС кор-тежiв < il, ij > на основi технолопчних можливостей сучасних лiнгвiстичних пакетiв, що дозволяе вперше зас-тосувати та обгрунтувати поняття невизначеностi вимi-рювання сенсу ПМК.

3 МАТЕР1АЛИ I МЕТОДИ

3.1 Поняття штучно'1 когштивноТ системи: форма-лiзацiя та штерпретацш

Розглянемо систему S, яку в подальшому будемо на-зивати штучною когнiтивною системою, з точки зору про-цесiв накопичення !! бази знань. Нехай S здатна розтзна-вати образи з несюнченно! множини I = {ij, i'2,..., Il ,•••} та

сприймати асоцiативнi зв'язки мiж парами образiв як еле-менти множини roeQ, де Qc I х I - простар упорядко-ваних пар. Для визначення образно! конструкцп засто-суемо поняття F - сигма-алгебри (ст-алгебри) пiдмно-жин з Q. Далi будемо вважати образною конструкцieю будь -яку тдмножину ycfi, що мае властив^ть у е F. Якщо, згiдно з властивостями у-алгебри [7], множини A, B е F, то об'еднання, перетин i рiзниця А та В у теоре-тико-множинному сенш також належать F.

Припустимо, що система S обмшюеться iнформа-щею iз зовнiшнiм свiтом як чорним ящиком виключно у виглядi образних конструкцш, з яких розрiзняють по-слiдовнiсть вхiдних подiй X = {х1, Х2,...} та множину образних реакцш системи Y = {y1,y2,...}, причому Xi е F, yi е F. На рис.1 зображено схему абстрактно! моделi ког-нiтивноl дiяльностi, що включае у свiй склад зовшшнш «чорний ящик» та внутршню ШКС, на вхiд яко! неперер-вно подаеться множина образiв подш у виглядi потоку X. На вижад ШКС з'являються образи Y, яю е реакцieю цiel системи на зовшшню ситуацiю X зпдно з тдходом до моделювання образного мислення людини [2].

Закладемо як базовий онтогенетичний принцип по-будови ШКС - когттивний ресурс Q системи S, що виз-начае сенс !! функцiонування, отримуеться виключного шляхом послiдовного накопичення параметрiв чергових ю з зовнiшнього «чорного ящика» та подальшого само-вдосконалення множини Q. Формально онтогенетичний принцип вщображаеться в тому, що базу знань системи S m

будуемо як C = UXi, де m' - загальна кiлькiсть сприйня-i=1

тих системою на даний час вхвдних образних конструкцiй.

З метою розв'язання прикладних задач комп'ютерно! лiнгвiстики штерпретуемо складовi отримано! абстрактно! моделi когнiтивноl дiяльностi. Для ШКС лшгвютично-го типу образом i пропонуеться вважати мовний образ, що наближено задаеться лексемою або словоформою [8]. Тодi аналогом асоцiативного зв'язку мiж парами об-разiв ю е словосполучення, а образно! конструкцп Y -речення, мовне висловлювання, загалом - ПМК. Накопичення ШКС когштивного ресурсу Q вщбуваеться шляхом опрацювання множини текстав, а наслiдком цього е побудова лшгвютично! бази знань C.

На вiдмiну вiд вiдомих моделей знань комп'ютерно! лiнгвiстики, в яких словник словоформ поеднуеться з

Рисунок 1 - Схема абстрактно! модел1 когштивно! дiяльностi

множинами морфолопчних, синтаксичних та семантич-них правил, основу бази знань С складають виключно асощативш знання про сполучувашсть мовних образiв i. Це надае тдстави для унiфiковано! ощнки одинищ та кшькосп сенсу ПМК.

3.2 Метод вимiрювання сенсу ПМК на основi нечiткого вщношення

У вщповщност до запропонованого пiдходу [9] дета-лiзуемо функцiю належностi, що породжуе бшарне не-чiтке ввдношення сенсу (1) на таких 3-х послвдовних рiвнях, побудованих на базовому (2):

1. Рiвень iмовiрнiсного прогнозування - з метою нор-мування функцi! належностi у промiжку [0, 1] передба-чено розрахунок статистично! оцiнки X (математичного сподiвання): якщо для М вiдомих ШКС на момент часу ы ы

tь образiв к- = ^^ку, а т - кшьюстъ умх ненульових /=1у=1

кортежiв < ¡1, Iу >, то X = к- / т - в цьому випадку зас-тосуемо вiдому сигмо!дальну функщю [10]

IQ (< il,ij >) = fi(kj,X) = 1/(1 + e

kj +X),

(3)

Внаслдак нормування з'являеться характерна влас-тивiсть функцiï надежности отриманоï за методом, що

_ 1 m

пропонуеться - середне значення |q = — V |q,- = 0,5 .

Q mj=1

2. Рiвень врахування емоцiйного стану - введено мож-ливiсть врахування бшаржи моделi емоцiй ШКС [9] за

рахунок показника | = {...,-2,-1,1,2,...}, тсед

_ vx

|Q(<il,ij >) = f2(kj,X,I) = 1/(1 + e 1 ). (4)

При I = _ 1 v 1 емоцп не впливають на сенс функщо-нування ШКС, а функцiя належност (4) вироджуеться у функцiю (3). Збшьшення показника I симетрично зглад-

жуе сигмоïдальну функцiю f2, що продемонстровано на рис. 2.

3. Рiвень врахування мотивацiйноï компоненти на основi образiв-центрiв потреб - запропоновано модел-лю мотиву ШКС на момент часу tL вважати досягнення образу-центру потреби j', а також розрахувати диспер-сiю та середньоквадратичне вiдхилення результатiв спо-кц

стережень lj як

nt nt

1 nt nt

D = - VV(kj _X)2| kj > 0 i ст =VD. m

(5)

l=1 j=1

Отримане значення ст будемо вважати невизначеш-стю, що обумовлена недосконалiстю моделi мотиву ШКС. Характеризуе цю невизначенiсть зокрема недосконалють базово! залежностi (3), на осжда яко! пропонуеться вра-хувати мотивацшну компоненту на основi образiв-цен^в потреб.

В залежностi вiд ступеня наближення г пари образiв < ¡1, ¡у > до /, функщю (4) можна змiщувати влiво за вiссю абсцис шляхом зменшення математичного сподь вання для ще! пари Ху =Х-г -ст, де г = {0, 1, 2, 3}, зреш-тою маемо

_ kij _Xj

IQ (< il, ij >) = f3 (kj, X j, ст, I i') = 1/(1 + e

). (6)

Питання побудови окремого алгоритму для визначен-ня ступеня наближеностi r пари < ii, ij > до образу -

потреби j' та введення додаткового рiвня врахування рефлекшв та результатiв зовнiшнього навчання розгля-нуто у [9]. Зауважимо, що, на вiдмiну вiд (3) та (4), у функцп належностi вщношення сенсу (6) внаслiдок ло-кальних зсувiв математичного сподiвання зникае влас-

тивiсть |q = 0,5, що, на думку автс^в, св^ить про на-лежну формальну штерпретащю вiдомих фактiв з психологи та фiзiологiï щодо протирiч мiж загальноприйнятим

СигмЫ'дальна функция иалежнсс-п вщношеиня сенсу

Рисунок 2 - Вплив показника | на функщю належност (4)

I

(середньостатистичним) сенсом i д1ями тд впливом силь-них мотивiв.

3.3 Невизначенкть результата вимпркшанни сенсу ПМК

Розглянутий пiдхiд до вимiрювання сенсу вщповщае лiнгвiстичнiй 6a3i знань однiеï ШКС, вихiдними даними якоï може бути як окремий текст, так i деяка ушкальна множина текстав. При цьому потрiбно розумiти, що за кожним текстом стопъ так само унiкaльний свгтогляд автора, втiлений у його мовi. Для розв'язання зaдaчi вияв-лення iнформaтивних ознак тексту важливим е визна-чення достовiрностi бази знань у цшому та сенсу однiеï

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

пари мовних обрaзiв у виглядi (< il, ij >), як бaзовоï склaдовоï цих знань зокрема. Оскiльки фактично йдеться про вимiрювaння сенсу, то для ощнки достсдарност пропонуеться застосувати поняття невизначеност результата множинного вимiрювaння сенсу ПМК.

У першому нaближеннi будемо вважати, що суб'ективна ощнка кшькосп сенсу однiеï пари мовних обрaзiв втiлюеться у статистичний ряд чисельних зна-чень для N рiзних ШКС. Отже, для довшьного кортежу < il, i j > вишрювана зпдно (3) величина Y = (< il, ij >) функщонально залежить вiд результaтiв ïï багаторазових вимiрювaнь X1,X2,...,XN для рiзних ШКЛ та, в загаль-ному випадку, мае такий вигляд

Y = f ((1, X2,..., Xn ). (7)

Ощнку вимiрювaноï величини Y, позначену У, одержимо iз загального рiвняння (7), використовуючи вхщш оцiнки Х1, Х2,..., Xn для N значень величин X1, X 2,..., Xn . Отже, вихщна оцiнкa У, яка е результатом вимiрювaння, виражаеться таким чином

У = f (x1, xN ).

Базовою оцiнкою математичного сжадвання або очь куваного значення |g величини q, що змшюеться випад-ковим чином, е середне арифметичне або середне значен-ня q iз n спостережень

_ 1 n

q = -Z qk

'k=1

(8)

Експериментальне стандартне вiдхилення, що харак-теризуе змiннiсть значень q або, точшше, ïхню диспер-

■ 2 —

мю а щодо середнього значення q, розраховують за

формулою [6]

ua (qk )=

- q)2

k=1

n -1

(9)

Оскшьки за результат багаторазових вимiрювaнь приймають середне значення q , то важливо ощнити його

диспермю. Найкраща оцiнкa а2 (q)=а2/П дисперсiï середнього значення и A (q ) виражаеться як

и A (q ) =

uA

(qk)

(10)

Експериментальна дисперсiя середнього иA (q ) i експериментальне стандартне в^илення середнього значення Ua (q ), що дорiвнюе позитивному квадратному кореню з ощнки дисперсп иA (q), кiлькiсно визначають,

нaскiльки добре q ощнюе очiкувaння Mg величини q. З урахуванням вирaзiв (9) та (10) експериментальне стандартне вдаилення середнього значення Ua (q ) розрахо-вуеться за формулою [6]

uA

(q )=

Ë(qk- q)2

k=1

n(n -1)

(11)

Для бшьш глибокого врахування суб'ективного характеру вишрюваного сенсу кортежiв у функцп (7) засто-суемо склaдовi стaндaртноï невизнaченостi типу В, яю, як правило визначають|обчисляють,вичисляють| на ос-

новi iнформaцiï про верхнi i нижш грaницi [а-; а+] пе-редбачуваного закону розподiлу чи через штервал U, що мае заданий довiрчий рiвень довiри p.

Для визначення стaндaртноï невизнaченостi типу В по-трiбно взяти позитивний квадратний корiнь з добутку довь рчого рiвня кожного значення та квадрата вiдхилення цього значення i вм добутки такого виду додати. В результат! за-гальний вигляд формули для обчислення стaндaртноï не-визнaченостi типу В при дискретних даних мае вигляд

ив (X ) =

Л2

Z x -Z xiPi

i=1V i=1

Pi =

Z(( - x )2 Pi . (12) i=1

Якщо для значення величини X. можна оцiнити верх-ню та нижню границю [а_ ; а+], то стандарта невизна-ченостi типу В, в припущеш про можливий вигляд закону розподшу, можна визначити за формулами [4, 5, 6]: а) для трикутного закону розподшу

ив

(Xi ) = -

л/24

(13)

б) для експоненщального закону розподiлу

'(Xi ) = $

а+ - x)(x - а- )- (а + - 2x + а- )

(14)

де х - очiкувaне значення, а X - параметр розподшу;

n

n

n

+

и

в) для закон' рoзпoдiлy Парето

uB

(X, ) =

к - И к - 2

(15)

де xm - початкове значення x, а k - параметр розподiлу (значення щшьносл для xm);

д) для рiвномiрного закону розподiлу

UB

(Xi ) = -

VÏ2

(1б)

Для заданих iнтервалiв Up i3 вiдомим рiвнем довiрир, в припущеннi нормального закону розподшу, невизна-ченiсть типу В визначаеться за формулою

U

UB (Xi) =

де kp — коефщент охоплення, який для нормального закону розподшу, дорiвнюе 1,64; 1,96; 2,58 i 3 для довiрчих рiвнiв 0,9; 0,95; 0,99 i 0,9973. За вщсутносл шформацп про наявнiсть законiв (13)—(16) розподшу вхщно! величи-ни Xj для симетричних границь ±аг- стандартну невиз-наченiсть типу В визначають за формулою

u (X )= 2a' = ai , UB (x' )=H2=S

(17)

яка може бути застосована на початковому етапi експе-риментального дослiдження ШКС.

4ЕКСПЕРИМЕНТИ

З метою експериментально! перевiрки результатiв оцiнки невизначеносп вимiрювання сенсу ПМК як компонента ШКС за допомогою запропонованого методу було застосовано в^омий лшгв^тичний пакет DKPro Core, який базуеться на платформi Apache UIMA framework [12]. Для реалiзацil серп експерименлв було розроблено додаткову Java-програму (додаток 1), що використовуе та удосконалюе колекцiю програмних ком-понентiв для обробки природно! мови DKPro Core [13]. Особливють розроблено! програми, що орiентована на технологiю Java/Maven/Eclipse, полягае у визначенш списку лем тексту та складних залежностей згiдно [14] мiж цими лемами у виглядi списку з m зв'язкiв.

Експериментальною базою було обрано три вiдомi лте-ратурнi твори з вiдкритого джерела Project Gutenberg [15], а саме англомовт (авторськ) варiанти 4-х текста рiзного обсягу: «Алюа в кра!т див» (Л. Керол, 1 — уривок з 4204 слш та 2 — повна вероя з 26690 слiв), 3 — «Бше iкло» (Дж. Лондон,

Таблиця 1 — основш результати

48907 слш) та 4 — «Трое у човы без врахування собаки» (Дж. К. Джером, 67328 слш). Мета сери експерименлв полягала у до^джены базових характеристик невизначеностi кожного з 4-х текспв, а також у отриманы оценки невизначеносп множини спiльних для всiх текспв пар мовних образiв < ii, ij > зпдно з запропонованим методом.

5 РЕЗУЛЬТАТИ

У результата дослщження формалiзовано та штерпре-товано для предметно! галузi комп'ютерно! лiнгвiстики поняття штучно! когнггивно! системи, закладено базовий онтогенетичний принцип побудови ШКС. Отримано фор-мальнi характеристики методу створення бiнарного нечеткого вiдношення образного сенсу Q ШКС sq шляхом моделювання понять мотивацшно! мети та емоцiйного стану. Запропоновано принципи послщовно! багатс^в-нево! побудови функцп належностi y.Q (< ii, ij >), що породжуе нечггке вiдношення Q, визначено характер ну властив^ть ^q = 0,5 методу вимiрювання сенсу ПМК. Зпдно з ним для задачi виявлення iнформативних ознак тексту отримано формальш теоретичнi оцiнки невизначе-ностi ст результатiв спостережень kij кожно! ШКС Si, а також розраховаш стандарты невизначеносп типу А — ua (X)

та типу В — uB (X ) для всiх ШКС.

За допомогою розробленого в [13] програмного за-безпечення на основi пакету DKPro Core було отримано результати обробки 4-х обраних англомовних текстiв, що можуть iнтерпретуватися як 4 рiзнi ШКС. Основы результати обробки у ввдповвдносп до (5) представлено в табл. 1, де 3 останы стовпщ вмiщують такi данi:

— вщсоток СКВ ст вiд оцiнки математичного сжедван-ня X;

— кшьюсть визначених засобами DKPro Core лем тексту;

— середня кшьюсть рiзних зв'язкiв для одые! леми тексту.

Отримаш гiстограми експериментальних закошв щiльностi розподiлу показали значну зовышню схожiсть до розподiлу за законом Парето, що демонструе приклад порiвняння експериментального результату для тексту 1 (Carrol_part) з теоретичною щiльнiстю розподшу Парето зi значенням параметру k = 2108.

Аналiз вiдсортованих за спаданням kj спискiв пар

мовних образiв < ii, ij > дозволив виявити 4 спшьы пари у верхнiй частинi списюв, вихiднi данi та результати оцш-ки q за (8) та невизначеносп за типами А та В зпдно з (11) i (12) яких представлено в табл. 2.

обробки 4-х англомовних текспв

к

x

m

+

к

Текст m к! X а % Юльк. лем Оер. кiльк. зв'язкiв

1 Carrol part 23б0 2812 1,191525424 0,778805721 б5,3б% 7б2 3,0971

2 Carrol_full 1215б 1778б 1,4б3145772 2,245б95112 153,48% 2121 5,7313

3 London 25244 31234 1,237284107 1,259517221 101,80% 5702 4,4272

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4 Jerom 3331б 47091 1,4134б5002 2,044б2б970 144,б5% б048 5,508б

р-ЕЗБЫ 1607-3274. Радюелектронжа, шформатика, управлшия. 2016. № 2 е-ЕЗБЫ 2313-688Х. Каёю Е1еойоп^, Сошриег Баепое, Сопйо1. 2016. № 2

2500

Сагго1_раА

2000

1500

1000

Щшьнщть ■Паретоз к-2108

500

2 3 4 5 б 7 8 9 10 11 12

Рисунок 3 - Анал1з експериментального закону щшьносп розпод1лу для тексту 1 Таблиця 2 - Результати оцшки невизначеност 4-х обраних пар мовних образ1в

Текст go-back .чау-1 кпо^-1 ¡ее-1

1 Сагго1_раг. 0,859177412 0,943132060 0,943132060 0,943132060

2 Сагго1_/и11 0,998553057 0,999999514 0,386239825 0,998553057

3 ЬопЛоп 0,999999948 1,000000000 1,000000000 0,999999993

4 Зегот 0,999999537 1,000000000 1,000000000 1,000000000

0,928865234 0,971565787 0,664685943 0,970842558

иА (Х) 0,028449934 0,01160802 0,113675151 0,011312764

0,036641087 0,01495014 0,146403893 0,014569874

6 ОБГОВОРЕННЯ

Отриманi в результатi експерименту чисельнi оцiнки невизначеностi результатiв вишрювання сенсу пар мовних образiв дозволяють отримати нову iнформацiю щодо текстiв, що аналiзуються. Представлення кожного тексту, як окремо! ШКС демонструе, що експериментальний закон щшьност розподiлу для характеристики ку пар мовних образiв дуже подiбний до розподiлу Парето. Од-нак такому висновку не вщповщають оцiнки математич-ного сж^вання X, яке б мало зменшуватися та набли-к - х„

жатися до 1 (X ра

к-1

■) зi збiльшенням числа пар

[16], а також СКВ ст, яке занадто велике для розподшу Парето. Наприклад, для тексту 1 згiдно з (5) ст = 0,7788, що складае 65,36% вщ X. Аналогiчнi оцшки вщповщно до залежностей (15) для розподшу Парето та (17) для загаль-ного випадку з малим значенням аг- =±0,01: ст1 = 0,0004748 (0,04%) та ст2 = 0,58 (0,48%).

Проте, аналiз даних таблицi 1 надае формальнi тдста-ви для висунення гтотези - найбшьш iнформативною характеристикою ШКС е середня кшьюсть зв'язкiв для одше! леми (мовного образу). Обгрунтування - ко-ефiцiент кореляцi! Пiрсона для стовпчиюв з X та «Кшьюсть

лем» для всiх 4-х ШКС дорiвнюе 0,198, але для пар стовпчиюв X та «Середня кшьюсть зв'язюв» - 0,945. Одно-часно для пар стовпчиюв ст та «Середня кшьюсть зв'язюв» коефщент кореляцп дорiвнюе 0,984, а для пар стовпчиюв «%» та «Середня кшьюсть зв'язюв» - 0,996. Це дозволяе вважати, що закон розподшу е лише Парето-подiбним, проте невизначешсть сенсу ШКС (параметр ст) прямо пропорцшна середнш юлькост зв'язкiв. Висунута гто-теза потребуе масштабнiшо! експериментально! пере-вiрки та уточнення.

Даш таблиц 2 демонструють високу стутнь сенсо-подiбностi згiдно з висунутим пiдходом для 4-х обраних пар мовних образiв, що використовувалися 3-ма рiзни-ми авторами. Загальна тенденщя полягае у тому, що оцшки невизначеност ид (X) за типом А меншi вщповщ-

них оцiнок ив (X) за типом В для вмх ШКС приблизно у 1,5 рази. При цьому вщсоток невизначеностi не переви-щуе 4% вiд оцшки математичного сподiвання ц для вмх пар Н-д (< ¡1,¡у >), окрiм пари «кпо'М'-!» (до 22,03%), що мае зрозумше пояснення - в обраному уривку 1 тексту Л. Керола ця пара зустрiчаеться вiдносно набагато част-iше, анiж у цьому ж творi 2 («Алiса у кра!ш казок») у цiлому. Такi результати дозволяють сжадватися, що зап-

ропонований шдхщ дозволить пiдвищити якiсть розв'я-зання задач автоматичного семантичного аналiзу текспв, зокрема визначення авторства. Однак цшком ймовiрно, що аналогiчне порiвняння пар, що зустрiчаються рiдко (знаходяться у нижнш частинi вiдсортованих спискiв) продемонструе високу невизначенiсть.

Подальших дослiджень потребуе також визначення закошв розподiлу експериментальних значень ^q (< ii, ij >) та отримання суб'ективних характеристик бази знань ШКС у представленш динамiчноl невизначе-ностi вишрювань.

ВИСНОВКИ

Внаслiдок проведених дослiджень розв'язано актуаль-ну задачу оцiнки невизначеносп вимiрювання сенсу ПМК як компонента ШКС, яка безпосередньо пов'язана з проблемою розумшня смислу текстово! шформацп. Набув подальшого розвитку метод вишрювання сенсу ПМК на основi нечеткого вiдношення, який, на вiдмiну вщ iснуючих, базуеться на введених формальних понят-тях штучно! когштивно! системи та мовного образу, що дозволяе отримати вихiднi статистичнi данi для оцшки результатiв невизначеностi вимiрювання титв А та В. Уперше отримано та штерпретовано формальнi оцiнки невизначеносп результата вишрювання сенсу ПМК, що дозволяе врахувати iнформацiю про зв'язки мiж лемами тексту для розв'язання задачi виявлення iнформативних ознак тексту.

Практичне значення отриманих результатiв полягае в отриманш програмного технологiчного iнструментарiю на осжда лiнгвiстичного пакету DKPro Core, що дозволяе реалiзувати запропонований метод для семантичного аналiзу англомовних текста. За результатами проведено! серп експерименлв виявлено, що закон розподшу зв'язкiв мiж лемами тексту е Парето-жедбним, проте мае сутта формальнi вiдмiнностi вiд класичного розподшу Парето, зокрема суттево бiльшi оцшки математичного сжедвання X (до 46,3 %) та СКВ ст (на юлька порядкiв).

З точки зору запропонованого тдходу до визначення сенсу ПМК збшьшення розмiрiв тексту за кшьюстю слiв та, вщповщно, його словникового складу за кшьюстю лем не впливае на параметри закону розподiлу та невиз-начешсть сенсу окремо! ШКС. Аналiз отриманих резуль-татiв дозволяе вважати показник середньо! кшькост зв'язкiв мовного образу найбшьш iнформативною озна-кою тексту, оскшьки коефiцiент кореляцп Пiрсона мiж ним та параметрами, пов'язаними з невизначешстю сенсу бiльший за 0,945.

Порiвняння оцiнок невизначеностi 4-х пар мовних образiв, що використовувалися 3-ма рiзними авторами, показало високу стутнь сенсоподiбностi таких пар зпдно з висунутим пiдходом. При цьому оцiнки невизначеностi

ид (X) за типом А пропорцшно меншi вiдповiдних ощ-

нок Ub (X) за типом В для вмх ШКС приблизно у 1,5 рази, що дозволяе обмежитися знаходженням тшьки одше! оцiнки невизначеностi ид (X).

Отриманi результати досл^жень, а саме формальнi показники невизначеносп сенсу та середня кшьюсть

зв'язюв мовного образу, мають перспективи викорис-тання в задачах семантичного аналiзу ПМК, зокрема кла-стеризацп, класифжацп та визначення авторства текстiв.

ПОДЯКИ

Проведенi дослiдження здiйснювались у межах держ-бюджетно! науково-дослщно! роботи Вшницького нацю-нального технiчного унiверситету за темою «1нтелекту-альна iнформацiйна технолопя образного аналiзу тексту та синтезу штегровано! бази знань природно-мовного контенту» (№ держреестрацп 0114U003462), а також у вщповщност до плану досл^жень науково-дослiдного центру прикладно! та комп'ютерно! лшгвютики ВНТУ

ДОДАТОК 1

Текст Java-програми MyBasePlpellne3:

package de.tudarmstadt.ukp.tutorial.gscl2013.dkpro;

import static cr^c^.apache^.uime^.fit^.fact^cry^.inal.ysisEngire^Fcct^cry^.c^r^ea't^e^Engire^Esc^r^ipti^cr^;

import static cr^c^.apache^.uim^.fi^.fact^cry^.CCll^ecti^crRe^=^r^Fact^cry^.cr^eate^Re^=^rEesc^ripticr^;

import static org.apache.uima.fit.util.JCasUtil.select;

import java.io.FileNotFourdExceptior;

import java.io.PrirtWriter;

import java.io.UnsupportedEncodingException;

import java.util.ArrayList;

import java.util.Arrays;

import java.util.Collection;

import java.util.HashMap;

import java.util.HashSet;

import java.util.List;

import java.util.Map;

import java.util.Set;

import javax.xml.trarsform.TrarsforшerCorfiguratiorExceptior;

import org.apache.uima.fit.pipeline.JCaslterable;

import org.apache.uima.fit.util.JCasUtil;

import org.apache.uima.jcas.JCas;

import org.j grapht.ext.GraphMLExporter;

import org.jgrapht.ext.IntegerEdgeNameProvider;

import org.j grapht.ext.IntegerNameProvider;

import org.j grapht.ext.StringEdgeNameProvider;

import org.j grapht.ext.StringNameProvider;

import org.jgrapht.graph.ClassBasedEdgeFactory;

import org.jgrapht.graph.DefaultDirectedWeightedGraph;

import org.xml.sax.SAXException;

import de .tudarmstadt.ukp. dkpro.core.api.coref.type.CoreferenceChain; import de. tudarmstadt .ukp .dkpro. core .api .coref. type .CoreferenceLink; import de.tudarmstadt.ukp.dkpro.core.api .segmentation.type.Lemma; import de.tudarmstadt.ukp.dkpro.core.api.segmentation.type.Sentence; import de.tudarmstadt.ukp.dkpro.core.api.segmentation.type.Token; import de .tudarmstadt .ukp .dkpro .core .api.syntax .type .dependency .Dependency; import de.tudarmstadt.ukp.dkpro.core.io.text.TextReader; import de.tudarmstadt.ukp.dkpro.core.opennlp.OpenNlpPosTagger; import de .tudamstadt .ukp. .dkpro .core. stanfordnlp. StanforrCbrferenc^esolver; import de .tudarmstadt.ukp. dkpro. core.stanfordnlp. StanfordParser; import de.tudarmstadt.ukp.dkpro.core.tokit.BreakIteratorSegmenter; public class MyBasePipeline3 {

private static class LinkCounter {// класс для связи Map с

графом DefaultDirectedWeightedGraph

private Map<String, Map<String, Integer» links;

private DefaultDirectedWeightedGraph<String,

RelationshipEdge<String>> g;

LinkCounter() {//

links = new HashMap<String, Map<String, Integer>>();

g = new DefaultDirectedWeightedGraph<String,

RelationshipEdge<String>>(

new ClassBasedEdgeFactory(RelationshipEdge.class));

}

void addLink(String from, String to, String type) {// метод для добавления новой связи from = from.toLowerCase(); to = to.toLowerCase();

Map<String, Integer> mapFrom = links.get(from); if (mapFrom == null) {

mapFrom = new HashMap<String, Integer>();

links.put(from, mapFrom);

}

Integer countTo = mapFrom.get(to);

mapFrom.put(to, (countTo == null) ? 1 : countTo + 1) ; if (!g.containsVertex(from)) {

g.addVertex(from);

}

if (!g.containsVertex(to)) {

g.addVertex(to);

}

RelationshipEdge<String> edge = new RelationshipEdge<String>(from, to, type);

g.addEdge(from, to, edge);

}

void saveLinks(String filename)

throws FileNotFoundException, UnsupportedEncodingException { / / метод для запоминания статистики связей в файле links.csv PrintWriter writer = new PrintWriter(filename, "UTF-8"); for (String keyFrom : links.keySet()) { Map<String, Integer> mapFrom = links.get(keyFrom); for (String keyTo : mapFrom.keySet()) { Integer count = mapFrom.get(keyTo);

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

writer.println(keyFrom + ", " + keyTo + ", " + count);

}

}

writer .close () ;

}

/* метод - в графе искать v2 и заменять программно на v1, т.е. найти все связи для v2, запомнить, удалить v2, вставить узел v1, добавить связи */

void V1ChangeV2(String v1, String v2) { try {

v1 = v1.toLowerCase(); v2 = v2.toLowerCase();

Set<RelationshipEdge<String>> targ1 = g.outgoingEdgesOf(v2); if(targ1!=null) {

Set<RelationshipEdge<String>> targ1copy = new

HashSet<RelationshipEdge<String>>();

targ1copy.addAll(targ1);

for(RelationshipEdge v : targ1copy) {

addLink(v1, g.getEdgeTarget(v), v.toString());

System.out.printf("% n"+v1+" "+g.getEdgeTarget(v)+" "+v);

g.removeEdge(v);

//delLink(v2, g.getEdgeTarget(v), v.toString());

}

}

Set<RelationshipEdge<String>> targ2 = g.incomingEdgesOf(v2); if(targ2!=null) { for(RelationshipEdge v : targ2) { addLink(g.getEdgeSource(v), v1, v.toString()); System.out.printf("%n"+g.getEdgeSource(v)+" "+v1+" "+v); //g.removeEdge(v);

//delLink(g.getEdgeSource(v), v2, v.toString());

}

}

g.removeVertex(v2); } catch (Exception e) {

System.out.println("\nНесподiванка спiткала украшських науковцiв пiд час змiни " + v1 + " на " + v2);

//e.printStackTrace();

}

}

private void saveGraph(String filename)

throws FileNotFoundException, UnsupportedEncodingException, SAXException, TransformerConfigurationException {// метод для запоминания графа в файле graph.xml

GraphMLExporter<String, RelationshipEdge<String>> me = new GraphMLExporter<String, RelationshipEdge<String>>( new IntegerNameProvider<String>(), new StringNameProvider<String>(),

new IntegerEdgeNameProvider<RelationshipEdge<String>>(), new StringEdgeNameProvider<RelationshipEdge<String>>()); PrintWriter writer = new PrintWriter(filename, "UTF-8");

me.export(writer, g);

}

Map<String, Map<String, Integer» getLinks() {

return links;

}

DefaultDirectedWeightedGraph<String, RelationshipEdge<String>> getGraph() {

return g;

}

}

public static void main(String[] args) throws Exception {//

главный метод класса MyBasePipeline3

JCasIterable pipeline = new JCasIterable(// запуск программного конвейера для последовательного аннотирования // (создания многоуровневой разметки) текста createReaderDescription(TextReader.class, TextReader.PARAM_SOURCE_LOCATION, "input/Obama.txt", TextReader.PARAM_LANGUAGE, "en"), // чтение текста createEngineDescription(BreakIteratorSegmenter.class),// сегментирование текста

createEngineDescription(OpenNlpPosTagger.class),// морфологическая разметка

createEngineDescription(StanfordParser.class, StanfordParser.PARAM_VARIANT, "rnn",

StanfordParser. PARAM_MODE , StanfordParser.DependenciesMode.CC_PROPAGATED), // синтаксическая разметка, учитывающая

// сложные зависимости между парами лемм // Stem

//createEngineDescription(SnowballStemmer.class), // Lemma

//createEngineDescription(MateLemmatizer.class), // NamedEntity

//createEngineDescription(OpenNlpNameFinder.class, // OpenNlpNameFinder.PARAM_VARIANT, "person"), //createEngineDescription(OpenNlpNameFinder.class, //OpenNlpNameFinder.PARAM_VARIANT, "organization"), //CoreferenceChain, CoreferenceLink

createEngineDescription(StanfordCoreferenceResolver.class)// поиск соответствия местоимений // SemanticPredicate, SemanticArgument

//createEngineDescription(ClearNlpSemanticRoleLabeler.class) );

PrintWriter writer = new PrintWriter("output/output.txt", "UTF-

8");// запись зависимостей по предложениям в файл output.txt

for (JCas jcas : pipeline) {

LinkCounter linkCounter = new LinkCounter();

for (Sentence sentence : select(jcas, Sentence.class)) {

writer.println("sentence: " + sentence.getCoveredText()); /

/ запись исходного предложения

Collection<Token> tokens = JCasUtil.selectCovered(jcas, Token.class, sentence);

List<String> ts = new ArrayList<String>(tokens.size()); /* исключение неинформативных для анализа типов зависимостей */ List<String> excludes = Arrays.asList(new String[]{"det", "punct", "cop", "cc", "aux", "auxpass", "expl", "mark", "num", "number", "quantmod", "ref"/**/});

for (Dependency dep : JCasUtil.selectCovered(jcas,

Dependency.class, sentence)) {

String type = dep.getDependencyType();

if (!excludes.contains(type)) {

String govLemma = safeVal(dep.getGovernor());

String depLemma = safeVal(dep.getDependent());

String depn1 = dep.getDependencyType();

writer.println (depn1 + "(" + govLemma + ", " + depLemma + ")"); // запись очередной зависимости

linkCounter.addLink(govLemma, depLemma, depn1);

}

}

//}

//System.out.printf("%n — Semantic structure —%n"); //for (SemanticPredicate pred : selectCovered( //SemanticPredicate.class, sentence)) {

//System.out.printf(" %-16s %-10s", pred.getCoveredText(), //pred.getCategory() );

//for (SemanticArgument arg : select(pred.getArguments(), //SemanticArgument.class)) {

//System.out.printf("\t%s:%s", arg.getRole(), //arg.getCoveredText());

//}

//System.out.printf("%n");

//} }

System.out.printf("%n== Coreference chains (for the whole document) ==%n");

for (CoreferenceChain chain : select(jcas,

CoreferenceChain.class)) {// цикл по все найденным кореференци-

ям для имен и местоимений

CoreferenceLink link = chain.getFirst();

//System.out.println(link);

String v1 = "#";

String v2 = "$";

while (link != null) {

//String v = link.getCoveredText().trim(); String v = link.getCoveredText();

while (v.indexOf(" ")!=-1) v = v.substring(1+v.indexOf(" ")); System.out.printf("\n:: %s |%s|", link.getCoveredText(), link.getReferenceType());

if (link.getReferenceType()=="PROPER" ||

link.getReferenceType()=="NOMINAL") v1=v; if (link.getReferenceType()=="PRONOMINAL") v2=v; if (link.getReferenceRelation() != null) {

//System.out.printf("-[%s]", link.getReferenceRelation());

}

link = link.getNext();

}

if ( ! v1.equals("#") & !v2.equals("$")) {// если кореференции найдены, то проводим замену местоимений на номиналы System.out.printf(v1+" "+v2);

linkCounter.V1ChangeV2(v1, v2);// вызов метода V2ChangeV1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

}

System.out.printf("%n");

}

linkCounter.saveLinks("output/links.csv");// вызов метода saveLinks

linkCounter.saveGraph("output/graph.xml");// вызов метода saveGraph

//GraphAnalyzer.showGraph(linkCounter.getGraph()); // визуализация графа через вызов метода showGraph класса GraphAnalyzer

}

writer.close();

}

private static String safeVal(Token t) {// функция для определения леммы для слова (токена) Lemma l = t. getLemma();

return l != null ? l.getValue() : "";

}

}

СПИСОК ЛГГЕРАТУРИ

1. Бисикало О. В. Субъективная единица смысла образных конструкций / О. В. Бисикало // Nauka: teoria i praktyka — 2009 : мaterialy V miedzynar. naukowi-praktycznej konf., (Przemysl, 7— 15 sierpnia 2009). — Przemysl : Nauka i studia, 2009. — Vol. 6. — P. 9—12.

2. Бюжало О. В. ¡нфолопчний шдхщ до моделювання образного мислення людини [Електронний ресурс] / О. В. Бюжало // Вюник СумДУ (Сер1я «Техшчш науки»). — 2009. — № 2. — С. 15—20. — Режим доступу: http://visnyk.sumdu.edu.ua/arhiv/ 2009/Tech_2_09/09bovoml.pdf.

3. Vasilevskyi O. M. Calibration method to assess the accuracy of measurement devices using the theory of uncertainty. International Journal of Metrology and Quality Engineering, 2014, 5.04: 403. — № 3 (7). — 2006. — P. 147—151.

4. Руководство по выражению неопределенностей измерения = Guide to the Expression of Uncertainly in Measurement : [на-

учн. редактор Слаев В. А.]. — Санкт-Петербург : НПО ВНИ-ИМ им. Д. М. Менделеева, 1999. — 134 с.

5. Васшевський О. М. Алгоритм оцшювання невизначеносп у вим1рюваннях при виконанш метролопчних робл / О. М. Васшевський // ¡нформацшш технологи та комп'ютер-на шженер1я. — № 3 (7). — 2006. — С. 147—151.

6. Применение «Руководства по выражению неопределенности измерений» : МИ 2552-99. — Офиц. изд. — Санкт-Петербург : ВНИИМ им. Д. И. Менделеева, 1999. — 27 с.

7. Колмогоров А. Н. Основные понятия теории вероятностей / А. Н. Колмогоров. — 2-е изд. — М. : Наука, 1974. — 120 c.

8. Бюжало О. В. Формал1защя понять мовного образу та образного сенсу природно-мовних конструкцш / О. В. Бюжало // Математичш машини i системи. — 2012. — № 2. — С. 70—73.

9. Бюжало О. В. Формальш методи образного анал1зу та синтезу природно-мовних конструкцш : монограф1я / О. В. Бюжало. — Вшниця : ВНТУ 2013. — 316 с.

10. Раскин Л. Г. Нечеткая математика. Основы теории. Приложения / Л. Г. Раскин, О. В. Серая. — Х. : Парус, 2008. — 352 с.

11. Загальш вимоги до компетентносп випробувальних та кал1б-рувальних лабораторш : ДСТУ ISO/IEC 17025-2001. — [Чин-ний вщ 2001 — 01 — 01]. — К. : Держстандарт Укра!ни, 2001. — 31 с. — (Нацюнальний стандарт Укра!ни).

12. Gurevych I. Darmstadt Knowledge Processing Repository Based on UIMA [Electronic resource] / I. Gurevych, M. Muhlhauser, Ch. Muller, J. Steimle, M. Weimer, T. Zesch. — February 9, 2007. — Available at: \www/URL: https://www.ukp.tu-darmstadt.de/ fileadmin/user_upload/Group_UKP/publikationen/2007/gldv-uima-ukp.pdf.

13.Бюжало О. В. Метод вилучення образних знань з англомовно-го тексту на основ1 шструментальних засоб1в пакету DKPro Core / О. В. Бюжало, I. Гуревич // Контроль i управлшня в складних системах: XII м1жнар. конф., 14—16 жовтня 2014 р.: тези доповщей. — Вшниця, 2014. — С. 51.

14. Stanford parser [Електронний ресурс] // Stanford Dependencies. — Назва з екрану. — Режим доступу: http://nlp.stanford.edu/ software/stanford-dependencies.shtml.

15. Free ebooks — Project Gutenberg [Електронний ресурс] / Project Gutenberg Literary Archive Foundation. — Режим доступу: https:/ /www.gutenberg.org/.

16. Бюжало О. В. Статистичний анал1з складних залежностей у тексп / О. В. Бюжало // Вюник Нац. ун-ту «Льв1вська полгтех-шка» : 1нформацшш системи та мережг — 2015. — № 814. — С. 228—236.

Стаття надшшла до редакци 19.11.2015.

Шсля доробки 25.12.2016.

Бисикало О. В.1, Василевский А. Н.2

1Д-р техн. наук, профессор, декан факультета компьютерных систем и автоматики Винницкого национального технического университета, Винница, Украина

2Канд. техн. наук, доцент, профессор кафедры метрологии и промышленной автоматики Винницкого национального технического университета, Винница, Украина

ОЦЕНКА НЕОПРЕДЕЛЕННОСТИ ИЗМЕРЕНИЯ СМЫСЛА ЕСТЕСТВЕННО-ЯЗЫКОВЫХ КОНСТРУКЦИЙ Решена задача оценки неопределенности измерения смысла естественно-языковых конструкций (ЕЯК) на основе формализации понятий лингвистического образа, искусственной когнитивной системы и единицы смысла. В основу модели базы знаний искусственной когнитивной системы заложена статистическая информация относительно ассоциативной сочетаемости лингвистических образов, что обеспечивает возможность унифицированной оценки единицы и количества смысла ЕЯК. Предложен метод измерения смысла ЕЯК на основе нечеткого отношения смысла, обеспечивающий использование информации про связи между леммами текста, что позволяет получить оценку двух типов неопределенности измерения формальных признаков смысла. Получены и интерпретированы формальные оценки неопределенности результатов измерения смысла ЕЯК, что позволяет учитывать информацию про связи между леммами для решения прикладных задач компьютерной лингвистики.

С помощью разработанного на основе пакета DKPro Core программного обеспечения проведены эксперименты с целью исследования предложенного метода в задаче определения информативных признаков текста. В результате проведенных экспериментов полу-

чены зависимости параметров обнаруженного Парето-подобного закона распределения связей между леммами, анализ которых позволяет считать показатель среднего количества связей лингвистического образа наиболее информативным численным признаком текста.

Ключевые слова: смысл, неопределенность, текст, естественно-языковая конструкция, искусственная когнитивная система, лингвистический образ, лемма.

Bisikalo O. V.1, Vasilevskyi O. M.2

1Dr.Sc., Professor, Dean of faculty for computer systems and automation, Vinnytsia National Technical University, Vinnytsia, Ukraine

2PhD, Associate professor, Professor of department of metrology and industrial automatics, Vinnytsia National Technical University, Vinnytsia, Ukraine

EVALUATION OF UNCERTAINTY MEASURING OF SENSE OF THE NATURAL LANGUAGE CONSTRUCTS

The task of evaluation of measurement uncertainty meaning of natural language constructs (NLC) based on formalization of the concepts of linguistic image, artificial cognitive systems and unit of sense is resolved. The basis of model the knowledge base of artificial cognitive system laid down statistical information regarding the associative compatibility of linguistic images, which enables unified evaluation the unit and the quantity of sense NLC. The method for measuring the sense of NLC based on fuzzy relation of meaning is offered. It provides to use information about the links between lemmas of text that allows you to estimate the measurement uncertainty of two types of sense signs. The results of the formal evaluation of the uncertainty of measurement sense of NLC are received and interpreted what enables into account information about the relationship between lemmas for solve tasks of computational linguistics.

With developed on the basis of the package DKPro Core Software conducted experiments to study the proposed method in the problem of the definition of informative features of the text. The experiments obtained dependence of the parameters detected Pareto-like distribution law relations between lemmas, whose analysis suggests that average number of connections of linguistic image is the most informative numerical feature for the text.

Keywords: sense, uncertainty, text, natural language construct, artificial cognitive system, linguistic image, lemma.

REFERENCES

1. Bisikalo O.V. Sub'ektivnaya edinitsa smyisla obraznyih konstruktsiy, Nauka: teoria i praktyka - 2009: materialy V miedzynar. naukowi-praktycznej konf., (Przemysl, 7-15 sierpnia 2009). Przemysl, Nauka i studia, 2009, Vol. 6, pp. 9-12

2. Bisikalo O. V. Infologichniy pidhid do modelyuvannya obraznogo mislennya lyudini [Elektronniy resurs], Visnik SumDU (Seriya "Tehnichni nauki"), 2009, No. 2, pp. 15-20. Rezhim dostupu: http://visnyk. sumdu.edu.ua/arhiv/2009/Tech_2_09/ 09bovoml.pdf.

3. Vasilevskyi O. M. Calibration method to assess the accuracy of measurement devices using the theory of uncertainty, International Journal of Metrology and Quality Engineering, 2014, 5.04: 403, No. 3 (7), 2006, pp. 147-151.

4. Rukovodstvo po vyirazheniyu neopredelennostey izmereniya = Guide to the Expression of Uncertainly in Measurement : [nauchn. redaktor Slaev V. A.]. Sankt-Peterburg, NPO VNIIM im. D. M. Mendeleeva, 1999, 134 p.

5. Vasilevskiy O. M. Algoritm otsinyuvannya neviznachenosti u vimiryuvannyah pri vikonanni metrologichnih robit, Informatsiyni tehnologiyi ta komp'yuterna inzheneriya, 2006, No. 3 (7), pp. 147-151.

6. Primenenie «Rukovodstva po vyirazheniyu neopredelennosti izmereniy», MI 2552-99. Ofits. izd. Sankt-Peterburg, VNIIM im. D. I. Mendeleeva, 1999, 27 p.

7. Kolmogorov A. N. Osnovnyie ponyatiya teorii veroyatnostey 2-e izd. Moscow, Nauka, 1974, 120 p.

8. Bisikalo O.V. Formalizatsiya ponyat movnogo obrazu ta obraznogo sensu prirodno-movnih konstruktsiy, Matematichni mashini i sistemi, 2012, No. 2, pp. 70-73.

9. Bisikalo O.V. Formalni metodi obraznogo analizu ta sintezu prirodno-movnih konstruktsiy : monografiya. Vinnitsya, VNTU,

2013, 316 p.

1 O.Raskin L. G., Seraya O. V. Nechetkaya matematika. Osnovyi teorii. Prilozheniya. Har'kov, Parus, 2008, 352 p.

11. Zagalni vimogi do kompetentnosti viprobuvalnih ta kalibruvalnih laboratoriy : DSTU ISO/IEC 17025-2001. [Chinniy vid 2001 -01 - 01]. Kiev, Derzhstandart UkraYini, 2001, 31 p. (Natsionalniy standart UkraYini).

12.Gurevych I., Muhlhauser M., Muller Ch., Steimle J., Weimer M., Zesch T. Darmstadt Knowledge Processing Repository Based on UIMA [Electronic resource]. February 9, 2007, Available at: \www/ URL: https://www.ukp.tu-darmstadt.de/fileadmin/user_upload/ Group_UKP/publikationen/2007/gldv-uima-ukp.pdf.

13.Bisikalo O. V., Gurevich I. Metod viluchennya obraznih znan z anglomovnogo tekstu na osnovi instrumentalnih zasobiv paketu DKPro Core, Kontrol i upravlinnya v skladnih sistemah: XII mizhnar. konf., 14-16 zhovtnya 2014 r.: tezi dopovidey. Vinnitsya,

2014, pp. 51.

14. Stanford parser [Elektronniy resurs]. Stanford Dependencies. Nazva z ekranu. Rezhim dostupu: http://nlp.stanford.edu/software/ stanford-dependencies.shtml.

15. Free ebooks - Project Gutenberg [Elektronniy resurs]. Project Gutenberg Literary Archive Foundation. Rezhim dostupu: https://www.gutenberg.org/.

16.Bisikalo O. V. Statistichniy analiz skladnih zalezhnostey u teksti, Visnik Nats. un-tu «Lvivska politehnika», Informatsiyni sistemi ta merezhi, 2015, No. 814, pp. 228-236.

i Надоели баннеры? Вы всегда можете отключить рекламу.