УДК 004.681
Б01: 10.15587/2313-8416.2018.135550
ЗАСТОСУВАННЯ ЛШГВ1СТИЧНО1 ТЕХНОЛОГИ ПРИ ОЦ1НЮВАННЯ ЗНАНЬ © Л. М. Бадьорша
В статтi запропоновано лтгвктичну технологiю, за допомогою яко! можливо здшснити когнтивне розпгзнання текстових об 'eктiв та врахувати !х мовнi особливостi в межах предметно! галузi. Обробка тексту спрямована на виявлення в текстi основних компонент знань, вiдношення мiж ними з урахуван-ням мовно! специфiки. Для професшно! пiдготовки, зокрема в галузях дiяльностi, пов'язаних з викорис-танням точно!, семантично достовiрноi термтологИ, де спотворення формулювань, стандартизованих визначень термiнiв або недостатне !х розумiння може призвести до вiдхилень у виконаннi професшно! дiяльностi, помилкам
Ключовi слова: iнформацiйнi технологи, природна мова, багатофункцюнальна модель, лiнгвiстична ба-гафункцiональна модель
1. Вступ
Одним з напрямшв реалiзацii Нацюнально! програми "Освиа. Укра!на XXI стор!ччя" е розробка та впровадження комплексних шформацшно -освгттх середовищ, яш поеднують навчальш, нау-ково-методичш шформацшш ресурси, використо-вуючи сучасш шформацшш технологи. Останшм часом у зв'язку з бурхливим розвитком систем ав-томатизованого навчання актуалiзувалася проблема побудови формальних моделей, що описують п чи iншi аспекти зазначеноi' галузг Серед них особливо вирiзняються моделi та засоби орiентованi на проведения автоматизованого ошнювання результатiв навчального процесу. Слiд вiдзначити, що якщо по-будова навчальних контентiв та цшсних систем у вiдзначенiй дмнщ розробленi достатньо повно, то, власне, автоматизация процесiв оцiнювания поки що перебувае на еташ розвитку. Це пов'язано, насам-перед, з пею обставиною, що результати навчального процесу представляються як вiдповiдi на екза-менацiйнi та iншi питання i через це мають природ-номовну форму. Отже, технологiя ошнювання в та-кий спосiб набувае характеру автоматичного (автоматизованого) порiвняння природно мовних текспв або !х фрагментiв. Очевидно, що така технология апрiорi мусить бути мовнозалежною i будуватися для кожиоi мови окремо. Тим часом, нам невiдомi навпъ загальносистемнi науковi працi, присвяченi цьому предмету, що й зумовило необхщшсть напи-сання дано! працi.
2. Загальна структура системи оц1нювання в1дпов1дей та засоби и моделювання
З огляду на природномовну специфiку предмета нашого дослiджения основною теоретичною конструкщею для побудови моделi предметно! галузi ми тут обираемо модель лексикографiчного середо-вища (або штегровано! лексикографiчноi системи), яку було розроблено [1].
При побудовi нашо! моделi необхiдно сконст-руювати формальнi кореляти мовних конструкцш, якi вiдображають змют предметно! галузi, причому моделювання мусить вщбуватися як з боку форми, так i з боку змюту. При цьому ми мусимо враховува
ти, що мовна система являе собою складну iерархiю рiзнорiвневих комплекав одиниць, об'ектiв та вiд-ношень.
Першим кроком на шляху побудови модел^ на нашу думку, мусить бути моделювання сукупносп лексичних одиниць, що ввдображають «словник» предметно! галузi, яка е об'ектом дослiджения, оскь льки саме лексична пiдсистема вiдiграе центральну роль у мовнiй системi взагалг Зазначений словник, як ми вважаемо, повинен мютити, насамперед, «клас термiв», який складаеться з граматично специфшо-вано! сукупностi лексем предметно! галузг Адекватною моделлю для цього е модель граматично! Л-системи (Г-системи), в структурi яко! видiляються так! структурнi елементи (рис. 1):
1. Клас елементарних шформацшних одиниць У={х}, що вiдповiдае класу вах сл!в укра!нсько! мови (у нашому випадку це е класом термiв предметно! галузi);
2. Клас початкових форм, що для змiнюваних частин мови ввдповщае вихвдним (словниковим формам);
3. Клас розклащв сл!в: л(х)=р(х)*{ю,(х)}, i вщ-повщно, множина незмiнних{p} та змшних \^]к={ю,(х)} частин для вах сл!в (квазюснов та ква-зiфлексiй, ввдповщно);
4. Сшнченна множина словозмшних (парадиг-матичних) класiв: и
5. Оператор парадигматизацп л, який ставить у вщповвдшсть кожному слову х його повну словоз-мшну парадигму [х\;
6. Оператор лематизацii X, який ставить у вщ-повщшсть будь-якому слову е \х] його вихвдну форму Хо.
Рис. 1. Схематична структура Г-системи
Визначимо на Г оператор: Я = лр° Ф , де лр - е обмеження л на р. Тодi для будь-якого |е[х] справедливо:
Щ=р ©. (1)
Оператор Я буде використано при побудовi системи аналiзу вщповщей. [2, 3].
3. Мета та завдання дослщження
Мета дослiдження - аналiз, створення, обгрун-тування та практична реалiзацiя лшгвютично! технологи, зокрема активацiя та використання здобутих знань.
Для досягнення мети були поставлен наступнi
задачi:
1. Дослвдити iнформацiйнi технологи штелек-туально! обробки знань.
2. Дослвдити когнiтивне розтзнавання тексто-вих об'ектiв з певно! предметно! галузi.
3. Формалiзувати граматичш структури при-родно! мови з метою коректно! обробки висловiв.
4. Представлення знань предметно'1 област1
Знания - орiентований пiдхiд до автоматизаци оцiнювання знань тих, хто навчаеться, за текстовими ввдповщями передбачае наявнють засобiв приведен-ня еталонних вщповвдей, представлених природною мовою, i вщповщей тих, хто навчаеться, до формаль зованого подання у виглядi моделi знань про предме-тну галузь. Кожна модель вiдповiдi тих, хто навчаеться порiвнюеться на ввдповщнють з еталонною мо-деллю. Предметна галузь мютить рiзноманiтнi лоп-ко-семантичш ввдношення мiж поняттями, по кожному з яких необхiдно встановлювати ступiнь ввдпо-вiдностi. Введемо наступш обмеження на ощнюван-ня вщповщносп вiдповiдей еталонному зразку:
- розглядаемо в якостi вiдповiдей лише визна-чення (тлумачення) термiнiв i понять з певно! навча-льно! дисциплши;
- на множинi ввдношень, яш заданi для термь нiв та понять з вщповщно! навчально! дисциплши, видшимо тiльки родо-видовi ввдношення та вщно-шення синонiмi! [4, 5].
Визначення поняття - в самому широкому ро-зумшш е логiчна операцiя, в процеа яко! розкрива-еться змют поняття. В основi правил еталонних ви-значень термiнiв i понять покладено 7 правил, що вивчаються формальною логiкою:
- поняття визначаеться через родовi i видовi ввдмшностц
- визначення повинно мати такий же вимiр, що i поняття, тобто обсяг значення поняття, що визначаеться, i поняття, за допомогою якого здшсню-еться визначення, мають вiдповiдати одне одному;
- видовою вщмшнютю мае бути ознака або група ознак, що притаманш лише даному поняттю, i ввдсутш в iнших поняттях, що ввдносяться до того ж родового поняття; визначення не повинно мютити кола, тобто поняття, що визначаеться, не повинно ви-значатися через поняття, яке стае зрозумшим лише через поняття, що визначаеться; визначення не по-
винно бути пльки заперечним, оскшьки заперечення вказуе на вщсутш ознаки i не дае суттевих ознак, що характеризують дане поняття;
- визначення не повинно бути суперечливим з точки зору формально! лопки;
- визначення повинно бути ясним, чггким i не мютити подвшного тлумачення.
Нехай 5 - множина всiх еталонних визначень понять i термiнiв з ввдповщно! навчально! дисципль ни, представлених у виглядi природно мовного тексту й укладених за вище визначеними правилами. Множина 5 е концевою й неупорядкованою:
5 = {?,. : 1 < г < п}, (2)
де ^ - визначення термша; п - цiле число.
Сукупшсть вiдповiдей тих, хто навчаеться, представлених також природною мовою, визначимо як множину Т . Дана множина е шдмножиною мно-жини 5 та мае всi !! властивостi:
Т с 5; Т = : 1 < г < т} , (3)
де т - цше число; т < п .
Кожна вiдповiдь з множини Т може мютити термши i поняття, яш пов'язанi родо - видовими вщ-ношеннями, або ввдношеннями синонiмi! з поняттями ввдповщно! еталонно! вщповщ множини 5". Взае-мозв'язок термшв i понять в заданiй предметнш га-лузi (навчальнiй дисциплiнi) представимо у виглядi тезаурусу. Тезаурус - словник, що вщбивае семанти-чш вiдношення мiж поняттями в певнш предметнiй галузi i призначений для пошуку заданого слова за його смисловими зв'язками в з шшими словами [6].
Структура тезаурусу, як правило, включае на-ступнi вiдношення:
поняття: = <р^д-вид> <частина-щле> <си-нонми> <антонти> < асощаци>.
Ввдношення рщ-вид дозволяе включити у по-шукове поле бiльш абстрактнi або конкретш поняття. Ввдношення частина-цiле включае у пошукове поле частини цiлого об'екту. Вiдношення синонiмi! й ан-тошми дозволяе здiйснювати пошук синонiмiв й ан-тонiмiв. Ввдношення асоцiацi! рiзноманiтнi та iндивi-дуальнi за своею природою i вказують на контекстну залежнiсть пошукового поняття.
Ввдповвдь того, хто навчаеться, визначаеться певною структурою понять i термшв. З урахуванням визначених обмежень кожне поняття в тлумачнш ча-стинi може описуватися через синошми [7, 8].
Елемент е, вiдносно якого утворюеться множина (тобто синонiмiчний ряд) Д, назвемо базовим
термом, iншi елементи множини Де (слова-синонiми) назвемо залежними термами. Необхщно встановити вiдповiднiсть мiж термами еталонного визначення i термами вiдповiдi, спираючись на поняття синонiмiчно! ввдповщносп термiв, яке пвдстав-ляеться з тезаурусу, можна обчислити показник ре-левантостi i еталонного визначення i вiдповiдi того, хто навчаеться. Таким чином, еталонне визначення
слщ розглядати як сукупнiсть базових термiв, а вщ-повщь як сукупшсть термiв для кожного з яких необидно знайти ввдповщний базовий терм е. [3].
Якщо А - множина термiв еталонного визначення, В - множина термiв вiдповiдi, то формалiзо-ване подання еталонного визначення i вiдповiдi буде мати наступний вигляд:
А= {el, е2, ..., еь l< и< де N - кiлькiсть те-рмiв еталонного визначення.
В= t2, ...,11, 1 < <и< <М}, де М — шльшсть термiв вiдповiдi.
В результата ми можемо отримати одне з на-ступних спiввiдношень мiж множинами А i В.
1. А = В - вщповвдь того, хто навчаеться, пов-нiстю збтаеться з еталонною вiдповiддю.
2. А с В - ввдповвдь, того, хто навчаеться, мю-тить ва терми з еталонно! вiдповiдi i додатковi терми.
3. В с А - ввдповвдь того, хто навчаеться, час-тково вiдповiдае еталоннш вiдповiдi, в нiй вiдсутнi деяш базовi терми.
4. А В= 0 - вщповщь того, хто навчаеться повтстю не вщповвдае еталоннiй вiдповiдi.
5. А В ^0 - еталонна ввдповщь i поточна вщповщь спiльнi терми. [2]
Продемонструемо вище викладене на наступ-ному прикладi. Нехай ми маемо еталонне визначення: «Програма - опис алгоритму розв'язання задач^ заданий на мовi обчислювальног машини.» [9].
В еталонному визначеннi жирним курсивом видiленi ключовi базовi терми, яш е вiдповiдають умовам необхщносп i достатностi правильно! вщпо-вщ для тих, хто навчаеться. Iншi поняття е додатко-вими. Вони також можуть мати синонiмiчнi ряди, але не враховуються щд час шльшсного оцiнювання ввд-повiдi того, хто навчаеться. Тобто, для правильно! ввдповщ визначаеться два необхвдних i достатнiх поняття, якi за правилами побудови тлумачно! час-тини термшу «програма» формують його унiкальнi ввдмшш ознаки. Для цих базових термiв з тезаурусу можна побудувати наступний синонiмiчний ряд:
Алгоритм := {сукупшсть правил; послщов-нiсть операцiй; сукупшсть дш};
Мова обчислювально! машини:= {мова про-грамування; штучна мова; машинна мова; формальна мова, мова ЕОМ}.
Позначимо через А1 множину, що визначае синонiмiчний ряд для поняття «алгоритм», i через А2 - синонiмiчний ряд для поняття « мова обчислюва-льно! машини.
Тодi формалiзоване подання еталонно! вщпо-вiдi буде мати наступний вигляд:
Програма := опис{представлен} А1 с {алгоритм; сукупн+правил; послiдовн+операцiй; су-купн+дiй} розв'язання{виршення; обчислення} задач л
задан{представлен;опис} на А2 с {мов+об-числювальн+машин; мов+програмування; ма-шинн+мов; формальн+мов; мов+ЕОМ}.
В даному прикладi поняття, через яш вщбува-еться тлумачення, представлеш у виглядi пошукових образiв, через знак «+» поеднуються слова, яш скла-
дають термiн для задано! навчально! дисциплiни, ло-гiчна операция л вказуе на обов'язкову присутшсть двох базових термiв. Iншi вщношення в силу введе-них рашше обмежень пропущенi. Дане представлен-ня е основою для порiвняння з поточними вщповщя-ми тих, хто навчаеться.
Пiсля необхiдних перетворень формалiзоване подання вiдповiдi того, хто навчаеться буде мати наступний вигляд:
Програма :=А1 {послвдовн+операций} над дан необхiдн обробк/обробок iнформацi реалiзацi А1{ алгоритм}.
З наведеного прикладу видно, що поняття тлумачно! частини термшу «програма» збиаються тшьки з множиною А1 еталонного зразку. Причому у вiдповiдi знайдено 2 е^валенти, оскiльки з формули (1) випкае, що вона приймае значення 1, якщо знайдено хоча б один ввдповщник, тому згортання вах знайдених вцщовцщиюв з одше! множини дае значення 1, тобто/(а1,А)=1,/(ап,А)=0.
Кiлькiсна оцiнка обчислюеться за формулою (4).
К = 1 = 0.5 2
Таким чином, якщо привести штервал [0,1] до десятибально! шкали оцiнювання, то дана вщповщь буде мати оцiнку 5.
5. Релевантшсть терм1н1в та 1х деф1н1ц1й
Синонiмiя окремих термiв, як! в лшгвютично-му сенсi е елементами лексично! системи, на складов! тезаурусу предметно! галузi 2И. У цьому завдан-ш е два аспекти - формальний i змютовий [1].
З формально! точки зору завдання полягае у встановленш семантично! близькосп, аналогiчно! до властивосп синошмп, але не на множиш окремих термiв, а на множиш ланцюжшв вигляду х1А1 х2А2 ... Ац-1хц, q=1, 2, ... ., де х довшьне слово, знак пробш - знак пунктуацп, за умови, що елементи х,, х2,... , хц, потрапляють до обласп визначення функ-ци К(ху). Змютовий аспект передбачае встановлен-ня вiдношення семантично! близькосп, аналогiчно! до властивостi синошмп, на множиш дефшщш тер-мшв:
С\Ъ)={С\Т) | угеЕ(,)}= {0(2); С^); ...;
|УгеЕ( г).}. (5)
Оск!льки поняття синошмп в лшгвютищ ви-значаеться лише для лексично! системи, то для вста-новлення змютово! (семантично!) близькосп елемен-пв з Се(г) введемо назву вiдношення релевантностi, яке позначатимемо символом КБЬ.
З щею метою визначимо шльшсну м!ру реле-вантносп двох ланцюжкiв А =2М та В=2К (довжиною М та Ы, вщповщно), яку позначатимемо як:
КЕЬ(А,В). (6)
Таким чином, визначаеться ввдображення ИЕЬ: CE(Z) х Д, де Д - певна пвдмножина
множини невiд'емних чисел. При цьому вважатиме-мо, що ланцюжок В е релевантним лаицюжковi А, тобто А ИЕЬ В , тодi i тiльки тодi, коли значения фу-нкцii ЯЕЬ(А,В) не менше якогось певного 5еД: ИЕЬ(А,В)> 5, вибiр якого залежить ввд специфiки предметноi галузi [10] та конкретних завдань досль дження та ощнювання .
Зазначена формула насправд враховуе певнi ефекти семантичноi близькосп мовно-iнформацiйних об'ектiв так що и можна застосовувати як iнструмент до аналiзу ситуацiй, що виникають при порiвняннi еталонних (поданих у нормативних джерелах, зокре-ма пiдручниках) формулювань понять та дефшщш предметноi галузi з фактичними 1'х формулюваннями, що е об'ектами оцiнювания, якщо i першi i другi представленi ланцюжками вигляду А i В.
У сукупносп отримаиi результати формують основу для створення iнтелектуальних шформацш-них технологш , знаиия-орiентоваиих систем, яш пе-редбачають якiсну пiдготовку та отримання знань.
Результати дослiджения дозволили застосува-ти лiнгвiстичну технологiю для представлення знань
на основi термiнiв предметноi галузi, що дало мож-ливють оцiнювати релевантнiсть текстiв, поданих у виглядi природного тексту з дов№но1' кiлькостi слiв.
6. Висновки
Лшгвютична технологiя на основi методу об-робки знань, якi мiстяться в навчальних текстах дозволить перевести на новий рiвень програмне i прик-ладне забезпечення. Отримано узагальнеш результати проведеного дослiджения, а саме:
1. Дослвджено iнформацiйнi технологи штелек-туально1' обробки знань. На лшгвютичному етапi роз-пiзнаваиия тексту враховано морфологiчний, синтак-сичний i семантичний аиалiз розпiзнаваиия, вилучен-ня знань про предметну галузь, яш мiстяться у текстi.
2. Дослвджено когнiтивне розпiзнавания текс-тових об'екпв з певно1' предметноi галузi, зокрема розтзнавання багатозначних текстових одиниць, що дозволило виршити задачу вибору на множит понять. Основою методу вибору на заданш множит понять е алгоритм ствставлення каношчного (тобто представленого в базi знань системи) значення по-няття з його контекстним значенням.
3. На прикладах показано формалiзацiю грама-тичних структур природно1' мови з метою коректно1' обробки висловiв.
Лiтература
1. Широков В. А. 1нформацшна теорш та системотехшчш засади комп'ютерноï лексикографiï: автореф. дис. ... д-ра техн. наук. Ктв, 1999. 32 с.
2. Badyorina L. M. Synonymy of therms and terms and its presentation in the informative system // Problemy systemnoho pidkhodu v ekonomitsi. Kyiv: NAU, 2012. P. 206-212.
3. Badyorina L. M. Method of grammatical structure formalization of natural language // Visnyk NAU. 2013. Issue 1. P. 44-47.
4. Пещак М. М. Стан i перспективи комп'ютерни лексикографи в Украш // Мовознавство. 1996. № 4-5. C. 8-11.
5. Пиотровский Р. Г. Лингвистический автомат и его речемыслительное обоснование. Минск, 1999. 195 с.
6. Бадьорша Л. М., Замаруева I. В. Метод кшьюсного ощнювання вдаовщей в системах тестування знань // Системний аналiз та iнформацiйнi технологiï. 2011. № 2. С. 41-46.
7. Пиотровский Р. Г. Моделирование фонологических систем и методы их сравнения. Москва-Ленинград, 1966. 300 с.
8. Забезпечення проце^ дiяльностi з визначеним рiвнем надшноста в 1ТС спещального призначення / Теленик С. Ф. та in // Збiрник наукових праць BITI НТУУ „КИТ. 2007. № 3 С. 134-138.
9. Шенк Р. Обработка концептуальной информации. Москва, 1980. 360 с.
10. Павлов О. А., Халус О. А. Модифшжаний алгоритм розв'язання задачi мiнiмiзацiï сумарного запiзнення вико-нання завдань: мiжнар. наук.-пр. 1нтерн.-конф. // Перспективы шноваци в науцi, освт, виробництвi та транспортi. 2007.
Дата надходження рукопису 10.05.2018
Бадьорша Любов МиколаТвна, доктор технiчних наук, старший викладач, кафедра комп'ютерних наук,
Кшвський нацiональний унiверситет культури i мистецтв, вул. Свгена Коновальця, 36, м. Кшв, Украша,
01601
E-mail: vada@ukr.net