Научная статья на тему 'Застосування методу синтаксичного аналізу речень для визначення ключових слів україномовного тексту'

Застосування методу синтаксичного аналізу речень для визначення ключових слів україномовного тексту Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
798
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
текст / україномовний / алгоритм / контент-моніторінг / ключові слова / лінгвістичний аналіз / синтаксичний аналіз / породжувальні граматики / структурна схема речення / інформаційна лінгвістична система / text / a Ukrainian / algorithm / content monitoring / keywords / linguistic analysis / parsing / generative grammar / structured scheme sentences / information linguistic system / текст / украиноязычный / алгоритм / контент-мониторинг / ключевые слова / лингвистический анализ / синтакси- ческий анализ / порождающих грамматики / структурная схема предложения / информационная лингвистическая система

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Бісікало О. В., Висоцька В. А.

У статті подано застосування породжувальних граматик у лінгвістичному моделюванні. Опис моделювання синтаксису речення застосовують для автоматизації процесів аналізу та синтезу природномовних текстів. У статті показано особливості процесу синтезу речень різних мов із застосуванням породжувальних граматик. В роботі розглянуто вплив норм та правил мови на хід побудови граматик. Застосування породжувальних граматик має широкі можливості у розробленні та створенні автоматизованих систем опрацювання текстового контенту, для лінгвістичного забезпечення комп’ютерних лінгвістичних систем тощо. В природних мовах є ситуації, коли явища, залежні від контексту, описані як незалежні від контексту, тобто в термінах контекстно-вільних граматик. При цьому опис ускладнений через утворення нових категорій і правил. В статті подано особливості процесу введення нових обмежень на класи даних граматик через введення нових правил. При кількості символів в правій частині правил не меншій за ліву отримали нескорочені граматики. Потім при заміні лише одного символу отримали контекстно-залежні граматики. При наявності в лівій частині правила лише одного символу отримали контекстно-вільні граматики. Жодних наступних природних обмежень на ліві частини правил накласти вже не можна. Виходячи із важливості забезпечення автоматичного опрацювання текстового контенту в сучасних інформаційних засобах (наприклад, інформаційно-пошукових системах, системах машинного перекладу, семантичного, статистичного, оптичного та акустичного аналізу і синтезу мови, автоматизованого редагування, екстракції знань з текстового контенту, реферування та анотування текстового контенту, індексування текстового контенту, навчально-дидактичних, менеджменту лінгвістичних корпусів, інструментальні засоби укладання словників різних типів тощо), фахівці інтенсивно шукають нові моделі, способи їх опису та методи автоматичного опрацювання текстового контенту. Одним із таких способів є розроблення загальних принципів побудови лексикографічних систем синтаксичного типу та побудови за цими принципами зазначених систем опрацювання текстового контенту для конкретних мов. Будь-які засоби синтаксичного аналізу складаються з двох частин: бази знань про конкретну природну мову і алгоритму синтаксичного аналізу, тобто набору стандартних операторів опрацювання текстового контенту на основі цих знань. Джерелом граматичних знань є дані з морфологічного аналізу та різні заповнені таблиці понять та лінгвістичних одиниць. Вони є результатом емпіричного опрацювання текстового контенту на природній мові експертами з метою виділення основних закономірностей для синтаксичного аналізу.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

SENTENCE SYNTACTIC ANALYSIS APPLICATION TO KEYWORDS IDENTIFICATION UKRAINIAN TEXTS

This paper presents the generative grammar application in linguistic modelling. Description of syntax sentence modelling is applied to automate the processes of analysis and synthesis of texts in natural language. The article shows the features of the sentences synthesis indifferent languages of using generative grammars. The paper considers norms and rules influence in the language on the grammars constructing course. The use of generative grammars has great potential in the development and creation of automated systems for textual content processing, for linguistic providing linguistic computer systems, etc. The methods and tools development for automatic processing of text of commercial content in modern information technology are important and topical (for example, systems of information retrieval, machine translation, semantic, statistical, optical and acoustic analysis and synthesis of speech, automated editing, knowledge extracting from the text content, text content abstracting and annotation, textual content indexing, training and didactic, linguistic buildings management, instrumental means of dictionaries conclusion of various types, etc.). Specialists actively seeking new models of description and methods for automatic processing of text content. One of these methods is the development of general principles of lexicographic systems of syntactic type. It is important by these principles these systems construction of text content processing for specific languages. Any tools of syntactic analysis consists of two parts: a knowledge base about a particular natural language and algorithm of syntactic analysis (a set of standard operators of text content processing on this knowledge). The source of grammatical knowledge is data from morphological analysis and various filled tables of concepts and linguistic units. They are the result of the empirical processing of textual content in natural language of experts in order to highlight the basic laws for syntactic analysis.

Текст научной работы на тему «Застосування методу синтаксичного аналізу речень для визначення ключових слів україномовного тексту»

ПРОГРЕСИВН1 1НФОРМАЦ1ИН1 ТЕХНОЛОГIÏ

ПРОГРЕССИВНЫЕ ИНФОРМАЦИОННЫЕ

ТЕХНОЛОГИИ

PROGRESSIVE INFORMATION TECHNOLOGIES

УДК 004.9

Бiсiкало О. В.1, Висоцька В. А.2

1Д-р техн. наук, професор, декан факультету комп'ютерних систем i автоматики Внницького национального технчного

унверситету, Вiнниця, УкраТна

2Канд. техн. наук, доцент кафедри «1нформаЦйн системи та мереж» Национального унверситету «Льввська

полтехнка», Львiв, УкраТна

ЗАСТОСУВАННЯ МЕТОДУ СИНТАКСИЧНОГО АНАЛ1ЗУ РЕЧЕНЬ ДЛЯ ВИЗНАЧЕННЯ КЛЮЧОВИХ СЛ1В УКРА1НОМОВНОГО ТЕКСТУ

У ста™ подано застосування породжувальних граматик у лшгвютичному моделюваннi. Опис моделювання синтаксису речення застосовують для автоматизаци процесiв аналiзу та синтезу природномовних текстiв. У статт показано особливостi процесу синтезу речень рiзних мов iз застосуванням породжувальних граматик. В робот розглянуто вплив норм та правил мови на хщ побудови граматик. Застосування породжувальних граматик мае широга можливост у розробленш та створеннi автоматизованих систем опрацювання текстового контенту, для лшгвютичного забезпечення комп'ютерних лiнгвiстичних систем тощо. В природних мовах е ситуаци, коли явища, залежнi вiд контексту, описанi як незалежнi вщ контексту, тобто в термiнах контекстно-вшьних граматик. При цьому опис ускладнений через утворення нових категорш i правил. В статтi подано особливост процесу введення нових обмежень на класи даних граматик через введення нових правил. При юлькосп символiв в правш частинi правил не меншш за лiву отримали нескорочеш граматики. Потiм при замiнi лише одного символу отримали контекстно-залежш граматики. При наявност в лiвiй частит правила лише одного символу отримали контекстно-вшьш граматики. Жодних наступних природних обмежень на лiвi частини правил накласти вже не можна. Виходячи iз важливост забезпечення автоматичного опрацювання текстового контенту в сучасних шформацшних засобах (наприклад, шформацшно-пошукових системах, системах машинного перекладу, семантичного, статистичного, оптичного та акустичного аналiзу i синтезу мови, автоматизованого редагування, екстракци знань з текстового контенту, реферування та анотування текстового контенту, шдексування текстового контенту, навчально-дидактичних, менеджменту лшгвютичних корпуав, шструментальш засоби укладання словникiв рiзних типiв тощо), фахiвцi iнтенсивно шукають новi моделi, способи 1х опису та методи автоматичного опрацювання текстового контенту. Одним iз таких способiв е розроблення загальних принцитв побудови лексикографiчних систем синтаксичного типу та побудови за цими принципами зазначених систем опрацювання текстового контенту для конкретних мов. Будь-як засоби синтаксичного аналiзу складаються з двох частин: бази знань про конкретну природну мову i алгоритму синтаксичного аналiзу, тобто набору стандартних операторiв опрацювання текстового контенту на основi цих знань. Джерелом граматичних знань е даш з морфолопчного аналiзу та рiзнi заповненi таблицi понять та лшгвютичних одиниць. Вони е результатом емтричного опрацювання текстового контенту на природнш мовi експертами з метою видшення основних закономiрностей для синтаксичного аналiзу.

Ключовi слова: текст, украшомовний, алгоритм, контент-монiторiнг, ключовi слова, лшгвютичний аналiз, синтаксичний аналiз, породжувальнi граматики, структурна схема речення, шформацшна лшгвютична система.

НОМЕНКЛАТУРА

т = {tl,¿2 пт } - час е Т транзакцп формуван-

АОПМК - автоматичного опрацювання природно- -

мовного контенту; ня комерщйн°го контенту при р = 1, пт ;

1Т - шформацшш технологИ; ик = {ПК1, Пк2, Пк3,ПК4} - множина критерпв

1С - ¿нформац1йна система; визначення ключових сл1в в контента;

N - 1менна група; - вщфшьтрований комерцшний контент;

~ - д!есл!вна група; п ■ л, « ■ „ „

л ' С 2 - вlдформатований комерцшний контент;

С = {с, С2 •.., сп } - множина комерцшного контен- ^

1 1' 2 пс' ^ С3 - комерцlйний контент з визначеною множиною

ту сг е С при г = 1, пс ; ключових сл1в;

© Ыскало О. В., Висоцька В. А., 2016 Б01 10.15588/1607-3274-2016-3-7

ao :(XUc , T) — Co - оператор створення комерц-шного контенту;

a1 :(XUg ,T) — Co - оператор збирання комерцш-ного контенту;

a2 : (C,T,UB) —C - оператор виявлення дублю-вання комерцшного контенту;

a3 : (C1,Ufr , T)—> C2 - оператор форматування комерцшного контенту;

a4 : (C2, Uk , T) — C3 - оператор виявлення ключо-вих сл1в комерцшного контенту - вщображення комерцшного контенту в новий стан, який вщр1зняеться вщ по-переднього стану наявшстю множини ключових сл1в, що загально описують його змгст;

Noun e Uk1 - терми - 1менник1в, словосполучень 1менник1в або прикметника з 1менником серед множини сл1в текстового контенту;

Unicity - ушкальноста для терм1в; NumbSymb eUк3 - кшьюстъ знаюв без пробЫв для Noun e Uk1 при Unicity > 80 ;

UseFrequency eU к 2 - частота появи ключових слш комерцшного контенту. Для термш з NumbSymb < 2000 частота UseFrequency е в межах (6;8] %, з NumbSymb > 3000 -[2;4) %, з 2000 > NumbSymb < 3000 - [4;6] %;

BUseFrequency - частота появи ключових сл1в на початку тексту;

IUseFrequency - частота появи ключових сл1в в середин тексту;

EUseFrequency - частота появи ключових сл1в в юнщ тексту комерцшного контенту; KeyWords e UK4 - ключов1 слова. ВСТУП

Побудова систем АОПМК та формал1зац1я вщповщ-них процемв лшгвютичного анал1зу/синтезу вважаеться основною проблемою штелектуал1зацп 1Т [1-2]. Стршкий та бурхливий розвиток 1нтернет та 1Т р1зко при-скорив створення р1зномаштних шформацшних лшгвютичних ресуршв i актив1зував сучасш дослщжен-ня, спрямоваш на розроблення та впровадження шфор-мацiйних лiнгвiстичних систем, математичних метседв та програмного забезпечення АОПМК. Для автоматизацп етапiв аналiзу/синтезу природно-мовних текстав створю-ють рiзнi моделi процемв АОПМК, обгрунтовують ефек-тивнi алгоритми та структури подання природно-мов-них масивiв даних. Традицiйно лiнгвiстичний аналiз ма-сивiв природно-мовних текстiв подають як послщовшсть процесiв морфологiчного, синтаксичного та семантич-ного аналiзу/синтезу. Для кожного процесу створеш вiдповiднi модел^ методи та алгоритми: орiентованi на конкретш групи мов (морфолексичний аналiз); системнi граматики Холiдея, граматики Хомскi (N. Chomsky) [315], дерева тдпорядкування та системи складових Глад -кого [2], розширенш мережi переходiв (синтаксис речен-ня); класичш семантичнi мережi та фреймовi моделi

Мiнського (семантика тексту). Необхщшсть в автоматизацп процесiв АОПМК сприяла появi вiдповiдних фор-мальних та математичних лiнгвiстичних моделей i методiв 1х аналiзу/синтезу. Активним е розвиток мовознавчих дисциплш для потреб галузi комп 'ютерних наук та IT. 1нтеграцшш процеси в цш галузi наук сприяють активному залученню науковцiв в сферi досл^жень АОПМК для розроблення та створення автоматизованих 1С опра-цювання багатомовно! текстово1 шформацп.

Найбiльш складнi проблеми АОПМК зумовлеш яви-щами жшсеми, омотмп, оношмп тощо, якi характеризуюсь неоднозначнiсть мови i ускладнюють процес виявлення коректного вщображення семантично-синтак-сично! структури тексту в формальне подання через лопчну штерпретащю. Це вирiшують в межах семантич-ного аналiзу. Але застосування ресурсооб'емних про-дукцiйних правил логiчно-семантичного аналiзу усклад-нюе та уповiльнюе програми АОПМК. Пiд час розумш-ня тексту не часто застосовують лопку, в основному ж здiйснюеться асощативний пошук семантичного концепту, що вщждадае шуканому слову та е контексто-набли-женим до власного оточення. Тому асоцiативний пошук е перспективним методом штерпретацп природно-мов-них масивiв даних.

1 ПОСТАНОВКА ЗАДАЧ1

Для реалiзацil синтаксичного аналiзу текстового контенту з метою знаходження ключових ^в та зменшення етапiв опрацювання тексту необхiдно:

I) Вiдокремити в аналiзованому термiнальному лан-цюжку (реченш укра!нською мовою) дiеслiвну групу вщ iменноl групи (ключовим словами можуть бути лише слова з iменноl групи) - це вщбуваеться за результатами стемшгу - аналiз заюнчень та робота лише з тими словами, флексп яких вщповщають прикметникам та iменни-кам (в украшськш мовi дiеслiвну групу не входять прик-метник та iменник);

II) В iменнiй групi тсля знаходження першо! множини ключових ^в (слiв, якi вживанi в текст iз певною частотою, в межах, задано! модератором, але щ слова можуть бути лише прикметник в називному вiдмiнку чоло-вiчого роду, iменник в називному в^мшку або абревiатура) знаходять та аналiзують сусiднi слова знай-дених ключовикiв. При цьому шукаемо ключовi словос-получення, тобто визначаемо терми Noun eU к1 як сло-восполучення iменникiв або прикметника з iменником серед множини слiв текстового контенту, зокрема:

1. Якщо ключовим словом е прикметник (флекшя слова ий - називний вiдмiнок чоловiчого роду). Tодi по тексту знаходяться всi слова, що вживанi справа вщ цьо-го прикметника в будь якому вiдмiнку (пошук ще за основою цього прикметника) та будуеться для них частот-ний словник. Ti словосполучення, що вживанш бiльше за певний лiмiт (але можуть бути вживанi менше за са-мий прикметник) i е новими ключовими словами. Лiмiт визначае модератор.

2. Якщо ключовим словом е 1менник (флексiя слова не ий), тсд аналiзуються всi слова справа та злiв вiд нього.

а. Спочатку перевiряються всi слова злiва вiд нього на наявнiсть флексш ий. Будуеться також частотний слов-

ник. Визначаеться множина сл1в, якi зустрiчаються най-частше за певний визначений модератором лiмiт - це i е нов1 ключовi сова.

Ь. Потiм аналiзуються всi слова справа - вони вм ма-ють бути без флексп ий. Аналогiчно будуеться частот-ний словник, за яким визначаеться множина ключових слiв.

2 ОГЛЯД Л1ТЕРАТУРИ

Процес виведення термiнального ланцюжка укра!нсь-кою [1-2], в якш властивий вiльний порядок слiв у ре-ченнi, що, проте, не заперечуе iснування сталого порядку розмщення окремих мовних елементiв [3-4]. Для простого повного речення з прямим порядком слiв структурну схему вважатимемо фiксованою, основни-ми синтаксичними категорiями такого речення будуть iменна та дiеслiвна групи [5-7]. Необмежена граматика, побудована на тих же засадах, що i у попередшх прикладах, не матиме застосування через свою складнiсть [810]. Для утворення контекстно-залежно! граматики вве-демо певнi обмеження, перш за все, на структуру речення [11]. Спираючись на правила побудови речень украшсько! мови з прямим порядком сл1в (наприклад, прикметник сто!ть у препозицп до iменника, елементи 1менниково! групи групуються навколо iменника тощо)

[11-13], розглянемо iменну групу N тако! структурно! схеми N = {АЫ} або N = Np. Прикметник та iменник в iменнiй групi узгоджуються мiж собою за вiдмiнком, числом та родом [14-15]. Ц граматичнi категорп е також граматичними категорiями займенника. Розглядатиме-

мо дieслiвну групу Я тако! структурно! схеми: Я = ЯЫ

або Я = ЫЯ. З огляду на граматичш характеристики дiеслова в украшськш мов1, узгодження мiж iменною та дiеслiвною групою вiдбуваеться за числом, родом та особою (табл. 1-2).

Розглядатимемо речення з iменною групою в третш особi i дiеслiвною групою в тепершньому часi. Скоро-

ченим позначеннями 1менно! групи е N рдчлвдос а !! скла-

Таблиця 1 - Позначення граматичних категорш 1менно! групи в украшськш мов1

Тип Опис

1менна група/ N прикмегник/A, iменник/N, займенник/N'а¡ш;

Число/чл однина/оД, множина/ян;

Рщ/РД чоловiчий/ч, жшочий/ж, середнiй/с;

Вщмшок/ВД називний/н, родовий/р, давальний/Д, знахщний/з, орудний/о, мiсцевий/я, кличний/к;

Особа/ОС 1-ша/1, 2-га/2, 3-тя/3

Таблиця 2 - Позначення граматичних категорш д1есл1вно! групи в украшськш мов1

Тип Опис

Дiеслiвна група/ Я дiеслово/Я, в межах iменноl групи прикметник/А, iменник/N;

Число/чл однина/оД, множина/ян;

Рiд/РД чоловiчий/ч, жшочий/ж, середнiй/с;

Особа/ОС 1-ша/1, 2-га/2, 3-тя/3;

Час/чС геперiшнiй/mn, минулий/ян, майбугнiй/яб

дових - Ад члввд NPЛ члввдоос ^рДЧл,ВД,ОС. За потреби наго лосити на використаннi рiзних значень граматичних ка-тегорiй використаемо таю позначки: двi iменнi групи з рiзними значеннями категорп, наприклад, роду, позна-

чатимемо так: Л~РД, чл в вдо оc, N РД-.ЧЛЖ ОС. Скороченим по-

значеннями д1есл1вно! групи е Я р чл ЧСОС, дiеслова -ЯрДч чл чаОС. Реалiзацiя норм та правил укра!нсько! мови впливае на подання перетворень. Наприклад, вщомо, що найбiльш часто iменна група виражаеться iменником або займенником у називному вiдмiнку, а форми дiеслова у теперiшньому часi для вмх родiв однини спiвпадають (вт/ вона/воно летить), i врахування таких законом1рностей вiдповiдно вiдображаеться у позначеннях 1менно! та

д1есл1вно! груп - Npд,ч,н,ОС i Я чл,т„,ос . Спосiб подан-ня контекстно-залежно! граматики, що виводить речен-ня введено! структурно! схеми (з урахуванням певних закономiрностей украшсько! мови) приведемо на при-кладi речення У сво'ш найбшьш важливш роботi вт показуе барвистий свт укратського села в його не-повторнiй привабливостi. Розглянемо граматику 0=(У, Т, 5, Р). Алфавгг (позначення синтаксичних категорш подамо без шдекмв - для зручноста) К=(£, N, Я , А, N, Я, Е, Nзаi¡я, # , у, свш, найбшьш, важливий, робота, вт, показувати, барвистий, свт, укратський, село, в, неповторний, привабливкть), Т=(#, у, свш, найбшьш, важливий, робота, вт, показувати, барвистий, свт, укратський, село, в, неповторний, привабливкть), # -символ межi речення, 5 - початковий символ. Кожен крок виведення полягае в розгортанш одного з символiв попереднього ланцюжка (так, при переходi вщ ланцюжка 2 до ланцюжка 3 символ Я оД тп 3 розгортаеться в три символи - Я а а , а ,) або в замш його шшим (на-

од, тп, 3 ч, оо ,з, 1 с, оо , о, 3 4

приклад, при переходi в1д ланцюжка 10 до ланцюжка

11 ~ лтзайя ч

11 символ Nч оД з 1 замiнюеться на Nч оД з 1), iншi ж символи переписуються без змши. Промiжний ланцюжок метить рiвно один допомiжний символ на останньому мiсцi, тобто речення породжуеться злiва направо. Регулярна граматика шби передбачае, що може сл1дувати за вже виданою словоформою, причому глибина передба-чення - один сусщнш символ; кожен черговий вибiр по-внiстю обумовлюеться лише одним попередшм вибо-ром [12]. 1з виведення речення в регулярнiй граматищ неможливо отримати природне подання структури без-посереднiх складових цього речення пор1вняно в контек-стно-залежнiй та контекстно-вшьнш граматиках. Регу-лярнi граматики дають деяку структуру складових, як i взагалi всi граматики безпосереднiх складових, однак, щ складовi зазвичай носять формальний характер [14].

3 МАГЕРЬАЛИ I МЕТОДИ

Виявлення ключових сл1в тематики контенту з фрагменту тексту забезпечимо за допомогою процешв, по-даних на рис. 2.

Текст реалiзуе структурно подану дiяльнiсть, що передбачае суб'ект i об'ект, процес, мету, засоби i результат, якi вщображаються в змiстовно-структурних, функ-цiональних, комушкативних показниках. Одиницями внут-

р1шньо! оргашзацп структури тексту е алфавгг, лексика (парадигматика), граматика (синтагматика), парадигми, парадигматичт вщношення, синтагматичт вщношення, правила щентифшацц, висловлювання, м1ж фразова едтсть та фрагменти-блоки. На композищйному р1вш видшяють речення, абзаци, параграфи, роздали, глави, тдглави, сто-ршки тощо (речення, поб1чно пов'язаш з внутршньою структурою, не розглядаються - рис. 3). За допомогою бази даних (бази термшв/морфем [ службових частин мови) та визначених правил анал1зу тексту виконують пошук термь ну (рис. 4а) на шформащйному ресурс (рис. 4б).

Розглянемо синтаксичш анал1затори, що працюють у два етапи: щентиф1кують зм1стовш лексеми та створю-ють дерево розбору (алг 1).

Алгоритм 1. Синтаксичний анал1затор текстового контенту.

Етап 1. 1дентиф1кащя змютовних лексем UK1 eUк для комерцшного контенту С2.

Крок 1. Визначення ланцюжка тершв у вигляд речення.

Крок 2. 1дентиф1кащя 1менно1 групи за допомогою словника основ.

Крок 3. 1дентиф1кащя д1есл1вно1 групи за допомогою словника основ.

Етап 2. Створення дерева розбору зл1ва направо. Ви-ведення дерева полягае в розгортанш одного з символ1в попереднього ланцюжка посл1довност1 лшгв1стичних змшних, або в замш його шшим, шш1 ж символи пере-писуються без змши. При розгортанш, зам1нюваш/пе-реписуваш символи (предки) з'еднують безпосередньо з символами, яю виходять в результата розгортання, замши або переписування (нащадками), та отримують дерево складових, або синтаксичну структуру для зм1сту комерцшного контенту.

Крок 1. Розгортання 1менно1 групи. Розгортання д1есл1вно1 групи.

Крок 2. Реал1защя синтаксичних категорш словоформами.

Етап 3. Визначення множини ключових сл1в а4 : (С2,ПК,TС3 для контенту С2.

Крок 1. Визначення терм1в Noun е Uкl - шеннишв, словосполучень 1менниюв або прикметника з 1менни-ком серед множини сл1в текстового контенту.

Користувач

Пiдсисmема виявлення ключових слiв

¿(^Лдм1н1стрування

Администратор

О

Модератор

Рисунок 2 - Д1аграма вар1аш!в використання для виявлення ключових сл1в тематики контенту

Автор/ Користувач

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Контент-анал1з

Анал1з фрагменту

База сл. част. мови

Анал1з терм1ну

База терм1в I морфем

Систез тер мшу

Систез тексту

Модифн кац1я

Модератор

контенту

Вивд множини ключових слв

Результат

аналзу

Зм1на

правил

3

^ "Результат пошуку

Пошук

Результат пошуку

Результат' _анал[зу_ _

Результат

/__анал1зу_|.______

^зультат I зм,на бази

анап|зу П. знань терму

Пошук терм1ну ^ Результат £__пошуку_, морфем

Результат.

пошуку

Результат аналзу

, _результат _сингезу

Т

.1.

-I-

.X.

Зм1на

правил

Результат,,

синтезу

Пошук

Змна

правил

Зм1на бази

знань

Зм1на

правил

Зм1на

правил

1рав

ил та знань

Результат перев1|

Рисунок 3 - Д1аграма послщовност для процесу виявлення ключових сл1в тематики контенту

/Сформован ий дайджест

/Передаються сlкпадовi

фрагменту _

/Автор/Користувач

/Вводить контент

/Контент-аналiз

/Анал i3 фрагменту | |

/Пошук термi ну

/Передаеться фрагмент контенту /Передаються характеристики фрагменту

/Анал i3 характеристик

X /Знайдений термн

/Передаються

/Аналiз терм i ну

характеристики

терм ну терм ну

/Передаеться результат аналi зу

/Корректця вживання морфем

/Синтез терм ту

/Передаються характеристики вживання терм ну

/Сформований терм ш

/Коррекця терм i ну

/В дредагований терм н

/Синтез фрагменту

/

/В дредагований фрагмент

/Формування дайджесту —|-

Модератор Адмш

1нформацйний ресурс

Web-сервер

л;

Web-браузер:

Насторойки та код програми:

] Формування контенту

Т

I

Сервер

б

а

Рисунок 4 - Дiаграми: а - коопераци, б - компонента виявлення ключових слiв тематики контенту

Крок 2. Розрахунок ушкальноста Unicity для терм1в Noun eU к\.

Крок 3. Розрахунок NumbSymb еЦ^з для Noun eUKi при Unicity > 80.

Крок 4. Розрахунок UseFrequency е Uк 2 - частоти появи ключових сшв контенту Для т^мв з NumbSymb < 2000 частота UseFrequency е в межах (б;8] %, з NumbSymb > 3000 -

[2;4)%, з 2000 > NumbSymb < 3000 - [4;б]%.

Крок 5. Розрахунок BUseFrequency - частота появи ключових сл1в на початку тексту, IUseFrequency - частота появи ключових сл1в в середиш тексту, EUseFrequency - частота появи ключових сл1в в кшщ тексту контенту.

Крок б. Пор1вняння значень BUseFrequency, IUseFrequency та EUseFrequency для розстановки прю-ритет1в. Ключов1 слова з бшьшими значеннями BUseFrequency мають бшьший прюритет, шж ключов1 слова з бшьшим значенням EUseFrequency.

Крок 7. Сортування ключових сл1в зпдно! !х прюри-тетав.

Етап 4. Заповнення бази пошукових образ1в контенту С3, тобто атрибупв KeyWords eUK 4 - ключов1 слова, Unicity - ушкальшсть ключових сл1в > 80, N0un - терм,

ШтЬ5утЬ - кшьюсть знаюв без пробЫв, ШеЕгедиепсу -частота вживання ключових сл1в, Б^еЕгедиепсу - частота вживання ключових сл1в на початку тексту, IUseFгequency - частота вживання ключових сл1в в середин! тексту, EUseFгequency - частота вживання ключових сл1в в кшщ тексту. Спираючись на правила пород-жувально! граматики виконуеться корекщя термшу зпдно правил його вживання у контекста (рис. 5).

Речення задають меж1 дл знаюв пунктуацп, анафо-ричних [ катафоричних посилань. Семантика тексту зу-мовлена комушкативним завданням передавання шфор-мацп. Структура тексту визначаеться внутр1шньою оргашзащею одиниць тексту [ законом1рностями !х взае-мозв'язку. Пщ час синтаксичного анал1зу текст оформ-ляють у структуру даних, наприклад, в дерево, яке вщпо-вщае синтаксичнш структур1 вхщно! послщовноста, [ най-краще тдходить для подальшого опрацювання. Шсля анал1зу фрагменту тексту [ терм1ну синтезують новий термш як ключове слово тематики контенту, використо-вуючи базу термшв та !х морфем (рис. 5).

Дал1 синтезуемо термши для формування нового ключового слова, використовуючи базу службових час-тин мови. Принцип виявлення ключових сл1в за зм1стом (термами) базуеться на закош Зшфа [ зводиться до вибо-ру сл1в 1з середньою частотою появи (найбшьш вживанш слова таорують через «стоп-словники», а рщюсш слова тексту не враховують).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Ввщ фрагменту тексту

Контент-анал i3

База службових частин мови

✓in ✓IN ~

Пошук термiну

База термiнiв та Тх морфем

/УМЧ А/^А

3Z

Аналiз фрагменту

Видтення морфем _у

Визначити час

Визначити вiдмiннок

3Z

Визначити форму

Синтетез терм^у

Ж

Перевiрка корректностi вживання термiну

>1 ~

Коррекцiя морфем термiну

Синтетез фрагменту

Рисунок 5 - Дiаграма дiяльностi для процесу виявлення ключових сл1в тематики контенту

4ЕКСПЕРИМЕНТИ

Лшгв^тичною базою для експериментального дос-лщження обрано 100 наукових публжацш Веника Нащо-нального ушверситету «Льв1вська пол^ехшка» серп «1нформацшш системи та мережЬ> (http:// science.lp.edu.ua/sisn), № 783 (http://science.lp.edu.ua/ SISN/SISN-2014) та № 805 (http://science.lp.edu.ua/sisn/ vol-cur-805-2014-2). Аналiз статистики функцiонування системи виявлення множини ключових ^в i3 100 наукових статей було проведено у два етапи, зокрема:

1. Проаналiзувати вм статтi i3 перевiркою загальних заблокованих слiв та тематичного словника.

2. Проаналiзувати всi статл i3 перевiркою уточнених заблокованих ^в та уточненого тематичного словника (з бшьшою кiлькiстю запуску системи формуеться мно-жина невiдомих слiв (вщсутшх i в тематичному словнику i в множинi заблокованих).

Окрiм того на кожному етат перевiрка вщбувалась в два кроки для кожно! статтi: аналiз вме! статтi (http:// victana.lviv.ua/index.php/kliuchovi-slova) та аналiз статтi без початку (назва, автори, УДК, анотацп двома мовами, авторсью ключовi слова двома мовами, мiсце роботи

автор1в) 1 без списку лггератури для того, щоб визначити похибки точност формування множини ключових сл1в. 5 РЕЗУЛЬТАТИ

Анал1з статистики здшснювався за принципом по-р1вняння множини авторських ключових сл1в (визначеш та прописаш в статп самими авторами цих роб1т), множини ключових сл1в визначених за першим та другим етапами з р1зними вагами сл1в (але бшьше, за визначене

в опцп *Мт.вага слова, % в межах [1,5]) з повними та скороченими текстами роб1т (табл. 3) при середньому арифметичному значенш авторських ключових словос-получень / сл1в бшя 5 (4,77), як1 в середньому утвореш з 10 (9,82) сл1в. Вага слова розраховуеться як вщносна частота появи основи цього слова у всьому текст! В табл. 4 присутш так1 позначення, як A (всього ключових сл1в, визначених системою при заданш ваз1 слова), B (зм1стов-них сл1в з1 списку утворених, тобто без невщомих абрев-1атур, д1есл1в, службових сл1в тощо), C (зб1г сл1в з визна-ченими автором статп), D (точшсть зб1гу знайдених клю-човиюв з авторським ключовими словами), E (додатков1 ключов1 слова, визначеш системою, але не визначеш автором статп).

Таблиця 3 - Статистичнi данi дослiджених обсягiв текста статей

Назва обсягу статт Крок 1 Крок 2

Всього Середке арифметичне Всього Середке арифметичне

Сторшок 956 9,56 828 8,28

Абзащв 16497 164,97 15263 152,63

Рядюв 42553 425,53 36965 369,65

Сл1в 345580 3455,8 291247 2912,47

Знакiв 2327209 23272,09 1974773 19747,73

Знакiв та пробив 2674889 26748,89 2265917 22659,17

Таблиця 4 - Статистичш данi дослiджених змюту текста статей

Назва Вага слова Етап 1 Етап 2

A B C D E A B C D E

Крок 1 > 1 5,46 3,92 2,51 2,08 1,74 7,43 7,03 3,27 3 4,18

> 2 > 3 1,08 0,41 0,88 0,38 0,63 0,22 0,59 0,21 0,26 0,16 2,67 2,64 1,21 1,2 1,65 0,85 1,54 0,79 1,12 0,41

> 4 0,15 0,13 0,09 0,09 0,04 0,46 0,45 0,33 0,31 0,15

> 5 0 0 0 0 0 0 0 0 0 0

Крок 2 > 1 6,51 5,02 2,68 2,23 2,37 8,35 7,78 3,25 2,91 4,99

> 2 1,34 1,11 0,74 0,72 0,39 3,12 3,07 1,81 1,67 1,43

> 3 0,51 0,45 0,29 0,27 0,17 1,42 1,4 0,93 0,85 0,54

> 4 > 5 0,19 0,11 0,17 0,1 0,12 0,06 0,12 0,06 0,05 0,04 0,73 0,72 0,33 0,32 0,45 0,25 0,42 0,23 0,31 0,1

6 ОБГОВОРЕННЯ

В 1нтернет-простор1 зазвичай присутн шформацшш SEO-ресурси, як визначають ключов1 слова в межах

[100 ^ 1000] сл1в в текста, наприклад:

- http://msurf.ru/tools/keygeneratortext/;

- http://syn1.ru/tools/keygeneratortext/;

- http://webmasta.org/tools/keygeneratorurl/;

- http://labs.translated.net/terminology-extraction/;

- http://www.keywordstext.therealist.ru/.

Недолж таких SEO-ресуршв - неточшсть та неко-рeктнiсть опрацювання украшомовних тeкстiв при вiдсутностi грамотно побудованих морфолопчних слов-никiв, словниюв основ та заблокованих слiв. Також ос-новним нeдолiком бiльшостi таких SEO-ресуршв обме-жeнiсть опрацювання обсяпв текстових масивiв даних. Для прикладу синтаксично проаналiзована рядом SEO-ресурмв ця укра!номовна стаття, яка мае понад 800 ^в в теста Частина перерахованих вище SEO-рeсурсiв не опрацьовуе або некоректно опрацьовуе такий великий обсяг шформацп (рис. 6-7).

Одним iз найкращих SEO-рeсурсiв е http://advego.ru/ text/seo/, який найкраще працюе з украшомовних текстами (рис. 8). Провадить семантичний аналiз тексту онлайн та SEO-аналiз тексту. Результат найбшьш наближе-ний до отриманого розробленою системою.

Але е недолжи. Не визначае множину ключових ^в, а лише частоту вживання ^в, словосполучень та час-тин ^в (якi необов'язково е частинами слова як основа). Взагалi не працюе з основами слова. Для цього SEO-ресурсу слова ключових та ключовi е рiзними.

Розроблений SEO-ресурс http://victana.lviv.ua/ kliuchovi-slova працюе з основами слова, орiентований на украшомовш, росiйськомовнi, англомовнi тексти, а також змшаного типу (рис. 9). На прикладi цiеi статтi SEO-ресурс визначив наступну множину ключових ^в {слово, ключових, контент, аналiз, chomsky, система}.

Повторюванiсть слiв, раз: слово - 120; ключових - 49; контент - 46; аналiз - 39; chomsky - 37; система - 37. Автори визначили таю ключовi слова: текст, украiномов-ний, алгоритм, контент-мошторшг, ключовi слова, лшгв^тичний аналiз, синтаксичний аналiз, породжу-вальнi граматики, структурна схема речення, шформац-iйна лiнгвiстична система.. Автори зазвичай бшьше визначають ключових ^в порiвняно з реальною ситуащею зпдно закономiрностeй розподiлу частоти ^в за законом Зiпфа (George KingsleyZipf). Автор науковоi статтi зазвичай обирае за своiм розсудом юльюсть ключових слiв в дiапазонi ввд 2 до 10 слiв (найчастше - 3-5 ключовиюв). Система ж визначае рiзну кiлькiсть слiв, в залежноста вiд стиля написання конкретного автора ^снують такi статтi, в яких система не знаходить за законом Зшфа жодного клю-чового слова). Збiг спискiв виявлених ключовиюв з авторсь-кими без врахування зайвих слiв, визначених авторами (повторювашсть > 30 для обсягу тексту понад 4800 ств), складае вiдповiдно для таких SEO-рeсурсiв:

- http://syn1.ru/tools/keygeneratortext/ - приблизно 35%;

- http://labs.translated.net/terminology-extraction/ -приблизно 57%;

- http://advego.ru/text/seo/ - приблизно 83%;

- http://victana.lviv.ua/kliuchovi-slova - приблизно 90%.

На рис. 10 приведено дiаграму аналiзу статистики

формування системою множин вшх потенцшних ключових ^в порiвняно з множиною, визначеною авторами статей.

Перший стовпчик - середньоарифметична кшьюсть ключових ^в, визначених автором (4,77), а другий - середньоарифметична юльюсть ^в, якi складають щ ав-торськi ключовi слова (9,82). Третай стовпчик - середньоарифметична юльюсть потенцшних ключових ^в, виз-начена системно на етат 1, крок 1(5,46); четвертий - на етат 1, крок 2 (6,51); п'ятий - на етат 1, крок 1 (7,43);

Информация о тексте: Всего слов в тексте:

SO 72

Обработано спав (без повторов): 1073

Результат

КЛЮЧОВИХ, контенту, АНАП, СГюплеКу, ться, сть, речения, групп, комерц. етаг. Ключ о в. йного. або, менник, появн, Вез. досп, Зуз1егл8

Слова списком подробнее 1 Скрыть!

слово i Вхождений ' частом (TF) $

ключових 43 D.006

контенту 40 0.008

АНАП 40 0.008

Chomsky 37 0.007

ться 22 0.004

сть 1S 0.004

речения 17 0.003

групп 15 0.003

комерц 15 0.003

етап 13 0.003

Кпючов 12 0.002

иного 12 0.0 02

або 11 0.002

менник 11 0.002

появи 10 0.002

без 9 0.002

доел 9 0.002

Systems 9 0002

Рисунок 6 - Результат аналiзу Ц1е! статл на SEO-pecypci http://syn1.ru/tools/keygeneratortext/

#

1

2 3

EH ■

Ш

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ш

ю 11 12

13

14

т т

Extracted term Score

текстового контенту 65%

КЛЮЧОВИХ СЛ1В 65%

коиершйного контенту 62%

обработки текстового контента 62%

опраиювання текстового контенту 62%

для 61%

частота появи ключових oiiB 60%

анал1зу 56%

слова 56%

систем 55%

при 55%

¡ненно! групп 55%

синтакснчного анал1зу 55%

правил 54%

систем опраиювання текстового контенту 53%

автоматического обработки текстового контента 53%

прикметника з ¡менником серед 53%

I иен ни кон серед множини ств 53%

лише одного символу отримали 53%

або прикметника з ¡менником 53%

Рисунок 7 - Результат аналiзy цiei статтi на SEO-pecypci http://labs.translated.net/terminology-extraction/

Статистика текста

I Наименование показателя Значение 1

Количество символов 35927

Количество символов без пробелов 31118

Количество СЛОВ 4354

Количество уникальных слов 1539

Количество значимых слов 2873

Количество стоп-слов 1013

Вода 34.0 %

Количество грамматических ошибок 460

Классическая тошнота документа 8.12

Академическая тошнота документа 4.9 S

Семантическое ядро

I Фраз а/слово Ноличееreo Час кока, % -

сп!в и 1.52 □

контент 54 1.24

ключових 45 1.03

КЛЮЧОВИХ СЛ1Б 42 0.96 / 1.93

сЬогпзку 37 0.85

текст 36 0.83

система 29 0.67

текстового контенту 24 0.55 1 1.10

текстовой 24 0.55

граматика 22 0.51

анализу 21 0.48

крон 21 0.48

речения 18 0.41 W

Слова

Слово Количество Частота, % Ж

сив 66 1.52 J

контент 54 1.24

ключових 45 1.03

Chomsky 37 0.85

текст 36 0.03

система 29 0.67

текстовой 24 0.55

граматика 22 0.51

а нал] ¿у 21 0.48

крок 21 0.48

речейня 10 0.41

Chomsky 16 0.37

частота 16 0.37

Стоп-слова

Слово Количество Частота, %

в 85 t.95 п

ТОТ 6S 1.56 _ J

Of 60 1.30

п 56 1.29

3 48 1.10

на 45 t.03

слово 40 0.92

the 35 0.00

ДЛЯ 31 0.71

Р 29 0.67

И 29 0.67

and 27 0.62

У 26 0.60

Рисунок 8 - Результат аналiзу цieï CTaTTi на SEO-pecypci http://advego.ru/text/seo/

р-К8К 1607-3274. Радюелектронжа, шформатика, управлiння. 2016. № 3 е-ЕЗБЫ 2313-688Х. Каёю ЕЬ^гоп^, Сошр^ег Баеме, Со^го! 2016. № 3

Повтор ювзтсгь <:л1в, раз: слово -120; ключових-49; контент -46; знэлю • 39; сЬоглйку - 37: система - 37:

Рисунок 9 - Результат анал1зу цте! статт на 8ЕО-ресура http://victana.lviv.ua/kliuchovi-slova

□ Авторськi ключовики 12 □ Етап 1, крок 1

□ Етап 2, крок 1

10 Н

□ Кльксть ^в

□ Етап 1, крок 2

□ Етап 2, крок 2

Рисунок 10 - Результати перев1рки 100 статей

шостий - на етат 2, крок 2 (8,35). Отже, автор статл в середньому зазвичай визначае бшьшу кшьюсть сл1в (сто-впчик 2) та меншу кшьюсть ключових сл1в (стовпчик 1), шж вона реально присутня в цш робота. ВИСНОВКИ

У статл розглянуто особливоста методу синтаксич-ного анал1зу укра!номовного текстового контенту, спря-мованого на автоматичне виявлення значущих ключових сл1в вхщних текстав. Визначено роль i формальш оз-наки синтаксичного анал1затора в процес виявлення

ключових сл1в тематики контенту, проведено декомпози-щю процедур запропонованого методу на 4-х етапах. На в1дм1ну вщ вщомих синтаксичних анал1затор1в, запропо-нований метод забезпечуе самовдосконалення та само-навчання автоматизовано! системи визначення ключових сл1в за рахунок мехашзму щентифжацп значущих ста-тистичних параметр1в у визначених модератором межах. Експериментальне дослщження на матер1алах 100 науко-вих публжацш з двох номер1в (783 та 805) Вюника Нацю-нального утверситету «Льв1вська поллехшка» сери «1нфор-мацшш системи та мереж!> (http://science.lp.edu.ua/sisn) пiдтвердило достовiрнiсть методу - для рiзних методик опрацювання первинного тексту середнiй зб^ спискiв виявлених ключовикiв з авторськими змiнюеться у про-мiжку 52,6-68,5%. Точшсть збiгу ключових слiв iз авторськими коливаеться в промiжку 43,6-62,9%. Середнiй збiг змiстовних ключових ^в порiвняно зi всiма знайденими системою коливаеться в промiжку 38,9-75,8% в залеж-ностi вiд етатв аналiзу текстiв статей. Точнiсть зб^ ключових слiв порiвняно зi всiма знайденими системою коливаеться в промiжку 34,3-71,9% в залежноста вiд етапiв аналiзу текстiв статей. Потребуе подальшого експери-ментального дослщження визначення ключових слiв для шших категорш текстiв - наукових гумаштарного про-фiлю, художнiх, публiцистичних тощо.

ПОДЯКИ

У стати розв'язана науково-практична задача автоматичного визначення ключових слiв украïномовноro тексту в 1нтернет-джерелах на основi синтаксичного аналiзу ре-чень вiдповiдноï текстовоï iнформацiï. Роботу виконано в рамках спшьних наукових дослiджень кафедри шформацш-них систем та мереж Нащонального унiверситету «Львiвська полгтехшка» на тему «Розроблення методiв та засобiв побудови штелектуальних систем опрацювання iнформацiйних ресурмв з використанням онтологiчного тдходу», а також кафедри автоматики та шформацшно-вишрювальжи технiки Вiнницького национального техтч-ного унiверситету у межах дiяльностi науково-дослiдного центру прикладноï та комп'ютержа лiнгвiстики. Результата дослiджень здiйснювались у рамках держбюджетних науко-во-дослiдних робтг за темами «Розробка методав, алгортмв i програмних засобiв моделювання, проектування та опти-мiзацiï iнтелектуальних шформацшних систем на основi Web-технологiй «ВЕБ» та «1нтелектуальна iнформацiйна технологiя образного аналiзу тексту та синтезу тегрова-ноï бази знань природно-мовного контенту». СПИСОК ЛГГЕРАТУРИ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Берко, А. Системи електронно!' контент-комерцп / А. Берко, В. Висоцька, В. Паачник. - Л. : НУЛП, 2009. - 612 с.

2. Математична лшГвютика / [В. Висоцька, В. Паачник, Ю. Щербина, Т. Шестакевич]. - Л. : Новий Свгт-2000, 2012. - 359 с.

3. Chomsky N. Three models for the description of language / N. Chomsky // I.R.E. Transactions on Information Theory. -1956. - Vol. 2. - P. 113-124.

4. Chomsky N. On certain formal properties of grammars / N. Chomsky // Information and Control. - 1959. - Vol. 2. -P. 137-167.

5. Chomsky N. On the notion «Rule of Grammar» / N. Chomsky // Proceedings of the Twelfth Symposium in Applied Mathematics. -1961. - P. 6-24.

6. Chomsky N. Context-free grammars and pushdown storage / N. Chomsky // Quarterly Progress Reports, Research Laboratory of Electronics, M.I.T. - 1962. - № 65. - P. 187-194.

7. Chomsky N. Formal properties of grammars / N. Chomsky //

Handbook of Mathematical Psychology, New York : Wiley and Sons. - 1963. - Vol. 2. - P. 323-418.

8. Chomsky N. The logical basis for linguistic theory / N. Chomsky

// Proc. IX-th Int. Cong. Linguists, 1962. - P. 91-111.

9. Chomsky N. Finite state languages / N. Chomsky, G. A. Miller // Information and Control. - 1958. - Vol. 1. - P. 91-112.

10. Chomsky N. Introduction to the formal analysis of natural languages / N. Chomsky, G. A. Miller // Handbook of Mathematical Psychology 2, Ch. 12, Wiley. - 1963. - Vol. 2. - P. 269-321.

11. Chomsky N. The algebraic theory of context-free languages / N. Chomsky, M. P. Schbtzenberger // Computer programming and formal systems, North-Holland. - 1963. - P. 118-162.

12. Chomsky N. Syntactic Structures / N. Chomsky. - Mouton, The Hague, 1957. - 117 p.

13. Chomsky N. Explanatory models in linguistics / N. Chomsky // Logic, Methodology and Philosophy of Science: Proceedings of the 1960 International Congress. Stanford University Press, Stanford, CA. - 1962. - P. 528-550.

14. Chomsky N. Aspects of the Theory of Syntax / N. Chomsky. -MIT Press, Cambridge, MA,1965. - 247 p.

15. Chomsky N. Conditions on transformations / N. Chomsky. -New York : Holt, Rinehart & Winston, 1973. - P. 232-286.

CTaira Hagmmjia go pega^iï 17.02.2016.

nicjia gopoÖKH 29.02.2016.

Бисикало О. В.1, Высоцкая В. А.2

'Д-р техн. наук, профессор, декан факультета компьютерных систем и автоматики Винницкого национального технического университета, Винница, Украина

2Канд. техн. наук, доцент кафедры «Информационные системы и сети» Национального университета «Львовская политехника», Львов, Украина

ПРИМЕНЕНИЕ МЕТОДА СИНТАКСИЧЕСКОГО АНАЛИЗА ПРЕДЛОЖЕНИЙ ДЛЯ ОПРЕДЕЛЕНИЯ КЛЮЧЕВЫХ СЛОВ УКРАИНОЯЗЫЧНОГО ТЕКСТА

В статье представлены применения порождающих грамматик в лингвистическом моделировании. Описание моделирования синтаксиса предложения применяют для автоматизации процессов анализа и синтеза естественноязыковых текстов. В статье показаны особенности процесса синтеза предложений различных языков с применением порождающих грамматик. В работе рассмотрено влияние норм и правил языка на ход построения грамматик. Применение порождающих грамматик имеет широкие возможности в разработке и создании автоматизированных систем обработки текстового контента, для лингвистического обеспечения компьютерных лингвистических систем и тому подобное. В естественных языках есть ситуации, когда явления, зависящие от контекста, описаны как независимые от контекста, то есть в терминах контекстно-свободных грамматик. При этом описание затруднено из-за образования новых категорий и правил. В статье представлены особенности процесса введения новых ограничений на классы данных грамматик из-за введения новых правил. При количестве символов в правой части правил не меньшей левой получили несокращенные грамматики. Затем при замене только одного символа получили контекстно-зависимые грамматики. При наличии в левой части правила лишь одного символа получили контекстно-свободные грамматики. Никаких следующих природных ограничений на левые части правил наложить уже нельзя. Исходя из важности обеспечения автоматического обработки текстового контента в современных информационных средствах (например, информационно-поисковых системах, системах машинного перевода, семантического, статистического, оптического и акустического анализа и синтеза речи, автоматизированного редактирования, экстракции знаний текстового контента, реферирования и аннотирования текстового контента, индексирования текстового контента, учебно-дидактических, менеджмента лингвистических корпусов, инструментальные средства составления словарей различных типов и т.д.), специалисты интенсивно ищут новые модели, способы их описания и методы автоматического обработки текстового контента. Одним из таких способов является разработка общих принципов построения лексикографических систем синтаксического типа и построения по этим принципам указанных систем обработки текстового контента для конкретных языков. Любые средства синтаксического анализа состоят из двух частей: базы знаний о конкретном естественный язык и алгоритма синтаксического анализа, то есть набора стандартных операторов обработки текстового контента на основе этих знаний. Источником грамматических знаний сведения по морфологического анализа и различные заполнены таблицы понятий и лингвистических единиц. Они являются результатом эмпирического обработки текстового контента на естественном языке экспертами с целью выделения основных закономерностей для синтаксического анализа.

Ключевые слова: текст, украиноязычный, алгоритм, контент-мониторинг, ключевые слова, лингвистический анализ, синтаксический анализ, порождающих грамматики, структурная схема предложения, информационная лингвистическая система.

Bisikalo O. V.1, Vysotska V. A.2

'Dr. Sc., Professor, Dean of Faculty for Computer Systems and Automation, Vinnytsia National Technical University, Vinnytsia, Ukraine 2PhD, Associate Professor of Information Systems and Networks Department, Lviv Polytechnic National University, Lviv, Ukraine SENTENCE SYNTACTIC ANALYSIS APPLICATION TO KEYWORDS IDENTIFICATION UKRAINIAN TEXTS This paper presents the generative grammar application in linguistic modelling. Description of syntax sentence modelling is applied to automate the processes of analysis and synthesis of texts in natural language. The article shows the features of the sentences synthesis indifferent languages of using generative grammars. The paper considers norms and rules influence in the language on the grammars constructing course. The use of generative grammars has great potential in the development and creation of automated systems for textual content processing, for linguistic providing linguistic computer systems, etc. The methods and tools development for automatic processing of text of commercial content in modern information technology are important and topical (for example, systems of information retrieval, machine translation, semantic, statistical, optical and acoustic analysis and synthesis of speech, automated editing, knowledge extracting from the text content, text content abstracting and annotation, textual content indexing, training and didactic, linguistic buildings management, instrumental means of dictionaries conclusion of various types, etc.). Specialists actively seeking new models of description and methods for automatic processing of text content. One of these methods is the development of general principles of lexicographic systems of syntactic type. It is important by these principles these systems construction of text content processing for specific languages. Any tools of syntactic analysis consists of two parts: a knowledge base about a particular natural language and algorithm of syntactic analysis (a set of standard operators of text content processing on this knowledge). The source of grammatical knowledge is data from morphological analysis and various filled tables of concepts and linguistic units. They are the result of the empirical processing of textual content in natural language of experts in order to highlight the basic laws for syntactic analysis.

Keywords: text, a Ukrainian, algorithm, content monitoring, keywords, linguistic analysis, parsing, generative grammar, structured scheme sentences, information linguistic system.

REFERENCES

1. Berko A., Vysotska V., Pasichnyk V. Systemy elektronnoyi kontent-komertsiyi. Leningrad, NULP, 2009, 612 p.

2. Vysotska V., Pasichnyk V., Scherbyna J., Shestakevych T. Matematychna linhvistyka. Leningrad, Novyy Svit-2000, 2012, 359 p.

3. Chomsky N. Three models for the description of language, I.R.E. Transactions on Information Theory, 1956, Vol. 2, pp. 113-124.

4. Chomsky N. On certain formal properties of grammars, Information and Control, 1959, Vol. 2, pp. 137-167.

5. Chomsky N. On the notion «Rule of Grammar», Proceedings of the Twelfth Symposium in Applied Mathematics, 1961, pp. 6-24.

6. Chomsky N. Context-free grammars and pushdown storage, Quarterly Progress Reports, Research Laboratory ofElectronics, M.I.T., 1962, No. 65, pp. 187-194.

7. Chomsky N. Formal properties of grammars, Handbook of Mathematical Psychology, New York: Wiley and Sons, 1963, Vol. 2, pp. 323-418.

8. Chomsky N. The logical basis for linguistic theory, Proc. IX-th Int. Cong. Linguists, 1962, pp. 91-111.

9. Chomsky N., Miller G. A. Finite state languages, Information and Control, 1958, Vol. 1, pp. 91-112.

10. Chomsky N., Miller G. A. Introduction to the formal analysis of natural languages, Handbook of Mathematical Psychology 2, Ch. 12, Wiley, 1963, Vol. 2, pp. 269-321.

11. Chomsky N., Schbtzenberger M. P. The algebraic theory of context-free languages, Computer programming and formal systems, North-Holland, 1963, pp. 118-162.

12. Chomsky N. Syntactic Structures. Mouton, The Hague, 1957, 117 p.

13.Chomsky N. Explanatory models in linguistics, Logic, Methodology and Philosophy of Science: Proceedings of the I960 International Congress. Stanford University Press, Stanford, CA, 1962, pp. 528-550.

14. Chomsky N. Aspects of the Theory of Syntax. MIT Press, Cambridge, MA, 1965, 247 p.

15. Chomsky N. Conditions on transformations. New York, Holt, Rinehart & Winston, 1973, pp. 232-286.

i Надоели баннеры? Вы всегда можете отключить рекламу.