Научная статья на тему 'Автоматизоване опрацювання природомовних текстів з використанням засобів штучного інтелекту'

Автоматизоване опрацювання природомовних текстів з використанням засобів штучного інтелекту Текст научной статьи по специальности «Экономика и бизнес»

CC BY
127
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
аналіз текстів / порівняння слів / словник словоформ / нечітка логіка / метод Левенштейна / автоматизована обробка / texts analysis / words comparing / word forms dictionary / fuzzy logic / Levenshtein method / automated processing

Аннотация научной статьи по экономике и бизнесу, автор научной работы — О C. Кулинський

Подано основи новітніх методів автоматизованого опрацювання природомовних текстів за допомогою засобів штучного інтелекту. Розглянуто підходи до автоматизованого аналізу природомовних текстів засобами нечіткої логіки на прикладі літературно-художніх видань. Подано основи методу первинної підготовки даних, формування нечітких висновків та отримання словника словоформ. Запропоновано здійснювати автоматизований аналіз краєвидів у літературно-художніх виданнях шляхом використання впровадженої технології Content Auto Analyzer.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Automated processing of natural texts by means of artificial intelligence

The fundamentals of innovation methods to the automatic processing of natural texts by means of artificial intelligence are provided. The approaches to the automation analysis of natural texts through fussy logic are viewed on the basis of prosaic texts. The fundamentals of the initial arrangement of data, output of fuzzy conclusions and compilation of the dictionary of word forms are given. The automation analysis of sceneries within prosaic texts is made through the implementation Content Auto Analyzer technology.

Текст научной работы на тему «Автоматизоване опрацювання природомовних текстів з використанням засобів штучного інтелекту»

процесiв у quf -компонентах на протилежтсть макрорiвню обчислю-

вальних процесiв у суперкомп'ютерних системах.

Лiтература

1. Пастух О.А. Реал1защя алгебрашного об'еднання неперетинних неч1тких множин другого роду у квантових неч1тких шформацшних системах другого роду / О. А. Пастух // Bic-ник КНУТД. - 2009. - № 5 (49). - С. 27-30.

2. Пастух О.А. Ре^защя алгебрашного перетину неч^ких множин другого роду у квантових неч^ких шформацшних системах другого роду / О.А. Пастух // Вюник Хмель-ницького нащонального у-ту. - 2009. - № 5. - С. 106-109.

3. Пастух О. А. Квантовi неч^ю множини другого роду / О.А. Пастух // Вюник Хмель-ницького нащонального у-ту. - 2009. - № 4. - С. 46-49.

4. Пастух О.А. Арх^ектура квантових неч^ких шформацшних систем другого роду / О.А. Пастух // Вюник КНУТД. - 2009. - № 4. - С. 33-37.

Пастух О.А. Обоснование эффективности обработки нечетких данных второго рода в квантовых нечетких вычислительных компонентах второго рода

Обоснована эффективность квантовых методов: пересечения алгебраизма нечетких данных второго рода и объединения алгебраизма непересекающихся нечетких данных второго рода, которые предназначены для прорабатывания нечетких данных второго рода в квантовых нечетких вычислительных компонентах.

Pastukh O.A. Grounding of the efficiency of type II fuzzy data processing in the type ii quantum fuzzy computing components

The efficiency of next quantum methods is grounded: algebraic intersection of the type II fuzzy data and algebraic union of the unintersected type II fuzzy data that are designed for type II fuzzy data processing in quantum fuzzy computing components.

УДК 004.89 Acnip. O.C. Кулинський1 - НУ "Львiвська полтехтка "

АВТОМАТИЗОВАНЕ ОПРАЦЮВАННЯ ПРИРОДОМОВНИХ ТЕКСТ1В З ВИКОРИСТАННЯМ ЗАСОБ1В ШТУЧНОГО 1НТЕЛЕКТУ

Подано основи hobíthíx методiв автоматизованого опрацювання природомов-них текспв за допомогою засобiв штучного штелекту. Розглянуто тдходи до автоматизованого аналiзу природомовних текспв засобами неч^ко! лопки на прикладi л^ературно-художшх видань. Подано основи методу первинно! тдготовки даних, формування неч^ких висновюв та отримання словника словоформ. Запропоновано здшснювати автоматизований аналiз краeвидiв у л^ературно-художшх виданнях шляхом використання впроваджено! технологп Content Auto Analyzer.

Ключовi слова: аналiз текспв, порiвняння сшв, словник словоформ, неч^ка ло-пка, метод Левенштейна, автоматизована обробка.

Постановка проблеми. Розвиток шформацшних технологш та апа-ратних засоб1в !х тдтримки, а також покращення характеристик сучасних сховищ даних, поставили завдання автоматизацп опрацювання шформацшних об'еклв, що подаються неформально i е близькими до природно! мови сшлкування людей. До таких об'еклв можна вiднести текстовi документи, змют яких охоплюе рiзноманiтнi сфери дiяльностi сучасно! людини: техшч-

1 Наук. кер1вник: проф. Р.О. Ткаченко, д-р техн. наук - НУ "Льв1вська полггехшка"

ну, гумаштарну, дшову, наукову тощо. Особливi вимоги у даному контекст задають 1нтернет-технологи, що стрiмко розвиваються i набувають дедалi ва-гомiшого впливу на розвиток суспшьства.

Оскiльки традицiйнi методи i засоби автоматизованого опрацювання текстово! шформаци, що базуються на методах класично! статистики, сьогод-нi е вже недостатньо ефективними, варто очiкувати на новi здобутки у нап-рямку застосування сучасних iнформацiйних технологш, що, насамперед, базуються на моделях штучного штелекту. Таким чином, метою цього досль дження е розроблення новггньо! моделi класифжацп уривюв текстiв згiдно з заданими категорiями на базi модифжовано! метрики Левенштейна з вико-ристанням частотно-нечiткого шдходу до формування ознак [1].

Аналiз ocTaHHix дослiджень та публiкацiй. Впровадження автомати-зовано! системи Content Auto Analyzer здшснено з огляду на вже функцюну-ючi технологи автоматизаци даних, що активно використовують елементи штучного штелекту. Для прикладу, нещодавно усшшно запроваджено систему AZFinText (Arizona Financial Text) американськими вченими Робертом Шумейкером та Хсiнчунем Ченом (2010) автоматично анашзуе фiнансовi но-вини i прогнозуе котирування акцш на основi результатiв аналiзу. Шдсумки змодельованих торгiв на бiржi показали, що система AZFinText е ефективш-шою порiвняно з прогнозами багатьох швестицшних фондiв, що мають великий авторитет на фондовому ринку США. Основний принцип роботи ще! системи полягае в опрацюванш власних назв - iмен людей та назв компанш у поеднаш з шформащею про частоту !х вживання з даними, що вщображають котирування акцш на момент опублжування першоджерела у виглядi статтi, новини чи фшансового звiту. Використовуючи алгоритм машинного навчан-ня на основi юторичних даних, система виявляе кореляци, як допомагають скласти короткостроковий прогноз на акци. Таким чином, система обробляе велию обсяги фiнансових новин, використовуючи сайт Yahoo Finance на по-чатковому еташ, а також щохвилинш данi стосовно котирування цiнних па-перiв. Покладаючись на триступеневу систему класифшаци, ця система зосе-реджена на емшричному встановленнi торгiвельних обмежень. Виявлено, що доходи можна наростити купуючи акци, або зменшуючи 1'хню вартють та за-робляючи на них на 1 % бшьше, або на 3 % менше. Цей метод е кращим за метод спонтанно! торпвл^ що в середньому забезпечуе 0.11 % прибутку [2].

Дониш дискретне прогнозування не було поеднане з системним вив-ченням рiзноманiтних методiв аналiзу текств. Попереднi дослiдження зага-лом орiентованi на класифiкацiю даних, а тому ставили перед собою питання на кшталт: чи ця позищя спричинить зростання/спад цми на акщю? Bd щ дослщження випробовували чггко-спрямовану тенденцiю, i жодним чином не стосувались передбачення вартостi акцiй. Дискретне прогнозування на основi обчислень не е чимось новим, проте застосування цього регресивного (заво-ротного) шдходу до SVM методики е досить новим. Одним з таких методiв е Сшввщносна мтмальна оптимiзацiя (SMO) [3], що передбачае уникнення багатьох масштабних проблем, пов'язаних з використанням великих експери-ментальних засобiв, за допомогою простшого SVM пiдходу. Власне таке поеднання пiдходiв породило появу дослщжень, що вивчають прогнозування ф'ючерсних контрактiв виключно чисельними методами [4].

На основi попереднiх дослiджень текстово! оброблення докуменпв, Т. Йоахiмс (1998) доходить висновку, що обмеження ознак дослiдження до трьох або бшьше !х появ в одному документ дасть змогу запоб^ти проблемi появи неконтрольованих прогалин мiж ними [5]. Застосовуючи цей висновок для оброблення текспв, кожна ознака надалi представлена бшарним методом (нуль або одиниця); тобто певне поняття або е або його немае у конкретному текст [6]. Цю просту схему оброблення текспв легко застосувати шд час ро-боти з базами даних, що мають багато ознак нуля. Застосування цих зворот-них (регресивних) методiв та методiв оброблення даних до алгоритму фун-кцюнування SVM спричинить дискретний чисельний результат експеримен-тально! системи. Оцiнювання результату базувалась лише на однiй з трьох наступних метрик, а саме: стушнь близькосп, точнiсть коливання, або си-мульована торгiвля. Вiдносно метрики ступеню близькосп, то оцiнену вар-тiсть, експериментально отриману комп'ютерним способом обробляння даних, порiвнюемо з фактичною вартютю, використовуючи ступiнь похибки (MSE) [7]. Точшсть змiни виявилась широко застосованою величиною у по-передшх фiнансових дослiдженнях, де змша прогнозовано! вартостi порiвню-вали зi змiною фактично! вартостi [8]. Симульована торпвля, своею чергою, е простим торговельним мотором, що дае змогу вщстежувати значш вщмш-ностi у прогнозуванш вартостi [9].

Формулювання мети дослвдження. Метою дослiдження е розроблен-ня моделi класифiкацi! текстових уривюв за заданими категорiями на базi мо-дифiковано! метрики Левенштейна з використанням частотно-неч^кого пiд-ходу до формування ознак.

Виклад основного матерiалу.

1. Побудова моделi класифжащТ. У цiй роботi започатковано новий метод класифжаци уривкiв тексту на основi модифiковано! метрики Левенштейна, яку використовують у процес побудови словника словоформ шляхом автоматично! селекцп ключових слiв. Для розроблення методу викорис-тано правила та моделi нечiтко! логiки; на базi розробленого методу створено та апробовано технологш автоматизованого обробляння природомовних текспв Content Auto Analyzer.

Розглянемо докладшше процедуру побудови моделi класифжаци на прикладi художнього твору. Зазначимо, що описаний шдхщ i послщовшсть виконання процедури зберiгаеться для опрацювання будь-яких шших наступних текстових фрагмеш!в. Припустимо, що поставлено завдання виокремити (вщзначити) такi фрагменти тексту у твор^ що описують краевиди.

У ходi дослiджень було проведено обробку художшх текстiв, яка дала змогу визначити:

• вщповщтсть певного уривку тексту обраному критергю (у цьому випадку поняттю "краевид");

• наяви1сть ключових сл1в в уривку, що мають ознаки краевиду;

• середню кшьшсть ключових сл1в в одному уривку, а також середньостатис-тичну юльшсть сл1в загалом, що характеризують краевид;

• середньостатистичну к1льк1сть уривк1в у текст!, що тдлягають п1д опис краевиду;

• частини тексту, яю не мають жодних ознак краевиду.

Використання автоматизованих методiв для оброблення художшх тек-ctíb здiйснюють у кiлька еташв:

1) визначення параметр1в модел1 автоматизовано! побудови словника за-гальновживаних термшв (для украшсько! та англшсько! мов);

2) визначення параметр1в модел1 автоматизовано! побудови словоформ ос-новних ключових сив;

3) визначення параметр1в модел1 побудови правил неч1тко! лопки, як б визначали м1ру тематично! належноси до певного типу текспв. Аналiз 200 класичних текстiв укра!нсько! л^ератури (кожен обсягом

не менше шж 100 сторiнок) показав, що, в середньому, один твiр мiстить вщ 15 до 25 описiв краевидiв, наприклад: мЛiсова Пiсням Лесi Укра!нки (1911 р.) - 18 опиЫв; "Земля" Ольги Кобилянсько! (1901 р.) - 46; "Захар Беркут" 1вана Франка (1882 р.) - 24; "Собор" Олеся Гончара (1967 р.) - 25 опиЫв краевидiв. Також аналiз показав, що пейзажi найчаслше вiдображенi в окре-мих реченнях або абзацах. Зазвичай, письменники використовують !х для тдсилення художнього та стишстичного забарвлення, створення колоритного образу, опису певно! мюцевосл, природного явища чи картини зовшшньо-го свiту, яку спостерiгають персонажi твору. Вiдтак, пейзаж (краевид) е лише зовнiшньою компонентою художнього тексту, тобто невеликий його уривок, що, зазвичай, не пов'язаний з основним змютом твору i не впливае на розви-ток подiй у ньому. При цьому, автори не описують мюцевють у дiалогах мiж героями, !хшх роздумах чи будь-яких шших умовних станах.

2. Базов1 функцп технологи Content Auto Analyzer. Програмний модуль Content Auto Analyzer реашзовано на базi таких шформацшних технологiй: HTML (мова гшертекстово! розмiтки сторiнок); CSS (каскаднi таблиц стилiв);

PHP (мова генераци динамiчних сторiнок на сторонi сервера); MySQL (сервер баз даних - зашб збереження шформаци); Розглянемо основнi функцп розроблено! в роботi технологи Content Auto Analyzer.

1. Додавання нового тексту в базу даних.

Рис. 1. Додавання тексту в базу даних

Кожен файл представлений таким перелжом параметрiв: а) мова; б) рш видання твору; в) автор твору; г) назва твору; д) безпосереднш вмют тво-ру. Для роботи з програмою необхiдним е вибiр та завантаження вхщного тексту у форматi *Лх1 в кодуваннi ^-8 (рис. 1). У процес додавання здiйснюеться перевiрка на повторне введення того ж тексту i його автоматич-ний анашз згiдно з ключовими словами.

Шд час додавання тексту, о^м основного процесу вставки в базу даних, проводиться по^вний анашз тексту в фот. Обчислюються таю пара-метри, як загальна кшьюсть слiв у текстi, кiлькiсть рiзних слiв та показник, що вщображае вiдношення кiлькостi рiзних слiв до кшькост усiх його вжи-вань. Також обчислюеться кiлькiсть вживань кожного окремого слова. ВЫ обчислеш параметри збер^аються у базi даних.

2. Додавання нових ключових сл1в у формат лексеми, мови, чи кореня слова (рис. 2).

Add New

Text Keyword

Calculate

I"! I'h'.I " 'ч

word: небо

root: неб|

View In all UA texts

View in all EN texts

Рис. 2. Додання нового ключового слова

Вибiр ключових ошв е необхiдним для подальшо! побудови словника словоформ та аналiзу тексту.

3. Побудова словника.

Побудова словника словоформ здшснюеться шляхом вибiрки ключових слiв та ïx семантичного аналiзу. Словоформи формують довiльну кшь-кiсть лексичних розширень, що надалi забезпечуе вичерпнiсть результатiв опрацювання обраного тексту.

4. Анал1з тексту (рис. 3)

[Бб]ерег j [Б&]ерез1 |[Бб]ерега

5. О

6. О

7. Ö

s. О

Андрухович ЮрШ - "Дванадцять (

Я вже не хочу цього слухати, сказала пан! Рома, що нетутешньо пересгупаючи через купи порожн верткими циганчуками. Чому ми сидим о тут i Н1куд подивимось - i на тринадцятин. Можем о спустити ташж через лi-cr але л1в1ше - до цих самих плащу Ярчик Волшебник дивнвся на нього з берега i дум тдкидувана хвилями голова, ефектно розвернути Волшебник Hi4oro не знав протри переломи Kicro гладить рукою р!чкового текучего пса. Але довше п'яти хвилин Ярчик Вопшеб| Робилося передуои страшно ■ сгояти на иьому бе западали сут1нки, а за ними надходила тенрява. скривнвся на таку думку. Кудись 6irrn, когось пое не так - головний бшь, себто главная боль pacific його мколи не подводила. Тож i цього разу, коли йому назустрГч накликвних, то bih не став розвертатися й йети н не перейти. Hi, Ярчик Волшебник пгшов просто на gimme your palm, your soul, your body!}, i з розб1Р| плеть, норт забирай!}, вони розсппалмся на во бс страху 04i були таю величезы, що bih лише хекав сюнчнлося, бо саметод! найстарший серед mixi \ Вони ще встигли витягнути Tino з Р(чки (крижанэ 3 протилежного - забороненого - берега його моя велпку дунайську рибу на трав! гид глодом. Але щ Але от воно сгалося - дунайська риба виявилася дорогими й касивнимн черевиками. I все, що вон водою легенями, трьома переломами Kicroxi сме( той волохатий фраер, що упкав берегом, поки не менлв i почнетьсяте, про що говорилося у проро Коли ВОНИ б|ГЛИ МОСТОМ, посипев мокрий CHI г. Точ середнж мосту вони спостерегли, що дощ почина над течем, де в Pi4Ky впадае Полк. У цей час бул Запаси пов1тря в легенях i мозков! та нули все шв Першого, з яко1'Пепа виловлював лиш окреги сип фззичт - смерть насала приблизно о - cpiohia плг

View in al UA texts

берег

блакить

блискавка

буран

буреяй

буря

вершина

вершок

весна

веч«р

височйь

вихор

в1тер

в1тер2

вогонь

гай

плка

гшля

г)р

ГН13ДО

гора

горизонт

град

далечиь

день

дерево

джерело

дброаа

долина

дощ

зах(д

зелень

зима

а уяеи вмить вщнесли ïï на берег Р1чки, й вона побачила Карла-Иозефа, /вшись у закурену чорну халабуду, обл1плений з yeix бонза крикливими й I коли ще Про це казав, нагадав Артур Пепа. Походимо над Pi ч ко га, в |дею Волшебник. Одж дорогою через л1с i noriM на м1ст, а хтось 1ншин ■ред мостом.

антасгичний ракурс - т1льки зжман: закинута назад i неепинно нутий лшоть, ¡нша рука розпрямлена bBïk i занурена по зап'ястя (Ярчик 10М0вилися, щотут немае н1якого болю}, отже Карл-Йозеф любовно

хгоглядання Р1чки В1н ще раз новмв до себе "уйо, уйо негайно - \ атасЗ"1. почне роздуеатися й зипускэти отруйн! бульбэшки. Тим больше, що еже мому. Кликати цього алкогол!ка з його неврастен!чкою? Волшебник т1льки адн! мент1вськ! розбори - б1ль голови (Волшебник називав цей бшь трохи негайно - I атаез Тут ще був та кий додатковий фактор, як чуйка. А чуйка

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

к циганських |"валтуючих недоносгав, ним же, до реч1, цього вечора i аздоженуть i заб'ють, як уже забили того австрмця - берег довгий, Р1чку (gimme, gimme some money, ar, gimme some candy, some cigarette, увшись при цьомудеякими втратами: канапка номер три i канапка номер I циганва й не надто гнала за ним, але це нам тут i тепер В1Домо, а в його ! озирався; циганчуки, щоправда, трохи посвистали в його бёк, але тим i що вже встиг побачиги Ярчик: Цумбруннена в РЕчци мових чобгт) i покласти його обличчям догори на берез!, коло самого flicy. з i якби хтось там проходив, то обов'язково зауважив би потойбы цю гемнгги.

недавно прогулюзався тут берегом, грузько ступаючи по трав! своТми витягнути з води на берег його рмб'яче пертве т!ло з наповненими <нш1 вщтепер знаходять його i хай ним оШкуються - завтра. Можливо, за мостом? Можливо, вже за кшька годин bih приведе сюдн цшу зграю

упродовж яко1 eiH спершу був просто холоаним дощем. Але десь на ipyroro берега, то щодуху побили узб1ччям шосе вгору - в 6iK розвилки

на голову все оглушлив1ше, затуманюючи еннкоповану скоромовку на берез! - за попередн1ми даними - громадянин гноземноТ - числе ни i ста Wien - Вдень сголиця АворП - внаслщок удару тяжким предметом -

Рис. 3. ÂHmÎ3 тексту згiдно обраного ключового слова

5. Корекцп урившв (рис. 4).

Розроблена технолопя забезпечуе можливють користувачев1 (експер-ту), у раз1 виникнення тако! потреби, редагування вибраних програмою, згщ-но 3i заданим критер1ем, уривюв тексту.

запалала Тухля, прориваючи огненними язиками грубу nirbMy, що залягла над нею. Дим бовдурами покотився низом i вкрив долину. CrpixH трщали, злизуван! кровавим полум'ям. 1з crpix бухав огонь угору, немовто приадав, то гпдскакував, хотя ми досягнути до неба. Часом знов вщ пориву BiTpy полум'я сгелилося плазом, золотилося ¡скрами, мершлло, хзилювало, мов огняне озеро. Хруштупадаючих кроквю i criH котився глухо по долит; сгЬкки збокжя й она виглядали мов купи ро: влися б1ляв1 огневi пасма; дерева горьпи, мов св1чки, високо в поегря викидуючи

огнисге, горюче листя, мов можливкть редагування уривку Ьядала тепер мов пекло, залите огнем; з диким вереском гуляли й бгали серед

пожеж1 монгол и, вкидаючи _Ькал1бним сгогнанням гепнула додолу тдтята монгольськими со кирами прасгара

липа, свщок громадських коп них зйор!^. Повггря втухольсьюй кггловин! роз!гртося, мов справд1 в к1тл1, i живо схопився з rip сграшний BiTep, що кур бели в ¡скрами, рвав горючу солому i головрг'та кидав ними, мов огняними сгр1пами. Пот1к тухольський перший раз вщроду побачив такий блиск; перший раз po3irpiscfl в cboim холоди ¡м кам'яут лож!. Може, зо дв! години тривала пожежа, яюй з високих берепв н!мо, з виразом безсильних жалощ1в придивлялися тухольцк Tofli монголи почал и^гасити недогарки, вкидуючи fx у noTiK, i заходилися обкопувати cein Ta6ip широким ровом. Посеред табору в одый хвил1 висгавлено шатри для сгавйшн,- решта вшська мала ночувати nifl голим небом, на роз1гртй пожежею земли О тепер страшно тисли йдго!.. Ось i його батьмвська хата занялася, полум'я бухнуло попщ дах, обвилось огняною гадюкою поперед BiKHa, зазирнуло ¡рина до хати i ригнало вцтам велич&зний бовдур

щоб вгдтак самому поселитися в Беркуговм житж Мов нертвий, гляд!в Максим на пожежу: щось палахкоче й ние; а коли грянуло пожарище, повалилася покр1вля, розолися угла його р1дио!

13 [г] Уже погасла пожежа, повело гарячим, прким димом по долит, вже затих бойовий крик монголю, що п1д проводом Бурунди \ Тугара Вовка р1залися з

тухольцями при вивоз!, вже прояснилось I визв1здилось жчне небо над Тухольщиною \ спокжно зробилося в монгольсьюм табор!, а Максим усе ще лежав, мов мертвий, насеред дороги, проти згарищ своеТрщноТхати. Зор1 жалгёно глядши на його бл¡де, кровавыми пасмугами вкрите лице; груди його ледво-ледво тдшмалися - единий знак, що се лежав живий чоловк, а не труп. Вташм положению знайшли його монголи ! зразу дуже злякалися, думаючи, що вже н ежи вий, що задуши вся в пожежи Аж коли бризнули на нього водою, об мили його лице ! дали йому напитися, в!н глипнув очима ! позирнув довкола себе.

14 □ -До якого б!са нам переговоры? Коби борзо сошчко на небо, не так ми з ними переговоримося.

цд Б та хвил1 огниста блискавка з полудня до п1вноч1 роздерла темне небо, \ далеко в горах загурколв гр1м.

[£] Шсля високого си нього лгта небо осен! обвалюегься на степи важкою мрякою, туманами, I нема б1пыие вдалиж твого ясного собору, нема й далини, маленьким стае свпг. Вечори довп, темрява навкруги непроглядна, в корщнику «летючими мишами» свеять, дарма що металев! щогли високовольтно! над самою фермою гудуть.

17 р] Ранок зггряний, буйний, в!д завод!в захщний вггер жене розпатлаы дими, небо южить, сонце над садками не такоТ ясносп, як учора.

Add selected paragraph

Рис. 4. Ыдсжання частини уривку тексту, яка не е краевидом

Отже, узагальнюючи викладене, можна виокремити типи вхщних да-них та параметрiв програми, що необхщт для коректного аналiзу текстiв:

наб1р текспв (р1зноматття сл1в впливае на генерування словника словоформ);

наб1р ключових сл1в;

наб1р сформульованих експертом правил неч1тко! лопки, як мштять змшт, залежт в окремий момент часу вщ стану бази даних;

наб1р урившв текст1в, що в ручному режим1 вибрат експертом (користува-чем) та ввдповвдають обраному критерш.

3. Основи пiдходу до автоматизовано! побудови правил нештко"!

логiки.

Типи ypueKie meKcmie:

уривки не мштять жодного з ключових слiв (таких, зазвичай, е переважна бiльшiсть);

уривки мштять ключовi слова, проте не ввдповвдають обраному критерiю; уривки текспв мiстять ключовi слова i ввдповвдають обраному критерiю (приналежнiсть на початковому етапi встановлюеться лише на базi експер-тного рiшення, а над^ - на основi автоматизовано! системи вибору).

ГрадацП правил:

тколи (0 разiв вживаеться ключове слово в цьому тексту);

майже нiколи (в середньому в 0-5 % тексту);

рвдко (в 5-20 %);

середньо (в 20-30 %);

часто (в 30-50 %);

дуже часто (в середньому у бшьш н1ж 50 % тексту вживаеться ключове слово).

Правила нечтког логжи.

Якщо в уривку багато ошв, якi вiдповiдають обраному критерш, то цей уривок можна автоматично вибрати таким чином: Ш

(слово (Х) не належить до загальновживаних слiв)

АКБ

(слово (Х) рщко вживаеться в уривках, якi мютять ключовi слова, але не вщповщають бажаному типу) ОЯ

(слово (Х) майже школи не вживаеться в уривках, яю мiстять ключовi слова, але не вщповщають бажаному типу) ОЯ

(слово (Х) нiколи не вживаеться в уривках, яю мютять ключовi слова, але не вщповщають бажаному типу)

АКБ

(слово (Х) часто належить до уривюв, яю мiсять ключовi слова i вщ-повiдають бажаному типу).

4. Модель побудови словника словоформ.

Модель автоматизовано! побудови словника загальновживаних ^в застосовуеться для подальшого пошуку усiх уривюв текств, що мiстять усi форми обраного ключового слова. Також передбачено можливють здiйснення пошуку не за окремими словами, а використовуючи ус слова одночасно. Тобто, iснуе можливють знайти усi уривки в текст, в яких хоча б один раз мютилося будь-яке слово, що характеризуе критерш "краевид". 1нтерфейс побудови словника словоформ зображено на рис. 5.

\rtew ¡п аН 11А

\Ziew ¡п а II ЕМ

■ небо 14 1 0.500

ш неба 3 1 0.500

■ неб1 4 1 0.500

в небом 2 2 | 0.333 |

□ небоже 2 0.250

□ небезпек 1 , 5 0.167

сГ небагато • „г' 5 0.167

я небозвгд 5 0.167

ёП N небезпеки межа авто в и бору ■ 1 6 0.143

\ X.

4 \

весн

И весна \ 0.500

I3

И весни ^^^^ виб1р експерта - 1 ''''-.., 0.500

И весною 11 2 I 0.333 |

Ш весняну 3 0.250

И весняне 3 0.250

И / весняж // 3 0.250

■ / весняний / - 4 0.200

Е У щовесни добавления набору 5 0.167

□ ровесниць правил пошуку 7 0.125

© 01ед Ки1уп5ку

Рис. 5. Процес генераци словоформ

Принцип наближеност до кореня ключового слова застосовуеться у разi автоматично! вибiрки ^в. Метод порiвняння, близький до методу Ле-венштейна, використано з метою визначення показника мiри наближеностi. Враховуючи специфiку вхiдних даних, класичний метод Левенштейна було замiнено модифiкованим для оптимiзацi! процесу опрацювання. Корiнь i слово, що його мютить, i потенцiйно може бути словоформою, становлять вхщт данi. Порiвняно з методом Левенштейна, що передбачае три види операцш (видалення, замiна та внесення символiв), кожна з яких може мати рiзнi ваго-вi коефiцiенти, розроблений метод передбачае лише одну операцш, а саме додавання л^ер. Також наш метод передбачае градацш вагових коефщенпв (рис. 6).

Рис. 6. Схема роботи алгоритму

Ми застосували правило, зпдно з яким додавання символiв перед ко-ренем слова та пiсля нього, е двома незалежними мiж собою операщями, кожна з яких певним чином впливае на результуюче значення (Кь, Ка). Вщ-стань мiж двома символьними послiдовностями вiдображено шляхом засто-сування коефiцiента вiдмiнностi ^в, що обчислюеться за формулою:

К=ПЬхКЬ+Па*Ка (1)

де Кь, Ка - коефщенти впливу у позицi! перед та шсля кореня вiдповiдно; пь, па - кiлькiсть вiдповiдних вставлень.

Серед переваг цього методу можна зазначити те, що алгоритм визначення вщсташ мiж символьними послщовностями е швидшим порiвняно з методом Левенштейна. Впроваджений метод е ефективним для визначення словоформ, що мютять псевдо-кореневi частки ^в. 5. Поняття метричного простору.

Метричний прос^р М (метрика) - це множина точок з функщею вщ-

станi:

Л: МхМ ^Я, (2)

де Я визначае множину дiйсних чисел.

Для будь-яких х, у, I е М функщя повинна задовольняти таю умови:

• а(х, у) > 0

• д(х, у) = 0 - тод1 1 тшьки тод1 коли х = у

• д(х, у) = д(у, х) - симетричтсть

• д(х, 2) < д(х, у) + д(у, 2) - аксюма трикутника

Для автоматично! селекцй було використано правило неч^ко! логiки, в якому застосовуються результати другого етапу, тобто обчислеш вщсташ мiж двома символьними послiдовностями.

Нехай множина E - множина уЫх слiв, якi мають частку з поточним коренем, x - елемент ще! множини. Характеристика R слугуе для автоматично! селекцi!' i визначаеться згiдно з формулою

Я =-1--(3)

показник в1дмтност1 +1

Отож, тдмножина А множини Е визначаеться як

А = {А(х) /х}, (4)

де А(х) - характеристична функщя належностi, що набувае значення у певнш множинi М (Ме [0,1]).

Множина А - це слова, як будуть автоматично додаш, тобто в штер-фейс цi слова буде вибрано до здшснення користувачем будь-яких дiй. Найбшьш оптимальним значенням для одержання усшшного результату е число 0,333, що виведене експериментальним способом. Графiк принципу автоматично! селекцй представлено на рис. 7.

Мл-

0.333 1 X

Рис. 7. Графш автоселекци

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

На наступному еташ користувач автоматично коригуе сформоваш результати шляхом видшення тих ^в, якi попередньо не були видшеш автоматично, однак е словоформами. I навпаки, зшмаючи видшення у разi помилко-вого автоматичного вiдбору (додатковим допомiжним елементом е перша цифрова колонка, в якш вiдображено частоту вживання кожного зi слiв в уЫх художнiх текстах бази даних). Таким чином, набiр словоформ ключових ^в формуеться автоматичним способом, що щкавить користувача.

6. Висновки. У цш роботi здiйснено реалiзацiю та апробацш розроб-леного методу аналiзу текс^в засобами нечiтко! логiки та бази експертних рь шень. Апробовано програмний заЫб автоматизованого генерування словоформ ключових ^в. Представлено новий шдхщ до аналiзу тексту на основi побудови словника словоформ.

Даний словник будуеться автоматизовано на основi набору текстiв та списку ключових ^в. Такий пiдхiд дае змогу знайти вичерпну кшьюсть ^в, необхiдних експерту для проведення дослщження.

В ходi роботи було здшснено модифiкацiю класично! функцi! Левен-штейна з метою оптимiзацi! !! роботи та з урахуванням вхщних даних. Уш-версальнiсть методу полягае у можливост опрацювання текстiв рiзноманiт-

них тематик, а також текслв, доступних шшими мовами, OKpiM украшсько! та англшсько!.

Розроблену модель пошуку словоформ також може бути використано з метою подальшого ущшьнення тексту.

Л1тература

1. Левенштейн, В. Двоичные коды с исправлением выпадений, вставок и замещений символов / Доклады Академий Наук СССР, 1965. 163.4. - С. 845-848.

2. Schumaker, R., Hsinchun, C. Textual Analysis of Stock Market Prediction Using Breaking Financial News: The AZFinText System / Artificial Intelligence Lab, Department of Management Information Systems The University of Arizona. 2010.

3. Piatt, J.C. Fast training of support vector machines using sequential minimal optimization, in Advances in kernel methods: support vector learning. 1999, MIT Press. - P. 185-208.

4. Tay F. and Cao L. Application of Support Vector Machines in Financial Time Series Forecasting. Omega, 2001. 29. - P. 309-317.

5. Joachims, T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features, in Proceedings of the 10th European Conference on Machine Learning. 1998, Springer-Verlag. - P. 137-142.

6. Vanschoenwinkei, B. A discrete Kernel Approach to Support Vector Machine Learning in Language Independent Named Entity Recognition. 2003. [Electronic resource]. - Mode of access http://www.citeseer.ist.psu.edu/682269.html: Computational Modeling Lab, Vrije Universiteit, Brussel.

7. Pai, P.F. and C.S. Lin. A hybrid ARIMA and support vector machines model in stock price forecasting. Omega, 2005. - Vol. 33(6). - P. 497-505.

8. Lavrenko, V., M. Schmill, D. Lawrie, P. Ogilvie, D. Jensen, and J. Allan. Language Models for Financial News Recommendation. Proceedings of the 9th International Conference on Information and Knowledge Management. 2000.

9. Cho, V., B. Wuthrich, and J. Zhang. Text Processing for Classification // Journal of Computational Intelligence in Finance, 1998. - P. 26.

Кулинский О. С. Автоматизированная обработка естественных текстов с использованием средств искусственного интеллекта

Даны основы новейших методов автоматизированной обработки естественных текстов с помощью средств искусственного интеллекта. Рассмотрены подходы к автоматизированному анализу естественных текстов средствами нечеткой логики на примере литературно-художественных изданий. Поданы основы метода первичной подготовки данных, формирования нечетких выводов и получения словаря словоформ. Предлагается осуществлять автоматизированный анализ пейзажей в литературно-художественных изданиях путём использования внедренной технологии Content Auto Analyzer.

Ключевые слова: анализ текстов, сравнение слов, словарь словоформ, нечеткая логика, метод Левенштейна, автоматизированная обработка.

Kulynsky S.I. Automated processing of natural texts by means of artificial intelligence

The fundamentals of innovation methods to the automatic processing of natural texts by means of artificial intelligence are provided. The approaches to the automation analysis of natural texts through fussy logic are viewed on the basis of prosaic texts. The fundamentals of the initial arrangement of data, output of fuzzy conclusions and compilation of the dictionary of word forms are given. The automation analysis of sceneries within prosaic texts is made through the implementation Content Auto Analyzer technology.

Keywords: texts analysis, words comparing, word forms dictionary, fuzzy logic, Le-venshtein method, automated processing.

i Надоели баннеры? Вы всегда можете отключить рекламу.