Научная статья на тему 'Виявлення ключових слів на основі методу контент-моніторингу україномовних текстів'

Виявлення ключових слів на основі методу контент-моніторингу україномовних текстів Текст научной статьи по специальности «Экономика и бизнес»

CC BY
784
129
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
текст / україномовний / алгоритм / контент-моніторінг / ключові слова / контент-аналіз / стеммер Портера / лінгвістичний аналіз / синтаксичний аналіз / text / a Ukrainian / algorithm / content monitoring / keywords / content analysis / Porter stemmer / linguistic analysis / parsing / текст / украиноязычный / алгоритм / контент-мониторинг / ключевые слова / контент-анализ / Стеммер Портера / лингвистический анализ / синтаксический анализ

Аннотация научной статьи по экономике и бизнесу, автор научной работы — Бісікало О. В., Висоцька В. А. 2.

Вирішено завдання розробки алгоритмічного забезпечення процесів контент-моніторінгу для розв’язання задачі визначення ключових слів україномовного тексту. Розглянуто формальне обґрунтування методу контент-моніторінгу тексту за допомогою стеммера Портера, в основу модифікації стемінгу покладено відомі результати класифікації морфемної і словотвірної структури дериватів української мови, виявлення закономірностей комбінаторики афіксів, моделювання структурної організації дієслів і суфіксальних іменників, а також морфонологічних модифікацій у процесі словозміни дієслова та словозміні і словотворенні прикметників української мови. Проведено декомпозицію методу та розроблено алгоритмічне забезпечення його основних структурних складових за результатами контент-аналізу тексту. Теоретично виявлено способи покращення показників ефективності пошуку ключових слів, зокрема щільності ключовиків у тексті. На основі розробленого програмного забезпечення отримано результати експериментальної апробації запропонованого методу контент-моніторінгу для визначення ключових слів в наукових текстах технічного профілю. Виявлено, що для обраної експериментальної бази зі 100 робіт найкращих результатів за критерієм щільності досягає метод аналізу статті без початкової обов’язкової інформації і без списку літератури, але із перевіркою уточнених заблокованих слів та уточненого тематичного словника.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

IDENTIFYING KEYWORDS ON THE BASIS OF CONTENT MONITORING METHOD IN UKRAINIAN TEXTS

The task of developing algorithmic providing processes of content monitoring for the problem solution of determining a keyword in Ukrainian text is solved. The formal justification of content monitoring in text using Porter stemmer is considered. The basis of the stemming modification is the known results of morpheme and word building structure derivatives classification in Ukrainian language, affix combinatorics patterns identification, modeling the structural organization of verbs and suffixal nouns and morphonological modifications in the verb inflection and word formation and inflection of adjectives in Ukrainian language. The method decomposition is conducted and the algorithmic software of its basic structural components of the text content analysis results is developed. Theoretically means to improve the performance indicators of keywords search are identified, including keyword density in text. Based on the software obtained results of experimental testing of the proposed method of content monitoring to keywords identification in scientific texts of technical profile are developed. It is detected that the chosen experimental base of 100 works the article analysis method the without the initial required information and without the reference list reaches the best results for the density criterion, but with the specified blocked words and qualifying thematic dictionary verification.

Текст научной работы на тему «Виявлення ключових слів на основі методу контент-моніторингу україномовних текстів»

УДК 004.9

Бiсiкало О. В.1, Висоцька В. А.2

1Д-р техн. наук, професор, декан факультету комп'ютерних систем i автоматики Внницького национального технчного

унверситету, Вiнниця, УкраТна

2Канд. техн. наук, доцент кафедри «1нформаЦйн системи та мереж» Национального унверситету «Льввська

полтехнка», Львiв, УкраТна

ВИЯВЛЕННЯ КЛЮЧОВИХ СЛ1В НА ОСНОВ1 МЕТОДУ _КОНТЕНТ-МОН1ТОРИНГУ УКРА1НОМОВНИХ ТЕКСТ1В_

Вирiшено завдання розробки алгорит]шчного забезпечення процесiв контент-мошторшгу для розв'язання задачi визначення ключових ^в укра!номовного тексту. Розглянуто формальне обгрунтування методу контент-монiторiнгу тексту за допомогою стеммера Портера, в основу модифжаци стемiнгу покладено вiдомi результати класифжаци морфемно! i словотвiрно! структури дерива^в укра!нсько! мови, виявлення закономiрностей комбшаторики афiксiв, моделювання структурно! оргашзаци дieслiв i суфiксальних iменникiв, а також морфонолопчних модифiкацiй у процесi словозмши дieслова та словозмiнi i словотворенш прикметникiв укра!нсько! мови. Проведено декомпозищю методу та розроблено алгоритмiчне забезпечення його основних структурних складових за результатами контент-аналiзу тексту. Теоретично виявлено способи покращення показниюв ефективностi пошуку ключових слiв, зокрема щiльностi ключовигав у текстi. На основi розробленого програмного забезпечення отримано результати експериментально! апробаци запропонованого методу контент-монiторiнгу для визначення ключових ств в наукових текстах техшчного профiлю. Виявлено, що для обрано! експериментально! бази зi 100 робiт найкращих результатiв за критерieм щiльностi досягае метод аналiзу статтi без початково! обов'язково! шформаци i без списку лiтератури, але iз перевiркою уточнених заблокованих ^в та уточненого тематичного словника.

Ключовi слова: текст, укра!номовний, алгоритм, контент-монiторiнг, ключовi слова, контент-аналiз, стеммер Портера, лiнгвiстичний аналiз, синтаксичний аналiз.

НОМЕНКЛАТУРА

1Т - шформацшш технологи;

СЕКК - система електронно! контент-комерцп;

е-б1знес - електронний б1знес;

Е-комерщя - електронна комерщя;

ПЗ - програмне забезпечення;

X = {хьx2 ...,хПх } - множина вх1дних даних xi e Xз р1зних шформацшних ресурмв або вщ модератор1в при i = 1, Пх ;

C = {ci,С2 ...,cnc } - множина комерцшного контен-

ту сг е С при г = 1, пс;

С0 - сформований комерцшний контент;

С1 - вщфшьтрований комерцiйний контент;

С2 - вщформатований комерцiйний контент;

С3 - комерцшний контент з визначеною множиною ключових ^в;

< Пс,UG,ик > - набiр критерпв для текстового контенту X;

Пс = {Пс1,Пс2, —,ПСпс } - множина критерпв ство-рення комерцiйного контенту;

пО = {П01,П02, —,П0По } - множина критерпв зби-рання комерцiйного контенту (фiльтри);

Пк = {Пк1,Пк 2,Пк 3,Пк 4} - множина критерпв визначення ключових ^в в контентi;

Пк1 - ушкальшсть термiв - iменникiв, словосполу-чень iменникiв або прикметника з iменником серед мно-жини ^в контенту;

П к 2 - частота появи ключових ^в комерцiйного контенту;

Uкз - кшьюстъ знаюв без пробЫв для Noun e UK1 при Unicity > 80;

U к 4 - критерш формування множини ключових сл1в;

T = {ti, t2 ..., tnT } - час t p e T транзакцп формування контенту при p = 1, nT ;

ao : (X,Uc ,T) ^ Co - оператор створення контенту -в1дображення даних з р1зних джерел у контент, який вщр1зняеться актуальшстю;

ai : (X,Uq,T) ^ Co - оператор збирання контенту -ввдображення даних вщ автор1в у контент, який вщр1зняеть-ся достов1ршстю та актуальшстю;

a2 : (Co,T,UbCi - оператор виявлення дублю-вання контенту - вщображення контенту в новий стан, який вщр1зняеться ушкальшстю;

аз : (Ci, Ufr , T) ^ C2 - оператор форматування контенту - в1дображення контенту в новий стан, який в1дмшний вщ попереднього форматом подання;

a 4 : (C2, Uк, T C3 - оператор виявлення ключових сл1в контенту - вщображення контенту в новий стан, який в1др1зняеться наявшстю множини ключових сл1в, що загально описують його зм1ст.

ВСТУП

Активний розвиток мереж1 1нтернет сприяе зростан-ню потреб в отриманш оперативних даних виробничо-го/стратепчного характеру i реал1зацп нових форм шфор-мацшного обслуговування через сучасш 1Т е-б1знесу [i-3]. Документована шформащя, тдготовлена в1дпов1дно до потреб користувач1в, е шформацшним продуктом або комерцшним контентом, наприклад, електронний мате-р1ал 1нтернет-видавництва, маркетингов1 дослщження,

© Бiсiкало О. В., Висоцька В. А., 20i6 DOI i0.i5588/i607-3274-20i6-i-9

консалтингом послуги тощо. Дп для забезпечення кори-стувач1в комерцшним контентом е шформацшною по-слугою. 1нтернет-ринок е сукупшстю економ1чних, пра-вових, оргашзацшних i програмних вщносин з продажу шформацшних продукпв/послуг мiж виробниками, по-стачальниками та користувачами [1-3].

Комерцiйний контент визначають як:

- вмiст iнформацiйних ресурмв в СЕКК;

- об'ект бiзнес-процесiв в СЕКК, наприклад, стаття, ПЗ, книга тощо;

- структурована та лопчно завершена множина да-них, що е об'ектом взаемовiдносин мiж користувачем та СЕКК;

- набiр електронних даних без наперед визначено! структури;

- дат комерцшного призначення, що неподшьш в часi;

- основний чинник формування областi дiяльностi, функцiонування та призначення СЕКК.

Сьогодш е-комерцiя е об'ективною реальнiстю та пер-спективним бiзнес-процесом. 1нтернет е бiзнес-середо-вищем, а комерцiйний контент е товаром з найбшьшим попитом у ньому та основним об'ектом процесiв елект-ронно! контент-комерцп. Комерцiйний контент можна зразу замовити, оформити, оплатити i отримати on-line як товар. Через 1нтернет продають весь спектр комерцш-ного контенту - науковi та публiцистичнi статл, музика, книги, фiльми, фото, ПЗ тощо. Вщомими корпорацiями, якi реалiзують електронну контент-комерцiю, е Google через Play Market, Apple - Apple Store, Amazon -Amazon.com [1].

Бшьшгстъ рiшень та дослiджень зроблено на рiвнi ре-альних прикладних проектiв, а сучаснi СЕКК побудоваш за закритим принципом як разовi проекти та орiентованi на реалiзацiю комерцiйного контенту, створеного за !х межами. Тому для проектування, створення, впровад-ження та супроводу СЕКК потребують розробки загальнi методи та шформацшш технологи формування, управ-лшня та супроводу комерцiйного контенту. З огляду на важливiсть для функщонування СЕКК ключових слiв об'ектом дослщження обрано процес виявлення ключових ^в в укра!номовних текстах у режим реального часу, предмет дослщження - методи та моделi контент-мош-торiнгу таких текстiв.

1 ПОСТАНОВКА ЗАДАЧ1

Нехай укра!номовний текстовий контент X з рiзних джерел шформацп у виглядi X = {Х1,Х2 ...,xn } мае ста-

ти основою в^фшьтрованого контенту С\, в^формато-ваного контенту С 2 та його модифжацп С3 з визначеною множиною ключових слiв KeyWords е и к4. За вщоми-ми критерiями < и с, и^ ,и к > потрiбно визначити оператор виявлення ключових слiв комерцшного контенту а 4 : (С 2,и к ,Т С3 та експериментально перевiрити параметр частоти появи ключових ^в комерцiйного контенту и к 2 за рiзними режимами роботи алгоритмч-ного забезпечення запропонованого методу контент -мошторшгу.

2 ОГЛЯД ЛГГЕРАТУРИ

Сталою сучасною тенденщею можна вважати пос-тiйний рiст темпiв виробництва текстового контенту в 1нтер-нет-простср Цей процес е об'ективним i позитивним, але виникла проблема - прогрес у галузi виробництва текстового контенту призводить до пониження загального рiвня iнформованостi потенцiйного користувача 1нтернет-про-стору [1-3]. Крiм збшьшення обсяпв текстового контенту до масштабiв, яке унеможливлюе його безпосередне оп-рацювання та помiтно гальмуе його поширення виникае низка специфiчних проблем (табл. 1).

Негативш чинники у формуванш текстового контенту ускладнюють процес пошуку необхiдних даних при скануванш рiзних джерел шформацп. Збшьшення фiзич-ного обсягу та змшшсть спiввiдношення актуальностi/ динамiки контентних потоюв (наслiдок систематичного або нерегулярного оновлення) призводить до виникнен-ня дублювання, шформацшного шуму та надмiрностi результатiв пошуку контенту. Охоплення та узагальнен-ня великих динамiчних потокiв контенту, яю неперервно генерують в 1нтернет-джерелах, вимагае яюсно нових методiв/пiдходiв пошуку - таких як контент-мошторинг (рис. 1) на осжда аналiзу ключових ^в [1-32]. Вхiдною iнформацiею для контент-мошторингу е текст на при-роднш мовi як послiдовнiсть символiв, вихщна шформа-цiя - це таблиц роздiлiв, речень i лексем аналiзованого тексту. Контент-монiторинг е програмним засобом ав-томатизацп знаходження найбiльш важливих складових в потоках контенту за допомогою алгоритмiв стемiнгу [132]. Це змютовний аналiз потокiв контенту з метою пос-тiйного отримання необхiдних якiсних/кiлькiсних зрiзiв на протязi наперед не визначеного промiжку часу.

Мета роботи полягае у створенш алгорштшчного забезпечення методу контент-мошторингу укра1номовних текстiв на основi стеммера Портера та його застосуванш для виявлення значущих ключових слiв. Для досягнення

Таблиця 1 - Основш негативнi чинники у формуваннi текстового контенту

Назва Основна причина Ршення

1нформац1йний шум Структуровашсть масив1в контенту. Фшьтри, контент-мошторинг, анашз сайту, контент-анашз.

Паразитичний контент Поява в якост додаткiв. Фшьтри, контент-мошторинг, контент-анатз.

Нерелевантшсть контенту Невщповщшсть потребам користувач1в. Створення анотовано! бази даних, пошукових образ1в первинного контенту та !х кластеризащя, контент-анашз.

Дублювання контенту Дублювання в джерелах. Контент-анашз, сканери i фшьтри на баз1 статистики та критерив.

Нав1гац1я в потощ контенту Швидкий рют обсягу i поширення контенту. Анашз сайту, фшьтри, контент-мошторинг, контент-анашз.

Надм1ршсть пошуку Дублювання i нерелевантшсть. Анотований пошук, контент-анашз та реферування.

Рисунок 1 - Структурна схема процесу к

мети пропонуеться розв'язати такi задачi дослщження: провести контент-аналiз текстово1 шформацп; забезпе-чити визначення множини ключових ^в; провести лiнгвiстичний аналiз текстового контенту; розробити син-таксичний аналiзатор текстового контенту.

3 МАТЕР1АЛИ I МЕТОДИ

Головною складовою контент-монiторингу е контен-тний пошук та контент-аналiз тексту. Контент-аналiз при-значений для пошуку контенту в масивi даних за змюто-вими лiнгвiстичними одиницями (алг 1). Одиниця рахун-ку е кшьюсною мiрою одиницi аналiзу, що дозволяе рееструвати частоту (регуляршсть) появи ознаки кате-горп аналiзу в текста (кшьюсть певних слiв або 1х поеднань, рядкiв, друкованих знаюв, сторiнок, абзацiв, авторських аркушiв, площа тексту тощо).

Алгоритм 1. Контент-аналiз текстового контенту.

Етап 1. Визначення набору критерпв < Пс,Пд > для текстового контенту X.

Крок 1. Формування набору критерпв як тип джерела (форум, електронна пошта, 1нтернет-газета, чат, 1нтер-нет-журнал); тип контенту (стаття, е-лист, банер, комен-тарiй); учасники комушкацп (вiдправник, одержувач, ре-ципiент).

Крок 2. Визначення розмiру (мiнiмальний обсяг або довжина), частоти появи, способу/шсця розповсюджен-ня та час появи контенту.

Крок 3. Фiльтрування зпдно сформованого набору критерпв контентного потоку та збершання щентифжо-ваного релевантного контенту X.

Етап 2. Контент-аналггичний вiдбiр. Формування виб-iрковоl сукупностi контенту X' за критерiями обмеже-но1 вибiрки < Пс, Па > з бшьшого масиву X.

Етап 3. Виявлення змютовних одиниць аналiзу < ПС ,П'С > текстового комерцшного контенту X' (сло-восполучення, речення, тема, iдея, автор, персонаж, со-цiальна ситуацiя, частина тексту, кластеризована за змгстом категорп аналiзу) за модифiкованим алгоритмом Потера. Вимоги до вибору лшгвютично1 одинищ аналь зу: велика для штерпретацп значення; мала, щоб не штер-претувати багато значень; легко щентифшуеться; кiлькiсть одиниць велика для проведення вибiрки.

Етап 4. Видiлення одиниць рахунку аналiзу текстового контенту X'.

Крок 1. Якщо одиницi рахунку < Пс,Пд > збшають-

ся з одиницями аналiзу < П'с,Пд >, то знаходять частоти появи видшено! змютовно1 одиницi, шакше перейти до кроку 2.

ент-мошторингу текстових масив1в даних

Крок 2. Модератор на осжда аналiзованого контенту висувае та доповнюе одиницi рахунку < Пс,Пд >, на-приклад, протяжнiсть текспв; площа тексту, заповнена змiстовними одиницями; кшьюсть рядюв (абзацiв, знакiв, колонок тексту); розмiр/вид файлу; кiлькiсть рисунюв з певним змiстом/сюжетом тощо.

Етап 5. Порiвняння змiстовних одиниць аналiзу < П'с,Пд > з одиницями < Пс,Пд >.

Крок 1. Класифiкацiя за угрупованнями iз ощненням ваги змютовних категорiй в загальному обсязi тексту. Класифша-тором е загальна таблиця, в яку зведенi всi категорй аналiзу i одинищ аналiзу. Фжсують одинищ виразу катеroрiй.

Крок 2. Статистичн розрахунки зрозумiлостi та ат-рактивностi контенту.

Етап 6. Розроблення iнструменту контент-аналiзу.

Крок 1. Створення закодованого протоколу контенту X' для компактност подання даних та швидкого ж^внян-ня результатiв аналiзу рiзного контенту.

Крок 2. Заповнення протоколу контенту X' властиво-стями (автор, час видання, обсяг тощо).

Крок 3. Заповнення протоколу контенту X' тдсум-ками його аналiзу (кiлькiсть вживання в ньому певних одиниць аналiзу i висновки щодо категорiй аналiзу). Протокол кожного контенту X' заповнюеться на осжда тдра-хунку даних всiх його реестрацшних карток.

Етап 7. Розроблення таблиц контент-аналiзу. Тип таблиц визначають у виглядi системи скоординованих i су-бординованих категорiй аналiзу: кожна категорiя (питан-ня) передбачае ряд ознак (вщповщей), за якими кванти-фiкуеться змiст тексту X'.

Етап 8. Розроблення кодувально1 матриц! кDнтент-аналiзу

Крок 1. Якщо обсяг вибiрки i 100 одиниць, то аналь зуеться набiр матричних листiв, iнакше виконати крок 2.

Крок 2. Якщо вибiрка < 100 одиниць, то проводиться двовишрний аналiз. В цьому випадку для кожного контенту X' формуеться кодувальна матриця.

Етап 9. Проведення аналiзу тексту X' зпдно створе-них кодувальних матриць.

Етап 10. 1нтерпретащя результата а0 : (X,Пс,Т) — С0

та а1 : (X,Пд, Т) — С0. Виявляють i ощнюють характеристики контенту X' на основi статистичного набору тдрахо-ваних коефкценпв за певний перiод часу на визначену кате-горго. Охоплюе вс здобуп фрагменти тексту С0, висновки спираються не на частину результатiв, а враховуються всi без винятку. Фiльтрування а3 : ((П,Т)—> С2 та фор-матування а3 : (О^Пр^,Т)— С2 комерцiйноID контенту

Застосування контент-анатзу при мониторингу 1нтернет-джерел даних дозволяе автоматизувати процес знаходження найбiльш важливих складових в потоках контенту при вiдборi даних з цих джерел. Це усувае дублювання контенту, шфор-мацшний шум, паразитичний контент, надшртсть результата пошуку тощо. Даний метод застосовують в подальших етапах формування контенту для отримання бiльш точного релеват-

ного результату - створення унiкального комерцiйного контенту, який користуеться попитом серед користувач1в СЕКК.

З метою реалваци контент-аналiзу текстових масив1в даних для формування множини ключових сл1в було розроблено про-граму на основi стеммера Потера, адаптованого до укра1нсько1 мови (алг. 2), а також таблиц основ основних тематичних сл1в для подальшо! рубрикацп, текстiв, що дослщжуються (табл. 2). Блок-схему алгоритму наведено на рис. 2.

Таблиця 2 - Основш складовi программ формування ключових ^в

№ Назва Пояснення

1 Filter список потенцшних ключовиюв з аналiзованого тексту з розрахунком вiдносноi частоти !х появи в текст!

2 Input вхщний текст для аналiзу та визначення ключовиюв

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 Format тестувальний вiдформатований вхiдний текст

4 Parser парсер, адаптований до украшсько!

5 Stemer правила стеммера Потера, адаптований до украшсько!

6 Object класи об'екпв для стеммера Потера

7 Resvoc список ключовиюв (частоти вживання яких в текст! попали у визначений дiапазон згщно алг. 2 на рис. 2 та вщповщають тематичному словнику Thematic.txt)

8 Thematic тематичний словник (формуеться модератором)

9 Vocab список ств з аналiзованого тексту з розрахунком абсолютно! частоти !х появи в текст!

Кiнець

Рисунок 2 - Структурна схема алгоритму статистичного аналiзу вживання ^в в текст

Алгоритм 2. Визначення множини ключових слiв

Етап 1. В Input зберегти текст, який необхвдно дослiдити.

Етап 2. Вщформатувати вхiдний текст (однаковi апос-трофи, забрати зайвi символи, якi не входять в абетку, окрiм службових як пробiл, апостроф). В Format зберегти текст, який вщформатовано.

Етап 3. При необхщноста редагувати тематичний словник Thematic.

Етап 4. Запустити процес визначення множини ключових ^в.

Крок 1. Будуемо спочатку алфавiтно-частотний словник (абсолютш частоти) - Vocab.

Крок 2. Будуемо попм з Vocab алфавгшо-частотний словник (вiдноснi частоти) ^в, тобто список слiв за алфавитом та ïх вщносш частоти вiдносно загального обся-гу тексту.

Крок 3. Будуемо скорочений список ^в, частоти яких вщпов^ають умовам формування ключовикiв Uk = {UK1, Uk2, Uk3, Uk4 }, тобто список потенцшних ключовиюв - Filter.

Крок 4. Звiряемо сформований скорочений список з Filter зi списком Thematic та в^повщно формуемо но-вий список входжень потенцшних ключовиюв з Filter в Thematic - список ключовиюв в Resvoc.

Цей алгоритм не враховуе пошук ключовиюв по основах, у зв'язку з цим - результати дослщження текстав на формування ключових ^в були негативт, зокрема:

- ввдсутт взагат ключовi слова у вим дному файлi (знай-денi слова не вдаовщали вимогам до ключових ^в - не попадали в дiапазон частоти вживання в текста);

- в список ключових ^в попали службовi слова, дiеприкметники, дiеслова, як нiяк не можуть бути клю-човими словами (некоректно прописана база правил заб-локованих слiв);

- були присутш декiлька слiв з одною основою, але з рiзними флекиями (некоректно прописана база правил визначення основ, наприклад, пошук - пошуковими, ко-ристувач - користувачам, рейтинг - високорейтингово-го, рейтингу, контент - контентного, iнформацiя - шфор-мацiйний, або були присутнi граматичш помилки).

Тому був розроблений шший алгоритм знаходження множини ключових ^в з врахуванням основ тематич-них слiв (рис. 3), та розмщений у вiдкритому доступi за адресою http://victana.lviv.ua/index.php/kliuchovi-slova. 4ЕКСПЕРИМЕНТИ

Лiнгвiстичною базою для експериментального дос-лiдження обрано 100 наукових публiкацiй Вiсника Нацю-нального ушверситету «Львiвська пол^ехшка» серiï «1нформацшш системи та мережЬ> (http:// science.lp.edu.ua/sisn), двох номерiв 783 (http:// science.lp.edu.ua/SISN/SISN-2014) та 805 (http:// science.lp.edu.ua/sisn/vol-cur-805-2014-2). Аналiз статистики функцюнування системи виявлення множини ключових слiв iз 100 наукових статей було проведено у два етапи, зокрема:

1. Проаналiзувати вм статтi iз перевiркою загальних заблокованих слiв та тематичного словника.

2. Проаналiзувати всi стагтi iз перевiркою уточнених заблокованих слiв та уточненого тематичного словника (з бiльшою юльюстю запуску системи формуеться мно-жина невщомих слiв (вiдсутнiх i в тематичному словнику i в множит заблокованих).

О^м того на кожному етат перевiрка вiдбувалась в два кроки для кожжй стагтi: аналiз всiеï стагтi (рис. 4а) та аналiз стагтi без початку (назва, автори, удк, анотацп дво-ма мовами, авторськi ключовi слова двома мовами, м^це роботи автс^в) i без списку лiтератури (рис. 4б) для того, щоб визначити похибки точноста формування множини ключових ^в.

Рисунок 3 - 1нформацшний ресурс визначення ключових слiв з тексту

Генераци ключових сшв

DMÖPSTH МОИ KOHTthTV: И yKDSiHCfcKS ИЛнГЛт&ка П Г«1нСьйа

н«р: (Укратнсьга) (P.ccKunj

О

'М1н.езгз слова.

Ключом слова:

Встугт

Cwacui Beo-raneoei мютять велий обсягн мультимеДино* ¡кфоемацн. яка. як прэвнло, подаетъся корнстумчуу вигляд! окремих тематика еклоэтцями. Din ьтпсть ¡нформащйких си а ем працюють за принципом, коли користувач

формул ю с запит на отримання певнот тформацп, а (нформащйна система

виконуе його та повертае результат. При цьому на релеваитн1сть результату сушво впливаютъ обсят ¡нформацмного наловмення, кого олнстз метод формування запит>

одним 1э метод в, ян даютъ эмогу отринзтиточнший результат, с метод адаптивного формувакня сгрукгурн DeC-ranepei. то Груитуетъся на використанн1

користувач. eeö-ranepei, екслозищя. жтерес, предмет. 1нформац(йний. ткзеить, тематика, структура,

Очисгитп

Пояшрювангстъ ■ТП1 Е. рзз:

корнсгдоч - 3»>: вес -гал ер е| ■ 51: е ксл: зы ц| • ■ |!-тер ее ■ А 4: пр вдмет - ; ¡нформэщйннй - 20: напоенення-19. цкэшгть -3 -см,инк: -7 л::кт.р: -5. программ ий -1^1 система - 1-' кшьысть - 1П

а б

Рисунок 4 - Результати перевiрки статтi: а - приклад аналiзу всiеi' статтi, б - приклад аналiзу статтi без початку i без списку

лператури

5 РЕЗУЛЬТАТИ

Анал1з статистики здшснювався за принципом по-р1вняння множини авторських ключових сл1в (визначеш та прописан в статта самими авторами цих робп) множини ключових сл1в визначених за першим та другим етапами з р1зними вагами сл1в (але бшьше, за визначене в опцп *Мт.вага слова, % в межах [1,5]) з повними та скороченими текстами робгт (табл. 3) при середньому арифметичному значенн авторських ключових словос-получень / сл1в бшя 5 (4,77), яю в середньому утвореш з 10 (9,82) сл1в. Вага слова розраховуеться як вщносна частота появи основи цього слова у всьому текста. В табл. 4 присутн таю позначення, як A (всього ключових сл1в,

Таблиця 3 - Статистичш данi дослiджених обсяIiв текс™ статей

Назва обсягу ciani Крок 1 Крок 2

Всього Середне арифметичне Всього Середне арифметичне

Сторiнок 956 9,56 828 8,28

Абзацiв 16497 164,97 15263 152,63

Рядюв 42553 425,53 36965 369,65

CniB 345580 3455,8 291247 2912,47

Знакiв 2327209 23272,09 1974773 19747,73

Знакiв та пробтв 2674889 26748,89 2265917 22659,17

визначених системою при заданш ваз1 слова), B (зм1стов-них сл1в з1 списку утворених, тобто без невщомих абрев-1атур, д1есл1в, службових сл1в тощо), с (зб1г сл1в з визна-ченими автором статта), D (точшсть зб1гу знайдених клю-човиюв з авторським ключовими словами), E (додатков1 ключов1 слова, визначеш системою, але не визначеш автором статта).

6 ОБГОВОРЕННЯ

На рис. 5 наведена пор1вняльна д1аграма ввдсотюв вжи-вання знайдених системою ключових сл1в в ввдфшьтрова-ному текст (без початку (назва, автори, удк, анотаци двома мовами, авторсью ключов1 слова двома мовами, мюце ро-боти автор1в) \ без списку лггератури) Peгf та первинному

авторському текста Рег0 без уточнення модератором тема-тичного словника через поповнення заблокованих сл1в.

Отримаш середш значення для 100 текспв

РеГ^ = 0,28 та РвГ0 = 0,19 показують, що така фшьтра-

щя наукових статей покращуе щшьшсть ключовиюв у 1,48 раз або на 47,83 вщсотка. На рис. 6 наведена пор1вняльна д1аграма в1дсотюв вживання знайдених системою ключових сл1в в вщфшьтрованому текста (без початку (назва, автори, удк, анотацп двома мовами, авторсью ключов1 слова двома мовами, м1сце роботи автор1в) [ без списку

Таблиця 4 - Статистичш даш дослщжених 3MicTy TeKCTiB статей

Назва Вага слова Етап 1 Етап 2

A B C D E A B C D E

Крок 1 > 1 5,46 3,92 2,51 2,08 1,74 7,43 7,03 3,27 3 4,18

> 2 1,08 0,88 0,63 0,59 0,26 2,67 2,64 1,65 1,54 1,12

> 3 0,41 0,38 0,22 0,21 0,16 1,21 1,2 0,85 0,79 0,41

> 4 0,15 0,13 0,09 0,09 0,04 0,46 0,45 0,33 0,31 0,15

> 5 0 0 0 0 0 0 0 0 0 0

Крок 2 > 1 6,51 5,02 2,68 2,23 2,37 8,35 7,78 3,25 2,91 4,99

> 2 1,34 1,11 0,74 0,72 0,39 3,12 3,07 1,81 1,67 1,43

> 3 0,51 0,45 0,29 0,27 0,17 1,42 1,4 0,93 0,85 0,54

> 4 0,19 0,17 0,12 0,12 0,05 0,73 0,72 0,45 0,42 0,31

> 5 0,11 0,1 0,06 0,06 0,04 0,33 0,32 0,25 0,23 0,1

лiтератури) PerV та первинному авторському текстi PerV з врахуванням уточнення модератором тематичного словника через поповнення заблокованих слiв. Отримаш

середнi значення для 100 текспв Per'v = 0,34 та

Perv = 0,25 показують, що фшьтращя з одночасною модеращею тематичного словника покращуе щiльнiсть ключовикiв у 1,35 раз або на 35,44%.

На рис. 7 наведена порiвняльна дiаграма в^сотюв вживання знайдених системою ключових слiв в початко-вому первинному авторському текст без уточнення модератором тематичного словника через поповнення

заблокованих ^в (Pero) та з врахуванням уточнення модератором тематичного словника через поповнення заблокованих ^в ^^).

П^вняння значень Pero = 0,19 та Per0¡ = 0,25 де-монструе ефективнiсть модерацп тематичного словника у початковому текст - щшьшсть ключовимв збiльшуеться у 1,34 раз або на 34,33 вщсотка. На рис. 8 наведена ж^вняльна дiаграма вiдсоткiв вживання знайдених системою ключових ^в в вщфшьтрованому авторському текстi без уточнення модератором тематичного словника через поповнення заблокованих ^в (Perf)

Вщсоток ключових слiв у текст

1,4

1,2

0,8 0,6 0,4 0,2 0

Вiдфiльтрований текст Первинний текст

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97

Рисунок 5 - Результати перев1рки статей без уточнення модератором тематичного словника

Рисунок 6 - Результати перев1рки статей з врахуванням уточнення модератором тематичного словника

В1дсоток ключових сл1в у текст

0,8

Загальний текст з уточненим словником Загальний текст без уточненого словника

0,6 0,4 0,2 0

1 5 9 1 3 1 7 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97

Рисунок 7 - Результати перев1рки первинних авторських статей з р1зними словниками

1

та з врахуванням модераци тематичного словника (PerJ ).По-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

piBHHHHH значень Per^ = 0,28 та PerJ = 0,34 демонструе

ефектившсть модеpацii тематичного словника у ввдфшьтро-ваному текста - щшьшсть ключовикiв збiльшуеться у 1,23 раз або на 23,14 вщсотка.

ВИСНОВКИ

У статга наведено теоретичне та експериментальне обгрун-тування методу контент-монiтоpiнгу укpаiномовного тексту на основi стемiнгу Портера. Метод спрямовано на автоматич-не виявлення значущих ключових слiв укpаiномовного тексту за рахунок запропонованого формального тдходу до ре-алiзацii стемiнгу укpаiномовного контенту. Проведено деком-позицiю методу контент-мошторшгу на взаемопов'язанi складовi контент-анатзу текстовоi iнфоpмацii та визначення множини ключових слв. Розроблено алгоpитмiчне забезпе-чення основних структурних складових запропонованого методу, а основу якого покладено адаптований до украшсь^ мови алгоритм (стеммер) Портера. Теоретично виявлено спо-соби покращення показникiв ефективностi пошуку ключових сл1в, зокрема щшьноста ключовиюв у текстi. Експериментальне дослiдження 100 наукових публiкацiй з двох номеpiв (783 та 805) Вiсника Нацюнального унiвеpситету «Львiвська пол-гтехшка» серп «1нформацшш системи та мережЬ (http:// science.lp.edu.ua/sisn) продемонструвало позитивний вплив фшьтраци тексту статга та модераци тематичного словника на визначення ключових слiв. Виявлено, що для технiчних наукових текстав експеpиментальноi бази найкращих pезультатiв досягае метод аналiзу статга без початку (назва, автори, удк, анотаци двома мовами, авторсью ключовi слова двома мова-ми, мкце роботи автоpiв) i без списку лггератури iз пере-вipкою уточнених заблокованих слiв та уточненого тематичного словника - для нього середне значення щшьноста ключовиюв у текста досягае Perv = 0,34, що на 81% бшьше за

аналопчне значення щшьносп первинного тексту Per^f = 0,19. Потребуе подальшого експериментального дослщження визначення ключових слв для шших категоpiй текстiв - наукових гуманитарного пpо-фiлю, художнiх, публiцистичних тощо.

ПОДЯКИ

У статтi розв'язана науково-практична задача автоматичного виявлення значущих ключових слв та рубрикаци украь номовного контенту в Интернет-системах на основi попереднь-ого опрацювання вiдповiдноi текстовоi iнфоpмацii. Роботу виконано в рамках спшьних наукових дослiджень кафедри шформацшних систем та мереж Нацiонального ушверситету

«Львiвська поттехтка» на тему «Достдження, розроблення i впровадження iнтелектуальних розподшених шформащйних технологш та систем на осжга ресурйв баз даних, сховищ даних, пpостоpiв даних та знань з метою прискорення пpоцесiв фор-мування сучасного iнфоpмацiйного суспшьства», а також кафедри автоматики та шформащйно-вишрювальжй техшки Вiнницького нацiонального техтчного унiвеpситету у межах дiяльностi науково-достдного центру пpикладноi та комп'ю-тержй лiнгвiстики. Результати дослвджень здшснювались у рамках держбюджетних науково-дослiдних робгт за темами «Роз-робка метсдв, алгоpитмiв i програмних засобiв моделювання, проектування та оптишзацл iнтелектуальних шформащйних систем на основi Web-технологiй «ВЕБ» та «1нтелектуальна шформащйна технологiя образного анатзу тексту та синтезу штегроважй бази знань природно-мовного контенту». Науковi дослiдження провадилися також в рамках шщативжй тематики дослiджень кафедри 1СМ Нацiонального унiвеpситету «Львiвська полгтехтка» на тему «Розроблення штелектуаль-них pозподiлених систем на основi онтолопчного пiдходу з метою штегращ1 шформацшних ресурсв». СПИСОК Л1ТЕРАТУРИ

1. Берко А. Системи електронно!' контент-комерцп / А. Берко, В. Висоцька, В. Паачник. - Л. : НУЛП, 2009. - 612 с.

2. Математична лшгвктика / [В. Висоцька, В. Паачник, Ю. Щербина, Т. Шестакевич]. - Л. : «Новий Свгт-2000», 2012. - 359 с.

3. Найефектившш1 методи залучення потенцшних кшент1в [Елек-тронний ресурс] / Центр ресурс1в якост трафшу оголошень, Google AdWords. - Режим доступу: http://www.google.com/intl/ uk_ALL/ads/adtrafficquality/advertisers/best-practices-for-generating-leads.html. - Назва з титул. екрану.

4. Нечеткий поиск в тексте и словаре [Електронний ресурс]. -Режим доступу: http://habrahabr.ru/post/114997/. - Назва з титул. екрану.

5. Реализации алгоритмов. Расстояние Левенштейна [Електрон-ний ресурс]. - Режим доступу: http://ru.wikibooks.org/wiki/ Реализации_алгоритмов/Расстояние_Левенштейна. - Назва з титул. екрану.

6. Задача о расстоянии Дамерау-Левенштейна [Електронний ресурс]. - Режим доступу: http://neerc.ifmo.ru/wiki/ i n d e x . p h p ? t i t l e = % D 0 % 9 7 % D 0 % B0%D0%B4 % D0%B0%D1 % 8 7%D0%B0_%D0 % B E _ % D 1 % 8 0 % D 0 % B 0 % D 1 % 8 1 % D 1 % 81 %D 1 %82%D0%BE%D1 %8F%D0%BD%D0%B8%D0%B8_%D0% 94%D0%B0%D0%BC%D0%B5%D1%80%D0%B0%D1%83-% D 0 % 9 B % D 0 % B 5 % D 0 % B 2 % D 0 % B 5 % D 0%BD%D1%88%D1%82%D0%B5%D0%B9%D0%BD%D0%B0. -Назва з титул. екрану.

7. Насонов Д. Функция Левенштейна [Електронний ресурс] / Д. Насонов. - Режим доступу: http://rain.ifmo.ru/cat/data/ theory/unsorted/levenshtein-2006/article.pdf. - Назва з титул. екрану.

8. Левенштейн, который сравнивает строки [Електронний ресурс] / Веб-разработка. - Режим доступу: http://dayte2.com/ levenshtein. - Назва з титул. екрану.

9. Вычисление расстояния Левенштейна между двумя строками [Електронний ресурс]. - Режим доступу: http://wm-help.net/ lib/b/book/827961078/78. - Назва з титул. екрану.

10. Стеммер Потера [Електронний ресурс]. - Режим доступу: http:/ /labs.abcvg.com/stemmer/index.php. - Назва з титул. екрану.

11. Moseichuk V. Porter stemming algorithm for Ukrainian languages [Electronic resource] / V. Moseichuk. - Access mode: http:// www.marazm.org.ua/document/stemer_ua/. - Title from the screen.

12. Стемшг [Електронний ресурс]. - Режим доступу: https:// uk.wikipedia.org/wiki/Стемшг. - Назва з титул. екрану.

13. Russian stemming algorithm [Electronic resource]. - Access mode: http://snowball.tartarus.org/algorithms/russian/stemmer.html. -Title from the screen.

14. Porter stemmer - реализация алгоритма стеммера Портера для русского языка на чистом функциональном языке Clojure [Електронний ресурс]. - Режим доступу: https://github.com/ allaud/porter-stemmer. - Назва з титул. екрану.

15. The Porter Stemming Algorithm - Porter's homepage. [Електронний ресурс]. - Режим доступу: http://tartarus.org/~martin/ PorterStemmer/. - Назва з титул. екрану.

16. The Porter Stemming Algorithm - Project «Snowball» [Electronic resource]. - Access mode: http://snowball.tartarus.org/ algorithms/porter/stemmer.html. - Title from the screen.

17. The English (Porter2) stemming algorithm - Project «Snowball» [Electronic resource]. - Access mode: http://snowball.tartarus.org/ algorithms/english/stemmer.html. - Title from the screen.

18. Porter M. F. An algorithm for suffix stripping [Electronic resource] / M. F. Porter // Program. - 1980. - Т. 14, № 3. - С. 130-137. -Access mode: http://telemat.det.unifi.it/book/2001/wchange/ download/stem_porter.html. - Title from the screen.

19. Willett P. The Porter stemming algorithm: then and now [Electronic resource] / P. Willett // Program: Electronic Library and Information Systems. - 2006. - В. 3, Т. 40. - С. 219-223. - ISSN 0033-0337. - Access mode: http://eprints.whiterose.ac.uk/ 1434/. - Title from the screen.

20. Сеник М. Вшьний алгоритм стемшгу для укра1нсько1 мови [Електронний ресурс] / М. Сеник. - Режим доступу: http:// www.senyk.poltava.ua/projects/ukr_stemming/ stemming_about.html. - Назва з титул. екрану.

21. Сеник М. 1нструмент для пошуку сл1в з однаковими закшчен-нями [Електронний ресурс] / М. Сеник. - Режим доступу:

http://www.senyk.poltava.ua/projects/ukr_stemming/ word_by_ending.html. - Назва з титул. екрану.

22. Сеник М. Статичне дерево закшчень [Електронний ресурс] / М. Сеник. - Режим доступу: http://www.senyk.poltava.ua/ projects/ukr_stemming/ukr_endings.html#dyn. - Назва з титул. екрану.

23. Сеник М. Демо стемшгу для украшсько! мови [Електронний ресурс] / М. Сеник. - Режим доступу: http:// www.senyk.poltava.ua/projects/ukr_stemming/demo.html. - На-зва з титул. екрану.

24. Вероятностный морфологический анализатор русского и украинского языков [Електронний ресурс]. - Режим доступу: http://www.keva.ru/stemka/stemka.html. - Назва з титул. екрану.

25.Стемминг [Електронний ресурс]. - Режим доступу: https://ru.wikipedia.org/wiki/Стемминг. - Назва з титул. екрану.

26. Lovins J. B. Development of a stemming algorithm / J. B. Lovins // Mechanical Translation and Computational Linguistics 11:2231. - 1968.

27. Jongejan, B. Automatic training of lemmatization rules that handle morphological changes in pre-, in- and suffixes alike [Electronic resource] / B. Jongejan, H. Dalianis // In the Proceeding of the ACL-2009, Joint conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, Singapore, August 2-7, 2009, pp. 145-153. - Access mode: http:/ /www.aclweb.org/anthology/PZP09/P09-1017.pdf. - Title from the screen.

28. Вiрогiдний морфолопчний аналiзатор росшсько! та украшсь-ко1 [Електронний ресурс]. - Режим доступу: http:// www.keva.ru/stemka/stemka.html. - Назва з титул. екрану.

29. Модуль Drupal для стемшга украшською. Новий модуль для алгоритму Стема для Укра1нського пошуку з видшенням ко-решв [Електронний ресурс]. - Режим доступу: http://drupal.ua/ node/1170. - Назва з титул. екрану.

30. Стемшг Портера для укра1нсько1 мови [Електронний ресурс]. -Режим доступу: http://www.marazm.org.ua/document/stemer_ua/. - Назва з титул. екрану.

31. Hardcoded stemmer for Ukrainian [Electronic resource]. - Access mode: https://github.com/vgrichina/ukrainian-stemmer. - Title from the screen.

32. Perestoronin P. Стеммер Портера для русского языка [Електронний ресурс] / P. Perestoronin. - Режим доступу: http://blog.eigene.in/ post/49598738049/snowball. - Назва з титул. екрану.

Стаття надшшла до редакцп 23.12.2015.

Бисикало О. В.1, Высоцкая В. А.2 Шсля доробки °4.01.2016.

'Д-р техн. наук, профессор, декан факультета компьютерных систем и автоматики Винницкого национального технического университета, Винница, Украина

2Канд. техн. наук, доцент кафедры «Информационные системы и сети» Национального университета «Львовская политехника», Львов, Украина

ВЫЯВЛЕНИЕ КЛЮЧЕВЫХ СЛОВ НА ОСНОВЕ МЕТОДА КОНТЕНТ-МОНИТОРИНГА УКРАИНОЯЗЫЧНЫХ ТЕКСТОВ

Решена задача разработки алгоритмического обеспечения процессов контент-мониторинга для решения задачи определения ключевых слов русскоязычного текста. Рассмотрено формальное обоснование метода контент-мониторинга текста с помощью Стеммер Портера, в основу модификации стемминг положены известны результаты классификации морфемнои и словообразовательной структуры дериватов украинского языка, выявление закономерностей комбинаторики аффиксов, моделирование структурной организации глаголов и суфиксальних существительных, а также морфонологичных модификаций в процессе словоизменения глагола и словоизменении и словообразовании прилагательных украинского языка. Проведения декомпозиции метода и разработано алгоритмическое обеспечение его основных структурных составляющих по результатам контент-анализа текста. Теоретически обнаружены способы улучшения показателей эффективности поиска ключевых слов, в том числе плотности ключевиков в тексте. На основе разработанного программного обеспечения получены результаты экспериментальной апробации предложенного метода контент-мониторинга для определения ключевых слов в научных текстах технического профиля. Выявлено, что для выбранной экспериментальной базы из 100 работ лучших результатов по критерию плотности достигает метод анализа статьи без начальной обязательной информации и без списка литературы, но с проверкой уточненных заблокированных слов и уточненного тематического словаря.

Ключевые слова: текст, украиноязычный, алгоритм, контент-мониторинг, ключевые слова, контент-анализ, Стеммер Портера, лингвистический анализ, синтаксический анализ.

Bisikalo O. V.1, Vysotska V. A.2

'F.D., professor, Dean of Faculty for Computer Systems and Automation, Vinnytsia National Technical University, Vinnytsia, Ukraine

2Phd, associate professor of Information Systems and Networks Department, Lviv Polytechnic National University, Lviv, Ukraine IDENTIFYING KEYWORDS ON THE BASIS OF CONTENT MONITORING METHOD IN UKRAINIAN TEXTS

The task of developing algorithmic providing processes of content monitoring for the problem solution of determining a keyword in Ukrainian text is solved. The formal justification of content monitoring in text using Porter stemmer is considered. The basis of the stemming

modification is the known results of morpheme and word building structure derivatives classification in Ukrainian language, affix combinatorics patterns identification, modeling the structural organization of verbs and suffixal nouns and morphonological modifications in the verb inflection and word formation and inflection of adjectives in Ukrainian language. The method decomposition is conducted and the algorithmic software of its basic structural components of the text content analysis results is developed. Theoretically means to improve the performance indicators of keywords search are identified, including keyword density in text. Based on the software obtained results of experimental testing of the proposed method of content monitoring to keywords identification in scientific texts of technical profile are developed. It is detected that the chosen experimental base of 100 works the article analysis method the without the initial required information and without the reference list reaches the best results for the density criterion, but with the specified blocked words and qualifying thematic dictionary verification.

Keywords: text, a Ukrainian, algorithm, content monitoring, keywords, content analysis, Porter stemmer, linguistic analysis, parsing.

REFERENCES

1. Berko A., Vysotska V., Pasichnyk V. Systemy elektronnoyi kontent-komertsiyi. Leningrad, NULP, 2009, 612 p.

2. Vysotska V., Pasichnyk V., Scherbyna J., Shestakevych T. Matematychna linhvistyka. Leningrad, Novyy Svit-2000, 2012, 359 p.

3. Nayefektyvnishi metody zaluchennya potentsiynyh kliyentiv [Electronic resource]. Tsentr resursiv yakosti trafiku oholoshen, Google AdWords. Access mode: http://www.google.com/intl/ uk_ALL/ads/adtrafficquality/advertisers/best-practices-for-generating-leads.html. Title from the screen.

4. Nechetkyy poysk v tekste y slovare [Electronic resource]. Access mode: http://habrahabr.ru/post/114997/. Title from the screen.

5. Realyzatsyy alhorytmov. Rasstoyanye Levenshteyna [Electronic resource]. Access mode: http://ru.wikibooks.org/wiki/Рea^нзaцн-H_a^r0pHTM0B/PaccT0aHHe_^eBeHmTeHHa. Title from the screen.

6. Zadacha o rasstoyanyy Damerau-Levenshteyna [Electronic resource]. Access mode: http://neerc.ifmo.ru/wiki/ index.php?title = %D0%97%D0%B0%D0%B4%D0 %B0%D1%87%D0%B0_%D0%BE_%D1%80%D0%B0%D1%81 %D 1 % 8 1 % D 1 % 8 2 % D 0 % B E % D 1 % 8 F % D 0 % B D % D 0%B8%D0%B8_°/(D0%94%D0%B0%D0%^%D0%^%D1%80%D0%B0%D1%83-%D0%9B%D0%B5%D0%B2%D0 %B5%D0%BD%D1%88% D1%82%D0%B5%D0%B9%D0%BD%D0%B0. Title from the screen.

7. Nasonov D. Funktsyya Levenshteyna [Electronic resource]. Access

mode: http://rain.ifmo.ru/cat/data/theory/unsorted/levenshtein-2006/article.pdf. Title from the screen.

8. Levenshteyn, kotory sravnivaet stroki [Electronic resource]. Web

development. Access mode: http://dayte2.com/levenshtein. -Title from the screen.

9. Vychislenie rasstoyaniya Levenshteyna mezhdu dvumya strokami

[Electronic resource]. Access mode: http://wm-help.net/lib/b/ book/827961078/78. Title from the screen.

10.Porter stemmer [Electronic resource]. Access mode: http:// labs.abcvg.com/stemmer/index.php. Title from the screen.

11. Moseichuk V. Porter stemming algorithm for Ukrainian languages [Electronic resource]. Access mode: http://www.marazm.org.ua/ document/stemer_ua/. Title from the screen.

12.Steming [Electronic resource]. Access mode: https:// uk.wikipedia.org/wiki/CTeMiHr. Title from the screen.

13. Russian stemming algorithm [Electronic resource]. Access mode: http://snowball.tartarus.org/algorithms/russian/stemmer.html. Title from the screen.

14. Porter stemmer-realizatsiya algoritma stemmera Portera dlya russkogo yazyka na chistom funktsionalnom yazyke Clojure [Electronic resource]. Access mode: https://github.com/allaud/ porter-stemmer. Title from the screen.

15. The Porter Stemming Algorithm-Porter's homepage [Electronic resource]. Access mode: http://tartarus.org/~martin/ PorterStemmer/. Title from the screen.

16.The Porter Stemming Algorithm - Project «Snowball» [Electronic resource]. Access mode: http://snowball.tartarus.org/algorithms/ porter/stemmer.html. - Title from the screen.

17. The English (Porter2) stemming algorithm - Project «Snowball» [Electronic resource]. Access mode: http://snowball.tartarus.org/ algorithms/english/stemmer.html. Title from the screen.

18. Porter M. F. An algorithm for suffix stripping [Electronic resource], Program, 1980,Vol. 14, No. 3, pp. 130-137. Access mode: http://telemat.det.unifi.it/book/2001/wchange/download/ stem_porter.html. Title from the screen.

19. Willett P. The Porter stemming algorithm: then and now [Electronic resource], Program: Electronic Library and Information Systems, 2006, B. 3, Vol. 40, pp. 219-223. ISSN 0033-0337. - Access mode: http://eprints.whiterose.ac.uk/1434. Title from the screen.

20. Senyk M. Vilnyy alhorytm steminhu dlya ukrayinskoyi movy [Electronic resource]. Access mode: http://www.senyk.poltava.ua/ projects/ukr_stemming/stemming_about.html. Title from the screen.

21.Senyk M. Instrument dlya poshuku sliv z odnakovymy zakinchennyamy [Electronic resource], Access mode: http:// www.senyk.poltava.ua/projects/ukr_stemming/ word_by_ending.html. Title from the screen.

22. Senyk M. Statychne derevo zakinchen [Electronic resource]. Access mode: http://www.senyk.poltava.ua/projects/ ukr_stemming/ukr_endings.html#dyn. Title from the screen.

23. Senyk M. Demo steminhu dlya ukrayinskoyi movy [Electronic resource]. Access mode: http://www.senyk.poltava.ua/projects/ ukr_stemming/demo.html. Title from the screen.

24. Veroyatnostny morfologichesky analizator russkogo i ukrainskogo yazykov [Electronic resource]. Access mode: http://www.keva.ru/ stemka/stemka.html. Title from the screen.

25. Steming [Electronic resource]. Access mode: https:// ru.wikipedia.org/wiki/CTeMMHHr. Title from the screen.

26. Lovins J. B. Development of a stemming algorithm, Mechanical Translation and Computational Linguistics, 11:22-31. - 1968.

27. Jongejan B., Dalianis H. Automatic training of lemmatization rules that handle morphological changes in pre-, in- and suffixes alike [Electronic resource], In the Proceeding of the ACL-2009, Joint conference of the 47th Annual Meeting of the Association for Computational Linguistics and the 4th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing, Singapore, August 27, 2009, pp. 145-153. Access mode: http://www.aclweb.org/ anthology/P/P09/P09-1017.pdf. Title from the screen.

28. Virohidnyy morfolohichnyy analizator rosiyskoyi ta ukrayinskoyi [Electronic resource]. - Access mode: http://www.keva.ru/stemka/ stemka.html. - Title from the screen.

29. Modul Drupal dlya steminha ukrayinskoyu. Novyy modul dlya alhorytmu Stema dlya Ukrayinskoho poshuku z vydilennyam koreniv [Electronic resource]. - Access mode: http://drupal.ua/ node/1170. - Title from the screen.

30. Steminh Portera dlya ukrayinskoyi movy [Electronic resource]. -Access mode: http://www.marazm.org.ua/document/stemer_ua/. -Title from the screen.

31. Hardcoded stemmer for Ukrainian [Electronic resource]. - Access mode: https://github.com/vgrichina/ukrainian-stemmer. - Title from the screen.

32. Perestoronin, P. Stemmer Portera dlya russkogo yazyka [Electronic resource]. - P. Perestoronin // Access mode: http:// blog.eigene.in/post/49598738049/snowball. - Title from the screen.

i Надоели баннеры? Вы всегда можете отключить рекламу.