Научная статья на тему 'Формування масиву вхідних даних при класифікації текстів у технології інформаційного моніторингу'

Формування масиву вхідних даних при класифікації текстів у технології інформаційного моніторингу Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
126
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОНИТОРИНГ / MONITORING / КЛАССИФИКАЦИЯ ТЕКСТОВ / CLASSIFICATION OF TEXTS / МГУА / GMDH / ИНФОРМАТИВНЫЕ ПРИЗНАКИ / INFORMATIVE FEATURES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Голуб М.С.

В статье приведены результаты исследований процессов преобразования информации от формы текстового сообщения в форму двумерного массива численных характеристик. Эти характеристики используются в качестве массива входных данных (МВД) при синтезе модели-классификатора индуктивными методами, в частности, многорядным алгоритмом метода группового учёта аргументов (МГУА). Предложен новый метод формирования перечня информативных признаков текста, который является адаптивным к поставленной задаче и свойствам МВД. Созданы условия для 100% верной классификации текстов. Это свидетельствует о том, что обеспечена достаточная информативность МВД в технологиях мониторинга текстовых сообщений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Голуб М.С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article presents investigation results of information transformation from a form of the text message into the two-dimensional array of numerical characteristics. These characteristics are used as an array of input data (AID) when synthesizing the model-classifier by using inductive methods, in particular the multi-row algorithm of group method of data handling (GMDH). A new method for defining the list of informative text features that are adaptive to a given task and properties of the AID are suggested. Conditions for 100% correct classification of texts are created. This enables sufficient informativeness of AID in technologies of text message monitoring.

Текст научной работы на тему «Формування масиву вхідних даних при класифікації текстів у технології інформаційного моніторингу»

УДК 004.942 М.С. ГОЛУБ*

ФОРМУВАННЯ МАСИВУ ВХ1ДНИХ ДАНИХ ПРИ КЛАСИФ1КАЦП ТЕКСТ1В У ТЕХНОЛОГИ 1НФОРМАЦ1ЙНОГО МОН1ТОРИНГУ

Черкаський державний технологiчний унiверситет, м. Черкаси, Украша

Анотаця. У cmammi наведено результати до^джень процеав перетворення тформацп eid фо-рми текстового повiдомлення до форми двовимiрного масиву чисельних характеристик. Ц характеристики використовуються як масив вхiдних даних (МВД) при синтезi моделi-класифiкатора тдуктивними методами, зокрема, багаторядним алгоритмом методу групового урахування аргу-ментiв (МГУА). Запропоновано новий метод визначення перелту тформативних ознак тексту, який е адаптивним до поставленог задачi та до властивостей МВД. Створен умови для 100% вiрноl класифiкацiг текстiв. Це свiдчить про забезпечення достатньог iнформативностi МВД в технологiях мошторингу текстових повiдомлень.

Ключов1 слова: монторинг, класифiкацiя текстiв, МГУА, тформативш ознаки.

Аннотация. В статье приведены результаты исследований процессов преобразования информации от формы текстового сообщения в форму двумерного массива численных характеристик. Эти характеристики используются в качестве массива входных данных (МВД) при синтезе модели-классификатора индуктивными методами, в частности, многорядным алгоритмом метода группового учёта аргументов (МГУА). Предложен новый метод формирования перечня информативных признаков текста, который является адаптивным к поставленной задаче и свойствам МВД. Созданы условия для 100% верной классификации текстов. Это свидетельствует о том, что обеспечена достаточная информативность МВД в технологиях мониторинга текстовых сообщений.

Ключевые слова: мониторинг, классификация текстов, МГУА, информативные признаки.

Abstract. The article presents investigation results of information transformation from a form of the text message into the two-dimensional array of numerical characteristics. These characteristics are used as an array of input data (AID) when synthesizing the model-classifier by using inductive methods, in particular the multi-row algorithm of group method of data handling (GMDH). A new method for defining the list of informative text features that are adaptive to a given task and properties of the AID are suggested. Conditions for 100% correct classification of texts are created. This enables sufficient informativeness of AID in technologies of text message monitoring.

Keywords: monitoring, classification of texts, GMDH, informative features. 1. Вступ

Розв'язання задач шформацшного мошторингу вимагае використання технологш пошуку та класифшацп текстових повщомлень, що мютять шформащю про заданий об'ект [1]. Анал1тик е одним i3 активних елемент1в шформацшно1 системи мошторингу (1СМ). Для забезпечення його роботи Комп'ютер, як шший елемент 1СМ, повинен забезпечити вияв-лення шформацшних потоюв шляхом контекстного пошуку друкованих повщомлень за змютом, виявлення текспв за заданими ознаками, тобто виконання програмними комплексами слабоформалiзованих штелектуальних задач.

Дослщження в галузi штелектуального аналiзу текспв (Text Mining) ведуться в на-прямi збшьшення частки штелектуально'1 пращ, яку виконуе комп'ютер, залишаючи Ана-л^ику бшьше ресурав для виконання його безпосередшх обов'язюв, наприклад, для використання виявлених вщомостей про властивосп об'екта для прогнозу наслщюв застосу-вання керуючих впливiв.

Значна кшьюсть методiв аналiзу текспв, що використовуються в задачах класифь каци, мають досить пристойш характеристики [2], устшно розв'язують задачi штелектуа-

© Голуб М.С., 2018

ISSN 1028-9763. Математичш машини i системи, 2018, № 1

льного аналiзу текспв, написаних англiйською [3], росшською [4] та iншими мовами. Ро-бгт, якi дослiджують украшську мову, значно менше. Ефективнiсть роботи цих методiв залежить вiд вдалого наповнення словника сшв. Це не виключае можливостi маншулю-вання контентом, свщомого викривлення характеристик тексту, ускладнюючи його пошук, знижуючи адекватнiсть результат аналiзу. Цих недолiкiв вдаеться уникнути, використо-вуючи максимальну глибину декомпозицп тексту (до рiвня окремих знаюв) та застосовую-чи методи машинного навчання (machine learning).

Методи машинного навчання е одним iз перспективних напрямiв дослiджень щодо розширення штелектуальних функцiй комп'ютера [5]. З'являеться можливють викорис-тання методiв обробки та перетворення даних iз Data mining для побудови моделей-класифiкаторiв. Частотш методи обробки текстово'1 шформацп [6, 7] тдвищують ефектив-нiсть роботи шформацшних систем Text Mining. Але при цьому залишаеться проблемним процес ефективного перетворення друкованого тексту до форми масиву його чисельних характеристик. Автором пропонуеться ощнювати ефектившсть процесу щодо вщношення кшькосп вiрно класифшованих текстiв або кiлькiстю вiрно класифшованих точок спосте-реження в межах одного тексту до часу, витраченого на цей процес шформацшною системою.

2. Мета та задач1 дослщження

Метою статп е розробка нового методу класифшацп текстових повщомлень у структурi шформацшно'1' системи багаторiвневого монiторингу, що, на вiдмiну вщ iснуючих, забез-печуе адаптивнiсть процесу формування масиву вхщних даних (МВД) до типу задачi та властивостей тексту.

Для досягнення поставлено'!' мети були розв'язаш кiлька задач, математична постановка яких мае такий вигляд.

Дано скшченну множину текстiв

T = {tlft2,..., о, (1)

що являють собою навчальну вибiрку i експертним шляхом згруповаш в m класiв множи-ни K:

K = {kl,k2,..., kj, (2)

де m - кiлькiсть класiв, за якими плануеться групувати тексти.

Необхщно побудувати модель-класифiкатор f, що забезпечить вщображення еле-

меш1в множини Т* = \ln ,, ln 2, tn+ }, тобто нових текспв, отриманих теля навчання модел1 Т* е Т , на елементи множини К :

f-.r^K. (3)

Властивосп модел1 залежать вщ: 1) елемеьтв вектора i нфорMaui йних ознак МВД х, яи розраховуються у вшнах i3 фшсованою кшыастю знаков. На в1кна розбиваеться текст на першому етат класифшацп; 2) вектора довжин в1кна /; 3) вектора алгоритм! в синтезу моделей (АСМ) ¡л , за якими формуються зв'язки Mi ж елементами вектора х i бу-дуеться класифшатор /:

f = f(xX7i). (4)

Обмеження накладаються на максимальну кшыасть ознак g(x) = 120 ООО, Mi Hi мал ь-ний розм1р в1кна g(l) = 1 i мш1мальну кшыасть ACM g(ß) = 1.

Необхщно визначити перелш ознак вектора х, розм1р в1кна / та ACM i3 вектора и , яи забезпечать максимальну кшыасть в1рно класифшованих текспв i3 множини Т* =it t t \

* 1'и+1> п+2 ? ln+pi ■

3. Результати дослщжень

Була сформульована ппотеза про те, що адаптивнють МВД забезпечуеться шляхом опти-

м1заци довжини вектора ознак х, довжини вшна та виявлення перелшу ознак необхщноУ iнформативностi. Iнформативнiсть ознаки тим вища, чим частiше ця ознака використову-еться у текстi.

Для розрахунку шформативносп окремо! ознаки в цш роботi застосовувався ймовь рнiсний критерiй [8]:

К. - Гг 100%, (5)

г п 5 v /

де Ki - показник шформативносп i -i ознаки, ;/ - часпсть i -i ознаки (кшыасть раз1в ви-

користано! i -о! ознаки у окремому вшш), n - кiлькiсть ознак у МВД.

Для експериментально! перевiрки ще! гшотези розв'язувалась задача класифшацп текспв за гендерною ознакою автора. Було задано 2 класи: 1 - жшки; 2 - чоловши. Як АСМ використовувався багаторядний алгоритм МГУА [9].

У процес планування експерименту за критерш якостi моделi використовувався показник кшькосп вiрно розпiзнаних вiкон у текст! Було сплановано двофакторний експе-римент. Дослiджувався вплив змiни розмiру вiкна та мшмально! iнформативностi ознак, яю були вiдiбранi iз словника, на результати класифшацп текстiв. Часпсть застосування кожно! ознаки в одному вшш утворюють строчку в МВД - точку спостереження у багато-вимiрному просторi ознак. Кiлькiсть вшон, перелiк ознак та !х часпсть дозволяють сфор-мувати МВД.

Дослвджувались тексти, отриманi iз журналiстських штернет-публшацш. Характеристики текстiв поданi у табл. 1.

Таблиця 1. Характеристики дослщжених текспв

№ Клас Автор Назва тексту Кшьюсть знаюв Функщя в1кон тексту

1 Жшки Альона Гетьманчук «Яю рос1яни заслуговують на д1алог?» 01 березня 2015, 14:33 7393 Навчання та випробування модел1

2 Жшки 1рина Фарюн «Що святкуемо - на те i пере-творюемось» 5614 Навчання та випробування модел1

3 Жшки Нататя Соколенко «Як бреше газета «Вести». Роздруковуйте i поширюйте серед читач1в «Вестей» у метро» 18337 Навчання та випробування модел1

4 Жшки Нататя Соколенко «Майдан - Територ1я нер1вностЬ> 3154 Навчання та випробування модел1

5 Жшки Нататя Соколенко «Дарувальник Януковича -суддя Татьков бшьше не в тренд1, але Путш воюе за Тать- 3754 Навчання та випробування модел1

кова»

Продовж. табл. 1

6 Жшки Нататя Соколенко «Група "Першого грудня" влад^ говор1ть з народом!» 2599 Навчання та випробування моделi

7 Жшки Нататя Соколенко «Непокараний "Беркут" та шш1 смертш гр1хи генпрокурора Яреми» 2792 Навчання та випробування моделi

8 Жшки Тетяна Чорновол «Мшекономши повинно вигна-ти з «Укрх1мтрансам1ака» агента РФ Бондика» 5855 Навчання та випробування моделi

9 Жшки Руслана Лижичко «По-моему, чувак, нас кинули» 5999 Тестування моделi

10 Жшки Руслана Лижичко В1чеИЛ - тест демократа в 1нтернет (анонс) 3507 Тестування моделi

11 Чоловши Анатолш Гриценко «Кшьюсть для оборони - це добре, тепер потр1бна яюсть!» 2980 Навчання та випробування моделi

12 Чоловши Володимир В'ятович «Корюювка: знищена i забута» 13746 Навчання та випробування моделi

13 Чоловши 1гор Веремеев «Дешевий попул1зм та зведен-ня пол1тичних рахунюв захлес-нули Верховну Раду» 1738 Навчання та випробування моделi

14 Чоловши Сергш Дацюк «Весела револющя» 4552 Навчання та випробування моделi

15 Чоловши Сергш Дацюк «Проклят украiнськi питання» 11463 Навчання та випробування моделi

16 Чоловши Сергш Дацюк «Револющя та професюнатзм» 2245 Навчання та випробування моделi

17 Чоловши Ярослав Юрчишин «Парламент реформ: втримати темп i не збитися на популiзм» 5864 Навчання та випробування моделi

18 Чоловши Ярослав Юрчишин «Пакет МВФ: допомагаймо собi самi» 4315 Навчання та випробування моделi

19 Чоловши Василь Гацько «Кличку: надходження вiд ре-клами заниженi в рази, а за окремими нолями - у сотш» 2992 Тестування моделi

20 Чоловши В1талш Шабунш «Бiй за мшьярд або як Фарммафiя у Радi блокуе передачу закупiвель лшв мiжнародним органiзацiям» 4557 Тестування моделi

На рис. 1 подаш виявлеш в цих умовах залежносп змши кiлькiстi вiрно класиф1ко-ваних точок спостереження при зростанш iнформативностi ознаки, розраховано'1 за крите-рieм (5) при декомпозицп тексту на в1кна р1зно'1' довжини.

Знaчeння пoкaзникa iнфopмaтивнocтi oзнaк, % Phc. l. Змша кiлькocтi вipнo клacифiкoвaних тoчoк y вшнах piзнoï довжини: ■ 2000 знаюв -А-Ю00 знаюв -•-500 знаюв

Звepтae на ceбe yвaгy, щo зaкoнoмipнocтi змiни ильшей вipнo клacифiкoвaних то-чoк cпocтepeжeння для вiкoн piзнoï дoвжини piзнi. Цe oзнaчae, щo кoжнoгo paзy пpи пoбy-дoвi нacтyпнoï мoдeлi-клacифiкaтopa тpeбa poзв'язyвaти зaдaчy пapaмeтpичнoï oптимiзaцiï.

Зpocтaння знaчeння пoкaзникa iнфopмaтивнocтi пpивoдить дo збiльшeння кiлькocтi вipнo клacифiкoвaних тoчoк тiльки на oкpeмих дшянках. Рeзyльтaти клacифiкaцiï тoчoк cпocтepeжeння, oтpимaнi для знaчeнь пoкaзникa iнфopмaтивнocтi 5% i 7%, дoзвoляють cтвepджyвaти, щo пiдвищeння iндивiдyaльнoï iнфopмaтивнocтi oзнaки да завжди дoзвoляe oтpимaти пiдвищeння iнфopмaтивнocтi вcьoгo мacивy. Пpи зpocтaннi iнфopмaтивнocтi oзнaк кiлькicть вipнo клacифiкoвaних тoчoк змeншyeтьcя. Цe мoжe 6УТИ cпpичинeнo зpoc-танням впливу на peзyльтaт мoдeлювaння cyмiщeних oзнaк пpи зpocтaннi ïx iнфopмaтив-нocтi [10] та впливoм фaктopiв, якi нe ввшшли дo плану eкcпepимeнтy.

Пpи знaчeннi пoкaзникa iнфopмaтивнocтi oзнaк l,5% i 3% в yмoвax eкcпepимeнтy вдaлocь oтpимaти мaкcимaльнy кiлькicть вipнo poзпiзнaниx тoчoк за yмoви, щo дoвжинa вiкнa бyдe 2000 знaкiв. Aлe пpи цьoмy пpи зacтocyвaннi пepeлiкy oзнaк, щo мають iмoвip-нють зacтocyвaння y вiкнi 1,5 %, ïx кшькють - 151, а ^и зacтocyвaннi пepeлiкy oзнaк iз 3% iмoвipнicтю зacтocyвaння ïx кшькють 34, тобто змeншyeтьcя бiльшe, шж y 4 paзи. Цe дo-звoляe змeншити кiлькicть кoмп'ютepниx pecypciв, зoкpeмa, чacy, на пoбyдoвy oкpeмoï мoдeлi, пiдвищивши таким чинoм eфeктивнicть мeтoдy. Оcкiльки пapaмeтpичнa oптимiзa-щя в цiй тexнoлoгiï peaлiзyeтьcя шляxoм бaгaтopaзoвoгo cинтeзy та випpoбyвaння мoдeлeй, змeншeння чacy cинтeзy oкpeмoï мoдeлi e пoкaзникoм значимим.

На pTO. 2 пoдaнi зaлeжнocтi змiни кiлькocтi вipнo клacифiкoвaниx тoчoк вiд дoвжи-ни вiкнa тeкcтy пpи piзниx пoкaзникax iмoвipнocтi зacтocyвaння oзнaки y вшш, щo e пoкaз-нишм iнфopмaтивнocтi цieï oзнaки.

Оптимaльнoю дoвжинoю вiкнa для poзв'язкy зaдaчi ^а^фша^'х' тeкcтiв за гeндep-нoю oзнaкoю в цих yмoвax дoцiльнo вважати 2000 знаюв. Отpимaний peзyльтaт y l00%

вiрно класифшованих точок спостереження дозволяе класифшувати текст за однieю точкою. Це означае, що мiнiмальний розмiр тексту, який буде вiрно класифшований за генде-рною ознакою - 2000 знаюв. Це менше, шж 1 сторiнка тексту з 12-м розмiром шрифту.

З метою зменшити розмiр тексту, який можна вiрно класифiкувати за гендерною ознакою автора, була сформульована така ппотеза: «Розмiр тексту, що буде вiрно класифь кований, зменшиться, i кiлькiсть вiрно класифiкованих текстiв зросте, якщо для !х класи-фшацп використовувати результати моделювання кiлькох вiкон (точок спостереження), що належать одному тексту».

Для перевiрки ще'1" гiпотези був проведений експеримент. Розв'язувалась задача класифшацп текспв за гендерною ознакою 1'х авторiв. Моделi-класифiкатори випробовува-лись на текстах авторiв, що не використовувались у процес створення цих моделей. Вва-жалося, що текст належить до одного з клаав, якщо до цього класу належить бшьшють (бшьше 50%) його вiкон (точок спостереження). Устшний результат класифшацп позна-чався «1», помилкова класифшащя позначалась «0».

Результати дослщжень поданi в табл. 2.

Випробування починалось iз дослщження тих значень параметрiв, якi дозволяють

вiдбирати мiнiмальну кiлькiсть ознак для МВД i будувати точки спостереження на вшнах

мжмально'1' довжини: розмiр вiкна 500 знакiв, значення показника шформативносп ознак

7%. 120

4.1.00 %

о ч О30 т

х и н

5^50

со

з о <рЮ о н Л

20 0

500 1000 2000

Довжина вшна, знаюв

Рис. 2. Змша кшькосп в1рно класифшованих точок при р1зних показниках

шформативност ознак:

А 1мов1ршсть застосування ознаки 2 % И 1мов1ртсть застосування ознаки 3 % —1мов1ри1сть застосування ознаки 5 % ♦ 1мов1ртсть застосування ознаки 7 %

Першу сщлову точку отримано при розмiрi вшна 500 знакiв i значеннi показника шформативносп 3% (дослiдження № 3). Кшьюсть ознак в МВД - 52. При цьому треба ви-користати результати обробки 5 точок спостереження, тобто текст довжиною 2500 знаюв.

Таблиця 2. Результати випробувань

№ вип-робу-вання V- . Розинр шкна, знаю в 1нформа-тившсть ознак,% Кшь-юсть ознак Руслана Лижичко ЕМтшпй Шабунш Василь Гацько

В1рно класифжованих точок, % Результат В1рно класифшованих точок,% Результат ЕНрно класифшованих точок, % Результат

1 500 7,00 15 42,11 0 16,67 0 44.44 0

2 500 5,00 25 52,63 1 50,00 0 66,67 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3 500 3,00 52 78,95 1 66,67 1 55,56 1

4 500 2,00 118 31,58 0 50,00 0 44,44 0

5 500 1,40 244 78,95 1 16,67 0 44,44 0

6 1000 7,00 7 44,00 0 66,67 1 25,00 0

7 1000 5,00 21 44,00 0 100,00 1 75,00 1

8 1000 3,00 38 33,33 0 0.00 0 50,00 0

9 1000 2,00 58 22,22 0 0,00 0 75,00 1

10 1000 1,50 115 88,89 1 33,33 0 50,00 0

11 1000 1,00 225 44,44 0 33,33 0 50,00 0

12 2000 7,00 5 40,00 0 100,00 1 100,00 1

13 2000 5,00 15 40,00 0 100,00 1 100,00 1

14 . 2000 3,00 34 100,00 1 100,00 1 100,00 1

15 2000 2,00 47 100,00 1 50,00 0 100,00 1

16 2000 1,50 151 100,00 1 100,00 1 100,00 1

17 2000 1,00 427 100,00 1 50,00 0 100,00 1

Таким чином, зменшення мшмального розмiру тексту для класифшаци досягнути не вдалось. Але при цьому вдалось удосконалити метод класифшацп текспв. Адже 55,56% вiрно класифiкованих точок, що належать текстам Василя Гацька, не вважалось прийнят-ним результатом. Це означав, що МВД, отриманий шляхом вщбору ознак iз показником шформативносп 3% i бiльше та побудови точок спостереження на основi вiкон довжиною 500 знаюв, е недостатньо iнформативним для побудови корисно'1 моделi-класифiкатора, що дозволяв отримати 100% вiрно класифiкованих точок. З цього доцшьно зробити висновок, що процедуру обробки результат моделювання кiлькох вiкон, якi належать одному тексту, доцшьно застосовувати за умови недостатньо'1 шформативносп МВД.

Наступну сщлову точку утворюють розмiр вшна 2000 знакiв i значення показника шформативносп 3% (дослiдження № 14). Кшьюсть ознак 34. Кiлькiсть вiрно класифшова-них точок 100% дозволяв стверджувати про достатню iнформативнiсть МВД, побудовано-го за такими значеннями параметрiв. Наступне спiввiдношення значень параметрiв, що дозволяють отримати достатньо шформативний М1В, це розмiр вiкна 2000 знаюв i значення показника шформативносп 1,5% (дослщження № 16). Але при цьому зростае кшькють ознак у МВД до 151.

Таю результати ствпадають iз результатами попереднього дослщу. Оптимальним спiввiдношенням значень параметрiв формування МВД е довжина вшна 2000 знакiв i мшь мальне значення показника iнформативностi ознак 3%.

За результатами цих досшджень був сформульований висновок про те, що для розв'язання кожно'1 задачi iз iнтелектуального аналiзу тексту необхщно iндивiдуально ви-значати не тшьки тип критерiю iнформативностi i мшмальну iнформативнiсть показникiв (межу шформацшно']: достатносп), а i розмiр вiкна.

Один i той же текст може мiстити достатньо iнформативних ознак для розв'язання задачi атрибуцп, але п може бути недостатньо для щентифшацп характеристик автора. Текст може мати достатньо шформативносп для класифшацп його за жанром або тематикою, але бути недостатньо шформативним, щоб бути класифшованим за мiсцем прожи-вання автора.

Кожна i3 нових задач вимагае тдвищення iнформативностi МВД за iндивiдуальною технолопею.

4. Висновки

Пiдвищення iнформативностi масиву вхщних даних при розв'язаннi задачi класифшацп текспв досягаеться шляхом параметрично'1 оптимiзацii процесу формування МВД та обро-бкою результатiв моделювання кшькох дiлянок текстiв.

Запропоновано новий метод класифшаци текстових повiдомлень, який передбачае формування словника шформативних ознак, декомпозищю тексту на дiлянки однаково'1 довжини, перетворення тексту на масив його характеристик, побудову моделей-класифiкаторiв, випробування цих моделей на текстах, що не використовувались при ix створеннi. На вiдмiну вiд iснуючиx методiв запропоновано формувати для кожно'1 задачi iндивiдуальний перелiк iнформативниx ознак i iндивiдуально пiдбирати довжину вiкон -дшянок, на якi розбиваються тексти перед перетворенням. Для масивiв вхщних даних iз недостатньою iнформативнiстю запропоновано удосконалити новий метод класифшаци текспв шляхом застосування процедури обробки результат моделювання кiлькоx вiкон, на основi яких формуються точки спостереження в МВД.

Експериментально доведено, що мшмальною довжиною вiкна, завдяки якiй забез-печуеться надiйна класифiкацiя текстiв, е 2000 знаюв.

Запропонований новий метод класифшацп розширюе можливостi шформадшно!' технологи багаторiвневого монiторингу шляхом реалiзацii в ii структурi процесiв штелекту-ального аналiзу текстiв.

СПИСОК ДЖЕРЕЛ

1. Рыжов А.П. Информационный мониторинг сложных процессов: технологические и математические основы / А.П. Рыжов // Интеллектуальные системы. - 2008. - Т. 11, Вып. 1-4. - С. 101 - 136.

2. Вавшенкова А.1. Анатз метод1в обробки текстово1' шформацп / А.В. Вавшенкова // Вестник НТУ "ХПИ". - 2013. - № 39 (1012). - С. 35 - 40.

3. Фомичев В.М. Информационная безопасность. Математические основы криптологии: учебн. пособ. Ч. 1 / В.М. Фомичев, А.А. Варфоломеев. - М.: МИФИ, 1995. - 114 с.

4. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова / Д.В. Хмелёв // Вестник МГУ. - (Серия 9 «Филология»). - 2000. - № 2. - С. 115 - 126.

5. Yang Y. A re-examination of text categorization methods / Y. Yang, X. Liu // Proc. of Int. ACM Conference on Research and Development in Information Retrieval (SIGIR-99). - New York: ACM, 2007. - P. 42 - 49.

6. Кузин Л.П. Основы кибернетики: в 2-х т. - Т. 2: Основы кибернетических моделей / Кузин Л.П. - М.: Энергия, 1979. - 584 с.

7. Ландэ Д.В. Поиск знаний в Internet. Профессиональная работа / Ландэ Д.В. - М.: ООО «Виль-ямс», 2005. - 272 с.

8. Голуб С.В. Формування показниюв масиву вхщних даних для щентифшацп авторства текстових повщомлень / С.В. Голуб, О.В. Константиновська, М.С. Голуб // Системи обробки шформацп: зб. наук. праць. - Х.: Харювський ушверситет повггряних сил iменi 1вана Кожедуба, 2014. - Вип. 2 (118). - С. 89 - 92.

9. Ивахненко А.Г. Индуктивный метод самоорганизации моделей сложных систем / Ивахненко А.Г. - К.: Наукова думка, 1981. - 296 с.

10. Голуб С.В. Зниження сумщеносп сигналiв в методах синтезу шдуктивних моделей / С.В. Голуб // Вимiрювальна та обчислювальна техшка в технолопчних процесах. - 2007. - № 1 (29). -С.150 - 152.

Стаття над1йшла до редакцп 29.01.2018

i Надоели баннеры? Вы всегда можете отключить рекламу.