Научная статья на тему 'МӘТІНДЕР ЖАНРЫН АНЫҚТАУҒА АРНАЛҒАН БЕЛГІЛЕРДІ ЗЕРТТЕУ ЖӘНЕ ТАЛДАУ'

МӘТІНДЕР ЖАНРЫН АНЫҚТАУҒА АРНАЛҒАН БЕЛГІЛЕРДІ ЗЕРТТЕУ ЖӘНЕ ТАЛДАУ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
295
22
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МәТіНДЕР ЖАНРЫ / БЕЛГіЛЕРДі ЗЕРТТЕУ / МАШИНАЛЫқ ОқЫТУ АЛГОРИТМДЕРі / ЛОГИСТИКАЛЫК РЕГРЕССИЯ / ШЕШіМ АғАШЫ / КЕЗДЕЙСОқ ОРМАН

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шаншар С. Ш., Уалиева И. М.

Бұл мақалада мәтіндер жанрын анықтауға арналған белгілерді зерттеу және талдаудағы қолдануға болатын алгоритмдер қарастырылады. Мәтіндер жанрын анықтаудағы ерекшеліктер көрсетілген. Сонымен қатар мәтіндерді сипаттай отырып, тек мәтіндерді қалдырып, керек емес символдарды алып тастайды. Соның ішінен мәліметтер қорымен салыстырмалы түрде анықталады. Мақалада барлық параметрлерге негізделген мәтіндік жанрды автоматты түрде танудың тәжірибелік әдісі сипатталған. Логистикалык регрессия, шешім ағашы, кездейсоқ орман, MLPClassifier, AdaBoostClassifier, GaussianNB алгоритмдерін салыстыра келе мәтіндер үшін ең маңызды параметрлерді таңдау қарастырылды. Мәтіндер жанрын анықтау қазірге кезде ақпараттық қоғамда барлық салада өзекті болып отыр.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Шаншар С. Ш., Уалиева И. М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

FEATURE SELECTION FOR AUTOMATIC DETECTION OF TEXT GENRE

This article discusses the algorithms that can be used in the study and analysis of symbols to determine the genre of texts. There are differences in defining the genre of texts. Algorithm is also defined by describing the text, removing unnecessary characters, leaving only the text, and comparing it with the database. The article describes a practical method of automatic recognition of the text genre based on all parameters. Comparing the logistics regression, solution tree, random forest, MLPClassifier, AdaBoostClassifier, svm, GaussianNB algorithms, the choice of the most important parameters for the texts was considered. Defining the genre of texts is now relevant in all areas of the information society.

Текст научной работы на тему «МӘТІНДЕР ЖАНРЫН АНЫҚТАУҒА АРНАЛҒАН БЕЛГІЛЕРДІ ЗЕРТТЕУ ЖӘНЕ ТАЛДАУ»

FTAXP 20.19.27 DOI: 10.52512/2306-5079-2021-85-1-84-90

МЭТ1НДЕР ЖАНРЫН АНЬЩТАУГА АРНАЛГАН БЕЛГ1ЛЕРД1

ЗЕРТТЕУ ЖЭНЕ ТАЛДАУ

С.Ш. Шаншар*, И.М. Уалиева

Эл-Фараби атындагы Казак ¥лттык университетi, Алматы, Казахстан e-mail*: saniyashanshar@gmail.com

Бул макалада мэпндер жанрын аныктауга арналган белплерд1 зерттеу жэне талдаудагы колдануга болатын алгоритмдер карастырылады. Мэпндер жанрын аныктаудагы ерекшелжтер керсетшген. Сонымен катар мэт1ндерд1 сипаттай отырып, тек мэт1ндерд1 калдырып, керек емес символдарды алып тастайды. Сонын 1ш1нен мэл1меттер корымен салыстырмалы тYрде аныкталады. Макалада барлык параметрлерге непзделген мэтщдгк жанрды автоматты тYPде танудыц тэж1рибелж эдга сипатталган. Логистикалык регрессия, шеш1м агашы, кездейсок орман, MLPClassifier, AdaBoostClassifier, GaussianNB алгоритмдерш салыстыра келе мэтшдер Yшiн ен мацызды параметрлерд1 тацдау карастырылды. Мэтшдер жанрын аныктау каз1рге кезде акпараттык когамда барлык салада езектi болып отыр.

Туйт свздер: мэтiндер жанры, белгiлердi зерттеу, машиналык окыту алгоритмдерi, логистикалык регрессия, шешiм агашы, кездейсок орман, MLPClassifier, AdaBoostClassifier.

Kipicne

Мэт1нд1 автоматты турде жштеу цифрлык кужаттар пайда болганнан бер1 эрдайым мацызды колданбалы жэне зерттеу такырыбы болды. Бугшп куш кундел1кп кажеттшкке байланысты ете улкен мэт1нд1к кужаттардыц непз1нде мэтшд1 жштеу кажетп болып табылады. Жалпы мэтшд1 жiктеу такырыптык мэтшдш жштеущ жэне мэт1нд1к жанрга непзделген жштеущ камтиды. Такырыпка непзделген мэтшд1 санаттарга белу кужаттарды такырыптарына карай жштейдь Мэтшдерд1 кептеген жанрларда жазуга болады, мысалы: гылыми макалалар, жацалыктар туралы есептер, фильмдерге шолу жэне жарнама. Солардыц непз1нде осы зерттеуде карастырылган мэндер: автомобиль, экономика жэне бизнес, шоу-бизнес жэне ойын-сауык, отбасы, сэн, компьютер ойындары, денсаулык жэне медицина, саясат, меншш, гылым мен технология, спорт, туризм, саяхат, тамактар. Бул сыныптардыц алыну себеб1, каз1рп ем1рде колданылып жаткан барлык мэндерд1 осы сыныптарга непздесе болады.

Мэт1ндер жанрын аныктаудыц тагы б1р мацызды белт - жштеу дэлдтн жаксартуга багытталган алгоритмдерд1 дурыс тандай бшу. Мэтшдер жанрын аныктау бойынша карастырылатын алгоритмдер: логистикалык регрессия, шеш1м агашы, кездейсок орман, MLPClassifier, AdaBoostClassifier, GaussianNB.

Эр турл1 мэтш жанрларындагы очерктерд1 зерттеуде кытай галымдары SVM жэне кездейсок орман алгоритмдерше непзделе отырып, 80% дэлдшке кол жетюзд1 [1; 15]. Ал, мэт1нд1 автоматты турде жштеу бойынша машиналык окыту эдютершщ алгоритмше непзделш, сол бойынша зерттеу журпзшген [2;3]. Сол зерттеудщ нэтижес машиналык окыту бойынша мэт1нд1 автоматты турде жштеу жаксы нэтижелер керсеткен.

Мэт1ндер жанрын аныктауга арналган осы макалада машиналык окыту бойынша алогритмдер карастырылган. Сол алгоритмдердщ жумыс ютеу принцишне непзделе отырып, мэл1меттер корындагы сыныптарды салыстыра келе колайлы алгоритмдерд1 аныктады.

Нeгiзгi бвлiм

Жанрды тану белгш б1р параметрлер непз1нде жузеге асырылады, олар салмактыц коэффициенттер1 бершген мэтшнщ лингвистикалык сипаттык актеристикасы деп тусшшед1, ягни бершген мэтш ушш сипаттамалардыц мацыздылыгын керсететш сандык мэндер. Сэйкесшше, жанрды тану процедурасы ею непзп мэселеш шешуд1 кездейдк тшдш сипаттамаларды ажырату жэне оларды елшеу алгоритмш куру [3;4].

Автоматты турде веб-кужат жанрын тану женшдеп жумыстардан айырмашылыгы, бул жобаныц ею ерекшелшт камтиды:

1. Келес дорытындылауга арналган Kipic дожаты TXT форматындагы мэтiндiк файл болып табылады. Сондыдтан HTML-тегтер немесе веб-д^жатты форматтаудьщ кез келген басда дасиеп^ параметрлер ретшде долданыла алмайды.

2. Басты мадсат адаптивтi дорытындылау алгоpитмдеpiн д^ру болгандыдтан, параметрлер pетiнде тек дэнекер гана емес, сонымен датар мазм^ндыд сездер де еcкеpiлуi керек. Дэнекер сездер жинадтау теориясы мен практикасында мэтiндi талдау пpоцеciнде еcкеpiлмейтiн стоп-сез ретшде дарастырылады.

Деректер цоры. Мэтвдер жанрын аныдтауга арналган белгiлеpдi зерттеу жэне талдауда табигаты жагынан ^дсас пэндер (мысалы, экономика жэне бизнес) одыту моделiндегi сабадтардыц бip-бipiмен дабаттасып, дэлдштщ темендеуiне экеледi. М^ндай жагдайларда, эдетте, м^ндай сыныптар бip топда бipiктipiледi, содан кейiн субклассинг немесе сынып iшiндегi д^жаттарды дайта жштеу долданылады. Б^л автоматты жiктеу жYЙеci TFiDF елшемiмен танымал долдау векторлыд машинасын долданады [4;5]. Осы сыныптарга сэйкес эpбip кipic дожаты оныц сол немесе басда сыныпда жадындыгыныц дэpежеciн ескере отырып жiктеледi. Егер д^жат екi тадырыпда жадын болса, онда ол сэйкес ею сыныпда жатады. Егер д^жат бipден бipнеше тадырыпда ^дсас болса, онда б^л шу болуы мYмкiн [5;3].

Осы н^сдадагы модель алдын-ала аныдталган бipнеше сыныптарда одытылады: автомобиль, экономика жэне бизнес, шоу-бизнес жэне ойын-сауыд, отбасы, сэн, компьютер ойындары, денсаулыд жэне медицина, саясат, меншш, гылым мен технология, спорт, туризм, саяхат, тамадтар.

Осы жобада долданылып жатдан датасет Github жобада (пpоектiде) https://github.com/zamgi/lingvo—classify сштемес бойынша орысша жиналган 2013-2014 жылдан алынды [6; 1]. Алгашды н^сда pетiнде эpтYpлi багыттагы 13 сынып алынды, сонымен датар, осы сыныптарды жэне датаcеттi дазад тiлiнде долдану Yшiн Google аудармашы багдарламасы кемепмен аударылды. Алгашды н^сда pетiнде олар белек 13 тYpлi файлда орналасдан. Сол файлдарды python тiлiнде одытып эр сыныптагы д^жаттарды "\n" ардылы белiп алынды [7;106]. Соныц ардасында орташа есеппен алган 2-3мыц д^жат эр сыныпта пайда болды. Ал барлыд д^жаттар саны 22 мыцга жуыд. Осы д^жаттардыц iшiнен кездейсод тYpде одытуга 80%-ы, жэне тестшеуге 20%-ы алынады. Осыдан кейiн оны тазалау немесе препроцессинг тэciлiне кешть Б^л процесте артыд символдарды, html, тагы да басда адпараттыц Yйpетуiн диындатып жiбеpетiн символдар, элементтер алынып тасталды. Сонымен датар 13-шi "Тамад жасау" сыныбы алынып тасталды, cебебi ондагы объекттер саны 200-ге жуыд болды жэне ол одыту барысында керюшше эсер кеpcетiп, дэлдiктi азайтты.

Эдiстерге сипаттама

Мадала барысында машиналыд одытуга арналган бipнеше алгоpитмдеpдi жанр бойынша алынган датасеттщ кемегiмен одытып, болжам жасалынады. Ол алгоритмдер датарына логистикалыд регрессия, шешiм агашы, кездейсод орман, MLPClassifier, AdaBoostClassifier жатады. Осы алгоритмдердщ нэтижелеpiн алып, алдагы уадытта салыстырылады.

Логистикальщ регрессия. Негiзгi сандыд эдic pетiнде логистикалыд регрессия (LR) дарастырылды. Екi бейресми пилоттыд зерттеулер оныц сызыдтыд дискриминация мен сызыдтыд регрессияга дараганда жадсы нэтиже бергендшн кеpcеттi [8;63]. Логистикалыд регрессия -логикалыд ciлтеме функциясын долдана отырып, бip немесе бipнеше болжагыш айнымалылардыц сызыдтыд комбинациясы ардылы екiлiк жауап айнымалысын модельдеуге арналган статистикалыд эдю

д(п) = 1од(п/( 1 - п)) (1)

жэне биномдыд кездейсод шамамен дисперсияны модельдеу, ягни тэуелдi айнымалы журнал (п / (1 - п) тэуелciз айнымалылардыц сызыдтыд комбинациясы pетiнде модельденедь Модельде g (п) = xiß формасы бар, м^ндагы п - жауаптыц болжамды ыдтималдыгы (бiздiц жагдайда белгiлi бip фасондыд мэннiц ыдтималдыгы), xi - б^л мэтiн Yшiн еpекшелiк векторы, ал ß - салмад векторы функционалды векторлардыц матрицасы. В оцтайлы мэнi максималды ыдтималдылыдты багалау ардылы шыгарылады [9;7].

Екшк шешiмдер ушш LR цолдану царапайым болды. Полимотозды цырлар жанры мен цасы Yшiн эр цырдыц эр децгешне болжау функциясын дербес есептедi жэне ец жогары болжаммен санатты тацдады.

55 айнымалылардыц iшiндегi ец дискриминациясы А1С критерийi бойынша бiртiндеп артца тандау арцылы тацдалды. Эрбiр екшк дискриминация тапсырмасы Yшiн айнымалылардыц жеке жиынтыгы тацдалды. Мэтiндер жанрын аныцтауга арналган белгiлердi зерттеу жэне талдаудагы логистикалык; регрессия классификаторыныц нэтижесш келеЫ суреттен кере аламыз(1-сурет):

Ме1пс5

01_auto.txt 0г_еСОПОГ№С1_Ьи51П«55.1*1 ОЗ пЬе гЬа I пт еп I 04_Тат1 ly.txt

05 Т-аяЫс

i.txt

06_дате5 1x1

ое_ро«1ис5 09_realty.txt 10_5С 1е п се_1ч Лес h.txt Пьрогг-иа 12Jtrave1.txt ггнсго а уд

«лгЫдЫгей а'.'д

0.83 0.81 0.82

О. те 0.74 0.76

0 89 0 92

О81 О 93 0 87

0 92 0 84 0 88

092 0 91

08В 0 88 0 88

0 78 081 0.79

0.82 0 89 0.85

0.85 0.74 0.79

0.96 0.95 0.96

0.87 0.82 0.84

0.85 085 0 85

0 86 0 85 0 85

0 85 0 85 0 85

1-сурет. Мэтшдер жанрын аныцтауга арналган белгiлердi зерттеу жэне талдаудагы логистикалыц регрессия классификаторыныц нэтижес

Шешiм агашы алгоритма Шешiм агашы - бул тамыр тYЙiнiн, бутацтар мен жапырац тYЙiндерiн цамтитын цурылым. Эрбiр iшкi тYЙiн атрибут бойынша теспш, эр тармац тест нэтижесш бiлдiредi жэне эрбiр жапырац тYЙiнiнде класс белгiсi болады [10;34]. Шешiмдер агашыныц мэтiндiк классификаторы агаштан турады, онда iшкi тYЙiндер сездермен белгiленедi, олардан тарайтын бутацтар тестшеу цужатын усынудагы сездер салмагы бойынша тестермен белгiленедi, ал парац тYЙiндерi С; категориялары бойынша белгшенедь Мундай жiктеуiш салмацты рекурсивтi сынау арцылы ^ тест цужатын санатца цосады. Iшкi тYЙiндердi тацбалайтын сездер ^ бейнесiнде, С; парагыныц тYЙiнiне жеткенге дейiн; осы жапырац тYЙiнiнiц жапсырмасы ^ -ге тагайындалады [11; 178]. Мэтвдер жанрын аныцтауга арналган белгiлердi зерттеу жэне талдаудагы шешiмдер агашы классификаторыныц нэтижесiн келес суреттен кере аламыз (2-сурет):

2-сурет. Мэтiндер жанрын аныцтауга арналган белгiлердi зерттеу жэне талдаудагы шешiмдер

агашыныц классификаторы

Кездейсоц орман алгоритма Кездейсоц ормандар алгоритмш «кездейсоц орман» кемепмен sklearn кiтапханасы арцылы пайдаланылды. Бул эдю кездейсоц шешiм агаштарыныц санын тудырады жэне оларды модельдi сынау кезшде бiр-бiрiмен бiрге цолданады. Бул модельдi пайдалану эдетте бiр

шешiм агашына дараганда жогары дэлдiктi тудырады, ейткеш ол надты сплиттерге мYмкiндiк беред^ дегенмен сплит саныныц кеп болуына байланысты деректердi артыд орналастыру мYмкiндiгiне экелуi MYMKiH [12;6]. Кездейсод орман алгоритмшщ алгашды iске досылуы 10 кездейсод агашты, содан кейiн 100 кездейсод агашты жэне тшт 1000 кездейсод агашты д^ру ардылы жYзеге асырылды. Мэтiндер жанрын аныдтауга арналган белгiлердi зерттеу жэне талдаудагы кездейсод орман классификаторыныц нэтижссш Kc.icci суреттен кере аламыз(З-сурет):

3-сурет. Мэтiндер жанрын аныдтауга арналган белгiлердi зерттеу жэне талдаудагы кездейсод

орман классификаторы

MLPClassifier. MLP - дабатты ациклдш графикамен д^рылган, алга жылжитын жYЙке желю класы. MLP кем дегенде Yш дабаттан жэне сызыдтыд емес активациядан тирады. Бiрiншi дабатты кiрiс, екiншi дабатты жасырын жэне Yшiншi дабатты шыгару дабаты деп атайды [13;7]. Yш дабат толыгымен байланысты, демек жасырын дабаттагы барлыд тYЙiндер басда дабаттардагы барлыд тYЙiндерге досылады. Юрю дабаты ецделетш кiрiс сигналын алады. Болжау жэне жштеу сиядты дажетп тапсырманы шыгыс дабаты орындайды. Юрю жэне шыгыс децгешнщ арасында орналасдан жасырын дабаттардьщ ерiктi саны MLP-дщ шынайы есептеуiшi болып табылады. MLP-де мэлiметтер кiрiс багытынан шыгыс дабатда алга багытта агады. MLP дателш функциясына датысты градиенттщ тYсуiн есептеу ардылы салмадтары жацартылатын backpropagation кемепмен одытылады. ^олдау векторлары немесе Naive Bayes классификаторы сиядты басда жштеу алгоритмдершен айырмашылыгы, MLPClassifier жiктеу тапсырмасын орындау Yшiн негiзгi нейрондыд желюше CYЙенедi [14;1033]. Мэтiндер жанрын аныдтауга арналган белгiлердi зерттеу жэне талдаудагы MLPClassifier-дщ нэтижссш Kc.icci суретте керсетшген (4-сурет):

4-сурет. Мэтiндер жанрын аныдтауга арналган белгiлердi зерттеу жэне талдаудагы

MLPQassifier-дщ нэтижесi

AdaBoostClassifier. Жогары децгейде AdaBoost кездейсод орманга ^дсайды, ейткеш олардыц эрдайсысы орман iшiндегi эр класс агаштарыныц соцгы классификация туралы шешiмiн болжайды. Алайда кейбiр айырмашылыдтар бар. Мысалы, AdaBoost-та шешiм агаштары 1 терецдшке ие (ягни 2

жапырад). Сонымен датар, эр шешiм агашыныц болжаулары модель жасаган соцгы болжамга эртYрлi эсер етедi [15;112]. Мэтiндер жанрын аныдтауга арналган белгiлердi зерттеу жэне талдаудагы AdaBoostQassifier-дщ нэтижесiн келесi суреттен кере аламыз (5-сурет):

5-сурет. Мэтшдер жанрын аныдтауга арналган белгiлердi зерттеу жэне талдаудагы AdaBoostClassifier -дiц нэтижес

Жалпы долданган датасеттердiц негiзiнде, мэндерге CYЙене келе, MLP Classifier-дыц тиiмдi екендiгi дэлелдендi. ^арастырылып жатдан 12 сыныптыц эрдайсысына жеке-жеке кецiл белсе: 1-кесте

Сынып аты Логистикалыд регрессия Шеш1м агашы алгоритм! Кездейсод орман алгоритм! MLP Classifier AdaBoost Classifier

F1 F1 F1 F1 F1

Автомобиль 0,82 0,52 0,62 0,84 0,53

Экономика жэне бизнес 0,76 0,48 0,55 0,75 0,29

Шоу-бизнес жэне ойын- сауыд 0,91 0,64 0,75 0,90 0,65

Отбасы 0,87 0,64 0,72 0,88 0,54

Сэн 0,88 0,68 0,76 0,89 0,77

Компьютер ойындары 0,91 0,70 0,79 0,92 0,79

Денсаулыд жэне медицина 0,88 0,66 0,82 0,89 0,75

Саясат 0,79 0,49 0,57 0,78 0,48

Меншк 0,85 0,67 0,77 0,85 0,74

Еылым мен технология 0,79 0,53 0,63 0,81 0,50

Спорт 0,96 0,78 0,88 0,97 0,83

Туризм 0,84 0,58 0,67 0,84 0,32

Эрбiр сыныпда жеке-жеке сипаттау ардылы осы алгоритмдердiц iшiнде, автомобиль сыныбы бойынша MLP Classifier, экономика жэне бизнес сыныбы бойынша логистикалыд регрессия классификациясы, шоу-бизнес жэне ойын сауыд сыныбы бойынша логистикалыд регрессия, отбасы сыныбы бойынша MLP Classifier, сэн сыныбы бойынша MLP Classifier жэне басда сыныптарда салыстырмалы тYрде MLP Classifier ардылы дэлдш басдалармен салыстырганда тиiмдi болып отыр.

Датасетке колданылган эр эдю бойынша алынган нэтижелердщ (плоттардыц) мэндервде кврсетiлген алгоритмдердщ дэлдiктерi бойынша салыстырсак та, MLP Classifier жаксы нэтиже кврсеткенiн 2-кестеден квре аламыз. 2-кесте

Алгоритм дэлдт Логистикалык; регрессия Шеш1м аташы алгоритм! Кездейсо; орман алгоритм! MLP Classifier AdaBoost Classifier

micro_avg 0,85 0,61 0,71 0,86 0,57

Бул макаланыц максаты - тiлдi табиги вцдеуде жанрды алуан тYрлi салада колдануга мYмкiндiк жасау. Калган негiзгi техникалы; киындыктар - жаттыгу кезiнде шамадан тыс калып коюды болдырмау Yшiн взгермелi тандаудыц тиiмдi стратегиясын табу. Нейронды; желшердщ внiмдiлiгi орташа жэне кейбiр кемсiтушiлiктер Yшiн элдекайда жогары екендт (вшмдшктщ взгергiштiгi жогары болганымен) шамадан тыс Yйлесiмдiлiк пен айнымалы взара эрекеттесудщ мацызды проблемалар екенiн кврсетедь

Теориялы; жагынан мэтiндер негiзiндегi жанрларды вмiрде квп колданылатын сыныптар бойынша жасалынды. Мэселенi карастырудыц бул тэсш эртYрлi жанрлар арасындагы байланысты оларды бiрлiк ретiнде карастырудыц орнына аныктауга мYмкiндiк бередi. Жаца жанрларды элi кврiнбейтiн кырлар жиынтыгына орналастыру Yшiн негiз бар. Акырында, жанрларды кыр-сырына ^арай бвле отырып, белгiлi бiр колдануда кандай жалпы аспект мацызды болатынына назар аудара алады.

na^&ttaHbtttFaH эдебиеттер

1. Douglas B. (2015) Dimensions of Register Variation: A Cross-Linguistic Comparison. Cambridge University Press, Cambridge, England.

2. Xiao Hu, J. Stephen Downie, and Andreas F. (2009) Ehmann Lyric Text Mining in Music Mood Classification. American music.

3. Kotsiantis S B, Zaharakis I., and Pintelas P. (2007) Supervised machine learning: A review of classification techniques. Frontiers in Artificial Intelligence and Applications, 160, 3.

4. Sebastiani F. (2002) Machine learning in automated text categorization, ACM computing surveys (CSUR), vol. 34, no. 1, pp. 1-47.

5. Seaar Al-Dabooni, Donald Wunsch, (2019), Model Order Reduction Based on Agglomerative Hierarchical Clustering. IEEE Transactions on Neural Networks and Learning Systems (TNNLS) Volume 30, Issue 7 - July, P: 1928-1942

6. https ://github.com/zamgi/lingvo --classify

7. Albitar S., Fournier S. and Espinasse B. (2014) An effective TF/IDF-based text-to-text semantic similarity measure for text classification, International Conference on Web Information Systems Engineering, pp. 105-114, October.

8. Bafna, P., Pramod, D., & Vaidya, A. (2016) Document clustering: TF-IDF approach. In Electrical, Electronics, and Optimization Techniques (ICEEOT), International Conference on (pp. 61-66). IEEE, March.

9. Stamatatos E., Fakotakis N., Kokkinakis G. (2010) Text Genre Detection Using Common Word Frequencies, Proc. of the 18th International Conference on C0LING2000.

10. Kessler B., Nunberg G., Schütze H. (1997) Automatic Detection of Text Genre, ACL'97, pages 32-38, July.

11. Gershman A., Meisels A., Lüke K.H., Rokach L., Schclar A., Sturm A. A Decision Tree Based Recommender System. InIICS 2010 Jun 3 (pp. 170-179).

12. Ualiyeva I.M., Mussabayev R.R. (2019) A Close Look at Features for Text Categorization (in publication)

13. Breiman L. (2001) Random forests. Mach. Learn.

14. Sung-Bae Cho, Jee-Haeng Lee (2003) Learning Neural Network Ensemble for Practical Text Classification, Lecture Notes in Computer Science, Volume 2690, Aug, Pages 1032 - 1036.

15. Yatsko V.A., Starikov M.S., and Butakov A. V. (2010) Automatic genre recognition and adaptive text summarization. Autom. Doc. Math. Linguist., vol. 44, no. 3, pp. 111-120.

Исследование и анализ признаков для выявления жанров текстов

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

С.Ш. Шаншар*, И.М. Уалиева Казахский национальный университет им. Аль-Фараби, Алматы, Казахстан, e-mail*: saniyashanshar@gmail.com

В статье рассматриваются алгоритмы, которые можно использовать при изучении и анализе символов для определения жанра текстов. Существуют различия в определении жанра текстов. Алгоритм также определяется описанием текста, удалением ненужных символов, оставлением только текста и сравнением его с базой данных. В статье описан практический метод автоматического распознавания жанра текста по всем параметрам. Сравнивая алгоритмы логистической регрессии, дерева решений, случайного леса, MLPClassifier, AdaBoostClassifier, GaussianNB, рассматривался выбор наиболее важных параметров для текстов. Определение жанра текстов сейчас актуально во всех сферах информационного общества.

Ключевые слова: Жанр текста, исследование символов, алгоритмы машинного обучения, логистическая регрессия, дерево решений, случайный лес, MLPClassifier, AdaBoostClassifier.

Feature selection for automatic detection of text genre S.Sh. Shanshar*, I.M. Ualiyeva

Kazakh national university named after Al-Farabi, Almaty, Kazakhstan, e-mail*: saniyashanshar@gmail.com

This article discusses the algorithms that can be used in the study and analysis of symbols to determine the genre of texts. There are differences in defining the genre of texts. Algorithm is also defined by describing the text, removing unnecessary characters, leaving only the text, and comparing it with the database. The article describes a practical method of automatic recognition of the text genre based on all parameters. Comparing the logistics regression, solution tree, random forest, MLPClassifier, AdaBoostClassifier, svm, GaussianNB algorithms, the choice of the most important parameters for the texts was considered. Defining the genre of texts is now relevant in all areas of the information society.

Keywords: Text genre, symbol research, machine learning algorithms, Logistic regression, solution tree, random forest, MLPClassifier, AdaBoostClassifier.

PegaKUHAFa 15.02.2021 tyctL

i Надоели баннеры? Вы всегда можете отключить рекламу.