Научная статья на тему 'СПАМНАН ҚОРҒАУ ҮШІН АҚПАРАТТЫ КЛАССИФИКАЦИЯЛАУ ӘДІСТЕРІН ЗЕРТТЕУ'

СПАМНАН ҚОРҒАУ ҮШІН АҚПАРАТТЫ КЛАССИФИКАЦИЯЛАУ ӘДІСТЕРІН ЗЕРТТЕУ Текст научной статьи по специальности «Техника и технологии»

CC BY
3
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Endless light in science
Область наук
Ключевые слова
спамды анықтау / машиналық оқыту / DistilBERT / lifelong learning / ақпараттық қауіпсіздік / спам фильтрациясы / Naive Bayes / қолдаушы векторлық машиналар (SVM) / динамикалық деректер / Catastrophic Forgetting.

Аннотация научной статьи по технике и технологии, автор научной работы — Файзулла Назым Батырбекқызы, Какенова Аяна Байгабулкызы

Бұл мақалада спамды анықтау мәселелері және машиналық оқыту модельдерінің ақпараттық қауіпсіздікті қамтамасыз етудегі рөлі қарастырылады. Электрондық пошта және хабарлама жіберу жүйелерінде спам күнделікті қолданушыларға үлкен қауіп төндіріп, олардың тәжірибесіне кері әсерін тигізеді. Мақалада спамды анықтауда қолданылатын негізгі әдістер – Наивті Байес, қолдаушы векторлық машиналар (SVM), кездейсоқ орман және DistilBERT секілді машиналық оқыту модельдері талданады. Сондай-ақ, lifelong learning (өмір бойы үйрену) модельдерінің тиімділігі, жаңа мәліметтерді үздіксіз үйреніп, бұрынғы білімді сақтай алу қабілеті қарастырылады. DistilBERT моделінің 93% дәлдікке қол жеткізгені атап өтіледі, алайда болашақта алгоритмдерді жетілдіру қажеттілігі көрсетіледі. Бұл зерттеу ақпараттық қауіпсіздікті күшейтуде машиналық оқыту технологияларын қолданудың маңыздылығын айқындайды.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «СПАМНАН ҚОРҒАУ ҮШІН АҚПАРАТТЫ КЛАССИФИКАЦИЯЛАУ ӘДІСТЕРІН ЗЕРТТЕУ»

ЭОК 004.056

СПАМНАН ЦОРГАУ YШIН АЦПАРАТТЫ КЛАССИФИКАЦИЯЛАУ

ЭД1СТЕР1Н ЗЕРТТЕУ

ФАЙЗУЛЛА НАЗЫМ БАТЫРБЕЩЫЗЫ

Л.Н.Гумилев атындагы Е¥У, «Акпараттык каушаздш» кафедрасыныц 2-шi курс

магистранты Астана, ^азакстан

КАКЕНОВА АЯНА БАЙГАБУЛКЫЗЫ

Л.Н.Гумилев атындагы Е¥У, «Акпараттык кауiпсiздiк» кафедрасыныц 2^i курс

магистранты Астана, ^азакстан

Ацдатпа. Бул мацалада спамды аныцтау мэселелер1 жэне машиналыц оцыту модельдер1н1ц ацпараттыц цау1пс1зд1кт1 цамтамасыз етудег1 рвл1 царастырылады. Электрондыц пошта жэне хабарлама ж1беру ЖYйелеpiнде спам ^ндел1кт1 цолданушыларга Yлкен цаут твндiрiп, олардыц тэжiрибесiне кеpi эсерт тигiзедi. Мацалада спамды аныцтауда цолданылатын негiзгi эд^тер - Наивтi Байес, цолдаушы векторлыц машиналар (SVM), кездейсоц орман жэне DistilBERT секiлдi машиналыц оцыту модельдеpi талданады. Сондай-ац, lifelong learning (вмip бойы Yйpену) модельдертщ тшмдыт, жаца мэлiметтеpдi Yздiксiз Yйpенiп, бурынгы бiлiмдi сацтай алу цабiлетi царастырылады. DistilBERTмоделшц 93% дэлдтке цол жетюзгет атап втiледi, алайда болашацта алгоpитмдеpдi жетiлдipу цажеттшт квpсетiледi. Бул зерттеу ацпараттыц цауiпсiздiктi кушейтуде машиналыц оцыту технологияларын цолданудыц мацыздылыгын айцындайды.

Клт свздер: спамды аныцтау, машиналыц оцыту, DistilBERT, lifelong learning, ацпараттыц цаутЫздщ спам фильтрациясы, Naive Bayes, цолдаушы векторлыц машиналар (SVM), динамикалыц деректер, Catastrophic Forgetting.

1. Kipicne

Цифрлык технологиялардыц каркынды дамуы нэтижесшде электрондык пошта байланысы ^нделшт eмiрдщ ажырамас белшне айналды. Дегенмен, электрондык хат алмасу жYЙелерiнiц кец таралуы спам хаттарыныц да кебеюше экелдь Спам хаттары акпараттык каушаздшке тенетш непзп катерлердщ бiрi болып саналады жэне колданушылардыц интернет тэжiрибесiне терю эсер етедь ^аз1рп уакытта ж1бершетш электрондык хаттардыц шамамен 45%-ы спам хаттары болып табылады, бул элемдiк келемде ^нделшт миллиардтаган хаттарды камтиды [1]. Спам мэселесшщ мацыздылыгы соншалык, ол тек уакыт жогалтуга гана емес, сонымен катар дербес деректердщ урлануына, жYЙелердiц бузылуына жэне баска да кауштерге экелуi мYмкiн.

Спам хаттарын тиiмдi тYPде аныктау жэне CYЗгiден етюзу Yшiн машиналык окыту (МО) технологиялары колданылады. Мундай эдютердщ тиiмдiлiгi, олардыц мэлiметтердi талдау жэне алдын ала ецдеу мYмкiндiктерiне негiзделген. ^азiрri тацда спамды аныктау Yшiн колданылатын непзп МО модельдерi - Наивтi Байес, колдаушы векторлык машиналар (SVM), кездейсок орман жэне нейрондык желiлер болып табылады. Сонымен катар, DistilBERT сиякты терец окыту модельдерi де жогары дэлдiк кeрсеткiштерiне кол жеткiзуде, эаресе мэтiндiк мэлiметтердi ецдеуде. DistilBERT моделi аркылы жYргiзiлген зерттеулердiц нэтижесiнде спам хаттарын аньщтауда 93% дэлдiкке жету мYмкiндiгi кeрсетiлген [2].

Дегенмен, уакыт ете келе спам хаттарыныц тYрлерi мен колданылатын эдютер eзгерiп отырады. Бул кубылыс «концептуалды дрейф» (concept drift) деп аталады жэне ол жаца мэлiметтердi Yздiксiз окуды талап етедi [3]. Lifelong Learning (eмiр бойы Yйрену) модельдерi осы мэселеш шешуге багытталган жэне олар жаца деректердi Yнемi окып, бурынгы бiлiмдi

ОФ "Международный научно-исследовательский центр "Endless Light in Science"

сактап отырады, бул машиналык окыту модельдершщ тшмдшпн арттырады [4].

Бул макалада спам хаттарын аныктауда колданылатын Heri3ri эдютер талданып, олардыц акпаратты; кауiпсiздiктi камтамасыз етудегi рeлi карастырылады. Сонымен катар, DistilBERT жэне lifelong learning модельдершщ артыкшылыктары мен шектеулерi туралы талкылаулар жYргiзiледi.

2. Спамныц пайда болуы жэне дамуы

Спамныц тарихы 1978 жылы басталды, бул кезде А^Ш-та ARPANET пайдаланушыларына жiберiлген алгашкы кажетаз хабарлама тiркелдi. Бул алгашкы спам хатын Гари Тюрк есiмдi Digital Equipment Corporation екш жiбердi. Ол компанияныц жаца eнiмiн таныстыру Yшiн бiр электрондык поштаны 393 адамга тараткан болатын. Пайдаланушылардыц жауаптары аз болганымен, бул хат компанияга бiрнеше сату келiсiмшарттарын жасасуга кeмектестi [5]. Бул окига спам хаттарыныц тарихындагы алгашкы жагдай ретшде есте калды.

Спам хаттары уакыт ете келе интернет колданушылар арасында кец тарала бастады. 1990 жылдары коммерциялык интернеттщ дамуы нэтижесiнде »Make Money Fast» сиякты такырыптагы спам хаттар кeбейдi [6]. Сол кезецнен бастап, спам хабарламалары тек жарнамалык емес, сонымен катар зиянды максатта да колданыла бастады.

^азiрri тацда спам хаттары интернет жэне электрондык пошта кызметтершщ ажырамас бeлiгiне айналды. 2022 жылгы мэлiметтер бойынша, элемде жiберiлетiн электрондык хаттардыц шамамен 45%-ы спам хаттар болып табылады [7]. Бул дегенiмiз, кYн сайын миллиардтаган кажетсiз хаттар таратылады жэне бул тек уакыт пен ресурстарды ысыраптап кана коймай, пайдаланушыларга кауiп тeндiредi. Спам хаттары фишинг шабуылдарын жасау, жеке акпаратты урлау, зиянды багдарламаларды тарату сиякты максаттарда кещнен колданылып отыр.

Спамныц тYрлерi уакыт eте келе eзгерiп, олардыц кeлемi артуда. Спам хаттарыныц бастапкыда тек коммерциялык жарнама ретшде колданылганы белгiлi болса, казiргi уакытта олар тYрлi элеуметтiк инженерия эдiстерiмен бiрге колданылады. Мысалы, 2017 жылы «Ирма» дауылы кезiнде спамерлер адамдардыц коркынышын пайдаланып, фишинг хаттарын тараткан болатын [8].

Жалпы, спам хаттары тек А^Ш, Ресей жэне ^ытай секiлдi елдерден гана емес, элемнщ эр тYрлi бурыштарынан таратылады. Спамныц ^пштЫ агылшын тiлiнде жазылады, бiрак соцгы жылдары баска тiлдерде де тарату жшлеп барады [9]. Спам хаттарыныц мазмуны да эр алуан - жарнамалык хабарламалардан бастап, жалган акпарат немесе зиянды багдарламаларга дешн эртYрлi болады. Зерттеулер кeрсеткендей, ^теген колданушылар кызыкты такырыптары бар хаттарга, тiптi жiберушiсi белгiсiз болса да, жш жауап бередi [10].

^орытындылай келе, спам хаттары интернет жэне электрондык пошта жYЙелерiнiц кауiпсiздiгiне елеулi катер тeндiретiн негiзгi факторлардыц бiрi болып калып отыр. Олардыц ^лемшщ артуы жэне тYрленуi оларды аныктау мен алдын алудыц жаца эдютерш iздеудi талап етедi.

3. Спамды аныктауда колданылатын машиналык окыту эдктер1

Машиналык окыту (МО) эдiстерi казiргi замангы спамды аныктау жYЙелерiнiц негiзi болып табылады. Электрондык хаттар мен мэтшдш хабарламалардагы спамды тиiмдi турде аныктап, оларды CYзу Yшiн эртYрлi машиналык окыту алгоритмдерi колданылады. Олардыц эркайсысыныц артыкшылыктары мен колданылу аясы бар.

1. Наивтi Байес (Naive Bayes) - ыктималдыкка негiзделген карапайым, бiрак тиiмдi эдiс. Бул модель эрбiр хаттыц белгiлi бiр ыктималдылыкпен спам немесе «хам» (пайдалы хат) екенш болжайды. Наивтi Байес алгоршм мэтiндiк жiктеу мэселелерiнде кецiнен колданылып келед^ оныц iшiнде спамды аныктау ец мацызды салалардыц бiрi болып табылады. Бул эдютщ артыкшылыгы - карапайымдылыгы мен жылдамдыгы. Алайда, ол кейде адп акпаратка бай

ОФ "Международный научно-исследовательский центр "Endless Light in Science"

мэтшдермен жумыс жасаганда киындыктарга тап болуы мумкш [11].

2. ^олдаушы векторлык машиналар (SVM) - спамды аныктауда жш колданылатын кYштi эдютердщ 6ipi. SVM сызыктык жэне сызыктык емес деректердi сыныптар бойынша тиiмдi бeлетiн гипержазыктыктарды табуга тырысады. Бул эдiс эаресе Yлкен деректер жиынымен жумыс ютегенде жаксы нэтиже кeрсетедi. SVM-нщ басты артыкшылыгы - оныц кYPделi деректер курылымымен жумыс iстеу кабiлетi, бiрак ол Yлкен есептеу куатын кажет етедi жэне узак уакытты талап етуi мYмкiн [12].

3. Кездейсок орман (Random Forest) - шешiм агаштары негiзiнде жасалган эдiс. Ол бiрнеше шешiм агаштарын бiрiктiрiп, соцгы нэтиженi аныктау Yшiн кeпшiлiк дауысты пайдаланады. Бул эдiс спамды аныктау мэселелершде де кещнен колданылады. Кездейсок орманныц негiзгi артыкшылыгы - ол деректердеп вариацияны жаксы тYсiре отырып, жогары дэлдiкке кол жеткiзедi жэне артык белгiленген деректерге сезiмтал емес. Алайда, бул эдю Yлкен деректер келемш кажет етедi жэне ресурстарды кеп тутынады [13].

4. Нейрондык желiлер (Neural Networks) - терец окыту модельдерi, олар адам миыныц нейрондык курылымын елiктеу аркылы акпаратты eцдейдi. Бул эдiс мэтiндiк деректердщ Yлкен кeлемiн талдап, мэтiндердегi жасырын паттерндердi аныктайды. Спамды аныктауда нейрондык желшер, эсiресе конволюциялык нейрондык желшер (CNN) жэне рекурренттiк нейрондык желшер (RNN) сиякты модельдер колданылады. Нейрондык желшер спамды ж1ктеуде жогары дэлдшке кол жеткiзедi, бiрак оларды Yйрету узак уакыт алады жэне есептеу ресурстарын кeп кажет етедi [14].

5. DistilBERT - BERT моделшщ жецiлдетiлген нускасы, ол мэтiндердi жылдам эрi тиiмдi тYPде талдауга мYмкiндiк бередi. DistilBERT спамды аныктау кезшде мэтiндерден негiзгi акпаратты бeлiп, олардыц мазмунын талдау аркылы жогары дэлдшке кол жеткiзедi. Бул эдiс модельдщ кYPделiлiгiн азайтып, оныц есептеу тшмдшшн арттырады, бiрак дэлдiк бойынша элi де жетiлдiрулер кажет болуы мYмкiн. Зерттеулер нэтижелерi бойынша, DistilBERT моделi спамды аныктауда 93% дэлдiкке кол жетюзген [15].

4. DistilBERT жэне оныц колданылуы

DistilBERT - бул табиги тiлдердi eцдеудегi (NLP) ец ^шт куралдардыц бiрi болып саналатын BERT моделiнiц жецiлдетiлген нускасы. DistilBERT BERT-тщ толык нускасына караганда жецш жэне жылдам жумыс iстейдi, алайда дэлдш бойынша жогары кeрсеткiштерге кол жетюзедь Бул модель негiзiнен терец окытуга негiзделген жэне спамды аныктау, мэтiндердi классификациялау, сурактарга жауап беру секiлдi эртYрлi мэтiндiк тапсырмаларды орындауга тиiмдi болып келедi.

DistilBERT моделшщ непзп артыкшылыктарыныц бiрi - оныц жылдамдыгы мен жецiлдiгi. BERT (Bidirectional Encoder Representations from Transformers) моделi Yлкен есептеу ресурстарын кажет етед^ сондыктан оны колдану кейбiр жагдайларда киынга согады. DistilBERT бул мэселелердi шешу максатында жасалган: оныц eлшемi BERT моделiнен шамамен 40%-га юш^ ал жылдамдыгы 60%-га тезiрек [16]. Сонымен катар, ол BERT моделшщ непзп мYмкiндiктерiн сактайды жэне дэлдш бойынша салыстырмалы тYPде жогары кeрсеткiштер кeрсетедi.

DistilBERT distillation эдiсiн колданады, бул терец окыту модельдерiнiц Yлкен кeлемдегi акпараттарды азайтып, соныц непзшде жецiл эрi тиiмдi модель жасауга багытталган эдiс. Осы эдiс аркылы DistilBERT шагын модельге BERT-тiц непзп ерекшелштерш Yйрете отырып, eнiмдiлiктi тeмендетпей, Yлкен Yлгiлердi кыскартуга мYмкiндiк бередi [17].

DistilBERT моделi терец окыту алгоритмдерi арасында ерекше орынга ие. Оныц ец басты артыкшылыгы - жылдамдыгы мен жецшдетшген курылымы, бул Yлкен кeлемдегi мэтiндердi eцдеудi жецшдетедь Сонымен катар, модельдiц кайталама окыту кабшет (transfer learning) жогары, бул оны эртYрлi мэтiндiк классификациялау мшдеттершде колдануга тиiмдi етедi [18]. DistilBERT модельдерi алдын ала Yйретiлген жэне эртYрлi деректер жинагында колданылып, жогары шрсетюштерге кол жеткiздi.

ОФ "Международный научно-исследовательский центр "Endless Light in Science"

DistilBERT моделi Yлкен жетютштерге карамастан, элi де жетiлдiрудi кажет етедi. Бiрiншiден, оньщ дэлдiк кeрсеткiштерi кейбiр кYPделi мэтшдш мэлiметтермен жумыс iстегенде тeмендеуi mymkïh. Бул эсiресе эртYрлi тiлдердегi мэтшдер немесе мэдени контексттерге катысты мэтшдерде байкалады. Екiншiден, модельдщ жещлдетшген нускасы кейбiр терец мэтiндiк паттерндердi жiберiп алуы mymkïh, бул Yлкен, толык нускадагы модельдерге тэн емес кемшшк [19]. Сондыктан, DistilBERT моделiн жетiлдiру жэне оныц мYмкiндiктерiн кецейту болашакта кажет болуы mymkïh.

DistilBERT моделi тек кана спам хаттарды аныктауда гана емес, сонымен катар баска да мэтшдш классификациялау, сурактарга жауап беру, сезiмталдыкты аныктау (sentiment analysis) жэне сухбаттасу модельдерiн куру сиякты кептеген тапсырмаларда тиiмдi болып шыкты. Оныц жецiл эрi жылдам жумыс iстеуi оны эртYрлi саладагы мэтшдш мэлiметтердi ецдеу жYЙелерiнде колдануга мYмкiндiк бередi.

Болашакта DistilBERT моделiн жетiлдiру мYмкiндiктерi кеп. Жаца деректермен модельдi кайта Yйрету жэне оныц дэлдшн арттыру аркылы DistilBERT спамды аныктау саласында гана емес, жалпы мэтшдш тапсырмаларды шешуде алдыцгы катарлы курал бола алады. Сонымен катар, модельдi эртYрлi тiлдер мен контексттерге бешмдеу оныц эмбебаптыгын арттырады жэне оны халыкаралык децгейде колдануга мYмкiндiк береди

5. Lifelong Learning моделi жэне оныц ерекшелiктерi

Lifelong Learning (eмiр бойы Yйрену) - бул машиналык окыту эдiсi, ол Yздiксiз турде жаца мэлiметтердi окып, сонымен катар бурынгы бiлiмдi сактап калуга багытталган. Бул эдю, эсiресе, деректердiц езгерш отыратын жагдайларында тиiмдi, eйткенi дэстyрлi статикалык модельдер уакыт ете келе тшмдшпн жогалтады. Lifelong Learning модельдерi динамикалык деректер агымдарын ецдеуге бешмделген жэне концептуалды дрейфмэселесiн шешуге арналган [20].

Концептуалды дрейф (concept drift) - уакыт ете келе мэлiметтердiц yлгiлерi мен ерекшелiктерiнiц eзгеруi. Спам хаттарыныц мазмуны мен курылымы езгерген сайын, дэстyрлi машиналык окыту модельдерi бул eзгерiстердi ескере алмайды жэне олардыц тшмдшп тeмендейдi. Мысалы, белгш бiр кезецде спамды аныктауда колданылган кiлт сездер немесе белгiлер уакыт ете келе спам хаттарында кездеспеуi mymkïh. Бул жагдай модельдiц кателесуше экеледi. Концептуалды дрейфке байланысты мэселелердi шешу yшiн Lifelong Learning модельдерi yнемi жаца мэлiметтердi yйренiп, есю yлгiлердi де сактап отырады [21].

Концептуалды дрейфтщ екi негiзгi тyрi бар:

1. Бiртiндеп eзгерiс (Incremental Drift): Мэлiметтер бiртiндеп езгергенде, жаца улгшер мен мэлiметтер модельдiц бурынгы бшмше негiзделе отырып yйретiледi.

2. Жылдам езгерю (Abrupt Drift): Мэлiметтерде жылдам жэне тyбегейлi eзгерiстер орын алган кезде модель жаца мэлiметтердi жылдам бейiмдеп, еткен мэлiметтердi кайта карастыруы кажет болады [22].

Lifelong Learning модельдерi спамды аныктау саласында бiрнеше мацызды артыкшылыктарга ие:

1. Yздiксiз оку: Lifelong Learning моделдерi жаца мэлiметтер келген сайын уйрене бередi жэне бул yдерiс ешкашан токтамайды. Бул модельдер жаца шаблондарды yйренiп, сол аркылы жаца спам хаттарын тиiмдi турде аныктай алады [23].

2. Катастрофалык умытудыц алдын алу: Lifelong Learning модельдерi катастрофалык умытуды болдырмайды. Катастрофалык умыту - бул жаца мэлiметтердi уйрену барысында бурынгы бiлiмнiц жогалуы. Lifelong Learning модельдерi еткен бiлiмдi сактай отырып, жаца мэлiметтердi мецгередi. Бул эаресе ескi шаблондарга сэйкес келетiн спам хаттарын аныктауда мацызды [24]. Катастрофалык умыту мэселесш шешу ушш Ensemble Learning сиякты эдютер колданылады. Ensemble Learning бiрнеше модельдi бiрiктiрiп, оларды бiрге жаттыктыру аркылы жаца мэлiметтердi уйренуге мyмкiндiк бередi. Осылайша, бурынгы бшм сакталып кана коймай, жаца мэлiметтер де тиiмдi турде игершедь

ОФ "Международный научно-исследовательский центр "Endless Light in Science"

3. Жацартыла алатын модельдер: Lifelong Learning модельдерi YHeMi жацартылып отырады жэне олар спам хаттарыньщ жаца тYрлерiн тиiмдi тYPде аныктауга бейiмделе алады. Бул модельдер 6ip реттiк жаттыктырумен шектелмей, YHeMi деректердщ езгеруше сэйкес жeтiлдiрiлiп отырады [25].

Спам хаттары динамикалык табигатка ие болгандыктан, оларды аныктау Yнeмi дамуды талап eтeдi. Спам жiбeрyшiлeрi жаца эдiстeрдi колданып, эртYрлi тактикаларды пайдаланады, сондыктан статикалы; модельдер бул езгерютерге тез жауап бере алмайды. Lifelong Learning модeльдeрi жаца мэлiмeттeрдi окып, спам хаттарыныц езгерютерше бeйiмдeлe отырып, жогары нэтижеге кол жетюзедь Мысалы, бeлгiлi бiр кезецде тиiмдi болган кiлт сездер немесе шаблондар уакыт ете келе ез мацыздылыгын жогалтуы мYмкiн, ал Lifelong Learning модeльдeрi мундай езгeрiстeрдi тез игерш, модeльдi кайта жаттыктырмай-ак жаца мэлiмeттeргe бeйiмдeлe алады.

Lifelong Learning модельдерш жeтiлдiрy болашакта мацызды рел аткарады. Yздiксiз дамып отыратын спам хаттарын аныктау Yшiн жаца жэне есю мэлiмeттeрдi Yнeмi бiрдeй децгейде сактау мацызды. Сонымен катар, бул модельдер эртYрлi тiлдeр мен мэдениеттердеп спам хаттарын аныктау Yшiн де жeтiлдiрiлyi кажет. Болашакта Lifelong Learning модeльдeрi аукымды дeрeктeрдi талдап, деректер агынындагы концептуалды дрейфа eскeрeтiн тиiмдi курал болуы мYмкiн.

Корытынды

Машиналык окыту технологиялары мен терец окыту модeльдeрi спамды аныктау жэне акпараттык каyiпсiздiктi камтамасыз етуде мацызды рел аткарады. Спам хаттарыныц табигаты Yнeмi езгeрiп отыратындыктан, дэстYрлi эдiстeр бул мэселеш толыктай шешуде жeткiлiксiз болып калуда. Осыган байланысты, заманауи машиналык окыту жэне терец окыту модельдерш колдану тшмдшп айкын болды.

Наивт Байес, колдаушы векторлык машиналар (SVM), кездейсок орман жэне нейрондык желшер сиякты эдiстeр спамды аныктауда кещнен колданылады жэне жогары тшмдшк керсетедь Бул эдiстeр эртYрлi дeрeктeрдi ецдеп, олардыц арасындагы Yлгiлeрдi аныктауда Yлкeн жeтiстiктeргe жeтeдi.

DistilBERT - мэтiндeрдi ецдеу жэне спамды аныктау мшдеттершде жогары дэлдiккe кол жeткiзeтiн тиiмдi куралдардыц бiрi. Модeльдiц ыкшамдалган курылымы оны жылдам эрi жeцiл колдануга мYмкiндiк бeрeдi. Зерттеулер керсеткендей, DistilBERT спамды 93% дэлдшпен аныктай алады.

Спам хаттарыныц езгерш отыратын табигатына бeйiмдeлy Yшiн Lifelong Learning модeльдeрi ерекше мацызды. Олар концептуалды дрейфке ушыраган кезде де бурынгы бiлiмдi сактап, жаца мэлiмeттeрдi Yздiксiз Yйрeнiп отырады. Бул модельдер катастрофалык умытуды болдырмай, дeрeктeрдi тиiмдi тYPдe ецдеуге мYмкiндiк бeрeдi.

Спамды аныктауда машиналык окыту эдютерш тиiмдi колдану акпараттык каушаздшт жаксартуга ыкпал eтeдi. Болашакта жаца технологияларды eнгiзiп, модeльдeрдi жeтiлдiрy аркылы спамныц зиянды эсeрiн азайту мYмкiндiгi артады.

ЦОЛДАНЫЛГАН ЭДЕБИЕТТЕР Т1З1М1

1. Guzella, T. S., & Caminhas, W. M. (2009). A review of machine learning approaches to spam filtering. Expert Systems with Applications, 36(7), 10206-10222.

2. Vaswani, A., Shazeer, N., Parmar, N., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems (NeurIPS), 30.

3. Gama, J., Zliobaite, I., Bifet, A., et al. (2014). A survey on concept drift adaptation. ACM Computing Surveys (CSUR), 46(4), 1-37.

4. Parisi, G. I., Kemker, R., Part, J. L., et al. (2019). Continual lifelong learning with neural networks: A review. Neural Networks, 113, 54-71.

5. Rami Mustafa A. Mohammad. A lifelong spam emails classification model. Applied Computing

ОФ "Международный научно-исследовательский центр "Endless Light in Science"

and Informatics, 2020. [DOI:10.1016/j.aci.2020.01.002].

6. Phani Teja Nallamothu, Mohd Shais Khan. Machine Learning for SPAM Detection. Asian Journal of Advances in Research, 2023.

7. Tianrui Liu, Shaojie Li, Yushan Dong, Yuhong Mo, Shuyao He. Spam Detection and Classification Based on DistilBERT Deep Learning Algorithm. Applied Science & Engineering Journal for Advanced Research, 2024.

8. Faris H, Al-Zoubi AM, Heidari AA, et al. An intelligent system for spam detection and identification of the most relevant features based on evolutionary random weight networks. Inf Fusion, 2019.

9. Blanzieri E, Bryl A. A survey of learning-based techniques of email spam filtering. Artif Intell Rev, 2008.

10. Phani Teja Nallamothu, Mohd Shais Khan. Machine Learning for SPAM Detection. Asian Journal of Advances in Research, 2023.

11. Tianrui Liu, Shaojie Li, Yushan Dong, Yuhong Mo, Shuyao He. Spam Detection and Classification Based on DistilBERT Deep Learning Algorithm. Applied Science & Engineering Journal for Advanced Research, 2024.

12. Rami Mustafa A. Mohammad. A lifelong spam emails classification model. Applied Computing and Informatics, 2020. [DOI:10.1016/j.aci.2020.01.002].

13. Faris H, Al-Zoubi AM, Heidari AA, et al. An intelligent system for spam detection and identification of the most relevant features based on evolutionary random weight networks. Inf Fusion, 2019.

14. Blanzieri E, Bryl A. A survey of learning-based techniques of email spam filtering. Artif Intell Rev, 2008.

15. Phani Teja Nallamothu, Mohd Shais Khan. Machine Learning for SPAM Detection. Asian Journal of Advances in Research, 2023.

16. Tianrui Liu, Shaojie Li, Yushan Dong, Yuhong Mo, Shuyao He. Spam Detection and Classification Based on DistilBERT Deep Learning Algorithm. Applied Science & Engineering Journal for Advanced Research, 2024.

17. Faris H, Al-Zoubi AM, Heidari AA, et al. An intelligent system for spam detection and identification of the most relevant features based on evolutionary random weight networks. Inf Fusion, 2019.

18. Blanzieri E, Bryl A. A survey of learning-based techniques of email spam filtering. Artif Intell Rev, 2008.

19. Rami Mustafa A. Mohammad. A lifelong spam emails classification model. Applied Computing and Informatics, 2020. [DOI:10.1016/j.aci.2020.01.002].

20. Phani Teja Nallamothu, Mohd Shais Khan. Machine Learning for SPAM Detection. Asian Journal of Advances in Research, 2023.

21. Tianrui Liu, Shaojie Li, Yushan Dong, Yuhong Mo, Shuyao He. Spam Detection and Classification Based on DistilBERT Deep Learning Algorithm. Applied Science & Engineering Journal for Advanced Research, 2024.

22. Faris H, Al-Zoubi AM, Heidari AA, et al. An intelligent system for spam detection and identification of the most relevant features based on evolutionary random weight networks. Inf Fusion, 2019.

23. Blanzieri E, Bryl A. A survey of learning-based techniques of email spam filtering. Artif Intell Rev, 2008.

24. Mo Y., Qin H., Dong Y., Zhu Z., Li Z. Large language model (LLM) AI text generation detection based on transformer deep learning algorithm. International Journal of Engineering and Management Research, 2024.

25. Sumathi V. P., Vanitha V., Kalaiselvi R. Performance comparison of machine learning algorithms in short message service spam classification. IEEE International Conference on Electrical, Electronics, Communication, Computing and Automation, 2023.

ОФ "Международный научно-исследовательский центр "Endless Light in Science"

i Надоели баннеры? Вы всегда можете отключить рекламу.