Научная статья на тему 'ҚАЗАҚ МӘТІНІН АВТОМАТТЫ ТАНУ ЛИНГВИСТИКАЛЫҚ МОДУЛЬДЕРІН ІТ-ЖОБАҒА ЕНГІЗУ МӘСЕЛЕЛЕРІ'

ҚАЗАҚ МӘТІНІН АВТОМАТТЫ ТАНУ ЛИНГВИСТИКАЛЫҚ МОДУЛЬДЕРІН ІТ-ЖОБАҒА ЕНГІЗУ МӘСЕЛЕЛЕРІ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Жаңабекова Айман, Фазылжан Анар

«Қазақ мәтінін автоматты тануға арналған open-source сипатты жобалардың кіріктірілген лингвистикалық модульдері мен заманауи IT-шешімдерін әзірлеу» атты бағдарламалық-нысаналы қаржыландыру шеңберіндегі жоба бойынша: Қазақ мәтінін автоматты танудың (бұдан әрі – ҚМАТ) тілтанымдық жасақтамасы: фонетика, фонология, грамматика, лексикология, терминология, ономастика бойынша білімдерді түгендеу мен жүйелеу негізінде ҚМАТ лингвистикалық модулін әзірлеуден; графика, орфография және пунктуация бойынша білімдерді түгендеу және жүйелеу негізінде ҚМАТ лингвистикалық модулін әзірлеуден тұрады. Мақалада мәтінді автоматты тануға қажетті модульдерді ІТ-жобаға енгізу мәселелері қарастырылады.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ҚАЗАҚ МӘТІНІН АВТОМАТТЫ ТАНУ ЛИНГВИСТИКАЛЫҚ МОДУЛЬДЕРІН ІТ-ЖОБАҒА ЕНГІЗУ МӘСЕЛЕЛЕРІ»

ЦАЗАЦ МЭТШШ АВТОМАТТЫ ТАНУ ЛИНГВИСТИКАЛЫЦ МОДУЛЬДЕР1Н 1Т-

ЖОБАГА ЕНГ1ЗУ МЭСЕЛЕЛЕР1

ЖАЦАБЕКОВА АЙМАН

А.Байтурсынулы атындагы Тiл бiлiмi институты Филология гылымдарыньщ докторы Алматы, ^азакстан

ФАЗЫЛЖАН АНАР

А.Байтурсынулы атындагы Тiл 6rniMÎ институты Филология гылымдарыныц кандидаты Алматы, ^азакстан

Ацдатпа: «Казац мэтшн автоматты тануга арналган open-source сипатты жобалардыц юр1кт1ршген лингвистикалыц модульдер1 мен заманауи 1Т-шеш1мдер1н эз1рлеу» атты багдарламалыц-нысаналы царжыландыру шецбертдегг жоба бойынша: Казац мэтшн автоматты танудыц (будан эр1 - КМАТ) тытанымдыц жасацтамасы: фонетика, фонология, грамматика, лексикология, терминология, ономастика бойынша бглгмдердг тугендеу мен жуйелеу нег1з1нде КМАТ лингвистикалыц модулт эз1рлеуден; графика, орфография жэне пунктуация бойынша б1л1мдерд1 тугендеу жэне жуйелеу нег1з1нде КМАТ лингвистикалыц модулгн эзгрлеуден турады.

Мацалада мэт1нд1 автоматты тануга цажетт1 модульдерд1 1Т-жобага енг1зу мэселелерг царастырылады.

Элемдеп тшдер туралы деректердi жариялайтын ethnologue сайтыныц мэлiметiнше, казак тш - 7000 тшдщ шшде сейлермеш кеп Yздiк жYЗдiк катарынадагы eмiршец тш (www.ethnologue.com/size-and-vitality/kaz). Алайда кагаз тасымалдагыштагы казак мэтшдерш электрондык форматка кeшiру, евдеу, одан тYрлi акпарат алу, электрондык окулыктар мен контенттщ саны мен сапасын артыру суранысы етелмей отыр. Сканерленген графикалык файлмен салыстырганда, электронды формат ете колайлы: акпаратты сактау, тарату шыгынын азайтады, кужатты пайдалану, талдаудыц барлык мYмкiн сценарийiн жYзеге асыруга мYмкiндiк бередi. Белсендi колданыста мундай багдарламалар бар, мысалы, ABBYY FineReader. Бiрак олардыц алгоритмдерi тиiмдi болганмен, деректер базасына агылшын тшнщ баспа, колжазу тацбалары алынган, казак элшбш тацбаларын тану Yшiн колайсыз. Сондыктан казак мэтiндерiн автоматты тану 1Т-багдарламасын кiрiктiрiлген лингвистикалык модульдермен камтамасыз ету мацызды: олар электрондык мэтшге «жан бтредЬ», мэтiн элементтерi бойынша тутынушыны кызыктырган акпаратты коса береди

Соцгы жылдары компьютерлiк лингвистика саласы карыштап дамып келедi, бул саладагы проблеманыц бiрi жазба формадагы графикалык файлды оптикалык тану жYЙесiн жетiлдiру аркылы электронды форматтагы кужаттарга ауыстыру [1-2]. Аталган мэселеде аFылшынтiлдi, орыстiлдi мэтiндер Yшiн жетiлген шешiмдер кеп: баспа эрiптердi былай койып, казiргi колжазудаFы [3] жэне тарихи колжазбалардаFы [4] эрiптердi танитын оптикалык жYЙелер жасалды, бул ТОТ-тыц IT-косымшасына юрштсршген лингвистикалык модульдерсiз сапалы бола алмайды [5].

^азактiлдi контенттi евдейтш IT-косымшалардыц кeптiгiне карамастан, бэсекеге кабiлеттi ^МАТ жYЙесiн эзiрлеу элi де ^н тэртiбiндегi eзектi мэселе. Бул элемдш IT-кещспкте казак тiлi сиякты агглютинативтi тiлдерге арналFан open-sourse сипатты лингвистикалык ресурстардыц аздыFымен, омонимдердщ кептш тэн казак тшнщ ерекшелiгiмен де байланысты. ^азак мэтiндерiн автоматты евдеуге арналFан iздешстердщ денi кeбiнесе мэтшдш корпустар куру жэне ондаFы тш бiрлiктерiн морфологиялык, семантикалык талдауFа, яFни тiлтанымдык аннотацияларFа арналып келедi.

Мэтiндi автоматты тану мэселесш бiрнеше кырынан карастыруга болады. Мэтш дегенiмiз - калыц кепшшк окыганда тYсiнетiн, акпарат алатын, кызыгып окитын мазмундык курылым. Мэтiн тшустармандарыныц ез ана тiлiнде немесе езге шет тiлдерiнде жазылуы мYмкiн. Сол сиякты мэтiн калыц кепшiлiкке (керкем шыгарма, публицистика) арналуы да немесе белгш бар арнаулы мамандарга (кэаби, гылыми), элеуметтiк топка (жастарга, балаларга, ересектерге) арналып жазылуы мYмкiн. Ягни мэтшшц эртYрлi такырыптарда жазылуы, беретш мазмуны, жазылу максаты болады.

Мэтш компьютерлiк кещстште эртYрлi багдарламалар бойынша жазылуы мYмкiн, немесе тYрлi форматта (ворд, хл, пдф, сурет т.б.) туруы мYмкiн. Демек, мэтiндi автоматты тану дегенге езге шрифтарды, фотомэтшдерд^ тшт кол жазуды да тануды айта беруге болады. Сондай-ак компьютерде автоматты тYPде орфографиясы аркылы танылатын тiлдiк бiрлiктер мазмунын, жазылудагы тYрлi варианттарды компьютердш тYсiнуi, жазылудагы орфографиялык тYрленiм формаларды (орфограммаларды) тануды, эрбiр тiлдiк бiрлiктi автоматты тYPде лингвистикалык аннотация жасай алуды жаткызамыз.

Мэтiндi автоматты тану дегенiмiз карiптi, тацбаны, фотомэтiндердi, пдф мэтiндердi, кол жазуды компьютерлш багдарламаныц оки алуы, сондай-ак мэтшдеп сездердш катесiн табу, дурыс нусканы усыну, мэтiн окылымын (орфоэпиясын) усыну, сездердш курамын, ягни тYбiр мен косымшага беле алу, сездердш кандай сез табына жататындыгын жэне сез тYбiрiне жалганган косымшалардыц грамматикалык белгiленiмiн керсету, сездердш лексикалык кабатын тану (синонимдерiн, омоним/омоформаларын) сез курамындагы дыбыстардыц лингвистикалык аныктамасын беру, сездердi автоматты буынга белу, сездердш семантикалык-такырыптык тобын аныктау, осы аркылы тутас мэтшншц такырыбы мен мазмунын тYсiну сиякты т.б. мэселелердi жаткызуга болады.

Мэтшд1 оптикалык тану. Мэтшшц пдф, фото, карт, тацба тану сиякты оптикалык кызмет программалык жолмен жYзеге асырылады. Нейрондык жYЙе бiрдей фотомэтшдер мен вордмэтiндердi оку аркылы мэтшдеп карштерд^ симфолдарды, тацбаларды ажырату мYмкiндiгiне ие болады.

1-модуль: Сурет форматындагы мэтiндердi тiрi мэтiнге айналдыруы кажет.

2-модуль: Тiрiлтiлген мэтiндердi (электронды ютаптарды) конвертациялайтын рейдер-конвертор программасын жасау кажет.

Ал мэтшд1г1 сездерд1 лингвистикалык тану программага берiлетiн лингвистиалык модульдер аркылы жYзеге асырылады.

Орфографиялык модуль дегенiмiз - мэтiндi автоматты танудагы мэтiн iшiндегi сездердш дурыс жазылуын тексеретiн компьютерлiк багдарламага арналган лингвистикалык багдар (алгоритм).

Орфограмма дегенiмiз - бiр сездш нормаланган тYпнускасынан белек эртYрлi тiлдiк ыкпалдар аркылы естшушше жазу мYмкiн нускалары болып табылады. Жазу -орфографиялык емле ережелерi бойынша нормаланып отыратындыктан, оныц халык тiлiнде дэстYрлi жазу жYЙесi калыптасады. Кезi ашык, сауатты адамдар мэтiндi кебiнесе осы дэстYрлi жYЙе бойынша жазып курастырады. Алайда калыц кепшшк арасында жазу, сызуды тшелей нысан етпейтiн кызмет тYрлерi мен жай карапайым халык екiлдерi кеп. Осы ретте тiлдегi айтылым мен жазылымныц арасын накты ажыратып беретш дэстYрлi нормативтш-лингвистикалык куралдардан белек, к^рп замануи акпараттык-компьютерлiк куралдардыц аткаратын релi ерекше болып отыр. Эйткеш бYгiнгi заман жазу-сызудыц компьютерлiк технологияга кешкен заманы болып табылады. ^аласак та, каламасак та компьютер бYгiнгi адамныц кYш-кайратын ез мiндетiне алып, адам жумысын жецiлдетудi максат етш отыр. Адамзат одан кашып кутыла алмастай кYЙге жеттi. Бул заман талабы. Ендеше, заманына лайык адамы болу Yшiн адамныц карым-катынас куралы болатын тiлдi, оныц жазба куралы - жазуды да автоматтандыру id аса езект мэселелердiц катарына жатады.

Орфографиялык модуль тiлдегi сездердiц жазылуындагы норма мен нормадан ауытку мYмкiндiктерiн керсететiн орфограммалар тiзiмiне CYЙенедi. Тшдердеп орфограммалардыц

пайда болуы кебшесе жазылым мен айтылымдагы айырмашылыктардан туындайды. Кейбiр тiлдерде, айталык, агылшын тшнде сездердш жазылуынан окылуы мYлде баска, бiрнеше эрш косылып, 6ïp гана дыбысты беpедi. ^азак тiлiнде агылшын тшндегщей жазылым мен окылым/айтылымыныц арасында соншалыкты айырмашылык жок. Алайда сейлеу актюшде дыбыстарды кедеpгiсiз жатык айту Yшiн сез Yндестiк зацына сэйкес дыбысталады. Еpiн Yндестiгiне сай дауысты дыбыстардыц айтылымда кубылуы, дауыссыз дыбыстардыц морфем жшнде кейiнгi жэне iлгеpiндi ыкпалдардыц эсеpiнен езгеpiске тYсiп айтылуы табиги кубылыс.

Жазу - кепшшктш куралы. Орфографиялык сездiктi пайдаланатын мэтштанушы окытушылар, тiлшi-филологтаp, редакторлар, корректорлар сездердш жазылуындагы норманы жаксы мецгергенмен, калыц кепшшк шшде мэтiн жазу кезшде нормадан ауыткулар кептеп кездеседi. Мэтш жазудагы катенi тексеpiп, жазудагы норманы автоматты турде кеpсетiп отыратын компьютерлш багдарлама жасау кепшiлiктiц жазу эрекетш оцтайландырып, жазу дагдысын калыптастыруга мYмкiндiк беpедi. Олай болса, жазудагы катеш, нормадан ауыткуларды аныктайтын «Сезтексер» It-косымшасын жасау кажеттiгi дау тудырмайды.

Орфографиялык сездш тшдеп барлык сездеpдiц дурыс жазу нормасын жэне кейбip нормадан ауытку кауiптеpi бар негiзiнен ыкпал эсеpiне ушырайтын сездер тYpленiмдеpiн коса тiзiмдейдi. Мысалы, ктап, ктабы, азыц, азыгы; бояну, боянбау (орфограммасы - боямбау), боянган (орфограммасы - бояцган). Алайда реестрге сездер гана алынады, тYpленiмдеpi жанына жазылады. Орфографиялык сездшке нормадан ауытку каупi бар орфограммалар алынбайды.

Ал Орфограммалар сездiгi нормадан ауытку каут бар сездер мен олардыц ауытку тYpленiмдеpiн коса тiзiмдейдi. Нормадан ауытку каут жок сездер тiзiмге алынбайды. Мысалы, бул сездiкке «сырлан» сезi алынбайды, осы сезге косымша жалганганда нормадан ауытку тууы мYмкiн тYpленiмдеpi реестрге алынады, мысалы, сырланбау - сырламбау; сырланган - сырлацган; сырланганмен - сырлацгаммен.

1-модуль: Осы лингвистикалык ресурстарды пайдалана отырып, «Сезтексер» компьютерлш багдарламасы мэтiндi категе тексеру кезшде Орфографиялык сездштеп реестр тiзiмiне карап сездеpдiц нормага сэйкестiгiн карап шыгуы керек. Бул Yшiн багдарлама алдымен сездеpдi тYбip мен косымшага ажырататын автоматты морфологиялык анализаторды пайдалануына болады. Анализатор сез тYбipiн аньщтаганнан кейiн барып, тYбip сездер Орфографиялык сездш реес^мен салыстырылады. Егер мэтшдеп сездердш жазылымы Орфографиялык сездiктегi нормага сэйкес келсе, «дурыс» деп танып, ешкандай белгi коймауы тиiс. Ал егер мэтшдеп сез сездшпен салыстырганда жазылымы сездiктегi нормага сэйкес келмесе, сездш астын бояп, курсорды апарганда терезе ашылып, онда кате сездш норма нускасы шыгып туруы кажет немесе норма нускасы беpiлген Орфографиялык сездшке сiлтеме беpiлуi керек.

Асан ютапканага диплом жумысын жазыу Yшiн барган едi.

ТОТ нусмулшц - ... л WhjbApp Image 2..

« 2ГС S™, »I«»» »I^L. С

Сурет 1 - «Сезтексер» мэтш тексеру программасы

2-модуль: «Сезтексер» компьютерлш багдарламасы 1-модульдi орындаганнан кейiн, екiншi лингвистикалык ресурс Орфограммалар сездiгi бойынша реестрлiк катардагы нормаман катар, орфограммаларды да мэтiндегi сезбен салыстырып шыгуы керек. Егер салыстырылган сез норма нускамен сэйкес келсе, «дурыс» деп танып, ол сезге ешкандай белп коймайды. Ал егер кате орфограмма нускамен сэйкес келсе, ол сездщ астын сызып, терезеде норма нусканы усынады. Орфографиялык сездiкте негiзiнен тYбiр сездер берiлетiндiктен, компьютерлiк багдарлама бул ресурспен тексеру жумысын толык орындай алмайды. Орфограммалар сездiгiмен салыстыру тексеру программасыньщ жумысын терецдете тYседi. Сез тYбiрлерiн гана емес, жазылу каут бар бYкiл тYрленген сезформаларын тексере алады.

3-модуль: «Сезтексер» багдарламасы сYЙенетiн келесi эдiс казак тiлiндегi барлык сездердщ тYрленiмi берiлген келемдi мэтшдерден алынган Сезформалар сездiгiн пайдалану. Сезформалар сездш казак тiлiндегi барлык сездi камтымауы мYмкiн. Ол мэтiндерден алынатындыктан, мэтiндерде кездескен сездердi тYбiр мен косымшага белмей, эрбiр мэтiндiк бiрлiктi тYгел реестрге алады. Мэтiнде кайталанган сездердi сурыптау аркылы, бiр сезформа ретшде таниды.

«Сезтексер» компьютерлiк багдарламасы осы лингвистикалык ресурсты пайдалану аркылы да мэтшдеп сездердi осы сездшпен салыстырып тексеруiне болады. Нормативтi сездш болмаганмен, сезформалар сездiгiн ецдеу кезшде Орфографиялык сездiк басшылыкка алынады. Сондыктан сезформалар сездшнщ реестрi нормага сэйкес келедь Сезформалар сездiгi жаца заманауи мэтшдерден алынган болса, онда соцгы кездердеп жаца колданыстарды да камтиды. Сол себептi «Сезтексер» компьютерлiк багдарамасы 1 жэне 2-модульдердi орындаганнан кешн «Сезформалар сездiгiн» де CYзiп шыкканы дурыс. Эйткенi жаца колданыстар бурынырак жарык керген Орфографиялык сездiкте жок болгандыктан, программа ол сездi танымай, тексерiлмеген сездердщ катарына жаткызады.

4-модуль: Мэтiндi автоматты тануда «Сезтексер» компьютерлш багдарламасы CYЙенетiн келесi эдiс - компьютер базасындагы (неше тYрлi сездштердщ реестрлiк бiрлiктерi камтылган) графикасы уксас сездердi усыну. Бул модуль алдыцгы 1, 2, 3-модульдерден кейiн орындалады. Алгашкы Yш модуль орындалганнан кешн сездштерден табылмаган сездердщ

Impact Factor: SJIF 2021 - 5.81 ФИЛОЛОГИЧЕСКИЕ НАУКИ

2022 - 5.94 PHYLOLOGICAL SCIENCES

жазылуын тексеруге Левенштейн кашьщтыгы аркылы базадагы уксас сездер усынылады. Левенштейн кашьщтыгы аркылы мэтш тексеру элемде колданылатын эдiс.

Тикеру

Сурет 2 - Левенштейн кашьщтыгы аркылы мэтiн тексеру программасы

Жогарыдагы суреттегi мэтiн тексеру терезесiнде жур сeзi тексерiлiп, мYмкiн дурыс нускалары ретiнде жуыр, тур, жар, жер, жыр, жур, жу, жуа, жуы сeздерi усынылган. Олардыц iшiндегi ец жакын нускасы жур екендiгi боялып тур.

Сонымен, жогарыда аталган терт модульдi пайдалану аркылы казак мэтшшдеп катенi автоматты тYPде танитын «Сезтексер» компьютерлiк багдарламасын жасауга болады. «Сезтексер» багдарламасы казак тiлiнде жары; керетш басылымдарды сауаттандыруга арналган 1Т-лингвистикалык курал болып табылады.

Пунктуациялык модульдер дегешм1з - мэтiн iшiндегi сeйлемдердегi тыныс белгшершщ дурыс койылуын тексеретш жэне дурыс тыныс белгiнi усынатын компьютерлш багдарламага арналган лингвистикалык багдар (алгоритм).

БYгiнгi тацда мэтiн тYгелге жуык компьютерге теру аркылы жазылады. Кепшшшке жазуды сауаттандыратын, дагдыга айналдыратын кeмекшi куралдар кажет-ак. БYгiнгi гылым мен техниканыц автоматтанган заманында тыныс белгшерш автоматты танитын (коятын) немесе дурыс нусканы усынатын, ммэтiндегi тыныс белгшершщ койылуын тексеретiн арнайы компьютерлiк багдардамалар кажет.

Мэтiн жазуда тыныс белгшершщ аткаратын рeлi зор. Тiптi тыныс белгiлерi магына ажыратушы, ойды жYЙелеушi кызмет аткарады. Тыныс белгiлерiне жататындар: Yтiр, нYкте, сызыкша, т.б. Жазу - тек лингвистикалык нысан гана емес, жалпы халык колданатын курал. Сондыктан мэтiн жазуда тыныс белгшерш дурыс колдану аса мацызды. Тыныс белгiлерi туралы орта бiлiмдi мектепте алганмен, жалпы кeпшiлiк кейбiр тыныс белгшерш коюда кате жiбередi. Тыныс белгiлерi iшiнде кeпшiлiк кеп шатасатыны - Yтiр мен сызыкша.

Институт казак тшндеп пунктуациялык ережелердi программа тануына лайыктап тыныс белгiлерi койылуы туракты сейлем модельдерiн курастырып отыр.

Кесте 1 - Тыныс белгшерш автоматты тану: сызыкша

Позиция (сызыкша койылады) Ереже Модель Мысалдар

I. Бастауыш пен баяндауыш арасы Бастауыш та, баяндауыш та зат eciM болганда, бастауыштан кейiн сызыкша койылады. 1.1 Зат еам -зат есiм Кудайберген Жубанов - казак тiл бшмшдеп аса зор тулFа Кекпар - кешпелшердщ байырFы заманнан берi келе жаткан Fурыптык-жауынгерлiк ойын енерь Дулат Исабеков - талантты жазушы. Жаксы сез - жарым ырыс. АлFырлык пен сабырлылык -тYркiлердiц табиFи касиеттерi (Ш.Уэлиханов) Афоризм - шаFын философиялык ой, тэжiрибелiк тушн, логикалык кисын. (Егемен Казакстан). Жасанды интеллект - адам ойыныц жемiсi.

Бастауыш жштеу есiмдiгi, ал баяндауыш эат eciM болса, бастауыштан кейiн сызыкша койылады. 1.2 Жштеу есiмдiгi - зат еам Ол - Fылымда ендi таныла бастаFан кабiлеттi жас маман. Бiз - тэуелсiздiк туын биiкке кетерш келе жаткан урпакпыз. Олар - халык Yшiн кызмет еткен бiртуар тулFалар. Бiз - кырFауыл, сiз - туЙFын (Абай). Мен - жетекш^ сiз - орындаушы, сондыктан тапсырманы бiрлесiп аткарайык. Менщ FашыFым да, асылым да -жарык ДYние, ак элем (Казак эдебиетi)

Бастауыш тэуелдш жалгаулы заттанган (зат еам мэнiне ие болган)сез баяндауыш зат еам болган жагдайда, бастауыштан кешн сызьщша койылады. 1.3 Тэуелдiк жалгаулы заттанган сез - зат еам АкынFа ец керегi - жан ерюндш (Казак эдебиетi). Бэрш реттер деп, оныц Yмiттенiп жYргенi - ауылдаFы Yлкен келiнi.

Мэтiндi пунктуациялык тану ею жолмен жYзеге асады.

1-модуль: тыныс белгiлерi койылуы тшс жагдайлар тiзiмделуi керек. Мысалы, 1) Казак тiлiнде кыстырма сездер сез басында келсе, соцынан Yтiр койылады: Олай болса, Дорыта келгенде, Сонымен, Демек,; 2) БiрыцFай мYшелер Yтiрмен ажыратылады, мысалы: Маржан CYт, нан, цант, алма сатып алды. 3) ^урмалас сейлемдерде ею жай сейлем арасына Yтiр койылады. Сабактас курмалас сейлем турлершщ эркайсысыныц езiндiк жасалу жолдары бар. Карсылыкты баFыныцкылы сабактас сейлемдердщ бiрiншi сыцары -ганмен/генмен, -са да/ се де форманттарына б^кенде, соцынан Yтiр койылса, -гандыц/гендгктен косымшасына себеп баFыныцкылы сабактас сейлемдердiц бiрiншi сыцары аякталып, одан кейiн Yтiр койылады. Осы сиякты модельдер сейлемдеп Yтiрдiц койылу позицияларын аныктайды.

2-модуль: Мэтшдеп тыныс белгшершщ койылу позицияларын жасанды интеллектiнi окыту аркылы да жYргiзуге болады. Бул жагдайда тыныс белгiлерi дурыс койылган таза, сауатты, ецделген мэтiндер жинакталады.

Мэтiндiк акпарат кездершщ физикалык нысандарын цифрлык кужатка айналдыратын накты IT-шешiмдер, IT-жобаларды, олардыц тштанымдьщ жасактамасын эзiрлеуге багытталган, олар ашык тYPде колжетiмдi болады, бул пайдаланушыга мэтiндiк процессорларды, электрондык кестелер багдарламасын езгертуге, редакциялауга, карапайым редактор кемепмен казак мэтiндерiнде iздеудi жYзеге асыруга мYмкiндiк бередi. Мундай эзiрлемелер жеке пайдаланушыныц гана емес, тутас кецселердщ жумысын жецiлдетедi, тиiмдiлiгiн арттырады, ендiрiстiк уакытты Yнемдейдi, баскаруды жаксартады, кагазбастылыкты бiрнеше есе азайтады. Нэтижелердiц open-source форматында KOлджетiмдiлiгi барлык ниет бiлдiрушiлерге эзiрлемелердi еркiн пайдалануга мYмкiндiк береди Бул баска IT-шешiмдердiц дамуына ыкпал етедi, казак тiлiн цифрландыру децгешн кетерудiц, жаца технологиялармен байланысын арттырудыц алгышарты болып табылады.

ПАЙДАЛАНЫЛГАН ЭДЕБИЕТТЕР:

1. Голицына О.Л., Максимов Н.В., Попов И.И. Оптическое распознавание символов //Информационные системы и технологии. - Москва: Форум. 2018 - 400 б.;

2. Zhang X., Zhao J., LeCun Y. Character-level Convolutional Networks for Text Classification. 2016. arXiv preprint arXiv

3. Полюхин Д.А., Сальников И.И. Методы и этапы распознавания рукописного текста // Научное обозрение. Педагогические науки. - 2019. - № 3-2. - С. 71-74;

4. Как машинное обучение помогает открыть мир Древней Японии: https://se7en.ws/kak-mashinnoe-obuchenie-pomogaet-otkryt-mir-drevnej-yaponii/;

5. Рудаков И. В., Романов А. С. Распознавание текстового изображения с учетом морфологии слова // Наука и образование. 77-30569/350020, №04 апрель 2012 г. http://technomag.edu.ru;

ИРН: BR18574183

«Казац мэтшн автоматты тануга арналган open-source сипатты жобалардыц шр1кт1ршген лингвистикалыц модульдер1 мен заманауи 1Т-шеш1мдер1н эз1рлеу» атты багдарламалыц-нысаналы царжыландыру шецбергндегг жоба бойынша орындалды.

i Надоели баннеры? Вы всегда можете отключить рекламу.