Научная статья на тему 'МАТНЛАР КОРПУСИНИ ЯРАТИШ'

МАТНЛАР КОРПУСИНИ ЯРАТИШ Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
150
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МАТНЛАР КОРПУСИ / МАТН ТУРЛАРИ / КОРПУС / БАДИИЙ / ИЛМИЙ / ПУБЛИЦИСТИК / РАСМИЙ МАТНЛАР КОРПУСЛАР / КОМПЮТЕР ТЕХНОЛОГИЯЛАРИ / КОМПЮТЕР ЛИНГВИСТИКАСИ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Хурсанов Н.И.

Мақолада компютер лингвистикасининг корпус яратишдаги ўрни, бунда матнлар корпусини тузиш, унинг таркиби шунингдек турлари ҳақида фикр юритилган. Матнлар корпусининг аҳамияти, корпус тушунчасига жаҳон ва маҳаллий олимларнинг берган тавсифлар, корпуслардан фойдаланиш шарт-шароитлари, бадиий, илмий, публицистик, расмий матнлар корпусларини тузиш заруратлари ҳақида баён қилинади.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CREATE A CORPUS OF TEXTS

The article gives an idea of the role of computational linguistics in the creation of the corpus, the structure of the corpus of texts in the text, as well as its composition. It explains the importance of the corpus of texts, the descriptions given by world and local scientists to the concept of the Corpus, the conditions for using the Corpus, the need to compile a corpus of artistic, scientific, journalistic, official texts.

Текст научной работы на тему «МАТНЛАР КОРПУСИНИ ЯРАТИШ»

МАТНЛАР КОРПУСИНИ ЯРАТИШ

Хурсанов Нурислом Искандарович,

Алишер Навоий номидаги Тошкент давлат узбек тили ва адабиёти университитети, таржима назарияси ва амалиёти кафедраси

уцитувчиси

Аннотация. Мацолада компютер лингвистикасининг корпус яратишдаги урни, бунда матнлар корпусини тузиш, унинг таркиби шунингдек турлари уацида фикр юритилган. Матнлар корпусининг ауамияти, корпус тушунчасига жауон ва мщаллий олимларнинг берган тавсифлар, корпуслардан фойдаланиш шарт-шароитлари, бадиий, илмий, публицистик, расмий матнлар корпусларини тузиш заруратлари уацида баён цилинади.

Калит сузлар: матнлар корпуси, матн турлари, корпус, бадиий, илмий, публицистик, расмий матнлар корпуслар, компютер технологиялари, компютер лингвистикаси

Хурсанов Нурислом Искандарович,

Преподаватель кафедры теории и практики перевода Ташкентский государственный университет узбекского языка и литературы имени АлишераНавои

Аннотация. В статье дается представление о роли компьютерной лингвистики в создании корпуса, структуре корпуса текстов в тексте, а также его составе. Объясняется важность корпуса текстов, описания, данные мировыми и местными учеными понятию Корпуса, условия использования Корпуса, необходимость составления корпуса художественных, научных, публицистических, официальных текстов.

Ключевые слова: корпус текстов, типы текстов, корпус, художественный, научный, публицистический, корпус официальных текстов, компьютерные технологии, компьютерная лингвистика

СОЗДАТ КОРПУС ТЕКСТОВ

CREATE A CORPUS OF TEXTS

Khursanov Nurislom Iskandarovich,

Lecturer of the Department of Theory and Practice of Translation Tashkent State University of Uzbek Language and Literature named after

Alisheranavoi

Abstract. The article gives an idea of the role of computational linguistics in the creation of the corpus, the structure of the corpus of texts in the text, as well as its composition. It explains the importance of the corpus of texts, the descriptions given by world and local scientists to the concept of the Corpus, the conditions for using the Corpus, the need to compile a corpus of artistic, scientific, journalistic, official texts.

Keywords: corpus of texts, types of texts, corpus, artistic, scientific, journalistic, corpus of official texts, computer technologies, computational linguistics

Корпус лингвистикаси - компьютер технологиялари ёрдамида лингвистик корпора цуриш ва фойдаланишнинг умумий тамойилларини ишлаб чициш билан шугулланадиган х,исоблаш лингвистикасининг бир булимидир. Матнларнинг лингвистик ёки лингвистик корпус атамаси деганда муайян лингвистик муаммоларни хдл цилиш учун мулжалланган тил маълумотларининг катта, электрон шаклда тацдим этилган, бирлаштирилган, тизими тушунилади. "Матнлар корпуси" тушунчаси матн ва лингвистик маълумотларни бошцариш тизимини хдм уз ичига олиб, у сунгги пайтларда купинча корпус менежери деб аталади. Бу корпусдаги маълумотларни цидириш, статистик маълумотларни олиш ва фойдаланувчига цулай шаклда натижаларни тацдим этиш учун дастурий воситаларни уз ичига олувчи ихтисослаштирилган цидирув тизимидир.

Яратиш мацсадга мувофицлиги ва корпуслар фойдаланиш маъноси цуйидаги шарт-шароитлар билан белгиланади:

1) корпуснинг етарлича катта (вакиллик) хджми маълумотларнинг типиклигини кафолатлайди ва тил х,одисаларининг бутун спектрини тулиц тасаввур цилишни таъминлайди;

2) х,ар хил турдаги маълумотлар корпусда табиий контекстуал шаклда булиб, уларни хдр томонлама ва холисона урганиш имконини беради;

3) бир марта яратилган ва тайёрланган, маълумотлардан цайта-цайта фойдаланиш мумкин, тадцицотчилар томонидан турли мацсадларда фойдаланишга мщлжалланган.

Айтиш мумкинки, барча замонавий лингвистик тадцицотлар баъзи лугатлар, грамматикани тузиш буйича ишлар матнлардан

-

фойдаланишга царатилган. Матнларни табиий тилда цайта ишлашга мулжалланган замонавий ацлли дастурий тизимларни ишлаб чициш хам катта экспериментал лингвистик базани талаб цилади. Корпус маълумотларига булган талаб тегишли техник имкониятларнинг пайдо булишига тугри келди.

Компьютер лексикографиясини электрон матнлар корпуси ёки параллель матнлар корпусларисиз тазаввур цилиш мумкин эмас. Матнлар корпуси («corpus» лотинча «тана» деган маънони англатади) - бу электрон холда сацланадиган муайян тил бирликлари булиб, улар тилшунослар томонидан турли хил муаммоларни хал этиш хамда турли йуналишдаги тадцицотлар учун заруриятга цараб турли шаклларда тузилади. Булар фонема, графема, морфемалардан тортиб ундан каттароц бирликлар - лексема, гап ва матнлардан (бадиий ёки илмий асар, газета ва журнал матнлари) ташкил топиши мумкин. Уларнинг цай тарзда сацланишига цараб махсус дастурлар ёрдамида хар бир керакли суз ёки суз бирикмаси учун унинг цулланиши буйича дархол мисоллар топилиши, имло буйича вариантлари, синонимик цаторлари топилиши мумкин. Матнлар корпусига оид илмий тадцицотлар салмогининг купайиши натижасида тилшуносликда корпус лингвистикаси йуналиши шаклланди .

Тадцицотчи Б. Данияров тил корпуслари - тил буйича тадцицот ва амалий топширицлар ечими учун инкор этиб булмас иш цуроли деб таърифлайди. У оддий электрон кутубхонадан фарцланади. Электрон кутубхонанинг мацсади - халцнинг ижтимоий-сиёсий, маънавий, ицтисодий хаётини акс эттирувчи бадиий ва публицистик асарларни нисбатан тулиц цамраб олишга эришишдир. Электрон кутубхона матнлари тил нуцтаи назаридан ишлов берилмаганлиги сабабли тадцицотлар учун ноцулайлик тугдиради .

Профессор Б.Менглиев тахлилларига кура, мавжуд корпуслар таркибидаги матнларнинг нисбатига царайдиган булсак, бадиий адабиёт хиссаси 40% ни ташкил этишига гувох буламиз. Бунинг таркибига мемуар асарлар хам кириб кетадики, бу жанр тил хусусияти бадиий ва публицистик услуб оралигида булиб, жонли тилни урганиш учун анча цулай. Европа тиллари корпусларида бадиий адабиёт материали 20% ни ташкил этади. Масалан, замонавий ёзувчилар тил хусусиятини урганишга багишланган 20 дан ортиц тацдицот мавжуд булса-да, улар хали тулалигича бу муаммони урганиб булди, дейиш цийин . Чунки алохида ёзувчи асарининг тил хусусиятидаги узгаришга хали тилдаги янги ходиса деб цараб булмайди.

Биринчи лингвистик матн корпора утган асрнинг 60-йилларида пайдо булган. 1963 йилда Браун университетида (АКЩ) биринчи марта машина воситасида (Brown Corpus) матнларнинг катта корпуси яратилган эди. Корпус муаллифлари В. Френсис ва X,. Кусералар уни

If*!----

инглиз тилининг (Америка версиясининг) беш юз икки минг сузли насрий босма матнлари тупламини яратдилар. Бу матнлар Америка Кушма Штатларида инглиз тилидаги босма нашрнинг ун бешта энг машдур жанрларига тегишли эди ва 1961 да босилди. Корпусга уни бирламчи статистик цайта ишлаш учун куплаб материаллар -частотали ва алфавитли-частотали лугат, турли статистик тарцатмалар цушилди. Браун корпусининг пайдо булиши умумий цизициш ва жонли мудокамаларни уйготди. Аввало, улар матн танлаш тамойиллари ва потенциал бундай корпуснинг вазифалар таркиби дацида тухталиб утди. Сунгра Lancaster инглиз тили корпуси, Uppsala рус тили корпуси тузилди. Замонавий инглиз тили корпуслари орасида энг машдури Британия Миллий корпуси, инглиз тилининг халцаро корпуси, инглиз тилининг лингвистик банки ва бошцалардир. Х,озирги кунда корпора дунёнинг куплаб тиллари учун яратилган. Шунингдек, узбек тилининг Миллий корпусини яратиш буйича дам ишлар олиб борилмоцда.

90-йилларнинг биринчи ярмида корпус тилшунослиги нидоят тил фанининг алодида тармоги сифатида шаклланди. Шу билан бирга, у дисоблаш лингвистикаси билан чамбарчас алоцада булиб, унинг ютуцларидан фойдаланади ва уз навбатида уни бойитади.

Маълумотлар корпусидаги цидирув дар цандай суз учун конкорданс цуриш имконини беради. Манбага даволалар билан контекстда ушбу сузнинг барча ишлатилишлари руйхати шаклланади. Корпусда тил ва нутц бирликлари дацида турли хил маълумотномалар ва статистик маълумотларни олиш учун ишлатилиши мумкин. Хусусан, корпус асосида суз шакллари, лексемалар, грамматик категориялар частотаси, турли вацт оралигидаги частоталар ва контекстларнинг узгаришини кузатиш, лексик бирликларнинг биргаликда юзага келиши дацида маълумотларолиш вабошцалар. Муайяндавручунтилмаълумотларининг вакиллик цатори тилнинг лексик таркибини узгартириш жараёнлари динамикасини урганиш, турли жанрларда ва турли муаллифлардан лексик ва грамматик хусусиятларни тадлил цилиш ва бошцаларга имкон беради. Корпора турли тарихий ва замонавий лугатлар тайёрлаш буйича куп улчовли лексикографик ишлар учун манба ва восита булиб хизмат цилиши дам кузда тутилган. Корпусдан маълумотлар цуриш ва грамматикани такомиллаштириш, тил уцитиш мацсадлари учун фойдаланиш мумкин.

Айтиш мумкинки, корпус лингвистикаси уз предмети сифатида кенг фойдаланувчилар манфаатлари йулида лингвистик тадцицотлар учун мулжалланган тил маълумотларининг ишончли массивларини яратиш ва улардан фойдаланишнинг назарий асослари ва амалий механизмларига эга.

Корпус яратувчиларнинг вазифаси корпус яратилаётган тилнинг цуйи цисмига тегишли иложи борича купроц матнларни туплашдан иборат.

ER

Лекин энг асосийси тил материали мицдоридагина эмас, балки унинг мутаносиблигидадир. Биз корпусни бир тил ёки бир нечта тил бирлашган модел, деб айтишимиз хам мумкин. Корпус тилшунослигининг энг мухим тушунчаси репрезентативликдир. Репрезентативлик деганда турли даврлар, жанрлар, услублар, муаллифлар ва бошца матнлар корпусида зарурий-етарли ва мутаносиб вакиллик тушунилади. Репрезентативлик таърифига турлича ёндашувлар мавжуд булиб, умумий тил) корпусга нисбатан бу тушунчани цатъий математик хисоблаб, таърифлаб булмайди, лекин буни корпуснинг лойихалаш босцичида хам, унинг ишлаш босцичида хам излаб топиш мумкин.

"Корпус" атамаси одатда чекли узгармас катталикдаги матнлар тупламини англатади. Вацт утиши билан корпуснинг хажми ва таркиби узгариши мумкин, лекин бу узгаришлар унинг репрезентативлигини узгартирмаслиги ёки уни керагича узгартириши мумкин.

Турли лингвистик муаммоларни хал цилиш учун фацат бир цатор матнларга эга булиш етарли эмас. Бундан ташцари, матнларда турли хил цушимча лингвистик ва экстралингвистик маълумотлар мавжуд булиши талаб этилади. Корпус тилшунослигида белгили корпус гояси ана шу тарзда юзага келган. Аннотация матнлар ва уларнинг таркибий цисмларига махсус теглар белгилаш: ташци, экстралингвистик (муаллиф хацида маълумот ва матн хацида маълумот: муаллиф, сарлавха, йил ва нашр жойи, жанр, мавзу; муаллиф хацидаги маълумотларга нафацат унинг исми, балки ёши, жинси, хаёт йиллари ва бошцалар хам кириши мумкин.

Ахборотни бу кодлаш мета-маркуп), структура (боб, параграф, жумла, суз шакли) ва матн элементларининг лексик, грамматик ва бошца хусусиятларини тавсифловчи лингвистик маълумотлар, дейиш тугри булади. Ушбу метадата мажмуи, асосан, тадцицотчиларга корпус томонидан тацдим этилган имкониятларни белгилайди. Бу маълумотларни танлашда тадцицот мацсадларига ва тилшуносларнинг эхтиёжларига, шунингдек, матнга маълум цушимча хусусиятларни киритиш имкониятларига асосланиш лозим. Маркупнинг лингвистик турлари орасида цуйидагилар фарцланади: морфологик маркап, чет ел терминологиясида том маънода - цисман маркап ишлатилади. Аслида, морфологик теглар нутцнинг бир цисмининг белгисини эмас, балки нутцнинг бу цисмига хос грамматик категорияларнинг белгиларини хам уз ичига олади. Бу белгилашнинг асосий тури: биринчидан, энг катта корпора морфологик жихатдан маркировка цилинади, иккинчидан, морфологик тахлил тахлил тахлилнинг кейинги шакллари учун асос булиб хисобланади - синтактик ва семантик, учинчидан, компютер морфологиясидаги ютуцлар автоматик равишда катта корпорани белгилашга имкон беради; синтактик тахлил натижаси булган синтактик белгилар; морфологик тахлил маълумотлари асосида амалга оширилади.

4'"*"'% Таълим ва инновацион тадцицотлар (2021 йил №4) ISSN 2181-1709 (P)

----

Белгилашнинг бу тури лексик бирликлар ва турли синтактик конструкциялар (масалан, тобе гап, феъл ибора ва бошцалар) уртасидаги синтактик муносабатларни тасвирлайди.); семантик маркап семантика учун ягона семантик назария мавжуд булмаса-да, семантик теглар купинча маълум бир суз ёки иборага тегишли булган семантик тоифаларни ва унинг маъносини билдирувчи тор кичик тоифаларни билдиради;

Анафорик маркап. Мос ёзувлар муносабатларни кетказади, мисол учун, прономинал; просодик маркап кабилар. Просодик долатларда стресс ва интонацияни тасвирловчи теглар ишлатилади. Огзаки сузлашув нутци корпусида просодик маркап купинча паузалар, такрорлашлар, эътирозлар ва бошцаларни курсатишга хизмат циладиган сузловчи маркап билан бирга келади.

Корпус фойдаланувчилари, одатда, муайян матнларнинг мазмуни билан цизицмайди, балки уларнинг мета матнли маълумотлари ва айрим тил элементлари ва конструкцияларидан фойдаланишади. Корпус ёрдамида олиб борилган дастлабки лингвистик тадцицотлар турли тил элементларининг юзага келиш частотасини дисоблаш учун дам хизмат цилади. Машина таржимаси, нутцни аницлаш ва синтез цилиш, имло ва грамматикани текшириш воситалари каби мураккаб лингвистик муаммоларни дал цилишда статистик усуллар цулланилади. Шундай цилиб, барцарор иборалар семантик нуцтаи назардан булинмас семантик бирлик булиб, лексикография, автоматик матн ишлаш тизимларида дисобга олиш жуда мудимдир. Корпус материалидан фойдаланиб, цайси сузлар биргаликда мунтазам содир булишини аницлаш учун статистик усуллардан фойдаланиш мумкин ва шу тарица барцарор суз бирикмаларига тааллуцли маълумотларни дам цулга киритиш мумкин. Корпус лексикография ва грамматикага оид тадцицотлар учун бой маълумот манбаидир. Семантика содасидаги тадцицотлар лексикографияга оид тадцицотлар билан чамбарчас боглиц. Корпусдаги муайян лисоний бирлик мудитини кузатиш орцали бу бирликни ифодаловчи муайян семантик хусусиятларни белгилаш мумкин.

Назарий тилшунослар корпусни гипотезаларни синаш ва уларнинг назарияларини исботлаш учун тажриба базаси сифатида цуллайдилар. Амалий тилшуно слар (уцитувчилар, таржимонлар ва бошцалар) тилларни уцитишда ва уларнинг касбий вазифаларини дал цилишда компютер лингвистикасидан фойдаланади. Фойдаланувчиларнинг махсус синфи компютер лингвистлари: улар тилнинг компютер моделларини яратиш учун матнларда мавжуд булган статистик ва лингвистик нацшларни аницлаш ва улардан фойдаланишга даракат цилишади. Бошца тил мутахассислари (адабиётшунослар, мударрирлар) дам айрим долларда корпусга мурожаат цилиб, саволларига жавоб олишлари мумкин. Ижтимоий сода олимлари(тарихчилар, социологлар) дам уз объектларини

-

тил орцали урганишлари, матнларнинг давр, муаллиф ёки жанр каби параметрларидан фойдаланишлари мумкин. Адабиётшунослар корпусдан стилометрик тадцицотларда фойдаланадилар. Нихоят, корпус турли автоматлаштирилган тизимларни (машина таржимаси, нутцни аницлаш, ахборот цидириш) ишлаб чициш ва созлаш учун хам фаол ишлатилади.

Узбек тили миллий корпусини яратиш учун хам, аввало, жуда катта хажмда турли мавзуларга доир матнларни жамлаб олиш лозим булади. Жумладан, цуйидаги услубларга доир матнлар танлаб олинади:

1. Бадиий матнлар

2. Илмий матнлар

3. Расмий матнлар

4. Публицистик матнлар

5. Сузлашув услубига доир матнлар

6. Шевалар корпуси ва бошц.

Бу уринда бадиий матнларнинг корпус таркибини асосий материали булиб хизмат цилади.

Хуллас, шундай жараёнларни кузатиш ва тадциц этишнинг энг цулай воситаси - тил корпуси. Шу сабабли матннинг мазмуни катта ахамият касб этади. Корпус таркибига кирадиган матнлар алохида бир муаллиф ёки бир неча ёзувчи асаридан олинган, маълум даврни цамраб олган, белгиланган мавзудаги, тил ва жамиятнинг бугунги холатини акс эттирувчи замонавий матнлардан иборат булиши хам мумкин. Узбек тили миллий корпусини яратиш учун хам, аввало, жуда катта хажмда турли мавзуларга доир матнларни жамлаб олиш лозим булади. Жумладан, бадиий матнлар, илмий матнлар, расмий матнлар, публицистик матнлар, сузлашув услубига доир матнлар, шунингдек, шевалар корпуслари яратилиши замонавий тилшуносликнинг асосий вазифаларидандир.

Фойдаланилган адабиётлар руйхати

1. Рахимов А. Компьютер лингвистикаси асослари. 2011. 189.

2. Данияров Б. Узбек тилининг миллий корпусида лексик синонимларни бериш масаласи Хорижий филология .№4, 2019 йил 10-б.

3. Б.Менглиев Узбек тилининг миллий корпуси Янги Узбекистан газетаси. -Т., 2021 йил 7-апрел. 69-сон.

i Надоели баннеры? Вы всегда можете отключить рекламу.