Научная статья на тему 'ZAMONAVIY TILSHUNOSLIKDA PARALLEL KORPUS VA UNING AHAMIYATI'

ZAMONAVIY TILSHUNOSLIKDA PARALLEL KORPUS VA UNING AHAMIYATI Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
262
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
kompyuter lingvistikasi / korpus tilshunoslik / Braun korpusi / parallel korpus matnlari (PKM) / manba tili (MT) / tarjima tili (TT) ilmiy matnlar parallel korpusi

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Toshpolatova Dilshoda Karimjonovna

Ushbu maqola korpus va uning ahamiyati, korpus turlari, o`zbek tili ilmiy matnlari parallel korpusi lingvistik manbalarning yangi turi hamda matnlarning parallel korpuslarini tuzish muammolari masalalariga bag`ishlangan.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ZAMONAVIY TILSHUNOSLIKDA PARALLEL KORPUS VA UNING AHAMIYATI»

>q )> d )> :>

Talqin va tadqiqotlar respublika ilmiy-uslubiy jurnali №5

ZAMONAVIY TILSHUNOSLIKDA PARALLEL KORPUS VA UNING

Ж

AHAMIYATI

Toshpo'latova Dilshoda Karimjonovna

Namangan davlat universiteti lingvistika (o'zbek tili) yo'nalishi magistranti https://doi.org/10.5281/zenodo.7264441

Annotatsiya: Ushbu maqola korpus va uning ahamiyati, korpus turlari, o'zbek tili ilmiy matnlari parallel korpusi lingvistik manbalarning yangi turi hamda matnlarning parallel korpuslarini tuzish muammolari masalalariga bag'ishlangan.

Kalit so'zlar: kompyuter lingvistikasi, korpus tilshunoslik, Braun korpusi,parallel korpus matnlari (PKM),manba tili (MT), tarjima tili (TT) ilmiy matnlar parallel korpusi

Аннотация: Данная статья посвящена корпусу и его значению, видам

______ _______ _____„ „ " __ _____

корпусу узбекских научных текстов в новому типу лингвистических

>

*

источников и проблемам создания параллельного корпуса текстов.

Ключевые слова: компьютерная лингвистика, корпусная лингвистика, Браун корпус, параллельный корпус, исходным язык, язык перевода,

-

параллельный корпус научных текстов

Annotation: This article deals with the corpus and its significance, types of corpus, parallel corpus of Uzbek scientific texts, a new type of linguistic sources and the problems of creating parallel corpus of texsts.

Key words: computer linguistics, corpus linguistics, Brown Corpus, parallel corpus, source language, translation language,parallel corpus of scientific texts.

Zamon shiddat bilan rivojlanib borayotgan bir davrda dunyo ijtimoiy-siyosiy, iqtisodiy va madaniy sohalaridagi o'zgarishlar birinchi galda tilda oz aksini topadi. Har bir xalq, millat oz tilini asrab qolish, rivojlantirish va dunyoga tanitish uchun

harakat qiladi. Tillarni saqlab qolish milliy ma naviyatni saqlab qolish demakdir.

XIX asr oxiri XX asrning boshlarida kompyuter texnologiyalari rivojlanishi va internet tarmog'ining keng yoyilishi zamonaviy tilshunoslikning kompyuter

УМ

lingvistikasi va korpus tilshunosligi sohalarining paydo bo'lishiga zamin yaratdi.. XX asrning 90-yillari birinchi yarmida korpus tilshunosligi til to'g'risidagi fanning alohida qismi sifatida shakllandi. Shu bilan birga, u kompyuter tilshunosligi bilan

J "1 > ^^ ^

yaqindan hamkorlik qiladi,uning yutuqlaridan foydalanadi va o'z navbatida, uni

boyitadi. Korpus - bu bir necha yoki muayyan til matnlarining yig'indisiga asoslangan elektron shaklda to'plangan malumot (so'rovnoma)lar tizimidir.Milliy korpus esa miiawan tilning malum davr (yoki Havrlar)Hapi manomi ianflan

korpus esa muayyan tilning malum davr (yoki davrlar)dagi maqomi, janrlari,

u, • u j j; ____1 , ^ • • u, • „ ___r ___

uslublari, hududiy va ijtimoiy ko'rinishlari va boshqalarni o'z ichiga oladi. Milliy

ЩЪ ПЙ»-

: * ^ * n>

>q )> d )> :>

Talqin va tadqiqotlar respublika ilmiy-uslubiy jurnali №5

^фш tilshunoslikning koгpus lingvistikasi mutaxassislari tomonidan tuziladi. [1] Bu

#

ilmiy tadqiqotlaг va til o^ganish uchun xizmat qiladi.Mashhrn- filolog olim V. P.Zaxaгov tabiri bilan aytganda, koгpussiz bugungi kunning nazariy hamda amaliy filologiyasini tasavvuг etish qiyin.Muxtasar qilib aytadigan bo'lsak, katta hajmli va tizimga solingan matn^ toplamidan iboгat til manbasi hisoblanadi. Koгpus tilshunosligida ulaг malum Ыг til doiгasida yoki tilning malum bo'limida statistic tahlillami amalga oshirish, qaгashlaгni, tildagi hodisalaг yoki nazariy qoidalami

! Ш-

tekshirish uchun foydalaniladi.

Kompyuteгda yaratilgan biгinchi matnlaг koгpusi Bгaun korpusi(BK,inglizcha Bгown Coгpus, BC) hisoblanib, 1961-yilda Bгaun univeгsitetida yaгatilgan, haг biri 2000 so'zli 500ta matn fragmentini oz ichiga oladi. 1970-yillaгda 1mln so'zni oz ichiga olgan matn^ koгpusi asosida гus tilining chastotali lug'ati yaгatildi.[2] Keyinchalik kompyuteг leksikografiyasining гivojlanishi natijasida katta hajmli matn^ koгpusiga ehtiyoj tug'ildi va yirik hajmli matnlaг koгpusi yaгatila boshladi.

\¿ r\ r\ m n о mnml о of л n v^ v^ о о m 1 n rr vi 1 t n 11 n n non 1лао n I oK лпппотг 1ллтпг<1п1* +iiti1 n

Ko'pgina mamlakatlaгda XX asming S0- yillaridan boshlab bunday koгpuslaг tuzila

boshladi. Ulaг tuгli maqsad va vazifala^a xizmat qiladi. Koгpusning janri va гang -baгangligi foydalanuvchining sohasi yoki qiziqishlariga bog'liq. Masalan, ilm-fan doirasida Wikipedia katta hajmdagi matn^ koгpusi sifatida

»

foydalanilmoqda.Shuningdek, Miгzo Ulug'bek nomidagi Ozbekiston Milliy univeгsiteti dotsenti, filologiya fanlari doktoгi Nilufaг Abduгaxmonova гahbaгligida

"Ozbek tili кофшГ' yaгatilgan. Ushbu когрш taгkibida ichki koгpus- subkoгpuslaг ham mavjud:

. Paгallel koгpus . Mualliflik koгpusi . Talimiy koгpus

Hoziгgi tilshunosligimizning yutug'i sifatida talim koгpuslari, sheva matnlaгi koгpusi, poetik matnlaT koгpusi, og'zaki, ilmiy, rasmiy matnlaг koгpusi, paгallel koгpus kabi qator mikгokoгpuslaгning tuzilayotganligini ko^satish mumkin. Lekin,

m.

bugungi kundagi Ьфш sohasida ishlaгni dengizdan tomchi sifatida bnsh mumkin. Ayгim sohalaг ^фш^ hali yaгatilmaganligi esa yosh tilshunoslaT oldida tuгgan dolzaгb masalalaг ekanligini ko^satadi. J-jt

Koгpus tuгlari haqida to'xtaladigan bo'lsak, ixtisoslashgan, malumotli, ko'p tilli, paгallel, o^ganish, qiyosiy, diaxranik va monitoг kabilami ko^satish mumkin. Parallellik mezoniga ko'ra koгpuslaг Ыг tilli, ikki tilli va ko'p tilliga bo'linadi. Ko'p tilli ^фштвд 2 tuгi mavjud:

1)biг-biгining tariimasi bo'lgan matnli koгpus;

2)Ыг mavzuga oid ikki tildagi matnli ^фш; [3]

v> ¡>

>q ] i )> >

a >

u>,* ^ t<ns

WiW к/

>q )> q )> :>

Talqin va tadqiqotlar respublika ilmiy-uslubiy jurnali №5

Birinchi tipdagi korpus - parallel korpus (parallel corpora) deb

#

>

nomlanib,malum bir tarjimaning turli aspektini o'rganish uchun qoTlaniladi. Parallel korpus oz navbatida yana turga boTinadi: 1 .Moslashtirilgan (aligned) 2. Moslashtirilmagan (not aligned )

"Moslashtirilgan " atamasi korpusda tarjima birliklari orasida bir- birini taqazo etuvchi aniq aloqa mavjudligini bildiradi va aynan mana shu tip korpuslar afzallikka ega. Parallel matn korpusi - lingvistik manbalarning nisbatan yangi turi.. Bu turdagi

o r ° J ° °

birinchi manbalar 1980 -yillarning oxiri - 1990 -yillarning boshlarida paydo bo'lgan. So'nggi o'n yil ichida parallel matnli korpuslar bilan bog'liq bo'lgan bir qancha loyihalar ishga tushirildi. Matnlarning parallel korpuslarini tuzishda, bir tili va qiyosiy matnlardan farqli o'laroq, madaniyatlararo munosabatlar omilini hisobga olish zarur. Manba tili (MT) matnlari faqat ikkinchi tilga (TT) tarjima qilingan matnlardir. Shunday qilib, agar madaniyatlararo aloqa umuman bo'lmasa, PKM

Trnrn+n r~\ \ ion mi î ml^i n a m n n I ^ot t\ o+l nr r\ rfn ni rln Inrli ni Anolnt* rl o ro moi rvn \t- r~\ rn nnrnl l al

yarata olish mumkin emas Davlatlar o'rtasida turli aloqalar darajasiga ko'ra parallel

korpusga ehtiyoj paydo boTadi. Parallel korpus, xuddi ikkita lingvistik madaniyatning kesishish nuqtasidir. Umuman olganda PKM ni tuzishda tadqiqotchi ixtiyorida quyidagi til resurslari bo'lishi mumkin: • maxsus matnlar; • ommaviy

»

axborot vositalari matnlari; • ilmiy matnlar; • badiiy matnlar.

Parallel matn uchun segmentlash va lingvistik tahlil jarayonida Wordfast kabi instrumentlar samarali texnologik vosita hisoblanadi. [4] Yuqoridagi matn turlarining hech biri PKM uchun barqaror va universal manba bo'la olmaydi Ilmiy matnlar

ko'pincha tarjima ob'ektiga aylanadi, lekin bu yerda bir qator tushuntirishlar berish

, ....................... .....

kerak. Ko'pincha olimning o'zi tinglovchilarining ko'pchiligiga tanish bo'lgan tilda yozadi (lotin - o'rta asrlarda, fransuz yoki nemis - XIX asrda, ingliz tili va rus tili hozirgi paytda). Korpus materiali asosida statistik metod orqali qaysi so'zlar doim birgalikda qoTlanilishi, shuning natijasida turg'un birikmaga qanchalik aloqador ekanligini aniqlash mumkin.[5] Tilga oid tadqiqotlarni yanada samaraliroq qilish uchun korpuslar annotatsiyalanadi. Masalan, korpusni annotatsiyalashning bir turi bu so'zlarni teglash hisoblanasi (POS - tagging). Bu so'zning turkumi vas hu turkum kategoriyalari asosida teglab chiqish tushuniladi. Yani bolalarga so'zi quyidagi

J-jt

malumotlarni tashiydi: ot, ko'plik, jo'nalish kelishigi. Ayni shu malumotlar teglar orqali so'zga biriktirib chiqiladi. Annotatsiyalashning yana bir ko'rinishi ozaklash (lemmatizatsiya) boTib, u so'zning tayanch shaklini ko'rsatib berish hisoblanadi. Masalan, bolalar, bolaning, bolaga so'zi uchta shaklda turibdi., lekin ularning asosi

j>*

bir xil - kitob. [6] Korpusning yana bir qulayligi, unda so'zlarning bir- biri bilan bogTanib kela olish qobiliyati(valentlik)ni ham kuzatish mumkin. Buning uchun korpusga biror so'zni kiritib, shu so'z oldidan keladigan uchta, ortidan keladigan uchta so'zni ham qo'shib chiqarishi kerakligi haqida so'rov yuboramiz. Biz kiritgan * : j*

: * ^ * n>

ы> >>

* : >

й*

>>

^ >3> 1

Я>

>3»

Ы >

! Й>

>j*

Я*

Ы>

) yoJ )

)W J>

] >4>

Щ »

ш >>

>

Talqin va tadqiqotlar respublika ilmiy-uslubiy jurnali №5

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

so'zimizning oldidan va ortidan keladigan uchtadan so'zni saralangan ko'rinishini olamiz. O'zbek tili ilmiy matnlari parallel korpusini yaratishda quyidagi yo'nalishlarni belgilab olish mumkin:

- birinchidan, bu ilmiy terminlar lug'atini yaratish va leksikografik tadqiqotlar olib borishdir. Bu masala o'zbek tilshunosligida yangi masalalardan hisoblanib, ko'plab ilmiy tadqiqotlar olib borilmoqda. Ilmiy matnlar parallel korpusini yaratish nafaqat o'zbek tilshunosligi, balki jahon tilshunosligida ham yangi va dolzarb masala hisoblanadi. - ikkinchidan, ilmiy matnlar korpusini o'rganish orqali tillarning leksik tarkibi haqida aniq ma'lumotlar olish, ilmiy terminlarning qo'llanish chastotalarini tuzish. Shu o'rinda aytish joizki, korpusning leksikologiya sohasida ahamiyati shuki, so'zning qo'llanilish davri va chastotasini aniqlashda hech qanday vosita korpusga tenglasha olmaydi. Ilmiy matnlar tadqiqida katta ahamiyat kasb etadi.

Xulosa o'rnida shuni aytish mumkinki, har qanday til jamiyatda saqlanib qolishi uchun va ayni navbatda dunyo ilm -fani rivojida o'zining o'rnini topishi lozim va bunda parallel korpusning o'rni nihoyatda katta. Korpus tilshunoslikning istalgan sohasida tadqiqotlarrni olib borishning sifatli va samarali bo'lishiga yordam beradi. Ilmiy matnlar parallel korpusini yaratishda madaniyatlararo munosabatlar omilini ham hisobga olish zarur.

Adabiyotlar:

1. Primov A. Qodirova X. Tilshunoslikning dolzarb muammolari. Urganch, 2019. 58- b

2. Raximov A. Kompyuter lingvistikasi asoslari, - Toshkent "Akademnashr" - 2011

3. Abdurahmonova M..Rayimjonova M.M "Korpus lingvistikasida tarjimashunoslik masalasi" maqolasi

4. Abduraxmonova N.Z. "Ozbek tili elektron korpusining kompyuter modellari" avtoreferat 16-bet

5. Захаров В.П. Корпусная лингвистика. Учебно-методическое пособие. 2005. С-48

6. https://shokiryuldash.blogspot.com/2020/06/korpus-nima-korpus-tilshunosligi.html

jW^ У

q

Ш

L*

Ыщ

* I |>

щ>

Ы > Ы >

3 >4»

+Н >

л w> -

» \ л

ы*

Qj^f^S).

75

Ъ>Л

щ >

q

^Н >

Ы:> *ф>

ИИ>

М4 >

>Н >

Ы j>

щ >

]>Ж

q J>р

Ц >р

Р4>

|:Н> q йъ Ы >

q

Щ >

q i

i Надоели баннеры? Вы всегда можете отключить рекламу.